Regresion Lineal Simple
Click here to load reader
-
Upload
oscar-rivera-dzib -
Category
Documents
-
view
95 -
download
2
Transcript of Regresion Lineal Simple
DEPARTAMENTE DE INGENIERÍA INDUSTRIAL
Oscar Rivera Dzib |
CARRERA: INGENIERÍA INDUSTRIAL
SEMESTRE: CUARTO
GRUPO: VI-3
MATERIA: ESTADÍSTICA INFERENCIAL II
TITULO DEL TRABAJO:
ALUMNO: ÓSCAR IVÁN RIVERA DZIB
MATRICULA:11470334
MAESTRO: BOCOS PATRÓN
SAN FRANCISCO DE CAMPECHE 2012
INDICE
LA REGRESIÓN LINEAL SIMPLE
ANTECEDENTES MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES
UNA DEFINICIÓN FORMAL DE LA R.L.S
EL DIAGRAMA DE DISPERSIÓN
TIPOS DE MODELOS DE REGRESIÓN
DETERIMNACIÓN DE LA ESCUACIÓN DE LA R.L.S
EL MÉTODO DE MÍNIMOS CUADRADOS DETERIMNACIÓN DE LOS COEFICIENTES β0 Y β1
AJUSTE E INTERPRETACIÓN DE LA RECTA
INTERPRETACIÓN DE LA PENDIENTE DEL MODELO
SUPOSICIONES DE LA R.L.S
INFERENCIAS EN LA R.L.S
ERROR ESTÁNDAR DE LA MEDICIÓN PRUEBA “t” DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIÓN DE LA REGRESIÓN) ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIÓN DE LA REGRESIÓN I. DE C. PARA β1 Y β0 (PENDIENTE Y ORDENADA DEL MODELO) I. DE C. PARA LA MEDIA μy , x I. DE C. DE PREDICCIÓN PARA UNA OBSERVACIÓN FUTURA Y i
EVALUACIÓN DE LA ADECUACIÓN DEL MODELO DE REGRESIÓN
ANÁLISIS RESIDUAL EL COEFICIENTE DE DETERMINACIÓN
INTRODUCCIÓN MEDIDAS DE VARIACIÓN EN LA REGRESIÓN Y CORRELACIÓN * SCT (SST), SCR (SSR), SCE (SSE) CÁLCULO DEL COEFICIENTE E INTERPRETACIÓN
PRUEBA DE FALTA DE AJUSTE
EL ANÁLISIS DE CORRELACIÓN
INTRODUCCIÓN CÁLCULO DEL COEFICIENTE P. DE H. E INTERPRETACIÓN
TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA
LA REGRESIÓN LINEAL SIMPLE
ANTECEDENTES
El término "regresión" fue acuñado por Sir Francis Galton (1822-1911), primo de
Charles Darwin. Galton estudiaba la eugénica, término también introducido por sí
mismo para definir el estudio de la mejora de la raza humana a partir de los
caracteres hereditarios.
Galton estudió la altura de los hijos con relación a la altura de sus padres, y probó
que la altura de hijos altos “regresaba” hacia la media de la altura de la población
a lo largo de sucesivas generaciones. En otras palabras, hijos de padres
extraordinariamente altos tendían a ser en promedio más bajos que sus padres, e
hijos de padres muy bajos tendían a ser en promedio más altos que sus padres.
En la actualidad, el término de regresión se utiliza siempre que se busca predecir
una variable en función de otra, y no implica que se esté estudiando si se está
produciendo una regresión a la media. Anteriormente a Galton se debe mencionar
a Legendre (1752-1833), quien introdujo el método de los mínimos cuadrados
utilizándolos para definir la longitud de 1 metro como una diez millonésima parte
del arco meridional. Con posterioridad a Galton, las propiedades de las técnicas
de regresión fueron estudiadas por Edgeworth, Pearson y Yule.
La técnica de regresión lineal simple está indicada cuando se pretende explicar
una variable respuesta cuantitativa en función de una variable explicativa
cuantitativa también llamada variable independiente, variable regresora o variable
predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura.
El modelo intentaría aproximar la variable respuesta mediante una función lineal
de la variable explicativa.
Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:
El modelo propuesto es lineal (es decir existe relación entre la variable
explicativa y la variable explicada, y esta relación es lineal).
La variable explicativa se ha medido sin error.
Para estudiar la validez del modelo es necesario confirmar estas hipótesis
mediante el estudio de los residuos (valores observados - valores
predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios
de aplicación es necesario realizar transformaciones a las variables, o bien
para obtener una relación lineal o bien para homogeneizar la varianza.
MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES
Técnicas univariables:
Se analiza cada variable de forma aislada.
Técnicas Bivariables
Establece relación o asociación entres dos variables y mide su intensidad.
Relaciones descriptivas de asociación (sexo y categoría de comprador)
Relaciones causales (causa-efecto), experimentación.
Las más utilizadas en Marketing son X2 y el análisis de la varianza
Técnicas multivariables
Dependencia: Analizan una o más variables dependientes a través de dos o más variables independientes, para explicar un fenómeno y/o realizar un análisis como base de una predicción.
Técnicas: regresión múltiple, análisis de varianza y conjunto
Independencia: estudian la interrelación entre todas las variables como un conjunto. Su objetivo puede ser organizar los datos reduciendo su dimensionalidad y haciéndolos más manejables para el investigador y ofrecer una mayor comprensión global de su estructura subyacente.
UNA DEFINICIÓN FORMAL DE LA R.L.S
Es un método de modelación que usa una ecuación de regresión lineal para
relacionar la variable conocida (X) es decir la independiente, con la variable
dependiente (Y). Para determinar a primera instancia la relación entre las dos
variables se hará el diagrama de dispersión, que es la representación gráfica de
los datos observados.
EL DIAGRAMA DE DISPERSIÓN
El diagrama de dispersión es una gráfica del tipo X, Y cuyo objetivo es analizar
la forma en que dos variables numéricas están relacionadas. El diagrama de
dispersión se obtiene coleccionando los datos en pares de valores sobre dos
variables (x,y). Las parejas de datos obtenidos se representan a través de puntos
en una gráfica del tipo X – Y (ejes de coordenada cartesianos).
El análisis de un diagrama de dispersión puede mostrar varios tipos de
correlaciones entre las variables con un intervalo de confianza determinado. La
correlación puede ser positiva (Y aumenta con X), negativa (Y disminuye con X), o
nula (las variables no están correlacionadas).
El diagrama de dispersión es una de las herramientas básicas de gestión de la
calidad, muy útil al analizar las causas de un problema y para Identificar
oportunidades de mejora continua.
TIPOS DE MODELOS DE REGRESIÓN
Se pueden clasificar los tipos de regresión según diversos criterios:
a) En función del número de variables independientes:
Regresión simple: Cuando la variable Y depende únicamente de una única
variable X.
Regresión múltiple: Cuando la variable Y depende de varias variables (X1,
X2,…., Xr)
b) En función del tipo de función f(x):
Regresión lineal: cuando f(x) es una función lineal.
Regresión no lineal: cuando f(x) no es una función lineal.
c) En función de la naturaleza de la relación que exista entre las dos variables:
La variable X puede ser la causa del valor de la variable Y
Por ejemplo, en toxicología, si X = Dosis de la droga e Y = Mortalidad, la
mortalidad se atribuye a la dosis administrada y no a otras causas.
d) Puede haber simplemente relación entre las dos variables:
Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso
e Y = Altura de un grupo de individuos, puede haber relación entre las dos, aunque
difícilmente una pueda considerarse causa de la otra.
DETERIMNACIÓN DE LA ESCUACIÓN DE LA R.L.S
EL MÉTODO DE MÍNIMOS CUADRADOS
Este método encuentra las estimaciones para los parámetros en la ecuación
seleccionada mediante la minimización de la suma de cuadrados de las
diferencias entre los valores observados de la variable de respuesta y de aquellos
proporcionados por la ecuación de predicción. Estos valores se conocen como los
estimadores por mínimos cuadrados (EMC) de los parámetros.
Usando la ecuación yi=β0+β1 x i+εi , las n observaciones de la muestra pueden expresarse como:
yi=β0+β1 x i+εi, i = 1, 2,…., n
Y la suma de los cuadrados de las desviaciones de las observaciones de la verdadera recta de regresión es:
L=∑i=1
n
ε j2=∑
i=1
n
( yi−β0+ β1 x1 )2
Los estimadores de mínimos cuadrados de β0 y β1 , por ejemplo β0 y β1, deben satisfacer:
∂ L∂ β0
∨ β0 , β1=−2∑i=1
n
( y i− β0+ β1 x i )=0
∂ L∂ β1
∨ β0 , β1=−2∑i=1
n
( y i− β0+ β1 x i ) xi=0
Al simplificar estas dos ecuaciones se obtiene:
n β0+ β1∑i=1
n
x i=∑i=1
n
( y i)
β0∑i=1
n
xi+ β1∑i=1
n
x2i=∑
i=1
n
y i x i
DETERIMNACIÓN DE LOS COEFICIENTES β0 Y β1
Se ha seleccionado la forma correcta de la ecuación de regresión. Esto implica
que cualquier variabilidad de la variable de respuesta que no pueda explicarse
mediante el empleo de la ecuación de regresión, se debe a un error aleatorio.
Por ejemplo, se sabe que la distancia de que recorre un objeto en un tiempo t,
está dada por la siguiente relación:
d=β0+β1 t
Donde β1 es la velocidad promedio y β0 es la posición del objeto para t=0. Si no
fuese posible medir d en forma precisa para un valor dado de t, pero se
observó un valor:
y=d+£
Donde £ es el error aleatorio, se ha seleccionado la forma correcta de la ecuación de regresión y el problema se reduce a estimar los valores de β0 y β1. Sin embargo, rara es la vez que el problema resulta ser tan sencillo.
AJUSTE E INTERPRETACIÓN DE LA RECTA
INTERPRETACIÓN DE LA PENDIENTE DEL MODELO
SUPOSICIONES DE LA R.L.S
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4. Las varianzas de las subpoblaciones Y son todas iguales
5. Todas las medias de las subpoblaciones de Y están sobre la recta
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.
INFERENCIAS EN LA R.L.S
ERROR ESTÁNDAR DE LA MEDICIÓN
El error estándar de la estimación designado por s Y X mide la disparidad
"promedio" entre los valores observados y los valores estimados de . Se utiliza
la siguiente formula.
PRUEBA “t” DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIÓN DE LA REGRESIÓN)
T 0=β1−β1,0❑
√ σ 2
Sxx
Sigue una distribución t con n-2 grados de libertad bajo: H 0=β1−β1,0 . Se
rechazarían H 0=β1−β1,0si:
|t 0|>t α2,n−2
Donde t 0se calcula con la ecuación T 0=
β1−β1,0❑
√ σ 2
Sxx
El denominador de la ecuación anterior es el error estándar de la pendiente, por lo que el
estadístico de la prueba podría escribirse como:
T 0=β1−β1,0❑
se ( β1 )
Puede ser un procedimiento similar para probar hipótesis cerca de la ordenada al origen.
Para probar:
H 0=β0=β0,0
H 0=β0≠ β0,0
Se usaría el estadístico:
T 0=β0−β0,0
√ σ2[ 1n+ x
2
Sxx ]=β0−β0,0
se ( β0 )
ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIÓN DE LA
REGRESIÓN
Puede usarse un método llamada análisis de varianza para probar la significación
de una regresión. En el procedimiento se ahce la partición de la variabilidad total
de la variable de respuesta en componentes significativos como base de la
prueba. El análisis de identidad de la varianza es el siguiente:
∑i=1
n
( y1− y )2=∑i=1
n
( y1− y )2+∑i=1
n
( y1− yi )2
Las dos componentes del miembro derecho de la ecuación anterior miden,
respectivamente, la cantidad de variabilidad en y i explicada por la recta de
regresión y la variación residual que queda sin explica por la recta de regresión.
I. DE C. PARA β1 Y β0 (PENDIENTE Y ORDENADA DEL MODELO)
Bajo el supuesto de que las observaciones tienen una distribución normal e
independiente, un intervalo de confianza del 100(1-α) por ciento para la pendiente
β1 en una regresión lineal simple es:
β1−t α2, n−2√ σ2
Sxx≤ β1≤ β1+ t α
2,n−2 √ σ2
Sxx
De manera similar, un intervalo de confianza del 100(1-α) por ciento para la
ordenada al origen β0 es:
β0−t α2,n−2 √σ2[ 1
n+ x
2
Sxx ]≤β0≤ β0+t α2,n−2 √σ2[ 1
n+ x
2
Sxx ]
I. DE C. PARA LA MEDIA μy , x
Puede construirse un intervalo de confianza a partir de la respuesta media en un
valor especificado de x, por ejemplo, x0. Éste es un intervalo de confianza
alrededor de E (Y∨x0 )=μy∨ x0,al que suele llamársele intervalo de confianza
alrededor de la recta de regresión. Puesto que E (Y∨x0 )=μy∨ x0=β0+β1 x0 ,puede
obtenerse una estimación puntual de μy∨ x0a partir del modelo ajustado como:
μy∨ x0= β0+ β1 x0
Entonces μy∨ x0 es un estimador puntual insesgados de μy∨ x0
,ya que β0 y β1 son
estimadores insesgados de β0 y β1
Un intervalo de confianza del 100(1-α) por ciento alrededor de la respuesta media
en el valor de x = x0, simbolizando μy∨ x0, está dado por:
μy∨ x0−t α
2, n−2√σ2[ 1
n+
(x0−x )2
Sxx ]≤μ y∨x0≤ μy∨ x0
+t α2,n−2 √σ2[ 1
n+
(x0−x )2
S xx ]Donde:
μy∨ x0= β0+ β1 x0
Se calcula a partir del modelo de regresión ajustado.
I. DE C. DE PREDICCIÓN PARA UNA OBSERVACIÓN FUTURA Y i
Una aplicación importante de los modelos de regresión es predecir observaciones
nuevas o futuras Y que correspondan a un nivel de especificado de la variable de
regresión x. Si x0 es el valor de la variable de regresión de interés, entonces:
Y 0= β0+ β1 x0
Es el estimador puntual del valor nuevo o futuro de la respuesta Y0
Se considera ahora cómo obtener la estimación de un intervalo para esta
observación futura Y0. Esta nueva observación es independiente de las
observaciones utilizadas para desarrollar el modelo de regresión. Por lo tanto, el
intervalo de confianza para μy∨ x0
EVALUACIÓN DE LA ADECUACIÓN DEL MODELO DE REGRESIÓN
El ajuste de un modelo de regresión requiere varios supuestos. La estimación de
los parámetros del modelo requiere el supuesto de que los errores son variables
aleatorias no correlacionadas con media cero y varianza constante. Las pruebas
de hipótesis y la estimación de intervalos requieren que los errores tengan una
distribución normal. Además, se supone que el orden del modelo es correcto; es
decir, si se ajusta un modelo de regresión lineal simple, entonces se está
suponiendo que el fenómeno se comparta en realidad de manera lineal o de
primer orden.
El analista deberá considerar siempre la validación de estos supuestos, deberá ser
precavido y llevar a cabo análisis a fin de examinar la adecuación del modelo que
se ha propuesto de manera tentativa.
ANÁLISIS RESIDUAL
Los residuales de un modelo de regresión son e i= y i− yi , i=1 ,2 ,…,n , donde y i es
una observación real y y i es el valor ajustado correspondientemente con el modelo
de regresión. El análisis de los residuales con frecuencia resulta de utilidad para
verificar el supuesto de que los errores siguen una distribución normal aproximada
con varianza constante, así como para determinar si sería conveniente incluir
términos adiciones en el método.
Como verificación aproximada de la normalidad, el experimentador puede
construir un histograma de frecuencias de los residuales o una gráfica de
probabilidad normal de los residuales.
EL COEFICIENTE DE DETERMINACIÓN
INTRODUCCIÓN
El estadístico R2 deberá usarse con cuidado, ya que siempre es posible hacer R2
igual a la unidad mediante la simple adición de términos suficientes al modelo. Por
ejemplo, puede obtenerse un ajuste “perfecto” para n datos o puntos observados
con un polinomio de grado n-1. Además, R2 siempre incrementará si se agrega
una variable al modelo, aunque esto no implica necesariamente que el nuevo
modelo sea superior al original. A menos que la suma de cuadrados de los errores
del nuevo modelo tenga una reducción por una cantidad igual al cuadrado medio
del error original, el nuevo modelo tendrá un cuadrado medio del error mayor que
original, debido a la pérdida de un grado de libertad del error. Por tanto, el nuevo
modelo será en realidad peor que el original.
Hay varias concepciones erróneos en cuanto a R2. En general, R2 no mide la
magnitud de la pendiente de la recta de regresión. Un valor grande de R2 no
implica una pendiente pronunciada.
Por otra parte, R2 no mide la adecuación del modelo, ya que puede inflarse
artificialmente agregando al modelo términos polinómicos en x de orden superior.
Incluso si y y x están relacionadas en una forma no lineal, R2 con frecuencia será
grande
MEDIDAS DE VARIACIÓN EN LA REGRESIÓN Y CORRELACIÓN
SCT (SST), SCR (SSR), SCE (SSE)
Fuente de Suma de Grados de Cuadrado F0
variación cuadrados libertad medio
Regresión SSR= β1Sxy 1 MSR MSR/MSE
Error SSE=SST− β1Sxy n - 2 MSE
Total SST n - 1
CÁLCULO DEL COEFICIENTE E INTERPRETACIÓN
A la cantidad:
R2=SSRSST
=1−SS ESST
Se le llama coeficiente de determinación y se usa con frecuencia para juzgar la
adecuación de un modelo de regresión. Más adelante se verá que en que en el caso en
que X y Y son variables aleatorias con una distribución conjunta.
R2 es elcuadrodel coeficiente decorrelación entre X yY.
PRUEBA DE FALTA DE AJUSTE
Con frecuencia los modelos de regresión se ajustan a los datos para proporcionar
un modelo empírico cuando la verdadera relación entre las variables Y y x es
desconocida. Naturalmente, a uno le interesa saber si el orden del modelo
propuesto de manera tentativa es el correcto.
Se presenta ahora una prueba de la “bondad de ajuste” del modelo de regresión.
Específicamente, las hipótesis que quieren probarse son:
H0: El modelo de regresión lineal simple es correcto
H1: El modelo de regresión lineal simple no es correcto
SSE=SSPE+SSLOF
Donde SSPE es la suma de los cuadrados atribuible al error puro, y SSLOF es la
suma de los cuadrados atribuible a la falta de ajuste del modelo. Para calcular SSPE
, deben tenerse observaciones repetidas de la respuesta Y para al menos un nivel
de x.
EL ANÁLISIS DE CORRELACIÓN
INTRODUCCIÓN
En el análisis de regresión desarrollado aquí se ha propuesto que x es una
variable matemática medida con mayo omisible, y que Y es una variable aleatoria.
Muchas aplicaciones del análisis de regresión incluyen situaciones en las que
tanto X como Y son variables aleatorias. En estas situaciones, es común suponer
que las observaciones (Xi, Yi), i = 1,2,…, n, son variables aleatorias con una
distribución conjunta que se obtiene de la distribución f(x,y).
Por ejemplo, suponga que quiere desarrollarse un modelo de regresión que
relacione la resistencia al corte de los puntos de soldadura con el diámetro de los
mismos. En este ejemplo, el diámetro de la soldadura no puede controlarse. Al
analista le gustaría seleccionar aleatoriamente n puntos de soldadura y observar el
diámetro (Xi) y la resistencia al corte (Yi) de cada uno de ellos. Por lo tanto (Xi, Yi)
son variables aleatorias con una distribución conjunta.
CÁLCULO DEL COEFICIENTE
Se supone que la distribución de Xi y Yi es la distribución normal de dos variables,
y que µy y σ y2son la media y la varianza de X, y que ρ es el coeficiente de
correlación entre Y y X. Recuérdese que el coeficiente de correlación se define
como:
ρ=σ xyσx σ y
Donde σ xy es la covarianza entre Y y X.
La distribución condicional de y para un valor dado de X=x es:
f y∨x=1
√2π σ y∨xexp [−1
2 ( y−β0+ β1 xσ y∨x )
2]Donde:
β0=μ y−μx ρσ yσ x
β1=σ yσ xρ
Y la varianza de la distribución condicional de Y dada X=x es:
σ y∨x2 =σ y
2 (1−ρ2)
Es decir, la distribución condicional de Y dada X ) x es normal con media:
E (Y|x )=β0+β1 x
P. DE H. E INTERPRETACIÓN
Con frecuencia es útil probar las hipótesis:
H 0 : ρ=0
H 1=ρ≠0
El estadístico para la prueba apropiado para estas hipótesis es:
T 0=R √n−2
√1−R2
TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA
En ocasiones se encuentra que el modelo de regresión lineal y=β0+β1 x+ε no es
apropiado debido a que la verdadera función de regresión es no lineal. Algunas
veces la naturaleza no lineal del modelo se determina por inspección visual del
diagrama de dispersión, y algunas veces se debe de antemano, como resultado
de experiencias previas o de la teoría implícita, que el modelo es no lineal. En
ocasiones, un diagrama de dispersión mostrará una aparente relación no lineal Y y
X. en algunas de esas situaciones, una función no lineal puede expresarse como
una línea recta mediante el uso de la transformación pertinente. A tales modelos
no lineales se les llama intrínsecamente lineales.
BIBLIOGRAFÍA: