Regresion Lineal Simple

DEPARTAMENTE DE INGENIERÍA INDUSTRIAL

Oscar Rivera Dzib |

CARRERA: INGENIERÍA INDUSTRIAL

SEMESTRE: CUARTO

GRUPO: VI-3

MATERIA: ESTADÍSTICA INFERENCIAL II

TITULO DEL TRABAJO:

ALUMNO: ÓSCAR IVÁN RIVERA DZIB

MATRICULA:11470334

MAESTRO: BOCOS PATRÓN

SAN FRANCISCO DE CAMPECHE 2012

INDICE

LA REGRESIÓN LINEAL SIMPLE

ANTECEDENTES MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES

UNA DEFINICIÓN FORMAL DE LA R.L.S

EL DIAGRAMA DE DISPERSIÓN

TIPOS DE MODELOS DE REGRESIÓN

DETERIMNACIÓN DE LA ESCUACIÓN DE LA R.L.S

EL MÉTODO DE MÍNIMOS CUADRADOS DETERIMNACIÓN DE LOS COEFICIENTES β0 Y β1

AJUSTE E INTERPRETACIÓN DE LA RECTA

INTERPRETACIÓN DE LA PENDIENTE DEL MODELO

SUPOSICIONES DE LA R.L.S

INFERENCIAS EN LA R.L.S

ERROR ESTÁNDAR DE LA MEDICIÓN PRUEBA “t” DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIÓN DE LA REGRESIÓN) ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIÓN DE LA REGRESIÓN I. DE C. PARA β1 Y β0 (PENDIENTE Y ORDENADA DEL MODELO) I. DE C. PARA LA MEDIA μy , x I. DE C. DE PREDICCIÓN PARA UNA OBSERVACIÓN FUTURA Y i

EVALUACIÓN DE LA ADECUACIÓN DEL MODELO DE REGRESIÓN

ANÁLISIS RESIDUAL EL COEFICIENTE DE DETERMINACIÓN

INTRODUCCIÓN MEDIDAS DE VARIACIÓN EN LA REGRESIÓN Y CORRELACIÓN * SCT (SST), SCR (SSR), SCE (SSE) CÁLCULO DEL COEFICIENTE E INTERPRETACIÓN

PRUEBA DE FALTA DE AJUSTE

EL ANÁLISIS DE CORRELACIÓN

INTRODUCCIÓN CÁLCULO DEL COEFICIENTE P. DE H. E INTERPRETACIÓN

TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA

LA REGRESIÓN LINEAL SIMPLE

ANTECEDENTES

El término "regresión" fue acuñado por Sir Francis Galton (1822-1911), primo de

Charles Darwin. Galton estudiaba la eugénica, término también introducido por sí

mismo para definir el estudio de la mejora de la raza humana a partir de los

caracteres hereditarios.

Galton estudió la altura de los hijos con relación a la altura de sus padres, y probó

que la altura de hijos altos “regresaba” hacia la media de la altura de la población

a lo largo de sucesivas generaciones. En otras palabras, hijos de padres

extraordinariamente altos tendían a ser en promedio más bajos que sus padres, e

hijos de padres muy bajos tendían a ser en promedio más altos que sus padres.

En la actualidad, el término de regresión se utiliza siempre que se busca predecir

una variable en función de otra, y no implica que se esté estudiando si se está

produciendo una regresión a la media. Anteriormente a Galton se debe mencionar

a Legendre (1752-1833), quien introdujo el método de los mínimos cuadrados

utilizándolos para definir la longitud de 1 metro como una diez millonésima parte

del arco meridional. Con posterioridad a Galton, las propiedades de las técnicas

de regresión fueron estudiadas por Edgeworth, Pearson y Yule.

La técnica de regresión lineal simple está indicada cuando se pretende explicar

una variable respuesta cuantitativa en función de una variable explicativa

cuantitativa también llamada variable independiente, variable regresora o variable

predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura.

El modelo intentaría aproximar la variable respuesta mediante una función lineal

de la variable explicativa.

Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:

El modelo propuesto es lineal (es decir existe relación entre la variable

explicativa y la variable explicada, y esta relación es lineal).

La variable explicativa se ha medido sin error.

Para estudiar la validez del modelo es necesario confirmar estas hipótesis

mediante el estudio de los residuos (valores observados - valores

predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios

de aplicación es necesario realizar transformaciones a las variables, o bien

para obtener una relación lineal o bien para homogeneizar la varianza.

MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES

Técnicas univariables:

Se analiza cada variable de forma aislada.

Técnicas Bivariables

Establece relación o asociación entres dos variables y mide su intensidad.

Relaciones descriptivas de asociación (sexo y categoría de comprador)

Relaciones causales (causa-efecto), experimentación.

Las más utilizadas en Marketing son X2 y el análisis de la varianza

Técnicas multivariables

Dependencia: Analizan una o más variables dependientes a través de dos o más variables independientes, para explicar un fenómeno y/o realizar un análisis como base de una predicción.

Técnicas: regresión múltiple, análisis de varianza y conjunto

Independencia: estudian la interrelación entre todas las variables como un conjunto. Su objetivo puede ser organizar los datos reduciendo su dimensionalidad y haciéndolos más manejables para el investigador y ofrecer una mayor comprensión global de su estructura subyacente.

UNA DEFINICIÓN FORMAL DE LA R.L.S

Es un método de modelación que usa una ecuación de regresión lineal para

relacionar la variable conocida (X) es decir la independiente, con la variable

dependiente (Y). Para determinar a primera instancia la relación entre las dos

variables se hará el diagrama de dispersión, que es la representación gráfica de

los datos observados.

EL DIAGRAMA DE DISPERSIÓN

El diagrama de dispersión es una gráfica del tipo X, Y cuyo objetivo es analizar

la forma en que dos variables numéricas están relacionadas. El diagrama de

dispersión se obtiene coleccionando los datos en pares de valores sobre dos

variables (x,y). Las parejas de datos obtenidos se representan a través de puntos

en una gráfica del tipo X – Y (ejes de coordenada cartesianos).

El análisis de un diagrama de dispersión puede mostrar varios tipos de

correlaciones entre las variables con un intervalo de confianza determinado. La

correlación puede ser positiva (Y aumenta con X), negativa (Y disminuye con X), o

nula (las variables no están correlacionadas).

El diagrama de dispersión es una de las herramientas básicas de gestión de la

calidad, muy útil al analizar las causas de un problema y para Identificar

oportunidades de mejora continua.

TIPOS DE MODELOS DE REGRESIÓN

Se pueden clasificar los tipos de regresión según diversos criterios:

a) En función del número de variables independientes:

Regresión simple: Cuando la variable Y depende únicamente de una única

variable X.

Regresión múltiple: Cuando la variable Y depende de varias variables (X1,

X2,…., Xr)

b) En función del tipo de función f(x):

Regresión lineal: cuando f(x) es una función lineal.

Regresión no lineal: cuando f(x) no es una función lineal.

c) En función de la naturaleza de la relación que exista entre las dos variables:

La variable X puede ser la causa del valor de la variable Y

Por ejemplo, en toxicología, si X = Dosis de la droga e Y = Mortalidad, la

mortalidad se atribuye a la dosis administrada y no a otras causas.

d) Puede haber simplemente relación entre las dos variables:

http://www.ecured.cu/index.php/Mejora_continua

http://www.ecured.cu/index.php/Gesti%C3%B3n_de_la_calidad

http://www.ecured.cu/index.php/Gesti%C3%B3n_de_la_calidad

Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso

e Y = Altura de un grupo de individuos, puede haber relación entre las dos, aunque

difícilmente una pueda considerarse causa de la otra.

DETERIMNACIÓN DE LA ESCUACIÓN DE LA R.L.S

EL MÉTODO DE MÍNIMOS CUADRADOS

Este método encuentra las estimaciones para los parámetros en la ecuación

seleccionada mediante la minimización de la suma de cuadrados de las

diferencias entre los valores observados de la variable de respuesta y de aquellos

proporcionados por la ecuación de predicción. Estos valores se conocen como los

estimadores por mínimos cuadrados (EMC) de los parámetros.

Usando la ecuación yi=β0+β1 x i+εi , las n observaciones de la muestra pueden expresarse como:

yi=β0+β1 x i+εi, i = 1, 2,…., n

Y la suma de los cuadrados de las desviaciones de las observaciones de la verdadera recta de regresión es:

L=∑i=1

n

ε j2=∑

i=1

n

( yi−β0+ β1 x1 )2

Los estimadores de mínimos cuadrados de β0 y β1 , por ejemplo β0 y β1, deben satisfacer:

∂ L∂ β0

∨ β0 , β1=−2∑i=1

n

( y i− β0+ β1 x i )=0

∂ L∂ β1

∨ β0 , β1=−2∑i=1

n

( y i− β0+ β1 x i ) xi=0

Al simplificar estas dos ecuaciones se obtiene:

n β0+ β1∑i=1

n

x i=∑i=1

n

( y i)

β0∑i=1

n

xi+ β1∑i=1

n

x2i=∑

i=1

n

y i x i

DETERIMNACIÓN DE LOS COEFICIENTES β0 Y β1

Se ha seleccionado la forma correcta de la ecuación de regresión. Esto implica

que cualquier variabilidad de la variable de respuesta que no pueda explicarse

mediante el empleo de la ecuación de regresión, se debe a un error aleatorio.

Por ejemplo, se sabe que la distancia de que recorre un objeto en un tiempo t,

está dada por la siguiente relación:

d=β0+β1 t

Donde β1 es la velocidad promedio y β0 es la posición del objeto para t=0. Si no

fuese posible medir d en forma precisa para un valor dado de t, pero se

observó un valor:

y=d+£

Donde £ es el error aleatorio, se ha seleccionado la forma correcta de la ecuación de regresión y el problema se reduce a estimar los valores de β0 y β1. Sin embargo, rara es la vez que el problema resulta ser tan sencillo.

AJUSTE E INTERPRETACIÓN DE LA RECTA

INTERPRETACIÓN DE LA PENDIENTE DEL MODELO

SUPOSICIONES DE LA R.L.S

1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribución normal de valores de Y

(subpoblaciones Y)

4. Las varianzas de las subpoblaciones Y son todas iguales

5. Todas las medias de las subpoblaciones de Y están sobre la recta

6. Los valores de Y están normalmente distribuidos y son estadísticamente

independientes.

INFERENCIAS EN LA R.L.S

ERROR ESTÁNDAR DE LA MEDICIÓN

El error estándar de la estimación designado por s Y X mide la disparidad

"promedio" entre los valores observados y los valores estimados de . Se utiliza

la siguiente formula.

PRUEBA “t” DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIÓN DE LA REGRESIÓN)

T 0=β1−β1,0❑

√ σ 2

Sxx

Sigue una distribución t con n-2 grados de libertad bajo: H 0=β1−β1,0 . Se

rechazarían H 0=β1−β1,0si:

|t 0|>t α2,n−2

Donde t 0se calcula con la ecuación T 0=

β1−β1,0❑

√ σ 2

Sxx

El denominador de la ecuación anterior es el error estándar de la pendiente, por lo que el

estadístico de la prueba podría escribirse como:

T 0=β1−β1,0❑

se ( β1 )

Puede ser un procedimiento similar para probar hipótesis cerca de la ordenada al origen.

Para probar:

H 0=β0=β0,0

H 0=β0≠ β0,0

Se usaría el estadístico:

T 0=β0−β0,0

√ σ2[ 1n+ x

2

Sxx ]=β0−β0,0

se ( β0 )

ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIÓN DE LA

REGRESIÓN

Puede usarse un método llamada análisis de varianza para probar la significación

de una regresión. En el procedimiento se ahce la partición de la variabilidad total

de la variable de respuesta en componentes significativos como base de la

prueba. El análisis de identidad de la varianza es el siguiente:

∑i=1

n

( y1− y )2=∑i=1

n

( y1− y )2+∑i=1

n

( y1− yi )2

Las dos componentes del miembro derecho de la ecuación anterior miden,

respectivamente, la cantidad de variabilidad en y i explicada por la recta de

regresión y la variación residual que queda sin explica por la recta de regresión.

I. DE C. PARA β1 Y β0 (PENDIENTE Y ORDENADA DEL MODELO)

Bajo el supuesto de que las observaciones tienen una distribución normal e

independiente, un intervalo de confianza del 100(1-α) por ciento para la pendiente

β1 en una regresión lineal simple es:

β1−t α2, n−2√ σ2

Sxx≤ β1≤ β1+ t α

2,n−2 √ σ2

Sxx

De manera similar, un intervalo de confianza del 100(1-α) por ciento para la

ordenada al origen β0 es:

β0−t α2,n−2 √σ2[ 1

n+ x

2

Sxx ]≤β0≤ β0+t α2,n−2 √σ2[ 1

n+ x

2

Sxx ]

I. DE C. PARA LA MEDIA μy , x

Puede construirse un intervalo de confianza a partir de la respuesta media en un

valor especificado de x, por ejemplo, x0. Éste es un intervalo de confianza

alrededor de E (Y∨x0 )=μy∨ x0,al que suele llamársele intervalo de confianza

alrededor de la recta de regresión. Puesto que E (Y∨x0 )=μy∨ x0=β0+β1 x0 ,puede

obtenerse una estimación puntual de μy∨ x0a partir del modelo ajustado como:

μy∨ x0= β0+ β1 x0

Entonces μy∨ x0 es un estimador puntual insesgados de μy∨ x0

,ya que β0 y β1 son

estimadores insesgados de β0 y β1

Un intervalo de confianza del 100(1-α) por ciento alrededor de la respuesta media

en el valor de x = x0, simbolizando μy∨ x0, está dado por:

μy∨ x0−t α

2, n−2√σ2[ 1

n+

(x0−x )2

Sxx ]≤μ y∨x0≤ μy∨ x0

+t α2,n−2 √σ2[ 1

n+

(x0−x )2

S xx ]Donde:

μy∨ x0= β0+ β1 x0

Se calcula a partir del modelo de regresión ajustado.

I. DE C. DE PREDICCIÓN PARA UNA OBSERVACIÓN FUTURA Y i

Una aplicación importante de los modelos de regresión es predecir observaciones

nuevas o futuras Y que correspondan a un nivel de especificado de la variable de

regresión x. Si x0 es el valor de la variable de regresión de interés, entonces:

Y 0= β0+ β1 x0

Es el estimador puntual del valor nuevo o futuro de la respuesta Y0

Se considera ahora cómo obtener la estimación de un intervalo para esta

observación futura Y0. Esta nueva observación es independiente de las

observaciones utilizadas para desarrollar el modelo de regresión. Por lo tanto, el

intervalo de confianza para μy∨ x0

EVALUACIÓN DE LA ADECUACIÓN DEL MODELO DE REGRESIÓN

El ajuste de un modelo de regresión requiere varios supuestos. La estimación de

los parámetros del modelo requiere el supuesto de que los errores son variables

aleatorias no correlacionadas con media cero y varianza constante. Las pruebas

de hipótesis y la estimación de intervalos requieren que los errores tengan una

distribución normal. Además, se supone que el orden del modelo es correcto; es

decir, si se ajusta un modelo de regresión lineal simple, entonces se está

suponiendo que el fenómeno se comparta en realidad de manera lineal o de

primer orden.

El analista deberá considerar siempre la validación de estos supuestos, deberá ser

precavido y llevar a cabo análisis a fin de examinar la adecuación del modelo que

se ha propuesto de manera tentativa.

ANÁLISIS RESIDUAL

Los residuales de un modelo de regresión son e i= y i− yi , i=1 ,2 ,…,n , donde y i es

una observación real y y i es el valor ajustado correspondientemente con el modelo

de regresión. El análisis de los residuales con frecuencia resulta de utilidad para

verificar el supuesto de que los errores siguen una distribución normal aproximada

con varianza constante, así como para determinar si sería conveniente incluir

términos adiciones en el método.

Como verificación aproximada de la normalidad, el experimentador puede

construir un histograma de frecuencias de los residuales o una gráfica de

probabilidad normal de los residuales.

EL COEFICIENTE DE DETERMINACIÓN

INTRODUCCIÓN

El estadístico R2 deberá usarse con cuidado, ya que siempre es posible hacer R2

igual a la unidad mediante la simple adición de términos suficientes al modelo. Por

ejemplo, puede obtenerse un ajuste “perfecto” para n datos o puntos observados

con un polinomio de grado n-1. Además, R2 siempre incrementará si se agrega

una variable al modelo, aunque esto no implica necesariamente que el nuevo

modelo sea superior al original. A menos que la suma de cuadrados de los errores

del nuevo modelo tenga una reducción por una cantidad igual al cuadrado medio

del error original, el nuevo modelo tendrá un cuadrado medio del error mayor que

original, debido a la pérdida de un grado de libertad del error. Por tanto, el nuevo

modelo será en realidad peor que el original.

Hay varias concepciones erróneos en cuanto a R2. En general, R2 no mide la

magnitud de la pendiente de la recta de regresión. Un valor grande de R2 no

implica una pendiente pronunciada.

Por otra parte, R2 no mide la adecuación del modelo, ya que puede inflarse

artificialmente agregando al modelo términos polinómicos en x de orden superior.

Incluso si y y x están relacionadas en una forma no lineal, R2 con frecuencia será

grande

MEDIDAS DE VARIACIÓN EN LA REGRESIÓN Y CORRELACIÓN

SCT (SST), SCR (SSR), SCE (SSE)

Fuente de Suma de Grados de Cuadrado F0

variación cuadrados libertad medio

Regresión SSR= β1Sxy 1 MSR MSR/MSE

Error SSE=SST− β1Sxy n - 2 MSE

Total SST n - 1

CÁLCULO DEL COEFICIENTE E INTERPRETACIÓN

A la cantidad:

R2=SSRSST

=1−SS ESST

Se le llama coeficiente de determinación y se usa con frecuencia para juzgar la

adecuación de un modelo de regresión. Más adelante se verá que en que en el caso en

que X y Y son variables aleatorias con una distribución conjunta.

R2 es elcuadrodel coeficiente decorrelación entre X yY.

PRUEBA DE FALTA DE AJUSTE

Con frecuencia los modelos de regresión se ajustan a los datos para proporcionar

un modelo empírico cuando la verdadera relación entre las variables Y y x es

desconocida. Naturalmente, a uno le interesa saber si el orden del modelo

propuesto de manera tentativa es el correcto.

Se presenta ahora una prueba de la “bondad de ajuste” del modelo de regresión.

Específicamente, las hipótesis que quieren probarse son:

H0: El modelo de regresión lineal simple es correcto

H1: El modelo de regresión lineal simple no es correcto

SSE=SSPE+SSLOF

Donde SSPE es la suma de los cuadrados atribuible al error puro, y SSLOF es la

suma de los cuadrados atribuible a la falta de ajuste del modelo. Para calcular SSPE

, deben tenerse observaciones repetidas de la respuesta Y para al menos un nivel

de x.

EL ANÁLISIS DE CORRELACIÓN

INTRODUCCIÓN

En el análisis de regresión desarrollado aquí se ha propuesto que x es una

variable matemática medida con mayo omisible, y que Y es una variable aleatoria.

Muchas aplicaciones del análisis de regresión incluyen situaciones en las que

tanto X como Y son variables aleatorias. En estas situaciones, es común suponer

que las observaciones (Xi, Yi), i = 1,2,…, n, son variables aleatorias con una

distribución conjunta que se obtiene de la distribución f(x,y).

Por ejemplo, suponga que quiere desarrollarse un modelo de regresión que

relacione la resistencia al corte de los puntos de soldadura con el diámetro de los

mismos. En este ejemplo, el diámetro de la soldadura no puede controlarse. Al

analista le gustaría seleccionar aleatoriamente n puntos de soldadura y observar el

diámetro (Xi) y la resistencia al corte (Yi) de cada uno de ellos. Por lo tanto (Xi, Yi)

son variables aleatorias con una distribución conjunta.

CÁLCULO DEL COEFICIENTE

Se supone que la distribución de Xi y Yi es la distribución normal de dos variables,

y que µy y σ y2son la media y la varianza de X, y que ρ es el coeficiente de

correlación entre Y y X. Recuérdese que el coeficiente de correlación se define

como:

ρ=σ xyσx σ y

Donde σ xy es la covarianza entre Y y X.

La distribución condicional de y para un valor dado de X=x es:

f y∨x=1

√2π σ y∨xexp [−1

2 ( y−β0+ β1 xσ y∨x )

2]Donde:

β0=μ y−μx ρσ yσ x

β1=σ yσ xρ

Y la varianza de la distribución condicional de Y dada X=x es:

σ y∨x2 =σ y

2 (1−ρ2)

Es decir, la distribución condicional de Y dada X ) x es normal con media:

E (Y|x )=β0+β1 x

P. DE H. E INTERPRETACIÓN

Con frecuencia es útil probar las hipótesis:

H 0 : ρ=0

H 1=ρ≠0

El estadístico para la prueba apropiado para estas hipótesis es:

T 0=R √n−2

√1−R2

TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA

En ocasiones se encuentra que el modelo de regresión lineal y=β0+β1 x+ε no es

apropiado debido a que la verdadera función de regresión es no lineal. Algunas

veces la naturaleza no lineal del modelo se determina por inspección visual del

diagrama de dispersión, y algunas veces se debe de antemano, como resultado

de experiencias previas o de la teoría implícita, que el modelo es no lineal. En

ocasiones, un diagrama de dispersión mostrará una aparente relación no lineal Y y

X. en algunas de esas situaciones, una función no lineal puede expresarse como

una línea recta mediante el uso de la transformación pertinente. A tales modelos

no lineales se les llama intrínsecamente lineales.

BIBLIOGRAFÍA:

Regresion Lineal Simple

Documents

Transcript of Regresion Lineal Simple