ANÁLISIS DE REGRESIÓN

download ANÁLISIS DE REGRESIÓN

of 31

Transcript of ANÁLISIS DE REGRESIÓN

ANLISIS DE REGRESINEdgar Acua FernandezDepartamento de Matemticas Universidad de Puerto Rico Recinto Universitario de Mayagez

REGRESIN LINEAL SIMPLE Regresin: conjunto de tcnicas que son usadas para establecer una relacin entre una variable cuantitativa llamada variable dependiente y una o ms variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Modelo de regresin. Ecuacin que representa la relacin entre las variables. Para estimar la ecuacin del modelo se debe tener una muestra de entrenamiento.

EjemploNACION %INMUNIZACION 1 "Bolivia" 77 2 "Brazil" 69 3 "Cambodia" 32 4 "Canada" 85 5 "China" 94 6 "Czech_Republic" 99 7 "Egypt" 89 8 "Ethiopia" 13 9 "Finland" 95 10 "France" 95 11 "Greece" 54 12 "India" 89 13 "Italy" 95 14 "Japan" 87 15 "Mexico" 91 16 "Poland" 98 17 "Russian_Federation" 73 18 "Senegal" 47 19 "Turkey" 76 20 "United_Kingdom" 90 TASA_mor 118 65 184 8 43 12 55 208 7 9 9 124 10 6 33 16 32 145 87 9

Ejemplo de una linea de Regresion

Usos del anlisis de regresin:a) Prediccin b) Descripcin c) Control d) Seleccin de variables

El modelo de Regresin Lineal simple

Y ! E FX IConsiderando la muestra (xi,yi) para i=1,n

Yi ! E FX iei Suposiciones del modelo:La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante W2. Los errores ei y e j (i{j=1,n) son independientes entre si

Estimacin de la lnea de regresin usando Mnimos CuadradosSe debe Minimizar

Q F = E,

n

e

2 i

n

i !1

=

(yi !1

i

E Fx i ) 2

Derivando se obtiene un par de ecuaciones normales para el modelo, cuya solucion producen n n

F!

nxi yi xi yii!1 n 2 i i!1 n i!1 2

O equivalentemente

F !

S xy S xx

nx (xi )i!1 i !1

! y Fx

1.2.2 Interpretacin de los coeficientes de regresin estimadosLa pendiente indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretacin prctica si es irrazonable considerar que el rango de valores de x incluye a cero.

F

1.2.3 Propiedades de los estimadores mnimos cuadrticos de regresin a) F es un estimador insegado de F. Es decir, E( F )=F

b)

es un estimador insegado de E. Es decir, E( E )=E E varianza de F

c) La

es

W2 Sxx

y la de E

es

1 x2 2 ( ) n Sxx

1.2.4 Propiedades de los residualesLos residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la lnea de regresin.n

a) b) c)

La suma de los residuales es 0. Es decir, ri ! 0 i !1n

ri x i ! 0i !1n

ri y i ! 0

i !1

1.2.5 Estimacin de la varianza del error Un estimador insesgado de W 2 es:s2 ! ( yi yi ) 2 n i !1 n

r!i !1

2

i

n2

n2

s 2 es tambien llamado el cuadrado medio del error

(MSE)

1.2.6 Descomposicin de la suma de cuadrados totalLa desviacion de un valor observado con respecto a la media se puede escribir como: ( yi y ) ! ( yi yi ) ( yi y )

( yi y ) 2 !i !1

n

( yi yi ) 2 n i !1

n i !1

(y

i

y) 2

SST = SSE + SSR Se puede deducir que

SSR ! F 2 ( xi x ) 2i !1

n

R2 1.2.7 El Coeficiente de DeterminacinEs una medida de la bondad de ajuste del modelo2

!

SS * 100 % SST

R2 mayor o igual a 75% se puede Un modelo de regresion conconsiderar bastante aceptable.R 2 es afectado por la presencia de valores Nota: El valor de anormales.

1.2.8 Distribucin de los estimadores mnimos cuadrticosPara efecto de hacer inferencia en regresin, se requiere asumir que los errors ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante W . En consecuencia, tambin las y i ' s se distribuyen normalmente con E Fxi y varianza W 2 media . Se puede establecer que: W2 1 x2 2 F ~ N(F , ) E N (E , ( )W ) Sxx n S xx

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados: i)

SS ~ G '(2n 1) (Ji-Cuadrado no central con n-1 g.l) W2

ii)

SSE ~ G (2n 2) W2

Equivalentemente

(n 2) s 2 ~ G (2n 2 ) 2 W

iii)

SSR ~ G '(21) (Ji-Cuadrado no central con 1 g.l) W2

Podemos mostrar que:

E ( SSR ) ! E ( F 2 S xx ) ! W 2 F 2 S xx

1.3 Inferencia en Regresion Lineal Simple Pruebas de hiptesis e intervalos de confianza acerca de los coeficientes de regresin del modelo de regresin poblacional. Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta

1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t.La pendiente de regresin se distribuye como una normal con W2 media F y varianzaSxx

Un intervalo de confianza del 100(1-E)% para la pendiente poblacional F es de la forma: ( F t ( n 2 ,E / 2 ) s Sxx , F t ( n 2 ,E / 2 ) s Sxx )

El nivel de significacin E, vara entre 0 y 1.

Intervalo de confianza para el intercepto EUn intervalo de confianza del 100(1-E)% para el intercepto E de la linea de regresin poblacional es de la forma:

1 x2 1 x2 (E t ( n 2,E / 2 ) s , E t ( n 2,E / 2 ) s ) n Sxx n Sxx

Pruebas de hiptesis para la pendiente F (asuminendo que su valor es F* )Caso I Ho: F=F* Ha: F F* Caso II Ho: F=F* Ha: F{F* Caso III Ho: F=F* Ha: F"F*

Prueba Estadstica

Regla de Decisin Rechazar Ho, Rechazar Ho

F F* t! ~ t( n 2) s Sxx

Rechazar Ho

si tcalt(E/2,n-2) si tcal>t(E,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.

1.3.2 El anlisis de varianza para regresin lineal simpleEl anlisis de varianza para regresin consiste en descomponer la variacin total de la variable de respuesta en varias partes llamadas fuentes de variacin. La divisin de la suma de cuadrados por sus grados de libertad es llamada cuadrado medio. As se tienen tres cuadrados medios. Cuadrado Medio de Regresin=MSR=SSR/1 Cuadrado Medio del Error= MSE=SSE/(n-2) Cuadrado Medio del Total=MST=SST/(n-1)

Tabla de Anlisis de Varianza________________________________________________________________ Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F ________________________________________________________________ Debido a MS la Regresion 1 SSR MSR=SSR/1 Error n-2 SSE MSE=SSE/(n-2) MSE Total n-1 SST ________________________________________________________________

Se rechazara la hiptesis nula Ho:F=0 si el P-value de la prueba de F es menor de 0.05

1.3.3 Intervalo de confianza para el valor medio dela variable de respuesta e Intervalo de PrediccinQueremos predecir el valor medio de las Y para un valor x0 de la variable predictora x. (Y / x ! x0 ) ! E Fx 0 Como y se distribuyen normalmente, entonces tambin se distribuye normalmente con media y varianza igual a:1 ( x0 x ) 2 ) Var (Y0 ) ! W 2 ( n Sxx

Intervalo de confianza para el valor medioUn intervalo de confianza del 100(1-E )% para el valor medio de las ys dado que x=x0 es de la forma:1 ( x0 x ) 2 E F x 0 s t (E / 2 , n 2 ) s n Sxx

Trabajando con la diferencia Y0 E (Y0 Y0 ) ! 0

Y0

1 ( x0 x ) 2 Var (Y0 Y0 ) ! W 2 (1 ) n Sxx

intervalo de prediccin para un valor individual de Y dado x=x0 es de la forma1 ( x0 x ) 2 E F x 0 s t (E / 2 , n 2 ) s 1 n Sxx

1.4 Anlisis de residualesLos residuales, son estimaciones de los errores del modelo sirven para establecer si las suposiciones del modelo se cumplen y para explorar el porqu de un mal ajuste del modelo. Podemos ver: Si la distribucin de los errores es normal y sin outliers. Si la varianza de los errores es constante y si se requieren transformaciones de las variables. Si la relacin entre las variables es efectivamente lineal o presenta algn tipo de curvatura Si hay dependencia de los errores, especialmente en el caso de que la variable predictora sea tiempo.

Tipos de residualesi) Residual Estandarizado, se divide el residual entre ladesviacin estndar del error. Es decir, yi yi s

ii) Residual Estudentizado, se divide el residual entre sudesviacin estndar estimada. Es decir, y i yi 1 ( xi x ) 2 ) s (1 n Sxx

1.4.1 Cotejando normalidad de los errores y detectando outliersLa normalidad de los errores es un requisito indispensable para que tengan validez las pruebas estadsticas de t y F que se usan en regresin. La manera ms fcil es usando grficas tales como: histogramas, stem-and-leaf o Boxplots. El plot de Normalidad, plotea los residuales versus los valores que se esperaran si existiera normalidad.

1.4.2 Cotejando que la varianza sea constanteSe plotea los residuales estandarizados versus los valores ajustados o versus la variable predictora X. Si los puntos del plot caen en una franja horizontal alrededor de 0 entonces la varianza es constante. Si los puntos siguen algn patrn entonces se dice que la varianza no es constante. Nota: Se debe tener cuidado con la presencia de outliers.

1.4.3 Cotejando si los errores estan correlacionados.Cuando la variable predictora es tiempo, puede ocurrir que los errores esten correlacionados secuecialmente entre si.Prueba de Durbin-Watson, mide el grado de correlacin de un error con el anterior y el posterior a l. Estadstico n

(eD!i!2

i n

ei 1 ) 22 i

ei !1

D vara entre 0 y 4. Si D esta cerca de 0 los errores estn correlacionados positivamente. Si D est cerca de 4 entonces la correlacin es negativa. La distribucin de D es simtrica con respecto a 2. As que un valor de D cercano a 2 indica que no hay correlacin de los errores.

1.5 El Coeficiente de Correlacinmide el grado de asociacn lineal entre las variables X y Y y se define como:Cov( X , Y ) V! W xW y

a) 1 e V e 1 b) La media condicional de Y dado X es E(Y / X ) ! E Fx , donde: F ! V W y y E ! Q y FQ x Wx c) La varianza condicional de las Y dado X, est dado por2 2 W y / x ! W y (1 V 2 )

Si V ! s1 entonces W 2 ! 0 (perfecta relacin lineal). y/x

Coeficiente de correlacin muestralConsiderando una muestra de n pares (xi,yi)

r !Notar que: Sxx r!F Syy

Sxy SxxSyy2 F Sxx SS 2 r ! ! Syy SST

El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin.