ANÁLISIS DE REGRESIÓN - academic.uprm.eduacademic.uprm.edu/eacuna/cap1sl.pdf · Analisis de...

31
ANÁLISIS DE REGRESIÓN Edgar Acuña Fernandez Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez

Transcript of ANÁLISIS DE REGRESIÓN - academic.uprm.eduacademic.uprm.edu/eacuna/cap1sl.pdf · Analisis de...

ANÁLISIS DE REGRESIÓNEdgar Acuña Fernandez

Departamento de MatemáticasUniversidad de Puerto Rico

Recinto Universitario de Mayagüez

Analisis de Regresion Enero, 2013

REGRESIÓN LINEAL SIMPLE • Regresión: conjunto de técnicas que son usadas

para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Cuando hay solo una predictora se llama regresion simple.

• Modelo de regresión. Ecuación que representa la relación entre las variables. Cuando el modelo es lineal se llama regresion lineal

• Para estimar la ecuación del modelo se debe tener una muestra de entrenamiento.

Edgar Acuña

Analisis de Regresion Enero, 2013

Ejemplo 1NACION %INMUNIZACION TASA_mor

1 "Bolivia" 77 1182 "Brazil" 69 653 "Cambodia" 32 1844 "Canada" 85 85 "China" 94 436 "Czech_Republic" 99 127 "Egypt" 89 558 "Ethiopia" 13 2089 "Finland" 95 710 "France" 95 911 "Greece" 54 912 "India" 89 12413 "Italy" 95 1014 "Japan" 87 615 "Mexico" 91 3316 "Poland" 98 1617 "Russian_Federation" 73 3218 "Senegal" 47 14519 "Turkey" 76 8720 "United_Kingdom" 90 9

Edgar Acuña

Analisis de Regresion Enero, 2013Edgar Acuña

20 40 60 80 100

050

100

150

200

porcentaje de inmunizacion

tasa

de

mor

talid

adRelacion de la tasa de mortalidad con el porcentaje de inmunizacion

Bolivia

Brazil

Cambodia

Canada

China

Czech_Republ

Egypt

Ethiopia

FinlandFrance

Greece

India

Italy

Japan

Mexico

PolandRussian_Federation

Senegal

Turkey

United_Kingdom

Analisis de Regresion Enero, 2013

Ejemplo de una linea de Regresion

Edgar Acuña

20 40 60 80 100

050

100

150

200

porcentaje de inmunizacion

tasa

de mor

talid

ad

Relacion de la tasa de mortalidad con el porcentaje de inmunizacion

Bolivia

Brazil

Cambo

dia

Canad

a

China

Czech

_Rep

ubli

Egypt

Ethiopia

Finlan

dFranc

e

Greece

India

Italy

Japa

n

Mexico

PolandRus

sian_

Federa

tion

Seneg

al

Turkey

United

_King

dom

y = 224.3163 + -2.135869x

Analisis de Regresion Enero, 2013

1.1.1Usos del análisis de regresión

a) Predicciónb) Descripciónc) Controld) Selección de variables

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2 El modelo de Regresión Lineal simple

Considerando la muestra (Xi,Yi) para i=1,…n

• Suposiciones del modelo:La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante σ2.Los errores y (i≠j=1…,n) son independientes entre si ie

εβα ++= XY

iii eXY ++= βα

je

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.1Estimación de la línea de regresión usando Mínimos Cuadrados

Se debe Minimizar

( )βα,Q ∑=

n

iie

1

2 ∑=

−−n

iii xy

1

2)( βα=

Derivando parcialmente con respecto a α y β se obtiene un par de ecuaciones normales para el modelo, cuya solucion produce

∑ ∑

∑∑∑

= =

===

−= n

i

n

iii

n

ii

n

ii

n

iii

xxn

yxyxn

1

2

1

2

111

)(β

xy βα ˆˆ −=

xx

xy

SS

=βO equivalentemente

=

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.2 Interpretación de los coeficientes de regresión estimados

La pendiente indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional.

El intercepto indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable considerar que el rango de valores de x incluye a cero.

β)

α)

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.3 Propiedades de los estimadores mínimos cuadráticos de regresión

a) es un estimador insegado de β. Es decir, E( )=β

b) es un estimador insegado de α. Es decir, E( )=α

c) La varianza de es y la de es

β)

β)

α) α)

β)

Sxx

2σ α)

)1(2

2

Sxxx

n+σ

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.4 Distribución de los estimadores mínimos cuadráticos

Para efecto de hacer inferencia en regresión, se requiere asumirque los errores , se distribuyen en forma normal eindependientemente con media 0 y varianza constante . Enconsecuencia, también las s se distribuyen normalmente conmedia y varianza .Se puede establecer que:

ie2σ

'iy

ixβα + 2σ

),(~ˆ2

xxSN σββ ))1(,(~ˆ 2

2

σααxxS

xn

N +

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.5 Propiedades de los residuales

Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la línea de regresión.

a) La suma de los residuales es 0. Es decir,

b)

c)

01

=∑=

n

iir

01

=∑=

n

iii xr

01

=∑=

n

iii yr )

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.7 Descomposición de la suma de cuadrados total

)()()( yyyyyy iiii −+−=− ))

La desviacion de un valor observado de la variable de respuesta con respecto a su media se puede escribir como:

=−∑=

n

ii yy

1

2)( ∑=

−n

iii yy

1

2)( ) ∑=

−n

ii yy

1

2)( )+

SST = SSE + SSR

∑=

−=n

ii xxSSR

1

22 )(β

Se puede deducir que

Edgar Acuña

Analisis de Regresion Enero, 2013

Las sumas de cuadrados son formas cuadráticas del vector aleatorio Yy por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados:

i) (Ji-Cuadrado no central con n-1 g.l)

ii) Equivalentemente

iii) (Ji-Cuadrado no central con 1 g.l)

2)1(2 '~ −n

SST χσ

2)2(2 ~ −n

SSE χσ

2)2(2

2

~)2(−

−n

sn χσ

2)1(2 '~ χ

σSSR

Edgar Acuña

xxxx SSESSRE 222 )ˆ()( βσβ +==

Se puede demostrar que:

Analisis de Regresion Enero, 2013

1.2.6 Estimación de la varianza del error

• Un estimador insesgado de es: 2σ

22

)(1

2

1

2

2

−=

−=

∑∑==

n

r

n

yys

n

ii

n

iii)

2s es tambien llamado el cuadrado medio del error (MSE)

Edgar Acuña

Analisis de Regresion Enero, 2013

1.2.8 El Coeficiente de Determinación

Es una medida de la bondad de ajuste del modelo

Un modelo de regresion con mayor o igual a 75% se puedeconsiderar bastante aceptable.

Nota: El valor de es afectado por la presencia de valoresanormales.

%100*2

SSTSSRR =

2R

2R

2R

Edgar Acuña

Analisis de Regresion Enero, 2013

1.3 Inferencia en Regresion Lineal Simple

• Pruebas de hipótesis e intervalos de confianza acerca de loscoeficientes de regresión del modelo de regresión poblacional.

• Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta

Edgar Acuña

Analisis de Regresion Enero, 2013

1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t.

La pendiente de regresión se distribuye como una normal conmedia β y varianza

Un intervalo de confianza del 100(1-α)% para la pendientepoblacional β es de la forma:

Donde α representa el nivel de significación.

),( )2/,2()2/,2( Sxxst

Sxxst nn αα ββ −− +−

))

Sxx

Edgar Acuña

Analisis de Regresion Enero, 2013

Intervalo de confianza para el intercepto α

Un intervalo de confianza del 100(1-α)% para el intercepto α dela linea de regresión poblacional es de la forma:

)1,1(2

)2/,2(

2

)2/,2( Sxxx

nst

Sxxx

nst nn +++− −− αα αα ))

Edgar Acuña

Analisis de Regresion Enero, 2013

Pruebas de hipótesis para la pendiente β(asumiendo que su valor es β* )

Caso I Caso II Caso IIIHo: β=β* Ho: β=β* Ho: β=β*Ha: β<β* Ha: β≠β* Ha: β>β*

Prueba Estadística

Regla de DecisiónRechazar Ho, Rechazar Ho Rechazar Ho

si tcal<-t(α,n-2) si |tcal |>t(α/2,n-2) si tcal>t(α,n-2)*Un “P-value” cercano a cero sugiere rechazar la hipótesis nula.

)2(~*−

−= nt

Sxxst ββ

)

Edgar Acuña

Analisis de Regresion Enero, 2013

1.3.2 El análisis de varianza para regresión lineal simple

El análisis de varianza para regresión consiste en descomponerla variación total de la variable de respuesta en varias partesllamadas fuentes de variación.

La división de la suma de cuadrados por sus grados de libertades llamada cuadrado medio. Así se tienen tres cuadrados medios.Cuadrado Medio de Regresión=MSR=SSR/1Cuadrado Medio del Error= MSE=SSE/(n-2)Cuadrado Medio del Total=MST=SST/(n-1)

Edgar Acuña

Analisis de Regresion Enero, 2013

Tabla de Análisis de Varianza

________________________________________________________________Fuente de Variación g.l. Sumas de Cuadrados Cuadrados Medios F________________________________________________________________Debido ala Regresion 1 SSR MSR=SSR/1Error n-2 SSE MSE=SSE/(n-2)Total n-1 SST________________________________________________________________

Se rechazaría la hipótesis nula Ho:β=0 si el “P-value” de laprueba de F es menor de 0.05

MSEMSR

Edgar Acuña

Analisis de Regresion Enero, 2013

Intervalo de confianza para el valor medio de la variable de respuesta e Intervalo de Predicción

Queremos predecir el valor medio de las Y para un valor x0 dela variable predictora x.

El estimador natural es Como las Y’s se distribuyen normalmente, entonces también se distribuye normalmente con

media E(Y/X=xo)y varianza igual a:

oo xY β+α= ˆˆˆ00)/( xxxYE βα+==

))(1()ˆ(

202

0 Sxxxx

nYVar

−+= σ

oY

Edgar Acuña

Analisis de Regresion Enero, 2013

Intervalo de confianza (cont)

Un intervalo de confianza del 100(1- )% para el valor mediode las y’s dado que x=x0 es de la forma:

Trabajando con la diferencia se tiene

Luego el intervalo de predicción para un valor individual de Y dado x=x0

es de la forma

α

Sxxxx

nstx n

20

)2,2/(0)(1ˆˆ −

+±+ −αβα

00 YY −

0)ˆ( 00 =−YYE ))(11()ˆ(

202

00 Sxxxx

nYYVar

−++=− σ

Sxxxx

nstx n

20

)2,2/(0)(11ˆˆ −

++±+ −αβα

Edgar Acuña

Analisis de Regresion Enero, 2013

1.4 El Coeficiente de Correlación

Mide el grado de asociación lineal entre las variables X y Y y se

define como:

a)b) La media condicional de Y dado X es ,donde: y c) La varianza condicional de las Y dado X, está dado por

Si entonces (perfecta relación lineal).

yx

YXCovσσ

ρ ),(=

11 ≤≤− ρ

xXYE βα +=)/(

x

y

σσ

ρβ = xy βμμα −=

)1( 222/ ρσσ −= yxy

1±=ρ 02/ =xyσ

Edgar Acuña

Analisis de Regresion Enero, 2013

Coeficiente de correlación muestral

Considerando una muestra de n pares (xi,yi)

Notar que:

El cuadrado del coeficiente de correlación es igual al coeficientede determinación.

SxxSyySxyr =

SyySxxr β

)=

SSTSSR

SyySxxr ==

22 β

)

Edgar Acuña

Analisis de Regresion Enero, 2013

1.5 Análisis de residuales

Los residuales, son estimaciones de los errores del modelo y sirven para establecer si las suposiciones del modelo se cumplen y para explorar el porqué de un mal ajuste del modelo. Podemos ver:

• Si la distribución de los errores es normal y sin “outliers”.• Si la varianza de los errores es constante y si se requieren

transformaciones de las variables.• Si la relación entre las variables es efectivamente lineal o

presenta algún tipo de curvatura• Si hay dependencia de los errores, especialmente en el caso de

que la variable predictora sea tiempo.

Edgar Acuña

Analisis de Regresion Enero, 2013

Tipos de residuales

i) Residual Estandarizado, se divide el residual entre la desviación estándar del error. Es decir,

ii) Residual Estudentizado, se divide el residual entre su desviación estándar estimada. Es decir,

))(11(

2

Sxxxx

ns

yy

i

ii

−−−

− )

syy ii)−

Edgar Acuña

Analisis de Regresion Enero, 2013

1.5.1 Cotejando normalidad de los errores y detectando outliers

La normalidad de los errores es un requisito indispensable paraque tengan validez las pruebas estadísticas de t y F que se usan enregresión.

La manera más fácil es usando gráficas tales como: histogramas,“stem-and-leaf” o “Boxplots”.

El plot de Normalidad, plotea los residuales versus los scores normales ( valores que se esperarían si existiera normalidad).

Edgar Acuña

Analisis de Regresion Enero, 2013

1.5.2 Cotejando que la varianza sea constante

Se plotea los residuales estandarizados versus los valoresajustados o versus la variable predictora X.

Si los puntos del plot caen en una franja horizontal alrededor de 0entonces la varianza es constante.

Si los puntos siguen algún patrón entonces se dice que lavarianza no es constante.

Nota: Se debe tener cuidado con la presencia de outliers.

Edgar Acuña

Analisis de Regresion Enero, 2013

1.5.3 Cotejando si los errores estan correlacionados.

Cuando la variable predictora es tiempo, puede ocurrir quelos errores esten correlacionados secuecialmente entre si.

Prueba de Durbin-Watson, mide el grado de correlación de un error con el anterior y el posterior a él.

Estadístico

D varía entre 0 y 4. Si D esta cerca de 0 los errores están correlacionados positivamente. Si D está cerca de 4 entonces la correlación es negativa.

La distribución de D es simétrica con respecto a 2. Así que un valor deD cercano a 2 indica que no hay correlación de los errores.

=

=−−

= n

ii

n

iii

e

eeD

1

2

2

21 )(

Edgar Acuña