Capítulo 7

13
Estadística Económ ica 2007-2008. Sar a Mateo. Capítulo 7 Capítulo 7 Regresión y correlación Contenidos: Dependencia funcional o exacta y dependencia estadística Concepto de regresión Método de mínimos cuadrados Análisis de la bondad de ajuste. Error cuadrático medio, y coeficiente de determinación lineal

description

Capítulo 7. Regresión y correlación. Contenidos: Dependencia funcional o exacta y dependencia estadística Concepto de regresión Método de mínimos cuadrados Análisis de la bondad de ajuste. Error cuadrático medio, varianza residual y coeficiente de determinación lineal. - PowerPoint PPT Presentation

Transcript of Capítulo 7

Page 1: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

Capítulo 7Capítulo 7

Regresión y correlación

Contenidos:

Dependencia funcional o exacta y dependencia estadística Concepto de regresión Método de mínimos cuadrados Análisis de la bondad de ajuste. Error cuadrático medio, varianza residual y coeficiente de determinación lineal

Page 2: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

Independencia - DependenciaIndependencia - Dependencia

Cuando se estudian dos características simultáneamente sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. Por ejemplo la altura y el peso o las horas de estudio y la calificación en un examen.

El objetivo principal de la regresión es descubrir el modo en que se relacionan.

Dos variables pueden considerarse:

• Variables independientes No tienen relación (una de ellas no sirve para explicar los movimientos de la otra)

• Dependencia funcional Y=f(x)• Dependencia estadística

Independencia estadística Dependencia funcionalDependencia estadística

Grado de asociación entre dos variables- +

Page 3: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

Dadas dos variables X y Y tomadas sobre el mismo elemento de la población, el diagrama de dispersión es simplemente un gráfico de dos dimensiones, donde en un eje (la abscisa) se sitúa una variable, y en el otro eje (la ordenada) se sitúa la otra variable. Si las variables están correlacionadas, el gráfico mostraría algún nivel de correlación (tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico presentaría una figura sin forma, una nube de puntos dispersos en el gráfico.

GRÁFICOS DE DISPERSIÓN: Permite ver si hay asociación

Asociación positiva. Si aumenta X aumenta Y

Page 4: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

La relación entre dos variables métricas puede ser representada mediante la línea de mejor ajuste a los datos. Esta recta se le denomina recta de regresiónrecta de regresión, que puede ser negativa o positiva, la primera con tendencia decreciente y la segunda creciente.

GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN

Page 5: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles.

GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN

y = a + bx

Page 6: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

1x 2x 3x ix 1nx nx

1y

2y

3y

iy

1ny

ny

Intercepto

PendienteRecta de regresiónRecta de regresión

ˆiy

ˆi i iu y y

yi

iii ubxay

3u iu

Error

Page 7: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

Llamemos a “u” perturbación o error, siendo la diferencia que hay entre el valor observado de la variable exógena (y) y el valor estimado que obtendremos a través de la recta de regresión .

La metodología para la obtención de la recta será hacer MÍNIMA la suma de los CUADRADOS de las perturbaciones. ¿Por qué se elevan al cuadrado?

2 2ˆ( )i i iu y y 2 2

1 1

ˆ( )n n

i i ii i

u y y

22 2

, 1 1 1

ˆ( )minn n n

i i i i iq p i i i

xpu qy y y

ˆiy

ii bxay

a b

Page 8: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

En el modelo de regresión lineal simple la función elegida para aproximar la relación entre las variables es una recta, es decir y=a+bx, donde a,b son los parámetros. A esta recta la llamaremos RECTA DE REGRESIÓN DE Y SOBRE X.

Vamos a deducir su ecuación usando el método de los mínimos cuadrados. Dado un valor de X, tenemos los dos valores de Y, el observado, yi , y el teórico, yi* = a + bxi. Hemos de minimizar los errores cometidos:

n

i

ii

n

i

ii bxaybxay

1

22

1El valor que hemos

aproximado para “y” con la recta de regresión y*

Errores cometidos al aproximar por una recta

MINIMIZARMINIMIZAR

02

02

i

i

ii

i

ii

xbxayb

bxaya

xbyaxbyna

i

i

i

i

i i

ii

i

ii

i i i

ii

xbxayx

xbay

2

22

22

2

2

x

xyxxy

i

i

i

ii

i i

iii

i

ii

i i

ii

i

ii

S

SbbSS

xnxbxnyyx

xbxnxbxn

yyx

xbxxbyyx

Page 9: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

y obtenemos que la recta de regresión de Y sobre X: y = a + bx con los valores a y b anteriormente calculados, o bien la siguiente expresión:

Aplicando el mismo razonamiento llegaríamos a la expresión de la recta de regresión de X sobre Y: x = a’ + b’y con los valores a’ y b’ calculados como:

xxS

Syy

x

xy 2

ybxayS

Sb

y

xy'''

2

Por tanto, se podría expresar como:

yyS

Sxx

y

xy 2

Page 10: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

2

2 2ˆ

y

i iu R

y yS S

N

2

21 u

Y

SR

S

Cuando solo exista una variable explicativa o independiente y una sola dependiente se cumple:

22

222 ' xy

yx

xy

y

xy

x

xyr

SS

S

S

S

S

SbbR

Varianza residual: Ayuda a medir la dependencia.

Si es grande, los residuos, por término medio, serán grandes. Dependencia pequeña y viceversa.

Varianza marginal: Es la varianza total de X o de Y. Si dividimos la varianza residual entre esta se elimina el problema de unidades de medida.

2yS

2xS

VR =

yy

u

VT

VR

S

S

2

2

Elevado al cuadrado obtenemos el coeficiente de determinación que sirve como medida del buen ajuste de la recta de regresión

2R

Ayuda a determinar la asociación pero en sentido inverso. La mejor medida es R.

Haciendo unas transformaciones se demuestra que r(xy) visto en el capítulo 6 sólo es un caso particular de R Rrxy

Coeficiente de correlación general:

Page 11: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

Para el caso de distribuciones bidimensionales: 2 2R r R r

2 21 1 1 1 0 1 0 1r R r R

2 2 2ˆ XY XY XYi i i

X X X

S S Sy y x x y x x

S S S

2ˆ XY Yi i i i

X

X Y Y

Y

Y

X Y X

X

X X

SS Sy y x x y x

S S S

S Sx y x

SS Sr

S Sx

Recta de regresión:

1 0r 0 1r 1r 1r 0r

Pendiente Negativa PositivaNula

Page 12: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

2YS

2 2u ryS S

2 2 22

2 21 u Y u

Y Y

S S SR

S S

2 2 2R Y uS S S

2 22R uY SS S

2R Tanto por uno de la Y que viene explicado por la X

SIRVE PARA DETERMINAR SI EL AJUSTE HECHO ES BUENO. ES DECIR, SI LA VARIABLE X EXPLICA LAS VARIACIONES DE LA VARIABLE Y. DEBERÁ SER > 0.75

VEVRVT

VT

VE

VT

VR1

VR

VE

2

2

Y

R

S

S

Se descompone en:

Page 13: Capítulo 7

Estadística Económica 2007-2008. Sara Mateo.

2ˆ XYi i i

X

Sy q px y x x

S

Dado un valor de la variable “X” que no ha sido observado, estimar el correspondiente valor de “Y”

0 0ˆDado x estimar y

0 0 02ˆ XY

X

Sq p y xy x

Sx

a

a

b

b

El objetivo último de la regresión es la predicción de una variable para un valor determinado de la otra. La predicción de Y para X = x0 será simplemente el valor obtenido en la recta de regresión de Y sobre X al sustituir el valor de x por x0. La fiabilidad de esta predicción será tanto mayor cuando mayor sea la correlación entre las variables (es decir mayor sea R2 )