Post on 14-Jan-2016
description
1
El Modelo de Regresin Simple
y = b0 + b1x + u
Wooldridge J., Introduccin a la Econometra. Captulo 2.
2
Valor Esperado o Esperanza
Anteriormente definimos a y como la media
poblacional de la variable aleatoria y. Dicha
media puede ser vista como el Valor Esperado o
Esperanza de y:
E(y) = y
As, es posible escribir y como:
y = y + u,
en donde u = (y y) son las desviaciones
respecto de la media.
3
Esperanza Condicional
Hemos visto que si dos variables (y, x) estn
correlacionadas positivamente, los valores de y
tienden a aumentar a medida que x aumenta.
Generalizando, la media de una variable (y)
puede cambiar su valor a medida que otra
variable (x) cambia. As es posible considerar a
E(y) = y como una funcin de x. Tal funcin se
conoce como la esperanza condicional:
E(y|x) = y|x
4
Modelo de Regresin Lineal Simple
Si la esperanza de y condicional a x , E(y|x),
es modelada como una funcin lineal de x, surge
el modelo de Regresin Lineal Simple:
E(y|x) = y|x =b0 + b1x
Y como antes, es posible escribir
y = E(y|x) + u = b0 + b1x + u
donde u son las desviaciones respecto de la
esperanza condicional (o media condicional).
5
y1
y2
1 0
{
u1
u2
x
y
Lnea de regresin poblacional, siendo x una
variable binaria x = {0, 1}
E(y|x =1) = b0 + b1
E(y|x = 0) = b0 }
6
.
. .
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
u1
u2
u3
u4
x
y
Lnea de regresin poblacional siendo x una
variable continua.
E(y|x) = b0 + b1x
7
Terminologa utilizada
En el modelo de regresin lineal simple,
y = b0 + b1x + u,
nos referimos tpicamente a y como:
Variable Dependiente, o
Variable Explicada, o
Regresando
8
Terminologa utilizada, (continuacin)
En el modelo de regresin lineal de y sobre
x, nos referimos tpicamente a x como:
Variable Independiente, o
Variable Explicativa, o
Regresor, o
Co-variable
Significado de Lineal
Lineal en los parmetros o coeficientes (b0 y b1), NO en las variables:
y = b0 + b1x + u
Por lo tanto el modelo siguiente tambin es
lineal (en este contexto)
y = b0 + b1x2 + u
9
Significado de Lineal
Una funcin se dice lineal en, por ejemplo,
el parmetro 1 si 1 aparece elevado solo a
la primera potencia y adems no est
multiplicado o dividido por otro parmetro
(por ejemplo, 12, 2/1, etc.).
10
Significado de Simple
Simple: incluye a una sola variable
independiente:
y = b0 + b1x + u
Mltiple: incorpora un conjunto de k variables
independientes:
y = b0 + b1x1 + b2x2 + . . . bkxk + u
11
Ejemplos
rendimiento = b0 + b1 fertilizante + u
salario = b0 + b1 aos_educacin + u
aos_educacin = b0 + b1 sexo + u
La linealidad de estas ecuaciones implica que
todo cambio de x en una unidad tiene siempre
el mismo efecto sobre y (que es igual a b1 en este caso), sin importar el valor inicial de x.
12
El trmino de error aleatorio (u)
El componente aleatorio del modelo es u,
dentro del cual se encuentran todos los dems
factores que afectan la variable dependiente (y)
y que no se han incluido como variables
independientes (o regresores) en el modelo.
13
14
Esperanza del error
El valor promedio de u, el trmino de error, es igual a cero en la poblacin. Esto es,
E(u) = 0
Este no es un supuesto muy restrictivo, ya que siempre podemos usar b0 para normalizar E(u) a 0. Entonces, b0 puede ser interpretado como el promedio de los factores inobservables en la poblacin.
15
Esperanza Condicional Cero
Explicitamos un supuesto crucial acerca de cmo u y x estn relacionadas:
E(u|x) = E(u) = 0, lo que implica que
E(y|x) = b0 + b1x, como ya vimos antes.
Ms adelante se entender porqu este
supuesto es importante para interpretar el
modelo.
16
.
.
x1 x2
E(y|x) como una funcin lineal de x, donde para cada
valor de x, la distribucin de y est centrada en E(y|x)
E(y|x) = b0 + b1x
y
f(y)
17
Mnimos Cuadrados Ordinarios
Dada una muestra aleatoria de tamao n de la
poblacin {(xi,yi): i=1, ,n}, podemos escribir
cada observacin de la muestra como
yi = b0 + b1xi + ui La idea bsica de la regresin es estimar los
parmetros poblacionales (b0 y b1) usando la muestra, para obtener
iii uxy 10 bb
18
Mnimos Cuadrados Ordinarios
El residuo i es un estimador del trmino de
error ui y es la diferencia entre la lnea ajustada
y el i-esimo punto de la muestra.
Intuitivamente, MCO consiste en ajustar una
lnea a travs de los n puntos muestrales (xi,yi)
de tal forma que la suma de los residuos (i)
elevados al cuadrado sea tan pequea como
fuese posible, de all el trmino mnimos
cuadrados
19
.
. .
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
1
2
3
4
x
y
Lnea de regresin muestral ajustada, puntos de
datos muestrales y los correspondientes resuiduos
xy 10 bb
20
El problema de minimizacin
Dada la idea intuitiva de ajustar una lnea,
podemos establecer ahora un problema formal
de minimizacin
Esto es, queremos elegir los parmetros de tal
forma que se minimice la siguiente expresin:
n
i
ii
n
i
i xyu1
2
10
1
2 bb
21
El problema de minimizacin
Resolviendo el problema de minimizacin
para los dos parmetros, obtenemos las
condiciones de primer orden siguientes,
0
0
1
10
1
10
n
i
iii
n
i
ii
xyx
xy
bb
bb
22
Derivacin de estimadores MCO
Dada la definicin de media muestral, y las
propiedades de la sumatoria, podemos reescribir
la primera condicin para obtener el estimador
de la ordenada al origen o intercepto
xy
xy
10
10
o
,
bb
bb
23
Mas sobre derivacin de MCO
n
i
ii
n
i
i
n
i
ii
n
i
ii
n
i
iii
xxyyxx
xxxyyx
xxyyx
1
2
1
1
1
1
1
1
11
0
condicin segunda laen doReemplazan
b
b
bb
24
La pendiente estimada por MCO
0 siendo
pendiente la Despejando
1
2
1
2
11
n
i
i
n
i
i
n
i
ii
xx
xx
yyxx
b
25
Resumen de la estimacin de la
pendiente
El estimador MCO de la pendiente es igual a la covarianza muestral entre y y x dividida por la varianza muestral de x.
Si x y y estn correlacionadas positivamente, la pendiente ser positiva.
Si x y y estn correlacionadas negativamente, la pendiente ser negativa.
Notar que es necesario que x tenga variabilidad en la muestra.
26
Descomposicin de la varianza
SRC SEC STC que tenemosLuego
(SRC) cuadrado al residuos de suma :
(SEC) cuadrados de explicada suma:
(STC) cuadrados de totalsuma :
:siguiente lo definimos Luego .
, explicada no parte otray , explicada parte una de
compuesta como n observaci cada a ver Podemos
2
2
2
i
i
i
iii
ii
i
u
yy
yy
uyy
uy
y
27
Bondad del ajuste
Cmo podemos medir cun bien se ajusta a los datos la lnea de regresin estimada?
Podemos computar la proporcin de la suma de cuadrados totales (STC) que es explicada por el modelo (es decir, SEC/STC), a esta medida la llamamos la R-cuadrada de la regresin o coeficiente de determinacin:
R2 = SEC/STC = 1 SRC/STC
28
Propiedades estadsticas de los
estimadores MCO
Supuestos de Gauss-Markov (G-M)
1. El modelo poblacional es lineal en los parmetros: y = b0 + b1x + u
2. Tenemos a disposicin una muestra aleatoria de tamao n, {(xi, yi): i=1, 2, , n}, extrada de la poblacin. Por lo que podemos escribir el modelo para cada observacin muestral como yi = b0 + b1xi + ui
3. Suponemos E(u|x) = 0 y por lo tanto E(ui|xi) = 0
4. Suponemos que hay variacin muestral en las xi
29
Insesgamiento
, 00 bb E
Bajo los 4 supuestos de G-M anteriores, el
estimador MCO es insesgado en muestras
repetidas:
11 bb ERecordar que insesgamiento es una propiedad
del estimador en una muestra dada podemos
estar cerca o lejos del verdadero valor del
parmetro.
30
Varianza de los estimadores MCO
Hasta ahora lo que sabemos es que la
distribucin muestral (en muestras repetidas)
del estimador est centrada alrededor del
verdadero parmetro (por insesgamiento).
Pero queremos saber cun dispersa es esta
distribucin.
Es mas fcil analizar esta varianza si
establecemos un supuesto adicional
Var(u|x) = E(u2|x) = s2 (Homocedasticidad).
31
.
.
x1 x2
El caso Homocedstico
E(y|x) = b0 + b1x
y
f(y|x)
x
32
.
x x1 x2
f(y|x)
El caso Heterocedstico
x3
. .
E(y|x) = b0 + b1x
33
Varianza de MCO
n
i
i xx
Var
1
2
2
1
)(
sb
Bajo los 5 supuestos de G-M anteriores, la
varianza del estimador MCO es:
34
Varianza de MCO (resumen)
A mayor varianza del error, s2, mayor varianza del estimador de la pendiente
A mayor variablilidad en las xi, menor la varianza del estimador de la pendiente
Un mayor tamao de la muestra hace disminuir la varianza del estimador de la pendiente
Problema: s2 es desconocida
35
Un estimador para s2
No conocemos el valor de s2, porque no observamos los trminos de error ui
Pero lo que s conocemos son los residuos de MCO, i
Podemos usar los residuos i para construir un estimador de s2
36
Un estimador para s2 (continuacin)
2/)2(
es de insesgadoestimador un Luego,
2
2
2
1010
10
nSRC
n
u
xux
xyu
i
iii
iii
s
s
bbbb
bb
37
El error estndar de la pendiente
2
12
1
1
2
21
21
ee
, deestndar
error el tenemos, por ssustituimo si
de
esestndar desvo el te,consiguienPor
xx
xx
i
i
sb
b
sss
sb