Download - Sesion 6 Modifi

Econometrıa

Sesion 5

Juan Carlos Abanto Orihuela

[email protected]

Giddea Consulting & Training

Enero - 2013

Parte I

Teorıa Asintotica

Juan Carlos Abanto Orihuela Econometrıa I

Teorıa Asintotica

Teorıa de Muestras Finitas

Formas de muestreo.Estadısticos, estimadores(estimados), distribuciones muestrales.Muestras hipoteticas, muestreo repetido y simulaciones deMonteCarlo.

Teorıa de Muestras Infinitas

Formas de convergencia de variables aleatorias.Distribuciones lımitesDistribuciones asintoticas o aproximadas.


Parte II

Teorıa de Muestras Finitas


Conceptos Basicos

Poblacion Objetivo: Conjunto de elementos que se desea

analizar.

Muestra: Subconjunto de la poblacion disponible para el

analisis.

Una muestra es representativa si refleja las principales

caracterısticas de la poblacion:

El optimo es utilizar una muestra representativa.

En la practica no siempre es posible obtener muestras

representativas.


Tecnicas de Muestreo

Las tecnicas de muestreo mas conocidas son:

Muestreo aleatorio simple (MAS).Muestreo sistematico (MS).Muestreo estratificado (ME).Muestreo por conglomerados (MC).

Muestra Aleatorio

Una muestra aleatoria de tamano n de X consiste en unasucesion de n variables aleatorias independientes entre sı,X = [x1, x2, ..., xn], cada una de las cuales posee la mismafuncion de probabilidades.X puedde ser una variable o un vector de variables aleatorias.


Distribucion Muestral

El Histograma determina la distribucion de las frecuencias delos diferentes valores de una variable.

Dado que la frecuencia es (en el lımite) una medida deprobabilidad, el histograma (distribucion de frecuencias) deuna variable es una buena aproximacion de la distribucionmuestral de la variable aleatoria.

Estadıstico: es una funcion cualquiera que depende de losvalores muestrales o datos. Ejemplos: Media 1

n

∑n

1(Xi ),

Varianza 1n−1

∑n

1(Xi − X )2, Covarianza1n

∑n

1(Xi − X )(Yi − Y ).

Estimador: es un estadıstico θ que permite aproximar unparametro poblacional θ a partir de la informacion muestral.

θ es un parametro de la funcion de probabilidades.

El valor que toma el estimador cuando se reemplazan los datos

se denomina estimado.


Muestreo repetido y simulacion MonteCarlo

Apartir de un proceso generador de datos(PGD)puedenobtenerse una muestra hipotetica.

Si se repite este ejercicio muchas veces-muestreo repetido- seobtienen muchas muestras hipoteticas.

Bajo los supuestos del PGD,es posible construirdistribuciones muestrales de diferentes estimadores ycompararlos: Simulacion de MonteCarlo.

MonteCarlo permite determinar las propiedades estadısticasde estimadores: media, varianza, forma de la distribucion.

¿Como se eligen estimadores? Criterios de comparacion:

Insesgadez.

Varianza mınima.

Error cuadratico medio.


Parte III

Teorıa de Muestras Infinitas


Formas de Convergencia

Convergencia en Probabilidad

Una sucesion de variables aleatorias Xn converge a unaconstante c si se cumple que:

Limn→∞P[|Xn − c| > ǫ] = 0 , ∨ǫ > 0

Toda la masa de la distribucion de probabilidades seconcentra en puntos cercanos a c.

Usualmente se denota como: Xn

p

→ c ⇐⇒ Plim(Xn) = c

La definicion anterior indica que se hace cada vez masimprobable que xn tome valores distintos a c, a medida quen, el tamano de la muestra aumenta.


Ejemplo

Supongamos que tenemos una variable aleatoria xn cuya funcionde probabilidad es la siguiente.

f (xn) =

1− 1

n,si xn = 0,

1

n,si xn = n.

En este caso:Limn→∞P[|xn − 0| > ǫ] = 0

Es decir, xn converge en probabilidad a 0. ¿Por que? La razon esque, a medida que n aumenta, xn toma el valor de n con unaprobabilidad cada vez menor ( 1

nconverge a 0 a medida que

n → ∞). Esto es, toda la masa de la distribucion se concentran enaquellos puntos en la vecindad de 0.



Convergencia en Media Cuadratica

Una sucesion de variables aleatorias Xn, con medias yvarianzas diferentes, converge en media cuadratica a unaconstante c si se cumple que:

Limn→∞E [(Xn − c)2] = 0

Lo cual equivale a:

Limn→∞E [(Xn)] = c; Limn→∞Var [(Xn)] = 0

Entonces decimos que Xn converge en media cuadratica a la

constante c, y se denota como: Xn

q.m.

→ c y ademas se tieneque plim(Xn) = c.

Ademas debemos notar que convergencia en mediacuadratica implica convergencia en probabilidad pero no a lainversa.


Ejemplo

En el ejemplo anterior podemos ver si converge en mediacuadratica a 0.

E(xn) = n1

n+0(1−

1

n) = 1;Var(xn) = (n−1)2

1

n+(0−1)2(1−

1

n) = n−1

Entonces Limn→∞E(xn) = 1; Limn→∞Var(xn) = ∞. Sin embargo,plim(xn) = 0



Convergencia en media r-esima

Una sucesion de variables aleatorias Xn, caracterizada porE [X r

n] < ∞, converge en media r-esima a una constante c, si:

Limn→∞E [(Xn − c)r ] = 0

Ademas si converge en media r-esima a una constante c,converge en probabilidad a c.

Si una sucesion de variables aleatorias Xn converge en mediar-esima a una constante c, entonces converge en s-esima aesa constante c, para todo s < r .



Convergencia en casi segura (almost sure)

Una sucesion de variables aleatorias Xn, converge de maneracasi segura a una constante c, si:

Pr((w ∈ Ω : Xn(w) → c a.s. n → ∞)) = 1

Lo cual tambien puede ser definido como:

Pr [w |Limn→∞Xn(w) = X (w)] = 1 Esto es, la secuencia Xn

converge a x con probabilidad 1. Lo cual se simboliza como:Xn

a.s.

→ c ⇐⇒ Plim(Xn) = c


Ejemplo

Si Xn es una secuencia de variables aleatorias independientes eidenticamente distribuidas con E(Xn) = µ < ∞.

Pr(Limn→∞Xn = 0) = 1 ⇔ Xn

a.s.

→ 0


Ejemplo

Sea una variable aleatoria con distribucion uniforme en el intervalo[0.1].Se definen las siguientes variables aleatorias:Xn(x) = x + xn

X (x) = x

Entonces la variable aleatoria Xn(x) converge de forma casi seguraa la variable aleatoria X (x).

Xn(x)a.s.

→ X (x)



Convergencia de Momentos

Si Xn es tal que E [|X |r ] < ∞ y converge en media r-esima aX, entonces:

lımn→∞

E [|Xn|r ] = E [|X |r ]



Convergencia en Distribucion

Sean Xn y X con funciones de distribucion F (xn) y F (x),respectivamente. Se dice que Xn converge en distribucion a Xsi para todos los puntos de continuidad de F (x) se cumple:

lımn→∞

|Fn(xn)− F (x)| = 0

Lo cual se simboliza como: Xn

d→ c

La convergencia en distribucion no implica que converga (noimplica un solo lımite).


Ejemplo

Sea xn una variable aleatoria con la siguiente distribucion deprobabilidades.

Pr(xn = 1) =1

2+

1

n + 1,Pr(xn = 2) =

1

2−

1

n + 1

La sucesion de variables aleatorias xn no converge, pues tiene doslımites. Sin embargo, ambas funciones convergen a 1

2 cuando ncrece al infinito.Convergencia en probabilidad implica convergencia en distribucionpero no viceversa. Es decir, el concepto de convergencia enprobabilidad es mas fuerte.



Relaciones de convergencia

(Xna.s.→ X ) // (Xn

p→ X ) // (Xn

d→ X )

(Xnr→ X )

88


Convergencia y Criterios de Convergencia

Estimador Consistente

Un estimador θn del parametro poblacional θ es consistentesi:

plim(θn) = θ

Consistencia de la Media Muestral

La media muestral Xn de una muestra aleatoria obtenida decualquier poblacion con media µ y varianza σ2, finitas, es unestimador consistente de µ:

plim(Xn) = plim(1

n

n∑

i=1

Xi ) = µ


Convergencia y Criterios de Convergencia

Consistencia de una media de funciones

En muestreo aleatorio, para cualquier funcion h(x), si E [h(x)]y Var [h(x)] son constantes finitas, entonces:

plim(1

n

n∑

i=1

h(x)) = E [h(x)]


Resultados Importantes

Teorema de Slutsky

Si h(xn) es una funcion continua que no depende de n,entonces se cumple que:

Plim[h(xn)] = h[plim(xn)]

Desigualdades

Desigualdad de Jensen. Si h(xn) es una funcion concava dexn entonces h(E [xn]) ≥ E [h(xn)]

Desigualdad de Cauchy-Schwartz. Para dos variablesaleatorias se cumple: E [|xy |] ≤ (E [x2])1/2(E [y2])1/2

Desigualdad de Chebychev. Establece que si xn es unavariable aleatoria y c y ǫ son constantes, entonces:

Pr(|xn − c| > ǫ) ≤ E [xn−c]2

ǫ2



Propiedades del Plim

Si xn, yn son variables aleatorias que convergen en probabilidad auna constante, plim(xn) = a, plim(yn) = b, entonces:

plim(xn + yn) = a+ b

plim(xnyn) = ab

plim(xn/yn) = a/b, b 6= 0

plim(Wn) = Ω =⇒ plim(W−1n

) = Ω−1

Si Xn,Yn son matrices aleatorias que convergen enprobabilidad a A, B respectivamente, entonces:

plim(XnYn) = AB



Cramer-Wald Device

Sea Xn una sucecion de vectores Kx1:

Xn

d→ X ⇐⇒ c

′Xn

d→ c

′X

para todo vector c ∈ Rk . Este resultado facilita establecer la con-

vergencia en distribucion de vectores reduciendo el problema a com-binaciones lineales arbitrarias.

Teorema del Mapeo Continuo

Si g(z) es continua:

Xn

d→ a ⇐⇒ g(Xn)

d→ g(a)


Convergencia y Ley de Grandes Numeros

Ley de Grandes Numeros

La ley de los grandes numeros, tambien llamada ley del azar,afirma que al repetir un experimento aleatorio un numero deveces, la frecuencia relativa de cada suceso elemental tiendea aproximarse a un numero fijo, llamado probabilidad de unsuceso.

En la teorıa de la probabilidad, bajo el termino generico de Laley de los grandes numeros se engloban varios teoremas quedescriben el comportamiento del promedio de una sucesion devariables aleatorias conforme aumenta su numero de ensayos.

Estos teoremas prescriben condiciones suficientes paragarantizar que dicho promedio converge al promedio de lasesperanzas de las variables aleatorias involucradas. Lasdistintas formulaciones de la ley de los grandes numeros (ysus condiciones asociadas) especifican la convergencia deformas distintas.




Las leyes de los grandes numeros explican por que elpromedio de una muestra al azar de una poblacion de grantamano tendera a estar cerca de la media de la poblacioncompleta.

La frase LGN es tambien usada ocasionalmente para referirseal principio de que la probabilidad de que cualquier eventoposible (incluso uno improbable) ocurra al menos una vez enuna serie, incrementado con el numero de eventos en la serie.Por ejemplo, la probabilidad de que un individuo gane laloterıa es bastante baja; sin embargo, la probabilidad de quealguien gane la loterıa es bastante alta, suponiendo quesuficientes personas comprasen boletos.




La Ley de los Grandes Numeros proporciona resultados sobreel comportamiento de la suma(promedio) de un numerogrande de variables aleatorias, en terminos de convergencia.

Existen dos versiones, que se diferencian en la forma deconvergencia que utilizan:

Leyes Debiles, basadas en la convergencia de probabilidad. Ej:

Kinchine y Chebychev.

Leyes Fuertes, basadas en la convergencia casi segura. Ej:

Kolmogorov y Markov.



Ley debil de Khinchine

Si Xin

1 es una muestra aleatoria (identica eindependientemente distribuida) obtenida de una distribucioncon una media finita, E(xi ) = µ < ∞ entonces:

plim(xn) = µ

Notar que:Este resultado es mas amplio que la consistencia de la mediamuestral: no es necesario que la varianza de la distribucion seafinita (que exista).Esta restringido a un muestreo aleatorio (variables identica eindependientemente distribuidas).



Ley debil de Chebychev

Si Xin1 es una sucesion de variables aleatorias no

correlacionadas tales que, E(xi ) = µ < ∞, V (xi ) = σ2i ,

lımn→∞

σ2n/n = lım

n→∞

(1/n2)

n∑

i=1

σ2i = 0 entonces:

plim(xn − µn) = 0

Notar que:

La ley establece que (xn − µn) converge a cero y no que xnconverge a µn.Permite que las distribuciones (de las variables aleatorias con lasque se calcula la media muestral) sean heterogeneas.Importante para la convergencia a variables aleatorias.



Ley fuerte de Kolmogorov

Si Xin1 es una sucesion de variables aleatorias distribuidas

de forma independiente tales que, E(xi ) = µi ,

V (xi ) = σ2i < ∞, lım

n→∞

n∑

i=1

(σ2i /i

2) < ∞ entonces:

(xn − µn)a.s.→ 0


de forma identica e independiente. La existencia de E [xi ] talque E [xi ] = µ es una condicion necesaria y suficiente paraque:

(xn − µn)a.s.→ 0



Ley fuerte de Markov


de forma independiente tales que, E(xi ) = µi ,∃δ > 0,

∑ni=1 E [|xi − µi |

1+δ]/i1+δ < ∞ entonces:

(xn − µn)a.s.→ 0


Teorema de Lımite Central


Siplim(θn) = θ entonces θnd→ θ. Es decir, la distribucion

lımite es una linea vertical:

No es muy informativa la distribucion lımite.

Sin embargo es posible encontrar que: zn =√n(θn − θ)

d→ f (z)

El TLC establece que la transformacion de la media muestralzn converge en distribucion a una normal estandar.

La suma de variables aleatorias, sin importar su forma, tiende auna distribucion normal.No es cierto que la distribucion de la media muestral converge auna normal.

Dos versiones importantes del TLC:Lindberg - LevyLindberg - Feller



Teorema de Lindberg - Levy

Sea x1, x2, ..., xn una muestra aleatoria proveniente de unadistribucion de probabilidades con media µ y varianza σ2,ambas finitas. Si se define xn = 1

n

∑ni=1 xi , entonces:

√

(n)(xn − µ)d→ N(0, σ2)



Teorema de Lindberg - Feller

Sea x1, x2, ..., xn una muestra aleatoria proveniente de unadistribucion de probabilidades con media µi y varianza σ2

i .Sea: µn = 1

n(µ1 + µ2 + ...+ µn), σ

2n = 1

n(σ2

1 + σ22 + ...+ σ2

n)

Si ningun termino domina esta varianza promedio y ademasconverge a una constante finita, es decir:Limn→∞[max(σi )/(nσn)] = 0, σ2 = Limn→∞(σ2

n) entonces:

√

(n)(xn − µn)d→ N(0, σ2)


Distribuciones Asintoticas


Para el caso de un estimador, si√

(n)(θn − θ)d→ N(0,V )

entonces se tiene que la distribucion asintotica o aproximadaes:

θna→ N(0,V )

Ası, si [√

(n)(xn − µ)/σ]d→ N(0, 1), entonces la distribucion

asintotica o aproximada a la media muestral es:

xnd→ N(µ, σ2/n)

Esta distribucion normal proporciona una aproximacion de laverdadera distribucion.

No significa que la verdadera distribucion sea exactamenteuna normal.



Normalidad Asintotica

Una distribucion asintotica es una distribucion que se usapara aproximar la verdadera distribucion para muestrasfinitas.

Ası, si [√

(n)(xn − µ)/σ]d→ N(0, 1), entonces la distribucion

asintotica o aproximada a la media muestral es:

xna→ N(θ,

1

nV )

La matriz de varianzas y covarianzas de la distribucionasintotica es la matriz de covarianzas asintotica y se denota:

VarAsy(θn) =1

nV



Normalidad Asintotica

Un estimador θn es asintoticamente normal si√

(n)[θn − θ]d→ N(0,V )

El estimador es asintoticamente eficiente si la diferencia entresu matriz de varianzas y covarianzas asintotica 1

nV y la de

cualquier otro estimador consistente y distribuidoasintoticamente normal es igual a la matriz negativasemi-definida.

En el caso no lineal

Sea θn un estimador tal que√

(n)[θn − θ]d→ N(0, σ2)

Sea g(θn)a→ N(g(θ), 1

n(g ′(θ))2σ2)


Aplicacion Econometrica

Probar que β es consistente

Para ello recordemos que:

β = β + (X ′X

n)−1(

X ′µ

n)

Si se puede probar que (X′X

n)−1 no tiende a infinito,

¿que queda por probar para establecer consistencia?

El elemento h del vector X′µ

nes:

1

n

∑xhiµi =

1

n

∑zi

Ademas notamos que:

E(zi ) = E(xhiµi ) = E(E(xhiµi |xhi )) = E(xhiE(µi |xhi )) = 0

V (zi ) = E(V (zi |xhi )) + V (E(zi |xhi )) = E(V (xhiµi |xhi )) =

σ2E(x2

hi) < ∞



Entonces, por la ley de grandes numeros:

1

n

n∑

i=1

zi =

∑ni=1 xhiµi

n

p→ E(xhiµi ) = 0

de modo que:

(X ′

µ

n)

p→ 0

El elemento (h,j) de (X′X

n)−1 es:

∑ni=1 xhixji

n

p→ E(xhixji ) = Dhj

Entonces:X ′X

n

p→ D

Por continuidad de plim:

(X ′X

n)−1 p

→ D−1



Por lo tanto:β

p→ β0

La normalidad asintotica implica probar que:

√n(βn − β0)

d→ N(0, σ2D−1)

Donde nuevamente partimos de:

β = β + (X ′X

n)−1(

X ′µ

n)

Donde multiplicando ambos lados por√n y restando β0:

√n(β − β0) = (

X ′X

n)−1(

X ′µ√n)

Y como ya mostramos que:

X ′X

n

p→ D

Solo queda buscar la distribucion asintotica de ( X ′µ

√n)



Entonces iniciando con:

(X ′

µ√n) =

√nX ′

µ

n

que es un vecto de K variables aleatorias. Por el Teorema deCramer-Wold Device, es equivalente a buscar la distribucionde:

√nc

′(X ′

µ

n)

Donde en notacion observacional:

√nc

′(X ′

µ

n) =

√nc

′(

∑xiµi

n) =

√n(

∑c ′xiµi

n) =

√n(

zi

n)

donde zi = c ′xiµi



Ahora se puede establecer las siguientes propiedades:E(zi ) = 0V (zi ) = σ2

c′Dc < ∞

Donde por el TLC aplicado a√nz :

√n(z − 0) = c

′(X ′

µ√n)

d→ N(0, σ2

c′Dc)

Entonces, por el teorema de Cramer-Wald:

(X ′

µ√n)

d→ N(0, σ2

D)

Por lo que ya podemos concluir a que converge la siguienteexpresion:

√n(β − β0) = (

X′X

n)−1(

X′µ

√n)

Por el Teorema de Slutzky y propiedad de linealidad de la distribucionnormal multivariada:

√n(β − β0)

d→ N(0, σ2

D−1

DD−1) = N(0, σ2

D−1)