Tema 0 FBE Intro [Modo de compatibilidad] · Utilidad de los modelos ... estudia la demanda de...

1

http://www.uam.es/coro.chasco

Tema 1: Propósito del análisis econométrico @ Coro Chasco Yrigoyen (UAM), 2012 2

TEMARIO

Tema 1: Propósito del análisis econométricoTema 2: Modelo de regresión lineal: componentes y tipos de datosTema 3: Formulación del MBRL y estimación por MCOTema 4: Análisis de bondad del ajuste y medidas de los erroresTema 5: Interpretación de los coeficientes estimadosTema 6: Propiedades estadísticas de los estimadores MCOTema 7: Intervalos de confianza y contrastes de un único parámetroTema 8: Contrastes de restricciones de parámetrosTema 9: Análisis de los errores “a posteriori”: el error de predicciónTema 10: Aplicaciones del Modelo Básico de Regresión Lineal

1

Tema 1:Propósito del análisis econométricoProf. Coro Chasco YrigoyenCurso Fundamentos Básicos de Econometríahttp://www.uam.es/coro.chasco


Tema 1: Propósito del análisis econométrico1. Utilidad de los modelos

econométricos: análisis de algunos casos reales.

2. Historia de la econometría3. Correlación, causalidad y regresión.4. Proceso de elaboración de un

modelo econométrico.

3

1. Utilidad de los modelos econométricos

Definición de modelos econométricos Modelos económicos vs econométricos Según la forma matemática de las

relaciones Según la dinamicidad de las relaciones Según la cobertura económica

Tema 1: Propósito del análisis econométrico @ Coro Chasco Yrigoyen (UAM), 2012

4

1.1. Definición Modelo: representación simplificada de la realidad

(ej. maqueta ciudad; función matemática economía de un país).

Carácter interdisciplinar:

Informática

Estadística Matemáticas

Teoría: micro/macroeconómica, financiera, marketing, etc.

ECONOMETRÍA


5

1.2. Modelos económicos vs econométricos (I)

La ciencia económica, como ciencia social que es, se encuentra condicionada al momento del tiempoy el lugar del espacio donde se aplique.

Esta mayor relatividad no ha impedido que la teoría económica (micro y macro) elabore leyes o modelos genéricos, aplicables con validez general a diversos sistemas económicos.

MODELOS ECONÓMICOS: modelos genéricos de los fenómenos económicos, expuestos en forma más o menos matemática.


6

Un MODELO ECONOMÉTRICO es un modelo matemático, con una forma funcional (lineal, parabólica, exponencial, logarítmica,...)

Exige una especificación detallada de las variablesque lo componen (PIB real a coste de los factores, consumo privado en euros corrientes,...)

Las variables están referidas a una muestra de datos (temporales o de corte transversal).

Es un modelo estocástico, que incorpora un término de error (variables no bien recogidas, de azar,...)


1.2. Modelos económicos vs econométricos (II)

7Tema 1: Propósito del análisis econométrico @ Coro Chasco Yrigoyen (UAM), 2012

1.2. Modelos económicos vs econométricos (III)

8

Modelo económico (teoría económica) Modelo econométrico 1:

Modelo econométrico 2:


1.2. Modelos económicos vs econométricos (IV)

9

Modelo económico (teoría económica)

Modelo econométrico:


1.2. Modelos económicosvs econométricos (V)

10

Modelo económico (teoría económica)

Modelo econométrico:


1.2. Modelos económicos vs econométricos (VI)

2. Historia de la econometría (I)

Etapa Período Acontecimientos relevantes

Antecedentes Hasta1914

En 1914, H. Moore publica “Economic Cycles: their law and causes”: el primer trabajo econométrico.

Desarrollosiniciales

1914-1930

En 1930, se funda la Econometric Society(Cleveland) promovida por Roos, Frisch e Fisher.

Formalización 1930-1950

En 1950, Monografía nº 10 (CowlesCommision): establece las normas básicas de la investigación econométrica.


2. Historia de la econometría (II)

Etapa Período Acontecimientos relevantes

Extensión 1950-1970

En 1970, "Time series analysis" (Box y Jenkins): abre el campo de la econometría hacia formulaciones alternativas.

Crisis y reflexión

1970-1980

Sims (1980) desarrolla los modelos VARGranger (1980, 1981) introduce el concepto de cointegración.

Nuevas propuestas metodológicas

Desde 1980

Desarrollos econométricos: microeconometría, econometría espacial,...


2.1. Antecedentes: hasta 1914 (I)

Desarrollo, en paralelo, de técnicas estadísticas y teorías económicas de utilidad para la econometría.

Tª económica: Escuela aritmético-positiva (s.XVII): “ley de King”:

TP: tasa variación precios ; TY: tasa variación producción

trigo


2.1. Antecedentes: hasta 1914 (II)

Estadística (s.XIX): Karl Gauss descubre la distribución normal y utiliza el método mínimo-cuadrático en el análisis de la regresión.

Gosset (“Student”): distribución t-Student. Engel: estudia la demanda de centeno en

Prusia y cuestiona la ley de King. Pearson y Yule: análisis de correlación.


2.1. Antecedentes: hasta 1914 (II)

Hooker: Corr(matrimonios,renta) = alta. Advierte del peligro de las correlaciones espúreas: alta correlación entre series causalidad entre ellas.

Keynes (1891): destaca el papel de la estadística para explicar leyes económicas.

Moore (1914): análisis cuantitativo de los ciclos económicos.


2.2. Desarrollos iniciales: desde 1914 hasta 1930 (I) Moore (1914): estima curvas de demanda

(primer trabajo econométrico):

H: demanda lingotes hierro ; P: precio; u: error.

Moore estima una pendiente + (b > 0) para esta función de demanda (problema de la identificación).


2.2. Desarrollos iniciales: desde 1914 hasta 1930 (II)

Moore critica la teoría económica de las funciones de demanda.

Schulz demuestra variaciones en la pendiente según fuera el modelo:

Working demuestra que la pendiente + fue consecuencia de una mala especificación.


2.2. Desarrollos iniciales: desde 1914 hasta 1930 (II)

La identificación de los modelos (variables explicativas, forma funcional) da lugar a 2 tendencias.

Teóricos: priman los principios de la teoría económica, que no siempre es clara sobre la identificación.

Empíricos: priman la distribución de los datos sobre la teoría.


2.3. Formalización:desde 1930 hasta 1950

1930: fundación de la Econometric Societyque reúne a casi 100 investigadores preocupados por la economía cuantitativa.

1932: constitución de la Cowles Commission, que desarrolló modelos para la predicción de las cotizaciones en Bolsa.

Tinbergen da más importancia a los datos. Keynes cree que la teoría es prioritaria.


2.4. Extensión (1950-1970)Modelos multiecuacionales

2.5. Crisis y reflexión (1970-1980) Modelos de series temporales (Box-Jenkings)


2.6. Nuevas propuestas metodológicas:desde 1980 hasta la actualidad

Microeconometría: Heckman impulsa este enfoque gracias al desarrollo de la informática y las bases de datos micro (individuos, hogares, empresas).

La teoría macroeconómica no es adecuada para recoger el comportamiento individual, mucho más heterogéneo.


2.6. Nuevas propuestas metodológicas:desde 1980 hasta la actualidad

Econometría espacial: Paelinck y Anselinhan desarrollado este campo.

Los datos espaciales (muestras de países, regiones, municipios...) requieren de instrumentos estadístico-matemáticospropios, procedentes de la geografía, y de los principios de la economía regional (espacial)


3. Datos observacionales y causalidad “ceteris paribus”

1. La econometría utiliza métodos estadísticos (regresión, correlación, etc.) para estimar relaciones económicas, contrastar teorías y evaluar/implementar políticas económicas y de empresa.

2. Pero la econometría se ha desarrollado de forma independiente a la estadística matemática porque se centra en el análisis de datos no experimentales u observacionales.


3.1. Datos observacionales o experimentales (I)

23

3. Los datos experimentales son los recogidos en laboratorios y utilizados por las ciencias puras, a partir de experimentos controlados (sobre sustancias, animales, individuos, etc.).

4. Los datos experimentales son muy difíciles de obtener en las ciencias sociales (experimentos sobre individuos, empresas o sectores económicos): prohibitivamente caros o incluso ilegales/inmorales.

5. Los datos no experimentales u observaciones son recogidos “pasivamente” por el investigador (no puede crearlos; son los que hay y los que son).


3.1. Datos observacionales o experimentales (II)

24

6. El método de regresión lineal (compartido por la estadística matemática y la econometría) tiene un enfoque e interpretación muy diferentes en cada caso.

7. La econometría ha desarrollado técnicas propias para hacer frente a las características y complejidad de los datos y teorías económicas.


3.1. Datos observacionales o experimentales (III)

25

3. Datos observacionales y causalidad “ceteris paribus”


3.2. Causalidad y “ceteris paribus” (I)

1. El análisis de regresión permite saber hasta qué punto una variable tiene un efecto causal sobre otra.

2. El coeficiente de correlación lineal de Pearson (por ejemplo) nos da una medida del grado de asociación (pero “asociación” no siempre es “causalidad”).

3. El concepto “ceteris paribus” (“siendo constante el resto de factores relevantes”): fundamental en el análisis causal econométrico.

26


3.2. Causalidad y “ceteris paribus” (II)

4. Ejemplo 1: Análisis del efecto que un cambio(incremento/decremento) en los precios de un producto (bien) tiene sobre las ventas (demanda) del mismo, manteniendo constantes otros factores importantes para las ventas (renta de los consumidores, precios de otros productos, etc.).

5. Sin este presupuesto de constancia en el resto de variables, sería imposible conocer el efecto “marginal” de un cambio en el precio sobre las ventas del producto.

6. Pero, ¿es posible encontrar –y mantener constante-todos los factores que pueden afectar a la variable sometida a análisis (ventas de un producto)?

27


3.2. Causalidad y “ceteris paribus” (III)

7. Los métodos econométricos, “cuando son bien ejecutados”, pueden similar un experimento “ceteris paribus”.

8. Ejemplo 2: Análisis del efecto que tiene un aumento en el salario mínimo (SMI) sobre la tasa de paro.

9. La teoría de la oferta y la demanda indica que un incremento en el salario mínimo produce un desplazamiento en la curva de demanda de trabajo, produciéndose un descenso en el empleo=aumento del paro (la oferta de trabajadores es superior a la demanda de trabajo).

10. Si queremos cuantificar este efecto –por ejemplo, para España- podemos observar la evolución de la tasa de paro y el SMI en los últimos años.

28


3.2. Causalidad y “ceteris paribus” (IV)

11. Principal dificultad: SMI de España no se determina en un laboratorio experimental. Si el gobierno pudiera, cadaaño, establecer de forma aleatoria un nivel de SMI y recoger los niveles desempleo producidos en cada caso, el análisis de estas series de datos podría realizarse con métodos matemático-estadísticos sencillos.

12. Pero en la realidad española, el SMI es fijado a partir de diversas fuerzas económicas (ej. variaciones del IPC, evolución del PIB, “etc.”) y políticas (negociacionescolectivas, “etc.”)

13. La inclusión de un término de perturbación aleatoria (u) en el modelo permite controlar ese “etc.”, perointroduce una complejidad añadida al modelo de regresión.

29

4. Proceso de realización de un trabajo de econometría (I)

1. Conocimiento previo suficientemente preciso del fenómeno que se quiere explicar (evolución de dicho fenómeno, teoría económica subyacente y otros modelos econométricos similares).

2. Planteamiento o especificación matemática de un modelo inicial.

3. Estimación el modelo, utilizando algún método estadístico, a partir de una muestra de datos.


4. Proceso de realización de un trabajo de econometría (II)

4. Análisis de la validez del modelo (etapa de contraste de hipótesis)

5. Nuevas especificaciones del modelo inicial6. Análisis y selección, entre “modelos

rivales”, del modelo final.7. Predicción y/o simulación de políticas


32

Bibliografía básica

Ramírez Arellano, G. (2005), Introducción a la econometría. Tema 2, pag. 23

Pulido, A. y J. Pérez (2001), Modelos econométricos. Tema 1 (1.2); Tema 2 (2.3.,2.4.a,b); Tema 3 (3.1)

Dhrymes, P. Econometría, Tema 1, Apdo. 1. Green, W.H. (2000), Econometric analysis, Ch. 1, Examples 1.1, 1.2;

Chapter 6, Examples 6.1, 6.2 Guisán, M.C. (1997), Econometría, Cap.1 (1.4) Trívez, F.J. (2004), Introducción a la econometría, Tema 1 (1.1, 1.3.1)

Wooldridge, J.M. (2005), Introducción a la econometría. Un enfoque moderno, Tema 1, pags. 1-4


1

Tema 2:Modelo de regresión lineal: componentes y tipos de datos

Prof. Coro Chasco YrigoyenCurso Fundamentos Básicos de Econometríahttp://www.uam.es/coro.chasco

2

Tema 2: Modelo de regresión lineal: componentes y tipos de datos1. Componentes de un modelo econométrico2. Tipos de modelos econométricos.3. Modelos de series temporales, modelos de

corte transversal y modelos de datos de panel (“panel data”).

4. Análisis de Regresión como técnica de causalidad en el contexto del análisis multivariante.

5. Ejemplos

Tema 2: Modelo de regresión lineal @ Coro Chasco Yrigoyen (UAM), 2012

3

1. Componentes de un modelo econométrico

Variables: y, x1, x2, xk, u Parámetros: 1, 2, ..., k

Relaciones: comportamiento/identidades


4

1. Componentes de un modelo econométrico: variables (I)

Endógena, dependiente o explicada: inversiont

Exógenas, independientes o predeterminadas: tipost, tipost-1

Retardadas: inversiont-1 , tipost-1

Explicativas: inversiont-1 , tipost , tipost-1

Explicativas=exógenas+endógena retardada


5

1. Componentes de un modelo econométrico: variables (II)

Observables: inversiont , inversiont-1 , tipost , tipost-1

Latentes o no observables: pertubación aleatoria (ut)

Cuantitativas (cantidad) Cualitativas (cualidad): ficticias (dummies)


6

1. Componentes de un modelo econométrico: parámetros

Magnitudes constantes t. Parámetros de posición (1, 2, ..., k):

factores de ponderación o efecto de las explicativas sobre la explicada. 1= t. indep.

Parámetros de dispersión: Var(u)=2.


7

1. Componentes de un modelo econométrico: relaciones

Relaciones contables: tautologías o identidades

Relaciones de comportamiento: no son identidades (perturbación aleatoria).


8

1. Componentes de un modelo econométrico: ejercicio

Modelo de la telaraña (Moore, 1925)

Variables: .....Parámetros: .....Relaciones: .....


9

2. Tipos de modelos econométricos

Según la aleatoriedad de las relaciones Según el número de las relaciones Según la forma matemática de las

relaciones Según la dinamicidad de las relaciones Según la cobertura económica


10

2.1. Según la aleatoriedad de las relaciones

Modelos deterministas o exactos: relaciones o identidades contables.

Modelos aleatorios: ecuaciones de comportamiento.


11

2.2. Según el número de las relaciones

Modelos uniecuacionales: 1 ecuación.

Modelos multiecuacionales: 2 ó + ecuaciones.

C: consumo, I: inversión, Y: PIB, G: gasto público, r: tipo de interés, : tipo de impuesto constante


12

2.3. Según la forma matemática de las relaciones

Modelos lineales: relaciones lineales.

Modelos no lineales: relaciones no lineales.Algunas son linealizables (por ej., con transformación logarítmica


13

2.4. Según la dinamicidad de las relaciones

Modelos estáticos: sin endógenas retardadas.

Modelos dinámicos: variables endógenas retardadas como explicativas.


14

2.5. Según la cobertura económica de las relaciones

Modelos macroeconómicos: ámbito agregado nacional o regional.

Modelos microeconómicos: ámbito desagregado individual (o cercano).


15

3. Modelos de series temporales, modelos de corte transversal y modelos de datos de panel

Modelos de series temporales: las observaciones de las variables se refieren a distintos momentos del tiempo.

Ámbito espacial: España

Ámbito temporal: 1980-2007


16

3. Modelos de series temporales, modelos de corte transversal y modelos de datos de panel (II)

Modelos de corte transversal: las observaciones de las variables se refieren a distintos agentes económicos (individuos, hogares, empresas,...) o zonas geográficas (países, regiones,...).

Ámbito espacial: 50 provincias

Ámbito temporal: Año 2006


17

Modelos de datos de panel: series temporales para cada unidad de corte transversal. Por ejemplo, 1) supongamos que para las provincias de España tenemos datos sobre el consumo y la renta durante un período de 28 años.

3. Modelos de series temporales, modelos de corte transversal y modelos de datos de panel (III)

Ámbito espacial: 50 provincias

Ámbito temporal: 1980-2007Tema 2: Modelo de regresión lineal @ Coro Chasco Yrigoyen (UAM), 2012

Modelos de predicción de series temporales Medias móviles y alisados exponenciales Modelos ARIMA Ajuste de tendencia

Modelos microeconométricos Tablas de contingencia: ANOVA: A. discriminante:

Modelos de regresión estructurales(uni y multiecuacionales)

4. Análisis de Regresión como técnica de causalidad en el contexto del Análisis Multivariante

18Tema 2: Modelo de regresión lineal @ Coro Chasco Yrigoyen (UAM), 2012

yt = f(yt-1, yt-2,…) . Previsión empresarial

Y (Fuma/No Fuma) = f(Sexo: H/M)

Vtas. Producto = f(Localización: Costa/Interior)

yt = a + b.t

Moroso (si/no)=f(renta,hijos, antigüedad ,…)

. Análisis y obtención de datos

. Microeconometría de empresa

. Simulación empresarial

19

5. Ejemplos Ejemplo 1: El gobierno de los EEUU desea conocer las causas

por las que se producen movimientos migratorios interiores dentro de este gran país. Según diversos estudios sociales, son muchas las posibles razones: edad (E), nivel educativo (NE), tamaño del hogar (H), renta (R), tipo de interés de las hipotecas (IH), calidad de vida de la zona de residencia (C), cambio del lugar de trabajo (CT), otros cambios de residencia en el pasado (CR), etc.

Para ello, en 1965 realizó una encuesta a 3.000 familias del área de la Bahía de S. Francisco, a las que se preguntó si habían cambiado de domicilio en ese año (CD). Formularon este modelo

Las variables realmente influyentes serán aquéllas cuyos estimadores sean estadísticamente significativos (p.ej.: t-Student)

1 2 3 4 5 6

7 8 9

i i i i i i

i i i i

CD E NE H R IH C CT CR u


20

5. Ejemplos (II) Ejemplo 2: La Unión Europea desea saber la eficacia que los

fondos estructurales de cohesión pueden tener en regiones con unas malas condiciones naturales (zonas muy frías, con escasez de agua, en fronteras despobladas, etc.) Según algunos autores, la geografía es determinante y, por tanto, sería tirar el dinero intentar invertir en ciertos lugares inhóspitos. Sin embargo, P. Krugman, sostiene que la geografía física suele ser fácilmente superada por la acción humana (inversiones en infraestructuras, etc.)

Un modo de aproximarse a esta cuestión sería el diseño de un modelo para 1.171 provincias de la UE, con datos de 2006. En el mismo, la “aglomeración económica”, aproximada con el PIB/km2

(PH), se hace depender de las siguientes variables geográficas (cuya significatividad se quiere contrastar y cuantificar): temperatura media (TM), existencia de costas (C), existencia de minas (M) y presencia de capitales regionales (CR):

1 2 3 4 5i i i i i iPH TM C M CR u Tema 2: Modelo de regresión lineal @ Coro Chasco Yrigoyen (UAM), 2012

21

5. Ejemplos (III) Ejemplo 3: Una importante empresa de automoción está realizando

un gran esfuerzo de promoción de sus vehículos diesel en una serie de países de clima meridional. Desea defenderse de las teorías de las organizaciones ecologistas que la acusan de contaminar el medio ambiente. Según ellas, la emisión de óxido nitroso (que se desprende de los motores diesel) aumenta con niveles elevados de temperatura, humedad y presión atmosférica

Para ello, recoge los datos de las mediciones de óxido nitroso (O), temperatura (T), humedad (H) y presión atmosférica (P) que se suelen realizar en las 200 estaciones de monitoreo existentes en los países en cuestión. Con esos datos, estima el siguiente modelo:

La interpretación de los estimadores bj permitirá saber en qué medida estas variables son más o menos influyentes sobre O.

1 2 3 4i i i i iO T H P u


22

5. Ejemplos (IV) Ejemplo 4: Un individuo desea invertir 25.000 € en Bolsa, pero no

sabe si hacerlo en Telefónica (T) o Iberdrola (I). Lógicamente, lo que desea es obtener, en el futuro, el máximo rendimiento (y la máxima seguridad) por cada euro invertido.

La experiencia y los conocimientos de esta persona le dicen que la rentabilidad de las acciones de una empresa (R) en un momento dado, depende del volumen de beneficios reales obtenidos por la misma en dicho período (B) y el volumen de activos medios mantenido en el mismo período (A). Para ello, toma los datos de ambas empresas en los últimos 20 años y estima 2 modelos:

Si tiene información sobre B y A en (t+1) podrá saber dónde obtendrá un mayor rendimiento el próximo año.

1 2 3

1 2 3

T T T Tt t t tI I I It t t t

R B A u

R B A u


23

5. Ejemplos (V)


, PH , O , RT

, RJ

24

Woodridge, J. (2006), Introducción a la econometría. Un enfoque moderno, Tema 1 (1.3 y 1.4), Tema 2 (2.1), Tema 3 (3.1).

Pulido, A. y J. Pérez (2001), Modeloseconométricos. Capítulo 3, Apdo. 3.2.a 3.4. Capítulo 4, Apdo. 4.1.

Green, W.H. (2000), Econometric analysis, Ch.6 (6.1, 6.2, 6.3) Pérez, C. (2006), Problemas resueltos de econometría, Tema 1,

Apdo. 1.1.3, 1.1.4, 1.1.5 Watson, P. (2002), A practical introduction to econometrics

methods, Tema 1, págs. 5 a 8 Trívez, F.J. (2004), Introducción a la econometría, Tema 1, Apdo

1.3.2, 1.3.3. Tema 3, Apdo. 3.1.


Tema 2: Modelo de regresión lineal: componentes y tipos de datos

1

Tema 3:Formulación del Modelo Básico de Regresión Lineal (MBRL) y estimación de los parámetros por Mínimos Cuadrados Ordinarios (MCO)


2

Tema 3: Formulación del MBRL y estimación por MCO: Índice

1. Planteamiento del Modelo Básico de Regresión Lineal (MBRL)

2. Regresión poblacional y muestral3. Estimación por el método de Mínimos

Cuadrados Ordinarios (MCO)4. Conceptos de residuo y valor estimado

Tema 3: MBRL y estimacióon MCO. @ Prof. Coro Chasco (UAM), 2012

3

1. Planteamiento del Modelo Básico de Regresión Lineal (MBRL)

1. Expresión del modelo básico de regresión lineal (MBRL) en forma algebraica

2. Expresión del modelo básico de regresión lineal (MBRL) en forma matricial

3. Ejemplos


4

1.1. Expresión del MBRL en forma algebraica

1 1 2 2 ...t t t k kt ty x x x u

1 1 11 2 21 1 1

2 1 12 2 22 2 2

1 1 2 2

......

........................................................

k k

k k

n n n k kn n

y x x x uy x x x u

y x x x u

Forma algebraica desarrollada del MBRL:1 ecuación

n observaciones

k parámetros a estimar

n – k grados de libertad

X1t = 1 (constante)

Endógena: y

Exógenas: x1, x2,...,xk


5

1.2. Expresión del MBRL en forma matricial Forma matricial ampliada del MBRL:

1 1 121 k1

2 2 222 k2

2n kn

1 x ... x1 x ... x

.... .... ........................1 x ... xn k n

y uy u

y u

Forma reducida: y X u Tema 3: MBRL y estimacióon MCO. @ Prof. Coro Chasco (UAM), 2012

6

1.2. Expresión del MBRL en forma matricial Matrices del MBRL:

1

21

1 1

2 21 1

11

.... ....................1

.... ....

21 k1

22 k2n n k

n 2n kn

k n

k n

x ... xyy x ... x

y ; X

y x ... x

uu

; u

u


7

1.3. Ejemplos

Modelo macroeconómico de series temporales

Forma algebraica: tttt uAFYDC 321


8

1.3. Ejemplos (II)

EJEMPLO (cont.)

Forma algebraica desarrollada

Forma reducida:

1,261,33,261,26 uXy

80 1 2 80 3 80 80

81 1 2 81 3 81 81

05 1 2 05 3 05 05

..................................................

C YD AF uC YD AF u

C YD AF u


9

1.3. Ejemplos (III)EJEMPLO (cont.)

Forma matricial desarrollada

801

812

3 3,10526,1 26,3 26,1

18,8 1 21,5 37,919,0 1 22,2 37,8

............ .. ....... ........26,2 1 29,6 86,1

uu

u

80 80 80 801

81 81 81 812

305 05 05 05

11

..... .. ....... ........ .....1

C YD AF uC YD AF u

C YD AF u

Ejemplo con valores en variables:


10

2. Regresión poblacional y muestralPoblación (Universo): conjunto total de elementos que poseen una o más características en común. Hace referencia al conjunto total de elementos que se desea estudiar. Ej. características de la población española (Censo),

Pueden ser finitas, formadas por un número finitos de elementos, o infinitas donde el número de elementos es infinito.

Dado que es imposible describir con exactitud todas las características de una población infinita o conformada por un gran número de elementos, lo habitual es trabajar con muestras.


11

2. Regresión poblacional y muestral (II)Función de regresión muestral (FRM):Son aproximaciones de la función de regresión poblacional (FRP). Las diferencias con respecto a esta última son ocasionadas por las fluctuaciones muestrales. Por lo que se tendrán tantas FRMs como muestras diferentes se puedan extraer; y tales FRMs no necesariamente coincidirán.

Objetivo del análisis de regresión:Del análisis de regresión es por tanto estimar la función de regresión poblacional (FRP) a partir de la función de regresión muestral (FRM).


12

2. Regresión poblacional y muestral (III)

Muestra 1:Hogares de Madrid

Muestra 2:Hogares de Barcelona

x: Renta anual

x: Renta anual

y: Consumo

y: Consumo

Modelo de Consumo:

C = f (Renta)


13

2. Regresión poblacional y muestral (IV)


ˆ

1 2 2ˆ ˆ ty

t t ty x e

1 2 2t t ty x u

14

3. Estimación por el método MCO:3.1. Proceso de estimación

x

y

1: término indep.

Modelo teórico (regresión simple):

Se estiman por MCO los parámetros de posición (1 2).

El parámetro de dispersión (2) se estimará por MV:

2: pte. 1 1

2 22 2

ˆ

ˆ

ˆu

b

b

s

y1990

t=1990

x1990

ˆ1990ye1990

MCO

MV

1 2 2ˆ ˆˆt ty x

Modelo estimado (ecuación de la recta):


1 1 2 2t t t ty x x u

15

3. Estimación por el método MCO3.1. Proceso de estimación de los parámetros de un modelo

de regresión simple

El método MCO busca aquellos valores de los estimadores (bj) que hagan mínima la expresión S, que es la suma de los cuadrados de los residuos (et) de la regresión simple:

1º) Se obtiene la primera derivada parcial de S diferenciando por cada de bj

2º) Cada una de las 2 ecuaciones se iguala a cero y se despeja bj

Tema 3: MBRL y estimacióon MCO. Prof. Coro Chasco (UAM), 2012

2ˆ

21 1 2 2

1 1

ˆ ˆty

n n

t t t tt t

S e y x x

ˆj jb

1 1 2 2t t t ty x x u

16

3. Estimación por el método MCO

...cont.

1º) Se obtiene la primera derivada parcial de S diferenciando por cada de

2º) Cada una de las 2 ecuaciones se iguala a cero y se despeja

Min(S):


22

1 1 2 21 1

ˆ ˆn n

t t t tt t

S e y x x

1 1 2 2 111

1 1 2 2 212

ˆ ˆ2 0ˆ

ˆ ˆ2 0ˆ

n

t t t tt

n

t t t tt

S y x x x

S y x x x

17


...cont.


1 1 2 2 111

1 1 2 2 212

ˆ ˆ2 0ˆ

ˆ ˆ2 0ˆ

n

t t t tt

n

t t t tt

S y x x x

S y x x x

21 1 1 2 1 2

1 1 1

22 1 1 2 2 2

1 1 1

ˆ ˆ

ˆ ˆ

n n n

t t t t tt t tn n n

t t t t tt t t

y x x x x

y x x x x

Este sistema se 2 ecuacionesse denomina “sistema deecuaciones normales”

18

3. Estimación por el método MCODividiendo por “n” ambos términosy sus correspondientes sumandos:

21 1

1 2

22 2 2

1 1 11 2

ˆ ˆ

ˆ ˆ

n n

t tt t

n n n

t t t tt t t

y xn

n n n

y x x x

n n n

Dado que x1t = 1 (término constante):

21 1 1 2

1 21 1 1

22 1 2 2

1 21 1 1

ˆ ˆ

ˆ ˆ

n n nt t t t t

t t t

n n nt t t t t

t t t

y x x x xn n n

y x x x xn n n

1 2 2ˆ ˆ

t ty x 1 2 2

ˆ ˆt ty x

2 221

22 2

2 21

cov( , )ˆvar( )

n

t tt

n

t

x x y yx yxx x

Se puede demostrar que:

22 2

1

0n

i

x x

si se cumple que:

19

2, es la covarianza muestral entre x2 e y, dividida entre la varianza muestral de x.

Si x2 e y están correlacionados positivamente, será positivo (pues la varianza del denominadorsiempre es positiva).

Si x2 e y están correlacionados negativamente, será negativo.

Si x2 e y no tienen correlación alguna, no seráestadísticamente distinto de cero (volveremos a esto más tarde).

Obviamente, requerimos que x2 tenga ciertavarianza en la muestra.



20

3. Estimación por el método MCO3.2. Proceso de estimación de los parámetros de posición

en el modelo de regresión múltiple

El método MCO busca aquellos valores de los estimadores (b, ) que hagan mínima la expresión S, que es la suma de los cuadrados de los residuos (et) de la regresión:

1 2 2 ...t t k kt ty x x u

222

1 1 2 21 1 1

ˆ ˆ ˆˆ ..n n n

t t t t t t k ktt t t

S e y y y x x x


2º) Cada una de las “k” ecuaciones se iguala a cero y se despeja bj


21


n

t 1 1t 2 2t k kt 1ti 11

n

t 1 1t 2 2t k kt 2ti 12

t 1 1t 2 2k

S ˆ ˆ ˆ2 y x x ... x x 0ˆ

S ˆ ˆ ˆ2 y x x ... x x 0ˆ

.....................................................................................S ˆ ˆ2 y x xˆ

n

t k kt kti 1

ˆ... x x 0

222

1 1 2 21 1 1

ˆ ˆ ˆˆ ..n n n


S e y y y x x x

...cont.


2º) Cada una de las “k” ecuaciones se iguala a cero y se despeja bj

Min(S):


22


222

1 1 2 21 1 1

ˆ ˆ ˆˆ ..n n n


S e y y y x x x

2t 1t 1 1t 2 2t 1t k kt 1t

2t 2t 1 1t 2t 2 2t k kt 2t

t kt 1 1t 2t 2 2t kt

ˆ ˆ ˆy x x x x ... x xˆ ˆ ˆy x x x x ... x x

....................................................................................ˆ ˆ ˆy x x x x x ...

2k ktx

...cont.

Min(S):


23


222

1 1 2 21 1 1

ˆ ˆ ˆˆ ..n n n


S e y y y x x x

2t 1t 1 1t 2 2t 1t k kt 1t

2t 2t 1 1t 2t 2 2t k kt 2t

t kt 1 1t 2t 2 2t kt

ˆ ˆ ˆy x x x x ... x xˆ ˆ ˆy x x x x ... x x

....................................................................................ˆ ˆ ˆy x x x x x ...

2k ktx

...cont.

Este “sistema de k ecuaciones normales” puede también expresarseen forma matricial:

.

X’y = X’X

Min(S):


24


222

1 1 2 21 1 1

ˆ ˆ ˆˆ ..n n n


S e y y y x x x

Para que esta expresión tenga solución deben cumplirse 2 condiciones:

.

1 1

1

ˆ' 'ˆ' ' ' '

ˆ ' 'MCO

X y X X

X X X y X X X X

b X X X y

( )' 0kxkX X

X k

1ª)

2ª) Hipótesis básica de rango pleno.

Min(S):


25

Rango = el orden del mayor determinante que se puede formar con la matriz X. Como n > k, el rango pleno de X será el nº columnas o variables (k).

Esta hipótesis excluye la posibilidad de que existarelación matemática entre las variables explicativas.

Ej:

C: consumo hogares, nlabor: rentas no salariales, wage: rentas salariales, inc: total renta disponible

1 2 3 4C nlabor wage inc u

1 2 3 4 0nlabor wage inc nlabor wage inc

3. Estimación por el método MCOHipótesis básica de rango pleno.(X) = k


26

Muestra (n): nº de observaciones para el conjunto de variables observables (y, xj).

Si el rango es pleno, la muestra debe ser suficiente, para que se cumpla el requisito mínimo (matemático): n k.

A efectos operativos, debe existir un mínimo de grados de libertad (n – k):

Series temporales (datos anuales): n – k > 15.Series temporales (datos mensuales/trimestrales): n – k > 60.Datos espaciales (provinciales, regionales): n – k > 50. Etc.

3. Estimación por el método MCOHipótesis básica de rango pleno.(X) = k


27

3. Estimación por el método MCO:3.3. Interpretación de los estimadores

• Término independiente (b1): se trata del valor de predicción de y para valores nulos del resto de variables explicativas (x2 = ... = xk = 0).

• Las pendientes (b2, b3,...,bk) tienen interpretación de efecto parcial o ceteris paribus. Es decir:

2 2 3 3

ˆ ˆ ˆˆ ... k ky x x x Así, es posible conocer el cambio estimado en y dados los cambios en las variables exógenas (término independiente no interviene para nada).

Cuando x3,..., xk se mantienen fijos, de forma que 2 3 ... 0kx x x

2 2y x


28

3. Estimación por el método MCO:


29

ˆˆ

ˆˆ

y X u

y Xb Xe y Xb

e y yy y e y Xb e

ei

4. Conceptos de residuo y valor estimado


30

4. Conceptos de residuo y valor estimado (II)


31

Tema 3: Formulación del MBRL y estimación por MCO...: Bibliografía

Pulido, A. y J. Pérez (2001), Modeloseconométricos. T.5 (5.1.)

Green, W.H. (2000), Econometric analysis, Ch.6 (6.4, 6.6.3, 6.6.4) Novales, A. (2000), Econometría. 2ª ed., T.3 (Apdo. 3.3 y 3-4), Mc Graw-Hill. Pérez, C. (2007), Econometría básica: técnicas y herramientas. Cap.1 (págs. 3-6) Trívez, F.J. (2004), Introducción a la econometría, T.3 (3.3, 3.4, 3.5 y 3.6) Vermeek, M. (2008), A guide to modern econometrics, T.2 (2.1.2 a 2.1.4)


Tema 4:Análisis de bondad del ajuste y medidas de los errores


2

Tema 4: Análisis de bondad del ajuste y medidas de los errores: Índice

4.1.Análisis de la varianza: conceptos de Suma Cuadratica Total, Explicada y Residual.

4.2.El coeficiente de determinación (R2).4.3.Análisis gráfico de los errores de un modelo.4.4.Medidas individuales del error.4.5.Ratios básicos del error.

Tema 4: Análisis de bondad del ajuste....@ Prof. Coro Chasco (UAM), 2012

3

1. Análisis de la varianza (ANOVA)

El ANOVA permite descomponer la suma total de los cuadrados de la variable endógena (SST) en dos partes: 1) la suma de los cuadrados de la variable endógena estimada (SSE) y 2) la suma de los cuadrados de los residuos (SSR): SST = SSE + SSR

Recordamos:

ˆˆ

ˆˆ

y X u

y Xb Xe y Xb

e y yy y e y Xb e


4

1. Análisis de la varianza (ANOVA) (II)

ANOVA: SST = SSE + SSR

2

1

n

tt

SST y y

SST: suma total de los cuadrados de la diferencia entre cada valor de la variable endógena y la media aritmética simple de los valores de la endógena:

1

ntt

y y n

La SST mide la extensión (variabilidad) en la cual la variable endógena (y) se mueve arriba o debajo de su valor promedio.

y

ty

22 2

1 1 1

2 2 2

1 1 1

ˆ ˆ

ˆ

n n n

t t tt t t

SST SSE SSRn n n

t t tt t t

y y y y e e

y y y y e

2 2 2ˆˆ y y ey y e S S S


5

1. Análisis de la varianza (ANOVA) (III)


2

1

n

tt

SST y y

SST: variabilidad de la variable endógena real en torno a su valor medio.

2 2 2ˆˆ y y ey y e S S S

2

1

ˆn

tt

SSE y y

SSE: grado de fluctuación de la variable estimada alrededor del promedio de la variable endógena real.

2

1

n

tt

SSR e

SSR: indicador del nivel de error de la variable endógena estimada, en su intento por explicar la variable real.

SSR SST

Si SSR = 0: el ajuste realizado por la variable estimada será perfecto.

= e’e

Esto sólo es verdad cuando E(e)=0. Por ejemplo, en modelos sin término independiente, no se cumple.


2. Coeficiente de determinación R2

El coeficiente de determinación R2 es una medida descriptiva (no es un test paramétrico) del ajuste global del modelo:

22

21 1 e

y

SSSE SST SSR SSRRSST SST SST S

Si R2 = 0,80 el modelo explica un 80% de la variabilidad de la endógena

En principio, un modelo será tanto mejor cuanto mayor sea R2. Pero debe tenerse en cuenta que este coeficiente presenta una limitación: que tiende a aumentar de valor con la introducción de nuevas variables explicativas en el modelo, tanto si éstas son o no son relevantes para explicar la endógena.

0 R2 1 R2 = 0 Ajuste totalmente imperfecto: SSR = SST

R2 = 1 Ajuste totalmente perfecto: SSR = 0

6Tema 4: Análisis de bondad del ajuste....@ Prof. Coro Chasco (UAM), 2012

7

2. Coeficiente de determinación R2 (II)

Esta limitación del R2 se soluciona con el coeficiente de determinación ajustado, que es el R2 corregido por los grados de libertad. Este coeficiente no depende del número de variables del modelo:

Este coeficiente es considerado una buena medida de la calidad e la regresión, pues no depende del número de variables del modelo.El modelo será tanto mejor cuando mayor sea el coeficiente de determinación corregido, sabiendo que:

2 2 11 1 nR Rn k

2R 20 1R

Limitación: este estadístico no permite realizar contrastes (como los tests “t” y “F”) ni, por tanto, disponer de niveles de confianza sobre el ajuste global del modelo.


2. Coeficiente de determinación R2 (III)

Variable endógena con evolución regular, sin cambios de tendencia, sin alteraciones en su ritmo de crecimiento (por ej. variables acumuladas o de stock): será más fácil de aproximar por un modelo y se obtendrán coeficientes de determinación elevados y errores de predicción reducidos. En estos casos, hay que ser más exigentes con el valor del R2:

Variable endógena con evolución irregular, con cambios de tendencia (por ej. tasas de variación interanual): será más difícil de ajustar, se obtendrán coeficientes de determinación menos elevados y mayores errores de predicción. En estos casos, podemos ser menos exigentes con el valor del R2:

2 0,95R

2 0,70R Modelos sin término independiente: la media de “e” no es nula y,

por tanto, el valor del R2 ya no se calcularía del mismo modo, ni se cumpliría la expresión del ANOVA.


9

3. Análisis gráfico de los errores3.1. Diagrama de predicción-realización

El 2º y 4º cuadrante recogen casos extremos: el error no ha sido solamente de cuantía, sino de signo, habiéndose estimado crecimientos en vez de caídas, y viceversa.


Tema 7: Medidas de bondad del ajuste. Prof. Coro Chasco 10

3. Análisis gráfico de los errores3.1. Diagrama de predicción-realización (II)

11

3. Análisis gráfico de los errores3.1. Diagrama de predicción-realización (III)

Buen ajuste: puntos cercanos a la línea de predicción perfecta.

12

3.1. Diagrama de predicción-realización (IV)

Mal ajuste: lejos de la línea de predicción perfecta.

Cuad. I, bajo línea: subestima.

Cuad. IV: predice en lugar de .

Subestima

Error de signo


13

Cuantifica el diagrama de predicción-realización:


3. Análisis gráfico de los errores3.2. Coeficiente de desigualdad de Theil

Caso de predicción perfecta: U = 0Caso de máxima desigualdad: U = 1

14Tema 4: Análisis de bondad del ajuste....@ Prof. Coro Chasco (UAM), 2012

3. Análisis gráfico de los errores3.2. Coeficiente de desigualdad de Theil (II)

El coeficiente U de Theil se puede descomponer en 3 componentes o “fuentes de error”:

UM: Error sistemático US: Error de dispersión UC: Error de correlación

U = UM + US + UC


3. Análisis gráfico de los errores3.2. Coeficiente de desigualdad de Theil (III)

Error sistemático: UM = 0 (predicción perfecta)0 < UM < 1 (sobrestimación) ; -1 < UM < 0 (subestimación)

Error de dispersión:US = 0 (coincidencia en la dispersión real-estimada)0 < US < 1 (dispersión estimada > dispersión real)-1 < US < 0 (dispersión estimada < dispersión real) Error de correlación:Uc = 0 (correlación + perfecta entre real-estimada)Uc = 1 (correlación - perfecta entre real-estimada)

(ausencia total de correlación real-estimada)UC 0,7


3. Análisis gráfico de los errores3.2. Coeficiente de desigualdad de Theil (IV)

Estos 3 componentes pueden dividirse por el cuadrado del coeficiente de Theil:

Son proporciones o coeficientes relativos que miden las fuentes del error del coeficiente global de Theil.


3. Análisis gráfico de los errores3.2. Coeficiente de desigualdad de Theil (V)

Según Theil, en situaciones no perfectas la distribución más deseable de desigualdad para las 3 fuentes de error es:

0 ; 1M S CU U U

La predicción totalmente perfecta supone: ECM = PEMA = U = UM = US + UC = 0

Si U = UM = US + UC = 0, no se pueden calcular las proporciones UM, US, UC.


3. Análisis gráfico de los errores3.2. Coeficiente de desigualdad de Theil (VI)

3.2. Coeficiente de desigualdad de Theil (VII)

20

4. Medidas individuales del error:y

ˆty y ˆe y y - 0 +

errores atípicos (“outliers”)


21

5. Ratios básicos del error

1. Error cuadrático medio:

2. Error medio absoluto:

3. Porcentaje del error medio absoluto (PEMA)

2

1

n

tt

e e eECMn n

1

n

tt

eEMA

n

1 100

nt

tt

ey

PEMAn

La capacidad predictiva (o de realizar un buen ajuste) de un modelo puede evaluarse también con diferentes medidas, como las siguientes:

Obviamente, cuanto más próximos estén a cero los valores de estas medidas, mejor será la capacidad predictiva (de ajuste) del modelo.


Interpretación:% de error por unidad de la endógena.

EViews: raíz cuadrada del ECM.

Medidas absolutas: su valor (alto/bajo) depende de las ud. de medida de la endógena

Medida relativizada (en %) o dividida por las ud. de medida de la endógena

22

5. Ratios básicos del error (II)


Permiten comparar modelos distintos, dentro de la estrategia de modelización:

23

5. Ratios básicos del error (III)

Interpretación de resultados en el programa EViews:


24

Tema 4: Análisis de bondad del ajuste y medidas de los errores: Bibliografía

Pulido, A. y J. Pérez (2001), Modeloseconométricos. T.6 (Apdo. 6.4.a. y b.) y T. 7

Wooldridge, J. (2006), IntroductoryEconometrics. A modern approach. T.4, Apdo. 4.5 (p. 139-150).

Gujarati , D. (2003), Econometría, T.7 (7.8) Schmidt, S.J. (2005), Econometría, T.8 (8.4) Pérez, C. (2007), Econometría básica. Técnicas y

herramientas, T.1


Tema 5:Interpretación de los coeficientes estimados


2

Tema 5: Interpretación de los coeficientes estimados: Índice

1. Significado, signo y utilidad del estimador MCO.2. Interpretación de los estimadores ante cambios de escala de las variables.3. Interpretación de los estimadores en modelos en tasas y LOG lineales.4. Modelos econométricos no lineales: una introducción al problema5. Modelos con variables exógenas categóricas

Tema 5: Interpretación de los coeficientes. @ Prof. Coro Chasco (UAM), 2012

3

1. Significado, signo y utilidad del MCO1.1. Significado Los parámetros estimados son coeficientes “ceteris paribus”

que permiten imitar a los científicos en sus experimentos delaboratorio: analizar el impacto de una acción o medida (variable),conservando fijo el resto de los factores.

El efecto positivo de la publicidad sobre las ventas se vematizado o “corregido” por el efecto de los precios.

Si sólo se observa la relación entre ventas y precios se subestimael efecto negativo de los precios (0,38 frente a 0,5); es decir, elestimador tiene un “sesgo”.


+

4

1. Significado, signo y utilidad del MCO1.1. Significado (II) Los estimadores de los parámetros (bj) deberían

indicar la importancia relativa de la variable a queafectan (xj) sobre el comportamiento de la variableendógena (y).

Si el modelo ha sido estimado en forma directamentelineal ( ), los coeficientes bjdel modelo estimado no son sinoaproximaciones del efecto que sobre y tiene unavariación unitaria de xj:

1 2 2 ...t t k kt ty x x u 1 2 2ˆ ...t t k kty b b x b x

ˆ yj

jy

yb

x

yj

jy

yx


5

1. Significado, signo y utilidad del MCO1.1. Significado (III) EJEMPLO:

CONSTANTE (-3,0):. Mide el cambio en Y (Nota) cuando todas las X (Estudio y Asistencia) valencero. Ej.: si no se estudia ni se va a clase, la nota será: -3 (s/ 10).. Sólo tiene sentido su interpretación si el “0” pertenece al campo de posiblesvalores muestrales de las variables X (si es posible no estudiar ni una hora niasistir a clase nunca; que en este caso, sí lo es). RESTO DE PARÁMETROS:Miden el cambio en “y” (Nota) ante un aumento de una unidad de X bajo lacondición “ceteris paribus” (resto de X constante):. Aumentar el Estudio en 1 hora (manteniendo constante la Asistencia) suponeun aumento de la Nota en 4,2 puntos sobre 10.. Aumentar Asistencia en 1 día (constante el Estudio) aumenta la Nota en 3,7.


ˆ 3,0 4,2* 3,7*Nota Estudio Asistencia Escala: 1-10 Nº horas Nº clases

6

1. Significado, signo y utilidad del MCO1.2. Signo

Como consecuencia, un primer contraste elemental para todoparámetro consiste en adecuar su signo al que cabe esperara priori con los conocimientos teóricos sobre relaciones entrevariables.

Adecuación entre los signos de los estimadores y el sentidode la relación socioconómica existente entre la variable y y laexplicativa xj correspondiente.

Excepción: el término independiente (1): no siempre existe unsentido económico claro (por ej, en el modelo keynesiano delconsumo, el término independiente sería expresión delconsumo de subsistencia, es decir, el nivel de consumo parauna situación transitoria de renta nula).


7

1. Significado, signo y utilidad del MCO1.2. Signo (II)

1 2ln ln ii irend beca u

Ejemplo 1: Relación entre el rendimiento escolar (rend) y la concesión de becas al estudio (basado en Wooldridge, 2006).

“u”: incluiría el resto de características del colegio y del alumno que afectan a “rend”Modelo de corte transversal: i = 1, 2,..., 408 institutos de Michigan (USA)

Efecto esperado: que el programa oficial de concesión de becas tenga un efecto positivosobre el rendimiento “ceteris paribus” ; es decir, manteniendo constantes el resto de factores, como la renta (si los estudiantes tienen o no dinero para pagarse los estudios).


8

1. Significado, signo y utilidad del MCO1.2. Signo (III)

ˆln 32,14 0,319 lni i

rend beca

Ejemplo 1: Relación entre el rendimiento escolar (rend) y la concesión de becas al estudio (basado en Wooldridge, 2006).

Si el programa de becas al estudio aumenta en, por ej, un 10%, el rendimiento escolar de los alumnos disminuye en un 3,2% aproximadamente, lo que no es un resultado creíble.

Probablemente, “u” está correlacionado con “becas”, ya que contiene, entre otras variables, la renta de los alumnos, que es un determinante muy importante para la concesión de becas. Además de esta variable, también están en “u” otras variables, como la calidad del colegio, también muy correlacionada con la concesión de becas.

El valor estimado (-0,319) sólo es válido para este modelo, pero no tiene validez general.

Resultados de la estimación MCO:


9

1. Significado, signo y utilidad del MCO1.3. Cuantía

Como el valor de los bj dependen de las unidades de medida desu correspondiente variable exógena, debe evitarse caer en elfrecuente error de considerar que una variable explicativa esmás importante que otra porque su estimador es mayor.

Esto sólo es verdad (suponiendo que los estimadores sean,además, estadísticamente significativos), si ambas variablesestán medidas en la misma unidad.

En caso contrario, deben calcularse los coeficientes beta oestandarizados, normalizando las variables:

jxj j

y

Sb b

S

1 k

t 1t 1 kt k1 k t

y x x

y y x x x x... uS S S


10

Explicación de los condicionantes de la tasa de empleo (ocup) en laComunidad de Madrid, en el período 1980-2006 .

1 2 3t t t tocup pibr pobact u miles personas miles € %

ˆ 1708,8 0,0002 0, 4042t t tocup pibr pobact Estimación MCO:

= 0.0002

= - 0.4042

tasactivt +

tasactivt

Tasactiv

tasactiv

1. Significado, signo y utilidad del MCO1.3. Cuantía (II)

11

2. Interpretación de los estimadores ante cambios de escala de las variables. En el modelo directamente lineal, los estimadores son valores

absolutos, cuyo valor depende de las unidades de medida en que expresemos las variables del modelo:

Un cambio en la unidad de medida de las variables exógenas afecta al valor de los estimadores (bj), pero no a la contribución de cada exógena a la y (es decir, al producto: bjxj).

Si multiplicamos la y por una constante no nula (c): ˆ1000 1000t jy

t 1 1t 2 2t k kt ty x x ... x u


12

2. Interpretación de los estimadores ante cambios de escala de las variables (II)

Si una variable exógena (xj) se multiplica por “c”, su correspondiente coeficiente bj se divide por “c”, y viceversa :

Si “wage” se multiplica por 1.000, b1 y b2 tb.

Si “share” se expresa en “tantos por uno” (es decir, se divide por 100), su coeficiente b2 se multiplicará por 100:

Queremos medir el efecto que el rendimiento de las acciones de las grandes empresas, “share” (%) tiene sobre el salario de sus directores generales, “wage” (miles $)


13

2. Interpretación de los estimadores…(III)SALARIO EDU

5 17,5 2

11,25 316,875 425,3125 537,96875 656,953125 785,4296875 8

Tasa cto. Aplicada 0,5

y = 10,701x ‐ 17,367

‐20

0

20

40

60

80

100

0 2 4 6 8 10

LN(SALARIO)EDU1,60943791 12,01490302 22,42036813 32,82583324 43,23129834 53,63676345 64,04222856 74,44769367 8

y = 0,4055x + 1,204

0

1

2

3

4

5

0 2 4 6 8 10


La transformación logaritmica de la variable endógena (o de todas las variables) de un modelo en suele producir una relación lineal entre dichas variables.

En LOGS: el porcentaje de cambio en Y ante incrementos unitarios de X permanece constante para todos los valores (altos/bajos) de la muestra.

14

3. Interpretación de los estimadores en modelos en tasas y LOG lineales.

ˆ 963,191 18,502wage educ Miles $/año años

9,632 + 0,851


NIVEL – NIVEL: El incremento en 1 año más de formación supone, por término medio, un aumento en 851 euros (0,851 miles de euros) en el salario anual.

15

3. Interpretación de los estimadores en modelos en tasas y LOG lineales (II)

ˆln 4.822 0,257 lnwage sales

ˆln 0,584 0,083wage educ

ˆ 32,14 31,9 lnscore beca Nota media: 0-10 Miles $

Miles $/año años

Miles $/año Miles $


LOG – LOG: Un 1% más en las ventas de la empresa supone un 0,257% más en el salario de los directivos.

NIVEL – LOG:Un 1% más en el importe de la beca de estudios supone un aumento en la nota media de 0,319 puntos.

LOG – NIVEL:Un año más de formación supone un crecimiento en el salario anual del 8,3%.

16

3. Interpretación de los estimadores en modelos en tasas y LOG lineales (III)

ˆ 963,191 18,502Twage Tshare % %

9,632 + 18,51


PORCENTAJE – PORCENTAJE NIVEL – NIVEL

(tantos por ciento)

Un 1% más en el rendimiento de las acciones de la empresa supone un crecimiento del 18,51% en el sueldo anual de los directivos.

ˆ 9,632 1,85wage Tshare Un 1% más en el rendimiento de las acciones de la empresa supone un crecimiento del 1850 dólares más (1,85 miles de dólares) en el sueldo anual de los directivos.

%

NIVEL – PORCENTAJE NIVEL – NIVEL

Miles $/año

17

4. Modelos econométricos no lineales: una introducción al problema

Relación lineal entre las variables del modelo. En los modelos macroeconométricos (variables

muy agregadas) la relación lineal es válida en casi todos los casos.

Aunque ciertas relaciones no lineales pueden linealizarse mediante el adecuado cambio de variables (ej. transformación logarítmica)


Hipótesis básica de linealidad:

18

1. Las funciones no lineales se caracterizan por que el cambio en “x” produce un cambio en “y” que depende del valor inicial de “x”: rendimientos marginales crecientes/decrecientes.

2. Algunas funciones matemáticas relevantes en economía:a) Función cuadrática:b) Función cúbica:c) Función logarítmica:d) Función exponencial:e) Función potencial:

1 2

32

21 2 3

2 31 2 3 4

1 2

1 2

1 2 3

log

exp x

y x x

y x x xy x

y x e

y x x

4. Modelos econométricos no lineales: una introducción al problema


19

4.2.1. Funciones no lineales: cuadrática (III)2

1 2 3 y x x

Rendimientos crecientes2 < 0 , 3 > 0

2 32 x

Rendimientos decrecientes2 > 0 y 3 < 0

2 32 x

2

ˆ 5.25 0.48

0.008

i i

i

wage exper

exper2347 50 6 t t iC depos depos

C: costes financieros bancos; depos: nº depósitoswage: salario/hora; exper: experiencia profesional


20

4.2.2. Funciones no lineales: cúbica

1. Esta función matemática es útil para representar fenómenos económicos que presentan los dos tipos de rendimientos a escala: primero, crecientes y luego, decrecientes (o viceversa).

34

2321 LLLQ

Por ejemplo, la producción de largo plazo de una empresa (Q) en función del factor trabajo (L):

Rdtos. crecientes (economías de escala) Rdtos. crecientes: Un aumento de los

trabajadores permitiría a la empresa abordar trabajos más especializados.

Rdtos. decrecientes: a partir de cierto tamaño, pueden surgir problemas de comunicación, aumento de la burocracia, etc.

Rdtos. decrecientes (deseconomías de escala)


21

4.2.3. Funciones no lineales: logarítmica

1. La función no lineal más importante en el análisis econométrico es el logaritmo neperiano.

2. Esta función es denominada en los libros y “software” econométricos como: log, ln, loge

3. La función logarítmica presenta rendimientos marginales decrecientes.

4. La función logarítmica presenta elasticidad constante.


22

4.2.3. Funciones no lineales: logarítmica (II)

logy x

x

y

10

ˆ 33 45,1 log i ihours wage

Pero un incremento del salario/hora de un 1% provoca un crecimiento en el número de horas trabajadas a la semana de ½ hora aproximadamente para cualquier nivel de “wage”, :

(45,1/100) horas = 0,451 horas media hora

Horas trabajadas

a la semana

Salario por hora

trabajada

Rendimientos marginales decrecientes Elasticidad constante

El incremento del salario/hora en 1€ provoca aumentos en el nº horas trabajadas/semana que dependen del nivel del salario/hora.


23

4.2.3. Funciones no lineales: logarítmica (III)

1. El parámetro 1 es la elasticidad (constante) de “y” con respecto a “x” (y, x > 0) en la función.

1 2log log y x

2. La elasticidad de y con respecto a x es el cambio porcentual (%) en y cuando xaumenta 1%:

3. En una función lineal, la elasticidad no es constante a lo largo de una curva de demanda = recta (depende de “x”):

%%

yy x yy

x x y xx

1 2 21 2

y x xy xx y x

Modelo “LOG-LOG”:

y


24

4.2.3. Funciones no lineales: logarítmica (IV)

21

0 1 2

log

log log

ˆlog 3,024 0,868log 0.023

tt ut t

t t t

t t

C Y eC Y t u

C Y t

Ejemplo: El modelo de costes de una empresa elaboradora de zumos de frutas en el año t (Ct), es función de la producción en dicho año (Yt) y el paso del tiempo (t), que representa las nuevas inversiones introducidas cada año de la muestra (cambio tecnológico):

Una variación en 1% en la producción de la empresa ocasiona un aumento en un 0,868% en los costes de la empresa, Y.

El cambio tecnológico introducido en 1 año, supone un decrecimiento del 2,3% en los costes de la empresa, t.

t = 1993-1999


25

4.2.4. Funciones no lineales: exponencial1. Inversa de la función

logarítmica (anti-log) o función semi-log (“LOG-NIVEL”):

1 2

1 2

exp

log

y x

y x

2 0 . Rdto creciente

x

y

0

2 0.

Rdto decreciente

1 2exp

ˆlog 2,78 0,0094i i i

ii

wage educ u

wage educ

Rdto. creciente: 1 año de formación más que proporcional del salario (en €).

Elasticidad constante: 1 año de formación casi un 1% del salario, educ


CICLO DE VIDA DE UN PRODUCTO (CUOTA DE MERCADO)

ijijii

i

x

x

xx

x

x

uxxy

y

xy

y

ey

yyeyeyey

eey

...1

ln

1ln

)1(

)1(

1

110


4.2.2. Funciones no lineales: exponencial (II)

26

27

4.2.5. Funciones no lineales: potencial1. Efecto marginal creciente

321 2 3i i i iy x x u

Incrementos en “x” producen disminuciones en “y” (crecimientos negativos) menos que proporcionalmente.


Por ej.: Funciones de producción (tipo “Cobb-Douglas”)

1

1 2 2 3 3log log log log logi

i i i i

v

y x x u

210

0 1

2

ln( ) ln

ln

i

i i

i i

Q K L uQ K

L v

321 2 3y x x

28

4.2.5. Funciones especiales: potencial (II)2

2

1ˆi i

i

Gto distdist

x: dist

y: Gto

0Gtoij: gasto del hogar i (en la tienda j)

distij: distancia entre el domicilio de i y la tienda j

Por ej.: modelos de gravitación comercial

i = 1,…,n clientes de la tienda j


, 2,

2, 0 1 2 ,

( )

ln( ) ln( ) ln( )

i ji j

i j

i j i j i j i

PIB PIBF

Km

F PIB PIB km u

2. Comercio internacional:

1. Comercio minorista:

29

5. Modelos econométricos con variables exógenas categóricas Variables categóricas (cualitativas o indicativas):

implican la existencia (o ausencia) de una “cualidad” o atributo, que puede presentar dos o más clases o categorías.

Variables dicotómicas (binarias, “dummy” o ficticias): 2 clases (hombre/mujer, negro/blanco, crisis/no crisis, cliente/no cliente, etc.).

Se “cuantifican” mediante variables artificiales que asumen valores 0-1 (2 clases), 1-2-3-etc. (más clases).

Dicotómicas: 0 (ausencia de la característica), 1 (presencia o posesión de la característica).


Sólo formados por variables explicativas “dummy”.

30

5.1. Modelos ANOVA (análisis de la varianza)

i 1 2 i i ; Sexo 1 (mujer), 0 (hombre)GtoAlimentos Sexo u

Pueden estimarse por MCO, si se cumplen las hipótesis básicas, quedando del modo siguiente:

i 1 2

i 1

ˆ ˆˆMujeres (Sexo=1) GtoAlimentosˆˆHombres (Sexo=0) GtoAlimentos

Punto de corte (ordenada en el origen) = 1 = gto. medio (o estimado) en alimentación de hombres (categoría = 0).

Punto de corte diferencial (“pendiente”) = = en cuánto varía el gto. medio (o estimado) de las mujeres respecto de los hombres.


Estimación MCO de la variación del VAB (VATOT95) en función de la “transición de España en la UE=período de reformas (reconversión industrial)” (F = 1, entre 1987-1991).

31

5.1. Modelos ANOVA (II)

Variación interanual media fuera período transición: 2,23%.Variación media período transición: 2,23+2,26= 4.49%.La significación estadística de los estimadores (test t) permite asegurar que la diferencia entre las dos medias es significativa (con más del 95% de confianza).


Trampa de las variables ficticias: introducir tantas ficticias como categorías tenga la variable = colinealidad perfecta.

32

5.1. Modelos ANOVA (III)


El “software” indica que no puede invertir la matriz [X’X] porque el (X) < k.

Solución: si la variable categórica tiene “c” categorías o clases, deben introducirse “(c – 1)” variables ficticias.

Incluyen en el modelo una combinación de variables cuantitativas y cualitativas.

33

5.1. Modelos ANCOVA (análisis de la covarianza)


1. Manteniendo constante la inversión (IVFH95), el VAB sólo crece un 0.75% más en el período de transición.2. Pese a todo, las medias en el crecimiento del VAB siguen siendo diferentes (según el test t).2. Suponiendo que no hay diferencias entre períodos el crecimiento de IVFH95 en 1% produce un crecimiento del VAB del 22.78%.

Por tanto, podrían derivarse las siguientes regresiones:

34

5.1. Modelos ANCOVA (II)


t t t

t t t

ˆPara fic =1 (transicion): tvatot95 2.39 22.78 tivfh95ˆPara fic =0 (otro periodo): : tvatot95 1.64 22.78 tivfh95

tvatot95

tivfh95

2.39

1.64tˆ tvato

t951.64

22.78tivfh9

5

tˆ tvato

t952.39

22.78tivfh9

5

Variación en los coeficientes de la pendiente de la variable cuantitativa por categorías: mediante variable de interacción entre la cuantitativa y la categórica. Por ejemplo:

35

5.3. Interacción entre variables categóricas


4 = parámetro de la pendiente diferencial: diferencia entre la pendiente de la variable exógena cuantitativa (tivfh95) en cada categoría (los dos períodos temporales considerados).

t 1 2 t 3 t 4 tttvatot95 fic tivfh95 fic tivfh95 u

t 1 3 t

t 1 2 3 4 t

ˆ ˆˆfic 0 : tvatot95 tivfh95ˆ ˆ ˆ ˆˆfic 1: tvatot95 tivfh95

36

5.3. Interacción entre variables categóricas (II)


t t

t t t

fic 0 :

ˆtvatot95 1,65 0,69 tivfh95

fic 1 :

ˆtvatot95 1,65 0,69 22,65 0,76 tivfh95 2,34 ,23, 42 tivfh95

Estimador del parámetro de la pendiente diferencial = 0,76 que, respecto de 22,65, no es significativo (como indica el test t).

37

5.3. Interacción entre variables categóricas (III)


Regresiones coincidentes

Regresiones paralelas

Regresiones concurrentes

Regresiones disímiles

t 1 2 t 3 t 4 tˆ ˆ ˆ ˆˆtvatot95 fic tivfh95 fic tivfh95

2 4ˆ ˆ0; 0 2 4

ˆ ˆ0; 0

2 4ˆ ˆ0; 0 2 4

ˆ ˆ0; 0

Se analiza la existencia de diferencias en la evolución del VAB en 3 subperíodos: 80-86 (f1); 87-95 (f2); 96-03 (f3).

38

5.4. Variables cualitativas con más de 2 clases


t 1 2 t 3 t 4 t ttvatot95 f1 f2 tivfh95 u

i 1 2

i 1 3

i 1

ˆ ˆˆ80 86 (f1=1; f2=0) vatot95ˆ ˆˆ87 95 (f1=0; f2=1) vatot95ˆˆ96 03 (f1=0; f2=0) vatot95

Pto. de corte común, del período de referencia (97-03).

2 3ˆ ˆ Ptos. de corte diferenciales; en cuánto difiere el crecimiento

medio del VAB en los 2 períodos anteriores respecto del 97-03..

39

5.4. Variables cualitativas con más de 2 clases (II)

40

Tema 5: Interpretación de los coeficientes estimados...: Bibliografía

Pulido, A. y J. Pérez (2001), Modeloseconométricos. T.6, Apdo. 6.2.a.

Wooldridge, J. (2006), Introductory econometrics. A modern approach. T.4, Apdo. 4.2 a 4.4.

Gujarati, D. (2006), Principios de econometría. T.10, Apdo. 10.1 a 10.5.

Guisán, C. (1997), Econometría. T.3 (3.1, 3.2, 3.4) Trívez, F.J. (2004), Introducción a la econometría, T.5 (5.7.1) Green, W.H. (2000), Econometric analysis, Ch.6 (6.6.5, 6.6.6) Caridad y Ocerín, J.M. (1988) Econometría: modelos econométricos y

series temporales.


41

EjerciciosTomado de Caridad y Ocerín (1998): Una entidad bancaria desea realizar previsiones sobre los recursos ajenos o pasivo de clientes que captan sus distintas oficinas. En un estudio previo, se considera que el pasivo (P) de una sucursal (medida en millones €) depende del número de personas que residen en el área de influencia de la oficina (A) y del número de oficinas próximas de bancos de la competencia (C). Además, se tiene en cuenta que debe añadirse una variable más que recoja el efecto de interacción existente entre las variables población y nº de oficinas bancarias. En efecto, hay zonas urbanas donde hay una gran concentración de oficinas bancarias (el centro comercial de muchas ciudades) y otras zonas periféricas donde éstas escasean, aunque la población residente de las primeras sea inferior en comparación con la población residente de los barrios periféricos. Este fenómeno de interacción se incluye en el modelo como una variable “proxy” que será el producto I = (A.C). Es decir, una situación de alta competencia no es igual en zonas de baja población residente (valor inferior de A.C) que en zonas de alta población (valor superior de A.C).

Tras un proceso de recogida de datos en 20 oficinas, se especifica el modelo siguiente:

1 2 3 4 ; 1,2,..., 20i i i iiP A C A C u i

42

EjerciciosLa estimación por el método MCO del modelo da lugar al siguiente resultado:

Responda a las preguntas siguientes:

1. ¿Es correcto el signo de la relación existente entre cada variable explicativa y el pasivo de los clientes? ¿Por qué?

2. ¿Cuál es el impacto concreto que cada variable explicativa tiene sobre el pasivo de la sucursal?

3. Cuál es la variable explicativa de mayor influencia sobre el pasivo?

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

S(bj):


43

Ejercicios1. ¿Es correcto el signo de la relación existente entre cada

variable explicativa y el pasivo de los clientes? ¿Por qué?

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

El término independiente no suele tener sentido económico, por lo que no suele interpretarse. En cualquier caso, el signo positivo indicaría que, en una situación de población y competencia cero en la zona de influencia, existirá un valor positivo de pasivo en la sucursal.

El signo positivo de la población es correcto, pues cuanto mayor sea la población residente en la zona, mayor será el pasivo de la sucursal; y viceversa.

La competencia tiene un doble signo: por un lado, se producirá un efecto competencia (signo negativo), por el cual un incremento de oficinas de la competencia en la zona supondrá una pérdida de pasivo. Pero si ese incremento de la competencia viniera acompañado de un incremento de población (efecto aglomeración), se producirá un crecimiento de pasivo en la sucursal.


44

Ejercicios2. ¿Cuál es el impacto concreto que cada variable explicativa

tiene sobre el pasivo de la sucursal?

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

El término independiente no suele tener sentido económico, por lo que no se interpreta. En cualquier caso, éste indicaría el valor del pasivo (7.771,42 millones €) existente en la oficina bancaria en el hipotético caso de que tanto la población del área de influencia como las oficinas de la competencia fueran nulas.

Población residente del área: el incremento en un residente más dentro del área de influencia del banco implica un incremento del pasivo en 32.807€.

Competencia: el incremento en 1 oficina más de la competencia supone un efecto sobre el pasivo que depende del nivel de la población, ya que:

-496,35. Ci + 0,0603828. (A.C)i = (-496,35 + 0,0603828. Ai ). Ci

En lugares de alta población, el producto 0,0603828.Ai > 465,35, siendo el impacto sobre el pasivo de signo positivo (efecto aglomeración). Si la población es escasa, 0,0603828.Ai < 465,35, siendo el impacto sobre el pasivo de signo negativo (efecto competencia).

45

Ejercicios3. Cuál es la variable explicativa de mayor influencia sobre el

pasivo?

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

Como las variables explicativas están medidas en distintas unidades, no es posible valorar su influencia sobre el pasivo comparando el valor de los estimadores.

Aunque tenemos el valor de los estimadores bj, necesitamos conocer la desviación típica de dichas variables para estandarizar los estimadores. Los coeficientes estandarizados sí que son comparables, siendo la variable más significativa aquélla con mayor coeficiente estandarizado:

jxj j

y

Sb b

S


1

Tema 6:Propiedades estadísticas de los estimadores MCO


2

Tema 6: Propiedades estadísticas de los estimadores MCO: Índice1. Fuentes del error en un modelo2. Distribución de la perturbación aleatoria3. Estimador MCO: variable aleatoria4. Propiedades de los estimadores MCO

4.1. Linealidad4.2. Insesgadez4.3. Eficiencia4.4. Consistencia

5. Estimadores y propiedades de los estimadores MV5.1. Estimador MV de 2: muestras grandes5.2. Estimador MV de 2: muestras pequeñas

Tema 6: Propiedades estadísticas de los MCO.@ Prof. Coro Chasco, 2012

3

1. Fuentes de error en un modelo1. Error de la variable endógena

estimada, en su intento por explicar la variable real:

ˆt t te y y

2. Errores en la medición de algunas variables y utilización de variables “proxy”.

3. Omisión de variables explicativas relevantes (por desconocimiento o no disponibilidad).

4. Especificación de una forma funcional incorrecta.5. Simultaneidad (causalidad “bidireccional”)6. Inferencia desde la regresión muestral a la poblacional.

1 2 2 ...t t k kt ty x x u et,2), 3), 4), 5), 6)

La u es una variable aleatoria formada a partir de diversas fuentes

4

1. Fuentes de error en un modeloLa perturbación aleatoria es aquella parte (o variación) de la variable endógena no explicada por el conjunto de variables explicativas.

Puede expresarse como un vector columna con tantos elementos (n) como número de observaciones de la muestra.

Una variable “proxy” de la perturbación aleatoria (u) son los residuos de la regresión (e).


1

2,1 ...n

n

uu

u

u

u y X

y X u

1

2

...

n

ee

e

e

Muestra I

Muestra II

Muestra T

1 2 2 ...t t k kt ty x x u

Los parámetros j del modelo siguiente se podrían estimar con Tdiferentes muestras:

5

………….

2. Distribución de la perturbación aleatoria

ˆ ˆ

ˆ ˆ......................................................

ˆ ˆ

I I I II t t t t t

II II II IIII t t t t t

T T T TT t t t t t

n y y y e u

n y y y e u

n y y y e u

1 2 2

1 2 2

1 2 2

ˆ ˆ ˆˆ ...ˆ ˆ ˆˆ ...

......................................................ˆ ˆ ˆˆ ...

I I I I I II t t k kt

II II II II II IIII t t k kt

T T T T T TT t t k kt

n y x x

n y x x

n y x x

Cada una de las posibles T muestras con las que se estima un modelo da lugar a T posibles valores estimados de “y” y, por tanto, T series de errores de la estimación MCO.


6


u es una distribución conjunta de probabilidad; es decir, un conjunto de n distribuciones de probabilidad individuales (u1, u2,..., un).

Según el Teorema Central del Límite, la suma de n variables aleatorias independientes, cuando n tiende a infinito (o es “muy elevada”), se aproxima a una distribución normal.

Hay nT posibles valores de u1:

Hay nT posibles valores de u2:

Hay nT posibles valores de un:

1 1

2 2

1 1 1

2 2 2

,

,

, ,...,

, ,...,

I II T

I II T

E u Var u

E u Var u

u u u

u u u

……………………………………………..

, , ,..., n n

I II Tn n n E u Var uu u u


Hipótesis básica de normalidad de la perturbación aleatoria

7

Según el Teorema Central del Límite, una variable aleatoria se distribuye como una normal cuando cumple:

1) Es variable aleatoria continua, desde - hasta +2) Se distribuye simétricamente en torno a su media3) Totalmente caracterizada por 2 parámetros (media y varianza) u es un conjunto de n distribuciones de probabilidad individuales

(u1, u2,..., un), cada una de las cuales sigue como una normal.

0,tu iiN iiN: “se distribuye idéntica eindependientemente como una normal”

Este requisito asegura resultados estadísticos exactos, útil para la construcción de contrastes.



8

Los errores por exceso se compensan con los errores por defecto.

E[ut] = 0 E [u1] = E[u2] = ... = E[un] = 0.

Esto implica que u = conjunto de n variables individualmente irrelevantes (“shocks” aleatorios), es decir, que no actúan sobre y en una dirección dominante.

Este supuesto no se cumple en modelos sin el término independiente. Por esto, el término independiente debe incluirse siempre.


2. Distribución de la perturbación aleatoriaHipótesis básica de nulidad de la media de la perturbación aleatoria

9

1

21 ....n

n

uu

u

u

2 1,2,...,uVar u cte t n

21 2 ... n uVar u Var u Var u

La variable “Sigma-2” ( es otro parámetro teórico que hay que estimar en el MBRL: parámetro de dispersión.

Los k parámetros “beta” son llamados parámetros de posición.

Por tanto, en el MBRL, el método MCO debe estimar un total de k + 1 parámetros: k parámetros de posición (betas) y 1 parámetro de dispersión (Sigma-2).


2. Distribución de la perturbación aleatoriaHipótesis básica de varianza constante de la perturbación aleatoria

10

Series temporales: los errores de un período (ut) incidan sobre los de errores posteriores (ut+1), dadas las propias leyes de evolución de las variables.

Datos espaciales: los errores cometidos en una región (ui) se ven afectados por los errores cometidos en regiones vecinas (Wui). La especificación del retardo espacial no es tan directa como en el caso temporal y requiere de una previa especificación del concepto de “vecindad”, a través de una matriz de pesos espaciales (W).

0t sE u u t s


2. Distribución de la perturbación aleatoriaHipótesis básica de no autocorrelación en la perturbación aleatoria

1 1

2 2

1 1 1

2 2 2

,

,

, ,...,

, ,...,

I II T

I II T

E u Var u

E u Var u

u u u

u u u

CAUSAS: , , ,..., n n

I II Tn n n E u Var uu u u

Ausencia de correlación entre dos o más distribuciones individuales de “u” (por ej. u1, u2….,un)…………………..

3. Estimador MCO: una variable aleatoria¿Qué diferencia hay entre y ? j es el parámetro teórico (desconocido, objetivo a estimar)

correspondiente a la variable explicativa xj ( j = 1, …, k).

j es un número “fijo”, un término determinista (no aleatorio).

bj es un estimador o “coeficiente”, calculado estadísticamente para aproximar (estimar) el parámetro teórico j .

bj es un estimador o “coeficiente”, calculado estadísticamente, a partir de una muestra concreta de datos (n) para aproximar (estimar) el parámetro teórico j .

Con un mismo modelo, cada muestra de datos diferente produce un estimador bj diferente.

Tema 6: Propiedades estadísticas de los MCO.@ Prof. Coro Chasco, 2012 11

3. Estimador MCO: una variable aleatoria

1 2 2

1 2 2

1 2 2

ˆ ˆ ˆˆ ...ˆ ˆ ˆˆ ...

......................................................ˆ ˆ ˆˆ ...

I I I I I II t t k kt

II II II II II IIII t t k kt

T T T T T TT t t k kt

n y x x

n y x x

n y x x

Muestra de datos I

Muestra de datos II

Muestra de datos T

1 2 2 ...t t k kt ty x x u

Los parámetros j del modelo siguiente se podrían estimar con Tdiferentes muestras:

Hay nT estimadores de 1:

Hay nT estimadores de 2:

1 1 1

2 2 2

ˆ ˆ ˆ, ,...,ˆ ˆ ˆ, ,...,

I II T

I II T

Etc.

12

…………………….

3. Estimador MCO: una variable aleatoria Por tanto, cada estimador bj es una variable que adopta

tantos valores como muestras posibles pudiéramos extraer (nT), con objeto de estimar el modelo de la variable endógena y.

Cada estimador bj es una variable aleatoria, por ser función matemática de la perturbación aleatoria (u):

Si cada estimador bj es una variable aleatoria, que adopta diversos valores, tendrá una distribución y unos momentos (media, varianza, covarianza, etc.

La distribución de depende de la distribución de “u”.

Tema 6: Propiedades estadísticas de los MCO.@ Prof. Coro Chasco, 2012 13

1

1

1 1

ˆ

ˆ

ˆ

X X X y

X X X X u

X X X X X X X u

1ˆ X X X u

14


Ejemplo:

2 es el parámetro teórico correspondiente a la 2ª variable explicativa (precio). Es un número “fijo”. Debe ser la media de la distribución de b2.

b2 es el estimador (o coeficiente) del parámetro teórico 2 . Es una variable aleatoria.

Distintos valores de de un mismo

estimador b2 (con distintas muestras)

1 2 1 2ˆt t t t tVentas Precio u MCO Ventas b b Precio

2 2 22,b N a

0,tu iiN


15


2 debe ser la media de la distribución de b2.

2


Distribución de b2

2 2 22,b N a

16

4. Propiedades de los estimadores MCO

4.1. Linealidad4.2. Insesgadez4.3. Eficiencia4.4. Consistencia


17

4. Propiedades de los estimadores MCO Según el Teorema de Gauss-Markov, los estimadores

bMCO son ELIO (Estimadores Lineales Insesgados y Óptimos), es decir, son aquéllos que son los más eficientes (varianza mínima) entre todos los lineales (respecto a yt) e insesgados (tanto lineales y como no lineales).

Este Teorema justifica el uso de los bMCO para estimar modelos de regresión. Si cualquiera de los supuestos de Gauss-Markov fallara, el teorema dejaría de cumplirse. Por eso, el ejercicio econométrico dedica mucho esfuerzo a la revisión del cumplimiento de las H.B. Que sustenten estas propiedades de los bMCO.


18

4. Propiedades de los estimadores MCO:4.1. Linealidad

Se dice que un estimador es lineal si, y sólo si, se puede expresar como función de la variable dependiente.

11 1 1n n

1

W k1 1 kn n

w y ... w yb X 'X X ' y Wy .............................

w y ... w y

1 1 1 1

1

' ' ' ' ' ' ' '

' '

b X X X y X X X X u X X X X X X X u

X X X u Wu


19

Se dice que un estimador es insesgado si, en media, coinciden parámetro () y estimador (b):

1 1. ( ) 0

( ) ' ' ' 'var . .cte E u

E b E X X X u X X X E uu aleat Hipótesis

Esta propiedad depende de 3 supuestos, derivados directamente de las hipótesis básicas:1) Linealidad en los parámetros:2) Media nula de la perturbación aleatoria:3) Rango pleno:

1b X 'X X ' y

E u 1'X X


4. Propiedades de los estimadores MCO:4.2. Insesgadez

20

Se espera un signo +



21


22

Los estimadores MCO son eficientes u óptimos porque tienen varianza mínima. Cuando se habla de “mínima” es porque se están comparando con el resto de estimadores que forman la familia de estimadores lineales ( ) e insesgados (lineales y no lineales).

11 1

1

1 1 12

( ) '

( )

b X X X uCov b E b b E X X X u u X X X

b X X X u

X X X E uu X X X X X

12( )Cov b X X Los elementos de la diagonal principal son: 2

j jjVar b a


4. Propiedades de los estimadores MCO:4.3. Eficiencia

23

Algunas consideraciones sobre el desarrollo anterior:

2

1 1 1

12

1

2 21 1

2

. .2 2

1

...( ) ... .. ...... ... ......

...

.. .. 0 ..... .. .... ..... .. ....

.. 0 ..

n

n

n n n

n

nH B

n n

u u u uE uu E u u E

u u u u

I

12( )Cov b X X Incrementos en 2 (dispersión de “u”) producen incrementos en Var(bj), es decir, mayor ineficiencia de los bmco



24

Según el Teorema de Gauss-Markov, los estimadores bMCO son ELIO (Estimadores Lineales Insesgados y Óptimos).

Es decir, se pueden expresar del modo siguiente:

Según el Teorema Central del Límite, la perturbación aleatoria (u) se distribuye como una normal. Por eso, como los estimadores MCO son función de “u”, éstos también se distribuyen como una normal.

,j j jjb N a



25

Se dice que un estimador bj es consistente o asintóticamente eficiente si:

ˆlimn

E

ˆlim 0n

Var

Es decir, cuando el tamaño de la muestra tiende a la población total, la media de los valores de los estimadores tiende al valor teórico del parámetro y, por tanto, la varianza de los estimadores tiende a cero.

Para ello, debe ser también asintóticamente insesgado:


4. Propiedades de los estimadores MCO:4.4. Consistencia

26

5. Estimadores MV y propiedades

Deseamos estimar por MV los parámetros de posición () y dispersión (2) del MBRL: y = X + u.

Los estimadores MV son los más probables”, es decir, los que maximizan la función de verosimilitud L(función de densidad de probabilidad conjunta) de la variable endógena “y”, para una muestra de “n” observaciones.

Las hipótesis básicas (H.B.) que deben cumplirse:

2

2,

1º ) 0,0

2º ) , y X uX ctes

u NE u E y X

y N X


27

La función de verosimilitud L de la variable y es la siguiente:

Transformamos L por ln(L), pues ambas funciones alcanzan el máximo en el mismo punto (por ser la función logaritmo monótona):

22

1ln ln(2 ) ln2 2 2n nL y X y X

O también:

22


2 21

22 1 2 '2 222

122

y X y Xnn y E y y E y

nL e e

y y y X X y X X



28


Los estimadores bMV son los que maximizan ln(L). Es decir:

22


El estimador 2(MV) es el valor que maximiza ln(L). Es decir:

2 2

1

ln 1 ln2 2 02

ˆMV MCO

L LX y X X

X y X X X X X y

2 2 4 2

22

ln 1 ln 02 2

1MV

L n Ly X y X

u u e en u un n

Los 2 métodos de estimación coinciden sólo si se cumplen las H.B. En este caso, las propiedades ELIO se cumplen.

y y y X X y X X


29

5. Estimadores MV y propiedades 5.1. Estimador MV de 2: muestras grandes

En muestras grandes, el estimador MV del parámetro 2 cumple todas las buenas propiedades: es insesgado asintóticamente y consistente (asintóticamente eficiente).

2

2 1

n

tt

MV

ee en n

Esta expresión coincide con la varianza de los residuos MCO (et); es decir, de aquellos residuos resultantes de la estimación por MCO:

ˆ

ˆt t t

MCOt

e y y

siendo y X b


30

En muestras pequeñas, este estimador no cumple ninguna propiedad deseable (ni siquiera la linealidad).

Por eso, es preferible que se ajuste la varianza de los residuos MCO por los grados de libertad perdidos en la estimación de estos residuos: n – k:

2

2 1ˆ

n

tt

ee e

n k n k

2ˆ ˆ e e n k Error estándar de la regresión (en EViews: “S.E. of regression”


5. Estimadores MV y propiedades 5.2. Estimador MV de 2: muestras pequeñas

31

k

= n

= 0.00722


5. Estimadores MV y propiedades 5.2. Estimador MV de 2: muestras pequeñas

32

Tema 6: Propiedades estadísticas de los MCO...: Bibliografía

Pulido, A. y J. Pérez (2001), Modelos econométricos. T.5 (5.1.)

Novales, A. (2000), Econometría. 2ª ed., T.3 (Apdo. 3.3 y 3-4), Mc Graw-Hill. LECTURA

Green, W.H. (2000), Econometric analysis, Ch.6 (6.4, 6.6.3, 6.6.4) Pérez, C. (2007), Econometría básica: técnicas y herramientas. Cap.1 (págs. 3-6) Trívez, F.J. (2004), Introducción a la econometría, T.3 (3.3, 3.4, 3.5 y 3.6) Vermeek, M. (2008), A guide to modern econometrics, T.2 (2.1.2 a 2.1.4)


Tema 7:Intervalos de confianza y contrastes de hipótesis de un único parámetro


2

Tema 7: Intervalos de confianza y contrastes de un único parámetro: Índice

1. Distribución normal de los estimadores2. Intervalo de confianza de un parámetro3. Contraste estadístico: t-Student

3.1. Significatividad individual de un parámetro3.2. Contrastes de valores no nulos de los parámetros3.3. Intervalos de confianza de un parámetro

Tema 7: Intervalos de confianza y contrastes.... @ Prof. Coro Chasco (UAM), 2012

1. Distribución normal de los estimadoresRecordamos...

2 es el parámetro teórico correspondiente a la variable explicativa 2 (precio). Es un número “fijo”. Debe ser la media de la distribución de b2.

b2 es el estimador (o coeficiente) del parámetro teórico 2 . Es una variable aleatoria.

Distintos valores de de un mismo

estimador b2 (con distintas muestras)


2 2 22,b N a

Tema 7: Intervalos de confianza y contrastes.... Prof. Coro Chasco (UAM) 32

Distribución de b2

4

2. Intervalo de confianza de un parámetroIntervalo de confianza: par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto.

Estos números determinan un intervalo, que se calcula a partir de datos de una muestra de datos siendo el valor desconocido un parámetro poblacional (j).

La probabilidad de éxito en la estimación se representa como (1 – α) y se denomina nivel de confianza, siendo α (o ) el nivel de significación (una medida de las posibilidades de fallar en la estimación mediante tal intervalo).

, ~ ,

j j

jj

bN 0,1

a

Pr 1,96 1,96 0,95j jj j j jjb a b a

: desconocido


5

3. Contraste estadístico: t-StudentLa distribución t-Student presenta gran importancia en los procesos inferenciales basados en muestras pequeñas (lo habitual en econometría)

La distribución t es más ancha y más plana en el centro que la distribución normal estándar. Pero, a medida que aumenta el tamaño de la muestra (n ), la distribución t se aproxima a la distribución normal estándar: N(0,1).

La distribución t de Student con (n – k) grados de libertad permite obtener valores conocidos para la desviación típica de los estimadores.


6

3. Contraste estadístico: t-StudentLa distribución t de Student con (n – k) grados de libertad permite obtener valores conocidos para la desviación típica de los estimadores.

j j

u jj

bPr 1,96 1,96 0,95

a

2 2

Pr 0,95ˆ

j j

u jj

bt t

a

ˆ ˆ ; j u jj ue eS b a

n k

Intervalo basado en la N(0,1) Intervalo basado en la tn-k

2

2

0,1...

'

j j

jj j jn n k n k

jn

ba bN

t t tS be e

n kn

2t depende de , n, k (está en tablas)


Distrib. estándar de bj

Distrib. conjunta de u

Valor del estadístico o test t correspondiente a cada bj

7

3. Contraste estadístico: t-Student

En el contexto de la regresión, este test tiene 2 utilidades:

1. Establecer intervalos de confianza para cada parámetro j

2. Contrastar hipótesis acerca del valor de cada uno de los parámetros j

1.1. Test de significatividad individual de los parámetros: j = 0

1.2. Contraste de otros valores de los parámetros: por ej. j < 1

El contraste de la t-Student es uno de los tests paramétricos más utilizados en econometría.

Consiste en el cálculo de un estadístico que se denomina “t” o t(bj). Este estadístico es una expresión matemática cuyo resultado final es un número (parámetro) calculado a partir de elementos conocidos de la regresión (bj, n, k, etc.). La estadística ha demostrado que esta expresión se puede comparar con una distribución t-Student.

Este test permite contrastar hipótesis, comparando el valor calculado “t(bj)” con los valores teóricos de la t-Student de las tablas.


8

3. Contraste estadístico: t-Student3.1. Establecer intervalos de confianza para cada parámetro j.

Por ejemplo, ¿entre qué valores del estimador b2 se situará (con un 95% de confianza) el parámetro teórico 2 de una variable de renta (“income”)?

Si

j j

n kj

bt t

S b

j j

n k n kj

bPr t t 0,95

S b

t t t t t0,67 0,08 0,03 0,13 0,08

ˆlog GPOP 7,74 1,37 log INC 0,06 log PG 0,13log NC 0,12 log UC

n = 36 años, k = 5 36 5 31 (95%)

2,04t t

2

2

Pr 1,37 2,04 0,08 1,37 2,04 0,08 0,95

Pr 1, 22 1,53 0,95

Por cada unidad (euro, % ó como esté medida la variable)

que aumente la renta se producirá un incremento del gasto de gasolina de entre 1,22 y 1,53 unidades.


9

3. Contraste estadístico: t-Student3.2. Test de significatividad individual de los parámetros:

Desde el punto de vista económico, el test t nos ayuda a responder preguntas como ésta: ¿Cómo se sabe si la variable explicativa “gasto en publicidad” es o no relevante para explicar las “ventas” del producto?

El test t-STUDENT nos dará una respuesta indirecta, contrastando la hipótesis nula de que el parámetro (teórico) 2 = 0.

Si 2 = 0 (hipótesis nula), el producto 2Publicidj = 0, lo que conllevaría la exclusión de la variable explicativa “gasto en publicidad” por no relevante para las “ventas” (endógena).

Si 2 0 (hipótesis alternativa), el producto 2Publicidj 0, lo que conllevaría la inclusión de la variable “gasto en publicidad” como relevante para explicar las “ventas” (endógena).

1 2 3t t t tVentas Publicid Precio u Sea:


10

3. Contraste t-Student1. Definición del test:

2. Hipótesis nula (que se desea contrastar)

j 0

Irrelevancia de xj como explicativa de “y”;

j jj n k

j

bt b t

S b

jj n k

j

bt b t

S b

H0(j=0)

H1(j>0)H1(j<0)

Valores de tn-k:

3. Interpretación de resultados:

Si t(bj) 2 : Se acepta H0(j=0) La variable xj no es relevante para “y”.

Si t(bj) > 2 : Se rechaza H0(j=0) La variable xj es relevante para “y”.

El valor crítico 2 se corresponde (aproximadamente) con una confianza del 95%

Expresión matemática

Distribución t-Student

Test de 2 colas, pues los valores de pueden ser < 0 (izda.) ó > 0 (dcha.)

11

3. Contraste estadístico: t-StudentInterpretación de resultados en el programa EViews:

p-valor: probabilidad de rechazar H0 siendo ésta cierta (valor mínimo de ): Nivel de significación asociado al rechazo de H0(j=0)(1 – )*100 = “tanto por ciento” de confianza de rechazo de H0(j=0)

bj S(bj) t(bj)=bj/S(bj) p-valor ()

Los valores de los estadísticos “t” calculados para los 3 estimadores MCO del modelo son todos superiores a 2 en valor absoluto. En concreto, la confianza de que las 3 variables (constante, Publicid y Precio) sean relevantes como explicativas de las Ventas (rechazo de H0) es del 99,99%, 100% y 98,55%,respectivamente.

Aunque el valor de bj0, debemos contrastar que el parámetro teórico j0

PublicidPrecio


12

3. Contraste estadístico: t-Student

Este test responde también a otras preguntas sobre valores concretos de los parámetros... Por ejemplo, ¿es la demanda de gasolina un bien inelástico? Es decir, en un modelo de demanda de gasolina, ¿es el parámetro correspondiente al precio inferior a 1 (en valor absoluto)?

3.2. Contraste de otros valores de los parámetros: por ej. j < 1

t 1 2 t 3 t 4 t 4 t tlog GPOP log INC log PG log NC log UC u

Muestra = 1960-1995

MCO

GPOP: gasto en gasolina por habitante

INC: renta bruta disponible por habitante

PG: precio de la gasolina

NC/UC: precio vehículos nuevos/usados


13

3. Contraste estadístico: t-Student3.2. Contraste de otros valores de los parámetros: por ej. j < 1

MCO

Si la demanda de gasolina es un bien inelástico, |3| < 1

|b3| = 0,06

S(b2) = 0,03

t t t t t0,67 0,08 0,03 0,13 0,08

ˆlog GPOP 7,74 1,37 log INC 0,06 log PG 0,13log NC 0,12 log UC

H0(|3| < 1) H1(21)

Valor crítico (tablas) de t31+2,04t = -31,3valor calculado

Con un 95% de confianza, y con los datos disponibles, aceptamos H0

|b3| < 1. Pero ¿y |3|?

n = 36 años, k = 5

Test de 1 cola y el valor crítico > 0, pues H0: || < +1 (nº positivo)

H0: |3| < 1

14

Tema 7: Intervalos de confianza y contrastes de un parámetro: Bibliografía

Pulido, A. y J. Pérez (2001), Modelos econométricos. T.6, Apdo. 6.2.a.

Wooldridge, J. (2006), Introductory econometrics. A modern approach. T.4, Apdo. 4.2 a 4.4. LECTURA.

Guisán, C. (1997), Econometría. T.3 (3.1, 3.2, 3.4) Trívez, F.J. (2004), Introducción a la econometría, T.5 (5.7.1) Green, W.H. (2000), Econometric analysis, Ch.6 (6.6.5, 6.6.6) Caridad y Ocerín, J.M. (1988) Econometría: modelos econométricos y

series temporales.


15

EjerciciosTomado de Caridad y Ocerín (1998): Una entidad bancaria desea realizar previsiones sobre los recursos ajenos o pasivo de clientes que captan sus distintas oficinas. En un estudio previo, se considera que el pasivo (P) de una sucursal (medida en millones €) depende del número de personas que residen en el área de influencia de la oficina (A) y del número de oficinas próximas de bancos de la competencia (C). Además, se tiene en cuenta que debe añadirse una variable más que recoja el efecto de interacción existente entre las variables población y nº de oficinas bancarias. En efecto, hay zonas urbanas donde hay una gran concentración de oficinas bancarias (el centro comercial de muchas ciudades) y otras zonas periféricas donde éstas escasean, aunque la población residente de las primeras sea inferior en comparación con la población residente de los barrios periféricos. Este fenómeno de interacción se incluye en el modelo como una variable “proxy” que será el producto I = (A.C). Es decir, una situación de alta competencia no es igual en zonas de baja población residente (valor inferior de A.C) que en zonas de alta población (valor superior de A.C).

Tras un proceso de recogida de datos en 20 oficinas, se especifica el modelo siguiente:

1 2 3 4 ; 1,2,..., 20i i i iiP A C A C u i

Tema 7: Intervalos de confianza y contrastes.... Prof. Coro Chasco (UAM)

16

EjerciciosLa estimación por el método MCO del modelo da lugar al siguiente resultado:

Responda a las preguntas siguientes:

1. ¿Son todas las variables explicativas relevantes para explicar el pasivo de los clientes del banco?

2. ¿Cuál es el intervalo de confianza de cada estimador? ¿Cómo lo interpreta?

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

S(bj):


17

Ejercicios1. ¿Son todas las variables explicativas relevantes para explicar

el pasivo de los clientes del banco?

Con un 95% de confianza, t(bj) calculada > | 2 |

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

t(bj): 1,33 3,01 -7,36 1,99

El término independiente es claramente no significativo, pero como es obligatoria su presencia en el modelo, no debemos excluirlo.

Las variables población del área de influencia (A) y oficinas de la competencia (C) son claramente significativas. La variable de interacción población-oficinas no es totalmente significativa con un 95% de confianza; lo es con una confianza ligeramente inferior (94 ó 93%). Dada la importancia de esta variable y que la confianza de su estimador es bastante elevada, decidimos mantenerla en el modelo.


18

Ejercicios2. ¿Cuál es el intervalo de confianza de cada estimador?¿Cómo

lo interpreta?

5829.15 0.0109 67.421 0.0302

ˆ 7.771, 42 0,032807 496,35 0,0603828i i i iP A C A C

El término independiente no suele tener sentido económico y, por eso, no se interpreta. Pero vemos que su estimador no es muy eficiente, pues el intervalo de confianza tiene un recorrido amplio, que va desde valores negativos a positivos (bastante elevados en valor absoluto).

Población: un incremento en 1 persona supondrá un incremento del pasivo del banco que se situará entre 10.000 y 50.000€.

Competencia: un incremento en 1 oficina supone un incremento/caída del pasivo (medido en €) que dependerá de la población y se situará en el intervalo:

Interv.: (-3887; 19430) (0,01; 0,05) (-631; -362) (0; 0,12)

(-631 ; -362 + 0,12.Ai ).

En el intervalo inferior, Ai = 0

Tema 8:Contrastes de restricciones de parámetros


2

Tema 8: Contrastes de restricciones de parámetros: Índice

1. Definición del test F2. Test F de significatividad conjunta de

los parámetros3. Test F de restricciones de parámetros

Tema 8: Contrastes de restricciones.... @ Prof. Coro Chasco (UAM), 2012

3

1. Definición del test F


2

1

n

tt

SST y y

SST: variabilidad de la variable endógena real en torno a su valor medio.

2

1

ˆn

tt

SSE y y

SSE: grado de fluctuación de la variable estimada alrededor del promedio de la variable endógena real.

2

1

n

tt

SSR e

SSR: indicador del nivel de error de la variable endógena estimada, en su intento por explicar la variable real.= e’e

Recordamos:

22

21 1 e

y

SSSE SST SSR SSRRSST SST SST S

2 2 11 1 nR R

n k


4


El estadístico F es un contraste paramétrico (sigue una distribución F-Snedecor o de Fisher), que nos permitirá realizar contrastes de significatividad para el total de parámetros, excepto el término independiente, o un subconjunto de los mismos.

El estadístico F es una expresión matemática que se deduce del cociente SSE/SSR, ambos divididos por sus correspondientes grados de libertad:

SSE

SSR

y Xb

ˆe y y

g.l = k

g.l = n – k

1

2

...

k

11 kn k

SSE kF F

SSR n k

Cuando todas las variables “x” se anulan, el término independiente (1) equivale al valor medio de la variable endógena (“y”). Por eso, no se anula (excepto si E(y)=0).


5


SST = SSE + SSR2 1SSE SST SSR SSRR

SST SST SST

Si:

El estadístico F permitirá hallar regiones de confianza para el conjunto total (o un subconjunto) de parámetros .

1SSE kF

SSR n k

2

2 11R n kF

kR

2

22

111 11

SSE SSESSR n k R n kk SSTR F SSR SSRSST k kR

n k SST


2. Test F de significatividad conjunta de los parámetros

Desde el punto de vista económico, el test F nos ayuda a responder preguntas como ésta: ¿Cómo se sabe si al menos una variable explicativa del modelo es relevante para explicar el VAB nacional (vatot)?

El test F nos dará una respuesta indirecta, contrastando la hipótesis nula de que todos los parámetros teóricos a la vez (excepto el término independiente 1) sean nulos: 2 = 3 = 0.

Si 2 = 3 = 0 (hipótesis nula), se anularía toda la parte derecha del modelo, excepto el término independiente y la perturbación aleatoria (ut), lo que equivaldría a afirmar que “vatot95” no se puede explicar a partir de las variables ivfh95 y eetot.

Pero la hipótesis alternativa se cumpliría cuando, al menos, uno de los parámetros j 0, lo que conllevaría afirmar que al menos una de las explicativas del modelo es relevante para explicar el VAB.

1 2 395 95t t t tvatot ivfh eetot u

6Tema 8: Contrastes de restricciones.... @ Prof. Coro Chasco (UAM), 2012

2. Test F de significatividad conjunta…

1. Definición del test:

2. Hipótesis nula (que se desea contrastar)

3. Interpretación de resultados:

Si F Valor crítico: Se acepta H0(todos j=0, excepto t.indep.) Ninguna de las variables explicativas es relevante.Si F > Valor crítico: Se rechaza H0(2=..=0) Al menos 1 variable explicativa es relevante para “y”.

Para un 95% de confianza, los valores críticos de la F-Snedecorcorrespondientes a grados de libertad entre 15 y 100 se encuentran en el intervalo (2, 4).

Expresión matemática

Distribución F-Snedecor

Irrelevancia de todas las xj como explicativas de “y”: 2 = 3 = ...= k = 0

H0(todos j=0), excepto 1

H1

(al menos un |j|>0), excepto t.indep.

Valores de 324 3F

21

2

111

kn k

SSE k R n kF FSSR n k kR

2. Test F de significatividad conjunta…Interpretación de resultados en el programa EViews:

Fp-valor ()

Aunque los valores de los bj0, debemos contrastar que al menos uno de los parámetros teóricos j0, excepto el término independiente.

Dependent Variable: VATOT95 Method: Least Squares Sample: 1980 2003 Included observations: 24 Variable Coefficient Std. Error t-Statistic Prob. C 150554.6 42892.83 3.510017 0.0021 IVFH95 2.956126 0.332520 8.890074 0.0000 EETOT -3.267499 5.490756 -0.595091 0.0581 R-squared 0.944518 Mean dependent var 380448.5 Adjusted R-squared 0.942091 S.D. dependent var 77332.74 S.E. of regression 12919.21 Akaike info criterion 21.88729 Sum squared resid 3.51E+09 Schwarz criterion 22.03454 Log likelihood -259.6474 F-statistic 401.5524 Durbin-Watson stat 0.455634 Prob(F-statistic) 0.000000

3.267499

El valor del estadístico F calculado para el modelo es muy elevado (401,5524), siendo el nivel de significación asociado al rechazo de H0 casi nulo. Es decir, es posible rechazar la H0 de nulidad de todos los parámetros (excepto el t.ind.) con prácticamente el 100% de confianza. Es decir, al menos 1 de ellos será no nulo.

8

1.595091


3. Test F de restricciones de parámetros

3 5 62 41

1 2 3 4 5 6log log log log log logt t t t t t t

t t t t t t t

y pw npw capex mat year w

y pw npw capex mat year u

Ejemplo (tomado de Schmidt 2005): Sea una industria de automoción que deseaexplicar la producción de vehículos en USA (y) a partir de los siguientes insumos:nº trabajadores de producción (pw), nº trabajadores de no producción (npw),gasto de capital (capex) y de materiales (mat).Además, incluye una variable de tendencia temporal, que expresa el paso deltiempo (year), que vale 1 en el primer período, 2 en el segundo, etc. Esta variableconsidera el hecho de que las empresas estadounidenses se hayan vuelto máseficientes y de que, por tanto, la función de producción haya cambiado con eltiempo. Si las empresas aumentan su eficiencia con el paso del tiempo, seráncapaces de producir más con los mismos insumos, por lo que 6 > 0.

El test F nos ayuda a responder preguntas como ésta: ¿Existen rendimientos constantes de escala en la industria automotriz estadounidense?



Si existieran rendimientos constantes de escala en la industria automotriz estadounidense, un incremento en la misma proporción en los 4 insumos producirá un incremento de la producción en dicha proporción. Es decir, habría que contrastar en el modelo el cumplimiento de la siguiente restricción: 2 + 3 + 4 + 5 = 1

Para ello, ponemos uno de los parámetros en función del resto y se sustituye en el modelo: 5 = 1 - 2 - 3 - 4

1 2 3 4

2 3 4 6

log log log log

1 log logt t t t

t t t

y pw npw capex

mat year u

1 2 3

4 6

log log log log log log

log log log

t t t t t t

t t t t

y mat pw mat npw mat

capex mat year u



Este modelo se puede estimar por MCO una vez calculadas las nuevas variables.

En este nuevo modelo, 5 ya no se estima, aunque podría calcularse posteriormente su estimador como: b5 = 1 – b2 – b3 – b4 Restricción

1 2 3

4 6

log log log log log log

log log log

t t t t t t

t t t t

y mat pw mat npw mat

capex mat year u

SSRr: (e’e) del modelo con restricciones

SSRsr: (e’e) del modelo sin restricciones

r: nº de restricciones impuestas

gl: g.l. del modelo sin restricciones

Siempre: SSRr SSRsr

r sr rgl

sr

SSR SSR rF F

SSR gl

Se acepta H0(SSRrSSRsr)

Se rechaza H0(H1: la restricción no se cumple)

rgl

rgl

F F

F F

H0: la restricción supone un empeoramiento significativo en el ajuste. Que se cumpla la teoría sobre rendimientos constantes de escala.



0,009202 0,008767 10,59541

0,008767 (18 6)F

1

12 95% . 4,75F v critico

H0 H1

Se acepta H0(rendimientos ctes. escala)

Se cumple la restricción

Log (year)


Interpretación de resultados en el programa EViews:

1 2 3 4log 95 log log log ( 1)t t t t tvacts eects ivcts ppricts u

r: 2+3=1

Existe una probabilidad del 97% de rechazar H0, por lo que la hipótesis de rendimientos constantes no puede aceptarse.

14

Tema 8: Contrastes de restricciones de parámetros: Bibliografía

Pulido, A. y J. Pérez (2001), Modelos econométricos. T.6 (Apdo. 6.4.a. y b.) y T. 7

Wooldridge, J. (2006), Introductory Econometrics. A modern approach. T.4, Apdo. 4.5 (p. 139-150). LECTURA

Gujarati , D. (2003), Econometría, T.7 (7.8) Schmidt, S.J. (2005), Econometría, T.8 (8.4) Pérez, C. (2007), Econometría básica. Técnicas y

herramientas, T.1


Ejercicios (basado en Schmidt 2005) Una consultora recibe un encargo del Ministerio de Economía para estudiar el impacto

que la política fiscal del gobierno tiene sobre la economía nacional. Es sabido que elPIB (GDP) se puede estimular de 2 modos: aumentando el gasto público o reduciendolos impuestos. Y especifican el siguiente modelo:

Algunas teorías dicen que lo que de verdad afecta a la economía es la presencia oausencia de déficit (que el gobierno gaste más de lo que recibe). Es decir, que sepodría estimular la economía con la misma eficacia tanto si se aumenta el gasto (spend)en 1€ como si se reducen los impuestos (tax) en la misma proporción. En este modelo,el impacto de los impuestos sobre el PIB viene dado por 3 y el impacto del gasto por4.Si los efectos son iguales, 3 = -4. Esto permite re-especificar el modelo con estarestricción. Ambos modelos se estiman por MCO para el período 1950-2006.

1 2 1 3 4t t t t tGDP GDP Tax Spend u

1. Exprese el modelo restringido de forma algebraica.2. La estimación MCO de los modelos sin/con restricciones da lugar a los siguientes

valores de SSR (suma cuadrados residuos): 74.721 y 184.498, respectivamente.Contraste el cumplimiento de la teoría anterior sobre el déficit.

3. Además, deseamos contrastar una 2ª restricción: que impuestos y gasto públicosean irrelevantes para el PIB: 3 = 4 = 0. Exprese el modelo con las 2 restriccionesy contrástelas sabiendo que SSRr = 350.000.

Tema 4: Análisis de bondad del ajuste.... Prof. Coro Chasco (UAM)

Ejercicios (tomado de Schmidt 2005) Modelo sin restricciones:

Modelo con 1 restricción: 3 = -4.

1 2 1 3 4t t t t tGDP GDP Tax Spend u

1 2 1 3t t t t tGDP GDP Tax Spend u

SSRsr = 74.721

SSRr = 184.498

Valor del estadístico F:

153

184.498 74.721 177,87

74.721 (57 4)95% . 4,02

F

F v critico

H0(SSRrSSRsr):

Que la restricción no suponga un empeoramiento significativo en el ajuste. Que se cumpla la teoría sobre el déficit y el PIB. H0

H1

Debemos rechazar H0, por lo que se rechaza la teoría sobre déficit y PIB.

No se cumple la restricción


Ejercicios (tomado de Schmidt 2005) Modelo sin restricciones:

Modelo con 2 restricciones: 1ª) 3 = -4 ; 2ª) 3 = 4 = 0

1 2 1 3 4t t t t tGDP GDP Tax Spend u SSRsr = 74.721

SSRr = 250.000

Valor del estadístico F:

H0(SSRrSSRsr):

Que la restricción no suponga un empeoramiento significativo en el ajuste.

H0H1

Debemos rechazar H0, por lo que se rechaza la teoría sobre déficit y PIB, conjuntamente con el hecho de que impuestos y gasto sean irrelevantes sobre el PIB.

No se cumplen las restricciones

1 2 1t t tGDP GDP u

153

350.000 74.721 297,63

74.721 (57 4)95% . 4,02

F

F v critico


Tema 9:Análisis de los errores “a posteriori”: el error de predicción


Test t del predictor

Test t del predictor: mide la variabilidad de los valores de predicción. Es decir, el intervalo máximo en el cual, según el modelo estimado, se encontrará la endógena real en cada período muestral y en el período futuro "n + h".

Tema 9: Análisis de los errores “a posteriori”.... @ Prof. Coro Chasco (UAM), 2012


Variabilidad de los valores estimados

predicción

Test t: crea un intervalo de confianza para la predicción



La variabilidad de los valores de predicción se mide con la varianza del error de predicción en un punto (et)

- -


Test t del predictor Varianza del error de predicción:

t -

-

-


12 2ˆ ˆ p u p pe e I X X X X 2ˆ

ue ee

n kEstimador insesgado, muestras pequeñas


Si se cumplen las hipótesis básicas: 1. los bMCO serán los estimadores más eficientes

(tendrán varianza mínima)2. la perturbación aleatoria (u) se distribuirá

como una normal.

Además, los errores de predicción (et) se distribuirán como una t-Student.

Por tanto, conociendo Var(et) se pueden construir intervalos de confianza para cada uno de los valores de et



Puede demostrarse que el valor mínimo de la varianza del error de predicción (para la mejor de las estimaciones posibles):

Es decir, cuanto mayor sea el período muestral, menor será la varianza del error mínimo de predicción y más parecido a la varianza error del modelo en el período

muestral.


2 2 1ˆ ˆMin 1 p ue e

n

Test t del predictor En definitiva, ésta sería la varianza del error de

predicción en el punto “t" para la mejor de las estimaciones posibles.

El intervalo de confianza del (1 - ) que se podría determinar para el error en cada período “t” sería:



Intervalo de confianza = Intervalo máximo en el cual, según la mejor de las estimacionesposibles realizadas con el modelo, se encontrará la endógena real (y) en el período “t". Si este intervalo es demasiado amplio, el modelo no resulta fiable para la predicción.



EViews calcula la variable de las desviaciones típicas del error de predicción en cada punto.

También ofrece el gráfico con la variable estimada y los intervalos de confianza (+/-2 sigma).


13

Tema 9: Análisis de los errores “a posteriori”: Bibliografía

Pulido, A. y J. Pérez (2001), Modeloseconométricos. T.6 (Apdo. 6.4.a. y b.) y T. 7

Wooldridge, J. (2006), Introducción a la econometría. Un enfoque moderno. T.3 (p. 87-90), T.6, (p- 217-220, 225-230)

Gujarati , D.(2003), Econometría, T.7 (7.8)


1

Tema 10:Aplicaciones del Modelo Básico de Regresión Lineal


2

Tema 10: Aplicaciones del Modelo Básico de Regresión Lineal: Índice

1. Introducción conceptual de las hipótesis básicas1.1. Hipótesis sobre la estructura del modelo1.2. Hipótesis sobre la perturbación aleatoria

2. Aplicaciones2.1. Modelos de regresión espacial2.2. Predicción con modelos de series temporales

Tema 10: Aplicaciones del MBRL. @ Prof. Coro Chasco (UAM), 2012

3

1. Introducción conceptual a las hipótesis básicas del MBRL

El MBRL suele estimarse utilizando por el método estadístico de Mínimos Cuadrados Ordinarios (MCO).

Este método permite conocer los estimadores MCO (b1, b2,..., bk) de los parámetros teóricos (β1, β2,..., β3).

La fiabilidad del valor y significación estadística de dichos estimadores (es decir, su capacidad para aproximarse al verdadero valor de los βj, ∀j = 1,2,...,k) dependerá del cumplimiento, por parte del MBRL, de una serie de HIPÓTESIS BÁSICAS. Dichas hipótesis se refieren a la estructura y perturbación aleatoria.

Este apartado está tomado del MANUAL y debe complementarse con la LECTURA


4

1. Introducción conceptual a las hipótesis básicas del MBRL

1.1. Hipótesis sobre la estructura del modelo. Rango pleno: muestra amplia y no multicolinealidad. Buena especificación de las variables explicativas y linealidad. Permanencia estructural. Exogeneidad de las variables explicativas

1.2. Hipótesis sobre la perturbación aleatoria. Normalidad. Media nula. Homoscedasticidad. No autocorrelación


5

1.1. Hipótesis sobre la estructura del modelo: Rango pleno y no multicolinealidad ρ(X) < k: problema de multicolinealidad exacta; se produce

cuando existe relación matemática entre las variables explicativas.

Cuando ρ(X) < k: [X’X] no tiene solución, porque |X’X| = 0. Portanto, no se pueden calcular los estimadores MCO.

Además, la muestra debe ser suficiente, para que se cumpla el requisito mínimo (matemático): n > k.

Por causas estadísticas (Teorema Central del Límite y normalidad de “u” y “b”), debe existir un mínimo de grados de libertad: n – k > 15 (en modelos macroeconómicos, de series anuales; con series de alta frecuencia, n > 60; con datos espaciales, n > 50).


6

1.1. Hipótesis sobre la estructura del modelo: Buena especificación de X

Debe evitarse tanto la exclusión de variables explicativas relevantes como la inclusión de variables irrelevantes.

Exclusión de explicativas relevantes: puede producir sesgo en los estimadores MCO.

Inclusión de explicativas irrelevantes: puede producir multicolinealidad excesiva (elevada correlación entre variables explicativas similares) y, por tanto, “ruido”.


7

1.1. Hipótesis sobre la estructura del modelo: Buena especificación. Linealidad Relación lineal entre las variables del modelo. Esta propiedad asegura la linealidad en los

estimadores MCO (respecto a “y” y respecto a “u”). En los modelos macroeconométricos (variables

agregadas, series anuales) la relación lineal es válida en casi todos los casos.

Aunque ciertas relaciones no lineales pueden linealizarse mediante el adecuado cambio de variables (ej. transformación logarítmica):


( ) ( ) ( )321 2 3log log logtu

t t t t t t tP K E e P K E uββα β β β= → = + + +

8

3.1. Hipótesis sobre la estructura del modelo: Permanencia estructural.

Constancia de los estimadores MCO para todos los valores muestrales: t = 1,…, n:

bj = cte, ∀t (series temporales) ó i (corte-transveral) Las relaciones entre las variables explicativas y la explicada (bj)

deben ser ESTABLES (estructura única) en toda la muestra (familias, regiones, años, etc.).

1 1 11 2 21 1 1

2 1 12 2 22 2 2

1 1 2 2

......

........................................................

k k

k k

n n n k kn n

y x x x uy x x x u

y x x x u

β β ββ β β

β β β

= + + + + = + + + + = + + + +


9

3.1. Hipótesis sobre la estructura del modelo: Exogeneidad de las explicativas. Exogeneidad = carácter no estocástico. En el MBRL, la variable estocástica (o aleatoria) por

excelencia es la perturbación aleatoria (u). También es aleatoria la variable endógena, ya que: y = f(u).

También son estocásticos los estimadores MCO → b = f(y) y también f(u).

Las variables explicativas deben ser deterministas (o “fijas”),lo que implica (entre otras cosas) la ausencia de errores de medición o la presencia de la variable “y” en la definición de alguna “x” (por ej. productividad como explicativa de la producción).

Propiedad necesaria para asegurar las propiedades de insesgadez y eficiencia en los estimadores MCO.


10

1.2. Hipótesis sobre la perturbación aleatoria: Normalidad

La hipótesis de normalidad de “u” está basada en el Teorema Central del Límite, que supone disponer de una muestra suficiente.

( )0,tu iiN σ iiN: “se distribuye idéntica eindependientemente como una normal”

Este requisito es necesario para la construcción de algunos contrastes, como los tests t y F de significatividad (individual y conjunta, respectivamente) de los parámetros.

[ ]( )

1

21 ....n

n

uu

u

u

×

=


11

1.2. Hipótesis sobre la perturbación aleatoria: Media nula

E[ut] = 0 ⇔ E [u1] = E[u2] = ... = E[un] = 0.

Esto implica que u = conjunto de “n” variables individualmente irrelevantes (“shocks” aleatorios), es decir, que no actúan sobre “y” en una dirección (o con una “forma”) dominante.

Este supuesto no se cumple en modelos sin el término independiente. Por esto, el término independiente debe incluirse siempre.

Supuesto necesario para que se cumplan las propiedades de insesgadez y eficiencia en los estimadores MCO.


12

1.2. Hipótesis sobre la perturbación aleatoria: homoscedasticidad

[ ]( )

1

21 ....n

n

uu

u

u

×

=

( ) 2 1,2,...,uVar u cte t nσ= = ∀ =

( ) ( ) ( ) 21 2 ... n uVar u Var u Var u σ= = = =

La variable “Sigma-2” es el parámetro de dispersión. Esta hipótesis hace posible la propiedad de la eficiencia o

varianza mínima, en los estimadores MCO.


13

1.2. Hipótesis sobre la perturbación aleatoria: No autocorrelación

Series temporales: los errores de un período (ut) inciden sobre los de errores posteriores (ut+1), dadas las propias leyes de evolución o “inercia” de las variables.

Datos espaciales: los errores cometidos en una región (ui) se ven afectados por los errores cometidos en regiones cercanas, debido a la relación de “vecindad” existente.

Hipótesis necesaria para que se cumpla la propiedad de eficienciade los estimadores MCO.

Las hipótesis de media nula, varianza constante y no autocorrelación dan lugar a una matriz escalar de varianzas y covarianzas de la perturbación aleatoria: σ2In.

[ ] 0t sE u u = t s∀ ≠


14

Tema 10: Apliaciones del Modelo Básico de Regresión Lineal: Bibliografía Pulido, A. y J. Pérez (2001), Modelos

econométricos. T.4 (4.1.) Novales, A. (2000), Econometría. 2ª ed., T.3 (3.1), Mc

Graw-Hill. LECTURA Wooldridge, J. (2006), Introducción a la econometría.

Un enfoque moderno. T.2 (2.1), T.3 (3.1)

Guisán, C. (1997), Econometría. T.2 (2.1) Green, W.H. (2000), Econometric analysis, Ch.6 (6.1, 6.2, 6.3) Trívez, F.J. (2004), Introducción a la econometría, T.3 (3.1)


Tema 10.1:Modelos de regresión espacial para el análisis regional y de geomarketing

Prof. Coro Chasco YrigoyenAsignatura: Econometría I

Videos en YouTube:https://youtu.be/Bw7ghS9wmsMhttps://youtu.be/2u82c3Oadb8https://youtu.be/WPqCOlEVshshttps://youtu.be/dTptqlPnVpk

2

Tema 10.1: Modelos de regresión espacial para el análisis regional y el geomarketing: Índice

1. La econometría de datos espaciales2. Naturaleza de los datos geográficos3. Análisis exploratorio de datos espaciales4. El modelo de regresión espacial5. Ejercicio de modelización espacial

Tema 9: Modelos de regresión espacial.... Prof. Coro Chasco (UAM)

La geografía introduce en la economía y el marketing la dimensión espacial o territorial.

Todo estudio de mercados territoriales es un sistema integrado de datos, programas informáticos, métodos estadísticos y econométricos orientados a la obtención de una información útil para la empresa (o institución pública).

La peculiar naturaleza de los datos geográficos hace necesaria una especialización en todas estas cuestiones (datos, software, estadística/econometría espacial).

1. La econometría de datos espaciales

3Tema 9: Modelos de regresión espacial.... Prof. Coro Chasco (UAM)

1. La econometría de datos espacialesElementos de cualquier estudio de mercados territoriales:


2. Naturaleza de los datos geográficos

Tiempo: naturaleza continua y lineal

Pasado (t-1)

Presente (t)

Futuro (t+1)

Territorio: naturaleza continua y plana

i

norte

sur

esteoeste

nordestenoroeste

surestesuroeste

El espacio geográfico es una realidad de naturaleza compleja y distribución continua a través de un plano, en el que existen múltiples direcciones.



Año

Año

Series temporales:

Trim.

Mes

País Región

Provincia

Variables territoriales:

La medición de los fenómenos económico-sociales exige que esta naturaleza continua de tiempo y espacio sea “particionada” en unidades discretas.- El tiempo se “divide” según diferentes frecuencias- El espacio se “divide” según diferentes escalas o ámbitos



FUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROFUENTE DEL BERROGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYAGOYA

CONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCIONCONCEPCION

VENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTASVENTAS

GUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERAGUINDALERALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTALISTA

A

M-30

Momentos del tiempo: puntos

Representación de unidades territoriales:

polígonospuntos líneas


2. Naturaleza de los datos territoriales

Referencia Temporal

Año 0

A.C.

D.C.

Referencia territorial

Eje X: Longitud (km)

Eje Y: Latitud (km)

España

(-300,4200)Ecuador: latitud 0

Greenwich: longitud 0

(0,0)

8

Tanto el espacio como el tiempo se rigen siguiendo tantos puntos de referencia como dimensiones tenga cada uno. Así, la referencia temporal (1 dimensión) suele ser el año 0. El espacio (2 dimensiones) suele tener como referencia conjunta el Ecuador (latitud 0º) y el Meridiano de Greenwich (longitud 0º).


2. Naturaleza de los datos Las variables espaciales deben estar perfectamente geocodificadas, por ejemplo, con códigos estadísticos reconocidos (INE) o las coordenadas terrestres X-Y. Los GIS están preparados para geocodificar bases de datos y representarlas en mapas.

3. Análisis exploratorio de datos espaciales

10

Tal y como sucede con las series temporales, antes de abordar el ejercicio de la modelizacióneconométrica, debe llevarse a cabo un análisis exploratorio de los datos espaciales (AEDE).

El AEDE consiste en la representación gráfico-estadística de la distribución de la variable endógena del modelo y sus relaciones con las exógenas.

En este tema, presentamos los métodos más simples: mapa temático, histograma, diagrama/mapa de caja y diagrama de dispersión de las variables endógena y exógena.

ikikii uxxy ++++= βββ ...221


3. AEDE: distribuciones y tendencias

• Mapas temáticos

La distribución de una variable territorial sobre el espacio geográfico puede visualizarse mediante mapas temáticos e histograma de frecuencias.

11

En los mapas, los valores (mayores/menores) de las variables se representan utilizando tonalidades de colores o símbolos.

A diferencia de las series temporales, en las variables geográficas no suelen representarse los valores de todas las observaciones, sino que éstos se agrupan en 2, 3 ó más categorías de colores.

En un mapa temático, pueden representarse diversos cuantiles (cuartiles, quintiles, etc), así como los percentiles de la distribución.

Mapa de cuartiles: Líneas ADSL per cápita, municipios de la Comunidad de Madrid, año 2003

Cuartiles: divide una variable en 4 partes, con el mismo nº de observaciones en cada parte.

3. AEDE: distribuciones y tendencias• Histograma de frecuencias

12

Tasa de extranjeros, barrios de la ciudad de Madrid, 2003.

Se han destacado los 14 barrios con menor tasa (primera división del histograma)


3. AEDE: puntos atípicos

Mapa de percentiles: Altura media, NUT 3 de la UE-25.

13

. Percentiles: división de una variable en 100 partes, de forma que haya el mismo nº de observaciones en cada parte.

• Mapa de percentiles:


3. AEDE: puntos atípicos• Diagrama/mapa de caja:

14

mediana (md)

md – 1,5.r

1º cuartil

3º cuartil

md + 1,5.r

Recorrido intercuartílico (r): valor 3º cuartil – valor 1º cuartil

Población, municipios en áreas urbanas, 2001


3. AEDE: correlación entre variables

15

Diagrama entre la endógena del modelo y cada una de las exógenas: aproximación del comportamiento de cada variable exógena como (buena/mala) explicativa de la endógena.

En este caso, los puntos se encuentran cercanos a la recta de regresión, en una relación inversa (coeficiente negativo).

• Diagrama de dispersión:

Delitos esclarecidos por la policía (provincias, 1999)

Total

del itos

Coeficiente MCO “b” correspondiente a “CLEAR99” en el modelo:

1 2

1

99 99

ˆ 99 3,7085 99

i i i

i i

scpr clear u

scpr b clear

β β↓

= + +

= − ⋅


4. Modelo de regresión espacial

16

Modelo econométrico cuyas observaciones son unidades geográficas (países, regiones, ciudades...)

El MBRL, en el que se cumplen todas las hipótesis básicas, puede estimarse por MCO.

El contraste del MBRL se realiza del mismo modo que en los modelos de series temporales:1º) Contraste de la bondad individual de cada parámetro (test de signos y

test “t”).2º) Contraste de la bondad del ajuste (R2, R2 ajustado, medidas sobre

los errores)3º) Contraste de rango pleno (multicolinealidad excesiva)4º) Otros contrastes (test F de Chow espacial, normalidad,

homoscedasticidad, autocorrelación espacial, regresores estocásticos,…)


5. Ejercicio de modelización espacial

17

5.1. Análisis exploratorio de datos espaciales (AEDE)

5.2. Especificación del MBRL5.3. Estimación del MBRL5.4. Contraste de significación individual de

los parámetros5.5. Análisis de bondad del ajuste5.6. Contraste del cumplimiento de las

hipótesis básicas



18

5.1. Análisis exploratorio de datos espaciales (AEDE)El AEDE se centra en el análisis de la variable endógena del modelo y sus relaciones con las exógenas. Por ejemplo, se desea evaluar hasta qué punto la acción de la policía(variable explicativa) tiene efecto sobre el nº de delitos cometidos (variable endógena). Para ello, se toman datos provinciales de España referidos al año 1999.

A. AEDE de la distribución y tendencia


5.1.1. AEDE de la variable endógena: nº delitos cometidos (SCPR99)


19

5.1. Análisis exploratorio de datos espaciales (AEDE)5.1.1. AEDE de la variable endógena: nº delitos cometidos (SCPR99)B. AEDE de los puntos atípicos

20

5.1.2. AEDE de la correlación endógena vs exógenas

El diagrama ofrece una idea gráfica del (mejor/peor) grado de ajuste de la endógena respecto de cada exógena.

También ofrece el coeficiente de correlación lineal “r” entre cada variable exógena (xj) y la endógena (y):

Log (población urbana)

Log.

del itos

Log (tasa extranjeros)

Log.

del itos

Log (nivel educativo)

( )( )

( ) ( )yTDxTDyxCov

yxCorr

j

j

j

..

∗=

=

Log.

del itos

Log (delitos esclarecidos)

Log.

del itos


21

5.2. Especificación del MBRLEspecificación inicial: exponencial

Modelo linealizado en logaritmos

( ) ( ) ( )( ) ( )

3 52 41

1 2 3

4 5

99 99 99 99 99

log 99 log 99 log 99

log 99 log 99

i i i i i i

i i i

ii i

scpr clear urb fore edu u

scpr clear urb

fore edu v

β ββ ββ

β β β

β β

= ⋅ ⋅ ⋅ ⋅ ⋅

′= + + +

+ + +


Forma vectorial del modelo teórico:

Problemas econométricos previstos:

1. Multicolinealidad excesiva (¿?)

2. Omisión de variable relevante (¿?)

3. Regresor estocástico: “clear”

Problemas econométricos previstos:

4. Cambio estructural: ¿costa vs interior?

5. Heteroscedasticidad (¿?)

6. Autocorrelación espacial (¿?)

5. Ejercicio de modelización espacial5.3. Estimación por MCO y contrastes del MBRL

Tema 9: Modelos de regresión espacial.... Prof. Coro Chasco (UAM) 22

23

Test de Klein de multicolinealidad excesiva

No se puede mostrar la imagen. No se puede mostrar la imagen.

2R 0,626612 0,7916= =

lclear lurb99 lfore99 ledu99

lclear 1

lurb99 1

lflore99 1

ledu99 1


Proximidad a multicolinealidad excesiva


24ˆ 99 0,14 2,39 99 0,72 99 0,76 99i i i ilscpr lclear lurb ledu= − − ⋅ + ⋅ − ⋅


ˆ 99 0,14 2,39 99 0,72 99 0,76 99i i i ilscpr lclear lurb ledu= − − ⋅ + ⋅ − ⋅

25

5.4. Explotación de resultados

1. La variable con mayor impacto (inverso) sobre la tasa de delitos es la tasa de delitos esclarecidos por la policía. El incremento en un 1% de los delitos esclarecidos por la policía supone un descenso del 2,4% en la tasa de delitos. Sin embargo, hay que ser cautos con este estimador que, debido a la naturaleza de regresor estocástico de la variable, pudiera estar sesgado.

2. Ejercicio de simulación: supongamos que en la provincia de Tarragona, el gobierno de la Generalitat se propuso incrementar la tasa de educación superior en un 25% en un plazo de 15 años (hasta 2014). ¿Qué impacto tendría esta política sobre la tasa de delitos de esta provincia, si el resto de variables se mantiene más o menos constante?

Datos de Tarragona:

ledu99 = -0.924596

lscpr = −2,824933

scpr99 = 5,93%

lclear = 1,334246

lurb99 = −0,194902

edu99 = 39,67%

Δ25% → edu14 = 50% → ledu14 = 0.701453

ˆ 14 0,14 2,39 1,334246 0,72 ( 0,194902) 0,76 0,701453ˆ 3,722282 14

tarr

tarr

lscprscpr

= − − ⋅ + ⋅ − − ⋅ == − → = 2,42%

La tasa de delitos descenderá del 6% a poco menos del 2,5% (descenso del 58%)

26

Tema 9: Análisis regional y de geomarketing con modelos espaciales: Bibliografía

Chasco, C. y Fernández-Avilés, G. (2009), Análisis de datos espacio-temporales para la economía y el geomarketing. Cap. 3 (Apdo. 3.1 y 3.2). Ed. NetBiblo. LECTURA.

Chasco, C. (2003), El geomarketing y la distribución comercial. Revista Investigación y Marketing nº 79.

Chasco, C. (2003), Econometría espacial aplicada a la predicción-extrapolación de datos microterritoriales. Cap.II.2, III.1 (disponible en la Comunidad de Madrid)

Anselin, L. (2005), Exploring spatial data with GeoDa: a workbook. Ex.1, 2, 7, 8, 11, 22. http://geodacenter.asu.edu/learning/tutorials


Tema 10.2:Predicción de series temporales con modelos econométricos

Prof. Coro Chasco YrigoyenAsignatura: Econometría I

2

Tema 10.2: Predicción de series temporales con modelos econométricos: Índice

1. Introducción a las técnicas de predicción en economía y empresas

2. Predicción con modelos econométricos2.1. Con variables explicativas conocidas2.2. Con variables explicativas desconocidas

2.2.1. Técnicas univariantes ingenuas2.2.2. Ajuste de tendencias

Tema 10: Predicción de series temporales.... Prof. Coro Chasco (UAM)

1. Introducción a las técnicas de predicción en economía y empresas

Un modelo econométrico cuantifica las relaciones entre las variables socioeconómicas. Esta expresión matemática puede ayudar a adelantar el porvenir.

Esto es particularmente cierto en situaciones de estabilidad (permanencia estructural o constancia de los parámetros en el tiempo).

La informática ha hecho posible una aceleración de los procesos de cálculo y permite aplicar métodos más o menos sofisticados en el seno de las empresas.

¿Podemos conocer el futuro?

3Tema 10: Predicción de series temporales.... Prof. Coro Chasco (UAM)

1. Introducción a las técnicas de predicción en economía y empresasPredicción con series históricas:

Técnicas Causales Técnicas Autoproyectivas

1. Deterministas1. Ajuste de tendencias

2. Mod. econométricos

2. Estocásticas: ARIMA

• Modelos ingenuos

• Medias móviles

• Alisados exponenciales • Uniecuacionales

• Multiecuacionales


2. Predicción con modelos econométricos

La predicción con modelos econométricos no suele ser un ejercicio tan inmediato como en otras técnicas cuantitativas.

Para conocer el valor futuro de la variable endógena es preciso conocer ANTES el valor futuro de las variables exógenas.

5

1 2 2 ...t t k kt ty x x uβ β β= + + + +

MCO 1 2 2ˆ ...t t k kty b b x b x= + + +

1 1 2 2 1 1ˆ ...t t k kty b b x b x+ + += + + +


2. Predicción con modelos econométricos Por ejemplo:

6

Una compañía aérea desea calcular el consumo de combustible por viaje de sus aviones (Ct) en función de la distancia recorrida por los mismos (Dt) y del número de pasajeros que transportan (Pt). Para ello utiliza el siguiente modelo de regresión lineal:

MCO

n = 22 (1986-2007)

1 2 3t t t tC D P uβ β β= + + +

ˆ 11,6 0,66 0,08t t tC D P= − + +

D2008 = 35

P2008 = 100Si:

2008

ˆ 11,6 0,66 35 0,08 10019,5

C

= − + ⋅ + ⋅=


2.1. Con variables explicativas conocidas

Variables de generación automática: por ejemplo, el tiempo (1, 2, 3,...) o variables ficticias (0-1).

Variables dependientes de la decisión libre de la institución que realiza la predicción: por ejemplo, precios de venta de una empresa o gastos en publicidad (para un modelo de demanda de un producto).

Variables para las que existen predicciones: por ejemplo, variables de entorno (nacional e internacional) elaboradas por instituciones especializadas en la predicción o variables establecidas como objetivos en los PGE (inflación).

Variables (exógenas o endógena) referidas a períodos anteriores: las variables desfasadas un período serán un dato conocido en (t + 1), las desfasadas en 2 períodos serán conocidas hasta (t + 2), y así sucesivamente. Sin embargo, si yt depende de yt-1, al cabo de 2 períodos ya no será conocida.

7

Cuando el valor de X es conocido a futuro, la predicción es automática tras estimar el modelo.


2.2. Con variables explicativas desconocidas

Cuando en un modelo hay una o varias variables explicativas cuyos valores futuros no se conocen, éstos deben aproximarse previamente con alguna técnica, como las siguientes:

Técnicas univariantes ingenuas Ajuste de tendencias

En ambos casos, se trata de utilizar los datos pasados de la variable para extrapolarlos al futuro.


2.2.1. Técnicas univariantes ingenuas Gran parte de las técnicas elementales de predicción son ingenuas

(“naïve”) Repiten mecánicamente el pasado Sencillas y fácilmente aplicables Adecuadas en situaciones de urgencia y con series cortas Los modelos son diferentes según la variable tenga o no tendencia:


2.2.1. Técnicas univariantes ingenuas Sin tendencia: Con tendencia:

1

1

ˆˆ

t t

t media

x xx x

+

+

==

( )1 1

11

ˆ

ˆ

t t t t

tt t

t

x x x xxx x

x

+ −

+−

= + −

=

1

2

1

2


2.2.1. Técnicas univariantes ingenuas

Con tendencia y estacionalidad:

1

2

11

Estacionalidad:Movimiento que se produce, dentro de un período anual, inicialmente por motivos climáticos y, con base en éstos, por motivos económicos de organización social (recolecciones, vacaciones, etc.). El período puede ser también de un mes (las ventas de los comercios disminuyen a final de mes y aumentan al principio), la semana (la productividad de los trabajadores suele ser menor en primer y último día de la semana) o incluso el día (en el caso de trabajar con “micro-datos”).

( )ˆ

ˆ

t s t t t s

tt s t

t s

x x x xxx x

x

+ −

+−

= + −

=

s = 4: datos trimestrales

s = 12: datos anuales



2004, 2005, 2006, 2007, 2008

12

2.2.2. Ajuste de tendencias Útil cuando las series presentan una clara tendencia temporal. Hay 2 tipos de ajustes: 1) por medias móviles y 2) a funciones

matemáticas. Ajuste a funciones matemáticas: muchas veces es fácil representar

la tendencia de una serie utilizando una función matemática, como la recta o la parábola (de 2º ó 3º grado).

Cuando se dispone de un buen modelo econométrico, resulta más completo predecir, en primer lugar, cada variable explicativa para predecir posteriormente la variable endógena (utilizando el modelo).

Si el modelo econométrico no es muy fiable para la predicción, puede aplicarse este método directamente a la variable endógena(prescindiendo del modelo).


2.2.2. Ajuste de tendencias Podemos ajustar la tendencia que sigue en el tiempo la endógena

Recta:

vatot95e = b1 + b2 t

En este caso, la endógena está transformada en tasas, pero es más fácil ajustar la tendencia de la variable original.

t: variable que expresa el tiempo; vale 1, 2, 3,…

15

( ) ( ) ( )ˆ@ 95 0,02 0,25@ 0,16@ 95t tt

pch vatot pch eetot pch ivfh= + +


2.2.2. Ajuste de tendenciasTendencia lineal (recta)

vatot95e = 256032,7 + 10818,76 t

@trend es la variable t

t = 1 (en 1980), 2 (en 1981), …, 24 (en 2003)

16Éste es un modelo auxiliar cuya única utilidad es lograr la predicción de una variable.


2.2.2. Ajuste de tendenciasTendencia parábola 2º grado

vatot95e = 269638,7 + 7108 t + 161,3 t 2

548151,2 = 269638,7 + 7108 . 25 + 161,3 . 252

El ajuste de la parábola produce menos errores en la zona cercana al período de predicción. Por eso, escogemos este método.

Valor de vatot95 en 2004


2.2.2. Ajuste de tendencias

1. Modificación del “Range” y “Sample”: la fecha final, que debe abarcar todo el horizonte de predicción.

2. En el menú “ecuación”, seleccionar “Forecast”. Ampliar el rango de predicción (“forecast sample”).

2.2.2. Ajuste de tendenciasLa pantalla presenta un resumen con los errores de la estimación, en la que se incluye el intervalo de confianza de los valores de predicción.

19

predicción


22

Tema 10: Predicción de series temporales con modelos econométricos: Bibliografía

Pulido, A. y A. López (1999), Predicción y simulación aplicada a la economía y gestión de empresas. T.3 (Apdo. 3.9) y T.6 (Apdo. 6.10)


Tema 0 FBE Intro [Modo de compatibilidad] · Utilidad de los modelos ... estudia la demanda de...

Documents

Transcript of Tema 0 FBE Intro [Modo de compatibilidad] · Utilidad de los modelos ... estudia la demanda de...