Clase 16 Variables Dummy Mudas Cualitativas v2

Post on 12-Dec-2015

260 views 3 download

description

cualitativoa

Transcript of Clase 16 Variables Dummy Mudas Cualitativas v2

Variables Dummy (mudas) o Cualitativas

La variable dependiente podría estar influida por variables cualitativas (regresores binarios) variables dummies (mudas), ficticias o dicotómicas.

Una variable dummy es una variable artificial construida de tal forma que toma el valor uno (1) si un determinado fenómeno cualitativo se cumple, y cero (0) si no

Son muy útiles en la práctica pues permiten capturar ciertos fenómenos cualitativos, que influencian el comportamiento de la variable dependiente (Y)

Existen modelos de regresión con solo variables cualitativas, para ello se emplean los modelos de análisis de varianzas (ANOVA)

Variables Dummy (mudas) o Cualitativas

Son muy útiles en la práctica pues permiten capturar ciertos fenómenos cualitativos, que influencian el comportamiento de la variable dependiente (Y)

Existen modelos de regresión con solo variables cualitativas, para ello se emplean los modelos de análisis de varianzas (ANOVA)

La variables dicotómicas simplemente señalan diferencias, pero no sugieren razones por las que éstas se presentan.

Ejemplos de variables dummies:

• Género

• Raza

•Color

• Religión

• Nacionalidad

• Zona geográfica (urbano / rural)

• Región

• Rama de actividad económica

• Afiliación a un partido

Más ejemplos:

• Oficio

• Participación en sindicatos

• Analfabetismo

• Situación marital

• Jefatura del hogar

• ¿Tiene título profesional?

• ¿Ha recibido capacitación?

• ¿Utiliza computador en su lugar de trabajo?

• Dependencia administrativa del establecimiento educacional

Considere la siguiente variable dummy: d2i= (1, mujer; 0,hombre)

A modo de ejemplo, piense en una ecuación de salarios (ecuación de Mincer) de la siguiente forma:

21212

2

)1|()0|(

21

iiii

iii

dWEydWE

udW

También se podría haber escrito:

d2i= (0, mujer; 1,hombre)

21212

21

)1|()0|(

2

iiii

iii

dWEydWE

udW

Otra forma de escribir el modelo anterior es la siguiente:

2211

2211

)1|()1|(

iiii

iiii

dWEydWE

uddW

Note que en el último modelo no se incluyó una constante... ¿por qué?

Porque de esta manera, se evita una colinealidad exacta o perfecta en la matriz X.

De otra forma, la matriz X sería singular, es decir, no invertible

Usualmente las estimaciones con variables dummies contienen un intercepto.

Los modelos ANOVA se utilizan para evaluar la significancia estadística de la relación entre una regresada cuantitativa y regresoras cualitativas o dicotómicas. A menudo se emplean para comparar las diferencias entre los valores medios de dos o más grupos o categorías , y por tanto son más generales que la prueba “t”, la cual se utiliza para comparar las medias de solo dos grupos o categorías.

Ejemplo: Salarios de profesores de escuelas públicas por región geográfica.

Se definen tres regiones : Norte, Sur, Oeste.Objetivo: si el promedio de salarios difieren

entre las tres regiones.Promedio simple da:R1: 24.424 dólaresR2: 22.894R3: 26.158¿Son estadísticamente distintos? ANOVA es

la respuesta también con Regresión.

iiii uDDY 33221

La definición de las variables es la siguiente:

Yi = salario promedio del individuo i

D 2i = toma el valor 1 si la persona i vive en el NORTE y 0 en otro caso

D3i = toma el valor 1 si la persona i vive en el SUR y 0 en otro caso

Veamos el siguiente modelo de determinación de salarios:

• Si la estimación no incluye intercepto el coeficiente asociado a la variable dummy representa el valor esperado de la variable dependiente para la categoría correspondiente. Cada una es el valor medio de la categoría.

• Si la estimación incluye un intercepto, la categoría omitida es la línea base o de comparación (su valor medio de la categoría, o sea la región Oeste). Por lo tanto, el coeficiente asociado al resto de las categorías representa el grado en el cual éstas difieren de la categoría base

Del modelo anterior se obtiene lo siguiente:

132

3132

2132

)0,0|(

)1,0|(

)0,1|(

iii

iii

iii

DDYE

DDYE

DDYE

• ¿Cómo se calcula para el Oeste?, si es B1 entonces: E(Yi/D2i=0; D3i=0)=B1

• Resultados de la regresión: R2=0.0901

Yi^= 26.158,62 -1.734,47D2i -3.264,61D3i

ee (1.128,5) (1.435,9) (1.499,6)

t (23.1759 -1.2078 -2.1776

p value

(0.0000)* (0.2330)*

No significativa

(0.0349)*

Si, significativa

Oeste Norte Sur

• En gráfico: salarios promedios por región

26158(B^1

24.424(B^1+B^2)

22.894 (B^1+B^3)

Oeste Norte Sur

Modelo ANOVA con 2 variables cualitativas• Ejemplo: salario en relación con estado civil y región de

residencia. 528 personas, en mayo 1985.

• R2= 0.0322

• Y=Salario-hora; D2=Estado Civil: 1=casado; 0≠;

• D3=Región Residencia: 1=Sur; 0≠

Yi^= 8.8148 +1.0997D2i -1.62729D3i

ee 0.4015 0.4642 0.4854

t 21.9528 2.3688 -3.4462

P-value 0.0000 0.0182 0.0006

• 2 cualitativas regresoras cada una con 2 categorías • ¿Cuál es la categoría de comparación?

NO CASADO Y FUERA DEL SUR, SON LAS OMITIDAS.

• Salario w¯=8.81

• w¯casados D2i= 8.81+1.1=9.91=B1+B2

• w¯Sur D3i = 8.81+1.67=7.14=B1+B3

• ¿Los salarios promedio son estadísticamente distintos en comparación con la categoría base?

• SI, porque los p-value son muy bajos.

MODELOS ANCOVA ( ANALISIS DE COVARIANZAS)

• Veamos el mismo ejemplo del salario promedio profesores de Escuelas públicas, agregando la variable gasto en escuelas por las municipalidades.

• Yi=B1+B2D2i+B3D3i+B4X4i + ui

• Oeste=categoría de comparación

Yi Salario año promedio

X4i Gasto Esc. Públ x alumno

D2i =1, si Norte; 0 otro

D3i =1, si Sur; 0 otro

MODELOS ANCOVA ( ANALISIS DE COVARIANZAS)

Yi^= 13.269 -1.673,5D2i -1.144,1D3i +3.288Xi

ee (1.395) (801,1) (861,1) (0.3176)

t 9,5* -2,08* -1,32** 10,35*

R2=0.7266

* Son p-value <5%; ** Son p-value >5%

Considere ahora un modelo mas general, el cual viene dado por:

iiii uEdW 2210

Donde E denota la escolaridad de la persona (en años). Es posible pensar en la siguiente situación:

Pero es posible además incluir interacciones entre las variables:

iiiii uXDDY 33221

Donde.

Yi=salario

X=escolaridad

D2=1 mujer; 0 otro

D3=1no blanco no hispano; 0 otro.

Supuesto: el efecto diferencial de la D2 es constante en las dos categorías de raza y el efecto diferencial de D3 también es constante en los dos sexos. Es decir, si w¯> para H que para M se debe a que pertenecen o no a la categoría no blanco no hispano. De igual forma, si los no blanco no hispanos tienen w¯<, se debe a que son H o M.

Lo anterior puede representarse gráficamente de la siguiente manera:

Desestacionalizar series de datos

• Normalmente escuchamos y leemos a los economistas, que mencionan el término "variables desestacionalizadas", cuando hacen referencia a una serie de datos estadísticos que sirven de base para estimar o proyectar variables resultado.

Desestacionalizar series de datos

• La mayoría de las variables utilizadas en economía, presentan variaciones que impiden ver con claridad el comportamiento de la tendencia en el corto plazo. Por ello es conveniente seguir una trayectoria de datos con estas oscilaciones reducidas y verificar los puntos de giro.Esto significa que se debe descomponer la serie temporal y eliminar aquellas componentes que dificultan su estudio.

• Es útil eliminar el factor estacional de las series de tiempo con el fin de concentrarse, por ejemplo, en la tendencia

La mayoría de las series presentan cuatro tipos de variaciones:

1) Variaciones que presentan cierta tendencia general (tendencia del desarrollo); son los movimientos de largo plazo de la serie.

2) Fluctuaciones cíclicas o de la situación económica que aproximadamente corresponden a los ciclos económicos generales;

3) Fluctuaciones estacionales, que aparecen en series de datos trimestrales o mensuales; contienen oscilaciones interanuales alrededor de la tendencia, que se repiten mensualmente o trimestralmente en un periodo de un año. Factores que mueven la componente estacional: el clima, el calendario (días hábiles y fiestas móviles, feriados), la toma de decisiones por los agentes y las expectativas en general del agente económico; y

4) Fluctuaciones irregulares. son las oscilaciones no sistemáticas y

aleatorias. Ejemplo, una huelga o algún otro evento repentino, dentro de un periodo.

¿QUÉ ES LA ESTACIONALIDAD?• Son fluctuaciones subanuales (por ejemplo,

mensuales, trimestrales) que se repiten regularmente de año en año.

• Por convención, la estacionalidad se anula cada año. Como resultado de ello:- Las series anuales no pueden contener estacionalidad

(en virtud de la definición de estacionalidad).

- Las sumas o promedios de 12 meses consecutivos (o de 4 trimestres) no contienen estacionalidad.

Características delfenómeno estacional

• Las 3 más importantes: a) Se repite cada año con cierta regularidad, pero

puede evolucionar.b) Es posible medirlo y separarlo de las otras fuerzas

que influyen en el movimiento de la serie.c) Es causado principalmente por fuerzas no

económicas, exógenas al sistema económico, que los tomadores de decisiones no pueden controlar o modificar en el corto plazo.

La estacionalidad puede evolucionar, debido a cambios tecnológicos o cambios

institucionales que operan en la actividad económica

¿ Por qué desestacionalizaruna serie?

Porque las causas que producen la estacionalidad de una serie se consideran factores exógenos, de naturaleza no económica y que influyen en la variable que se estudia, que oscurecen las características de la serie relacionadas con aspectos meramente económicos. (C.W.J. Granger, pags 33-35. En, A. Zellner (ed.), Seasonal Analysis of Economic Time Series, U. S. Bureau of Census,1978.

¿Por qué desestacionalizar?

La comparación entre meses o trimestres de diferentes años, necesitan que las series no contengan distorsiones estacionales, que pueden inducir a errores en la toma de decisiones.

Las series desestacionalizadas permiten analizar la evolución de la serie año tras año.

Con el ajuste estacional uno pretende eliminar al máximo la fluctuación que oscurece el componente de tendencia-ciclo de la serie, así que no sólo se debe tratar de extraer el componente estacional, sino de ser posible también, parte de la irregularidad que se puede medir, a fin de observar mejor la tendencia-ciclo.

(S. Koffek, pags. 3-32. En, A. Zellner (ed.), SeasonalAnalysis of Economic Time Series).

¿Por qué desestacionalizar?

Al contar con series desestacionalizadas el analista puede realizar comparaciones entre meses consecutivos o no consecutivos para

evaluar la coyuntura.

¿Por qué desestacionalizar?

METODOS PARADESESTACIONALIZAR UNA

SERIEExisten dos procedimientos generales

para realizar el ajuste estacional de una

serie de tiempo, éstos son:

- el método de regresión y

- el método de promedios móviles.

Los métodos de regresión se aplican por lo general bajo el supuesto de que la

estacionalidad, y en ocasiones también la tendencia, pueden representarse de manera determinística mediante funciones del tiempo.

• Los métodos de promedios móviles presuponen que tanto la tendencia como la estacionalidad tienen comportamientos dinámicos con el paso del tiempo y, por tanto, la estimación de los componentes se realiza localmente, de forma que la tendencia en un punto determinado del tiempo se estima como promedio de las observaciones previas y futuras

¿Qué método aplicar?

Si la desestacionalización es para realizar

un análisis econométrico donde aparece la serie ajustada, quizás lo más conveniente sea algún método de regresión, ya que así las fluctuaciones estacionales podrían formar parte explícita del modelo econométrico.

Si el objetivo de la desestacionalización es observar la tendencia de la serie, sin efectos estacionales que la puedan oscurecer, o si se pretende desestacionalizar de modo rutinario una gran cantidad de series, posiblemente los métodos más adecuados sean los de promedios móviles, debido a que son relativamente sencillos de aplicar y se dispone de paquetes de cómputo estadístico para los cálculos.

• En la actualidad, existen diversos programas para desestacionalizar series de tiempo basados en promedios móviles, entre los de uso más frecuente por un gran número de países se encuentran el X11-ARIMA de la Oficina de Estadística de Canadá (Statistics Canada)12/ y el X12-ARIMA13/ del Bureau de Censos de EEUU, este último utiliza el método X11 detallado en Shiskin, Young y Musgrave (1967) y Dagum (1988) para efectuar la desestacionalización. Estos métodos suponen que la serie está compuesta por los siguientes componentes no observables: Tendencia - Ciclo, Estacional e Irregular. Enlazados a través de un modelo.

El Modelo Aditivo

Xt = TCt + Et + It Donde:

Xt = serie originalTCt = componente tendencia-cicloEt = componente estacionalIt = componente irregular

• Este modelo asume que los componentes de la serie son independientes, es decir, la amplitud de la estacionalidad es independiente del nivel de la tendencia ciclo. Un aumento en el nivel de la tendencia-ciclo no ocasiona un aumento en la amplitud estacional.

• En este caso la serie desestacionalizada se obtiene como:

XDt = Xt - Et = TCt + It

El modelo multiplicativo

Xt = TCt * Et * It

-Este modelo asume que los componentes están interrelacionados. Un aumento en el nivel de la tendencia-ciclo ocasiona un aumento en la amplitud estacional.-Los componentes estacional e irregular están expresados en porcentajes.•En este modelo, la serie desestacionalizada se obtiene como: XDt = Xt/Et ) = TCt * It

Evolución del PIB trimestral (log) en Chile: 1996:I- 2006:II

¿Cómo extraemos de esta serie el componente de “estacionalidad”? mediante el uso de variables dummies

6,87

6,90

6,93

6,96

6,99

7,02

7,05

7,08

I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II

1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

Considere el siguiente modelo:

Yt = 0 + 1D1t + 2D2t + 3D3t + 4t + et

Donde Dit es una variable dummy que toma el valor 1 si la observación corresponde al trimestre i y 0 si no.

En este contexto, se tiene lo siguiente:

E(Yt | primer trimestre) = 0 + 1

E(Yt | segundo trimestre) = 0 + 2

E(Yt | tercer trimestre) = 0 + 3

E(Yt | cuarto trimestre) = 0

En este contexto, la serie desestacionalizada (ajustada) puede obtenerse de la siguiente manera:

)ˆˆˆ( 332211*

ttttt DDDYY

Los parámetros estimados corresponden a las estimaciones MCO de los parámetros poblacionales

Hay muchos métodos alternativos para desestacionalizar series, siendo el más popular (utilizado por el Banco Central de Chile) el X-12-ARIMA.

Este método permite realizar una estimación no paramétrica del componente estacional con la ayuda de promedios móviles (método X-11).

El modelo estimado por MCO es

lgdp = 6.88 - 0,0012739 * Dtrim1 + 0,0020191 * Dtrim2 - 0,0167853 * Dtrim3 + 0.0038 t

Luego, se construye la serie desestacionalizada:

lYadjust = lgdp + 0,0012739 * Dtrim1 -0,0020191 * Dtrim2 + 0,0167853 * Dtrim3

6,87

6,90

6,93

6,96

6,99

7,02

7,05

7,08

I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II

1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

Serie original

Serie desestacionalizada

Series economicas dessestacionalizadas.pdf

VARIABLES DUMMY PARA DESESTACIONALIZAR

• En general, toda serie económica contiene cuatro• componentes:• Z = C + T + S +I• donde :• Z es la serie original• C es el ciclo (podría aproximarse por funciones• trigonométricas)• T es la tendencia (en función del tiempo)• S es la estacionalidad o el efecto en la variable originado por• factores asociados al calendario (por ejemplo la actividad• económica declina en febrero producto de las vacaciones)• I es la parte irregular o ruido blanco que no responde a• ningún patrón determínistico.

DINERO: DISTINTOSCOMPONENTES

• ● Sabemos que el comportamiento de largo plazo del• dinero (componente tendencia-ciclo) depende de una• variable de escala (ingreso) y del costo de mantenerlo• (tasa de interés nominal).• ● Pero además la trayectoria del dinero esta afectada por• factores estacionales (por ejemplo aumenta fuertemente• en septiembre por fiestas patrias o en diciembre, etc).• ● (M/P)d = f(ingreso, tasa de interés, factores• estacionales, componente irregular)• ● Los efectos estacionales pueden aproximarse a través• de variables dummy.

Identifiquemos en la serie “dineroreal” estos componentes.

.

tendencia original ciclo

• ln (M/P) = β1 + β2 lnYi + β3 ii + β4 D1i + β5 D2i + β6 D3i + β7 D4i + μi

• ● Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango completo por columnas.

• ● D1 + D2 + D3 + D4 = 1 (las cuatro variables dummy son una combinación lineal que dan lugar a la columna 1)

• ● r (X) < k X⇒ ’X no es invertible

• ● Posibles soluciones– Eliminar el intercepto– Eliminar una de las variables dummy– Suponer que la suma de los efectos estacionales es cero.– Desestacionalizar las series utilizadas. Por ejemplo en E-Views el

comando SEAS elimina los efectos estacionales. SEAS Y YSA donde YSA es la series desestacionalizada. Luego se corre la regresión con las series desestacionalizadas. Por ejemplo:ln (M/PSAi) = β1 + β2 lnYSAi + β3 iSAi + μi

• D1=0 en el resto1 si el trimestre es el primero• D2=0 en el resto1 si el trimestre es el segundo• D3=0 en el resto1 si el trimestre es el tercero• D4=0 en el resto1 si el trimestre es el cuarto

VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL

CPi = β1 + β2 Yi + μi Chile 1960 - 1997● Supongamos que intuimos que hubo cambio estructural en 1974

producto del proceso de apertura comercial iniciado por el país.• H0: βI =βII• H1: βI≠ βII

● 1960-74 → , βI1 =βI2, Podríamos definir: Planteamos un modelo más general:

• Di=0, sin economía cerrada (60-74); • Di=1 si economía abierta (75-97)● 1975-97 → βII1 =βII2• Planteamos un modelo mas general:• Ci = β1 + β2Di + β3Yi + β4DiYi + ui• E(Ci / Di = 0, Yi ) = β1 + β3Yi• E(Ci / Di = 1, Yi ) = (β1 + β2 ) + (β3 + β4) Yi

β2 es el intercepto diferencial; β4 es la pendiente diferencial

VARIABLES DUMMY PARACORREGIR OUTLIERS.

● Un outlier es un error anormal. Su valor absoluto es

largamente superior al desvío estándar de la regresión.• Los parámetros estimados pueden estar fuertemente

distorsionados considerando la presencia del outlier.

● Demanda por dinero:• ln (M/P) = β1 + β2 lnYi + β3 ii + β4 D1i + β5 D2i + β6

D3i + β7D4i + β8 D5i + β9 D6i + β9 D7i + β10 D8i + β11 D9i + β12 D10i +β13 D11i + μi

● Aquí utilizamos 11 dummies para captar estacionalidad

por tratarse de datos mensuales.

• .

0.0

8798

Residual Actual ------

• ln (M/P) = β1 + β2 lnYi + β3 ii + β4 D1i + β5 D2i + β6 D3i + β7 D4i + β8 D5i + β9 D6i + β9 D7i+ β10 D8i + β11 D9i + β12 D10i + β13 D11i + β14 D923 + μI

• D923=1, si i=marzo de 1º992

• D923=0 en el resto

ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO (Incluyendo la Variable Dummy D923)

0.0

8798