T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

27
WWW.ADEFACIL.COM T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA 1 ÍNDICE T3. ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA ........................................... 2 3.1 SUPUESTOS CLÁSICOS PARA DATOS TRANSVERSALES Y TEMPORALES ....................................................................................................... 3 3.2 DISTRIBUCIÓN DE LOS ESTIMADORES MCO .............................................. 4 3.2.1 Propiedad de insesgadez y distribución para muestras suficientemente grandes ................................................................................................................ 4 3.2.2 Distribución muestral de los estimadores beta bajo homocedasticidad, ausencia de autocorrelación y errores normales .................................................. 6 3.3 INFERENCIA .................................................................................................. 10 3.3.1 Contraste de hipótesis sobre una de las pendientes: el contraste ............. 10 individual o contraste de la t ............................................................................... 10 3.3.1.1 Caso teórico: condiciones de homocedasticidad y normalidad ............... 10 3.3.1.2 Caso general: heterocedasticidad .......................................................... 11 3.3.1.3 Intervalos de confianza........................................................................... 11 3.3.2 Contraste de hipótesis sobre dos parámetros ........................................... 14 3.3.3 Contraste de hipótesis conjunto: estadístico de la F.................................. 17 3.4 EJEMPLOS .................................................................................................... 20 3.5 PREDICCIÓN ................................................................................................. 24 3.5.1 Predicción con datos de sección cruzada.................................................. 24 3.5.2 Introducción a la predicción con series temporales ................................... 26

Transcript of T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

Page 1: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

1

ÍNDICE

T3. ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA ........................................... 2

3.1 SUPUESTOS CLÁSICOS PARA DATOS TRANSVERSALES Y TEMPORALES ....................................................................................................... 3 3.2 DISTRIBUCIÓN DE LOS ESTIMADORES MCO .............................................. 4

3.2.1 Propiedad de insesgadez y distribución para muestras suficientemente grandes ................................................................................................................ 4 3.2.2 Distribución muestral de los estimadores beta bajo homocedasticidad, ausencia de autocorrelación y errores normales .................................................. 6

3.3 INFERENCIA .................................................................................................. 10 3.3.1 Contraste de hipótesis sobre una de las pendientes: el contraste ............. 10 individual o contraste de la t ............................................................................... 10 3.3.1.1 Caso teórico: condiciones de homocedasticidad y normalidad ............... 10 3.3.1.2 Caso general: heterocedasticidad .......................................................... 11 3.3.1.3 Intervalos de confianza ........................................................................... 11 3.3.2 Contraste de hipótesis sobre dos parámetros ........................................... 14 3.3.3 Contraste de hipótesis conjunto: estadístico de la F .................................. 17

3.4 EJEMPLOS .................................................................................................... 20 3.5 PREDICCIÓN ................................................................................................. 24

3.5.1 Predicción con datos de sección cruzada .................................................. 24 3.5.2 Introducción a la predicción con series temporales ................................... 26

Page 2: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

2

T3. ANÁLISIS DE REGRESIÓN LINEAL. INFERENCIA Un modelo es un conjunto de restricciones sobre la distribución conjunta de variables dependientes e independientes; es decir, un modelo está configurado por una serie de distribuciones conjuntas que satisfacen unos supuestos.

Estos supuestos constituyen el modelo clásico de regresión lineal; con papel central en econometría y es el primer objetivo de este tema. Aquí se plantean los supuestos poblacionales necesarios para que los estimadores muestrales (función de regresión muestral) cumplan una serie de propiedades deseables respecto a los verdaderos valores poblacionales (los dados en la función de regresión poblacional). Se compara la FRM con la FRP; se analizan las propiedades de los coeficientes beta estimados como estimadores de los parámetros poblacionales.

En función del cumplimiento o incumplimiento de estos supuestos, las propiedades estadísticas de los estimadores de los coeficientes irán cambiando.

Para definir estos supuestos es muy importante considerar si los datos son de sección cruzada o son una serie temporal, ya que algunos supuestos cambian en función del tipo de datos analizados. Los supuestos en ambos casos no serán exactamente los mismos; y nos permitirán deducir las distribuciones estadísticas muestrales de los estimadores de los parámetros. A partir de las distribuciones se podrá inferir sobre los parámetros mediante contrastes de hipótesis o intervalos de confianza y evaluar la capacidad predictiva del modelo.

Page 3: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

3

3.1 SUPUESTOS CLÁSICOS PARA DATOS TRANSVERSALES Y TEMPORALES

Los supuestos con datos de corte transversal son más sencillos que los de series temporales. Los supuestos básicos para un modelo de regresión lineal, comunes a ambos tipos de datos, corte transversal y series temporales, son:

SUPUESTOS BÁSICOS:

LINEAL: el proceso estocástico del que provienen los datos es de naturaleza lineal en los parámetros.

NO MULTICOLINEALIDAD PERFECTA: Este supuesto permite que las variables independientes estén correlacionadas, pero no perfectamente o exactamente. Este supuesto permite que se pueda hacer la estimación. En el supuesto de que dos o más variables estuvieran correladas perfectamente (multicolinealidad perfecta) existirían infinitas soluciones, es decir no existirían soluciones únicas para los estimadores. No se podrían calcular los coeficientes por MCO. Este supuesto implica:

La matriz X tendrá rango k+1, existiendo k+1 ecuaciones linealmente independientes, para ellos debe cumplirse la condición de grados de libertad del modelo positivos, es decir: n-k-1≥ 0 que implica n ≥ k+1

El determinante de X’X es distinto de cero ( det(X’X)≠0), esto garantiza que X’X tiene

inversa y podremos calcular los estimadores MCO.

E(XX’) >0

SUPOSICIÓN 1: ESPERANZA CONDICIONADA NULA O EXOGENEIDAD

Sección cruzada: i = 1, 2, 3,…, n

Series temporales: t = 1, 2, 3,…, n Para cada i (t, si se trata de datos temporales), el valor esperado de los errores condicionados a los valores de todas las variables explicativas es nulo. Este supuesto implica que:

Las variables independientes y los errores están incorrelados

Las variables explicativas son exógenas. En caso de que alguna variable explicativa este correlada con los errores diremos que esa variable es endógena.

Estimadores INSESGADOS :

Page 4: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

4

SUPOSICIÓN 2: MUESTRA ALEATORIA

La muestra de los datos que tenemos está formada por observaciones tomadas de manera que sean unas independientes de las otras y estén distribuidas idénticamente (deben provenir de la misma distribución conjunta).

SUPOSICIÓN 3: ADAPTACIÓN DE LA SUPOSICIÓN 2

Para series de tiempo. La función de distribución conjunta no cambia con el tiempo, y cuando el desfase temporal aumenta las variables se hacen independientes.

3.2 DISTRIBUCIÓN DE LOS ESTIMADORES MCO

3.2.1 Propiedad de insesgadez y distribución para muestras suficientemente grandes

Los supuestos básicos junto con el de exogeneidad y el de muestra aleatoria garantizan unas primeras propiedades de los estimadores MCO del modelo de regresión clásico, que caracterizan a la distribución muestral de los mismos.

TEOREMA: INSESGADEZ DE LOS PARÁMETROS MUESTRALES Bajo el supuesto de esperanza condicionada nula de los errores, los estimadores muestrales son insesgados:

El estimador es insesgado, está centrado en torno al verdadero valor de parámetro.

El estimador es insesgado para cualquier realización de la matriz de regresores X.

En principio el número de observaciones, n, con que contamos es importante, cuantas más observaciones mejor; pero desde el punto de vista técnico este número es importante también para estudiar las propiedades estadísticas de los estimadores ya que cuantas más observaciones, menos restrictivos serán los supuestos que necesitaremos. De todas formas, la propiedad de insesgadez de los estimadores MCO se verifica con independencia del número de observaciones.

Page 5: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

5

SUPOSICIÓN 4: GRANDES ATÍPICOS SON POCO PROBABLES Formalmente, (Xi, Yi ) tienen momentos de cuarto orden distintos de cero y finitos. es decir, las observaciones que presentan valores de Xi o de Yi o de ambas que están muy alejados del

rango habitual para el tipo de datos considerados (datos atípicos) son altamente improbables. Este supuesto es necesario para llegar a una distribución estadística de los coeficientes beta.

Junto a este supuesto, para poder establecer la distribución muestral, necesitamos un número suficiente de observaciones; pudiendo aplicar el Teorema Central del Límite (TCL). TEOREMA: Si Y1 ,Y2, …,Yn son muestras aleatorias con media μ y varianza σ2, entonces a medida que n tiende a infinito la variable estandarizada se distribuye como una Normal con media 0 y varianza1.

TEOREMA: Si n es suficientemente grande y si se cumplen los supuestos, la distribución del estimador MCO se puede aproximar a una normal. Es una distribución aproximada solo válida para muestras grandes (n > 100). El estimador es consistente, a medida que n aumenta, la varianza del estimador disminuye. Por ejemplo, sabiendo que la varianza del coeficiente de la pendiente en una modelo de regresión lineal simple es:

Se trata de una distribución aproximada, y por tanto no de una distribución exacta. La aproximación mejora a medida que el tamaño muestral crece. Podemos considerar como estándar que para n > 100 la aproximación es buena.

El estimador es consistente, es decir, cuando el tamaño muestral es grande, el estimador

estará cada vez más cercano al coeficiente. La varianza tiene en el denominador el tamaño muestral n . Por tanto, la varianza tiende a cero cuando n crece. Así, la distribución de los estimadores MCO tenderá a estar cada vez más concentrada en torno a sus verdaderos valores. La consistencia es una propiedad estadística de los estimadores importante. Incluso estimadores sesgados pueden ser útiles siempre que al menos sean consistentes.

Page 6: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

6

La consistencia es una propiedad asintótica (de muestras grandes) y es el requisito necesario para que un estimador sea útil.

En general, un estimador es de mayor calidad cuanto menor sea su varianza:

o A mayor varianza de X1 , menor varianza tendrá el estimador de β1. o A menor varianza de Ɛi, menor varianza tendrá el estimador de β1.

3.2.2 Distribución muestral de los estimadores beta bajo homocedasticidad, ausencia de autocorrelación y errores normales Un tratamiento alternativo para obtener la distribución muestral de los estimadores MCO consiste en añadir nuevos supuestos de manera que las expresiones se simplifiquen. En función del número de supuestos que vayamos añadiendo es posible que la normalidad esté garantizada para cualquier número de observaciones, en tal caso diríamos que la distribución normal es exacta, y no aproximada. Esto es especialmente interesante si la muestra es pequeña y se cumplen los supuestos que vamos a indicar. Ya hemos hecho un supuesto sobre la distribución de Ɛi condicionada a Xi, que es que dicha distribución tiene media cero. Si además la varianza de esta distribución condicionada es constante, es decir, que no depende de Xi, decimos entonces que los errores son (condicionalmente) homocedásticos. HOMOCEDASTICIDAD La varianza de los errores es constante, no depende de Xi

En el caso de series temporales se habla de errores contemporáneamente homocedásticos:

En el caso de muestreo aleatorio simple la homocedasticidad es directamente:

El incumplimiento implica heterocedasticidad:

Es importante observar que, tanto con homocedasticidad como con heterocedasticidad, las propiedades de insesgadez, de consistencia del estimador MCO y de distribución asintótica normal son ciertas. Esto es así porque los supuestos que hemos utilizado para derivar estas propiedades estadísticas del estimador MCO no incorporan ninguna consideración sobre la varianza condicionada del error.

Page 7: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

7

En cambio, si consideramos que los errores son homocedásticos y en realidad no lo son, obtenemos unos errores estándar de los estimadores diferentes (y por tanto erróneos) de los que obtendríamos al existir heterocedasticidad. Estimar con imprecisión errores estándar para los parámetros tiene posteriores consecuencias. Dado que los errores estándar que hemos explicado son válidos con independencia de que los errores sean o no heterocedásticos, se les denomina errores estándar robustos a la heterocedasticidad. Aunque calculemos errores estándar robustos a la heterocedasticidad, en el caso de trabajar con datos temporales con mucha frecuencia existe otro problema: el término error está autocorrelacionado. En series temporales cualquier variable realmente explicativa que omitamos y que esté serialmente correlacionada causará autocorrelación. AUSENCIA DE AUTOCORRELACIÓN Condicionados a X , dos valores cualesquiera de los errores están incorrelacionados. La existencia de autocorrelación no interrumpe las propiedades de insesgadez, consistencia y distribución asintótica normal. Sin embargo, al igual que ocurre con la homocedasticidad, si consideramos que no existe autocorrelación serial cuando en realidad sí la hay, entonces los errores estándar de los estimadores MCO estarán mal calculados. Si al conjunto de supuestos anteriores, le añadimos el supuesto de homocedasticidad, y el de no autocorrelación para el caso de series temporales, entonces los estimadores MCO serían además teóricamente los más eficientes entre todos lo estimadores lineales que fueran insesgados. Esta propiedad queda recogida dentro del teorema de Gauss-Markov. TEOREMA: En el caso de datos de sección cruzada bajo los supuestos de:

- Linealidad - no multicolinealidad perfecta - esperanza condicionada nula o exogeneidad - muestra aleatoria - homocedasticidad

y en el caso de datos temporales bajo los supuestos de:

- Linealidad - no multicolinealidad perfecta - esperanza condicionada nula o exogeneidad - muestra aleatoria - grandes atípicos poco probables - homocedasticidad - no autocorrelación

entonces las varianzas y covarianzas de los parámetros estimados son, en términos matriciales

Page 8: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

8

y también como ya vimos en el tema 2: donde SCTj es la suma cuadrática total de la variable independiente j y Rj

2; es el coeficiente de determinación de la regresión de Xj con el resto de variables explicativas. Si la correlación entre Xj y el resto de las variables independientes es alto (multicolinealidad) su coeficiente de determinación también será alto y la varianza serà cada vez más grande. En el límite la varianza será infinita (multicolinealidad perfecta) y los estimadores no se pueden calcular.

TEOREMA: Estimador insesgado de σ2

Si se cumplen todos los supuestos mencionados, entonces el estimador insesgado de la varianza de los errores es: es decir, la suma cuadrática de los errores estimados dividida por sus grados de libertad. TEOREMA: Teorema de GAUSS-MARKOV En el caso de datos de sección cruzada bajo los supuestos de:

- Linealidad - no multicolinealidad perfecta - esperanza condicionada nula o exogeneidad - muestra aleatoria - homocedasticidad

y en el caso de datos temporales bajo los supuestos de:

- Linealidad - no multicolinealidad perfecta - esperanza condicionada nula o exogeneidad - muestra aleatoria - grandes atípicos poco probables - homocedasticidad - no autocorrelación

entonces los estimadores MCO son estimadores lineales, insesgados y óptimos (ELIO), condicionados a X. Para posteriormente poder realizar inferencia estadística sobre los parámetros en caso de tener muestras pequeñas es necesario añadir a los supuestos que nos garantizan el cumplimiento del teorema de Gauss-Markov el supuesto de que los errores del modelo se distribuyen conforme a una distribución normal.

Page 9: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

9

NORMALIDAD

Los errores poblacionales Ɛi son independientes de X , son independientes entre sí y se distribuyen normalmente con media nula y varianza constante σ2, es decir que:

entonces los estimadores tienen una distribución normal exacta. Si no, entonces de nuevo la distribución normal será aproximada y solo podremos realizar contrastes de hipótesis con muestras grandes y distribuciones aproximadas. Una de las ventajas que incorpora el supuesto de normalidad es que se verifica el siguiente resultado: Esto implica que cualquier combinación lineal de los parámetros estimados se distribuye también normalmente y que cualquier subconjunto de ellos también tiene una distribución conjunta normal. Pruebas de normalidad de los residuos:

Una primera aproximación al estudio de la normalidad de los residuos puede ser (pero no solo) hacer una inspección gráfica del histograma de los residuos del modelo estimado. El problema del histograma es que solo nos permite hacernos una idea sobre la distribución de los residuos estimados, pero la adecuación o no a la distribución normal de la variable representada en el gráfico es subjetiva si solo utilizamos su histograma.

También se puede utilizar el contraste de Jarque-Bera que consiste en analizar la simetría

y la curstosis de la distribución de los residuos. Este contraste sirve para contrastar la hipótesis nula de que los residuos siguen una distribución normal. El estadístico Jarque-Bera, JB, es válido asintóticamente o para muestras grandes y es el siguiente:

donde S es el coeficiente de asimetría y K el de curtosis. El estadístico sigue una chi-cuadrado con 2 grados de libertad.

Page 10: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

10

3.3 INFERENCIA

Una vez analizada la función de regresión poblacional (FRP), ahora el objetivo es encontrar la

3.3.1 Contraste de hipótesis sobre una de las pendientes: el contraste individual o contraste de la t

3.3.1.1 Caso teórico: condiciones de homocedasticidad y normalidad TEOREMA: DISTRIBUCIÓN t DE LOS ESTIMADORES TIPIFICADOS En caso de cumplirse todos los supuestos los estimadores se distribuyen como una t-student de n-k-1 grados de libertad.

CONTRASTE DE SIGNIFICACION INDIVIDUAL Uno de los primeros pasos que podríamos dar para empezar a analizar un modelo econométrico es contrastar si el parámetro estimado influye significativamente sobre la variable explicada o si tiene algún efecto sobre ella. Para ellos podemos hacer un contraste de significación individual de los parámetros. La hipótesis nula es que el parámetro de la variable explicativa no influya o no tenga ningún efecto sobre la variable que pretendemos explicar. La hipótesis alternativa implica que el parámetros es significativo, entonces la variable correspondiente a este parámetro influye sobre la endógena, es relevante. Hipótesis:

H0: βj=0 H1: βj≠0 Estadístico:

t = También podemos hacer este contrate a cola inferior y a cola superior, el estadístico sería el mismo que en el contraste bilateral, lo que cambiaría en cada contraste serían las zonas de rechazo y las zonas de no rechazo.

Page 11: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

11

CONTRASTE DE INDIVIDUAL

Hipótesis:

H0: βj=k H1: βj≠k Estadístico:

t =

En términos generales los contrastes de hipótesis con un solo parámetros siguen esta fórmula para su estadístico:

3.3.1.2 Caso general: heterocedasticidad

Con independencia de la distribución de los errores del modelo, el estimador de los errores estándar robustos a la heterocedasticidad consiste por ejemplo para el caso de un modelo de regresión simple, en reemplazar las varianzas poblacionales de la ecuación, por sus varianzas muestrales ajustadas adecuadamente por los grados de libertad perdidos:

3.3.1.3 Intervalos de confianza

Partiendo del estimador tipificado podemos establecer intervalos de confianza con un determinado nivel de significatividad o confianza del parámetro poblacional:

p( ) = 1- α = confianza

Por consiguiente el intervalo de confianza para el parámetro poblacional con el nivel de confianza

1- α es:

Consideremos que Xj cambia exactamente ∆x. El cambio previsto en la variable Y asociada con este cambio en Xj es βj·∆x. Entonces podemos construir el intervalo para βj·∆x

Page 12: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

12

EJERCICIO 1: Caso de la mortalidad infantil Consideremos que en la actualidad el nivel educativo, el nivel per cápita y el grado de concentración de la renta a lo largo de la población son t res factores que explican la tasa de mortalidad infantil de un país. Con datos elaborados por Naciones Unidas en su informe sobre desarrollo humano elaboramos la siguiente estimación sobre la tasa de mortalidad infantil (muertes de niños menores de cinco años por cada cien mil nacidos):

a) ¿Son significativas cada una de las variables al 95%?¿Y al 99%?

b) ¿Cuál sería el impacto sobre la tasa de mortalidad si la acción que quiere llevar a término Naciones Unidas se centrara en aumentar los años de escolarización de la población?

c) Construye e interpreta el intervalo de confianza al 95% para el coeficiente del nivel de estudios.

Page 13: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

13

d) Analiza cuál sería el efecto de los ingresos per cápita sobre la tasa de mortalidad.

e) Calcular el p-valor del contraste para verificar si el índice de GINI es significativo. Interprétalo.

Page 14: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

14

3.3.2 Contraste de hipótesis sobre dos parámetros

Con estos contrastes nos planteamos cómo contrastar una hipótesis sobre una combinación lineal de parámetros. En este caso la hipótesis a contrastar es: que podemos escribir de forma equivalente como .

Existen varias alternativas para realizar este contraste, la primera de ellas y la más utilizada es el estadístico tipo t:

donde no hay que olvidar que el denominador se tiene que calcular con la siguiente expresión:

Hemos plantado con contraste bilateral (a dos colas):

Así que si:

rechazamos H0, es decir la diferencia es estadísticamente significativa.

Page 15: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

15

En el caso de querer contrastar una hipótesis más general, plantaríamos el siguiente contraste:

H0: βi ± βj =k H1: βi ± βj ≠ k

Entonces el estadístico es: t =

donde ahora el denominador se tiene que calcular con la siguiente expresión:

Y si se cumple: rechazamos H0, es decir no se cumple la relación planteada en H0.

Page 16: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

16

EJERCICIO 2: Salarios en el sector turístico

A partir de la encuesta de la estructura salarial española de 2006, hemos seleccionado datos del sector turístico y hemos estimado la regresión:

donde la variable dependiente es el «logaritmo del salario hora» en euros corrientes de 2006; la variable «estudios» es el nivel de estudios terminados; la variable «antigüedad» está medida en años de pertenencia a la empresa ; la variable «edad» ( en décadas: 1 si tiene menos de 20 años, 2 entre los 20 hasta los 29 años ... , 6 si tiene más de 60 años) pretende aproximar el efecto de la experiencia laboral; la variable «tamaño» se refiere al tamaño de la empresa (1 si la empresa tiene menos de 50 trabajadores; 2 entre 50 y 199; 3 más de 200 trabajadores).

a) ¿Son significativas cada una de las variables al 95%?¿Y al 99%?

b) ¿A nivel poblacional, el efecto que tiene el tamaño de la empresa es igual al que tiene el nivel de estudios? Nivel de confianza del 95%

c) ¿Qué efecto tendría sobre su salario que un trabajador pasara de una empresa pequeña a una mediana?

Page 17: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

17

3.3.3 Contraste de hipótesis conjunto: estadístico de la F

3.3.3.1 Caso teórico: condiciones de homocedasticidad y normalidad

RESTRICCIONES DE EXCLUSIÓN

La hipótesis nula conjunta puede interpretarse: nos preguntamos si imponer q restricciones hace

que el ajuste empeore significativamente (esto es, más allá de la variación aleatoria muestral) respecto al modelo sin restricciones. En este sentido entenderemos que el ajuste empeora si la suma cuadrática de los residuos del modelo aumenta. Para realizar el contraste en estos términos debemos establecer dos ecuaciones: la ecuación no

restringida (o sin restricciones) y la ecuación restringida por las q restricciones que caracterizan a

la hipótesis nula. Esto nos daría dos ecuaciones o modelos: Ecuaciones: Hipótesis:

Estadístico:

Fq, n-k-1 =

Page 18: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

18

SIGNIFICATIVIDAD CONJUNTA Se contrasta la significatividad global del modelo con el contraste: Hipótesis:

Estadístico:

Fk, n-k-1 =

Page 19: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

19

EJERCICIO 3: Demanda de cerveza

Con datos de la encuesta continua de presupuestos familiares entre el primer cuatrimestre de 1998 y el último de 2005 queremos estimar la ecuación de demanda de cerveza . Para ello inicialmente observamos que el escenario de estimación contiene muy pocos datos de naturaleza temporal , en particular n = 32.. La estimación la realizamos por MCO; los resultados son

a) ¿Son todos los signos los esperados según prevé la teoría económica?

b) Contrastar si el vino de mesa y el de calidad son conjuntamente significativos al 95%, usando la ecuación restringida:

El valor crítico con el 95 % de confianza es 3,35 (F2,27,0,05 = 3,35)

c) Contrastar si las variables explicativas de la regresión son conjuntamente significativas al 95%, es decir, contrasta si el modelo es globalmente significativo.

Page 20: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

20

3.4 EJEMPLOS

Ejemplo 1: Demanda de café en España A partir de los datos de la encuesta continua de presupuestos familiares entre el primer trimestre de 1998 y el cuarto de 2005, estimamos la demanda de café en España.

Todas las variables están en logaritmos, de manera que el modelo se interpreta en términos de elasticidades.

Queremos saber si podemos rechazar la hipótesis (nula) de que un cambio en el precio del

café no tiene efecto alguno sobre la cantidad demandada de café una vez que hemos tenido en consideración (controlando) el efecto que pueden tener sobre dicha cantidad demandada la renta disponible per cápita y la cantidad de leche consumida per cápita.

En este caso dada la relación inversa entre precios y cantidades podemos establecer una hipótesis alternativa que defina un contraste de una sola cola: contrastamos la hipótesis nula de elasticidad precio del café igual a cero frente a la alternativa negativa de que es inferior a cero.

H0: βprecio café = 0 H1: β precio café < 0 Tal y como hemos calculado el error estándar y dados los grados de libertad (27 = 32-5), la distribución que tenemos que utilizar para realizar el contraste tipo t es la distribución t de student. El valor crítico al 95 % de confianza es -t27, 0,05 = -1,70.

El estadístico de este contraste es t = (-0,92/ 0,119) = -7,73, por tanto rechazamos la hipótesis nula de elasticidad nula del parámetro poblacional del precio del café, en favor de la hipótesis alternativa de elasticidad negativa. Dada la conclusión alcanzada con este contraste, podemos decir que cuando el precio del café se reduce en un 1 % (si no hay variaciones en los precios del té, la renta disponible y la cantidad de leche consumida, y descontados sus respectivos efectos sobre la cantidad demandada de café), el consumo de café crecerá un 0,92 %.

La proximidad de este último coeficiente a la unidad nos invita a tratar una cuestión económica interesante: saber si podemos considerar que el café es un bien inelástico, elasticidad menor que la unidad, o si tiene elasticidad unitaria.

H0: βprecio café = -1

Page 21: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

21

H1: β precio café < -1 El valor crítico al 95 % de confianza es -t27, 0,05 = -1,70.

El estadístico de este contraste es t = (-0,92- (-1)/ 0,119) = 0,672, por tanto no podemos rechazar la hipótesis nula de elasticidad unitaria.

La relación entre las cantidades demandadas de café y leche consumida es positiva, lo cual está en sintonía por lo previsto en la teoría de bienes complementarios o bienes que se consumen conjuntamente. Para contrastar si el parámetro estimado es no significativo (H0) frente a una alternativa positiva.

H0: βcantidad leche = 0 H1: β cantidad leche > 0 El valor crítico al 95 % de confianza es t27, 0,05 = 1,70 ya que ahora el contraste es a cola superior. El estadístico de este contraste es t = (0,81/ 0,137) = 5,91, por tanto rechazamos la hipótesis nula. Podemos entonces interpretar que un incremento del 1% en la cantidad de leche consumida provoca un incremento de 0,81% en la cantidad de café consumida, descontada la influencia del precio del café, del té y la renta disponible.

Té y café son bienes sustitutivos (es decir, si todo lo demás se mantiene constante, entonces cuando aumenta la cantidad consumida de café disminuye la de té, y viceversa), de manera que con respecto al precio de un bien sustitutivo la teoría establece una elasticidad cruzada positiva, pero vamos a ver primero si es significativa esta variable.

H0: βprecio te = 0 H1: β precio te > 0 El estadístico de este contraste es t = (0,03/ 0,0183) = 1,64 con el que no podemos rechazar al 95%, pero si al 90% (al ser el t 27,0,10 = 1,31). La interpretación sugiere que si el precio del té aumenta un 1 % entonces la cantidad de café consumida aumenta un 0,03 % siempre que el resto se mantenga constante

Finalmente, respecto de la renta disponible (yd) también el signo es acorde con el esperado

por la teoría. En cambio, la t empírica es 1,78 (0,41 / 0,23 = 1,78), que es inferior en valor absoluto al valor crítico de 2,05 (contraste de dos colas) , de manera que no rechazamos la hipótesis nula de que la renta disponible es una variable no significativa (al 95 % de confianza). Este resultado encaja con el hecho de que el presupuesto de café respecto a la renta disponible es mínimo, de manera que también parece razonable que incrementos de la renta apenas influyan en la cantidad consumida.

Las dos últimas observaciones pueden llevarnos a considerar que para la configuración de la demanda de café podemos prescindir de dos variables teóricas importantes (renta disponible y precio de un sustitutivo). Sin embargo, antes de estimar uno nuevo, sería necesario evaluar si de acuerdo a los datos podemos tener confianza en los supuestos que damos por válidos. Para ello sería necesario contrastar estadísticamente los supuestos relativos a los errores: normalidad, homocedasticidad y ausencia de autocorrelación.

Page 22: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

22

Ejemplo 2: Función de producción de la economía española

A partir de los datos suministrados por la Contabilidad Nacional, hemos obtenido datos de producción, empleo y stock de capital de maquinaria, material de equipo y otros, entre 1980 y 2010 en millones de euros del año 2000, y miles de trabajadores totales medidos en jornadas equivalentes a tiempo completo. Partimos de un modelo poblacional basado en la función de producción de Cobb-Douglas:

aplicando logaritmos tenemos:

La estimación de la FRP es:

El valor crítico del contraste individual al 95% de confianza es 2,05 (t28,0,025 = 2,05); por consiguiente todos los parámetros estimados son significativos. El modelo es de elasticidades constantes, de manera que un incremento del 1% del empleo manteniendo constante el resto de factores y descontado el efecto del stock de capital provoca un incremento de la producción de 0,59 %. Un incremento del 1% del stock de capital descontando el efecto del nivel de empleo y manteniendo el resto de factores constantes produce un incremento del 0,41 % de la producción. Un incremento del 1% conjunto del empleo y del stock de capital tiene el efecto de un incremento del 1% en la producción. La teoría económica postula rendimientos constantes a escala (un incremento del 1% en el empleo y el stock de capital provocaría un incremento del 1% en la producción) , de manera que la teoría económica sugiere que:

H0: βempleo + βcapital = 1 H1: βempleo + βcapital ≠ 1 Así que:

βempleo = 1- βcapital

Sustituyendo en la ecuación poblacional en logaritmos, llegamos a la ecuación restringida (mínimos cuadrados restringidos):

Page 23: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

23

La ecuación restringida es:

Y su estimación:

El número de restricciones impuestas es q=1, de manera que el valor de la F:

el valor crítico de tablas es 4,20 (F 1,28,0,05 = 4,20).

Por consiguiente no rechazamos la hipótesis nula de rendimientos constantes a escala en la economía española durante el periodo 1980 - 2010.

Page 24: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

24

3.5 PREDICCIÓN

3.5.1 Predicción con datos de sección cruzada

Después de la estimación de los parámetros o coeficientes del modelo por MCO es habitual utilizar el modelo estimado para hacer una previsión de la variable dependiente.

La predicción media de Y nos queda:

Cuya varianza (de la predicción media) es:

La varianza del error de predicción (predicción individual) es:

que permite realizar intervalos de confianza:

Predicción media:

Predicción puntual:

Page 25: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

25

EJERCICIO 4: Predicción de los salarios hora del sector turístico A partir de la encuesta de la estructura salarial española de 2006, hemos seleccionado datos del sector turístico y hemos estimado la regresión:

a) ¿Cuál es la previsión del salario hora medio de un licenciado(estudios=8), con 35 años de edad (edad=3) y cinco de antigüedad en una empresa(antigúedad=5) de tamaño mediano(tamaño=2)

b) Calcular un intervalo de confianza para la predicción individual y otro para la predicción media a partir de los datos suministrados en la siguiente estimación del modelo:

Page 26: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

26

3.5.2 Introducción a la predicción con series temporales Los errores de predicción tienen su origen en una combinación de los siguientes elementos:

La propia naturaleza estocástica del proceso.

Los valores futuros de las variables explicativas. La predicción está condicionada a sus valores futuros y normalmente tampoco se conocen a priori

Mala especificación del modelo. Nunca podemos estar seguros de que el modelo especificado sea una representación precisa del verdadero modelo poblacional, en este sentido siempre pueden existir sesgos de especificación.

3.5.2.1 Precisión de la predicción con datos de series temporales Aunque la predicción se puede hacer con modelos transversales, normalmente la predicción se asocia con el comportamiento futuro de las variables objeto de estudio. Para evaluar la capacidad predictiva del modelo se suele utilizar:

Page 27: T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

WWW.ADEFACIL.COM

T3. ANÁLISIS DE LA REGRESIÓN LINEAL. INFERENCIA

27