Curso de Estadística con R Té - Instituto Cántabro de ...

138
D u n s T n o o c m e t o é c i c s Curso de Estadística con R Autor: Francisco Parra Rodríguez Jefe de Servicio de Estadísticas Económicas y Sociodemográficas ICANE DOC. Nº 2/2016 ISSN 2444 - 1627 Santander, Cantabria

Transcript of Curso de Estadística con R Té - Instituto Cántabro de ...

Page 1: Curso de Estadística con R Té - Instituto Cántabro de ...

Du

n

sT

n

o

ocmeto

écics

Curso de Estadística con R

Autor: Francisco Parra Rodríguez Jefe de Servicio de Estadísticas

Económicas y Sociodemográficas ICANE

DOC. Nº 2/2016 ISSN 2444 - 1627 Santander, Cantabria

Page 2: Curso de Estadística con R Té - Instituto Cántabro de ...

1

1. EL MODELO LINEAL GENERAL ..................................................................................................3 1.1. INTRODUCCIÓN........................................................................................................................3 1.2. REGRESIÓN LINEAL SIMPLE. EL MÉTODO DE LOS MÍNIMOS CUADRADOS ORDINARIOS. ........................................................................................................................................3 1.3. REGRESIÓN LINEAL MÚLTIPLE............................................................................................6 1.4. PROPIEDADES ESTADISTICAS DEL ESTIMADOR MÍNIMO CUADRADO: TEOREMA DE GAUSS-MARKOV............................................................................................................................8 1.5. COEFICIENTES DE DETERMINACIÓN..................................................................................9 1.6. TABLA DE ANALIS DE LA VARIANZA (ANOVA).............................................................10 1.7. INFERENCIA ACERCA DE LOS ESTIMADORES................................................................11

1.7.1. Intervalos De Confianza.................................................................................................12 1.7.2. Contrastes de Hipótesis ..................................................................................................13

1.8. PREDICCIÓN EN EL MODELO DE REGRESIÓN ................................................................15 1.9. ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON R...................................15 1.10. LA CONSOLA R STUDIO. ..........................................................................................20

2. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL......................................................25 2.1. INTRODUCCIÓN......................................................................................................................25 2.2. HETEROSCEDASTICIDAD.....................................................................................................27

2.2.1. Test de Bartlett ...............................................................................................................27 2.2.2. Contraste de Goldfeld-Quant..........................................................................................28 2.2.3. Contraste de White .........................................................................................................29

2.3 AUTOCORRELACIÓN...................................................................................................................30 2.3.1. Contraste de Durbin-Watson ....................................................................................................30 2.3.2. Contraste de Breush-Godfrey ...................................................................................................32

2.3. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD .................................................33 2.4. ERRORES DE ESPECIFICACIÓN...........................................................................................35

2.4.1. Omisión de una variable relevante .................................................................................35 2.4.2. Inclusión de una variable innecesaria.............................................................................37 2.4.3. Especificación funcional incorrecta ...............................................................................37 2.4.4. Contraste de errores de especificación ...........................................................................37

2.5. METODOS DE SELECCIÓN DE VARIABLES EN EL MODELO DE REGRESIÓN LINEAL. ................................................................................................................................................38

3. MODELOS CON VARIABLES CUALITATIVAS ....................................................................42 3.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO REGRESORES. .....................................................................................................................................42 3.2. MODELOS ANOVA .................................................................................................................43 3.3. MODELOS ANCOVA...............................................................................................................46

4. MODELO LINEAL GENERALIZADO..........................................................................................52 4.1. EL MODELO PROBABILÍSTICO LINEAL ............................................................................56 4.2. EL MODELO LOGIT ................................................................................................................58 4.3. MODELO PROBIT....................................................................................................................62

5. MODELOS CON DATOS DE PANEL.......................................................................................64 5.1. INTRODUCCIÓN......................................................................................................................64 5.2. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL.........................65 5.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL....................67 5.4. MODELO DE EFECTOS FIJOS ...............................................................................................68 5.5. MODELO DE EFECTOS ALEATORIOS.................................................................................70 5.6. ELECCIÓN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS................................71

Page 3: Curso de Estadística con R Té - Instituto Cántabro de ...

2

6. MÉTODOS DE ESTIMACIÓN NO PARAMÉTRICOS...........................................................75 6.1. INTRODUCCIÓN......................................................................................................................75 6.2. FUNCIÓN NUCLEO .................................................................................................................76 6.3. ESTIMADORES DE FUNCIÓN NUCLEO Y POLINOMIOS LOCALES..............................79 6.4. REGRESIÓN POR SPLINES ....................................................................................................83 6.5. APROXIMACIÓN POR SERIES DE FOURIER......................................................................88

7. REGRESIÓN EN EL DOMINIO DE LA FRECUENCIA ...........................................................92 7.1. INTRODUCCIÓN......................................................................................................................92 7.2. REGRESIÓN BAND SPECTRUM ...........................................................................................93 7.3. REGRESIÓN EN EL DOMINIO DE LA FRECUENCIA CON PARAMETROS DEPENDIENTES DEL TIEMPO. .........................................................................................................99 7.4. DESESTACIONALIZACIÓN A TRAVÉS DE LA REGRESIÓN DEPENDIENTE DE LA FRECUENCIA.....................................................................................................................................106

8. MÉTODOS DE CLASIFICACION..............................................................................................111 8.1. INTRODUCCION....................................................................................................................111 8.2. ANALISIS DISCRIMINANTE ...............................................................................................113 8.3. REGRESION LOGÍSTICA......................................................................................................117 8.4. ALGORITMO K-VECINOS MAS CERCANOS....................................................................119 8.5. ÁRBOLES DE CLASIFICACIÓN ..........................................................................................121 8.6. MÁQUINAS DE SOPORTE VECTOR...................................................................................126 8.7. METODOLOGÍAS – COMBINANDO CLASIFICADORES.................................................130

9. BIBLIOGRAFÍA..............................................................................................................................132 10. ANEXO I ........................................................................................................................................137

Page 4: Curso de Estadística con R Té - Instituto Cántabro de ...

3

1. EL MODELO LINEAL GENERAL

1.1. INTRODUCCIÓN La regresión lineal es la técnica básica del análisis econométrico. Mediante dicha técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente o endógena, respecto de una o varias variables explicativas o exógenas. Gujarati (1975), define el análisis de regresión como el estudio de la dependencia de la variable dependiente, sobre una o más variables explicativas, con el objeto de estimar o predecir el valor promedio poblacional de la primera en términos de los valores conocidos o fijos (en medias muestrales repetidas) de las últimas. En este capitulo abordaremos el estudio del caso de una única ecuación de tipo lineal con una variable dependiente y una independiente, y la generalización del modelo al caso de múltiples variables exógenas. Las extensiones del modelo lineal general se analizarán en capítulos siguientes.

1.2. REGRESIÓN LINEAL SIMPLE. EL MÉTODO DE LOS MÍNIMOS CUADRADOS ORDINARIOS.

Partimos de la existencia de una relación lineal entre una variable endógena (Y) y k variables exógenas (Xi):

ikikiii eXXXY ...22110 Nuestro objetivo consiste en estimar los parámetros i de la ecuación anterior a partir de los datos muestrales de los que disponemos. Para ello utilizaremos el método de los Mínimos Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este método debemos plantear ciertas hipótesis sobre el comportamiento de las variables que integran el modelo. La variable ei la denominamos término de perturbación o error, y en ella recogemos todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin embargo, no están reflejados en las variables explicativas, Xi. Estos factores deberían ser poco importantes, ya que no debería existir ninguna variable explicativa relevante omitida en el modelo de regresión. En caso contrario estaríamos incurriendo en lo que se conoce como un error de especificación del modelo. El término de perturbación también recogería los posibles errores de medida de la variable dependiente, Y. De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de vital importancia que dicho término de error no ejerza ninguna influencia determinante en la explicación del comportamiento de la variable dependiente. Por ello, si el modelo está bien especificado, cuando se aplica el método de Mínimos Cuadrados Ordinarios, cabe realizar las siguientes hipótesis de comportamiento sobre el término de error:

1. La esperanza matemática de et es cero, tal que E (ei) = 0. Es decir, el comportamiento del término de error no presenta un sesgo sistemático en ninguna dirección determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la

Page 5: Curso de Estadística con R Té - Instituto Cántabro de ...

4

longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un error de medida por exceso y otras por defecto, pero en media los errores estarán compensados.

2. La covarianza entre ei y ej es nula para ji tal que E (ei·ej) = 0. Ello quiere decir que

el error cometido en un momento determinado, i, no debe estar correlacionado con el error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen influencia unos sobre otros. En caso de existir este tipo de influencia o correlación, nos encontraríamos ante el problema de la autocorrelación en los residuos, el cual impide realizar una estimación por Mínimos Cuadrados válida.

3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que

Var(ei) = 2I, i=1,…,n, donde I es la matriz unidad. Dado que siempre que medimos una variable, se produce un cierto error, resulta deseable que los errores que cometamos en momentos diferentes del tiempo sean similares en cuantía. Esta condición es lo que se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impediría un uso correcto de la estimación lineal por Mínimos Cuadrados.

Estas hipótesis implican que los errores siguen una distribución Normal de media cero y varianza constante por lo que, dado su carácter aleatorio, hace que los errores sean por naturaleza impredecibles. Asimismo, las variables incluidas en el modelo deben verificar que:

1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante todo el periodo muestral, es decir, no se produce un cambio importante en la estructura de comportamiento de Y a lo largo de la muestra considerada.

2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en

muestreos repetidos.

3. El número de variables explicativas, k, siempre debe ser menor que el tamaño muestral, n. Es decir, siempre debemos disponer de más observaciones que parámetros haya en el modelo (coeficientes ).

Partiendo de la relación lineal más sencilla:

iii eXY 110 Si suponemos que se verifican los supuestos anteriores, la estimación mínimo cuadrática de los parámetros 0 y 1, dará como resultado gráfico una recta que se ajuste lo máximo posible a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede apreciar en el Figura 1.1.

Page 6: Curso de Estadística con R Té - Instituto Cántabro de ...

5

Fig. 1.1. Nube de puntos o gráfico de dispersión con variables relacionadas linealmente

El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sería la imagen de Xi en el eje de ordenadas. El objetivo de la estimación por Mínimos Cuadrados Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es decir1:

n

i

n

iiii

n

iii XYYYeMin

1 1

210

2

1

2 )ˆˆ()ˆ(

Derivando esta expresión respecto a los coeficientes 0 y 1 e igualando a cero obtenemos el sistema de ecuaciones normales:

XYXnY o

n

ii

n

ii 1

110

1

ˆˆˆˆ

n

ii

n

ii

n

iii XXXY

1

21

10

1

ˆˆ

donde n representa el tamaño muestral y X e Y representan las medias de dichas variables.

Resolviendo dicho sistema de ecuaciones obtenemos la solución para los parámetros a y b:

XY

XX

YYXX

o

n

ii

n

iii

1

1

2

11

ˆˆ

ˆ

1 Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que son estimadas por lo que no se corresponden con el valor real del parámetro sino con el calculado por nosotros.

Page 7: Curso de Estadística con R Té - Instituto Cántabro de ...

6

1.3. REGRESIÓN LINEAL MÚLTIPLE Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias variables exógenas, de tal forma que se trata de determinar la relación que existe entre la variable endógena Y y variables exógenas: X1, X2.…, Xk. Dicho modelo se puede formular matricialmente de la siguiente manera:

ikikii eXXXeXY ...· 2211 , i=1,2,…, n donde:

nY

Y

Y

Y...

2

1

es el vector de observaciones de la variable endógena

k21

21

22221

11211

X ...X X

...

............

...

...

nknn

k

k

XXX

XXX

XXX

X es la matriz de observaciones de las variables

exógenas

K

...

2

1

es el vector de coeficientes que pretendemos estimar

ne

e

e

e...

2

1

es el vector de términos de error

Si en la expresión anterior se considerara que existe término independiente, 0, la matriz X quedaría como:

11 1

21 21 3 k

1

1 ...

1 ... X X ... X

... ... ... ...

1 ...

1

k

k

n nk

X X

X XX

X X

Y el modelo quedaría así:

ikikiioi eXXXY ...2211 , i=1,2,…, n Suponiendo que se verifican las hipótesis que veíamos antes, el problema a resolver nuevamente es la minimización de la suma de los cuadrados de los términos de error tal que:

Page 8: Curso de Estadística con R Té - Instituto Cántabro de ...

7

n

i

n

i

n

iiii XYYYeMin

1 1 1

222 ˆˆ

Desarrollando dicho cuadrado y derivando respecto a cada βi obtenemos el siguiente sistema de ecuaciones normales expresado en notación matricial:

ˆ' · 'X X X Y en donde basta con despejar β premultiplicando ambos miembros por la inversa de la matriz

)'( XX para obtener la estimación de los parámetros del modelo tal que:

YXXX ')'(ˆ 1 donde:

n

tki

n

tiki

ti

n

tkii

n

ti

n

tii

n

tkii

n

tii

n

ti

XXXX

XXXXX

XXXXX

XX

1

2

12

n

11ki

12

1

22

112

11

121

1

21

...X

..................

...

...

'

n

tiki

n

tii

n

tii

YX

YX

YX

YX

1

12

11

....

`

Si en el modelo existiera término independiente, 0, las matrices anteriores serían:

n

tki

n

tiki

t

n

tkii

n

ti

n

ti

n

tki

n

ti

XXX

XXXX

XXn

XX

1

2

11

n

1ki

11

1

21

11

111

...X

..................

...

...

'

n

tiki

n

tii

n

ti

YX

YX

Y

YX

1

11

1

....

`

El resultado de multiplicar dichas matrices conduce a la obtención de la estimación de los parámetros βi del modelo:

k

o

n

iiki

n

iii

n

ii

n

tki

n

tiki

t

n

tkii

n

ti

n

ti

n

tki

n

ti

YX

YX

Y

XXX

XXXX

XXn

YXXX

ˆ...

ˆ

ˆ

....

...X

..................

...

...

''ˆ 1

1

11

1

1

1

2

11

n

1ki

11

1

21

11

111

1

Cada uno de los coeficientes estimados, i , son una estimación insesgada del verdadero parámetro del modelo y representa la variación que experimenta la variable dependiente Y cuando una variable independiente Xi varía en una unidad y todas las demás permanecen

Page 9: Curso de Estadística con R Té - Instituto Cántabro de ...

8

constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadísticas muy interesantes ya que, si se verifican los supuestos antes comentados, son insesgados, eficientes y óptimos.

1.4. PROPIEDADES ESTADÍSTICAS DEL ESTIMADOR MÍNIMO CUADRADO: TEOREMA DE GAUSS-MARKOV

El estimador YXXX ')'(ˆ 1 puede escribirse como:

eXXXeXXXX ')'()(')'(ˆ 11 Si se cumplen las hipótesis de comportamiento sobre el término error, la distribución de

probabilidad del estimador MCO será uno distribución Normal multivariante con vector de

medias y matriz de varianzas y covarianzas 12 )'( XX .

La esperanza matemática del estimador MCO se demuestra a partir de:

)(')'(')'()ˆ( 11 eEXXXeXXXEE . De la definición de matriz de varianzas y covarianzas, se tiene que:

')ˆ(ˆ)ˆ(ˆ)ˆvar( EEE

Teniendo presente que

eXXXeXXXE ')'(')'()ˆ(ˆ 11 Entonces

121111 )'()'('')'()'('')'()ˆvar( XXXXXeeEXXXXXXeeXXXE

El estimador j del parámetro j es insesgado porque su esperanza matemática coincide con el

verdadero valor del parámetro jjE )ˆ( .

Se dice que un estimador insesgado j es mas eficiente que otro estimador insesgado j~ , si la

varianza muestral de j es menor que la varianza muestral de j~ . El teorema de Gauss-

Markov demuestra que el estimador MCO j es el más eficiente de la clase de estimadores

lineales e insesgados de j .

Según el Teorema de Gauss-Markov, cualquier estimador lineal de puede expresarse como:

DeeXXXDXeXDXXXYDXXX ')'(')'(')'( 111 donde D es una matriz (k×n) arbitraria, que establece la diferencia entre el estimador MCO y el estimador alternativo.

Page 10: Curso de Estadística con R Té - Instituto Cántabro de ...

9

La esperanza de dicho estimador es:

DXE ~

Si ~ es insesgado, entonces 0DX . En otras palabras el estimador alternativo sólo será insesgado si la matriz de distancia es ortogonal a las variables explicativas. A continuación obtenemos la matriz de covarianzas de este estimador

')~

(~

)~

(~

)~

var( EEE Teniendo presente que:

eDXXXDeeXXXDXE ')'(')'()~

(~ 11

entonces,

DDXXXXXDeeEDXXX ')'()'(''')'()~

var( 1211

y como DD' es una matriz semidefinida positiva, se demuestra que la )ˆvar()~

var( con

independencia de la normalidad o no de las distribución ~ .

1.5. COEFICIENTES DE DETERMINACIÓN Una vez estimada la ecuación de regresión lineal tiene interés determinar la exactitud del ajuste realizado. Para ello hay que analizar la variación que experimenta esta variable dependiente y, dentro de esta variación, se estudia qué parte está siendo explicada por el modelo de regresión y qué parte es debida a los errores o residuos. La forma de realizar dicho análisis es a partir de la siguiente expresión:

SCRSCESCT donde:

SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la variable dependiente.

SCE es la Suma de Cuadrados Explicados por el modelo de regresión. SCR es la Suma de Cuadrados de los Errores

Cuando el modelo tiene término independiente, cada una de estas sumas viene dada por:

2 2 2

1

'n

ii

SCT Y Y nY Y nY

2 2 2

1

ˆ ˆ ˆ' 'n

ii

SCE X Y nY Y nY

Page 11: Curso de Estadística con R Té - Instituto Cántabro de ...

10

2 2 2

1 1 1

ˆ ˆ' ' 'n n n

i i ii i i

SCR e Y Y X Y Y Y SCT SCE

A partir de las expresiones anteriores es posible obtener una medida estadística acerca de la bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinación (R2), que se define como:

SCT

SCRR 12

, 10 2 R

y en el caso particular de modelo con término independiente como:

SCT

SCER 2

, 10 2 R

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el mismo número de variables exógenas, ya que la capacidad explicativa de un modelo es mayor cuanto más elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque podría parecer que estamos ante el modelo “perfecto”, en realidad podría encubrir ciertos problemas de índole estadística como la multicolinealidad que veremos en el capítulo 3. Por otra parte, el valor del coeficiente de determinación aumenta con el número de variables exógenas del modelo por lo que, si los modelos que se comparan tienen distinto número de variables exógenas, no puede establecerse comparación entre sus R2. En este caso debe

emplearse el coeficiente de determinación corregido 2R , el cual depura el incremento que experimenta el coeficiente de determinación cuando el número de variables exógenas es mayor. La expresión analítica de la versión corregida es:

22 11

11

1 Rkn

n

nSCT

knSCRR

cuyo valor también oscila entre 0 y 1

1.6. TABLA DE ANALIS DE LA VARIANZA (ANOVA)

La hipótesis de no significación global 0...: 210 kH se rechaza al nivel de

significación α construyendo el estadístico experimental:

knSCR

kSCE

F

1exp

y la regla de decisión que rechaza la hipótesis 0H ocurre cuando )..,1(exp knkFF

El contraste en la práctica se realiza elaborando una tabla ANOVA, que requiere: 1. estimar el modelo de regresión con todas las variables de interés

Page 12: Curso de Estadística con R Té - Instituto Cántabro de ...

11

ikikiioi eXXXY ...2211 , i=1,2,…, n

que nos proporciona la suma de cuadrados de los residuos SCRee ˆ'ˆ ; 2. estimar el modelo de regresión bajo 0...: 210 kH

rioi uY , i = 1, . . . ,n,

que nos proporciona la suma de cuadrados de los residuos, SCTYYuun

i irr

1)(ˆ'ˆ ;

El contraste de significación global se resume en el cuadro siguiente, en donde la variación total de la variable dependiente (SCT) se descompone en la explicada por la regresión (SCE) y en la no explicada (SCR). Los grados de libertad de estas tres sumas de cuadrados son 1n , 1k y

kn , respectivamente. A partir de esta información muestral, podemos calcular el numerador y denominador del estadístico F.

Fuente de variación

Suma de cuadrados Grados de

libertad Cuadrado

medio Estadístico F

Regresión SCE=

2

1)ˆ(

n

i i YY k-1

1kSCE

knSCR

kSCE

1

Residual SCR=2

1)ˆ(

n

i ii YY n-k

knSCR

Total SCT=2

1)(

n

i i YY n-1

1.7. INFERENCIA ACERCA DE LOS ESTIMADORES Hasta el momento hemos visto como la estimación por MCO permite obtener estimaciones puntuales de los parámetros del modelo. La inferencia acerca de los mismos permite completar dicha estimación puntual, mediante la estimación por intervalos y los contrastes de hipótesis. Los primeros posibilitan la obtención de un intervalo dentro del cual, con un determinado nivel de confianza, oscilará el verdadero valor de un parámetro, mientras que los segundos nos permitirán extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parámetros.

La inferencia estadística consiste en la estimación de los parámetros poblacionales a partir de la información extraída de una muestra de dicha población. El número de estimaciones que podemos realizar de una población, a través de la extracción de diferentes muestras de un mismo tamaño, es generalmente muy grande porque cada una de las muestras posibles que se pueden sacar de la población arrojaría una estimación. Por esta razón, a la estimación que obtenemos en una investigación por muestreo la acompañamos con un intervalo de valores posibles. La amplitud de dicho intervalo dependerá del grado de confianza que establezcamos. El grado o nivel de confianza nos expresa el número de veces que la media verdadera de la población está incluida en cien intervalos de cien muestras extraídas de una población dada. El

Page 13: Curso de Estadística con R Té - Instituto Cántabro de ...

12

nivel de confianza más utilizado es el 95%, lo que quiere decir que 95 de cada 100 intervalos construidos contendrán el verdadero valor de la media. El intervalo de confianza para la media de una población normalmente distribuida se construye en

base a la probabilidad de que dicha media esté comprendida entre dos valores aX y bX equidistantes

a ella:

[ ] 1a bXP X X siendo 1- el nivel o grado de confianza asociado a dicho intervalo. En términos generales, los intervalos de confianza para los estadísticos muestrales se expresan como: Estimador ± (Factor de Fiabilidad)*(Error Típico del Estimador)

1.7.1. Intervalos de Confianza Presentamos a continuación cómo se construyen los intervalos de confianza para los distintos términos que hayamos estimado en el modelo:

a) Intervalo de confianza para el parámetro i

Para construir los intervalos de confianza de las estimaciones i , se parte de que la estimación MCO proporciona el valor medio de los posibles valores que pudiera tener dicho parámetro, y que la distribución de dichos valores sigue una distribución derivada de la Normal que se conoce como t de Student. Dicha distribución es simétrica presentando mayor dispersión que la curva Normal estándar para un tamaño muestral n pequeño. A medida que n aumenta (n > 100) es prácticamente igual que la distribución Normal.

El cálculo del intervalo de confianza para i se realiza mediante la siguiente expresión:

ˆ: ( )i i

i n kIC S t

donde iS es la desviación típica estimada para el coeficiente i , que se obtiene de la matriz de

varianzas y covarianzas de los estimadores expresada como:

1 1 2 1

2 1 2 2

1 2

2

2 2

ˆ ˆ

2

...

...

... ... ... ...

...

K

K

K K K

cuyos estimadores serán:

2ˆˆˆˆˆ

2ˆˆ

2ˆˆˆ

ˆˆˆˆ2ˆ

ˆˆ

...

............

...

...

21

2212

1211

KKK

K

K

SSS

SSS

SSS

S

Page 14: Curso de Estadística con R Té - Instituto Cántabro de ...

13

obtenidos a partir de la expresión 12ˆˆ ' XXSS e , donde 2

eS es la estimación de la varianza

del término de error. b) Intervalo de confianza para la varianza del término de error La expresión del intervalo de confianza para la varianza del término de error es:

2

22

21

221

2

;)(

;)(

:2222

SCRSCRknSknSIC ee

e

donde representa el nivel de significación del contraste y generalmente se utiliza un 5% de significación, que corresponde a un intervalo de confianza del 95 %. En este caso se asume que la Suma de Cuadrados de los Errores se distribuyen según una

distribución también derivada de la Normal que se conoce como 2 de Pearson. La distribución

2 de Pearson es asimétrica. Su propiedad fundamental es que si sumamos dos 2 independientes de grados de libertad 1n y 2n , se obtiene una nueva variable 2 con grados de

libertad igual a la suma de 1n y 2n . Los grados de libertad que hay que considerar en el cálculo de los intervalos de confianza del término error son de n-k.

1.7.2. Contrastes de Hipótesis Una buena parte de las investigaciones estadísticas están orientadas al desarrollo de procesos encaminados a la contrastación de hipótesis que previamente se han establecido. Una hipótesis es una afirmación que está sujeta a verificación o comprobación. Hay que tener presente que una hipótesis no es un hecho establecido o firme, las hipótesis están basadas en la experiencia, en la observación, en la experimentación o en la intuición del sujeto que las formula. Cuando las hipótesis se plantean de tal modo que se pueden comprobar por medio de métodos estadísticos reciben el nombre de hipótesis estadísticas. Estas hipótesis son afirmaciones que se efectúan sobre uno o más parámetros de una o más poblaciones. Las hipótesis estadísticas son de dos tipos: hipótesis nula e hipótesis alternativa. La hipótesis nula, o que no se verifique dicha afirmación, simbolizada por H0, es la hipótesis que se debe comprobar. Para contrastar una hipótesis nula examinamos los datos de la muestra tomados de la población y determinamos si son o no compatibles con dicha hipótesis. Si son compatibles entonces H0 se acepta, en caso contrario se rechaza. Si se acepta la hipótesis nula afirmamos que los datos de esa muestra en concreto no dan suficiente evidencia para que concluyamos que la hipótesis nula sea falsa; si se rechaza decimos que los datos particulares de la muestra ponen de manifiesto que la hipótesis nula es falsa, entonces la hipótesis alternativa. H1, es verdadera. El criterio que permite decidir si rechazamos o no la hipótesis nula es siempre el mismo. Definimos un estadístico de prueba, y unos límites que dividen el espacio muestral en una región en donde se rechaza la hipótesis establecida, y otra región en la que no se rechaza, llamada región de aceptación. A la región donde se rechaza la hipótesis nula se le llama región crítica. Esta región es un subconjunto del espacio muestral, y si el valor del estadístico de prueba pertenece a él se rechaza la hipótesis nula.

Page 15: Curso de Estadística con R Té - Instituto Cántabro de ...

14

El límite entre la región crítica y la región de aceptación viene determinado por la información previa relativa a la distribución del estadístico de prueba. Señalar que un estadístico de prueba es una fórmula que nos dice como confrontar la hipótesis nula con la información de la muestra y es, por tanto, una variable aleatoria cuyo valor cambia de muestra a muestra. Otra de las consideraciones a realizar en el contraste de hipótesis es fijar la probabilidad del error de rechazar la prueba siendo cierta, a este error se le denomina nivel de significación. Por ejemplo, si se utiliza un nivel de significación de 0.05, equivale a decir que si para realizar un contraste tomáramos infinitas muestras de la población, rechazaríamos la hipótesis nula de forma incorrecta un 5 % de las veces. En la formalización del procedimiento de contrastación podemos distinguir siete pasos principales:

1.- Planteamiento de las hipótesis. 2.- Selección del nivel de significación. 3.- Descripción de la población y tamaño de la muestra. 4.- Selección del estadístico de prueba y su distribución. 5.- Especificación de las regiones de aceptación y de rechazo. 6.- Recolección de datos y cálculo del estadístico. 7.- Decisión estadística.

Los contrastes de hipótesis que normalmente se realizan en la estimación MCO son los siguientes: a) Contraste individual sobre un parámetro

Formulación de la hipótesis: *

0 : jjH *

1 : jjH

Estadístico experimental: j

St jj

ˆ

*

exp

ˆ

Estadístico teórico: )2/(kntco tt

Regla de decisión: Si tcott exp se rechaza la hipótesis H0 b) Contraste de significación individual

Formulación de la hipótesis: 0:0 jH

0:1 jH

Estadístico experimental: j

St j

ˆexp

ˆ

Estadístico teórico: )2/(kntco tt

Regla de decisión: Si tcott exp se rechaza la hipótesis H0

Page 16: Curso de Estadística con R Té - Instituto Cántabro de ...

15

c) Contraste de significación global

Formulación de la hipótesis: 0...: 210 kH

Estadístico experimental: kn

Rk

R

knSCR

kSCE

F

2

2

exp1

11

Estadístico teórico: , ,1 knkFFtco

Regla de decisión: Si tcoFF exp se rechaza la hipótesis H0

1.8. PREDICCIÓN EN EL MODELO DE REGRESIÓN Una vez estimado y validado el modelo, una de sus aplicaciones más importantes consiste en poder realizar predicciones acerca del valor que tomaría la variable endógena en el futuro o para una unidad extramuestral. Esta predicción se puede realizar tanto para un valor individual como para un valor medio, o esperado, de la variable endógena, siendo posible efectuar una predicción puntual o por intervalos. Su cálculo se realiza mediante las expresiones que figuran a continuación:

a) Predicción individual: se trata de hallar el valor estimado para la variable Y un periodo hacia delante. En este caso basta con sustituir el valor de las variables exógenas en el modelo en el siguiente periodo y calcular el nuevo valor de Y.

b) Intervalo de predicción. Para hallar un intervalo de predicción debe utilizarse la

siguiente expresión:

1

1'111

1'11 '1Y ; '1ˆ: tteknttteknt XXXXStXXXXStYIC

c) Intervalos de predicción para un valor medio o esperado, jY , La expresión a utilizar en

este caso será:

jjeknjjjeknjYE XXXXStXXXXStYICj

1'1' 'Y; 'ˆ:

1.9. ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON R

R es un entorno especialmente diseñado para el tratamiento de datos, cálculo y desarrollo gráfico. Permite trabajar con facilidad con vectores y matrices y ofrece diversas herramientas para el análisis de datos.

R es una implementación open-source del lenguaje S (Bell Labs -principios de los 90), que también es la base del sistema S-Plus (entorno comercial). R y S-Plus aún comparten una gran mayoría de código e instrucciones, si bien R es software libre, gratuito en donde los usuarios

Page 17: Curso de Estadística con R Té - Instituto Cántabro de ...

16

disponen de libertad para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. De hecho R dispone de una comunidad de desarrolladores/usuarios detrás que se dedican constantemente a la mejora y a la ampliación de las funcionalidades y capacidades del programa. En la web http://www.r-project.org/ se encuentra disponible toda la información acerca de R. La instalación de R se realiza a través de la CRAN (ComprehensiveR Archive Network): http://cran.r-project.org

Actualmente R se distribuye para los siguientes Sistemas Operativos:

•Windows: entorno gráfico.

•Linux (Debian/Mandrake/SuSe/RedHat/VineLinux)

•MacOSX

•Código fuente: ampliación a sistemas Unix

Las funciones de R se agrupan en paquetes (packages, libraries), los que contienen las funciones más habituales se incluyen por defecto en la distribución de R, y el resto se encuentran disponibles en la Comprehensive R Archive Network (CRAN).

Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser:

•Escalares: números, caracteres, lógicos (booleanos), factores

•Vectores/matrices/listas de escalares

•Funciones

•Objetos ad-hoc

Dichos objetos se guardan en un workspace. Durante una sesión de R todos los objetos estarán en memoria, y se pueden guardar en disco para próximas sesiones.

Page 18: Curso de Estadística con R Té - Instituto Cántabro de ...

17

R trabaja sobre estructuras de datos. La estructura más simple es un vector numérico, que consiste en un conjunto ordenado de números.

Un vector de reales se crea mediante la función c y se guarda con el nombre “Cantidad”.

> Cantidad <- c(2.456,2.325,2.250,2.200,2.100,2.082,2.045,2.024)

Se crea ahora el vector de nombre “Precio”.

> Precio <- c(82,92,94,99,106,108,112,115)

Para obtener los estadísticos básicos del vector (Cantidad): media, desviación estandar, varianza y mediana, se utilizan las siguientes funciones R: > mean(Cantidad)

> sd(Cantidad)

> var(Cantidad)

> median(Cantidad)

Si se quiere tener un resumen sumario de estadístico de una variable:

> summary(Cantidad)

En R los valores "desconocidos" o "no disponibles" (missings) se simbolizan con el valor especial NA (NotAvailable). Cualquier operación que incluya un NA en general devolverá NA como resultado.La función is.na nos permite saber si un elemento es missingo no.

Otros tipos de objectosen R.

•Arrays y matrices (matrix): generación multidimensional de los vectores. Todos los elementos de la matriz han de ser del mismo tipo.

Page 19: Curso de Estadística con R Té - Instituto Cántabro de ...

18

•Factores (factor): útiles para el uso de datos categóricos.

•Listas (list): generalización de los vectores donde los elementos pueden ser de diferentes tipos (incluso vectores o nuevas listas).

•Data frames: matrices donde las diferentes columnas pueden tener valores de diferentes tipos.

•Funciones (function): conjunto de código de R ejecutable y parametrizable.

Una tabla debe estar en un objecto tipo matriz. Ejemplo:

Tabla<-matrix(c(652,1537,598,242,36,46,38,21,218,327,106,67),nrow=3,byrow=T)

La función read.table permite leer datos desde ficheros en formato ASCII. Devuelve como resultado un data.frame, por tanto, se supone que cada línea contiene los datos para un individuo.

El fichero EXCEL personas.xls tiene el siguiente aspecto:

Guardamos el fichero EXCEL como un fichero ASCII delimitado por tabulaciones > manzanas <- read.table(file="manzanas.txt",header=T) Tecleamos > manzanas

Page 20: Curso de Estadística con R Té - Instituto Cántabro de ...

19

La función de R que nos permite estimar un modelo de regresión lineal es la función lm. La forma de invocar a la función para estimar un modelo de regresión lineal simple es lm(y~x). Se puede consultar la ayuda de la función para ver todas las posibilidades que ofrece. En nuestro ejemplo, obtenemos: > lm(Cantidad~Precio) Call: lm(formula = Cantidad ~ Precio) Coefficients: (Intercept) Precio 3.53427 -0.01336

En lugar de invocar simplemente la función podemos guardar su resultado en una variable y veremos así que obtenemos más información.

> reg = lm(Cantidad~Precio)

Si queremos obtener el vector de residuos bastará solicitar:

> reg$residuals

Para realizar el análisis del modelo estimado utilizaremos la función summary. Así:

> summary(reg)

Page 21: Curso de Estadística con R Té - Instituto Cántabro de ...

20

1.10. LA CONSOLA R STUDIO

RStudio es una interfaz que permite acceder de manera sencilla a toda la potencia de R. Para utilizar RStudio se requiere haber instalado R previamente. Al igual que R-project, RStudio es software libre.

El objetivo de los creadores de RStudio es desarrollar una herramienta potente que soporte los procedimientos y las técnicas requeridas para realizar análisis de calidad y dignos de confianza. Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos usuarios

La instalación de RStudio se puede realizar desde la página oficial del programa http://www.rstudio.org.

Page 22: Curso de Estadística con R Té - Instituto Cántabro de ...

21

Para familiarizarnos con la consola R-Studio, vamos a cargar los datos de la encuesta de presupuestos familiares de España que se distribuyen a través de la siguiente dirección web: http://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176806&menu=resultados&secc=1254736195147&idp=1254735976608, para ello nos vamos a auxiliar del lenguaje Markdown. Markdown es un lenguaje de marcado ligero creado por John Gruber que trata de conseguir la máxima legibilidad y facilidad de publicación tanto en su forma de entrada como de salida, inspirándose en muchas convenciones existentes para marcar mensajes de correo electrónico usando texto plano. En Anexo I aparecen las instrucciones básicas de Markdown.

Page 23: Curso de Estadística con R Té - Instituto Cántabro de ...

22

En el menú file seleccionamos R Markdown, y creamos un documento al que llamamos “Curso de estadística en R”.

Instalamos la librería o Package-R: “MicroDatosEs” que incluye las funciones para leer el fichero de microdatos de la Encuesta de Presupuestos Familiares. Base 2006 (EPF), cuyos microdatos se descargan en la siguiente dirección web: http://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176806&menu=resultados&secc=1254736195147&idp=1254735976608 Completamos el “Chunk” con las siguientes sentecias: ```{r}

library(MicroDatosEs)

setwd("D:/Curso de estadistica con R")

ecpf2014 <- epf.2011.hogares("Fichero de usuario de hogar a2014.txt")

str(ecpf2014)

```

Ejecutamos el Chunk:

Page 24: Curso de Estadística con R Té - Instituto Cántabro de ...

23

Para realizar una estimación MCO del gasto de los hogares a partir de los ingresos, hay que utilizar las siguientes variables: GASTMON: Importe total del gasto monetario anual del hogar elevado temporal y poblacionalmente (para el salario en especie se contabiliza sólo el importe del pago realizado por el hogar). IMPEXAC: Importe exacto de los ingresos mensuales netos totales del hogar. Definimos el gasto por hogar y estimamos una regresión lineal entre gastos e ingresos en un nuevo “Chunk” que ejecutamos: ```{r, echo=FALSE}

ecpf2014$GAST=ecpf2014$gastot/(12*ecpf2014$factor/10000)

est1 <- lm(ecpf2014$GAST~ecpf2014$impexac)

summary(est1)

```

##  ##  Call: ##  lm(formula  =  ecpf2014$GAST  ~  ecpf2014$impexac) ##  ##  Residuals: ##          Min            1Q    Median            3Q          Max  ##  ‐9737.1    ‐623.1    ‐198.5      426.2  14583.7  ##  ##  Coefficients: ##                                      Estimate  Std.  Error  t  value  Pr(>|t|)     

Page 25: Curso de Estadística con R Té - Instituto Cántabro de ...

24

##  (Intercept)            1.000e+03    1.290e+01      77.52      <2e‐16  *** ##  ecpf2014$impexac  7.130e‐01    5.613e‐03    127.02      <2e‐16  *** ##  ‐‐‐ ##  Signif.  codes:    0  '***'  0.001  '**'  0.01  '*'  0.05  '.'  0.1  '  '  1 ##  ##  Residual  standard  error:  1062  on  22144  degrees  of  freedom ##  Multiple  R‐squared:    0.4215,  Adjusted  R‐squared:    0.4215  ## F‐statistic: 1.613e+04 on 1 and 22144 DF,  p‐value: < 2.2e‐16 

La librería-R:”gvlma”, junto a la presentación de los resultados de la regresión incluye un test sobre los supuestos básicos del modelos de mínimos cuadrados ordinarios, se ejecuta con el siguiente Chunk: ```{r, echo=FALSE}

library(gvlma)

gvmodelo <- gvlma(est1)

summary(gvmodelo)

plot(gvmodelo)

```

## Warning: package 'gvlma' was built under R version 3.2.3 ## Call: ## lm(formula = ecpf2014$GAST ~ ecpf2014$impexac) ##  ## Residuals: ##     Min      1Q  Median      3Q     Max  ## ‐9737.1  ‐623.1  ‐198.5   426.2 14583.7  ##  ## Coefficients: ##                   Estimate Std. Error t value Pr(>|t|)     ## (Intercept)      1.000e+03  1.290e+01   77.52   <2e‐16 *** ## ecpf2014$impexac 7.130e‐01  5.613e‐03  127.02   <2e‐16 *** ## ‐‐‐ ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ##  ## Residual standard error: 1062 on 22144 degrees of freedom ## Multiple R‐squared:  0.4215, Adjusted R‐squared:  0.4215  ## F‐statistic: 1.613e+04 on 1 and 22144 DF,  p‐value: < 2.2e‐16 ##  ##  ## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS ## USING THE GLOBAL TEST ON 4 DEGREES‐OF‐FREEDOM: ## Level of Significance =  0.05  ##  ## Call: ##  gvlma(x = est1)  ##  ##                        Value p‐value                   Decision ## Global Stat        96987.028  0.0000 Assumptions NOT satisfied! ## Skewness            8351.469  0.0000 Assumptions NOT satisfied! ## Kurtosis           87869.731  0.0000 Assumptions NOT satisfied! ## Link Function        764.273  0.0000 Assumptions NOT satisfied! ## Heteroscedasticity     1.555  0.2124    Assumptions acceptable. 

Page 26: Curso de Estadística con R Té - Instituto Cántabro de ...

25

2. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL

2.1. INTRODUCCIÓN Como veíamos en el capitulo anterior, el modelo de regresión lineal requiere que se cumplan las siguientes hipótesis sobre los términos de error: Media cero: E(ei) = 0 i=1,…,n Varianza constante: Var(ei) = 2I i=1,…,n Residuos incorrelacionados: Cov(ei,ej) = 0 El incumplimiento de alguna de dichas hipótesis, implica la no aleatoriedad de los residuos y, por tanto, la existencia de alguna estructura o relación de dependencia en los residuos que puede ser estimada, debiendo ser considerada en la especificación inicial del modelo. Los principales problemas asociados al incumplimiento de las hipótesis de normalidad de los residuos son, por un lado, la heteroscedasticidad, cuando la varianza de los mismos no es constante, y la autocorrelación o existencia de relación de dependencia o correlación entre los diferentes residuos, lo que violaría el supuesto de términos de error incorrelacionados.

Si se construye una gráfica de los resultados de una estimación mínimo cuadrática (en ordenadas) frente al valor absoluto de los residuos (en abscisas), cuando éstos últimos presentan una distribución aleatoria, es decir una distribución Normal de media cero y varianza constante,

),0( 2N , el resultado obtenido (véase Fig. 2.1.) muestra que el tamaño del error es independiente del tamaño de la variable estimada, ya que errores con valor elevado se corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una distribución de residuos con problemas de heteroscedasticidad da lugar a una figura como la que puede observarse en la figura 2.2., en donde se manifiesta una clara relación de dependencia entre la variable estimada y el tamaño del error. En este caso los errores de mayor tamaño se corresponden con los valores más altos de la variable estimada.

R e s id u o s a lea to rio s d e m e d ia ce ro y v a ria n z a c o n s ta n te

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800

R e sid u o s va lo r a b so lu to (e )

Va

ria

ble

es

tim

ad

a

Fig. 2.1. Residuos Homocedásticos

Page 27: Curso de Estadística con R Té - Instituto Cántabro de ...

26

R esidu os co n heteroced asticidad

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000

R esiduos va lo r absoluto (e)

Va

ria

ble

es

tim

ad

a

Fig. 2.2. Residuos Heteroscedásticos La representación gráfica de los errores en forma de serie temporal, es decir, poniendo en el eje de ordenadas los errores y en abscisas el periodo temporal en que están datados, permite apreciar la ausencia o presencia de correlación ya que a los residuos no correlacionados (figura 2.3.) les corresponde una representación gráfica en la que no se aprecia pauta temporal alguna, sucediéndose de forma impredecible o aleatoria, mientras que en los residuos con problemas de autocorrelación la pauta temporal es evidente, evidenciándose que cada residuo podría ser previsto en función de la sucesión de los errores correspondientes a periodos temporales pasados (figura 2.4.)

Residuos aleatorios con media cero y varianza constante

-1000

-500

0

500

1000

1940 1950 1960 1970 1980 1990 2000 2010

Fig. 2.3. Residuos sin Autocorrelación

Page 28: Curso de Estadística con R Té - Instituto Cántabro de ...

27

Residuos con problema de autocorrelación

-1000

-500

0

500

1000

1940 1950 1960 1970 1980 1990 2000 2010

Fig. 2.4. Residuos con Autocorrelación Estos problemas asociados a los errores pueden detectarse con tests estadísticos diseñados para ello. A continuación se describen dichos tests y la forma en que debe procederse para estimar modelos en donde la estimación mínimo-cuadrática presenta problemas de este tipo asociados a los residuos.

2.2. HETEROSCEDASTICIDAD Decimos que el término de error de una estimación mínimo-cuadrática presenta heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones que integran la muestra, lo que implica que la variabilidad de los errores mínimo-cuadráticos obtenidos están relacionados de alguna manera con los datos utilizados en el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por presentar alguna relación de dependencia con alguna de las variables exógenas utilizadas. Las consecuencias para la estimación mínimo-cuadrática son que los estimadores de los coeficientes seguirán siendo insesgados y lineales pero ya no serán de mínima varianza o eficientes. Estos problemas se resuelven utilizando una técnica de estimación lineal que recibe el nombre de Mínimos Cuadrados Generalizados (MCG), método que se estudiará más adelante.

La detección de la heteroscedasticidad se realiza a través de diversos contrastes paramétricos, entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de Goldfeld-Quandt (1965) y el contraste de White (1980), los cuales describimos a continuación.

2.2.1. Test de Bartlett El test de Bartlett se basa en de que la suposición de que las n observaciones de los datos de la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable explicativa, de tal manera que n1 sería el número de observaciones correspondientes al primer grupo, n2 el número de observaciones asociadas al segundo grupo y, en general, nG es el número de observaciones asociadas al grupo g-ésimo. A cada grupo le corresponde un valor medio de la variable dependiente y una varianza para este valor medio. El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido para la variable dependiente, admitiéndose la hipótesis de existencia de heteroscedasticidad si la varianza es significativamente diferente entre los grupos formados.

Page 29: Curso de Estadística con R Té - Instituto Cántabro de ...

28

Los pasos a seguir en la práctica para realizar el test de Bartlett son los siguientes:

1. Se estima la varianza (2gs ) de cada grupo de observaciones, g=1, 2, ..., G mediante la

siguiente expresión:

g

n

ggi

g n

yy

s

g

1

2

2

)(

2. Se calcula el estadístico S:

G

g g

G

gggg

G

g

g

nnG

snsn

nn

S

1

1

22

1

11)1(3

11

loglog

Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (χ2) con G–1 grados de libertad. Por lo tanto, se rechazará la hipótesis de igual varianza en todos los grupos si S es mayor que el valor crítico de la distribución chi-cuadrado al nivel de significación estadística fijado.

2.2.2. Contraste de Goldfeld-Quant El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una relación monótona –creciente o decreciente– respecto a alguna variable exógena (que denominaremos variable z). La operativa de este test es la siguiente:

1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en

función de la variable z. 2. Eliminar c observaciones centrales de la ordenación anterior, de tal forma que queden

dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de tal forma que (n-c)/2 sea sustancialmente mayor que el número de parámetros del modelo.

3. Estimar dos veces el modelo original mediante Mínimos Cuadrados Ordinarios,

utilizando en cada estimación cada una de las submuestras.

4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas submuestras (de manera que el subíndice 1 corresponda a la submuestra con la menor suma) se define el estadístico F:

2

1

SCR

SCRF

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad entonces, con la ordenación de la muestra, la varianza del término de error será mayor hacia el final de la muestra que al principio de la misma. Como el cuadrado de los

Page 30: Curso de Estadística con R Té - Instituto Cántabro de ...

29

residuos está asociado con la varianza de los mismos, entonces SR2 debería ser sensiblemente mayor que SR1. Por ello, se rechazara la hipótesis nula de homocedasticidad siempre que el valor del estadístico F excede el valor en tablas de la distribución F(n-c-2k)/2, (n-c-2k)/2, aceptándose la existencia de heteroscedasticidad en caso contrario.

2.2.3. Contraste de White El contraste de White se desarrolló también para evitar la necesidad de considerar una forma específica para la heteroscedasticidad. El contraste se basa en que, bajo la hipótesis nula de homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de es:

12 ' XX Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada por:

),...,,(,)'(')'( 222

21

11ndiagXXXXXX

Por tanto, si tomamos la diferencia entre ambas queda:

1211 )'()'(')'( XXXXXXXX Por ello, basta con contrastar la hipótesis nula de que todas estas diferencias son iguales a cero, lo que equivale a contrastar que no hay heteroscedasticidad. Los pasos a seguir para realizar el contraste de White son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados 2. Realizar una regresión del cuadrado de la serie de residuos obtenidos en el paso anterior

sobre una constante, las variables exógenas del modelo original, sus cuadrados y los productos cruzados de segundo orden (los productos resultantes de multiplicar cada variable exógena por cada una de las restantes). Es decir, se trata de estimar por MCO la relación:

tkkkkkkkkkkkt XXXXXXXXXXXXXXe 12322121122

11112 ...............ˆ

3. Al aumentar el tamaño muestral, el producto nR2 (donde n es el número de

observaciones y R2 es el coeficiente de determinación de la última regresión) sigue una distribución Chi-cuadrado con p – 1 grados de libertad, donde p es el número de variables exógenas utilizadas en la segunda regresión. Se aceptará la hipótesis de existencia de heteroscedasticidad cuando el valor del estadístico supere el valor crítico de la distribución Chi-cuadrado (c) al nivel de significación estadística fijado

( cnR 2 ). Ejemplo 2.1. Para realizar en R el constraste de heterocedasticidad de White en el modelo estimado para el gasto de los hogares en España (apartado 1.10), primero hay que instalar en Package-R: “tseries”:

Page 31: Curso de Estadística con R Té - Instituto Cántabro de ...

30

> install.packages("tseries")

y después ejecutar el siguiente programa R: library(tseries)

y <- matrix(ecpf2014$GAST,ncol=1)

x <- matrix(ecpf2014$impexac,ncol=1)

white.test(x,y)

White Neural Network Test data: x and y X-squared = 746.56, df = 2, p-value < 2.2e-16

En este ejemplo el valor del estadístico 56,7462 nR , dado que el valor de la distribución

Chi-cuadrado teórica para el nivel de significación 05,0 da un valor crítico 103,0c habría que aceptar la hipótesis de existencia de heterocedasticidad. El p-value es la probabilidad asociada al estadístico calculado, al ser de 2.2e-16 y por tanto menor que 0,05, situaría al estadístico en la zona de aceptación de la hipótesis 0H .

2.3. AUTOCORRELACIÓN Decimos que existe autocorrelación cuando el término de error de un modelo econométrico está correlacionado consigo mismo a través del tiempo tal que 0),( ji eeE . Ello no significa

que la correlación entre los errores se dé en todos los periodos sino que puede darse tan sólo entre algunos de ellos. En presencia de autocorrelación, los estimadores MCO siguen siendo insesgados pero no poseen mínima varianza, debiéndose utilizar en su lugar el método de estimación de los Mínimos Cuadrados Generalizados (MCG). La existencia de autocorrelación en los residuos es fácilmente identificable obteniendo las funciones de autocorrelación (acf) y autocorrelación parcial (acp) de los errores mínimo-cuadráticos obtenidos en la estimación. Si dichas funciones corresponden a un ruido blanco, se constatará la ausencia de correlación entre los residuos. Sin embargo, el mero examen visual de las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la práctica econométrica se utilizan diversos contrastes para la autocorrelación, siendo el más utilizado el de Durbin-Watson (1950), que pasamos a ver seguidamente. 2.3.1. Contraste de Durbin-Watson Si se sospecha que el término de error del modelo econométrico tiene una estructura como la siguiente:

ttt uee 1ˆ·ˆ entonces el contraste de Durbin-Watson permite contrastar la hipótesis nula de ausencia de autocorrelación. Dicho contraste se basa en el cálculo del estadístico d, utilizando para ello los errores mínimo-cuadráticos resultantes de la estimación:

Page 32: Curso de Estadística con R Té - Instituto Cántabro de ...

31

n

tt

n

ttt

e

eed

1

2

2

21

ˆ

)ˆˆ(

El valor del estadístico d oscila entre 0 y 4, siendo los valores cercanos a 2 los indicativos de ausencia de autocorrelación de primer orden. La interpretación exacta del test resulta compleja, ya que los valores críticos apropiados para contrastar la hipótesis nula de no autocorrelación requieren del conocimiento de la distribución de probabilidad bajo el supuesto de cumplimiento de dicha hipótesis nula, y dicha distribución depende a su vez de los valores de las variables explicativas, por lo que habría que calcularla en cada aplicación. Para facilitar la interpretación del test Durbin y Watson derivaron dos distribuciones: dU y dD, que no dependen de las variables explicativas y entre las cuales se encuentra la verdadera distribución de d, de forma que a partir de un determinado nivel de significación, se adopta la siguiente regla de decisión:

1. Si d dD rechazamos la hipótesis nula de no autocorrelación frente a la hipótesis alternativa de autocorrelación positiva.

2. Si d 4 – dD rechazamos la hipótesis nula de no autocorrelación frente a la hipótesis

alternativa de autocorrelación negativa. 3. Si dU d 4- dU aceptamos la hipótesis nula de no autocorrelación.

El estadístico d de Durbin-Watson es aproximadamente igual a 1ˆ12 en donde 1 es el coeficiente de autocorrelación simple muestral del retardo 1.

1

1

2

11

1

2

2

21

ˆ12ˆ

ˆˆ

22ˆ

)ˆˆ(

n

tt

n

ttt

n

tt

n

tti

e

ee

e

eed

Ejemplo 2.2. En el siguiente ejercicio planteamos una regresión lineal entre el consumo de energía eléctrica en España y el PIB a precios de mercado valorado en moneda constante (millones de euros). En R, el test de Durbin-Watson se encuentra en el Package-R: “lmtest”, y su sintaxis es: > dwtest(formula) Realizar el ejercicio anterior requiere del siguiente programa R: > install.package(“bgtest”)

> library(bgtest)

> datos <- read.table(file="libro1.txt",header=T)

> datos

Años CEnEl PIB 1 1987 9427 355312 2 1988 9876 373412 3 1989 10410 391443 4 1990 10974 406252

Page 33: Curso de Estadística con R Té - Instituto Cántabro de ...

32

5 1991 11372 416582 6 1992 11488 420462 7 1993 11569 416126 8 1994 11999 426041 9 1995 12462 437787 10 1996 12827 448457 11 1997 13331 466513 12 1998 14290 486785 13 1999 15364 507346 14 2000 16309 528714 15 2001 17282 543746 16 2002 17756 554852 > dwtest(datos$PIB ~ datos$CEnEl)

Durbin-Watson test data: datos$PIB ~ datos$CEnEl DW = 0.628, p-value = 0.0001192 alternative hypothesis: true autocorrelation is greater than 0

2.3.2. Contraste de Breush-Godfrey El test de correlación serial de Breusch–Godfrey es un test de autocorrelación en los errores y residuos estadísticos en un modelo de regresión. Hace uso de los errores generados en el modelo de regresión y un test de hipótesis derivado de éste. La hipótesis nula es que no exista correlación serial de cualquier orden de . El test es más general que el de Durbin–Watson, que solo es válido para regresores no-estocásticos y para testear la posibilidad de un modelo autoregresivo de primer orden para los errrores de regresión. El test Breusch–Godfrey no tiene estas restricciones, y es estadísticamente más poderoso que el estadístico d . Los pasos para realizar el contraste son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados 2. Estimar la ecuación de regresión auxiliar:

tptptkkt eeXXe ˆ...ˆ...ˆ 1111

3. Al aumentar el tamaño muestral, el producto 2Rpn (donde n es el número de observaciones, p , el número de retardos del error utilizados en la regresión auxiliar y R2 es el coeficiente de determinación de dicha regresión) sigue una distribución Chi-cuadrado con p grados de libertad, donde p es el número de variables exógenas utilizadas en la segunda regresión. Se aceptará la hipótesis de existencia de autocorrelación cuando el valor del estadístico supere el valor crítico de la distribución Chi-cuadrado (c) al nivel de significación estadística

fijado cRpn 2 ). Ejemplo 2.3. El test de Breusch–Godfrey tambien se realiza con la librería-R: “lmtest”, y se programa para

3p del siguiente modo: > install.package(“bgtest”)

> library(gbtest)

> bgtest(datos$PIB ~ datos$CEnEl,order=3)

Page 34: Curso de Estadística con R Té - Instituto Cántabro de ...

33

Breusch-Godfrey test for serial correlation of order up to 3 data: datos$PIB ~ datos$CEnEl LM test = 5.3733, df = 3, p-value = 0.1464

En este ejemplo el valor del estadístico 37,52 Rpn , dado que el valor de la distribución

Chi-cuadrado teórica para el nivel de significación 05,0 da un valor crítico 81,7c habría que rechazar la hipótesis de existencia de autocorrelación. El p-value es la probabilidad asociada al estadístico calculado, al ser de 0,1454 y por tanto mayor que 0,05, situaría al estadístico en la zona de aceptación de la 0H , la que constituyen los valores del estadístico

inferiores al valor crítico.

2.3. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD El fenómeno de la multicolinealidad aparece cuando las variables exógenas de un modelo econométrico están correlacionadas entre sí, lo que tiene consecuencias negativas para la estimación por MCO, ya que la existencia de una relación lineal entre las variables exógenas, implica que la matriz )'( XX va a tener determinante cero, es decir será una matriz singular y

por tanto no será invertible. Dado que YXXX ')'(ˆ 1 , no será posible calcular la estimación mínimo cuadrática de los parámetros del modelo ni, lógicamente, la varianza de los mismos. Esto es lo que se conoce por el nombre de multicolinealidad exacta. Consideremos por ejemplo la relación lineal:

iiii uXXY 22110 Supongamos que las variables independientes presentan relación lineal exacta:

ii cXX 12 La matriz (X’X) quedaría:

22212

212

11

21

'

XXXX

XXXX

XXn

XX

sustituyendo iX 2 por icX1 tenemos:

21

2211

21

211

11

'

XcXcXc

XcXX

XcXn

XX

Como el valor de un determinante no se altera si se resta de una fila o columna un múltiplo constante de cualquier otra fila o columna. Si multiplicamos la segunda fila de (X’X) por c y restamos el resultado de la tercera fila tenemos:

Page 35: Curso de Estadística con R Té - Instituto Cántabro de ...

34

000

21

211

11

XcXX

XcXn

A

puesto que 0' AXX , la matriz (X’X) es singular y por tanto no invertible. Sin embargo, en la práctica no nos encontraremos con un caso tan extremo como el que acabamos de exponer, sino que generalmente nos encontraremos ante lo que se conoce como multicolinealidad aproximada, siendo una de las columnas de la matriz )'( XX , aproximadamente, una combinación lineal del resto por lo que será una matriz aproximadamente singular. Al no ser el determinante de )'( XX igual a cero, existirá inversa y podrán estimarse los parámetros pero con las siguientes consecuencias:

1. Por un lado, pequeñas variaciones muestrales producidas al incorporar o sustraer un número reducido de observaciones muestrales podrían generar importantes cambios en los parámetros estimados.

2. Por otro lado, la matriz de covarianzas del estimador MCO, 12ˆˆ ' XXSS e , al

ser un múltiplo de 1)'( XX , será muy grande por ser el determinante de )'( XX muy pequeño por lo que la estimación realizada será muy poco precisa al ser la desviación típica de cada parámetro muy elevada.

Las soluciones propuestas para resolver el problema de la multicolinealidad son variadas, si bien en general resultan poco satisfactorias:

1. Una posibilidad, sugerida por Johnston (1984), consiste en excluir aquella variable exógena que puede estar muy correlacionada con el resto y posteriormente estimar el coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el modelo.

2. Otra posibilidad es la que se conoce como regresión cresta, introduciendo una

constante c en la matriz )'( XX de tal forma que el estimador de MCO quedaría como

YXcIXX k ')'(ˆ 1 , evitando así la singularidad de la matriz. Evidentemente, los

coeficientes estimados estarán sesgados pero la matriz de covarianzas de los mismos será, seguramente, menor que la que obtendríamos sin introducir la constante por lo que probablemente la menor varianza compense en parte el sesgo introducido. Otra cuestión no menos trivial es la selección del valor de c, para lo que no existe un método definido; una posibilidad, sugerida por Hoerl y Kennard (1970) es comenzar con un valor muy pequeño de c e ir aumentándolo hasta que observemos que las estimaciones comienzan a estabilizarse.

3. También se ha sugerido la posibilidad de reformular el modelo, convirtiéndolo en un

modelo de varias ecuaciones (estimación por tramos).

4. Finalmente, cuando la multicolinealidad se debe a la presencia como variables explicativas de varios retardos de una misma variable, puede especificarse una relación entre sus coeficientes para eliminar alguno de los retardos del modelo.

Page 36: Curso de Estadística con R Té - Instituto Cántabro de ...

35

2.4. ERRORES DE ESPECIFICACIÓN Los errores de especificación hacen referencia a un conjunto de errores asociados a la especificación de un modelo econométrico. En concreto cabe referirse a:

Omisión de variables relevantes Inclusión de variables innecesarias Adopción de formas funcionales equivocadas

En Economía la teoría no suele concretar la forma funcional de las relaciones que estudia. Así, por ejemplo, cuando se analiza la demanda se señala que la cantidad demandada es inversamente proporcional al precio; cuando se estudia el consumo agregado se apunta que la propensión marginal a consumir (relación entre renta y/o consumo) es mayor que cero y menor que uno. Por otro lado es frecuente utilizar la condición “ceteris paribus” para aislar la información de otras variables relevantes que influyen y/o modifican la relación estudiada. Por esta razón, la existencia de errores de especificación en la relación estimada es un factor a considerar y a resolver en el proceso de la estimación econométrica. Con independencia de la naturaleza de los errores de especificación, dado que el proceso de estimación MCO deben de cumplirse determinadas hipótesis básicas, que los estimadores MCO deben de ser insesgados, eficientes y consistentes, y que el estimador de la varianza del término de error ha de ser insesgado, debemos preguntarnos: ¿qué ocurriría con estas propiedades ante errores de especificación? Para responder a esta cuestión, partimos del modelo de regresión lineal cuya especificación general es: Yi = o+ 1 X1i +…+ ßk Xki + ei Con las propiedades habituales: Media cero : E(ei) = 0 i=1,…,n Varianza constante : Var(ei) = 2I i=1,…,n Residuos incorrelacionados : Cov(ei,ej) = 0 No existencia de relación lineal exacta entre dos o más variables independientes 2.4.1. Omisión de una variable relevante Para analizar las consecuencias de la omisión de una variable relevante, vamos a partir del siguiente modelo verdadero:

Yi = 0 + 1 X1i + 2 X2i + ei (2.1) Sin embargo, por algún motivo, se ha procedido estimar el siguiente modelo:

Yi = 0 + 1 X1i + vi (2.2) Dado que la variable excluida X2i está relacionada con la variable dependiente Yi, entonces se deduce que: vi= ß2 X2i + ei. Estimando la pendiente 2 por MCO en el modelo (2.2), se obtiene:

Page 37: Curso de Estadística con R Té - Instituto Cántabro de ...

36

211

111ˆ

XX

yXX

i

ii

siendo YYy ii , de forma que al sustituir yi por su expresión en el modelo verdadero (2.1) quedaría:

211

11222111

2

11

2

11

221111

XX

eXXXXXXXX

XX

exxXX

i

iiiii

i

iiii

Al tomar esperanzas condicionales con respecto a los valores de las variables independientes y dado que E(e| x1, x2, …, xk) = 0, se obtiene que:

211

2211211ˆ

XX

XXXXE

i

ii

lo que implica que )ˆ( 1E no será igual a 1, por lo que estará sesgado siendo su sesgo:

211

22112

XX

XXXX

i

ii

Expresión cuyo signo viene determinado por el signo del coeficiente 2 y por el sentido de la correlación entre las variables X1 y X2. Con respecto a la varianza, dado que de la estimación MCO resulta que:

2

2,1

2

11

2

11

ˆrXX

Vari

e

donde r2

1,2 es el R2 resultante de regresar X1 sobre X2. Y además:

2

11

2

XX

Vari

v

entonces )ˆ( 1Var será diferente de )ˆ( 1Var , y por lo general será mas pequeña ya que 0<r2

1,2<1; pero aún en el caso en que r21,2=0, que implicaría que X1 y X2 no están

correlacionadas, y aunque el estimador MCO de 1 no fuera insesgado (ya que el sesgo de las

variables omitidas se anularía porque el termino

211

2211

XX

XXXX

i

ii sería cero), las

varianzas serían ya de por sí diferentes debido en la estimación de la ecuación (2.1) y en la de la ecuación (3.2).

Page 38: Curso de Estadística con R Té - Instituto Cántabro de ...

37

2.4.2. Inclusión de una variable innecesaria Supóngase ahora que el modelo verdadero es:

Yi = 0 + 1 X1i + ei Pero se especifica el siguiente modelo:

Yi = o + 1 X1i + 2 X2i + vi (2.3) Los estimadores MCO de (2.3) son ahora sesgados y consistentes, ya que

00 )ˆ( E , 11)ˆ( E y 0)ˆ( 2 E ; a este respecto hay que tener presente que al ser X2 una

variable innecesaria el parámetro estimado no será significativamente distinto de cero. Pero como desde el punto de vista de las varianzas ahora resulta que:

211

2

XXVar

i

e

2

2,1

2

11

2

11

ˆrXX

Vari

v

Puesto que 0< r21,2<1, se cumpliría que )ˆ()ˆ( 11 VarVar , es decir, la varianza de la

estimación MCO de 1 sería mayor que la estimación MCO de 1. 2.4.3. Especificación funcional incorrecta Si especificamos la forma funcional de una relación (ya sea lineal, cuadrática, cúbica, exponencial, logarítmica, etc.) y la verdadera relación presenta una forma diferente a la especificada tiene, en algunos casos, las mismas consecuencias que la omisión de variables relevantes, es decir, proporciona estimadores sesgados e inconsistentes. En general, una especificación funcional incorrecta lleva a obtener perturbaciones heteroscedásticas y/o autocorrelacionadas, o alejadas de los parámetros de la distribución del término de error del modelo correctamente especificado. 2.4.4. Contraste de errores de especificación Para constatar la presencia de errores de especificación en los modelos se utiliza la prueba general de errores de especificación de Ramsey. Dicha prueba, en su versión más sencilla, se realiza mediante los siguientes pasos:

1. A partir del modelo especificado, obtenemos iY estimada, es decir iY .

2. Se efectúa una nueva regresión incluyendo iY en alguna forma, con uno o varios regresores adicionales, por ejemplo:

iiiii eYYXY 33

2210

ˆˆ

Page 39: Curso de Estadística con R Té - Instituto Cántabro de ...

38

3. Considerando el R2 obtenido en el modelo inicialmente especificado, 2AR , y el R2

obtenido en la segunda regresión, 2BR , se construye el siguiente estadístico:

2 2

21

( )

B A

B

R R

lFR

n k

El cual se distribuye según una F de Snedecor con l, n–k grados de libertad, siendo l el número de regresores nuevos incluidos en el segundo modelo y n – k el número de observaciones menos el numero de parámetros del segundo modelo.

4. Si el valor F calculado es significativo al nivel deseado, tcoFF exp se puede

aceptar la hipótesis de que el modelo está mal especificado.

2.5. MÉTODOS DE SELECCIÓN DE VARIABLES EN EL MODELO DE REGRESIÓN LINEAL

Una de las cuestiones más importantes a la hora de encontrar el modelo de ajuste más adecuado cuando se dispone de un amplio conjunto de variables explicativas, es la correcta especificación del modelo teórico, ya que como se ha visto la inclusión de una variable innecesaria o la omisión de una variable relevante, condiciona los estadísticos que resultan en la estimación MCO del modelo, por otro lado, en un elevado número de explicativas no cabe descartar la existencia de correlaciones que originen un problema de multicolinealidad aproximada, y en estos casos hay que determinar cual de ellas cabe incluir en la especificación del modelo. En otras palabras, ante un conjunto elevado de explicativas debemos seleccionar de entre todas, un subconjunto de ellas que garanticen que el modelo esté lo mejor especificado posible. Este análisis cabe hacerlo estudiando las características y propiedades de cada una de las variables independientes, a partir, por ejemplo, de los coeficientes de correlación de cada una de ellas y la dependiente, y de cada explicativa con las restantes, seleccionando modelos alternativos y observando los resultados estadísticos de la estimación MCO de cada uno de ellos. Sin embargo, en la práctica, la selección del subconjunto de variables explicativas de los modelos de regresión se deja en manos de procedimientos más o menos automáticos. Los procedimientos más usuales son los siguientes:

Método backward: se comienza por considerar incluidas en el modelo teórico a todas las variables disponibles y se van eliminando del modelo de una en una según su capacidad explicativa. En concreto, la primera variable que se elimina es aquella que presenta un menor coeficiente de correlación parcial con la variable dependiente-o lo que es equivalente, un menor valor del estadístico t– y así sucesivamente hasta llegar a una situación en la que la eliminación de una variable más suponga un descenso demasiado acusado en el coeficiente de determinación.

Método forward: se comienza por un modelo que no contiene ninguna variable explicativa y se añade como primera de ellas a la que presente un mayor coeficiente de correlación -en valor absoluto- con la variable dependiente. En los pasos sucesivos se va incorporando al modelo aquella variable que presenta un mayor coeficiente de correlación parcial con la variable dependiente dadas las independientes ya incluidas en

Page 40: Curso de Estadística con R Té - Instituto Cántabro de ...

39

el modelo. El procedimiento se detiene cuando el incremento en el coeficiente de determinación debido a la inclusión de una nueva variable explicativa en el modelo ya no es importante.

Método stepwise: es uno de los más empleados y consiste en una combinación de los dos anteriores. En el primer paso se procede como en el método forward pero a diferencia de éste, en el que cuando una variable entra en el modelo ya no vuelve a salir, en el procedimiento stepwise es posible que la inclusión de una nueva variable haga que otra que ya estaba en el modelo resulte redundante.

El modelo de ajuste al que se llega partiendo del mismo conjunto de variables explicativas es distinto según cuál sea el método de selección de variables elegido, por lo que la utilización de un procedimiento automático de selección de variables no significa que con él se llegue a obtener el mejor de los modelos a que da lugar el conjunto de datos con el que se trabaja.

Ejemplo 2.4. Utilizando los microdatos de la EPF, vamos a completar un modelo explicativo de los gastos por hogar, para ellos seleccionamos como posibles variables explicativas, además de los ingresos corrientes del hogar, las siguientes variables: Nmiemb (Número de miembros del hogar) nmiem10 (Número de miembros del hogar de 25 a 34 años) nmiem11 (Número de miembros del hogar de 35 a 64 años) nmiem12 (Número de miembros del hogar de 65 a 84 años) nmiem13 (Número de miembros del hogar de 85 o más años) numacti (Número de miembros activos en el hogar) numinacti (Número de miembros no activos en el hogar) numocu (Número de miembros ocupados en el hogar) numnocu (Número de miembros no ocupados en el hogar) numestu (Número de estudiantes en el hogar) numnoestu (Número de no estudiantes en el hogar) tiphogar1 (Tipo de hogar -primera clasificación-) situocuhog (Situación del hogar respecto a la ocupación) situacthog (Situación del hogar respecto a la actividad) Todas las variables excepto las tres últimas son numéricas, las dos últimas son variables cualitativas (factores). Las categorías de tiphogar12 son: Hogar de un solo adulto

1 Una persona de 65 o más años 2 Una persona de 30 a 64 años 3 Una persona de menos de 30 años 4 Un adulto con niños menores de 16 años

2 Las categorías 07 a 11 se refieren exclusivamente a hogares formados por padres e hijos, incluyendo los adoptados y los que son hijos sólo de un miembro de la pareja. En el caso en que haya otras personas en el hogar, éste se clasificaría en 12.Otros hogares. Se considera adulto a toda persona de 16 o más años

Page 41: Curso de Estadística con R Té - Instituto Cántabro de ...

40

Pareja sin hijos

5 Pareja sin hijos teniendo al menos uno de los miembros 65 años o más 6 Pareja sin hijos teniendo los dos miembros menos de 65 años

Pareja con hijos menores de 16 años

7 Pareja con un hijo menor de 16 años 8 Pareja con dos hijos menores de 16 años 9 Pareja con tres o más hijos menores de 16 años Otras familias nucleares 10 Padre o madre solo, con al menos un hijo de 16 o más años 11 Pareja con al menos un hijo de 16 o más años 12 Otros hogares

Las categorías de situocuhog son: 1 El sustentador principal y el cónyuge ocupados, al menos otro de los miembros también ocupado 2 El sustentador principal y el cónyuge ocupados, ninguno de los otros miembros ocupados (si es que los hay) 3 El sustentador principal o el cónyuge ocupado, otro de los miembros ocupado 4 El sustentador principal o el cónyuge ocupado, al menos otros dos miembros ocupados 5 El sustentador principal o el cónyuge ocupado, ninguno de los otros miembros ocupado (si es que los hay) 6 Ni el sustentador principal ni su cónyuge ocupado, otro miembro ocupado 7 Ni el sustentador principal ni su cónyuge ocupados, al menos otros dos miembros ocupados 8 Ningún ocupado en el hogar -9 No consta En tanto que las categorías de situacthog son: 1 El sustentador principal y el cónyuge activos, al menos otro de los miembros también activo 2 El sustentador principal y el cónyuge activos, ninguno de los otros miembros activos (si es que los hay) 3 El sustentador principal o el cónyuge activo, otro de los miembros también activo 4 El sustentador principal o el cónyuge activo, al menos otros dos miembros activos 5 El sustentador principal o el cónyuge activo, ninguno de los otros miembros activos (si es que los hay) 6 Ni el sustentador principal ni su cónyuge activos, otro miembro activo 7 Ni el sustentador principal ni su cónyuge activos, al menos otros dos miembros activos 8 Ningún activo en el hogar -9 No consta Para realizar la selección de un modelo por el método “forward” necesitamos instalar la librería-R: “leaps”, una vez instalada ejecutamos el siguiente Chunk:

```{r, echo=FALSE}

datos <-

data.frame(ecpf2014[,11],ecpf2014[,25:34],ecpf2014[,41],ecpf2014[,52:5

3],ecpf2014$impexac)

str(datos)

library(leaps)

Page 42: Curso de Estadística con R Té - Instituto Cántabro de ...

41

regfit.fwd=regsubsets(y~.,data=datos,method="forward")

plot(regfit.fwd)

coef(regfit.fwd,9)

```

El modelo seleccionado incluye como explicativas:

##(Intercept)  ##2199.60830  ##nmiemb  ##68.89259  ##nmiem11  ##150.39439  ##nmiem13 ##‐207.45699  ##numinacti  ##245.64795  ##tiphogar1: Una persona de 30 a 64 años. ##‐340.29367  ##tiphogar1: Pareja con un hijo menor de 16 años. ##‐193.07523  ##situocuhog: Ningún ocupado en el hogar. ##‐962.83813  ##situacthog:  El  sustentador  principal  o  el  cónyuge  activo,  otro  de los miembros también activo. ##‐261.19099  ##numnoestu  ##27.50668  

Page 43: Curso de Estadística con R Té - Instituto Cántabro de ...

42

3. MODELOS CON VARIABLES CUALITATIVAS

3.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO REGRESORES

En un modelo econométrico, las variables representan a los conceptos u operaciones económicas que queremos analizar. Normalmente utilizamos variables cuantitativas, es decir, aquellas cuyos valores vienen expresados de forma numérica; sin embargo, también existe la posibilidad de incluir en el modelo econométrico información cualitativa, siempre que esta pueda expresarse de esa forma. Las variables cualitativas expresan cualidades o atributos de los agentes o individuos (sexo, religión, nacionalidad, nivel de estudios, etc.) y también recogen acontecimientos extraordinarios como guerras, terremotos, climatologías adversas, huelgas, cambios políticos etc. No cabe duda de que una forma de recoger factores de este tipo sería la utilización de variables proxy o aproximadas a las variables utilizadas. Por ejemplo, si quiero utilizar una variable que mida el nivel cultural de un país (variable cualitativa) puedo utilizar como variable proxy el número de bibliotecas existentes en un país, o representa una climatología adversa a partir de las temperaturas medias o precipitaciones. Sin embargo, no siempre es posible encontrar este tipo de variables y, en cualquier caso, debemos de ser conscientes de la posible existencia de errores en la definición de la variable.

Puesto que las variables cualitativas normalmente recogen aspectos de la presencia o no de determinado atributo (ser hombre o mujer, tener estudios universitarios o no tenerlos, etc.…) se utilizan variables construidas artificialmente, llamadas también ficticias o dummy, que generalmente toman dos valores, 1 ó 0, según se dé o no cierta cualidad o atributo. Habitualmente a la variable ficticia se le asigna el valor 1 en presencia de la cualidad y 0 en caso contrario. Las variables que toman valores 1 y 0, también reciben el nombre de variables dicotómicas o binarias. Las variables dicotómicas pueden combinarse para caracterizar variables definidas por su pertenencia o no a un grupo. Si incluyo una variable cualitativa que me define la pertenencia o no de un país a un grupo, por ejemplo renta alta, media y baja, introduciré tres variables cualitativas en el modelo asociadas a la pertenencia o no a cada grupo; la primera caracterizaría a los individuos con renta alta, la segunda a los individuos con renta media, y la tercera a los individuos con renta baja. Los modelos que utilizan variables cualitativas como regresores se diferencian en dos grupos, los modelos de Análisis de la Varianza o modelos ANOVA, que únicamente incluyen variables cualitativas como regresores; y los modelos de Análisis de la Covarianza o modelos ANCOVA que incluyen tanto variables cualitativas como cuantitativas. Los modelos ANOVA son muy utilizados en Sociología, Psicología, Educación, etc.; en Economía son más comunes los modelos ANCOVA.

Page 44: Curso de Estadística con R Té - Instituto Cántabro de ...

43

3.2. MODELOS ANOVA Un problema estadístico clásico es la comparación de medias de dos distribuciones normales. Supongamos que las observaciones de la variable iY , provienen de dos distribuciones normales

con medias 1 y 2 y varianza común 2 . El tamaño de la primera distribución se circunscribe

a las 1n primeras observaciones, y el de la segunda las 1nn restantes observaciones.

Queremos constrastar la hipótesis 21: oH frente a la alternativa 21: oH al nivel de

significación de . Este contraste de igualdad de medias cabe formularlo en el marco del modelo lineal general. Así, bajo oH tenemos el siguiente modelo de regresión múltiple utilizando variables Dummy:

iiii eDDY 21 21

Siendo:

nnisi

nisiD i ,...,10

,...,111

1

1

nnisi

nisiD i ,...,11

,...,102

1

1

El estimador mínimo cuadrático del modelo planteado sería:

n

iii

n

iii

n

ii

n

iii

n

iii

n

ii

YD

YD

DDD

DDD

1

1

1

1

2

1

11

2

1

1

2

1

221

211

ˆ

ˆ

Teniendo presente que

n

ii nD

11

21 ,

n

ii nnnD

121

22 ,

n

iii DD

1

021 ,

n

i

n

iiii YYD

1 1

1

1 y

n

i

n

niiii YYD

1 11

2 , el estimador mínimo cuadrático quedaría:

2

1

1

1

1

2

1

1

1

1

1

0

0

ˆ

ˆ

Y

Y

Y

Y

n

nn

nii

n

ii

Para contrastar la hipótesis 0: 21 oH frente a la alternativa 0: 21 oH ,

construiríamos el estadístico experimental

2

2

1

2

21

ˆˆ

21exp

ˆˆ

ˆˆ

21

nn

YY

St

, en donde

2ˆ 1

2

2

n

en

ii

.

La hipótesis 0: 21 oH se rechaza con el estadístico teórico )2/(2 ntco tt si

tcott exp .

Page 45: Curso de Estadística con R Té - Instituto Cántabro de ...

44

El análisis anterior se extiende a la comparación de medias con tres o más distribuciones normales. Suponemos ahora que las n observaciones proceden de tres distribuciones normales

con medias 1 , 2 y 3 y varianza común 2 , correspondientes a tres muestras que contienen

las 1n primeras observaciones, 2n siguientes y 213 nnn ultimas observaciones.

El modelo lineal utilizando variables Dummy quedaría:

iiiii edddY 32211 Donde las variables binarias se definen:

Jgrupoelenisi

JgrupoelenisiDJi 0

1

El estimador mínimo cuadrático del vector de parámetros es:

3

2

1

1

1

11

3

2

1

3

2

1

2

2

1

1

00

00

00

ˆ

ˆ

ˆ

Y

Y

Y

Y

Y

Y

n

n

n

n

nii

n

nii

n

ii

Para contrastar la hipótesis 321: oH , se utiliza el contraste de significación global,

para el que construimos es estadístico experimental

3

)1(2

2

2

exp

n

R

R

F , siendo el estadístico

teórico )3,2( nFFtco , la hipótesis se rechazaría con la regla de decisión tcoFF exp .

Ejemplo 3.1. Partiendo de la base de datos “ecpf2014” preparamos un “Chunk” en el que construimos la tabla anova con la función “aov”, para los gastos por hogar y la variable categórica “situacthog”, y estimamos un modelo ANOVA con la función “model.tables”. ```{r, echo=FALSE}

str(ecpf2014$situacthog)

mod1 <- aov(ecpf2014$GAST ~ecpf2014$situacthog)

summary(mod1)

model.tables(mod1)

```

##  Nmnl. item w/ 8 labels for 1,2,3,...  num [1:22146] ‐9 ‐9 8 2 5 2 8 5 2 2 ...  ##                        Df    Sum Sq   Mean Sq F value Pr(>F)      ## ecpf2014$situacthog     1 2.002e+08 200217093   103.2 <2e‐16 ***  ## Residuals           22144 4.295e+10   1939679                     ## ‐‐‐ 

Page 46: Curso de Estadística con R Té - Instituto Cántabro de ...

45

 ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ##  Warning  in  replications(paste("~",  xx),  data  =  mf):  non‐factors ignored:  ## ecpf2014$situacthog ## Tables of effects.   ##ecpf2014$situacthog   ##ecpf2014$situacthog  ##‐9   ##‐174.61   ##El sustentador principal y el cónyuge activos, al menos otro de los miembros también activo. ##‐11.93   ## El sustentador principal y el cónyuge activos, ninguno de los otros miembros activos (si es que los hay) ##4.34   ##El sustentador principal o el cónyuge activo, otro de los miembros también activo ##20.61   ##El  sustentador  principal  o  el  cónyuge  activo,  al  menos  otros  dos miembros activos ##36.88   ##  El sustentador principal o el cónyuge activo, ninguno de los otros miembros activos (si es que los hay) ##53.14   ##Ni  el  sustentador  principal  ni  su  cónyuge  activos,  otro  miembro activo   ##69.41   ##Ni  el  sustentador  principal  ni  su  cónyuge  activos,  al  menos  otros dos miembros activos ##85.68   ##Ningún activo en el hogar ##101.95  El estadístico F al ser mayor que el valor teórico permite rechazar la hipótesis

921 ...: oH por lo que cabe admitir que las diferentes categorías de “situación de

hogar” tienen influencia en el gato en consumo de los hogares. De hecho el código “***” nos muestra que la variable es significativa a un muy bajo.

Page 47: Curso de Estadística con R Té - Instituto Cántabro de ...

46

Utilizando la función “lm”, e incluyendo un término constante. ```{r, echo=FALSE}

mod2 <- lm(ecpf2014$GAST ~ as.factor(ecpf2014$situacthog))

anova (mod2)

```

## Analysis of Variance Table ##  ## Response: ecpf2014$GAST ##                                   Df     Sum Sq   Mean Sq F value ## as.factor(ecpf2014$situacthog)     7 3.1069e+09 443837987  235.76 ## Residuals                      17763 3.3440e+10   1882556        ## Pr(>F) ## as.factor(ecpf2014$situacthog) < 2.2e‐16 ***  ##Residuals                      ## ‐‐‐ ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1  Este modelo es más fácil de interpretar, ya que considerando un consumo promedio por hogar de 2962.27, los hogares en donde el sustentador principal y el cónyuge están activos, y ninguno de los otros miembros está activos (si es que los hay) , consumirían al mes 175.84 euros que el hogar medio, en tanto que ni el sustentador principal ni su cónyuge activos, pero al menos otros dos miembros está activos, consumiría 44.69 euros más al mes que el hogar medio.

3.3. MODELOS ANCOVA Para ilustrar la utilización de un modelo ANCOVA vamos a suponer que estamos modelizando la relación que existe entre el dinero que ahorra un grupo “n” de individuos, Yi, y la renta que declara cada uno de ellos, Xi: Yi=0+1Xi+ei , siendo i=1…..n De este grupo de individuos conocemos algunas otras características que pueden ser transcendentes a la hora de nuestro análisis, por ejemplo si están o no están casados. Utilizando dicha información creamos las siguientes variables dummy:

casadoestáisi

casadoestánoisiDD

casadoestánoisi

casadoestáisiD iii

,0

,1)11(2

,0

,11

Si por ejemplo la muestra de individuos que tenemos es de n=10, de los cuales cuatro de ellos están casados, las variables dummy tendrían la siguiente estructura:

Page 48: Curso de Estadística con R Té - Instituto Cántabro de ...

47

0

0

1

111

01

10

2

1

1

0

000

10

01

1 DD

De cara a estudiar los efectos del estado civil sobre el ahorro podemos estar interesados en saber si los casados parten de un nivel de ahorro diferente de los solteros, o bien si las diferencias entre solteros y casados derivan en que unos y otros tienen una diferente propensión marginal a ahorrar. En el primer caso se trata de conocer si 0 es diferente entre los dos grupos de individuos, y en el segundo, si lo es 1. El planteamiento del problema para observar las diferencias de cada grupo respecto a 0 se puede realizar a través de las siguientes especificaciones del modelo ANCOVA:

Yi=0+1D1i+1Xi+ei (3.1) Yi=0+2D2i+1Xi+ei (3.2) Yi=1D1i+2D2i +1Xi+ei (3.3)

En este caso: Si se utiliza la especificación del modelo (3.1), el término independiente de los casados

vendrá dado por la suma (0+1), y para los solteros por 0. Si queremos analizar la igualdad en el nivel de ahorro de ambos grupos, habría que contrastar la hipótesis nula H0: 1=0

Si se utiliza la especificación del modelo (3.2), el término independiente de los solteros

vendrá dado por la suma (0+2), y para los casados por 0. Si queremos analizar la igualdad en el nivel de ahorro de ambos grupos, habría que contrastar la hipótesis nula H0: 2=0

Si se utiliza la especificación del modelo (3.3) el término independiente de los casados

vendrá dado por el coeficiente 1, y para los solteros por 2. Si queremos analizar la igualdad en el nivel de ahorro de ambos grupos, habría que contrastar la hipótesis nula H0: 1=2

Las tres especificaciones son equivalentes, y hay que tener presente que en la especificación del modelo (3.3) se prescinde del término constante ya que de no hacerlo así tendríamos un problema de multicolinealidad exacta entre el término constante y las dos variables dummy. Si planteamos el modelo (3.3) de la siguiente forma: Yi = 0+1D1i+2D2i +1Xi+ei La matriz X quedaría:

Page 49: Curso de Estadística con R Té - Instituto Cántabro de ...

48

10

9

8

7

6

5

4

3

2

1

011

011

101

101

101

101

011

101

101

011

X

X

X

X

X

X

X

X

X

X

X

En la que se aprecia que la suma de las columnas 2 y 3 da como resultado la primera columna, lo que provoca que la matriz (X’X) sea no singular. Para el análisis del comportamiento de cada grupo respecto a la pendiente, aquí propensión marginal a ahorrar, podemos plantear las siguientes especificaciones del modelo ANCOVA:

Yi=0+1Xi+1(D1i Xi)+ei (3.4) Yi=0+1Xi+2(D2i Xi)+ei (3.5) Yi=0+1(D1i Xi)+ +2(D2i Xi)+ei (3.6)

En este caso: Si se utiliza la especificación del modelo (5.4), la propensión marginal de los individuos

casados vendrá dado por la suma (1+1), y la de los solteros por 1. Si queremos analizar la igualdad en la propensión marginal del ahorro en ambos grupos, habría que contrastar la hipótesis nula H0: 1=0

Si se utiliza la especificación del modelo (5.5), la propensión marginal de los individuos

solteros vendrá dado por la suma (1+2), y la de los casados por 1. Si queremos analizar la igualdad en la propensión marginal del ahorro en ambos grupos, habría que contrastar la hipótesis nula H0: 2=0.

Si se utiliza la especificación del modelo (5.6), la propensión marginal de los individuos

casados vendrá dado por 1, y la de los solteros por 2. Si queremos analizar la igualdad en la propensión marginal del ahorro en ambos grupos, habría que contrastar la hipótesis nula H0: 1=2

Si queremos incluir en modelo otra característica de los individuos como sería por ejemplo la profesión y distinguimos entre tres profesiones: agricultores, asalariados y empresarios, habría que crear tres nueva variables dummy:

Page 50: Curso de Estadística con R Té - Instituto Cántabro de ...

49

empresarioesnoisi

empresarioesisiE

asalariadoesnoisi

asalariadoesisiE

agricultoresnoisi

agricultoresisiE

i

i

i

,0

,13

,0

,12

,0

,11

Si bien a la hora de especificar el modelo hay que evitar los problemas de multicolinealidad entre todas las variables dummy incluidas y el término constante. Una forma de evitar los problemas es no incluir alguna de las categorías en forma de variable dummy, y dejar que la constante recoja el efecto de la categoría no incluida. Una especificación posible de un modelo ANCOVA sería entonces: Yi = 0+1D1i+1E1i+2E2i +1Xi+ei Las variables cualitativas también pueden corresponder a hechos que concurren en un periodo de tiempo y tener la forma de serie temporal. Este tipo de variables se utilizan para observar los efectos que sobre el modelo provocan sucesos extraordinarios como son las huelgas, una climatología adversa, cambios políticos e incluso cambios en la metodología estadística de elaboración de los datos. Supongamos que tenemos el siguiente modelo: Yt=0+1Xt+et siendo t=1,….,T1, T1+1…T En el periodo T1 sabemos de la existencia de un suceso extraordinario que afecta a la evolución de la variable dependiente durante un periodo determinado de tiempo, y queremos lógicamente saber el efecto que causa dicho suceso extraordinario sobre la ecuación a estimar. Para ello definimos las siguientes variables dummy:

1

1

1

1

1

0)11(2

0

11

Ttsi

TtsiDD

Ttsi

TtsiD ttt

La estructura de ambas variables sería la siguiente:

1

.

.1

0.

.0

2

0

.

.0

1.

.1

1 DD

D1 tienen tantos unos como observaciones hay hasta T1 y D2 tiene tantos unos como observaciones hay entre T1 y T. El análisis del efecto del suceso extraordinario sobre la regresión puede realizarse de forma separada para cada periodo de 1 a T1 y T1 a T, o conjuntamente para todo el periodo, bien sobre el termino constante 0 o sobre la pendiente 1.

Page 51: Curso de Estadística con R Té - Instituto Cántabro de ...

50

Para el análisis de los efectos sobre el término constante tendremos que plantear los siguientes modelos de regresión:

Yt=0+1D1t+1Xt+et (3.7) Yt=0+2D2t+1Xt+et (3.8) Yt=1D1t+2D2t +1Xt+et (3.9)

En este caso:

Si se utiliza la especificación del modelo (3.7) el análisis de la invariabilidad de 0 exige contrastar la hipótesis nula H0: 1=0

Si se utiliza la especificación del modelo (3.8) el análisis de la invariabilidad de 0

exige contrastar la hipótesis nula H0: 2=0

Si se utiliza la especificación del modelo (3.9) el análisis de la invariabilidad de 0 exige contrastar la hipótesis nula H0: 1=2

Si queremos analizar el efecto del acontecimiento extraordinario sobre la pendiente del modelo, plantearemos las siguientes ecuaciones de regresión:

Yt=0+1Xt+1(D1t Xt)+et (3.10) Yt=0+1Xt+2(D2t Xt)+et (3.11) Yt=0+1(D1t Xt)+ +2(D2t Xt)+et (3.12)

En cuyo caso: Si se utiliza la especificación del modelo (3.10), el análisis de la invariabilidad de 1 exige

contrastar la hipótesis nula H0: 1=0 Si se utiliza la especificación del modelo (3.11), el análisis de la invariabilidad de 1 exige

contrastar la hipótesis nula H0: 2=0 Si se utiliza la especificación del modelo (3.12), el análisis de la invariabilidad de 1 exige

contrastar la hipótesis nula H0: 1=2 Para tomar una decisión acerca de que modelo ANCOVA seleccionar entre las varias especificaciones que utilizan variables cualitativas, hay utilizar el contraste de errores de especificación descrito en el apartado 3.5.4. Ejemplo 3.2. Partiendo de la base de datos “ecpf2014” preparamos un “Chunk”, con la función lm, utilizando ahora como explicativas la iteración situacthog e ingresos del hogar: ```{r, echo=FALSE}

mod3 <- lm(ecpf2014$GAST ~ as.factor(ecpf2014$situacthog)* ecpf2014$

impexac)

anova (mod3)

## Analysis of Variance Table 

Page 52: Curso de Estadística con R Té - Instituto Cántabro de ...

51

##  ## Response: ecpf2014$GAST ##                                                    Df     Sum Sq ##  as.factor(ecpf2014$situacthog)        7  3.1069e+09 ## ecpf2014$impexac                                1    1.2390e+10 ## as.factor(ecpf2014$situacthog):ecpf2014$impexac     7    5.0244e+07 ## Residuals                                       17755    2.0999e+10 ##                                                    Mean Sq    F Value ## as.factor(ecpf2014$situacthog)                  4.4384e+08    375.2692 ## ecpf2014$impexac                                1.2390e+10  10476.2225 ## as.factor(ecpf2014$situacthog):ecpf2014$impexac 7.1777e+06      6.0688 ## Residuals                                       1.1827e+06     ##                                                    Pr(>F) ## as.factor(ecpf2014$situacthog)                  < 2.2e‐16 *** ## ecpf2014$impexac                                < 2.2e‐16 *** ## as.factor(ecpf2014$situacthog):ecpf2014$impexac 4.283e‐07 *** ## Residuals ## ‐‐‐  ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

 

Page 53: Curso de Estadística con R Té - Instituto Cántabro de ...

52

4. MODELO LINEAL GENERALIZADO.

Los modelos lineales (regresión, ANOVA, ANCOVA), se basan en los siguientes supuestos: 1. Los errores se distribuyen normalmente. 2. La varianza es constante. 3. La variable dependiente se relaciona linealmente con las variables independientes. de manera analítica tendríamos:

ikikiii eXXXY ...2211 , i=1,2,…, n

donde ei esta distribuida de cómo una normal de media cero, varianza constante

(homocedástica), 2 , y donde la covarianza entre ei y ej es nula para ji , E(ei·ej) = 0

(ausencia de autocorrelaciób). Es decir, ),0( 2Nei .

Estos supuestos llevan implícito que la distribución de la variable dependiente Yi sea también

una normal ),( 2NYi , donde:

kikiii XXXYE ...)( 2211

En muchas ocasiones, sin embargo, nos encontramos con que uno o varios de estos supuestos no se cumplen por la naturaleza de la información. En algunos casos, estos problemas se pueden llegar a solucionar mediante la transformación de la variable respuesta (por ejemplo tomando logaritmos). Sin embargo estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos. Una alternativa a la transformación de la variable dependiente/respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados (MLG). Los MLG fueron formulados por John Nelder y Robert Wedderburn (1989) como una manera de unificar varios modelos estadísticos, incluyendo la regresión lineal, regresión logística y regresión de Poisson, bajo un solo marco teórico. Los MLG son, por tanto, una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc) y varianzas no constantes. Los MLG permiten especificar distintos tipos de distribución de errores, Cayuela (2010) expone los siguientes ejemplos:

Poisson, muy útiles para conteos de acontecimientos, por ejemplo: número de heridos por accidentes de tráfico; número de hogares asegurados que dan parte de siniestro al día.

Binomiales, de gran utilidad para proporciones y datos de presencia/ausencia, por ejemplo: tasas de mortalidad; tasas de infección; porcentaje de siniestros mortales.

Gamma, muy útiles con datos que muestran un coeficiente de variación constante, esto es, en donde la varianza aumenta según aumenta la media de la muestra de manera constante, por ejemplo : número de heridos en función del número de siniestros

Exponencial, muy útiles para los análisis de supervivencia.

Page 54: Curso de Estadística con R Té - Instituto Cántabro de ...

53

Otra razón por la que un modelo lineal puede no ser adecuado para describir un fenómeno determinado es que la relación entre la variable respuesta y las variables independientes no es siempre lineal. La función de vínculo se encarga de linealizar la relación entre la variable dependiente y las variables independientes mediante la transformación de la variable respuesta:

Tabla 4.1 Las funciones de ligadura/vínculo mas utilizadas

Fuente: Cayuela L. (2010) En la siguiente tabla se muestran algunas de las combinaciones más comunes de variables respuestas y variables explicativas con distintos tipos de funciones de vínculo y distribuciones de errores. Tabla 4.2. Modelos MLG más comunes

Fuente: Cayuela L. (2010) La estimación de los parámetros , se realiza por máximo verosimilitud3, y os ajustes de i ,

se calculan como '1ixg , una vez estimados los parámetros del vector .

3 Si bien el método de MCO es el más frecuentemente usado para calcular los parámetros del modelo de regresión, hay métodos alternativos. Uno de ellos es el método de Máxima Verosimilitud (Maximum Likelihood). Para utilizar el método debemos conocer la distribución de probabilidad del término

aleatorio t .

Page 55: Curso de Estadística con R Té - Instituto Cántabro de ...

54

Para valorar el ajuste de los MLG se utiliza el estadístico chi-cuadrado, que se define como el doble de la diferencia entre el máximo del logaritmo de la verosimilitud que se podría conseguir con la mínima (o máxima) parametrización y el valor del máximo del logaritmo de la verosimilitud que se consigue con el modelo a evaluar, y el estadístico AIC (Akaike Information Criterion), formulado por Akaike (1974):

N

k

N

lAIC 22

donde l es el valor en el óptimo del logaritmo de la función de verosimilitud con k parámetros estimados y N las observaciones. Siguiendo estos criterios, se seleccionará aquel modelo para el que se obtenga un AIC más bajo. La especificación de un MLG se realiza en tres partes:

La componente aleatoria correspondiente a la variable Yi que sigue una distribución de la familia exponencial (normal, log-normal, poisson, gamma,…)

La componente sistemática, o predictor, que se denota y corresponde al vector de n

componentes

k

jijijkikiii xXXXX

1

'2211 ... .

La función de ligadura (o función link ))(g que relaciona la esperanza matemática de

la variable con el predictor lineal, )( ii g , la función de ligadura debe de ser

monótona y diferenciable.

Si suponemos que t se distribuyen como una N(0, 2 ), la función explícita de probabilidad (PDF) para

tY se puede escribir como:

22 ))(2/1(1

22)( tt XYt eYf

Si se selecciona una muestra aleatoria de n sYt :

nYYY ,,, 21

La función de probabilidad (likelihood function) de las sYt (o la función de verosimilitud de la muestra)

es:

),,,( 21 nYYYfl

Podemos escribir ahora:

22211

2 ))(2/1(1

2))(2/1(1

2 22 nn XYXY eel

o

22 )()2/1(22 tt XYn

el

El enfoque Máximo Verosímil para calcular y (y 2 ) es obtener las expresiones para estos

parámetros que maximizan la función de probabilidad de las sYt en la ecuación anterior.

Page 56: Curso de Estadística con R Té - Instituto Cántabro de ...

55

Ejemplo 4.1. Utilizando la selección de variables del Ejemplo 2.4, vamos a estimar un modelo utilizando la distribución de poisson y un tipo de función vinculo logarítmica, para ello ejecutamos el siguiente “Chunk”: ```{r, eval=FALSE ,echo=FALSE}

est2 <- glm(ecpf2014$GAS ~ nmiemb + nmiem11 + nmiem13 + numinacti +

tiphogar1 + situocuhog + situacthog + numnoestu,

data=datos,family=poisson (link = "log"))

coef(est2)

```

## (Intercept) ##7.76140959  ##nmiemb  ##‐0.01817353  ##nmiem11  ##0.08073017  ##nmiem13  ##‐0.08513973  ##numinacti  ##0.13156124  ##tiphogar1Una persona de 30 a 64 años ##‐0.05661690  ##tiphogar1Una persona de menos de 30 años ##‐0.32218572  ##tiphogar1Un adulto con niños menores de 16 años ##0.03567650  ##tiphogar1Pareja sin hijos teniendo al menos uno de los miembros 65 años o más ##0.36168938  ## hijos teniendo los dos miembros menos de 65 años ##0.19834610  ##tiphogar1Pareja con un hijo menor de 16 años   ##0.20112720  ##tiphogar1Pareja con dos hijos menores de 16 años  ##0.32211129  ##tiphogar1Pareja con tres o más hijos menores de 16 años ##0.39427650  ##tiphogar1Padre o madre solo, con al menos un hijo de 16 o más años  ##0.18283275  ##tiphogar1Pareja  con  al  menos  un  hijo  de  16  o  más  años  ##0.26667065  ##tiphogar1Otros hogares  ##0.21708985  ##situocuhogEl sustentador principal y el cónyuge ocupados, ninguno de los otros miembros ocupados (si es que los hay) ##‐0.17773513  ##situocuhogEl sustentador principal o el cónyuge ocupado, otro de los miembros ocupado 

Page 57: Curso de Estadística con R Té - Instituto Cántabro de ...

56

##‐0.33215745  ##situocuhogEl  sustentador  principal  o  el  cónyugeocupado,  al  menos otros dos miembros ocupados ##‐0.15920869  ##situocuhogEl  sustentador  principal  o  el  cónyugeocupado,  ninguno  de los otros miembros ocupado (si es que los hay) ##‐0.50866957  ##situocuhogNi  el  sustentador  principal  ni  su  cónyuge  ocupado,  otro miembro ocupado ##‐0.62731322  ##situocuhogNi  el  sustentador  principal  ni  su  cónyuge  ocupados,  al menos otros dos miembros ocupados ##‐0.34452462  ##situocuhogNingún ocupado en el hogar ##‐0.88982151  ## situacthogEl sustentador principal y el cónyuge activos, ninguno de los otros miembros activos (si es que los hay) ##0.06184096  ##situacthogEl sustentador principal o el cónyuge activo, otro de los miembros también activo  ##0.05059284  ##situacthogEl  sustentador  principal  o  el  cónyuge  activo,  al  menos otros dos miembros activos ##0.02530061  ##situacthogEl sustentador principal o el cónyuge activo, ninguno de los otros miembros activos (si es que los hay)  ##0.09094561  ##situacthogNi  el  sustentador  principal  ni  su  cónyuge  activos,  otro miembro activo ##0.19433718  ##situacthogNi  el  sustentador  principal  ni  su  cónyuge  activos,  al menos otros dos miembros activos ##0.14390236  ##situacthogNingún activo en el hogar ##0.21091117  ##numnoestu  ##0.01565029 

4.1. EL MODELO PROBABILÍSTICO LINEAL El modelo de probabilidad lineal se caracteriza por tener la variable endógena Y dicotómica o binaria, es decir toma el valor Y=1 si un determinado suceso ocurre y el valor Y=0 en caso contrario. Estos modelos están muy extendidos en el análisis estadístico pero encuentran una difícil aplicación en Economía debido a las dificultades de interpretación económica de los resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente investigan es la probabilidad de que se dé una opción (valores Y=1) o no se dé (Y=0). A pesar del carácter dicotómico de la variable endógena, el modelo de probabilidad lineal se especifica de la forma habitual, teniendo presente que las variables exógenas no son dicotómicas sino continuas:

Page 58: Curso de Estadística con R Té - Instituto Cántabro de ...

57

Yi=0+1Xi+ei siendo i=1,……N (4.1) De acuerdo con la expresión (4.1), el hecho de que la variable endógena tome valores discretos (1 ó 0), el término de perturbación ei, puede tomar también dos valores únicamente:

Si Yi=0 ei = -0- 1Xi con probabilidad p.

Si Yi=1 ei = 1-0- 1Xi con probabilidad (1-p). Dado que la esperanza del término de error ha de ser nula E(ei)=0, entonces se demuestra que p= 1-0-1Xi y (1-p) = 0+1Xi, lo que permite evaluar la probabilidad de que la variable endógena tome el valor correspondiente:

Prob (Yi=0) = Prob (ei = -0 - 1Xi ) = p = 1-0- 1Xi.

Prob (Yi=1) = Prob (ei = 1-0 - 1Xi ) = (1-p) = 0+ 1Xi . A su vez la varianza del término de perturbación, se calcularía a partir de p:

)1())(1()( 1010 ppXXeVar iii Una problemática inherente a los estimadores MCO de estos modelos, son los siguientes:

La perturbación aleatoria (ei) no sigue una distribución Normal. Es sencillo observar este hecho ya que el carácter binario (1 ó 0) de la variable endógena afecta a la distribución de la perturbación, teniendo ésta una distribución Binomial4. Este problema se atenúa cuando se utilizan tamaños de muestra (N) grandes en donde la distribución Binomial es susceptible de aproximarse a una Normal.

La perturbación aleatoria no tiene una varianza constante (es heteroscedástica), lo cual

supone una falta de eficiencia. Para solucionarlo habría que realizar transformaciones que nos diesen una perturbación homocedástica; esta transformación consiste en multiplicar todas las variables por una cierta cantidad que elimine el problema de la heteroscedasticidad. Dicha cantidad es:

)1)((

1

1010 ii XX

siendo o y 1 los estimaciones MCO del modelo.

No obstante, el mayor problema que plantean estos modelos es que las predicciones realizadas sobre la variable endógena no siempre se encuentran en el intervalo [0,1], ya que pueden ser mayores que cero y menores que uno. Este problema tiene dos soluciones, una es tomar como valor cero todas las estimaciones de la variable endógena con valores negativos, y uno cuando estas resulten mayores que uno; la segunda, solución es utilizar funciones de distribución que estén acotadas entre cero y uno como son la Logística y la Normal; de éstas se derivan los modelos Logit y Probit que pasamos a ver a continuación.

4 La distribución binomial se basa en una prueba conocida como experimento de Bernouilli o problema de las pruebas repetidas, que consiste en averiguar la probabilidad de que en “n” extracciones o pruebas se hayan conseguido X valores de 1 y/o (n-X) valores de 0.

Page 59: Curso de Estadística con R Té - Instituto Cántabro de ...

58

4.2. EL MODELO LOGIT El problema que presentan los modelos probabilísticos lineales en cuanto a la existencia de predicciones establecidas fuera rango (negativas o mayores que uno), es debido a que utilizan una función de probabilidad que depende linealmente de las variables explicativas (X), que se resolverían acotando dicha distribución de probabilidad. El modelo Logit en concreto utiliza, para ello, la función de distribución logística:

Figura 4.1. Curva Logística Debido a que la función de distribución logística no tiene forma lineal, el modelo Logit se estima de forma diferente, así en vez de minimizar las sumas de las diferencias al cuadrado entre los valores observados y los estimados por el modelo, el carácter no lineal de los modelos Logit requiere la utilización del método de Máxima Verosimilitud para ser estimado, maximizando la verosimilitud de que un suceso tenga lugar, aunque se podría estimar por MCO mediante una transformación logarítmica de los datos (Gujarati, 1997). La probabilidad de que Yi=0 (p) se define ahora mediante la siguiente expresión:

)1(

1ze

p

donde Z = 0 + 1X1 + 2X2 +… + kXk, siendo i son los coeficientes a estimar y Xi es el vector de variables independientes La probabilidad de que Yi=1 (1-p) sería:

)1(

1)1(

zep

En consecuencia, la razón entre ambas será igual a:

zz

z

ee

e

p

p

)1(

)1(

)1(

Page 60: Curso de Estadística con R Té - Instituto Cántabro de ...

59

Tomando el logaritmo natural de la expresión anterior se obtiene

iz

i

ii Xe

p

pL 10)ln(

)1(ln

(4.2)

Donde Li es el denominado Logit. Los coeficientes indican el cambio en el Logit causado por el cambio en una unidad en el

valor de Xi, mientras que los e definen el cambio en la razón de probabilidades

)1( pp

causado por el cambio en una unidad en el valor de Xi. Si es positivo, e será mayor que 1, es

decir,

)1( pp se incrementará; si es negativo, e será menor que 1, es decir,

)1( pp

disminuirá. Adicionalmente, puede demostrarse que el cambio en la probabilidad (p) causado

por el cambio en una unidad en el valor de Xi es

)1( pp , es decir, depende no sólo del

coeficiente, sino también del nivel de probabilidad a partir del cual se mide el cambio. A la hora de estimar un modelo Logit, hay que tener presente que para estimar el modelo además de los valores Xi, se necesitan los valores del Logit (Li). Por otro lado, señalar que la estimación de los coeficientes de modelo (4.2) se realiza utilizando el método de Máxima Verosimilitud, es decir, eligiendo como estimadores de los coeficientes a aquellos que

maximizan la función de verosimilitud, construida sobre la base de )1(

1ze

p . Pero si

tenemos la posibilidad de agrupar los datos individuales, entonces podría estimarse el modelo por MCO. Ejemplo 4.1. En la base de datos “datos” definimos como pobres, aquellos hogares que tienen un ingreso “per cápita” inferior al 60% de la mediana. ```{r, echo=FALSE}

datos$ingpc=datos$ecpf2014.impexac/datos$nmiemb

datos$pobre=ifelse(datos$ingpc<0.6*median(datos$ingpc),1,0)

str(datos)

table(datos$pobre)

```

##  'data.frame':        22146  obs.  of    17  variables: ##    $  nmiemb                    :  num    3  2  2  5  5  3  2  3  3  3  ... ##    $  nmiem10                  :  num    1  1  0  0  0  0  0  0  2  0  ... ##    $  nmiem11                  :  num    2  1  1  2  2  2  0  2  0  2  ... ##    $  nmiem12                  :  num    0  0  1  0  0  0  2  0  0  1  ... ##    $  nmiem13                  :  num    0  0  0  0  0  0  0  0  0  0  ... ##    $  numacti                  :  num    1  2  0  2  1  2  0  1  2  2  ... ##    $  numinacti              :  num    2  0  2  2  3  0  2  1  0  1  ... ##    $  numocu                    :  num    1  2  0  2  1  2  0  1  2  2  ... ##    $  numnocu                  :  num    2  0  2  2  3  0  2  1  0  1  ... ##    $  numestu                  :  num    0  0  0  2  2  0  0  0  0  0  ... 

Page 61: Curso de Estadística con R Té - Instituto Cántabro de ...

60

##    $  numnoestu              :  num    3  2  2  2  2  2  2  2  2  3  ... ##  $ tiphogar1       : Factor w/ 12 levels "Una persona de 65 o más años",..: 11 10 5 11 11 7 5 7 7 12 ...  ##  $ situocuhog      : Factor w/ 8 levels "El sustentador principal y el cónyugeocupados, al menos otro de los miembros también ocupado",..:  NA NA 8 2 5 2 8 5 2 2 ...  ##  $ situacthog      : Factor w/ 8 levels "El sustentador principal y el cónyuge activos, al menos otro de los miembros también activo",..:  NA NA 8 2 5 2 8 5 2 2 ...  ##  $ ecpf2014.impexac: num  2191 2702 1167 5167 1100 ...  ##  $ ingpc           : num  730 1351 584 1033 220 ...  ##  $ pobre           : num  0 0 0 0 1 0 1 0 0 0 ... ##  ## 

0 1 ## 17167  4979  Seleccionamos el mejor modelo explicativo del ingreso per capita con “regsubset” por el método exhaustivo (paso por paso): ```{r}

regfit.exh=regsubsets(datos$ingpc~.,data=datos[,1:15],method="exhausti

ve")

plot(regfit.exh)

coef(regfit.exh,9)

```

##(Intercept)  ##1085.7566205  ##nmiemb  ##‐202.4482883  ##nmiem11  

Page 62: Curso de Estadística con R Té - Instituto Cántabro de ...

61

##59.8275149  ##nmiem12  ##96.5363080  ##numacti  ##‐101.0224460  ##numocu  ##262.9822263  ##tiphogar1Pareja con tres o más hijos menores de 16 años 

##97.1311348  ##tiphogar1Padre o madre solo, con al menos un hijo de 16 o más años 

##0.7449329  ##situocuhogEl sustentador principal y el cónyuge ocupados, ninguno de los otros miembros ocupados (si es que los hay) 

##76.1584450  ##situocuhogEl  sustentador  principal  o  el  cónyugeocupado,  al  menos otros dos miembros ocupados 

##18.3472987 

Estimamos un modelo logit con glm utilizando las variables antes seleccionadas, y realizamos un conteo para ver los resultados obtenidos. ```{r}

# Regresion logistica

est3 <- glm(datos$pobre ~ nmiemb + nmiem11 + numinacti + numocu +

tiphogar1 + situocuhog, data=datos,family=binomial)

est3.probs=predict(est3,type="response")

est3.pred=ifelse(est3.probs>0.5,1,0)

table(est3.pred,est3$y)

mean(est3.pred==est3$y)

```

##           ## est3.pred     0     1 

 ##         0 13480  2374 

 ##         1   930  2098 

## [1] 0.8250185 El modelo predictivo acierta en el 82% de los casos.

Page 63: Curso de Estadística con R Té - Instituto Cántabro de ...

62

4.3. MODELO PROBIT Mientras que el modelo Logit utiliza la función de distribución logística para acotar la distribución de probabilidad en el modelo de probabilidad lineal, el modelo Probit utiliza la función de distribución Normal.

Figura 4.2. Función de densidad (izq.) y de distribución (dcha.) de una Normal (0,1) Las funciones de distribución normal y logística son muy semejantes: la diferencia principal es que la función de distribución normal se acerca más rápidamente a los ejes que la logística (figura 4.3).

Figura. 4.3. Para entender la filosofía del modelo Probit, vamos a suponer que existe una variable desconocida s que cumple lo siguiente:

Si Ii=0+1Xi s entonces Yi=1 Si Ii=0+1Xi <s entonces Yi=0

Dado el supuesto de normalidad en un suceso, la probabilidad de que este sea menor o igual al valor (s), se calcula a partir de la función de distribución acumulada de una distribución Normal estandarizada, esto es, con esperanza cero y desviación típica uno.

io X dtt

ii esXprYprp1 2

102

1)()1(

(4.3)

Page 64: Curso de Estadística con R Té - Instituto Cántabro de ...

63

Lo anterior equivale a que la relación entre la endógena y las explicativas venga dada por la siguiente expresión:

io i

X udtt

iii euXy1 2

102

1)(

(4.4)

Donde:

(0+1Xi) es la función de distribución normal ui es el término de perturbación que se distribuye como una normal N(0,2).

Dado que (4.4) es una relación no lineal en los parámetros no puede estimarse por MCO. No obstante, hay una forma sencilla de asignar valores a las probabilidades que aparecen en la expresión (4.3). Esta forma consiste en obtener información acerca de Ii y de los parámetros a partir de la inversa de (4.3):

iiiiXpI FFI 10

11*

donde F-1 es la inversa de la función de distribución Normal. Donde Ii es negativa siempre que pi<0.5; en la práctica se agrega el número 5 a Ii y a su resultado se le denomina Probit. Es decir, Probit=5+Ii Ahora, para estimar los parámetros se regresa:

iiiuXI 10

*

El término de la perturbación es no obstante heteroscedástico. Gujarati (1999) sugiere que se realice la transformación comentada en el caso del modelo Logit, para que el modelo transformado sea homocedástico. Ejemplo 4.3 La estimación en R del modelo probit estimado en el ejemplo 4.3, se programa: ```{r,echo=FALSE}

# Regresion probit

est4 <- glm(datos$pobre ~ nmiemb + nmiem11 + numinacti + numocu +

tiphogar1 + situocuhog, data=datos,family=binomial(link=probit))

est4.probs=predict(est4,type="response")

est4.pred=ifelse(est4.probs>0.5,1,0)

table(est4.pred,est4$y)

mean(est4.pred==est4$y) ``` ##           ## est4.pred     0     1 ##         0 13495  2441  ##         1   915  2031 ## [1] 0.8222646 

Page 65: Curso de Estadística con R Té - Instituto Cántabro de ...

64

5. MODELOS CON DATOS DE PANEL

5.1. INTRODUCCIÓN Un modelo de datos de panel es, según la definición más extendida, un modelo que utiliza muestras recogidas a individuos a lo largo de instantes de tiempo. Los modelos de datos de panel incluyen así información de una muestra de agentes económicos (individuos, empresas, bancos, ciudades, países, etc.) durante un período determinado de tiempo, combinando, por tanto, la dimensión temporal y estructural de los datos. Los modelos de datos de panel se aplican a conjuntos o bases de datos de series de tiempo agregadas para los mismos individuos; éstos conjuntos de datos suelen tener un número relativamente grande de individuos y pocas observaciones en el tiempo, o por el contrario podemos tener datos para un número grande de periodos pero para un número pequeño de individuos. Un ejemplo de este tipo de bases de datos es el panel de hogares de la Unión Europea (70.000 hogares en la UE), las encuestas de opiniones empresariales del Ministerio de Industria (3.000 empresas), los índices Nielsen (5.000 hogares en España) para medir la audiencia televisiva, etc. Estos conjuntos de datos que son conocidos como datos de panel o datos longitudinales hay que diferenciarlos de las encuestas transversales que son repetidas en el tiempo pero no a los mismos individuos (por ejemplo, la Encuesta de Población Activa)5. El principal objetivo que se persigue al agrupar y estudiar los datos en panel es capturar la heterogeneidad no observable entre los agentes económicos como entre periodos temporales. Dado que esta heterogeneidad no se puede detectar exclusivamente con estudios de series temporales, ni tampoco con estudios de corte transversal, hay que realizar un análisis más dinámico incorporando a los estudios de corte transversal la dimensión temporal de los datos. Esta modalidad de analizar la información es muy usual en estudios de naturaleza empresarial, ya que los efectos individuales específicos de cada empresa y los efectos temporales del medio son determinantes cuando se trabaja con este tipo de información.

Los efectos individuales específicos se definen como aquellos que afectan de manera desigual a cada uno de los agentes de estudio contenidos en la muestra (individuos, empresas, bancos). Estos efectos son invariables en el tiempo y se supone que afectan de manera directa a las decisiones que toman dichas unidades. Usualmente, se identifica este tipo de efectos con cuestiones de capacidad empresarial, eficiencia operativa, el “saber-hacer” (Know-how), acceso a la tecnología, etc. Por su parte, los efectos temporales son aquellos que afectan por igual a todas las unidades individuales del estudio y que, además, varían en el tiempo. Este tipo de efectos suele asociarse, por ejemplo, a shocks macroeconómicos que afectan por igual a todas las empresas o unidades de estudio (una subida de los tipos de interés, un incremento de los precios de la energía, un aumento de la inflación, etc.), o a cambios en la regulación de mercados (ampliación de la Unión Europea, reducción de tarifas arancelarias, aumento de la imposición indirecta, etc.). 5 En los paneles de datos a veces también hay que sustituir individuos por falta de respuesta, pero no es el caso de las encuestas transversales en donde la muestra se renueva de forma sistemática, de manera que a un periodo de tiempo determinado, por ejemplo un año, los hogares de la muestra sean diferentes a los del periodo anterior. La falta de respuesta en los datos de panel como en otro tipo de encuesta a la hora de los análisis estadísticos deben de depurarse, bien eliminando todos los datos del individuo con falta de respuesta o eliminando únicamente los individuos con falta de respuesta en cada variable analizada.

Page 66: Curso de Estadística con R Té - Instituto Cántabro de ...

65

5.2. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL La especificación general de un modelo de regresión con datos de panel es la siguiente:

K

jit

jjititit uXY

1

donde i = 1,......N se refiere al individuo o a la unidad de estudio (corte transversal), t = 1,...T a la dimensión en el tiempo, Yit sería la variable a explicar correspondiente a cada unidad de estudio, es un escalar con N parámetros que recoge los efectos específicos del i-ésimo individuo, es un vector de K parámetros que se asocian a las j=1,….K variables explicativas

jitX .

A partir del modelo general, y con base en ciertos supuestos y restricciones acerca del valor de algunos de los parámetros, se derivan las diferentes variantes de modelos de datos de panel que resumimos a continuación en la siguiente tabla. Tabla 5.1. MODELOS ALTERNATIVOS PARA COMBINAR DATOS DE SERIES DE TIEMPO Y DE CORTE TRANSVERSAL

TIPO DE MODELO EXPRESIÓN CARACTERÍSTICAS Modelo Lineal

K

jit

ji

jititit eXY

1

Modelo Estático de Datos de Panel.

K

jit

jjititit eXY

1

Modelo Estático de Datos de Panel de una Vía (one-way) (A)

K

jit

jjititit eXY

1

iit

Modelo Estático de Efectos Fijos con variable dummy (los coeficientes constantes se estiman a partir de variables cualitativas) (B)

K

jit

jjitiit eXiY

1

i es un vector de variables cualitativas y αi es un vector de coeficientes constantes.

Modelo Estático de Datos de Panel de Doble Vía (two-ways) (C)

K

jit

jjititit eXY

1

tiit

Modelo de Regresiones Aparentemente No Relacionadas (SUR)6

K

jit

ji

jititit eXY

1

iit

Modelo Dinámico de Datos de Panel

K

jit

jjittiitit eXYY

11, tiit

En un modelo de datos de panel, las variables explicativas pueden ser de tres tipos:

Una variable por cada individuo, sin que exista referencia temporal en dicha variable: las variables son las mismas para cada unidad de corte transversal y se refieren a atributos del individuo o agente, por ejemplo, el tipo de empresa, su tamaño, la forma gerencial; el sexo de un trabajador, el nivel de formación, la profesión y otras características sociales de los individuos.

Una variable por periodo, pero sin que existan diferencias en el valor que toma la

variable en cada individuo: las variables toman distintos valores en cada periodo

6 Siglas de Seemingly Unrelated Regression.

Page 67: Curso de Estadística con R Té - Instituto Cántabro de ...

66

temporal pero no varían entre los individuos. Como ejemplo de este tipo de variables cabe citar a la tasa de inflación, los tipos de interés, etc.

Una variable que cambia en el tiempo y por individuo: se trata de variables que

cambian entre individuos en un momento del tiempo, y que además cambian a lo largo del tiempo. Como ejemplo de estas variables se pueden mencionar los ingresos totales, el nivel de beneficios, el stock de capital o el nivel de endeudamiento, entre otras.

Los modelos de datos de panel se interpretan a través de sus componentes de error. Considerando la notación matricial abreviada de un modelo general de datos de panel:

ititit uXY '

El término de error uit incluido en la ecuación anterior, puede descomponerse de la siguiente manera:

ittiit eu

donde i representa los efectos no observables que difieren entre las unidades de estudio pero no en el tiempo (capacidad empresarial, eficiencia de cada unidad, etc.…); λt identifica los efectos no cuantificables que varían en el tiempo pero no entre las unidades de estudio; y eit se refiere al término de error puramente aleatorio. La mayoría de los análisis realizados con datos de panel utilizan el modelo de componente de error conocido como one way para el cual λt =0 (modelo A). Las diferentes variantes para el modelo one way de componentes de errores surgen de los distintos supuestos que se hacen acerca del término i, pudiéndose presentar tres posibilidades:

El caso más sencillo es el que considera 0i ; es decir, la no existencia de

heterogeneidad no observable entre los individuos o empresas. La segunda posibilidad consiste en suponer a i un efecto fijo y distinto para

cada individuo o empresa. En este caso, la heterogeneidad no observable se

incorpora a la constante del modelo ( i ).

Finalmente, la tercera alternativa es tratar a i como una variable aleatoria no

observable que varía entre individuos/empresas pero no en el tiempo. Bajo la primera especificación, los it satisfacen todos los supuestos del modelo lineal general y, por tanto, se emplea como método de estimación MCO, obteniendo estimadores lineales e insesgados y con la ventaja de ganar grados de libertad. Ahora bien, en los casos en que se rechaza el supuesto de homogeneidad en un sistema de datos de panel, es decir, que existe heterogeneidad no observable ya sea a través del tiempo, entre unidades de estudio (individuos) o en ambos sentidos, debe buscarse una especificación que la capture de forma apropiada con el fin de evitar que los estimadores de los parámetros de las variables explicativas estén sesgados.

Page 68: Curso de Estadística con R Té - Instituto Cántabro de ...

67

5.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL

Los modelos de datos de panel presentan una serie de ventajas y desventajas en comparación con los modelos de series temporales y de corte transversal. Las más relevantes son las siguientes: Ventajas

La técnica permite al investigador económico disponer de un mayor número de observaciones, incrementando los grados de libertad, reduciendo la multicolinealidad entre las variables explicativas y, en última instancia, mejorando la eficiencia de las estimaciones econométricas.

Tal y como se mencionó anteriormente, la técnica permite capturar la heterogeneidad no

observable ya sea entre unidades individuales de estudio como en el tiempo. Con base en lo anterior, la técnica de datos de panel permite aplicar una serie de contrastes para confirmar o rechazar dicha heterogeneidad y determinar cómo capturarla.

Los datos de panel suponen, e incorporan al análisis, el hecho de que los individuos o

agentes económicos (consumidores, empresas, regiones, países, etc.…) son heterogéneos. Los análisis de series de tiempo y de corte transversal no incorporan esta heterogeneidad corriendo así el riesgo de obtener resultados sesgados.

Permiten estudiar mejor la dinámica de los procesos de ajuste, ya que a través de ellos

se pueden analizar los cambios en el tiempo de las distribuciones transversales.

Permiten elaborar y probar modelos relativamente complejos de comportamiento en comparación con los análisis de series temporales y de corte transversal. Un ejemplo claro de este tipo de modelos es aquel que trata de medir niveles de eficiencia técnica por parte de unidades económicas individuales.

Finalmente, puesto que las unidades transversales de un panel de datos normalmente se

refieren a individuos, familias o empresas, se evitan los sesgos que aparecen cuando se trabaja con variables agregadas.

Desventajas

En términos generales, las desventajas asociadas a la técnica de datos de panel se relacionan con los procesos para la obtención y el procesamiento de la información estadística sobre las unidades individuales de estudio; es decir cuando ésta se obtiene por medio de encuestas, entrevistas o utilizando algún otro medio de inferencia estadística de los datos. Ejemplos de este tipo de limitaciones son los problemas de selección no aleatoria de la muestra, de recogida de datos con inadecuadas tasas de cobertura de la población, porcentajes de no respuesta, preguntas confusas, distorsión deliberada de las respuestas, etc.

Asimismo, una escasa dimensión temporal puede invalidar alguno de los elementos

teóricos de los modelos de datos de panel.

Por ultimo, algunas investigaciones han demostrado que la utilización de modelos de efectos fijos produce resultados significativamente diferentes al los modelos con efectos aleatorios cuando se estima una ecuación usando una muestra de muchas unidades de

Page 69: Curso de Estadística con R Té - Instituto Cántabro de ...

68

corte transversal con pocos periodos de tiempo (700 individuos con 5 periodos, por ejemplo).

5.4. MODELO DE EFECTOS FIJOS Como ya se mencionó, los modelos de datos de panel permiten contemplar la existencia de efectos individuales específicos a cada unidad, invariables en el tiempo, que determinan la manera en que cada unidad de corte transversal toma sus decisiones. Estos modelos asumen que los efectos de las variables omitidas, ya sean específicas a cada individuo y/o que cambian en el tiempo, no son importantes en forma individual, pero sí en conjunto. Por otro lado, dado que el efecto de las variables omitidas se supone constante en el tiempo para cada individuo, o que no varía en todos los individuos en un determinado momento en el tiempo, o una combinación de ambos, se pueden capturar en el término constante de un modelo de regresión como un promedio que toma en cuenta explícitamente la heterogeneidad entre individuos y/o en el tiempo contenida en los datos. Según la forma de incorporar la heterogeneidad no observada, se pueden diferenciar los modelos de efectos fijos y modelos de efectos aleatorios. Los modelos de efectos fijos se conocen también como modelos mínimos cuadráticos con variables ficticias. Los modelos de datos de panel de efectos fijos tienen la siguiente expresión general:

K

jit

jjitiit eXY

1

donde itY es la variable dependiente, ,it es un escalar que recoge los efectos específicos del i–

ésimo individuo y se supone constante en el tiempo, y ,jitX es el vector de las k variables

explicativas y ,j de los K parámetros que recogen los efectos de las variables explicativas; uit es el término de error que se suponen aleatorios distribuidos con media cero y varianza

constante de valor 2u . El panel de datos corresponde a i = 1,2..., N unidades o individuos de

corte transversal, observados para los períodos t = 1,2..., T. Por tanto, lo que se pretende resolver es un sistema de regresiones específicas con N ecuaciones

de corte transversal: itjj

ititittii eXXXY ...2211 y T observaciones.

Su notación matricial abreviada es:

ititiit eXY '

Agrupando las observaciones temporales, para cada unidad transversal se llega al siguiente modelo:

ititit eXiY '

que en el supuesto de una única variable explicativa tendría la siguiente expresión:

Page 70: Curso de Estadística con R Té - Instituto Cántabro de ...

69

NT

T

T

N

NT

T

T

N

N

NT

T

T

N

e

e

e

e

e

e

X

X

X

X

X

X

i

i

i

Y

Y

Y

Y

Y

Y

.

.

.

.

.

.

.

.

.

.

.

...00

......

0...0

0...0

.

.

.

.

.

2

1

1

21

11

2

1

1

21

11

2

1

2

1

1

21

11

Con este modelo se considera que las variables explicativas afectan por igual a las unidades de corte transversal y que éstas se diferencian por características propias de cada una de ellas, medidas por medio de la intercepción en el origen. Es por ello que las N intercepciones se asocian con variables dummy con coeficientes específicos para cada unidad, los cuales se deben estimar.

La estimación de i y se realiza por MCO, si bien hay que tener presente que este modelo

presenta una pérdida importante de grados de libertad. Un test útil en este tipo de modelos es realizar la prueba F, para comprobar si i para cualquier i. Por otro lado, cabe señalar que

cuando se quiera incluir un término constante hay que introducir únicamente N-1 variables ficticias. Otra manera de plantear este modelo es especificándolo en desviaciones respecto a la media, es decir, restando a cada variable la media en el periodo para cada unidad i-esima. El estimador a utilizar en este caso tiene la siguiente expresión:

''ˆ1 1

1

1 1iit

N

i

T

tiitiit

N

i

T

tiit YYXXXXXX

donde ,i iY X son las medias muestrales del individuo i-ésimo. El estimador de la varianza de es:

1

2

1 1

ˆ ˆ 'N T

e it i it ii t

Var X X X X

donde 2ˆe es la varianza residual, calculada como 2 '

ˆu

e e

NT N K

, donde e’e es la suma de

los residuos del modelo al cuadrado. En general, el estimador de mínimos cuadrados ordinarios (MCO) es apropiado cuando los residuos son incorrelados en el tiempo y homocedásticos en los cortes transversales. Los efectos fijos se estiman en un segundo paso a través de la siguiente ecuación:

Page 71: Curso de Estadística con R Té - Instituto Cántabro de ...

70

T

XYXY

T

titi

iii

1

'

'

ˆˆˆ

El modelo anterior puede extenderse al modelo de efectos fijos de doble vía, en el que aparecen también los efectos no observables temporales, tal que:

eitittiit uXY '

Expresión que equivale a introducir dos conjuntos de variables ficticias, unas individuales y otras temporales; en este caso el estimador MCO tendría las mismas propiedades del modelo anterior. El estimador a utilizar tendría la siguiente expresión:

''ˆ1 1

1

1 1

YYYYXXXXXXXXXXXX tiit

N

i

T

ttiittiit

N

i

T

ttiit

donde ,i iY X , son las medias muestrales del individuo i-ésimo, tt XY , las medias muestrales del

periodo t, y XY , las medias muestrales de las variables para todos los N individuos y T periodos.

Los efectos fijos se estiman en un segundo paso a través de las siguientes relaciones:

ˆˆ 'XXYY iii

ˆˆ 'XXYY ttt

5.5. MODELO DE EFECTOS ALEATORIOS A diferencia del modelo de efectos fijos, el modelo de efectos aleatorios considera que los efectos individuales no son independientes entre sí, sino que están distribuidos aleatoriamente alrededor de un valor dado. Una práctica común en el análisis de regresión es asumir que el gran número de factores que afectan al valor de la variable dependiente pero que no han sido incluidas explícitamente como variables independientes del modelo, puede resumirse apropiadamente en la perturbación aleatoria. Así, en este modelo se considera que tanto el impacto de las variables explicativas como las características propias de cada unidad son diferentes. El modelo de efectos aleatorios o modelo de componentes de la varianza asume que el término

it es la suma de una constante común , una variable aleatoria específica de corte transversal

e invariante en el tiempo i asociada a cada individuo e incorrelada con el residuo ite , y otro

asociado al tiempo λt, también incorrelacionado con el residuo ite .

En lugar de tratar i como una constante fija, esta especificación asume que ),0( 2 Ni

independiente e igualmente distribuida, e incorrelada con ite y itX .

Page 72: Curso de Estadística con R Té - Instituto Cántabro de ...

71

A su vez el modelo también requiere que t está incorrelado en el tiempo tal que 0),( stE ,

y además está incorrelada con i , ite y itX .

Si suponemos que 0t , la especificación del modelo entonces se convierte en:

itiititj

j

i

jitit euuXY

, 1

La estimación de este modelo exige de la utilización de Mínimos Cuadrados Generalizados pues

los residuos del modelo están correlacionados entre sí al estar i incluido tanto en ite como en

ise , para .st

El estimador apropiado de este modelo expresado en desviaciones a la media es, por tanto:

'1

'1ˆ

1 1

'

1

1 1

'iit

N

i

N

iiitiiiit

N

i

N

iiitiiMCG YXXXQYX

TXXXXQXX

T

donde:

22

2

T

'1

eeT

IQ T

Generalmente las varianzas2 (varianza entre grupos) y 2

u no son conocidas y, por tanto,

habrá que estimar un valor para . Para estimar dicho valor un camino sería utilizar las estimaciones de las varianzas de los residuos obtenidas en la solución MCO del modelo.

5.6. ELECCIÓN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS La decisión acerca de la estructura apropiada para el análisis, es decir, efectos fijos vs efectos aleatorios, dependerá de los objetivos que se persigan. Así, Hausman (1978) aconseja utilizar el modelo de efectos fijos para realizar inferencias sobre la muestra utilizada, mientras que el de efectos aleatorios resulta más útil para realizar inferencias sobre la población. Adicionalmente, si el interés del estudio particular está puesto en los coeficientes de las pendientes de los parámetros, y no tanto en las diferencias individuales, se deberá elegir un método que relegue estas diferencias y trate la heterogeneidad no observable como aleatoria. El contexto de los datos, es decir, cómo fueron obtenidos y el entorno de donde provienen, determinan también la elección del modelo. Con el modelo de efectos fijos la heterogeneidad no observable se incorpora en la ordenada al origen del modelo y con el de efectos aleatorios, como ya se mencionó, se incorpora en el término de error, modificándose la varianza del modelo. Asimismo, emplear un modelo de efectos fijos o aleatorios genera diferencias en las estimaciones de los parámetros en los casos en que se cuenta con T pequeño y N grande. En estos casos debe hacerse el uso más eficiente de la información para estimar esa parte de la

Page 73: Curso de Estadística con R Té - Instituto Cántabro de ...

72

relación de comportamiento contenida en las variables que difieren sustancialmente de un individuo a otro. En principio, el enfoque de efectos fijos es más atractivo, ya que no requiere realizar supuestos paramétricos sobre la distribución condicional de la heterogeneidad inobservable. Sin embargo, su desventaja es que solo puede utilizarse en ciertas distribuciones y requiere hacer supuestos muy restrictivos sobre la distribución del término de error como lo son las hipótesis que exige el método MCO. A este respecto hay que tener presente que el modelo de efectos fijos asume la existencia de diferencias entre unidades que se capturan en forma de movimientos de la curva de regresión. (Fig. 5.1).

Figura 5.1. El modelo de efectos fijos, si se estima utilizando variables dummy no identifica directamente la causa de la variación en el tiempo y los individuos, e implica un alto coste informativo en términos de grados de libertad. En cuyo caso deben realizarse algunas consideraciones con respecto a la estructura de los datos, dado que si N es grande y T pequeño, podría darse el caso en que el número de parámetros en el modelo de efectos fijos sea muy grande en relación con el número de datos disponibles, lo que daría lugar a parámetros poco significativos y una estimación ineficiente. Para elegir entre los estimadores del modelo fijo y aleatorio puede utilizarse el test de Hausman, que compara directamente ambos estimadores. El contraste se basa en el hecho de que bajo la

hipótesis de que 0iti XE el estimador del modelo de efectos aleatorios EA es

asintóticamente más eficiente que el estimador MCO del modelo de efectos fijos EF ; sin

embargo, si 0iti XE , el estimador MCO mantendrá la consistencia, mientras que el

estimador MCG será sesgado e inconsistente. El estadístico propuesto por Hausman es:

qqVarqm ˆ)ˆ(ˆ 1'

Page 74: Curso de Estadística con R Té - Instituto Cántabro de ...

73

donde EFEAq ˆˆˆ , y la matriz diagonal )ˆ()ˆ()ˆ( EFEA VarVarqVar . Bajo la hipótesis

nula 00 iti XEH el estadístico m se distribuye como una variable 2k .

Ejemplo 5.1. La librería “plm” ofrece recursos en R para estimar modelos data panel. > install.packages("plm") En esta librería tenemos un conjunto de datos panel relativos a 10 empresas para las que disponemos de las siguientes cifras: año, invesión bruta, valor de la empresa y capital. El conjunto de datos es para el periodo de 1935 a 1954. > data("Grunfeld", package="plm") > str(Grunfeld) 'data.frame': 200 obs. of 5 variables: $ firm : int 1 1 1 1 1 1 1 1 1 1 ... $ year : int 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 ... $ inv : num 318 392 411 258 331 ... $ value : num 3078 4662 5387 2792 4313 ... $ capital: num 2.8 52.6 156.9 209.2 203.4 ... En el conjunto de datos los campos identificativos de las empresas y años deben de ser índices. Para estimar un modelo de data panel de efectos fijos que relacione la inversión realizada por la empresa con su valor contable y su capital, se requiere la siguiente sentencia R: > grun.fe <- plm(inv~value+capital,data=Grunfeld,model="within") > summary(grun.fe) Oneway (individual) effect Within Model Call: plm(formula = inv ~ value + capital, data = Grunfeld, model = "within") Balanced Panel: n=10, T=20, N=200 Residuals : Min. 1st Qu. Median 3rd Qu. Max. -184.000 -17.600 0.563 19.200 251.000 Coefficients : Estimate Std. Error t-value Pr(>|t|) value 0.110124 0.011857 9.2879 < 2.2e-16 *** capital 0.310065 0.017355 17.8666 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Total Sum of Squares: 2244400 Residual Sum of Squares: 523480 R-Squared : 0.76676 Adj. R-Squared : 0.72075 F-statistic: 309.014 on 2 and 188 DF, p-value: < 2.22e-16 Para estimar un modelo con efectos aleatorios: > grun.re <- plm(inv~value+capital,data=Grunfeld,model="random") > summary(grun.re) Oneway (individual) effect Random Effect Model (Swamy-Arora's transformation) Call: plm(formula = inv ~ value + capital, data = Grunfeld, model = "random")

Page 75: Curso de Estadística con R Té - Instituto Cántabro de ...

74

Balanced Panel: n=10, T=20, N=200 Effects: var std.dev share idiosyncratic 2784.46 52.77 0.282 individual 7089.80 84.20 0.718 theta: 0.8612 Residuals : Min. 1st Qu. Median 3rd Qu. Max. -178.00 -19.70 4.69 19.50 253.00 Coefficients : Estimate Std. Error t-value Pr(>|t|) (Intercept) -57.834415 28.898935 -2.0013 0.04674 * value 0.109781 0.010493 10.4627 < 2e-16 *** capital 0.308113 0.017180 17.9339 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Total Sum of Squares: 2381400 Residual Sum of Squares: 548900 R-Squared : 0.7695 Adj. R-Squared : 0.75796 F-statistic: 328.837 on 2 and 197 DF, p-value: < 2.22e-16 Los efectos fijos se extraen con la function “fixef”. > summary(fixef(grun.fe, type = 'dmean')) Estimate Std. Error t-value Pr(>|t|) 1 -11.5528 49.7080 -0.2324 0.816217 2 160.6498 24.9383 6.4419 1.180e-10 *** 3 -176.8279 24.4316 -7.2377 4.565e-13 *** 4 30.9346 14.0778 2.1974 0.027991 * 5 -55.8729 14.1654 -3.9443 8.003e-05 *** 6 35.5826 12.6687 2.8087 0.004974 ** 7 -7.8095 12.8430 -0.6081 0.543136 8 1.1983 13.9931 0.0856 0.931758 9 -28.4783 12.8919 -2.2090 0.027174 * 10 52.1761 11.8269 4.4116 1.026e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 76: Curso de Estadística con R Té - Instituto Cántabro de ...

75

6. MÉTODOS DE ESTIMACIÓN NO PARAMÉTRICOS

6.1. INTRODUCCIÓN Se dice que se ajusta el modelo paramétrico cuando se estiman sus parámetros a partir de un conjunto de observaciones que siguen dicho modelo, de manera que pueden hacerse predicciones de nuevos valores de Y conocido el valor de X, y tener información precisa acerca de la incertidumbre asociada a la estimación y a la predicción. Sin embargo, si el modelo paramétrico no es el adecuado al análisis de datos que estamos realizando, pueden llevar a conclusiones que queden muy alejadas de la realidad, dado que el modelo paramétrico conlleva un grado de exactitud en las afirmaciones que de él se derivan y que son adecuadas siempre y cuando se cumplan los supuestos básicos sobre los que se apoya su construcción teórica. De hecho, los modelos paramétricos presentan una estructura teórica tan rígida que no pueden adaptarse a muchos conjuntos de datos de los que hoy día se disponen para el análisis económico. La econometría no paramétrica aparece como consecuencia de intentos por solucionar problemas que existen en la econometría paramétrica como, por ejemplo, la consistencia entre los datos y los principios de maximización, homocedasticidad, o la necesidad de asumir una determinada relación, por lo general de forma lineal entre las variables de interés. Esta preocupación llevó a una serie de investigadores a utilizar formas funcionales flexibles para aproximarse a relaciones desconocidas entre las variables. El plantear formas funcionales flexibles requiere el conocimiento del valor esperado de la variable Y, condicional en las otras, X. Esto conlleva la necesidad de estimar la función de densidad de Y condicional en X. La econometría no paramétrica no parte de supuestos sobre la distribución de probabilidad de las variables bajo estudio, sino que trata de estimar dicha distribución para encontrar la media condicional y los momentos de orden superior (por ejemplo, la varianza) de la variable de interés. Una de las desventajas de este método es, sin embargo, la necesidad de contar con muestras muy grandes si es que se desea estimar la función de relación entre ambas variables de manera precisa. Además el tamaño de la muestra debe aumentar considerablemente conforme aumenta el número de variables involucradas en la relación. Los modelos de regresión paramétricos suponen que los datos observados provienen de variables aleatorias cuya distribución es conocida, salvo por la presencia de algunos parámetros cuyo valor se desconoce.

iii xy 10 , con 2,0 Ni

Este es un modelo estadístico con tres parámetros desconocidos: 0 ; 1 y 2 .

Una formulación general de un modelo de regresión paramétrico es la siguiente:

iii xmy );( , ni ,...,1 , p

Donde );( ixm es una función conocida de x y de , que es desconocido, n ...1 es una

variable aleatoria idénticamente distribuida con 0iE y 2 iV . El modelo de

regresión lineal simple sería un caso particular con 1, o y iooi xxm 11),;( .

Se supone que se observan n pares de datos ii yx , que provienen del siguiente modelo de

regresión no paramétrico:

iii xmy )(

Page 77: Curso de Estadística con R Té - Instituto Cántabro de ...

76

Donde n ...1 es una variable aleatoria idénticamente distribuida con 0iE y 2 iV ,

y los valores de la variable explicativa nxx ...1 son conocidos, por lo que se dice que el modelo

tiene diseño fijo, y dado que la varianza de los errores es constante el modelo es Homocedástico. Considerando YX , una variable aleatoria bivariante con densidad conjunta yxf , , cabe

definir la función de regresión como )/()( xXYExm , es decir el valor esperado de Y

cuando X toma el valor conocido x . Entonces )()/( XmXYE , y definiendo

)(XmY , se tiene que:

)(XmY , 0)/( XE , 2)/( XV

Sean ii YX , , i=1…n, una muestra aleatoria simple de YX , . Estos datos siguen el modelo de

regresión no paramétrico:

iii XmY )( , i=1…n.

Una vez establecido el modelo, el paso siguiente consiste en estimarlo (o ajustarlo) a partir de las n observaciones disponibles. Es decir hay que construir un estimador )(ˆ xm de la función de

regresión y un estimador 2 de la varianza del error. Los procedimientos de estimación de )(xm se conocen como métodos de suavizado.

El abanico de técnicas disponibles para estimar no paramétricamente la función de regresión es amplísimo e incluye, entre otras, las siguientes:

Ajuste local de modelos paramétricos. Se basa en hacer varios (o incluso infinitos, desde un punto de vista teórico) ajustes paramétricos teniendo en cuenta únicamente los datos cercanos al punto donde se desea estimar la función.

Suavizado mediante splines. Se plantea el problema de buscar la función )(ˆ xm que

minimiza la suma de los cuadrados de los errores ( )(ˆ iii xmye ) más un término que

penaliza la falta de suavidad de las funciones ( )(ˆ xm ) candidatas (en términos de la integral del cuadrado de su derivada segunda).

Métodos basados en series ortogonales de funciones. Se elige una base ortonormal del espacio vectorial de funciones y se estiman los coeficientes del desarrollo en esa base de la función de regresión. Los ajustes por series de Fourier y mediante wavelets son los dos enfoques más utilizados.

Técnicas de aprendizaje supervisado. Las redes neuronales, los k vecinos más cercanos y los árboles de regresión se usan habitualmente para estimar )(xm .

6.2. FUNCIÓN NÚCLEO Los histogramas son siempre, por naturaleza, funciones discontinuas; sin embargo, en muchos casos es razonable suponer que la función de densidad de la variable que se está estimando es continua. En este sentido, los histogramas son estimadores insatisfactorios. Los histogramas tampoco son adecuados para estimar las modas, a lo sumo, pueden proporcionar “intervalos modales", y al ser funciones constantes a trozos, su primera derivada es cero en casi todo punto, lo que les hace completamente inadecuados para estimar la derivada de la función de densidad. Los estimadores de tipo núcleo (o kernel) fueron diseñados para superar estas dificultades. La idea original es bastante antigua y se remonta a los trabajos de Rosenblatt y Parzen en los años

Page 78: Curso de Estadística con R Té - Instituto Cántabro de ...

77

50 y primeros 60. Los estimadores kernel son, sin duda, los más utilizados y mejor estudiados en la teoría no paramétrica. Dada una m.a.s. nXX ...1 con densidad f , estimamos dicha densidad en un punto t por medio

del estimador

n

i

i

h

XtK

nhtf

1

donde h es una sucesión de parámetros de suavizado, llamados ventanas o amplitudes de banda (windows, bandwidths) que deben tender a cero ”lentamente" ( 0h , nh ) para poder

asegurar que f tiende a la verdadera densidad f de las variables iX y K es una función que

cumple 1K . Por ejemplo:

Núcleo gaussiano

2

2

2

1 u

e

Núcleo Epanechnikov7

121

4

3 uIu

donde 1uI es la función que vale 1 si 1u y 0 si 1u

Núcleo Triangular

11 uIu

Núcleo Uniforme

12

1uI

Núcleo Biweight

121

16

15 uIu

Núcleo Triweight

121

32

35 uIu

Para elegir la ventana h puede seguirse la siguiente regla8 7 Otra expresión alternativa de la función núcleo de Epanechnikov es:

5

2

5

11

4

3

uIu

donde 5u

I es la función que vale 5

1 si 5u y 0 si 5u

8 Por lo general, los programas informáticos eligen el ancho de ventana siguiendo criterios de optimización (error cuadrático medio).

Page 79: Curso de Estadística con R Té - Instituto Cántabro de ...

78

51

101

8

3

nsh nK

Donde n es el tamaño de la muestra

2

1

1

21

n

iin XX

ns

K depende del núcleo K, y se calcula como:

51

22

2

dttKu

dttKK

Por ejemplo:

Si K es el núcleo gaussiano, entonces 10

1

4

1

K

Si K es el núcleo Epanechnikov, entonces 51

15K Ejemplo 6.1 En R la estimación de una función de densidad kernel se realiza con la función “density”, con los datos del vector x hay que realizar el siguiente programa: > x <- c(2.1,2.6,1.9,4.5,0.7,4.6,5.4,2.9,5.4,0.2) > density(x,kernel="epanechnikov") Call: density.default(x = x, kernel = "epanechnikov") Data: x (10 obs.); Bandwidth 'bw' = 1.065 x y Min. :-2.99424 Min. :0.00000 1st Qu.:-0.09712 1st Qu.:0.02366 Median : 2.80000 Median :0.09427 Mean : 2.80000 Mean :0.08621 3rd Qu.: 5.69712 3rd Qu.:0.15245 Max. : 8.59424 Max. :0.16948 > plot(density(x,kernel="epanechnikov"))

Page 80: Curso de Estadística con R Té - Instituto Cántabro de ...

79

6.3. ESTIMADORES DE FUNCIÓN NÚCLEO Y POLINOMIOS LOCALES La alternativa no paramétrica a los modelos de regresión, supone que

eXmY )( donde m es una función que no se supone “confinada" dentro de una familia paramétrica. Se trata de estimar m a partir de una muestra 11,YX …; nn YX , .

Los estimadores núcleo establecen que el peso de ii YX , en la estimación de m es

)(ˆ

1

),(tf

h

XtK

hXtW

i

ii

donde K(t) es una función de densidad simétrica (por ejemplo, la normal estándar) y

)(ˆ tf es un estimador kernel de la densidad como el definido en el apartado anterior.

),( ii XtW es, para cada i, una función de ponderación que da “mayor importancia" a los valores

iX de la variable auxiliar que están cercanos a t.

Una expresión alternativa para ),( ii XtW

n

j

i

i

ii

h

XtK

h

XtK

XtW

1

),(

Page 81: Curso de Estadística con R Té - Instituto Cántabro de ...

80

A partir de los pesos iW puede resolverse el problema de mínimos cuadrados ponderados

siguiente:

21

,min ii

n

ii

baXtbaYW

los parámetros así obtenidos dependen de t, porque los pesos iW también dependen de t, la recta

de regresión localmente ajustada alrededor de t sería : ))(()()( XttbtaXlt

Y la estimación de la función en el punto en donde tX

)()()(ˆ tatltm t

Las funciones núcleo usadas en la estimación no paramétrica de la regresión son las mismas que en la densidad. Si se generaliza al ajuste local de regresiones polinómicas de mayor grado, es decir si pretendemos estimar una forma lineal del tipo:

qq XXX ...2

210

con la salvedad de que en vez del valor iX en la regresión lineal múltiple se utiliza el valor

iXt . El estimador de polinomios locales de grado q asignado los pesos iW obtenidos

mediante la función núcleo se resuelve el siguiente problema de regresión polinómica ponderada:

2101

.....min

0

qiqii

n

ii XtXtYW

q

Los parámetros tjj ˆˆ dependen del punto t en donde se realiza la estimación, y el

polinomio ajustado localmente alrededor de t sería:

q

j

jjtq XtXtP

0,

Siendo )(tm el valor de dicho polinomio estimado en el punto en donde tX :

tPtm otqq 0ˆ , .

En el caso particular del ajuste de un polinomio de grado cero, se obtiene el estimador de Nadaraya −Watson, o estimador núcleo de la regresión:

n

iiin

i

i

n

ii

i

K YXtW

h

XtK

Yh

XtK

tm1

1

1 ,)(ˆ

Definida la matriz

qnn

q

t

XtXt

XtXt

X

...1

.....

.....

...1 11

Page 82: Curso de Estadística con R Té - Instituto Cántabro de ...

81

Y definidos los vectores nYYY ...1 , n ...1 , q ...0 . Se calcula la matriz de

pesos tW

tXW

tXW

tXW

W

nn

t

,...00

0.....

0...,.0

0...0,

22

11

Habría que estimar por mínimos cuadrados generalizados el modelo XY , cuya solución es:

YWXXWXt ttttt'1')(ˆ

Pueden tomar los pesos:

n

j

i

i

ii

h

XtK

h

XtK

XtW

1

),(

o

h

XtKXtW i

ii ),(

El estimador del parámetro de suavizado h tiene una importancia crucial en el aspecto y propiedades del estimador de función de regresión. Valores pequeños de h dan mayor flexibilidad al estimador y le permiten acercarse a todos los datos observados, pero originan altos errores de predicción (sobre-estimación), valores mas altos de h ofrecerán un menor grado de ajustes a los datos pero predicican mejor, pero si h es demasiado elevado tendremos una falta de ajuste a los datos (sub-estimación). Ejemplo 6.2 Utilizando la base de datos “cars” de R, que contine las variables “dist” (distancia de parada) y “speed” (velocidad), vamos a realizar la representación gráfica de la regresión kernel realizada con el estimador de Nadaraya–Watson con diferentes parámetros de suavizado. > data(cars) > plot(cars$speed, cars$dist) > lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 2), col = 2) > lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 5), col = 3)

Page 83: Curso de Estadística con R Té - Instituto Cántabro de ...

82

Si la cantidad de datos de que disponemos lo permite, lo habitual es obtener dos muestras una para la estimación del modelo (muestra de entrenamiento) y otra muestra para predecir (muestra de test). En este caso una medida de calidad del parametro h de suavizado es el error cuadrático medio de la población de la muestra de test:

tn

ititi

ttest XmY

nhECMP

1

2,, ˆ

1)(

Donde titi YX ,, , , tni ...1 , es la muestra test y Xm es el estimador no paramétrico

construido con la muestra de entrenamiento. El valor h que minimice dicho error sería el parámetro de suavización elegido. Si no de puede disponer de una muestra de test, la alternativa consiste en sacar de la muestra consecutivamente cada una de las observaciones iX , y estimar el modelo con los restantes

datos y predecir el dato ausente con el estimador obtenido, para después calcular el error de predicción. Se construye entonces la siguiente medida del error de predicción (validación cruzada) para cada h:

n

iiiiCV XmY

nhECMP

1

2ˆ1

)(

Donde Xmiˆ es el estimador obtenido al excluir la observación i-esima.

El valor h que minimice dicho error de validación cruzada sería el parámetro de suavización elegido.

Teniendo presente que el valor que predecimos iY no deja de ser una combinación lineal de los

valores observados:

SYYWXXWXXXY tttttt '1'ˆˆ

Siendo tttttt WXXWXXS '1' , matriz que se denomina de suavizado cuyo elemento ji, se

nombra ijs .

Dado que:

n

i ii

iiCV s

YY

nhECMP

1

2

1

ˆ1)(

Page 84: Curso de Estadística con R Té - Instituto Cántabro de ...

83

no es necesario ajustar las n regresiones no paramétricas, sino que vasta con evaluar todos los datos y anotar los valores de la diagonal principal de la matriz S . Una modificación de la función anterior (Validación cruzada generalizada) permite obtener un estimador de la varianza de los errores del modelo:

n

i

iiGCV

nvYY

nhECMP

1

2

1

ˆ1)(

Donde

n

iiisSTrazav

1

Entonces:

vn

nhECMPGCV

2ˆ)(

y

n

iii YY

vn 1

22 ˆ1ˆ

6.4. REGRESIÓN POR SPLINES Para poder estimar la función f de la forma más sencilla posible, deberíamos poder representar

f de forma que iii exfY )( , nei ....,2,1 se convierta en un modelo lineal.

Y esto se puede hacer eligiendo una base de funciones de dimensión q que genere un

subespacio de funciones que incluya a f como elemento y que pueda expresarse como:

q

jjj xsxf

1

)(

Siendo j un parámetro desconocido, asociado al elemento j , )(xs j de dicha base de

funciones. De manera que:

i

q

jjji exsY

1

, nei ....,2,1

Se convierte en un modelo lineal de dimensión q . La regresión con funciones base polinómicas es la propuesta más sencilla para este tipo de estimaciones. Supongamos que f es un polinomio de grado 4 de forma que el espacio de polinomios de

grado 4 contiene a f . Una base de este subespacio es:

45

34

23

2

1

)(

)(

)(

)(

1)(

xxs

xxs

xxs

xxs

xs

Con lo que el modelo (10.1) se convierte en:

Page 85: Curso de Estadística con R Té - Instituto Cántabro de ...

84

iiiiii exxxxY 45

34

2321

Un spline es una curva diferenciable definida en porciones mediante polinomios, que se utiliza como bases de funciones para aproximar curvas con formas complicadas. Las bases de spilines más populares:

Bases de polinomios truncados. Bases de splines cúbicos. Bases de B-splines. Bases de thin plate splines.

Una función spline está formada por varios polinomios, cada uno definido sobre un subintervalo, que se unen entre sí obedeciendo a ciertas condiciones de continuidad.

Supongamos que se ha fijado un entero 0q , de manera que disponemos de q+1 puntos, a

los que denominaremos nodos, tales que qtttt ....210 , en los que troceamos nuestro

conjunto de. Decimos entonces que una función spline de grado q con nodos en qttt ,....,, 21 es

una función S que satisface las condiciones:

(i) en cada intervalo jj tt ,1 , S es un polinomio de grado menor o igual a q .

(ii) S tiene una derivada de orden (q-1) continua en qo tt , .

Los splines de grado 0 son funciones constantes por zonas. La expresión matemática de un spline de grado 0 es la siguiente:

qqqq

jjjj

oo

ttxcxS

ttxcxS

ttxcxS

xS

,)(

..

,)(

,)(

)(

111

1

10

En la figura 6.1 se muestran las gráficas correspondientes a los splines de grado cero.

Figura 6.1.

Los splines de grado 0, se define en un solo tramo de nudo y ni siquiera es continua en los nudos. Equivale a realizar una regresión por tramos.

iiqqiioi excxcxcY 11110 ....

Page 86: Curso de Estadística con R Té - Instituto Cántabro de ...

85

siendo

resto

ttxc

jj

j

0

,1 1

Un spline de grado 1 o lineal se puede definir por:

qqqqq

jjjjj

ooo

ttxbxaxS

ttxbxaxS

ttxbxaxS

xS

,)(

..

,)(

,)(

)(

1111

1

10

La representación gráfica de un spline lineal aparece en la figura 6.2:

Figura 6.2. Las funciones de spilines más comúnmente utilizadas son las de grado 3 ó cúbicas. Son polinomios de grado tres a trozos, que son continuos en los nodos al igual que su primera y segunda derivada, proporcionando un excelente ajuste a los puntos tabulados y a través de cálculo que no es excesivamente complejo.

Sobre cada intervalo qqo tttttt ,,...,,,, 1211 , S está definido por un polinomio cúbico

diferente. Si el polinomio cúbico que representa a b en el intervalo 1, jj tt , por tanto:

qqqqqqq

jjjjjjj

ooooo

ttxdxcxbxaxS

ttxdxcxbxaxS

ttxdxcxbxaxS

xS

,)(

..

,)(

,)(

)(

1113

13

11

123

1033

Los polinomios 1jS y jS interpolan el mismo valor en el punto jt , es decir, se cumple:

ijiij xSyxS 1

Page 87: Curso de Estadística con R Té - Instituto Cántabro de ...

86

por lo que se garantiza que S es continuo en todo el intervalo. Además, se supone que S' y S'' son continuas, condición que se emplea en la deducción de una expresión para la función del spline cúbico.

Aplicando las condiciones de continuidad del spline S y de las derivadas primera S' y segunda S'', es posible encontrar la expresión analítica del spline.

Una de las bases de splines cúbicos más utilizadas basadas en 2q nodos interiores, *jx ,

2,...,1 qj , es:

),()(

)(

1)(

)(*

2

1

jj

o

xxRxS

xxS

xS

xS

Siendo

240

72

12

12

124

112

12

112

12

14

1),(2422

zxzxxzzxR

Con esta base de splines definimos f a través de un modelo lineal con matriz de regresores X con n filas y q columnas cuya i_esima fila es:

*2

*2

*1 ,,...,,,,,,1 kiiiii xxRxxRxxRxX

Los elementos de una base de splines cúbicos son polinomios de grado 3. Un Spline cúbico se representa en la figura 6.3:

Figura 6.3. Un tema importante es la elección del grado de suavización del spline. Una de las posibilidades es a través del contraste de hipótesis, valorar la posibilidad de utilizar uno o más nodos. Pero lo aconsejado es mantener fija la base de splines y controlar el grado de suavización añadiendo una penalización a la función objetivo de mínimos cuadrados:

S'

Donde S es una matriz de orden qq con coeficientes conocidos que dependen de la base

elegida y un parámetro de suavizado . La solución del modelo de regresión lineal penalizado en donde la matriz de regresores está ahora definida por la base de splines y la penalización sería:

yXSXXpenal ''ˆ 1

El modelo de regresión lineal con spilines penalizados es equivalente al siguiente modelo de regresión lineal:

Page 88: Curso de Estadística con R Té - Instituto Cántabro de ...

87

eXY ''

En donde )'0...0,0,(' YY es un vector de dimensión 1)( qn , es decir el vector Y seguido de tantos ceros como nodos se han utilizado en la base de splines.

La matriz de regresores

B

XX ' tiene ahora orden qqn )( , siendo B una matriz que

cumple BBS ' y que se obtiene a través de la descomposición de Cholesky y el parámetro de suavizado y e un vector de 1)( qn errores aleatorios. El parámetro de suavización, , es a priori desconocido y hay que determinarlo, si es muy alto suaviza los datos en exceso, un criterio utilizado para elegir el parámetro es del valor que minimiza el estadístico general de validación cruzada:

''

'''''1

11

XSXXXItraza

yXSXXXyyXSXXXynvg

La regresión por splines puede realizarse con múltiples variables explicativas, si tenemos ahora dos explicativas, ix y iz , y queremos estimar el siguiente modelo aditivo:

iiii ezfxfy )()( 21

Representaríamos cada una de estas dos funciones a través de una base de splines penalizados, que tomando la base cúbica quedaría:

2

1

*211 ,)(

q

jjii xxRxxf

y

2

1

*212 ,)(

q

jjii zzRzzf

Ejemplo 6.3 Partiendo de la base de datos “cars” utilizada en el ejemplo 6.4, la función R “smooth.spline” realiza la regresión por splines utilizando una base de splinee cúbicos penalizados: > plot(speed, dist, main = "data(cars) & smoothing splines") > cars.spl1 <- smooth.spline(speed, dist) > cars.spl1 Call: smooth.spline(x = speed, y = dist) Smoothing Parameter spar= 0.7801305 lambda= 0.1112206 (11 iterations) Equivalent Degrees of Freedom (Df): 2.635278 Penalized Criterion: 4187.776 GCV: 244.1044 En la función “smooth.spline” el parámetro de suavizado es un valor generalmente entre 0 y 1, en tanto que el coeficiente que denomina se obtiene en el criterio de aceptación (logaritmo de verosimilitud penalizado). En el ejercicio el programa elige un 7801305,0spar . Si se desea un función menos suavizada habrá que elegir un parámetro de suavizado más bajo, en línea roja se representa en el gráfico la regresión por splines que se obtendría con un parámetro de suavizado de valor 0,10.

Page 89: Curso de Estadística con R Té - Instituto Cántabro de ...

88

> cars.spl2 <- smooth.spline(speed, dist,spar=0.10) > lines(cars.spl1, col = "blue") > lines(cars.spl2, col = "red")

6.5. APROXIMACIÓN POR SERIES DE FOURIER La forma de Fourier permite aproximar arbitrariamente cerca tanto a la función como a sus derivadas sobre todo el dominio de definición de las mismas. La idea que subyace en este tipo de aproximaciones (que podrían denominarse semi-no-paramétricas) es ampliar el orden de la base de expansión, cuando el tamaño de la muestra aumenta, hasta conseguir la convergencia asintótica de la función aproximante a la verdadera función generadora de los datos y a sus derivadas (Gallant, A.R.; 1981, 1984). Un polinomio de Fourier viene dado por la expresión:

k

jojoj tjwvtjwu

a

1

sincos2

Donde k es el número de ciclos teóricos o armónicos que consideramos, siendo el máximo n/2.

nw

20 es la frecuencia fundamental (también denominada frecuencia angular fundamental).

t toma los valores enteros comprendidos entre 1 y n (es decir, t = 1, 2, 3, ...n). Los coeficientes de los armónicos vienen dados por las expresiones:

n

iioij

n

iiij

n

ii jtwy

nvjtwy

nuy

n

a

110

1

sin2

,cos2

,2

2

La aproximación a una función no periódica )(xg por una serie de expansión de Fourier se escribe como:

jxsvjxuaxg j

J

jj sincos/

1

El vector de parámetros es JJ vuvua ,,...,, 11 de longitud JK 21 .

Page 90: Curso de Estadística con R Té - Instituto Cántabro de ...

89

Suponiendo que los datos siguieran el modelo iii exgy )( para i=1,2,…,n estimaríamos

por mínimos cuadrados, minimizando

n

iiKin xgyns

1

2/1

Dado que la variable exógena ix no esta expresada en forma periódica, debe de transformase o

normalizarse en un intervalo de longitud menor que 2 , 2,0 . Ejemplo 6.5 En este ejemplo vamos a utilizar la base de datos de la Agencia Española de Meteorológica (Aemet) desde el R-package fda.usc. La base de datos contiene mediciones diarias de temperatura, velocidad del viento y precipitaciones de 73 diferentes estaciones meteorológicas de España para los años 1980 a 2009. En este ejemplo vamos a analizar las temperaturas medias diarias de Santander que representamos gráficamente en R, con la siguiente programación: > library(fda)

> library(fda.usc)

> data(aemet,package = "fda.usc")

> tt = aemet$temp$argvals

> temp = as.data.frame(aemet$temp$data,row.names=F)

> range.tt = aemet$temp$rangeval

> inv.temp = data.frame(t(aemet$temp$data)) # 365 x 73 matrix

> names(inv.temp) = aemet$df$name

> plot(ts(inv.temp[,21]),main="Temperaturas medias diarias Santander

1980-2009")

Temperaturas medias diarias Santander 1980-2009

Time

ts(i

nv.

tem

p[,

21

])

0 100 200 300

10

12

14

16

18

20

A continuación se van a suavizar estas temperaturas diarias utilizando funciones periódicas de Fourier, en concreto vamos a utilizar las funciones de base igual a 5. Es decir, los armónicos que se obtendrían con:

Page 91: Curso de Estadística con R Té - Instituto Cántabro de ...

90

5

1

sincosj

ojoj tjwvtjwu

> Santander5 = create.fourier.basis(rangeval = range(tt),nbasis = 5)

> plot(Santander5)

0 100 200 300

-0.0

50

.00

0.0

5

La función: smooth.basis(argvals=1:n, y, fdParobj), del R-package fda, donde argvals es el dominio, y es el conjunto de valores a suavizar, y fdParobj, la función base utilizada como regresores: > Santanderfourier5.fd = smooth.basis(argvals = tt, y =

inv.temp[,21],fdParobj = Santander5)

> plot(ts(inv.temp[,21]),main="Temperaturas medias diarias Santander

1980-2009")

> lines(Santanderfourier5.fd,col="red")

Page 92: Curso de Estadística con R Té - Instituto Cántabro de ...

91

Temperaturas medias diarias Santander 1980-2009

Time

ts(i

nv.

tem

p[,

21

])

0 100 200 300

10

12

14

16

18

20

Page 93: Curso de Estadística con R Té - Instituto Cántabro de ...

92

7. REGRESIÓN EN EL DOMINIO DE LA FRECUENCIA

7.1. INTRODUCCIÓN

Nerlove (1964) y Granger (1969) fueron los primeros investigadores en aplicar el Análisis espectral a las series de tiempo en economía. El uso del análisis espectral requiere un cambio en el modo de ver las series económicas, al pasar de la perspectiva del tiempo al dominio de la frecuencia. El análisis espectral parte de la suposición de que cualquier serie tX , puede ser

transformada en ciclos formados con senos u cósenos:

n

jjjt n

ftsenob

n

ftax

1

22cos (7.1)

donde es la media de la serie, ja y jb son su amplitud, f son las frecuencias que del

conjunto de las n observaciones, t es un índice de tiempo que va de 1 a N , siendo N el número de periodos para los cuales tenemos observaciones en el conjunto de datos, el cociente

n

ftconvierte cada valor de t en escala de tiempo en proporciones de n2 y rango j desde 1

hasta n siendo 2

Nn (es decir, 0,5 ciclos por intervalo de tiempo). La dinámica de las altas

frecuencias (los valores más altos de f ) corresponden a los ciclos cortos en tanto que la

dinámica de la bajas frecuencias (pequeños valores de f ) van a corresponder con los ciclos

largos. Si nosotros hacemos que n

f la ecuación (7.1) quedaría, así:

n

jjjjjt tsenobtax

1

cos (7.2)

El análisis espectral puede utilizarse para identificar y cuantificar en procesos aparentemente a aperiódicos, sucesiones de ciclos de periodo de corto y largo plazo. Una serie dada tx puede

contener diversos ciclos de diferentes frecuencias y amplitudes, y esa combinación de frecuencias y amplitudes de carácter cíclico la hace aparecer como una serie no periódica e irregular. De hecho la ecuación (7.2), muestra que cada observación t de una serie de tiempo, es el resultado sumar los valores en t que resultan de N ciclos de diferente longitud y amplitud, a los que habría que añadir si cabe un termino de error. Realizar un análisis de Fourier a una serie temporal de n datos, equivale a estudiar la variabilidad de dicha serie en base a los ciclos de diferentes frecuencias a que da lugar:

,...,

4,

2

nn. La frecuencia

n

pp

2 recibe el nombre de armónico, p . Y los armónicos

2

np , pueden expresarse de la siguiente forma:

ppppppp tRsenoba coscos

donde ppp baR y

p

pp a

b1tan

Page 94: Curso de Estadística con R Té - Instituto Cántabro de ...

93

La representación gráfica de

4

2pnR

I frente recibe el nombre de periodograma de las

serie de datos. Una tendencia produce un pico en la representación gráfica del periodograma en la frecuencia cero, mientras que las variaciones estacionales procuren "picos" en las frecuencias estacionales y sus múltiplos enteros, de manera que si un peridograma presenta un "pico" en alguna frecuencia , presentará también "picos" en las frecuencias ,...3,2

7.2. REGRESIÓN BAND SPECTRUM Hannan (1963) fue quien propuso la regresión en dominio de la frecuencia (regresión band spectrum). Engle (1974), demostró que dicha regresión no alteraba los supuestos básicos de la regresión clásica, cuyos estimadores eran Estimadores Lineales Insesgados y Óptimos (ELIO). En Engel (1974) el periodograma de la explicativa , x , es definido como:

2ˆ xwf kkx

siendo kw el vector fila:

kkk iTiik eeew )1(2 ,...,,,1

donde Tk

k 2 ; y t=0;1;…;T-1;

Txwk sería el elemento k-ésimo de la transformada finita

de Fourier del vector columna de tx .

El cross-periodograma entre las series tx e ty

ywxwf kkkxyˆ

donde * es la compleja conjugada de la transpuesta. El periodograma es un estimador insesgado del espectro, sin embargo es asintóticamente insesgado e inconsistente con la varianza de cada estimador espectral a medida que la muestra tiende a infinito. Esta inconsistencia que obligaría al uso de ventanas en el periodograma con el fin de obtener estimaciones del espectro, no anula las propiedades de la regresión realizada con el periodograma. Haciendo

1

2

1

0

.

tw

w

w

w

W

Se cumple que WWIWW '' debido a las ortogonalidad de los productos de senos y cósenos.

Y obteniendo el vector x~ como la transformada de Fourier de x en T periodos, podemos transformar el modelo de regresión múltiple:

uxy (7.3) En

uxy ~~~

Page 95: Curso de Estadística con R Té - Instituto Cántabro de ...

94

Se trata de una regresión con variables aleatorias complejas pero que no afecta a los supuestos básicos del modelo de regresión clásico. Las propiedades del error u~ :

'')'()''()'~~()~var( 2 WWWuuWEWWuuEuuEu u

Si I , entonces Iu u2)~var( .

Asumiendo que x es independiente de u , el teorema de Gauss-Markov implicaría que

yxxx ~'~~'~ˆ 1 es un estimador ELIO con la siguiente matriz de varianza y covarianzas: 12 )~'~()ˆvar( xxu

El estimador mínimo-cuadrático en términos del periodograma se formularía:

1

0

11

0

ˆˆˆT

kkxy

T

kkxx ff

donde kxxf ˆ es la matriz de cross-periodogramas de cada frecuencia e

kxyf ˆes el vector del

cross-periodograma de tx e ty . La transformación de los datos originales del dominio del tiempo al dominio de la frecuencia utilizando series finitas de senos y cósenos en la regresión band spectrium, se realiza a través de la matriz ortogonal A, con el elemento (j,t)th (Harvey, 1978) :

TjT

TTjT

tj

T

TTjT

tj

T

jT

a

t

tj

12

1

2

1

2

1

2

1

,

)1(1

/)1(,...,7,5,311

sin2

)1/()2(,...,6,4,21

cos2

11

(7.4) De esta forma los problemas derivados del uso de la transformada compleja de Fourier pueden ser eludidos. Asimismo afirma que el vector de residuos definido en (7.3) da lugar a un vector de residuos del modelo transformado a través de A:

uAXyAv ˆˆ de forma que :

Page 96: Curso de Estadística con R Té - Instituto Cántabro de ...

95

21

22

212

22

212

22

ˆ22

,ˆ2

2

1,...,1,ˆˆ

12

,...,1,ˆˆ

vp

imparTyT

jvp

imparTsiT

jvvp

parTsiT

jvvp

p

o

jj

jjj

jjj

j

Puede ser utilizado de forma consistente como estimador del periodograma de u . Al ser un

estimador MCO de , puede utilizarse el test del periodograma acumulado de Durbin (Durbin, 1969). Tan H.B and Ashley R (1999), señalan que el procedimiento de elaboración del cross-periodograma consta de tres etapas: 1.- Transformar los datos originales del dominio del tiempo al dominio de la frecuencia utilizando series finitas de senos y cosenos. Implicaría premultiplicar los datos originales por una matriz ortogonal, A, sugerida por Harvey (1978). 2.- Permitir la variación de k a través de m bandas de frecuencia usando variables Dummy

)...( 1 mjj DD . Estas variables se elaboran a partir de submuestras de las T observaciones del

dominio de frecuencias, de esta forma jksj xD ~ si la observación j está en la banda de

frecuencias s y 0sjD , en el resto de los casos. Para obtener las submuestras proponen el

“stabilogram” test (Ashley, 1984). 3.- Re-estimar el resultado del modelo de regresión en el dominio del tiempo con las estimaciones k ...1 y los coeficientes de las m variables Dummy. Implicaría premultiplicar la

ecuación de regresión ampliada por las variables Dummy por la transpuesta de A. Ejemplo 7.1 En la tabla siguiente se recogen las cifras de Consumo de energía final eléctrica (TEP) y del PIB en Millones de euros de España en el periodo 1992 y 2008.

Page 97: Curso de Estadística con R Té - Instituto Cántabro de ...

96

Consumo de Energía Final Eléctrica (TEP) PIB (Mill euros año 2000)1992 11244 484580,9

1993 11237 479583,3

1994 11777 491011,6

1995 12116 515405

1996 12655 527862,4

1997 13672 548283,8

1998 14202 572782

1999 15241 599965,8

2000 16205 630263

2001 17279 653255

2002 17759 670920,4

2003 18916 691694,7

2004 19834 714291,2

2005 20827 740108

2006 22052 769850,2

2007 22548 797366,8

2008 22817 804223,1

Fuente: INE La regresión Mínimo Cuadrática en el dominio del tiempo de ambas series ofrece los siguientes resultados: >y <- c(11244,11237,11777,12116,12655,13672,14202,15241,16205,17279,17759,18916,19834,20827,22052,22548) >x <- c(484581,479583,491012,515405,527862,548284,572782,599966,630263,653255,670920,691695,714291,740108,769850,797367) > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -346.73 -195.25 -28.16 194.01 360.10 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -6.689e+03 3.707e+02 -18.04 4.32e-11 *** x 3.687e-02 5.919e-04 62.30 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 242.6 on 14 degrees of freedom Multiple R-squared: 0.9964, Adjusted R-squared: 0.9961 F-statistic: 3882 on 1 and 14 DF, p-value: < 2.2e-16 La transformación de los datos del dominio del tiempo al dominio de la frecuencia se realiza premultiplicando los datos originales por la matriz ortogonal A definida en (7.4). Para ello nos auxiliamos de la función gdf del package-R: “descomponer”. > library(descomponer)

> gdf(y)

Page 98: Curso de Estadística con R Té - Instituto Cántabro de ...

97

[,1] [1,] 64391.0000 [2,] -825.7467 [3,] -12360.5380 [4,] -1588.4091 [5,] -5560.1717 [6,] -2165.7826 [7,] -3392.0696 [8,] -2068.9944 [9,] -2052.7310 [10,] -2276.1742 [11,] -1552.3892 [12,] -1975.4091 [13,] -809.8283 [14,] -1748.2101 [15,] -368.2184 [16,] -1527.0000

> gdf(x)

[,1] [1,] 2471806.00 [2,] -37363.77 [3,] -330603.45 [4,] -36340.78 [5,] -150333.85 [6,] -57659.89 [7,] -99733.49 [8,] -52172.81 [9,] -64772.04 [10,] -53932.84 [11,] -43070.70 [12,] -53680.28 [13,] -22559.65 [14,] -57068.96 [15,] -10290.24 [16,] -41025.50 Creamos una constante de unos y la transformamos al dominio de la frecuencia:

> Constante <- c(rep(1,16))

> gdf(Constante)

[,1] [1,] 4.000000e+00 [2,] -3.330669e-16 [3,] -1.387779e-16 [4,] 0.000000e+00 [5,] -3.885781e-16 [6,] -4.440892e-16 [7,] -1.110223e-16 [8,] -2.062983e-15 [9,] 1.110223e-16 [10,] -8.049117e-16 [11,] -7.216450e-16 [12,] -1.415534e-15 [13,] -1.110223e-16 [14,] 1.054712e-15 [15,] -1.054712e-15 [16,] 0.000000e+00

La regresión MCO con los datos en el dominio de la frecuencia da el mismo resultado: > RBS <- lm(gdf(y)~0+gdf(Constante)+ gdf(x))) > RBS

Page 99: Curso de Estadística con R Té - Instituto Cántabro de ...

98

Call: lm(formula = gdf(y) ~ 0 + gdf(Constante) + gdf(x)) Residuals: Min 1Q Median 3Q Max -287.42 -65.98 2.02 98.26 552.03 Coefficients: Estimate Std. Error t value Pr(>|t|) gdf(Constante) -6.689e+03 3.707e+02 -18.04 4.32e-11 *** gdf(x) 3.687e-02 5.919e-04 62.30 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 242.6 on 14 degrees of freedom Multiple R-squared: 0.9998, Adjusted R-squared: 0.9998 F-statistic: 3.717e+04 on 2 and 14 DF, p-value: < 2.2e-16 Se crean ahora variables Dummys para separar altas frecuencias de las bajas frecuencias. > D1 <- c(rep(1,6),rep(0,10)) > D2 <- c(rep(0,6),rep(1,10)) > D1 [1] 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 > D2 [1] 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 La siguiente regresión en el dominio de la frecuencia permite observar los efectos de las altas y bajas frecuencias en la regresión: > RBSD <- lm(gdf(y)~0+gdf(Constante)+c(gdf(x)*D1)+c(gdf(x)*D2))) > RBSD Call: lm(formula = gdf(y) ~ 0 + gdf(Constante) + c(gdf(x) * D1) + c(gdf(x) * D2)) Residuals: Min 1Q Median 3Q Max -375.80 -82.06 -16.96 58.31 565.38 Coefficients: Estimate Std. Error t value Pr(>|t|) gdf(Constante) -6.910e+03 3.975e+02 -17.38 2.21e-10 *** c(gdf(x) * D1) 3.723e-02 6.361e-04 58.53 < 2e-16 *** c(gdf(x) * D2) 3.524e-02 1.363e-03 25.86 1.45e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 236.3 on 13 degrees of freedom Multiple R-squared: 0.9998, Adjusted R-squared: 0.9998 F-statistic: 2.613e+04 on 3 and 13 DF, p-value: < 2.2e-16 La representación gráfica de los resultados obtenidos, requiere transformar los datos ajustados en el dominio de la frecuencia a datos ajustados en el dominio utilizando la transpuesta de A, este paso se realiza con la función gdt del package-R descomponer. > plot(ts(y,1992,frequency = 1),main="Consumo de energia electrica en

TEP 1992-2008",col=1)

> lines (ts(gdt(RBS$fitted.values),1992,frequency=1),col=2)

Page 100: Curso de Estadística con R Té - Instituto Cántabro de ...

99

> lines (ts(gdt(RBSD$fitted.values),1992,frequency=1),col=3)

> legend("top", ncol=3,c("Y","Estimado RBS","Estimado

RBSD"),cex=0.6,bty="n",fill=c(1,2,3))

7.3. REGRESIÓN EN EL DOMINIO DE LA FRECUENCIA CON PARAMETROS DEPENDIENTES DEL TIEMPO

El objetivo es estimar un modelo de tipo tttt uXY (7.5) donde tX es un vector de T x 1

observaciones de la variable independiente, t , es un vector de T x 1 parámetros , e tY es un

vector de T x 1 observaciones de la variable independiente y tu es un vector de T x 1 errores de

media cero y varianza constante, asumiendo que las series tX , t e tY son transformadas en

series de Fourier:

N

jj

yjj

yj

yt baY

1

sincos

N

jjjjjt ba

1

sincos

N

jj

ujj

uj

ut bau

1

sincos

Pre-multiplicado cada observación de (7.5) por TW se obtiene:

XY (7.6)

donde tTYAY , t

T XAX , y tTA .

Page 101: Curso de Estadística con R Té - Instituto Cántabro de ...

100

El sistema (7.6) puede reescribirse como:

uAAIAIAXY TN

TNt (7.6)

Si denominamos, uAAIe TN , se buscaría una solución que minimizara la suma cuadrática

de los errores: eAet ˆ . Una vez encontrada la solución a dicha optimización se transformarían las variables y parámetros al dominio del tiempo para obtener el sistema (7.5). Para obtener una solución a la minimización de los errores e que ofrezca el mismo resultado que la regresión lineal por mínimos cuadrados ordinarios, requiere utilizar una matriz de regresores X cuya primera columna sería el vector de tamaño T (1,0,0,...), la segunda columna

sería la primera fila de la matriz TNt AIAX y las columnas, corresponderían las filas de

TNt AIAX correspondientes a las frecuencias de senos o cósenos que queremos regresar.

Denominando a nueva esta matriz de tamaño pN , X , donde jp 2 , siendo la j frecuencias de seno y coseno elegidas como explicativas, los coeficientes de la solución MCO serían:

yXXX '' 1

donde 1,o sería el parámetro asociado a la constante, 1,1 el asociado a la pendiente, y j,1 los

asociados a las frecuencias de senos y cósenos elegidas. Ejemplo 7.2 Utilizando los datos del ejemplo 7.1 vamos a plantear la regresión en el dominio de la

frecuencia con parámetros dependientes del tiempo. Para obtener la matriz XjjX = T

Nt AIAX , se

utiliza la función cdf del package-R descomponer. Con el siguiente chunk se obtiene la estimación MCO: ```{r} a <- matrix(y, nrow=1) b <- matrix(x, nrow=1) cx <- cdf(b) C <- matrix(c(1,rep(0,15)),nrow=1) X1 <- rbind(C,cx) X <- as.matrix(X1[1:2,]) X cy <- gdf(a) B1 <- solve(X%*%t(X))%*%(X%*%cy) Y <- t(X)%*%B1 F <- gdt(Y) data.frame(y,F,MCO=lm(y~x)$fitted.values) B1 ```

Page 102: Curso de Estadística con R Té - Instituto Cántabro de ...

101

##          [,1]      [,2]      [,3]      [,4]      [,5]      [,6]      [,7] ## [1,]      1.0     0.000      0.00     0.000      0.00      0.00      0.00 ## [2,] 617951.5 ‐9340.943 ‐82650.86 ‐9085.195 ‐37583.46 ‐14414.97 ‐24933.37 ##          [,8]      [,9]     [,10]     [,11]     [,12]     [,13]     [,14] ## [1,]      0.0      0.00      0.00      0.00      0.00     0.000      0.00 ## [2,] ‐13043.2 ‐16193.01 ‐13483.21 ‐10767.67 ‐13420.07 ‐5639.913 ‐14267.24 ##         [,15]     [,16] ## [1,]     0.00      0.00 ## [2,] ‐2572.56 ‐10256.38 

##        y        F      MCO ## 1  11244 11179.75 11179.75 ## 2  11237 10995.46 10995.46 ## 3  11777 11416.90 11416.90 ## 4  12116 12316.38 12316.38 ## 5  12655 12775.73 12775.73 ## 6  13672 13528.78 13528.78 ## 7  14202 14432.14 14432.14 ## 8  15241 15434.54 15434.54 ## 9  16205 16551.73 16551.73 ## 10 17279 17399.56 17399.56 ## 11 17759 18050.95 18050.95 ## 12 18916 18817.02 18817.02 ## 13 19834 19650.24 19650.24 ## 14 20827 20602.23 20602.23 ## 15 22052 21698.96 21698.96 ## 16 22548 22713.64 22713.64 

B1 

##               [,1] ## [1,] ‐2.675607e+04 ## [2,]  1.474987e‐01 

Una estimación utilizando ahora como regresores además del PIB los ciclos de bajas frecuencias del PIB, se realizaría con el siguiente chunk: ```{r} a <- matrix(y, nrow=1) b <- matrix(x, nrow=1) cx <- cdf(b) C <- matrix(c(1,rep(0,15)),nrow=1) X1 <- rbind(C,cx) X <- as.matrix(X1[1:4,]) X cy <- gdf(a) B1 <- solve(X%*%t(X))%*%(X%*%cy) Y <- t(X)%*%B1 F <- gdt(Y) data.frame(y,F,MCO=lm(y~x)$fitted.values)

Page 103: Curso de Estadística con R Té - Instituto Cántabro de ...

102

B1 # Representaciones gráficas plot(ts(y,1992,frequency = 1),main="Consumo de energia electrica en TEP 1992-2008",col=1) lines (ts(F,1992,frequency=1),col=2) lines (ts(lm(y~x)$fitted.values,1992,frequency=1),col=3) legend("top", ncol=3,c("Y","Estimado RBS","Estimado MCO"),cex=0.6,bty="n",fill=c(1,2,3)) ```

##            [,1]       [,2]      [,3]       [,4]       [,5]      [,6] ## [1,]      1.000      0.000      0.00      0.000      0.000      0.00 ## [2,] 617951.500  ‐9340.943 ‐82650.86  ‐9085.195 ‐37583.462 ‐14414.97 ## [3,]  ‐9340.943 611527.297 ‐26575.52 ‐16797.969 ‐76073.542 ‐15647.14 ## [4,] ‐82650.862 ‐26575.521 624375.70  40812.429   3587.881  15125.33 ##            [,7]      [,8]        [,9]      [,10]       [,11]      [,12] ## [1,]      0.000      0.00      0.0000      0.000      0.0000      0.000 ## [2,] ‐24933.372 ‐13043.20 ‐16193.0105 ‐13483.210 ‐10767.6749 ‐13420.070 ## [3,] ‐38025.708 ‐19726.99 ‐25244.4526 ‐18712.360 ‐15438.2083 ‐19622.531 ## [4,]   2798.735  10016.66   ‐658.8562   7462.167    266.4848   5794.821 ##           [,13]      [,14]      [,15]     [,16] ## [1,]     0.0000      0.000     0.0000      0.00 ## [2,] ‐5639.9131 ‐14267.240 ‐2572.5600 ‐10256.38 ## [3,] ‐9432.9705 ‐19745.797 ‐3988.0208 ‐14267.24 ## [4,]   554.3929   3988.021   766.9527   2572.56 

 

##        y        F      MCO ## 1  11244 11455.69 11179.75 ## 2  11237 11207.80 10995.46 ## 3  11777 11537.38 11416.90 ## 4  12116 12325.48 12316.38 ## 5  12655 12698.03 12775.73 ## 6  13672 13374.39 13528.78 ## 7  14202 14225.64 14432.14 ## 8  15241 15209.08 15434.54 ## 9  16205 16341.57 16551.73 ## 10 17279 17248.79 17399.56 ## 11 17759 17986.87 18050.95 ## 12 18916 18840.24 18817.02 ## 13 19834 19746.27 19650.24 ## 14 20827 20739.45 20602.23 

Page 104: Curso de Estadística con R Té - Instituto Cántabro de ...

103

## 15 22052 21832.38 21698.96 ## 16 22548 22794.94 22713.64 

B1 

##               [,1] ## [1,] ‐2.396021e+04 ## [2,]  1.428679e‐01 ## [3,]  8.053688e‐04 ## [4,] ‐8.870311e‐04 

Consumo de energia electrica en TEP 1992-2008

Time

ts(y

, 19

92

, fre

qu

en

cy =

1)

1995 2000 2005

12

00

01

40

00

16

00

01

80

00

20

00

02

20

00 Y Estimado RBS Estimado MCO

Con objeto de comprobar los resultados de la estimación, se calcula el periodograma de

eAe XXt

'ˆ y su representación gráfica, a través de las siguientes chunk R:

a) Niveles de significación para el test de Durbin (1969): ```{r} X0.1 <- c(0.4 ,0.35044 ,0.35477 ,0.33435 ,0.31556 ,0.30244 ,0.28991 ,0.27828 ,0.26794 ,0.25884 ,0.25071 ,0.24325 ,0.23639 ,0.2301 ,0.2243 ,0.21895 ,0.21397 ,0.20933 ,0.20498 ,0.20089 ,0.19705 ,0.19343 ,0.19001 ,0.18677 ,0.1837 ,0.18077 ,0.17799 ,0.17037 ,0.14466 ,0.14325 ,0.14188 ,0.14055 ,0.13926 ,0.138 ,,0.12255 ,0.12087 ,0.12087 ,0.11926 ,0.11926 ,0.11771 ,0.10835 ,0.10719 ,0.10719 ,0.10607 ,0.10607 ,0.10499

Page 105: Curso de Estadística con R Té - Instituto Cántabro de ...

104

X0.05 <- c(0.45,0.44306,0.41811,0.39075 ,0.37359 ,0.35522 ,0.33905 ,0.32538 ,0.22012 ,0.2163 ,0.21268 ,0.20924 ,0.20596 ,0.20283 ,0.19985 ,0.197 ,0.19427 ,0.19166 ,0.18915 ,0.16058 ,0.15911 ,0.15769 ,0.1563 ,0.15495 ,0.15363 ,0.15235 ,0.1511 ,0.14989 ,0.1487 ,0.14754 ,0.14641 ,0.1453 ,0.1453 ,0.14361 ,0.14361 ,0.14112 ,0.14112 ,0.13916 ,0.13916 ,0.13728 ,0.13728 ,0.13548 ,0.13548 ,0.13375 ,0.13375 ,0.13208 ,0.13208 ,0.13048 ,0.13048 ,0.12894 ,0.12894 ,0.12745 ,0.12745 ,0.12601 ,0.12601 ,0.12464 ,0.12464 ,0.12327 ,0.12327 ,0.12197 ,0.12197 ,0.12071 ,0.12071 ,0.11949 ,0.11949 ,0.11831 ,0.11831 ,0.11716 ,0.11716 ,0.11604 ,0.11604 ,0.11496) X0.025 <- c(0.475 ,0.50855 ,0.46702 ,0.44641 ,0.42174 ,0.40045 ,0.38294 ,0.3697 ,0.35277 ,0.34022 0.30935 ,0.30081 ,0.29296 ,0.2857 ,0.27897 ,0.2727 ,0.26685 ,0.26137 ,0.25622 ,0.25136 ,0.24679 ,0.24245 ,0.23835 ,0.23445 ,0.23074 ,0.22721 ,0.22383 ,0.22061 ,0.21752 ,0.21457 ,0.21173 ,0.20901 ,0.20639 ,0.20337 ,0.20144 ,0.1991 ,0.19684 ,0.19465 ,0.16748 ,0.16613 ,0.16482 ,0.16355 ,0.1623 ,0.1623 ,0.1599 ,0.1599 ,0.1576 ,0.1576 ,0.1554 ,0.1554 ,0.15329 ,0.15329 ,0.13907 ,0.13907 ,0.13756 ,0.13756 ,0.1361 ,0.1361 ,0.13468 ,0.13468 ,0.13331 ,0.13331 ,0.13198 X0.01 <- c( 0.49 ,0.56667 ,0.53456 ,0.50495 ,0.47629 ,0.4544 ,0.43337 ,0.41522 ,0.39922 ,0.38481 ,0.26866 ,0.26423 ,0.26001 ,0.256 ,0.25217 ,0.24851 ,0.24501 ,0.24165 ,0.23843 ,0.23534 ,0.23237 ,0.22951 ,0.22676 ,0.2241 ,0.22154 ,0.21906 ,0.21667 ,0.21436 ,0.21212 ,0.18529 ,0.18385 ,0.18245 ,0.18245 ,0.17973 ,0.17973 ,0.16167 ,0.16167 ,0.15978 ,0.15978 ,0.15795 ,0.15795 ,0.14533 ,0.14533 ,0.14396) X0.005 <- c(0.495 ,0.59596 ,0.579 ,0.5421 ,0.51576 ,0.48988 ,0.4671 ,0.44819 ,0.43071 ,0.41517 ,0.40122 ,0.28472 ,0.28016 ,0.27582 ,0.27168 ,0.26772 ,0.26393 ,0.21943 ,0.21753 ,0.21534 ,0.21337 ,0.21146 ,0.20961 ,0.18534 ,0.18534 ,0.18288 ,0.18288 ,0.18051 ,0.18051 ,0.1644 ,0.1644 ,0.16268 ,0.16268 ,0.16101 ,0.16101 ,0.1594 , TestD <- data.frame(X0.1,X0.05,X0.025,X0.01,X0.005) ``` b) Función para realizar el test de Durbin Realiza una prueba estadística para estudiar la dependencia serial sobre el periodograma acumulado de la variable “y”, con una significación de 0,1(significance=1); 0,05(significance=2); 0,025(significance=3); 0,01(significance=4) y 0,005 (significance=5) (Durbin; 1969) ```{r} td <- function(y,significance) { # Author: Francisco Parra Rodríguez

Page 106: Curso de Estadística con R Té - Instituto Cántabro de ...

105

# Some ideas from: #Harvey, A.C. (1978), Linear Regression in the Frequency Domain, International Economic Review, 19, 507-512. # DURBIN, J., "Tests for Serial Correlation in Regression Analysis based on the Periodogram ofLeast-Squares Residuals," Biometrika, 56, (No. 1, 1969), 1-15. # http://econometria.wordpress.com/2013/08/21/estimation-of-time-varying-regression-coefficients/ per <- periodograma(y) p <- as.numeric(per$densidad) n <- length(p) s <- p[1] t <- 1:n for(i in 2:n) {s1 <-p[i]+s[(i-1)] s <- c(s,s1) s2 <- s/s[n] } while (n > 100) n <- 100 if (significance==1) c<- c(TestD[n,1]) else {if (significance==2) c <- c(TestD[n,2]) else {if (significance==3) c <- c(TestD[n,3]) else {if (significance==4) c <- c(TestD[n,4]) c <- c(TestD[n,5])}}} min <- -c+(t/length(p)) max <- c+(t/length(p)) data.frame(s2,min,max) } ``` Función para presentar gráficamente los resultados de la prueba de Durbin (Durbin; 1969): ```{r} gtd <- function (y,significance) { S <- td(y,significance) plot(ts(S), plot.type="single", lty=1:3,main = "Test Durbin", ylab = "densidad acumulada", xlab="frecuencia") } ``` > res <- Y-F > td(res,3) s2 min max 1 0.1042583 -0.2447 0.4947 2 0.2230305 -0.1197 0.6197 3 0.3581542 0.0053 0.7447 4 0.4971258 0.1303 0.8697 5 0.6324497 0.2553 0.9947 6 0.7536951 0.3803 1.1197 7 0.8544578 0.5053 1.2447 8 1.0000000 0.6303 1.3697 > gtd(res,3)

Page 107: Curso de Estadística con R Té - Instituto Cántabro de ...

106

Test Durbin

frecuencia

de

nsi

da

d a

cum

ula

da

1 2 3 4 5 6 7 8

0.0

0.5

1.0

7.4. DESESTACIONALIZACIÓN A TRAVÉS DE LA REGRESIÓN DEPENDIENTE DE LA FRECUENCIA

La regresión en el dominio de la frecuencia puede utilizarse para descomponer una serie temporal en sus componentes de tendencia, estacionalidad e irregular, de una serie temporal ty

de frecuencia b , o con b datos por intervalo de tiempo. Por ejemplo, una serie de frecuencia 7 sería una serie de datos diarios, y el intervalo temporal la semana, las frecuencias 4 y 12 indicarían series trimestrales y mensuales, en el periodo de tiempo de un año equivales.

Si la observación se toma a intervalos de tiempo t , entonces la frecuencia angular es t

.

La frecuencia equivalente expresada en ciclos por unidad de tiempo es tf 2

1

2

.

Cuando solo hay una observación por año, radianes por año o 2

1f ciclos por año (un

ciclo por cada dos años), variaciones con una oscilación de un año tienen una frecuencia de 2 radianes por año o 1f ciclos por año.

Por ejemplo en una serie mensual de 100n datos, el ciclo estacional o las oscilaciones que

ocurren al cabo del año, tienen una frecuencia de 33,812

100f ciclos por cada 100 datos.

Una serie mensual que completa 8 ciclos, al ser su menor frecuencia estacional 1 ciclo por año, tendrá un total de 96 observaciones (8 ciclos), y los múltiplos enteros que también destacaran en

su periodograma corresponderán a las frecuencias ,...12

3,

12

2,

12

nnnf ; las oscilaciones de

Page 108: Curso de Estadística con R Té - Instituto Cántabro de ...

107

tendencia o de baja frecuencia, las que ocurren con un ciclo inferior al año corresponderán a las

frecuencias 12

nf .

Puede utilizarse (7.6) para estimar los coeficientes de Fourier de la serie temporal ty :

uAAIAAIY TN

Tn

o

uAAIAAtIY TN

Tn

En (6.9)

1...000

.......

0...100

0...010

0...001

Tnt AIAW

Si queremos regresar sobre los cuatro primeros coeficientes, entonces:

0...00000

.........

0...00000

0...01000

0...00100

0...00010

0...00001

* Tnt AIAW

Las 112

2

n primeras filas de la matriz A son utilizadas para estimar los coeficientes de Fourier

que corresponden a los ciclos de bajas frecuencias, los ciclos de tendencia, y las filas 12

2n y

112

2

n permiten regresar sobre los coeficientes de Fourier que dan lugar a oscilaciones de un

ciclo en cada año, los múltiplos enteros de dicha frecuencia 12

6n y 1

12

6

n, el

12

8n...deben de ser

utilizados para obtener la frecuencia estacional. Ejemplo 7.3 Se realiza un ejercicio de descomponer en tendencia, estacionalidad e irregularidad por regresión en dominio de frecuencia con coeficientes dependientes del tiempo el IPI base 2009 de Cantabria en R. Este procedimiento requiere cargar la librería “descomponer”.

> library (descomponer)

El índice de precios industriales de Cantabria se representa en la figura siguiente. >data(ipi)

Page 109: Curso de Estadística con R Té - Instituto Cántabro de ...

108

La función descomponer, requiere indicar la serie, la frecuencia de la serie temporal, el tipo de ajuste, 1, si se quiere realizar un ajuste utilizando (6.9) o 2 si se desea realizar un ajuste utilizando (6.10), y el numero de datos a proyectar.

La serie de tendencia y estacionalidad se denomina TDST y se obtiene realizando una regresión en el dominio de la frecuencia, entre la serie ty y el índice temporal t , en el que se filtran las

bajas frecuencias y las frecuencias estaciones y sus múltiplos absolutos. TD se calcula realizando una regresión en el dominio de la frecuencia entre la serie ty y el índice temporal t

pero dejando pasar solo las bajas frecuencias. La serie estacional ST es TD menos TDST, y la serie irregular IR resulta de restar TDST de ty (figure 8). El índice temporal t se obtiene a

través de un MCO entre el IPI y la línea de tendencia ',....,3,2,1 n .

>desc1 <- descomponer(ipi,12,1)

> summary(desc1) > summary(desc1) Length Class Mode datos 5 data.frame list regresoresTD 14 data.frame list regresoresST 12 data.frame list coeficientesTD 14 -none- numeric coeficientesST 12 -none- numeric plot(ts(desc1$datos,frequency=12))

Para realizar una representación gráfica del periodograma de los residuos se invoca la función “gperiodograma”. > gperiodograma(desc1$datos$IR)

Page 110: Curso de Estadística con R Té - Instituto Cántabro de ...

109

Para realizar un test sobre la aleatoriedad de la serie irregular (IR) basado en el periodograma acumulados puede utilizarse la función “cpgram”. > cpgram(ts(desc1$datos$IR,frequency=12))

o alternativamente: > gtd(desc1$datos$IR,3)

Page 111: Curso de Estadística con R Té - Instituto Cántabro de ...

110

Page 112: Curso de Estadística con R Té - Instituto Cántabro de ...

111

8. MÉTODOS DE CLASIFICACIÓN

8.1. INTRODUCCIÓN

La clasificación supervisada es una de las tares que más frecuentemente son llevadas a cabo por los denominados Sistemas Inteligentes. Por lo tanto, un gran número de paradigmas desarrollados bien por la Estadística (Regresión Logística, Análisis Discriminante) o bien por la Inteligencia Artificial (Redes Neuronales, Inducción de Reglas, Árboles de Decisión, Redes Bayesianas) son capaces de realizar las tareas propias de la clasificación.

A lo largo del curso se trataran los métodos desarrollados por la estadística: Análisis Discriminante y Regresión Logística y los K vecinos próximos, los Arboles de Decisión y las Máquinas Soporte Vector desarrollados por la Inteligencia Artificial.

Paso previo a aplicar un método de clasificación, es la partición del conjunto de datos en dos conjuntos de datos más pequeños que serán utilizadas con los siguientes fines: entrenamiento y test9. El subconjunto de datos de entrenamiento es utilizado para estimar los parámetros del modelo y el subconjunto de datos de test se emplea para comprobar el comportamiento del modelo estimado. Cada registro de la base de datos debe de aparecer en uno de los dos subconjuntos, y para dividir el conjunto de datos en ambos subconjuntos, se utiliza un procedimiento de muestreo: muestreo aleatorio simple o muestreo estratificado. Lo ideal es entrenar el modelo con un conjunto de datos independiente de los datos con los que realizamos el test.

Como resultado de aplicar un método de clasificación, se cometerán dos errores, en el caso de una variable binaria que toma valores 0 y 1, habrá ceros que se clasifiquen incorrectamente como unos y unos que se clasifiquen incorrectamente como ceros. A partir de este recuento se puede construir el siguiente cuadro de clasificación:

Valor real de iY

0iY 1iY

0ˆ iY 11P 12P iY

1ˆ iY 21P 22P

Donde 11P y 22P corresponderán a predicciones correctas (valores 0 bien predichos en el primer

caso y valores 1 bien predichos en el segundo caso), mientras que 12P y 21P corresponderán a predicciones erróneas (valores 1 mal predichos en el primer caso y valores 0 mal predichos en el segundo caso). A partir de estos valores se pueden definir los índices que aparecen en el siguiente cuadro:

9 Pueden considerarse tres conjuntos de datos: entrenamiento, validación y test. El conjunto de datos de validación se utilizaría en estos casos para ajustar y/o seleccionar el mejor modelo.

Page 113: Curso de Estadística con R Té - Instituto Cántabro de ...

112

Un método para evaluar clasificadores alternativo a la métrica expuesta es la curva ROC (Receiver Operating Characteristic). La curva ROC es una representación gráfica del rendimiento del clasificador que muestra la distribución de las fracciones de verdaderos positivos y de falsos positivos. La fracción de verdaderos positivos se conoce como sensibilidad, sería la probabilidad de clasificar correctamente a un individuo cuyo estado real sea definido como positivo. La especificidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea clasificado como negativo. Esto es igual a restar uno de la fracción de falsos positivos. La curva ROC también es conocida como la representación de sensibilidad frente a (1-especificidad). Cada resultado de predicción representa un punto en el espacio ROC. El mejor método posible de predicción se situaría en un punto en la esquina superior izquierda, o coordenada (0,1) del espacio ROC, representando un 100% de sensibilidad (ningún falso negativo) y un 100% también de especificidad (ningún falso positivo). Una clasificación totalmente aleatoria daría un punto a lo largo de la línea diagonal, que se llama también línea de no-discriminación. En definitiva, se considera un modelo inútil, cuando la curva ROC recorre la diagonal positiva del gráfico. En tanto que en un test perfecto, la curva ROC recorre los bordes izquierdo y superior del gráfico. La curva ROC permite comparar modelos a través del área bajo su curva (figura 8.1):

Page 114: Curso de Estadística con R Té - Instituto Cántabro de ...

113

Figura nº 8.1.

En R existe una librería que ayuda a la representación de la curva ROC: el R-package ROCR.

8.2. ANÁLISIS DISCRIMINANTE El Análisis Discriminante (AD), introducido por Fisher (1936), es una técnica que se utiliza para predecir la pertenencia a un grupo (variable dependiente) a partir de un conjunto de predictores (variables independientes). El objetivo del AD es entender las diferencias de los grupos y predecir la verosimilitud de que una persona o un objeto pertenezca a una clase o grupo basándose en los valores que toma en los predictores. Ejemplos de análisis discriminante son distinguir entre innovadores y no innovadores de acuerdo a sus perfiles demográficos y sociales o el riesgo de impago de un préstamo a través de predictores económicos y sociodemográficos. El análisis discriminante es conceptualmente muy similar al análisis de varianza multivariante de un factor. El AD trata de establecer una relación entre una variable dependiente no métrica (dicotómica o multidicotómica) y un conjunto de variables independientes métricas:

pii XXXY ...211

El propósito del AD consiste en aprovechar la información contenida en las variables independientes para crear una función Z combinación lineal de las p explicativas, capaz de diferenciar lo más posible a los k grupos. La combinación lineal para el análisis discriminante, función discriminante, se formula:

pkpkkjk XXXZ ...22110

donde, ikZ es la puntuación Z discriminante j para el objeto k

Page 115: Curso de Estadística con R Té - Instituto Cántabro de ...

114

o término constante

i ponderación discriminante para la variable independiente i

ikX variable independiente i para el objeto k

Una vez hallada la función discriminante, el resultado es una única puntuación Z discriminante compuesta para cada individuo en el análisis. Promediando las puntuaciones discriminantes para todos los individuos dentro de un grupo particular, obtenemos la media del grupo. Esta media es conocida como centroide. Cuando el análisis se realiza con dos grupos tenemos dos centroides, si es con tres serían tres los centroides, con k objetos tendremos k centroides. En el caso de dos grupos y dos predictores o variables explicativas, la función discriminante es de la forma:

kkjk XXZ 22110

Sustituyendo en la función discriminante el valor de las medias del grupo 1 en las variables 1X

y 2X , obtenemos el centroide del grupo 1:

21211101 XXZ De igual modo, sustituyendo las medias del grupo 2, obtenemos el centroide del grupo 2:

22212102 XXZ La función Z debe ser tal que la distancia entre los dos centroides sea máxima, consiguiendo de esta forma que los grupos estén lo más distantes posible. Podemos expresar esta distancia de la siguiente manera:

21 ZZh Es importante señalar que los grupos deben diferenciarse de antemano en las variables independientes. El análisis busca diferenciar los dos grupos al máximo combinando las variables independientes pero si los grupos no difieren en las variables independientes, no podrá encontrar una dimensión en la que los grupos difieran (figura 8.2). Dicho de otro modo, si el solapamiento entre los casos de ambos grupos es excesivo, los centroides se encontrarán en la misma o parecida ubicación en el espacio p-dimensional y en esas condiciones, no será posible encontrar una función discriminante útil para la clasificación. Es decir, si los centroides están muy próximos, las medias de los grupos en la función discriminante serán tan parecidas que no será posible distinguir a los sujetos de uno y otro grupo.

Page 116: Curso de Estadística con R Té - Instituto Cántabro de ...

115

Figura nº 8.2. La mayor utilidad de una función discriminante radica en su capacidad para clasificar nuevos casos. Ahora bien, la clasificación de casos es algo muy distinto de la estimación de la función discriminante. De hecho, una función perfectamente estimada puede tener una pobre capacidad clasificatoria. Una vez obtenida la función discriminate podemos utilizarla, en primer lugar, para efectuar una clasificación de los mismos casos utilizados para obtener la función: esto permitirá comprobar el grado de eficacia la función desde el punto de vista de la clasificación. Si los resultados son satisfactorios, la función discriminante podrá utilizarse, en segundo lugar, para clasificar futuros casos de los que, conociendo su puntuación en las variables independientes, se desconozca el grupo al que pertenecen. Una manera de clasificar los casos consiste en calcular la distancia existente entre los centroides

de ambos grupos y situar un punto de corte 2

210

ZZz

equidistante de ambos centroides. A

partir de ese momento, los casos cuyas puntuaciones discriminantes sean mayores que el punto de corte 0z serán asignados al grupo superior y los casos cuyas puntuaciones discriminantes

sean menores que el punto de corte 0z serán asignados al grupo inferior.

La regla de clasificación descrita sólo permite distinguir entre dos grupos, con lo que es difícilmente aplicable al caso de más de dos grupos e incluso a dos grupos con distinto tamaño, con tamaños desiguales es preferible utilizar una regla de clasificación que desplace el punto de corte hacia el centroide del grupo de menor tamaño buscando igualar los errores de clasificación. Para calcular este punto de corte se utiliza una distancia ponderada10:

21

22110 nn

ZnZnz

El AD solo admite variables cuantitativas como regresores, por lo que si alguna de las variables independientes es categórica, hay que utilizar otros métodos alternativos de clasificación. 10 Fukunaga y Kessell (1973) han propuesto una regla de clasificación basada en la teoría bayesiana. Esta otra regla permite incorporar fácilmente la información relativa al tamaño de los grupos y, además, es extensible al caso de más de dos grupos.

Page 117: Curso de Estadística con R Té - Instituto Cántabro de ...

116

Ejemplo 8.1 Para realizar una minería de datos con la clasificación de familias con renta inferior al 60% de la mediana a partir de las explicativas seleccionadas en el Ejemplo 4.2, para ello se va a dividir la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con el 30% restante, a fin de no tener problemas en los cálculos con los datos ausentes se va a elaborar un “data frame” en donde se omitirán los “NA’s”. La función R que realiza el Análisis Discriminante Lineal es “lda”. Para los 5 primeros datos, se dan los resultados de la clasificación (class), las probabilidades posteriores de pertenecer a la clase cero (posterior.0) o de pertenecer a la clase 1 (posterior.1), la probabilidad posterior es la probabilidad condicional que es asignada después de que la evidencia es tomada en cuenta. Evaluaremos los resultados con una métrica de porcentaje de aciertos y la curva ROC. ```{r}

datos1<-na.omit(datos)

explicativas <-

data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact

i,datos1$numocu)

#modelo

x=explicativas

y=datos1$pobre

# división de la muestra en entrenamiento y validacion

train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)

# Lineal Discriminat Analisys

lda.tr=lda(y[train]~.,data=x[train,])

#predicción

probs=predict(lda.tr,newdata=x[-train,],type="prob")

data.frame(probs)[1:5,]

table(probs$class,y[-train])

mean(probs$class==y[-train]) #porcentaje de bien clasificados

#gráfica curva ROC

library(ROCR)

predict.rocr <- prediction (probs$posterior[,2],y[-train])

perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y False

postivie.rate

auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)

plot(perf.rocr,type='o', main = paste('Area Bajo la Curva

=',round(auc,2)))

abline(a=0, b= 1)

```

##    class posterior.0 posterior.1        LD1 ## 1      0   0.8947561  0.10524393 ‐0.1670454 ## 7      0   0.9416882  0.05831181 ‐0.6064807 ## 12     0   0.8936114  0.10638860 ‐0.1587596 ## 15     0   0.8936114  0.10638860 ‐0.1587596 ## 19     0   0.8019755  0.19802448  0.3408693 

##     ##        0    1 

Page 118: Curso de Estadística con R Té - Instituto Cántabro de ...

117

##   0 3920  629 ##   1  256  527 

## [1] 0.834021 

8.3. REGRESIÓN LOGÍSTICA La Regresión Logística es un método ajuste estadístico cuyo objetivo es obtener una relación funcional entre una transformación -de una variable cualitativa- llamada logit y p variables predictoras que pueden ser cuantitativas o cualitativas (apartado 4.2). La característica fundamental de esta regresión es que la variable dependiente es dicotómica. Si la variable dicotómica a predecir es Y y las p variables predictoras son X1,...,Xp, el objetivo es determinar los coeficientes 0 1, , ... , p para satisfacer la fórmula de transformación de la

variable logit:

pipiiz

i

ii XXXe

p

pL

...)ln()1(

ln 22110

La estimación de los coeficientes es realizada a través del método de máxima verosimilitud. Estos coeficientes son interpretados en términos de “odd-ratios”, y la selección de variables puede realizarse mediante tres métodos: “forward”, “backward” o “stepwise”. El método “stepwise” es el más comúnmente utilizado (apartado 2.5). En el caso de una variable explicativa dicotómica, el modelo tiene una formulación equivalente dada por:

Page 119: Curso de Estadística con R Té - Instituto Cántabro de ...

118

)1(

1...( 2211 pipiio XXXe

p

De manera que el modelo se usa para clasificar nuevos individuos a partir de reglas de la siguiente forma:

Si cp el individuo i es clasificado como 0, y en caso contrario es clasificado como 1.

Generalmente, el valor que se asigna a c para determinar si el valor de la predicción es igual a 1 o a 0 es de 0,5, puesto que parece lógico que la predicción sea 1 cuando el modelo dice que es más probable obtener un 1 que un 0.

Sin embargo, la elección de un umbral igual a 0,5 no siempre es la mejor alternativa. En el caso en que la muestra presente desequilibrios entre el número de unos y el de ceros la elección de un umbral igual a 0,5 podría conducir a no predecir ningún uno o ningún cero. El modo de resolver este problema es tomar un umbral más pequeño. Ejemplo 8.2. Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minería de datos, dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con el 30% restante, a fin de no tener problemas de cálculo con los datos ausentes se va a elaborar un “data frame” en donde se omitirán los “NA’s”. Evaluaremos los resultados con una métrica de porcentaje de aciertos y la curva ROC. El chunk que se va a ejecutar es el siguiente: # Selección de variables

datos2=na.omit(datos)

explicativas <-

data.frame(datos2$nmiemb,datos2$nmiem11,datos2$nmiem12,datos2$numinact

i,datos2$numocu,datos2$tiphogar1,datos2$situocuhog)

x=explicativas

y=datos1$pobre

# división de la muestra en entrenamiento y validacion

train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)

# Estimación de modelo probit

glm.tr=glm(y[train]~.,data=x[train,],family=binomial)

#predicción

probs=predict.glm(glm.tr,newdata=x[-train,],type="response")

pred=ifelse(probs>0.5,1,0)

table(pred,y[-train])

mean(pred==y[-train])

#gráfica curva ROC

library(ROCR)

predict.rocr <- prediction (probs,y[-train])

perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y Tasa de

falsos positivos

Page 120: Curso de Estadística con R Té - Instituto Cántabro de ...

119

auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)

plot(perf.rocr,type='o', main = paste('Area Bajo la Curva

=',round(auc,2)))

abline(a=0, b= 1)

```

Los resultados obtenidos:

##      ## pred    0    1 ##    0 3929  625 ##    1  246  532 

## [1] 0.8366467 

8.4. ALGORITMO K-VECINOS MÁS CERCANOS El método K-nn (K nearest neighbors Fix y Hodges, 1951) es un método de clasificación supervisada (Aprendizaje, estimación basada en un conjunto de entrenamiento y prototipos) que sirve para estimar la función de densidad )/( jCxF de las predictoras x por cada clase jC .

Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase jC a partir de la información proporcionada por el conjunto de prototipos o ejemplos.

En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.

Page 121: Curso de Estadística con R Té - Instituto Cántabro de ...

120

Figura nº 8.3 En la figura nº 8.3 se ilustra el funcionamiento de este método de clasificación. En la figura se encuentran representadas 12 muestras pertenecientes a dos clases distintas: la Clase 1 está formada por 6 cuadrados de color azul y la Clase 2 formada por 6 círculos de color rojo. En este ejemplo, se han seleccionado tres vecinos, es decir, (k=3). De los 3 vecinos más cercanos a la muestra x , representada en la figura por un aspa, uno de ellos pertenece a la Clase 1 y los otros dos a la Clase 2. Por tanto, la regla 3-nn asignará la muestra x a la Clase 2. Es importante señalar que si se hubiese utilizado como regla de clasificación k=1, la 1-nn, la muestra x sería asignada a la Clase 1, pues el vecino más cercano de la muestra x pertenece a la Clase 1. Un ejemplo de entrenamiento, ix , es un vector en un espacio característico multidimensional,

que está descrito en términos de p atributos, y pertenecerá a una de las q clases de la

clasificación. Los valores de los atributos del i-esimo ejemplo se representan por el vector p -dimensional:

Xxxxx piiii ,...,, 21

El espacio es particionado en regiones por localizaciones y etiquetas de clases de los ejemplos de entrenamiento. Un punto en el espacio es asignado a la clase jC si esta es la clase más

frecuente entre los k ejemplos de entrenamiento más cercano. Generalmente se usa la distancia euclidiana.

p

rrjriji xxxxd

1

2),(

La fase de entrenamiento del algoritmo consiste en almacenar los vectores característicos y las etiquetas de las clases de los ejemplos de entrenamiento. En la fase de test, la evaluación del ejemplo (del que no se conoce su clase) es representada por un vector en el espacio característico. Se calcula la distancia entre los vectores almacenados y el nuevo vector, y se seleccionan los k ejemplos más cercanos. El nuevo ejemplo es clasificado con la clase que más se repite en los vectores seleccionados. El método k-nn supone que los vecinos más cercanos nos dan la mejor clasificación y esto se hace utilizando todos los atributos; el problema de dicha suposición es que es posible que se

Page 122: Curso de Estadística con R Té - Instituto Cántabro de ...

121

tengan muchos atributos irrelevantes que dominen sobre la clasificación, de manera que los atributos relevantes perderían peso entre otros veinte irrelevantes. La mejor elección de k depende fundamentalmente de los datos; generalmente, valores grandes de k reducen el efecto de ruido en la clasificación, pero crean límites entre clases parecidas. Un buen k puede ser seleccionado mediante un procedimiento de optimización. El caso especial en que la clase es predicha para ser la clase más cercana al ejemplo de entrenamiento (cuando k=1) es llamada Nearest Neighbor Algorithm, Algoritmo del vecino más cercano. Ejemplo 8.2 Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minería de datos, dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con el 30% restante, se va a realizar el proceso con el primer vecino próximo k=1 (Nearest Neighbor Algorithm), para ello hay que instalar el package-R class, e invocar la función knn1, dentro de esta librería la función knn permite elegir el numero de vecinos a aproximar, en está función todas las covariables han de ser numéricas por lo que las variables clasificatorias de tipos de hogares y situación de ocupación de hogares son transformadas a numéricas. Evaluaremos los resultados con una métrica de porcentaje de aciertos. ```{r} library(class) # Selección de variables explicativas <- data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinacti,datos1$numocu) x=explicativas y=datos1$pobre # K-Nearest Neighbors Pobre=as.factor(y) train=sample(seq(length(y)),length(y)*0.70,replace=FALSE) knn.prd=knn1(x[train,1:5],x[-train,1:5],Pobre[train]) table(knn.prd,Pobre[-train]) ``` Los resultados obtenidos: knn.prd    0    1 ##       0 3954  662 ##       1  223  493 

8.5. ÁRBOLES DE CLASIFICACIÓN Los árboles de decisión o clasificación tampoco son modelos estadísticos basados en la estimación de los parámetros de la ecuación propuesta, por tanto, no tenemos que estimar un modelo estadístico formal, son algoritmos para clasificar utilizando particiones sucesivas. Son apropiados cuando hay un número elevado de datos, siendo una de sus ventajas su carácter descriptivo que permite entender e interpretar fácilmente las decisiones tomadas por el modelo, revelando formas complejas en la estructura de datos que no se pueden detectar con los métodos convencionales de regresión. Los árboles de decisión o de clasificación son un modelo surgido en el ámbito del aprendizaje automático (Machine Learning) y de la Inteligencia Artificial que partiendo de una base de datos, crea diagramas de construcciones lógicas que nos ayudan a resolver problemas. A esta

Page 123: Curso de Estadística con R Té - Instituto Cántabro de ...

122

técnica también se la denomina segmentación jerárquica. Es una técnica explicativa y descomposicional que utiliza un proceso de división secuencial, iterativo y descendente que partiendo de una variable dependiente, forma grupos homogéneos definidos específicamente mediante combinaciones de variables independientes en las que se incluyen la totalidad de los casos recogidos en la muestra. Suponemos que se dispone de una muestra de entrenamiento que incluye la información del grupo al que pertenece cada caso y que sirve para construir el criterio de clasificación. Se comienza con un nodo inicial y nos preguntamos cómo dividir el conjunto de datos disponibles en dos partes más homogéneas utilizando una de las variables. Esta variable se escoge de modo que la partición de datos se haga en dos conjuntos lo más homogéneos posibles. Se elige, por ejemplo, la variable 1x y se determina un punto de corte, por ejemplo c, de modo que se puedan

separar los datos en dos conjuntos: aquellos con cx 1 y los que tienen cx 1 . De este nodo

inicial saldrán ahora dos: uno al que llegan las observaciones con cx 1 y otro al que llegan las

observaciones con cx 1 . En cada uno de estos nodos se vuelve a repetir el proceso de seleccionar una variable y un punto de corte para dividir la muestra en dos partes más homogéneas. El proceso termina cuando se hayan clasificado todas las observaciones correctamente en su grupo. En los árboles de decisión se encuentran los siguientes componentes: nodos, ramas y hojas. Los nodos son las variables de entrada, las ramas representan los posibles valores de las variables de entrada y las hojas son los posibles valores de la variable de salida. Como primer elemento de un árbol de decisión tenemos el nodo raíz que va a representar la variable de mayor relevancia en el proceso de clasificación. Todos los algoritmos de aprendizaje de los árboles de decisión obtienen modelos más o menos complejos y consistentes respecto a la evidencia, pero si los datos contienen incoherencias, el modelo se ajustará a estas incoherencias y perjudicará su comportamiento global en la predicción, es lo que se conoce como sobreajuste. Para solucionar este problema hay que limitar el crecimiento del árbol modificando los algoritmos de aprendizaje para conseguir modelos más generales. Es lo que se conoce como poda en los árboles de decisión.

Arbol de decisión y ejemplo de poda. Figura 8.3 Las reglas de parada tratan de preguntar si merece la pena seguir o detener el proceso de crecimiento del árbol por la rama actual, se denominan reglas de prepoda ya que reducen el crecimiento y complejidad del árbol mientras se está construyendo:

Page 124: Curso de Estadística con R Té - Instituto Cántabro de ...

123

Pureza de nodo. Si el nodo solo contiene ejemplos o registros de una única clase se decide que la construcción del árbol ya ha finalizado.

Cota de profundidad. Previamente a la construcción se fija una cota que nos marque la profundidad del árbol, cuando se alcanza se detiene el proceso.

Umbral de soporte. Se especifica un número de ejemplos mínimo para los nodos, y cuando se encuentre un nodo con ejemplos por debajo del mínimo se para el proceso, ya que no consideramos fiable una clasificación abalada con menos de ese número mínimo de ejemplos.

Existen dos formas de poda muy comunes utilizadas en los diferentes algoritmos: la poda por coste-complejidad y la poda pesimista. En la poda por coste-complejidad se trata de equilibrar la precisión y el tamaño del árbol. La complejidad está determinada por el número de hojas que posee el árbol (nodos terminales). La poda pesimista utiliza los casos clasificados incorrectamente y obtiene un error de sustitución, eliminando los subárboles que no mejoran significativamente la precisión del clasificador. Para construir un árbol hay que tomar las siguientes decisiones:

Seleccionar las variables y sus puntos de corte para hacer las divisiones. Cuándo se considera que un nodo es terminal y cuándo se continúa dividiendo. La asignación de las clases a los nodos terminales.

Ejemplo 8.3 Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minería de datos, dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con el 30% restante, se va ha realizar la clasificación utilizando arboles de decisión, para ello hay que instalar el package-R: “tree”, e invocar la función tree. Se realiza una poda por el procedimiento de coste-complejidad, y mediante un procedimiento de validación cruzada elegirá el mejor resultado. Para ello hay que invocar la función cv.tree con la opción FUN=prune.misclas. Evaluaremos los resultados con una métrica de porcentaje de aciertos.

require(tree)

# Selección de variables

explicativas <-

data.frame(datos2$nmiemb,datos2$nmiem11,datos2$nmiem12,datos2$numinact

i,datos2$numocu,datos2$tiphogar1,datos2$situocuhog)

y=as.factor(datos1$pobre)

datos3 <- data.frame(explicativas,y)

# división de la muestra en entrenamiento y validacion

train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)

Pobreza.tree = tree(y~.,datos3,subset=train)

summary(Pobreza.tree)

plot(Pobreza.tree);text(Pobreza.tree,pretty=0)

Pobreza.tree

tree.pred=predict(Pobreza.tree,datos3[-train,],type="class")

summary(tree.pred)

with(datos3[-train,],table(tree.pred,y))

# Mediante validación cruzada se busca el mejor arbol de decision

cv.Pobreza=cv.tree(Pobreza.tree,FUN=prune.misclass)

Page 125: Curso de Estadística con R Té - Instituto Cántabro de ...

124

cv.Pobreza

plot(cv.Pobreza)

prune.Pobreza=prune.misclass(Pobreza.tree,best=5)

plot(prune.Pobreza);text(Pobreza.tree,pretty=0)

tree.pred=predict(prune.Pobreza,datos3[-train,],type="class")

with(datos3[-train,],table(tree.pred,y))

```

##  ## Classification tree: ## tree(formula = y ~ ., data = datos3, subset = train) ## Variables actually used in tree construction: ## [1] "datos1.situocuhog" "datos1.nmiemb"     ## Number of terminal nodes:  5  ## Residual mean deviance:  0.8397 = 10440 / 12430  ## Misclassification error rate: 0.1939 = 2412 / 12439 

## node), split, n, deviance, yval, (yprob) ##       * denotes terminal node ##  ##  1) root 12439 12930.0 0 ( 0.78559 0.21441 )   ##  2) datos1.situocuhog: El sustentador principal y el cónyugeocupados, al menos otro de los miembros también ocupado,El sustentador principal y el cónyuge ocupados, ninguno de los otros miembros ocupados (si es que los hay),El sustentador principal o el cónyugeocupado, al menos otros dos miembros ocupados,Ni el sustentador principal ni su cónyuge ocupados, al menos otros dos miembros ocupados 3905  1989.0 0 ( 0.92958 0.07042 ) * ##  3) datos1.situocuhog: El sustentador principal o el cónyuge ocupado, otro de los miembros ocupado,El sustentador principal o el cónyugeocupado, ninguno de los otros miembros ocupado (si es que los hay),Ni el sustentador principal ni su cónyuge ocupado, otro miembro ocupado,Ningún ocupado en el hogar 8534 10130.0 0 ( 0.71971 0.28029 )   ##  6) datos1.nmiemb < 2.5 4368  3169.0 0 ( 0.88210 0.11790 ) * ##  7) datos1.nmiemb > 2.5 4166  5734.0 0 ( 0.54945 0.45055 )   ##  14) datos1.situocuhog: El sustentador principal o el cónyuge ocupado, otro de los miembros ocupado,Ni el sustentador principal ni su cónyuge ocupado, otro miembro ocupado 768   738.3 0 ( 0.81380 0.18620 ) * ##  15) datos1.situocuhog: El sustentador principal o el cónyugeocupado, ninguno de los otros miembros ocupado (si es que los hay),Ningún ocupado en el hogar 3398  4709.0 1 ( 0.48970 0.51030 )   ##  30) datos1.nmiemb < 4.5 2951  4079.0 0 ( 0.53135 0.46865 ) * ##  31) datos1.nmiemb > 4.5 447   465.1 1 ( 0.21477 0.78523 ) * 

Page 126: Curso de Estadística con R Té - Instituto Cántabro de ...

125

Se ha elaborado un arbol con 5 nodos terminales, que considera como pobres todos los hogares de más de 4,5 miembros en donde: El sustentador principal o el cónyuge está ocupado, y ninguno de los otros miembros ocupado (si es que los hay), y en los que no hay ningún ocupado en el hogar. Este clasificador presenta los siguientes resultados en la muestra de test:  

##    0    1  ## 5130  202 

##          y ## tree.pred    0    1 ##         0 4114 1016 ##         1   45  157 

Se realiza un análisis de post-poda, cuyos resultados no aconsejan reducir el número de nodos terminales. ## $size ## [1] 5 1 ##  ## $dev ## [1] 2411 2580 ##  ## $k ## [1]  ‐Inf 63.75 ##  ## $method ## [1] "misclass" ##  ## attr(,"class") ## [1] "prune"         "tree.sequence" 

Page 127: Curso de Estadística con R Té - Instituto Cántabro de ...

126

8.6. MÁQUINAS DE SOPORTE VECTOR Las Máquinas de Soporte Vectorial (Support Vector Machines SVMs) son un conjunto de algoritmos de aprendizaje supervisados que desarrollan métodos relacionados con los problemas de clasificación y regresión. Como en la mayoría de los métodos de clasificación supervisada, los datos de entrada (los puntos) son vistos como un vector p-dimensional (una lista de p números). Dado un conjunto de puntos como un subconjunto de un conjunto mayor (espacio), en el que cada uno de ellos pertenece a una de dos posibles categorías, de manera que un algoritmo basado en SVM construye un modelo capaz de predecir si un punto nuevo (cuya categoría desconocemos) pertenece a una categoría o a la otra. La SVM, intuitivamente, es un modelo que partiendo de un conjunto de ejemplos de entrenamiento, podemos etiquetarlos en diferentes clases y representar dichas muestras en

Page 128: Curso de Estadística con R Té - Instituto Cántabro de ...

127

puntos en el espacio para tratar de separar las diferentes clases mediante un espacio lo más amplio posible, para que cuando las nuevas muestras de los casos de test se pongan en correspondencia con dicho modelo puedan ser clasificadas correctamente en función de su proximidad. En ese concepto de "separación óptima" es donde reside la característica fundamental de las SVM: este tipo de algoritmos buscan el hiperplano que tenga la máxima distancia (margen) con los puntos que estén más cerca de él mismo. Por eso también a veces se les conoce a las SVM como clasificadores de margen máximo. De esta forma, los puntos del vector que son etiquetados con una categoría estarán a un lado del hiperplano y los casos que se encuentren en la otra categoría estarán al otro lado.

Figura 8.4

La manera más simple de realizar la separación es mediante una línea recta, un plano recto o un hiperplano N-dimensional. Desafortunadamente los universos a estudiar no se suelen presentar en casos idílicos de dos dimensiones como en el ejemplo anterior, sino que un algoritmo SVM debe tratar con más de dos variables predictoras, curvas no lineales de separación, casos donde los conjuntos de datos no pueden ser completamente separados, clasificaciones en más de dos categorías. Debido a las limitaciones computacionales de las máquinas de aprendizaje lineal, éstas no pueden ser utilizadas en la mayoría de las aplicaciones del mundo real. La representación por medio de funciones núcleo ó Kernel ofrece una solución a este problema, proyectando la información a un espacio de características de mayor dimensión el cual aumenta la capacidad computacional de la máquinas de aprendizaje lineal (ver apartado 6.1). Ejemplo 8.4. Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minería de datos, dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con el 30% restante, se va ha realizar la clasificación utilizando una máquina de soporte vector, para ello hay que instalar el package-R: “e1017”, e invocar la función svm. Se estima un modelo con un lineal y un Kernel de base radial (la función permite además funciones base polinomiales y sigmoides). Evaluaremos los resultados con una métrica de porcentaje de aciertos, y obtenemos la curva ROC para la muestra test con la función radial. ```{r}

library(e1071)

# Selección de variables

Page 129: Curso de Estadística con R Té - Instituto Cántabro de ...

128

explicativas <-

data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact

i,datos1$numocu)

y=as.factor(datos1$pobre)

datos4 <- data.frame(explicativas,y)

# se estima un modelo svm lineal para la muestra de entrenamiento

train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)

svmfit=svm(datos4$y~.,data=datos4,kernel="linear",scale=FALSE,subset=t

rain)

print(svmfit)

plot(svmfit,datos4,datos1.nmiemb~datos1.numocu)

table(datos4$y[train],svmfit$fitted)

# Predicción para la muestra test

svm.pred=predict(svmfit,datos4[-train,])

summary(svm.pred)

with(datos4[-train,],table(svm.pred,y))

# se estima un modelo svm lineal para la muestra de entrenamiento y se

predice la muestra de test

svmfit2=svm(datos4$y~.,data=datos4,kernel="radial",scale=FALSE,subset=

train,probability=TRUE)

print(svmfit2)

svm.pred=predict(svmfit2,datos4[-train,],probability=TRUE)

summary(svm.pred)

with(datos4[-train,],table(svm.pred,y))

#gráfica curva ROC

library(ROCR)

svm.pred=predict(svmfit2,datos4[-train,],probability =TRUE)

prob=svm.pred=predict(svmfit2,datos4[-train,],probability =TRUE)

predict.rocr <- prediction (attr(prob,"probabilities")[,2],y[-train])

perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y Tasa de

falsos positivos

auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)

plot(perf.rocr,type='o', main = paste('Area Bajo la Curva

=',round(auc,2)))

abline(a=0, b= 1)

```

En primer lugar, se estima un Kernel lineal:

##  ## Call: ## svm(formula = datos4$y ~ ., data = datos4, kernel = "linear",  ##     subset = train, scale = FALSE) ##  ##  ## Parameters: ##    SVM‐Type:  C‐classification  ##  SVM‐Kernel:  linear  

Page 130: Curso de Estadística con R Té - Instituto Cántabro de ...

129

##        cost:  1  ##       gamma:  0.2  ##  ## Number of Support Vectors:  4582 

La métrica en la muestra de entrenamiento ofrece el siguiente resultado: ##     ##        0    1 ##   0 9466  319 ##   1 1715  939 

La métrica en la muestra de test ofrece el siguiente resultado: ##         y ## svm.pred    0    1 ##        0 4017  802 ##        1  129  384 

La estimación de un Kernel radial da el siguiente resultado: ##  ## Call: ## svm(formula = datos4$y ~ ., data = datos4, kernel = "radial",  ##     probability = TRUE, subset = train, scale = FALSE) ##  ##  ## Parameters: ##    SVM‐Type:  C‐classification  ##  SVM‐Kernel:  radial  

Page 131: Curso de Estadística con R Té - Instituto Cántabro de ...

130

##        cost:  1  ##       gamma:  0.2  ##  ## Number of Support Vectors:  4280 

##         y ## svm.pred    0    1 ##        0 3970  757 ##        1  176  429 

 

8.7. METODOLOGÍAS – COMBINANDO CLASIFICADORES Recientemente en el área de la Inteligencia Artificial el concepto de combinación de clasificadores ha sido propuesto como una nueva dirección para mejorar el rendimiento de los clasificadores individuales. Estos clasificadores pueden estar basados en una variedad de metodologías de clasificación, y pueden alcanzar diferentes ratios de individuos bien clasificados. El objetivo de la combinación de clasificadores individuales es el ser más certeros, precisos y exactos. Los métodos multiclasificadores más conocidos son el Bagging (Breiman, 1966) y Boosting (Freund y Schapire, 1996). El método propuesto por Breinan (1966) intenta aunar las características del Boostrapping11 y la agregación incorporando los beneficios de ambos (Boostrap AGGregatiNG). La operativa del método es la siguiente:

Se generan muestras aleatorias que serán los conjuntos de entrenamiento. Las muestras se generan a través de un muestreo aleatorio con reemplazamiento.

Cada subconjunto de entrenamiento aprende un modelo.

11 El bootstrapping (o bootstrap) es un método de remuestreo propuesto por Bradley Efron en 1979. Se utiliza para aproximar la distribución en el muestreo de un estadístico.

Page 132: Curso de Estadística con R Té - Instituto Cántabro de ...

131

Para clasificar un ejemplo se predice la clase de ese ejemplo para cada clasificador y se clasifica en la clase con mayor voto.

El método propuesto por Freund y Schapire (1996), está basado en la asignación de un peso a cada conjunto de entrenamiento. Cada vez que se itera se aprende un modelo que minimiza la suma de los pesos de aquellos ejemplos clasificados erróneamente. Los errores de cada iteración sirven para actualizar los pesos del conjunto de entrenamiento, incrementando el peso de los mal clasificados y reduciendo el peso de aquellos que han sido correctamente clasficados. La decisión final para un nuevo patrón de clasificación viene dada por la votación mayoritaria ponderada entre los diferentes conjuntos de entrenamiento. El package R: “ipred” opera multiclasificadores por los métodos bagging y boosting.

Page 133: Curso de Estadística con R Té - Instituto Cántabro de ...

132

9. BIBLIOGRAFÍA

Introducción a R: https://www.datacamp.com/courses/introduccion-a-r/?tap_a=5644-dce66f&tap_s=10907-287229 Achim Zeileis, Torsten Hothorn (2002). Diagnostic Checking in Regression Relationships. R News 2 (3), 7-10. URL http://CRAN.R-project.org/doc/Rnews/ Albright,R., Lerman,S. y Manski,C. (1977), “Development Of An Estimation Program For The M. Probit Model”. Federal Highway Administration Akaike, H. (1974), “A new look at the statistical model identification”, IEEE Transactions on Automatic Control AC-19, pp. 716–723. Amemiya, T. (1978), “On A Two-Step Estimation Of A Multivariate Logit Model”, Journal Of Econometrics 8. Anderson, R. L. (1942), “Distribution of the Serial Correlation Coefficient”, Annals of Mathematical Statistics, 1942: 1-13. Ashley, Richard A. (1984), “A Simple Test for Regression Parameter Instability,” Economic Inquiry 22, No. 2, 253-267. Aznar, A. y Trívez, F. J. (1993), Métodos de Predicción en Economía II: Análisis de Series Temporales, Ed. Ariel. Bassmann, R. (1957). “A Generalized Classical Method Of Linear Estimation Of Coefficients In A Structural Equation.” Econometrica 25, pp. 77-83 Beltran, Mauricio (2015): “Diseño e implementación de un nuevo clasificador de préstamos bancarios a través de minería de datos”. Tesis Doctoral. Departamento de Economía Aplicada y Estadística. UNED. Breiman, Leo (1996). "Bagging predictors". Machine Learning 24 (2): 123–140. doi:10.1007/BF00058655. CiteSeerX: 10.1.1.32.9399. http://link.springer.com/article/10.1007%2FBF00058655 Box, G.E.P., Jenkins, G.M. y Reinsel, G.C. (1994), Time Series Analysis - Forecasting and Control, 3rd Edition, Prentice Hall. Cayuela L (2010) Modelos lineales generalizados (GLM). EcoLab, Centro Andaluz de Medio Ambiente, Universidad de Granada. Junio 2010. Chateld, Cris (2004). The Analysis of Time Series: An Introduction (6th edn.), 2004. CRC Press Chow, G.C. (1983), Econometrics, McGraw-Hill, New York. Christ (1960). “Simultaneus Equations Estimation: Any Veredict Yet?”. Econometrica 28, pp. 835-845.

Page 134: Curso de Estadística con R Té - Instituto Cántabro de ...

133

Cochrane, D. y Orcutt, G. H. (1949a), “Application Of Least Squares Regression To Relationships Containing Autocorrelated Error Terms”, Journal of American Statistical Association 44, pp. 32-61. Cochrane, D. y Orcutt, G. H. (1949b), “A Sampling Study Of The Merits Of Autorregressive And Reduced Form Transformations In Regression Analysis” Journal of American Statistical Association 44, pp. 356-372. Dickey, D.A. y W.A. Fuller (1979), “Distribution of the Estimators for Autoregressive Time Series with a Unit Root,” Journal of the American Statistical Association, 74, p. 427–431. Durbin, J. y Koopman, S. J. (2001), Time Series Analysis by State Space Models (Oxford Statistical Science Series, nº 24), Oxford University Press. Durbin, J. y Watson, G. S. (1950), “Testing for Serial Correlation Least Squares Regressions”, Biometrika, vol 37. pp. 409-428. Engle, Robert F. (1974), Band Spectrum Regression,International Economic Review 15,1-11. Bradley Efron, Elizabeth Halloran, and Susan Holmes (1996). "Bootstrap confidence levels for

phylogenetic  trees". PNAS 93 (23): http://www.pnas.org/content/93/23/13429.full.pdf

Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics 7 (2): 179–188. Fix, E.; J.L. Hodges (1989) “(1951): An Important Contribution to Nonparametric Discriminant Analysis and Density Estimation: Commentary on Fix and Hodges (1951)”. International Statistical Review / Revue Internationale de Statistique 57 (3): 233-238. Freund, Y; Schapire, R (1997); A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting, Journal of Computer and System Sciences, 55(1):119-139. http://cseweb.ucsd.edu/~yfreund/papers/adaboost.pdf Fukunaga y Kessell (1973): “Nonparametric Bayes error estimation using unclassified samples”. IEEE Transactions on Information Theory (Volume:19 , Issue: 4 ):434-440. Gallant, A. R.(1981) "On the Bias in Flexible Functional Forms and an Essentially Unbiased Form." J. Econometrics 15(1981):211-45. Gallant, A. R.(1984) "The Fourier Flexible Form." Amer. J. Agr. Econ. 66(1984):204-15 Goldfield, S. M. y Quandt, R. E. (1965), “Some test for Homocedasticy”, Journal of American Statistical Association. Vol 37. pp 539-547. Granger, C. W. J. (1969), “Investigating causal relations by econometric models and cross-spectral methods”, Econometrica 37, p. 424-438. Granger, C.W.J.(1981), “Some properties of time series data and their use in econometric model specification”, Journal of Econometrics 16, pp. 121-130. Granger, C.W.J., y Newbold, P. (1974), “Spurious regressions in econometrics”, Journal of Econometrics 2, pp. 111-120

Page 135: Curso de Estadística con R Té - Instituto Cántabro de ...

134

Greene, W. H. (2000), Análisis Econométrico, Ed. Prentice Hall

Gujarati, D. (1997), Basic Econometrics, McGraw-Hill Gujarati, D. (2003), Econometría, Ed. McGraw-Hill

Hannan, E.J. (1963), Regression for Time Series, in Rosenblatt, M. (ed.), Time Series Analysis, New York, John Wiley. Hastie, T, Tibshirani R. and Friedman, J. (2008), The Element of Statistical Learning. Data Minining, Inference and Prediction. Second Edition. Springe. Harvey, A.C. (1978), Linear Regression in the Frequency Domain, International Economic Review, 19, 507-512. Hausman, J.A. (1974), “Estimation and Inference in Nonlinear Structural Models”, Annals of Economic and Social Measurement, con Berndt E., Hall R.E. y Hall, B.H. October 1974. Hausman, J.A. (1974): “Full Information Instrumental Variables Estimations of Simultaneas Equations Systems”, Annals of Economic and Social Measurement, Vol 3. nº 4. pp. 641-652. Hausman, J.A. (1978), “Specification tests in econometrics”, Econometrica, 46, pp. 1251-71. Hsiao, C. (1986), Analysis of Panel Data. Cambridge University Press. Johnston, J. (1997), Econometric Methods. McGraw-Hill.

Johnston, J. y Dinardo, J. (2001), Métodos De Econometría, Ed. Vicens-Vives 3ª Ed. Intriligator, M. D. (1978). Econometrics Models. Techniques And Applications. North-Holland. New York. Klein, L. R. (1960). “Single Equation Vs. Equation System Methods Of Estimation In Econometrics.” Econometrica 28, pp. 866-871. Klein, L. R. y Goldberger, A. (1955), An Econometric Model Of United States, 1929-1952. North-Holland, Amsterdam. Koopmans, T.C., Rubin, H. y Leipnik, R.B. (1950). “Measuring The Equation System Of Dinamic Economics”, en Statistical Inference In Dinamic Economic Models, Cowles Commision Monografico nº 10. John Wiley. Nueva York. Kuh, L.M. (1959), “The Validity Of Cross-Sectionally Estimated Behavior Equations” Econometrica 27. Liu, T. (1960), “Underidentification, Structural Estimation, And Forecasting” Econometrica 28, pp. 855-865. McFadden, D. (1974), “Conditional Logit Analysis Of Qualitative Choice Behaviour”, en Frontiers In Econometrics, Ed. P. Zarembka, Academic Press. Nueva York.

Page 136: Curso de Estadística con R Té - Instituto Cántabro de ...

135

McFadden, D. (1976), “Quantal Choice Analysis: A Survey”, Annals Of Economic And Social Measurement. Mood, A. M. (1950), Introduction to the Theory of Statistics, McGraw-Hill. Muth, J.F. (1961), “Rational Expectations And The Theory Of Price Movements”, Econometrica 29, pp. 315-335. Muñoz A., Parra F. (2007): Econometría Aplicada. Ediciones Académicas Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370–384. Novales, A. (1993), Econometría, 2ª Edición, McGraw-Hill. Parra, F.(2016): Econometria Aplicada I. https://econometria.files.wordpress.com/2014/11/parra-econometria-aplicada-i1.pdf Parra, F.(2016): Econometria Aplicada II. https://econometria.files.wordpress.com/2015/01/parra-econometria-aplicada-ii5.pdf. Pindyck, R. S. y Rubinfield, D. L. (1976), Econometric Models and Economic Forecast, McGraw-Hill. Pindyck, R. S. y Rubinfield, D. L. (1980), Modelos Econométricos, Ed. Labor.

Pulido, A. (1983), Modelos Econométricos, Ed. Pirámide Rosenberg, B. (1973), “A Survey Of Stochastic Parameter Regression”, Annals Of Economic And Social Measurement 2.

Samuelson, P. A., Koopmans, T. C. y Stone, J. (1954), “Report Of The Evaluative Committe For Econometrica”, Econometrica 22, pp. 141-146.

Sargan, J. D. (1958), “The Estimation Of Economic Relationships Using Instrumental Variables”, Econometrica 26, pp. 393-415.

Sargent, T.J. (1984), “Vector autoregressions, expectations and advice”, American Economic Review 74, pp.408-415 Stewart, M. y Wallis, K. (1984), Introducción a la Econometría, Alianza Editorial. Swamy, P. A. y Menhta, J. S. (1977), “Estimation Of Linear Models With Time And Cross-Sectionaly Varying Coefficients”, Journal Of The American Statistical Association 72. Tan, Hui Boon & Ashley, Richard, 1999. "Detection And Modeling Of Regression Parameter Variation Across Frequencies," Macroeconomic Dynamics, Cambridge University Press, vol. 3(01), pages 69-83, March.

Page 137: Curso de Estadística con R Té - Instituto Cántabro de ...

136

Theil, H. (1954), “Estimation Of Parameters Of Econometrics Models”, Bulletin Of International Statistics Institute 34, pp.122-128.

Tinbergen, J. (1930), “Bestimmung Und Deutung Von Angebotkurven”, Zeitschrift Für Nationalökonomie 1.

Venables, W. N. y Ripley, B. D. (2002), Modern Applied Statistics with S. 4ª Ed., Springer.

White, H. (1980), “An Heteroskedastic-Consistent Regression with Independent Observation”, Econometrica 48, pp. 817-838.

Working, E.J. (1927), “What Do Statistical Demand Curves Show?”, Quarterly Journal Of Economics 41.

Wright, P.G. (1915), “Review Of Economic Cycles By Henry Moore”, Quarterly Journal Of Economics 29.

Wright, P.G. (1928), “The Tariff On Animal And Vegetable Oils”, New York, The Mcmillan Company

Page 138: Curso de Estadística con R Té - Instituto Cántabro de ...

137

10. ANEXO I