Regresión con datos longitudinalespersonal.us.es/vararey/Regresion-datos-longitudinal.pdf · Se...

REGRESIÓN CON DATOS LONGITUDINALES

__________________________________________________________________________

1.- Introducción. .................................................................................................................... 2

2.- Supuestos del modelo de regresión lineal ........................................................................ 3

2.1.- Linealidad ..................................................................................................................... 5

2.2.- Normalidad ................ .................................................................................................. 7

2.3.- Homocedasticidad ....................................................................................................... 11

2.4.- Independencia de los errores ....................................................................................... 13

2.5.- Estimación de parámetros por mínimos cuadrados ordinarios ................................... 16

2.6.- Modelo autorregresivo ............................................................................................... 21

___________________________________________________________________________

Carlos Camacho

Universidad de Sevilla

2

REGRESIÓN CON DATOS LONGITUDINALES

1.- Introducción.

En el tema anterior hemos visto las variaciones de una determinada variable en función del

tiempo. Aunque este análisis permite conocer la configuración de los datos en el espacio

temporal, se entiende que aquí la variable tiempo no tiene carácter explicativo. Es una

variable inerte, que obviamente no es causa de nada. Las cosas suceden en el tiempo y hemos

de ver la incidencia de esas otras cosas sobre nuestra variable de interés.

La relación de variables a lo largo del tiempo tiene prácticamente la misma lógica que la

relación de variable en un instante determinado (estudio transversal), que es el habitual en

Estadística. Se recurre aquí también a los modelos de regresión, pero en este caso atento a los

supuestos del modelo, especialmente al de autocorrelación, que no suele cumplirse debido a la

misma inercia o memoria de los acontecimientos que tienden a estar correlacionados a lo

largo del tiempo.

Vamos a trabajar con unos datos que hacen referencia al consumo de bebidas alcohólicas en

Inglaterra durante el periodo comprendido entre 1870 y 1938. Estudiaremos la influencia que

sobre este consumo ejercen los salarios y el precio de estas bebidas. Los datos (alcohol.sav)

son los siguientes:

http://personal.us.es/vararey/alcohol.sav

3

Cuyo gráfico es el siguiente:

2.- Supuestos del modelo de regresión lineal

Como se sabe, la puntuación de un sujeto en la variable criterio Y depende de la puntuación de

dicho sujeto en el conjunto de variables predictoras X:

Los parámetros de esta ecuación son generalmente desconocidos y han de ser estimados a

partir de los valores observados en una muestra de sujetos. Para que las inferencias a la

población -estimación- así como los contrastes de hipótesis acerca de los parámetros sean

adecuados es necesario que las variables implicadas cumplan una serie de supuestos.

(a) Linealidad. El primer supuesto establece que el valor esperado (media) en la variable

Y para cada uno de los valores X se encuentra sobre la recta de regresión "verdadera" de Y

sobre X, o dicho de otra manera, la recta de regresión de Y sobre X vendrá determinada

por los valores medios de Y para cada valor de X. En consecuencia, la esperanza

matemática de los errores será cero. Así:

Y en términos de los errores:

kk XbXbXbbXYE 22110)¦(

0)( E

eXbXbXbbY kk 22110ˆ

Fecha

1938

1934

1930

1926

1922

1918

1914

1910

1906

1902

1898

1894

1890

1886

1882

1878

1874

1870

CO

NS

UM

O

2.2

2.0

1.8

1.6

1.4

1.2

4

XY

b) Normalidad de las distribuciones. Este supuesto establece que la forma de la

distribución de Y para cada valor de X sigue una ley normal. Se cumple, entonces, la

condición de normalidad. Esta propiedad, junto a la condición de homocedasticidad

facilita la inferencia estadística del valor de Y poblacional a partir del valor de X. Así:

Y en término de los errores:

Hay que decir en relación a este supuesto que le modelo de regresión es bastante robusto

frente a violaciones del mismo. Por otro lado, para tamaños de muestras grandes, el teorema

central del límite garantiza su cumplimiento.

c) Homocedasticidad. El tercer supuesto establece que las varianzas de Y para cada valor

de X son todas iguales, esto es, la dispersión de la variable Y a todo lo largo de la

recta de regresión es constante. Esta formulación equivale a decir que la varianza de

los errores es igualmente constante ya que en la expresión

la variabilidad en Y para un cierto valor de X lo aporta . El interés de esta

propiedad reside en la ventaja de utilizar un único valor para todo el recorrido de X a

la hora de estimar valores de Y a partir de X, lo que otorga simplicidad al modelo.

Así pues:

O bien:

d) Ausencia de autocorrelación. El cuarto supuesto establece que las variables

aleatorias Y son independientes entre sí; es decir, la covarianza (o bien, correlación)

entre dos valores de Y cualesquiera es cero. Cuando los valores de Y hacen

referencia a sujetos distintos -estudios transversales- esta propiedad suele cumplirse.

Otro caso sucede en estudios longitudinales donde se efectúan diferentes mediciones

de los mismos sujetos a lo largo del tiempo, y que por razones de inercia suelen

presentar autocorrelación. Así:

O bien:

2)¦( iXYVar

2)( Var

0)( jiYYCov

0)( jiCov

),( 2

¦¦ xyxyi NY

),0( 2 Ni

5

2.1.- Linealidad

El gráfico del diagrama de dispersión constituye una primera aproximación no muy rigurosa

al estudio de la linealidad. Aparentemente lo es. Podemos completarlo mediante un gráfico en

el que se comparan las puntuaciones residuales y predichas.

Recurrimos a Regresión lineal/gráficos y hacemos la siguiente selección:

Los resultados:

Gráfico de dispersión

Variable dependiente: CONSUMO

Regresión R esiduo tipif icado

210-1-2-3

Reg

resió

n V

alo

r pro

no

stica

do

tip

ific

ad

o

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0

6

Se observa que no hay ninguna relación entre los valores predichos y los residuales, lo que es

indicativo que los valores residuales (la diferencia entre las puntuaciones reales y las

estimadas por la recta) se distribuyen de una forma aleatoria.

Otra forma de chequear el tipo de relación entre las variables, y que ya conocemos, consiste

en tantear los diferentes modelos posibles de regresión (lineal, cuadrático, cúbico ...etc). Para

ello vamos a regresión/estimación curvilínea:

Tenemos que los otros modelos no aportan nada sustancial respecto al enfoque lineal:

Independent: PRECIO

Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3

CONSUMO LIN .955 67 1421.52 .000 4.4581 -1.2688

CONSUMO QUA .957 66 733.92 .000 2.1338 .8626 -.4836

CONSUMO CUB .957 66 733.97 .000 2.8882 -.1858 -.0740

Notes:

Tolerance limits reached; some dependent variables were not entered.

Gráficamente:

7

Aceptamos, entonces los siguientes resultados:

2.2.- Normalidad

Se exige que los valores de las puntuaciones residuales ligadas al los diferentes valores de X

se distribuyan según una ley normal. Hay que decir que esta condición no es tan importante

como otras, que las pruebas no paramétricas son bastante potentes respecto a la violación de

la normalidad y que por teorema central del límite cabe esperar que su distribución sea normal

por cuanto las puntuaciones residuales son consecuencia del efecto de numerosos factores no

controlados.

Hay diversos procedimientos, gráficos y analíticos. Respecto a los gráficos veremos el

histograma y el gráfico de probabilidad normal. El procedimiento analítico que

desarrollaremos hace referencia a la prueba de Kolmogorov-Smirnov.

Si deseamos ver el histograma y el gráfico de probabilidad normal iremos a regresión

lineal/gráficos, y marcaremos las casillas correspondientes:

CONSUMO

PRECIO

2.62.52.42.32.22.12.01.91.8

2.2

2.0

1.8

1.6

1.4

1.2

Observada

Lineal

Cuadrático

Cúbic o

8

En el caso que nos ocupa, donde estamos relacionando consumo de alcohol con precio del

mismo, tendremos:

Gráficos


1.751.50

1.251.00

.75.50.25

0.00-.25

-.50-.75

-1.00-1.25

-1.50-1.75

-2.00-2.25

-2.50

His tograma


Fre

cue

ncia

12

10

8

6

4

2

0

Desv. típ. = .99

Media = 0.00

N = 69.00

Gráfico P-P normal de regres ión Residuo tipificado


Prob acum observ ada

1.00.75.50.250.00

Pro

b ac

um e

sper

ada

1.00

.75

.50

.25

0.00

9

En ambos gráficos la línea continua representa la configuración que tendrían los datos si estos

siguieran una distribución normal. En el primer caso, el en el eje de las abscisas están la

puntuaciones y en el de las ordenadas las frecuencias correspondientes. En el segundo caso, la

proporción acumulada empírica u observada, en el eje de las abscisas, y la proporción que le

correspondería (ya probabilidad) en el supuesto de que la distribución siguiera una ley

normal.

En ambos gráficos parece indicarse que los datos no están muy lejos de una distribución

normal. No obstante, esta consideración no es muy precisa, diríamos que está hecha a ojo, por

tanto si deseamos más precisión recurriremos a pruebas analíticas, En este caso, a la prueba de

Kolmogorov Smirnov. Previamente hemos de grabar las puntuaciones residuales. Vayamos a

regresión/guardar nuevas variables:

Y a continuación vayamos a pruebas paramétricas, y seleccionemos la prueba de

Kolmogorov Smirnov (K-S de 1 muestra):

10

Cuyos resultados son:

11

Se observa que la diferencia máxima encontrada entre la proporción acumulada observada y

teórica es de 0.085 en términos absolutos. Y la probabilidad de que tal discrepancia se

produzca desde el supuesto de la hipótesis nula (no diferencia) es de 0.708. En consecuencia,

aceptamos la hipótesis nula (o mejor, nada se opone a aceptarla) con un riesgo

desconocido.

2.3.- Homocedasticidad

Esta condición exige que la varianza del error sea constante para todo el recorrido de la

ecuación de regresión. Gráficamente se interpreta observando si la dispersión de los datos es

mayor (megáfono abierto) o menor (megáfono cerrado) a lo largo del eje de las abscisas. La

forma gráfica de comprobarlo es mediante el gráfico anteriormente expuesto, válido para la

linealidad, donde se cruzaban las puntuaciones predichas frente a las residuales. Obsérvese

que la dispersión es constante por lo que no se aprecia homocedasticidad alguna:

Prueba de Kolmogorov-Smirnov para una muestra

69

.0000000

.05753021

.085

.039

-.085

.702

.708

N

Media

Desviación t ípica

Parámetros normalesa,b

Absoluta

Positiva

Negativa

Diferencias más

extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Unstandardiz

ed Residual

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Gráfico de dispersión



210-1-2-3

Reg

resió

n V

alo

r pro

no

stica

do

tip

ific

ad

o

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0

12

Se observa que no hay una apariencia de un mayor grosor de la nube de puntos en una

dirección u otra, aunque hay que decir que con tan pocos individuos no hay mucho

fundamento para afirmarlo. De todas formas, si queremos ser más rigurosos también aquí

disponemos de recursos analíticos: calcularemos la correlación entre las puntuaciones

residuales en valores absolutos y las puntuaciones predichas. Decimos en valores absolutos

porque si no la correlación sería de cero.

Para ello, previamente hemos de calcular los valores absolutos de la variable err_1.

Vamos a Transformar/Calcular e indicamos que genere una nueva variable abres1, que

corresponde a los valores absolutos de res_1:

A continuación nos dirigimos a Correlaciones/bivariadas:

Y obtendremos:

13

Se observa que no existe correlación significativa.

2.4.- Independencia de los errores

Cuando se realizan diferentes observaciones de una misma variable en el tiempo, cabe esperar

que éstas presenten un cierto parecido, que haya una cierta inercia en el sistema que haga que

los valores sucesivos no se alejen demasiado entre sí. No se cumple el supuesto de

independencia de los errores, cuya expresión es:

Como en los otros supuestos, podemos comprobarlo de forma gráfica o analítica. De forma

gráfica, representaremos los errores a lo largo del tiempo y observaremos si su distribución

refleja una cierta estructura o configuración o por el contrario si su distribución es aleatoria, y

concluiremos así si están relacionados o no.

Para ello, vayamos a gráficos/dispersión:

Y obtendremos:

Correlaciones

1 .222

. .067

69 69

.222 1

.067 .

69 69

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

ABRES

Unstandardized

Predicted Value

ABRES

Unstandardize

d Predicted

Value

0jieer

14

Obsérvese que los residuales suben progresivamente, descienden luego y se repite el mismo

proceso a continuación, lo que es indicativo de su no distribución aleatoria.

De forma analítica el test de Durbin-Watson nos permite conocer si existe correlación entre

residuos adyacentes. Su expresión es:

donde 1iieer hace referencia a la correlación entre residuales adyacentes (autocorrelación de

orden uno). Como puede comprobarse, el valor d oscila entre 0 y 4. Cuando la correlación es

perfecta positiva, d=0 y cuando sea perfecta negativa, d=4. En ausencia de correlación, d=2.

Podemos calcular la correlación entre residuales adyacentes recurriendo a autocorrelación en

gráficos/serie temporal:

YEAR, not periodic

194019301920191019001890188018701860

Unst

an

da

rdiz

ed

Re

sid

ua

l

.2

.1

0.0

-.1

-.2

1

122

2

1

iiee

i

iir

e

eed

15

donde obtendremos el siguiente cuadro de diálogo:

Resultados:

16

Autocorrelations: RES_1 Unstandardized Residual

Auto- Stand.

Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.

_

1 .861 .118 . ****.************ 53.430 .000

2 .758 .117 . ****.********** 95.416 .000

3 .651 .116 . ****.******** 126.836 .000

4 .515 .115 . ****.***** 146.859 .000

5 .396 .114 . ****.*** 158.880 .000

6 .280 .113 . ****.* 164.961 .000

7 .139 .112 . ***. 166.482 .000

8 -.012 .112 . * . 166.494 .000

9 -.101 .111 . ** . 167.324 .000

10 -.221 .110 **** . 171.387 .000

11 -.279 .109 **.*** . 177.984 .000

12 -.335 .108 ***.*** . 187.624 .000

13 -.417 .107 ****.*** . 202.859 .000

14 -.446 .106 *****.*** . 220.607 .000

15 -.437 .105 *****.*** . 237.948 .000

16 -.390 .104 ****.*** . 251.992 .000

Plot Symbols: Autocorrelations * Two Standard Error Limits .

Total cases: 70 Computable first lags: 68

_

Se observa que la correlación entre residuales adyacentes es de 0.861 (lag=1). Cuando la

distancia es de t=2, la correlación disminuye hasta 0.758 ..etc.

Para conocer el coeficiente de Durbin-Watson:

2.5.- Estimación de parámetros por mínimos cuadrados ordinarios

Aunque más adelante veremos que mediante es procedimiento AREG pueden estimarse

parámetros para datos secuenciales de forma adecuada, veremos por el momento, un

procedimiento alternativo, más artesanal, pero que permitirá comprender mejor la lógica de la

regresión. Se trata de transformar las variables de forma tal que el efecto de autocorrelación

quede eliminado. Y con los nuevos datos, libres de autocorrelación, aplicaremos mínimos

cuadrados ordinarios.

A este respecto, tengamos el siguiente modelo de regresión:

Por otro lado, tengamos la siguiente ecuación de regresión entre residuales adyacentes:

278.0)861.01(2121

iieerd

ttt eXY

ttt ee 1

)1(

17

donde hace referencia a la correlación entre errores adyacentes. Tengamos ahora:

multipliquemos todo ello por :

Restándolo de (1):

Se observa que el error de este nuevo modelo:

es aleatorio.

Así pues, definiendo las siguientes variables:

obtendremos al siguiente ecuación con residuales aleatorios:

A este respecto, hemos de generar dos nuevas variables (concorre y precorre), de la siguiente

manera:

111 ttt eXY

111 ttt eXY

)()()1( 111 tttttt eeXXYY

1 ttt ee

1

*

1

*

ttt

ttt

XXX

YYY

ttt XY ** )1(

18

donde conmas1 es el consumo en el periodo t+1 y consumo, la variable consumo en el

momento t. Esto es, la siguiente expresión:

Lo mismo hacemos con la variable precio:

Esto es:

Como consecuencia de ello, calculamos la regresión entre estas variables transformadas:

1

*

ttt YYY

1

*

ttt XXX

19

Con los siguientes resultados:

Regresión

Obsérvese que el efecto del precio sobre el consumo es prácticamente el mismo que el

modelo sin tratar la autocorrelación (insesgados) pero en este caso las estimación de la

varianza es correcta. Véase el error tipo de precio cuyo valor es 0.073, muy diferente al caso

anterior (0.034).

Resumen del modelo

.883a .780 .777 .02664421

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Variables predictoras: (Constante), precio transf ormadaa.

Coeficientesa

.573 .022 25.806 .000

-1.114 .073 -.883 -15.294 .000

(Constante)

precio transf ormada

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icientes

estandarizad

os

t Sig.

Variable dependiente: consumo transformadaa.

20

En cuanto a los residuales, no se observa ninguna estructura particular en la configuración

gráfica:

E igualmente carecen de autocorrelación:

MODEL: MOD_2.

Variable: RES_2 Missing cases: 2 Valid cases: 68

_

Autocorrelations: RES_2 Unstandardized Residual

Auto- Stand.

Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.

1 .031 .119 . * . .066 .797

2 .145 .118 . *** . 1.580 .454

3 .218 .117 . ****. 5.076 .166

4 .135 .116 . *** . 6.439 .169

5 .144 .115 . *** . 7.997 .156

6 .127 .114 . *** . 9.226 .161

7 .117 .113 . ** . 10.296 .172

8 -.102 .112 . ** . 11.125 .195

9 .170 .111 . ***. 13.466 .143

10 -.249 .110 *.*** . 18.569 .046

11 .028 .109 . * . 18.635 .068

12 .136 .108 . ***. 20.201 .063

13 -.175 .107 **** . 22.861 .043

14 -.073 .107 . * . 23.331 .055

15 -.106 .106 . ** . 24.338 .060

16 .051 .105 . * . 24.579 .078

Plot Symbols: Autocorrelations * Two Standard Error Limits .

Total cases: 70 Computable first lags: 67

_

YEAR, not periodic

194019301920191019001890188018701860

Unst

an

da

rdiz

ed

Re

sid

ua

l

.1

0.0

-.1

-.2

21

2.6.- Modelo autorregresivo

Hay que decir que existen procedimientos estadísticos adecuados para trtar series de datos

cuando existe autocorrelación de orden 1 entre sus valores. Se trata de un caso especial de los

modelos ARIMA, que veremos más adelante. Se denomina AREG y se encuentra disponible

en el SPSS. Así, para los datos que estamos tratando:

Con el siguiente cuadro de diálogo:

Cuyo resultado es:

22

Variables in the Model:

B SEB T-RATIO APPROX. PROB.

AR1 .9667144 .03364885 28.729495 .0000000

PRECIO -.9486926 .08535896 -11.114153 .0000000

CONSTANT 3.7388321 .19566689 19.108149 .0000000

Se observan valores parecidos a los estimados anteriormente.

Regresión con datos longitudinalespersonal.us.es/vararey/Regresion-datos-longitudinal.pdf · Se...

Documents

Transcript of Regresión con datos longitudinalespersonal.us.es/vararey/Regresion-datos-longitudinal.pdf · Se...