Regresión con datos longitudinalespersonal.us.es/vararey/Regresion-datos-longitudinal.pdf · Se...
Transcript of Regresión con datos longitudinalespersonal.us.es/vararey/Regresion-datos-longitudinal.pdf · Se...
REGRESIÓN CON DATOS LONGITUDINALES
__________________________________________________________________________
1.- Introducción. .................................................................................................................... 2
2.- Supuestos del modelo de regresión lineal ........................................................................ 3
2.1.- Linealidad ..................................................................................................................... 5
2.2.- Normalidad ................ .................................................................................................. 7
2.3.- Homocedasticidad ....................................................................................................... 11
2.4.- Independencia de los errores ....................................................................................... 13
2.5.- Estimación de parámetros por mínimos cuadrados ordinarios ................................... 16
2.6.- Modelo autorregresivo ............................................................................................... 21
___________________________________________________________________________
Carlos Camacho
Universidad de Sevilla
2
REGRESIÓN CON DATOS LONGITUDINALES
1.- Introducción.
En el tema anterior hemos visto las variaciones de una determinada variable en función del
tiempo. Aunque este análisis permite conocer la configuración de los datos en el espacio
temporal, se entiende que aquí la variable tiempo no tiene carácter explicativo. Es una
variable inerte, que obviamente no es causa de nada. Las cosas suceden en el tiempo y hemos
de ver la incidencia de esas otras cosas sobre nuestra variable de interés.
La relación de variables a lo largo del tiempo tiene prácticamente la misma lógica que la
relación de variable en un instante determinado (estudio transversal), que es el habitual en
Estadística. Se recurre aquí también a los modelos de regresión, pero en este caso atento a los
supuestos del modelo, especialmente al de autocorrelación, que no suele cumplirse debido a la
misma inercia o memoria de los acontecimientos que tienden a estar correlacionados a lo
largo del tiempo.
Vamos a trabajar con unos datos que hacen referencia al consumo de bebidas alcohólicas en
Inglaterra durante el periodo comprendido entre 1870 y 1938. Estudiaremos la influencia que
sobre este consumo ejercen los salarios y el precio de estas bebidas. Los datos (alcohol.sav)
son los siguientes:
3
Cuyo gráfico es el siguiente:
2.- Supuestos del modelo de regresión lineal
Como se sabe, la puntuación de un sujeto en la variable criterio Y depende de la puntuación de
dicho sujeto en el conjunto de variables predictoras X:
Los parámetros de esta ecuación son generalmente desconocidos y han de ser estimados a
partir de los valores observados en una muestra de sujetos. Para que las inferencias a la
población -estimación- así como los contrastes de hipótesis acerca de los parámetros sean
adecuados es necesario que las variables implicadas cumplan una serie de supuestos.
(a) Linealidad. El primer supuesto establece que el valor esperado (media) en la variable
Y para cada uno de los valores X se encuentra sobre la recta de regresión "verdadera" de Y
sobre X, o dicho de otra manera, la recta de regresión de Y sobre X vendrá determinada
por los valores medios de Y para cada valor de X. En consecuencia, la esperanza
matemática de los errores será cero. Así:
Y en términos de los errores:
kk XbXbXbbXYE 22110)¦(
0)( E
eXbXbXbbY kk 22110ˆ
Fecha
1938
1934
1930
1926
1922
1918
1914
1910
1906
1902
1898
1894
1890
1886
1882
1878
1874
1870
CO
NS
UM
O
2.2
2.0
1.8
1.6
1.4
1.2
4
XY
b) Normalidad de las distribuciones. Este supuesto establece que la forma de la
distribución de Y para cada valor de X sigue una ley normal. Se cumple, entonces, la
condición de normalidad. Esta propiedad, junto a la condición de homocedasticidad
facilita la inferencia estadística del valor de Y poblacional a partir del valor de X. Así:
Y en término de los errores:
Hay que decir en relación a este supuesto que le modelo de regresión es bastante robusto
frente a violaciones del mismo. Por otro lado, para tamaños de muestras grandes, el teorema
central del límite garantiza su cumplimiento.
c) Homocedasticidad. El tercer supuesto establece que las varianzas de Y para cada valor
de X son todas iguales, esto es, la dispersión de la variable Y a todo lo largo de la
recta de regresión es constante. Esta formulación equivale a decir que la varianza de
los errores es igualmente constante ya que en la expresión
la variabilidad en Y para un cierto valor de X lo aporta . El interés de esta
propiedad reside en la ventaja de utilizar un único valor para todo el recorrido de X a
la hora de estimar valores de Y a partir de X, lo que otorga simplicidad al modelo.
Así pues:
O bien:
d) Ausencia de autocorrelación. El cuarto supuesto establece que las variables
aleatorias Y son independientes entre sí; es decir, la covarianza (o bien, correlación)
entre dos valores de Y cualesquiera es cero. Cuando los valores de Y hacen
referencia a sujetos distintos -estudios transversales- esta propiedad suele cumplirse.
Otro caso sucede en estudios longitudinales donde se efectúan diferentes mediciones
de los mismos sujetos a lo largo del tiempo, y que por razones de inercia suelen
presentar autocorrelación. Así:
O bien:
2)¦( iXYVar
2)( Var
0)( jiYYCov
0)( jiCov
),( 2
¦¦ xyxyi NY
),0( 2 Ni
5
2.1.- Linealidad
El gráfico del diagrama de dispersión constituye una primera aproximación no muy rigurosa
al estudio de la linealidad. Aparentemente lo es. Podemos completarlo mediante un gráfico en
el que se comparan las puntuaciones residuales y predichas.
Recurrimos a Regresión lineal/gráficos y hacemos la siguiente selección:
Los resultados:
Gráfico de dispersión
Variable dependiente: CONSUMO
Regresión R esiduo tipif icado
210-1-2-3
Reg
resió
n V
alo
r pro
no
stica
do
tip
ific
ad
o
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
6
Se observa que no hay ninguna relación entre los valores predichos y los residuales, lo que es
indicativo que los valores residuales (la diferencia entre las puntuaciones reales y las
estimadas por la recta) se distribuyen de una forma aleatoria.
Otra forma de chequear el tipo de relación entre las variables, y que ya conocemos, consiste
en tantear los diferentes modelos posibles de regresión (lineal, cuadrático, cúbico ...etc). Para
ello vamos a regresión/estimación curvilínea:
Tenemos que los otros modelos no aportan nada sustancial respecto al enfoque lineal:
Independent: PRECIO
Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3
CONSUMO LIN .955 67 1421.52 .000 4.4581 -1.2688
CONSUMO QUA .957 66 733.92 .000 2.1338 .8626 -.4836
CONSUMO CUB .957 66 733.97 .000 2.8882 -.1858 -.0740
Notes:
Tolerance limits reached; some dependent variables were not entered.
Gráficamente:
7
Aceptamos, entonces los siguientes resultados:
2.2.- Normalidad
Se exige que los valores de las puntuaciones residuales ligadas al los diferentes valores de X
se distribuyan según una ley normal. Hay que decir que esta condición no es tan importante
como otras, que las pruebas no paramétricas son bastante potentes respecto a la violación de
la normalidad y que por teorema central del límite cabe esperar que su distribución sea normal
por cuanto las puntuaciones residuales son consecuencia del efecto de numerosos factores no
controlados.
Hay diversos procedimientos, gráficos y analíticos. Respecto a los gráficos veremos el
histograma y el gráfico de probabilidad normal. El procedimiento analítico que
desarrollaremos hace referencia a la prueba de Kolmogorov-Smirnov.
Si deseamos ver el histograma y el gráfico de probabilidad normal iremos a regresión
lineal/gráficos, y marcaremos las casillas correspondientes:
CONSUMO
PRECIO
2.62.52.42.32.22.12.01.91.8
2.2
2.0
1.8
1.6
1.4
1.2
Observada
Lineal
Cuadrático
Cúbic o
8
En el caso que nos ocupa, donde estamos relacionando consumo de alcohol con precio del
mismo, tendremos:
Gráficos
Regresión R esiduo tipif icado
1.751.50
1.251.00
.75.50.25
0.00-.25
-.50-.75
-1.00-1.25
-1.50-1.75
-2.00-2.25
-2.50
His tograma
Variable dependiente: CONSUMO
Fre
cue
ncia
12
10
8
6
4
2
0
Desv. típ. = .99
Media = 0.00
N = 69.00
Gráfico P-P normal de regres ión Residuo tipificado
Variable dependiente: CONSUMO
Prob acum observ ada
1.00.75.50.250.00
Pro
b ac
um e
sper
ada
1.00
.75
.50
.25
0.00
9
En ambos gráficos la línea continua representa la configuración que tendrían los datos si estos
siguieran una distribución normal. En el primer caso, el en el eje de las abscisas están la
puntuaciones y en el de las ordenadas las frecuencias correspondientes. En el segundo caso, la
proporción acumulada empírica u observada, en el eje de las abscisas, y la proporción que le
correspondería (ya probabilidad) en el supuesto de que la distribución siguiera una ley
normal.
En ambos gráficos parece indicarse que los datos no están muy lejos de una distribución
normal. No obstante, esta consideración no es muy precisa, diríamos que está hecha a ojo, por
tanto si deseamos más precisión recurriremos a pruebas analíticas, En este caso, a la prueba de
Kolmogorov Smirnov. Previamente hemos de grabar las puntuaciones residuales. Vayamos a
regresión/guardar nuevas variables:
Y a continuación vayamos a pruebas paramétricas, y seleccionemos la prueba de
Kolmogorov Smirnov (K-S de 1 muestra):
10
Cuyos resultados son:
11
Se observa que la diferencia máxima encontrada entre la proporción acumulada observada y
teórica es de 0.085 en términos absolutos. Y la probabilidad de que tal discrepancia se
produzca desde el supuesto de la hipótesis nula (no diferencia) es de 0.708. En consecuencia,
aceptamos la hipótesis nula (o mejor, nada se opone a aceptarla) con un riesgo
desconocido.
2.3.- Homocedasticidad
Esta condición exige que la varianza del error sea constante para todo el recorrido de la
ecuación de regresión. Gráficamente se interpreta observando si la dispersión de los datos es
mayor (megáfono abierto) o menor (megáfono cerrado) a lo largo del eje de las abscisas. La
forma gráfica de comprobarlo es mediante el gráfico anteriormente expuesto, válido para la
linealidad, donde se cruzaban las puntuaciones predichas frente a las residuales. Obsérvese
que la dispersión es constante por lo que no se aprecia homocedasticidad alguna:
Prueba de Kolmogorov-Smirnov para una muestra
69
.0000000
.05753021
.085
.039
-.085
.702
.708
N
Media
Desviación t ípica
Parámetros normalesa,b
Absoluta
Positiva
Negativa
Diferencias más
extremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bilateral)
Unstandardiz
ed Residual
La distribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
Gráfico de dispersión
Variable dependiente: CONSUMO
Regresión R esiduo tipif icado
210-1-2-3
Reg
resió
n V
alo
r pro
no
stica
do
tip
ific
ad
o
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
12
Se observa que no hay una apariencia de un mayor grosor de la nube de puntos en una
dirección u otra, aunque hay que decir que con tan pocos individuos no hay mucho
fundamento para afirmarlo. De todas formas, si queremos ser más rigurosos también aquí
disponemos de recursos analíticos: calcularemos la correlación entre las puntuaciones
residuales en valores absolutos y las puntuaciones predichas. Decimos en valores absolutos
porque si no la correlación sería de cero.
Para ello, previamente hemos de calcular los valores absolutos de la variable err_1.
Vamos a Transformar/Calcular e indicamos que genere una nueva variable abres1, que
corresponde a los valores absolutos de res_1:
A continuación nos dirigimos a Correlaciones/bivariadas:
Y obtendremos:
13
Se observa que no existe correlación significativa.
2.4.- Independencia de los errores
Cuando se realizan diferentes observaciones de una misma variable en el tiempo, cabe esperar
que éstas presenten un cierto parecido, que haya una cierta inercia en el sistema que haga que
los valores sucesivos no se alejen demasiado entre sí. No se cumple el supuesto de
independencia de los errores, cuya expresión es:
Como en los otros supuestos, podemos comprobarlo de forma gráfica o analítica. De forma
gráfica, representaremos los errores a lo largo del tiempo y observaremos si su distribución
refleja una cierta estructura o configuración o por el contrario si su distribución es aleatoria, y
concluiremos así si están relacionados o no.
Para ello, vayamos a gráficos/dispersión:
Y obtendremos:
Correlaciones
1 .222
. .067
69 69
.222 1
.067 .
69 69
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
ABRES
Unstandardized
Predicted Value
ABRES
Unstandardize
d Predicted
Value
0jieer
14
Obsérvese que los residuales suben progresivamente, descienden luego y se repite el mismo
proceso a continuación, lo que es indicativo de su no distribución aleatoria.
De forma analítica el test de Durbin-Watson nos permite conocer si existe correlación entre
residuos adyacentes. Su expresión es:
donde 1iieer hace referencia a la correlación entre residuales adyacentes (autocorrelación de
orden uno). Como puede comprobarse, el valor d oscila entre 0 y 4. Cuando la correlación es
perfecta positiva, d=0 y cuando sea perfecta negativa, d=4. En ausencia de correlación, d=2.
Podemos calcular la correlación entre residuales adyacentes recurriendo a autocorrelación en
gráficos/serie temporal:
YEAR, not periodic
194019301920191019001890188018701860
Unst
an
da
rdiz
ed
Re
sid
ua
l
.2
.1
0.0
-.1
-.2
1
122
2
1
iiee
i
iir
e
eed
15
donde obtendremos el siguiente cuadro de diálogo:
Resultados:
16
Autocorrelations: RES_1 Unstandardized Residual
Auto- Stand.
Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.
_
1 .861 .118 . ****.************ 53.430 .000
2 .758 .117 . ****.********** 95.416 .000
3 .651 .116 . ****.******** 126.836 .000
4 .515 .115 . ****.***** 146.859 .000
5 .396 .114 . ****.*** 158.880 .000
6 .280 .113 . ****.* 164.961 .000
7 .139 .112 . ***. 166.482 .000
8 -.012 .112 . * . 166.494 .000
9 -.101 .111 . ** . 167.324 .000
10 -.221 .110 **** . 171.387 .000
11 -.279 .109 **.*** . 177.984 .000
12 -.335 .108 ***.*** . 187.624 .000
13 -.417 .107 ****.*** . 202.859 .000
14 -.446 .106 *****.*** . 220.607 .000
15 -.437 .105 *****.*** . 237.948 .000
16 -.390 .104 ****.*** . 251.992 .000
Plot Symbols: Autocorrelations * Two Standard Error Limits .
Total cases: 70 Computable first lags: 68
_
Se observa que la correlación entre residuales adyacentes es de 0.861 (lag=1). Cuando la
distancia es de t=2, la correlación disminuye hasta 0.758 ..etc.
Para conocer el coeficiente de Durbin-Watson:
2.5.- Estimación de parámetros por mínimos cuadrados ordinarios
Aunque más adelante veremos que mediante es procedimiento AREG pueden estimarse
parámetros para datos secuenciales de forma adecuada, veremos por el momento, un
procedimiento alternativo, más artesanal, pero que permitirá comprender mejor la lógica de la
regresión. Se trata de transformar las variables de forma tal que el efecto de autocorrelación
quede eliminado. Y con los nuevos datos, libres de autocorrelación, aplicaremos mínimos
cuadrados ordinarios.
A este respecto, tengamos el siguiente modelo de regresión:
Por otro lado, tengamos la siguiente ecuación de regresión entre residuales adyacentes:
278.0)861.01(2121
iieerd
ttt eXY
ttt ee 1
)1(
17
donde hace referencia a la correlación entre errores adyacentes. Tengamos ahora:
multipliquemos todo ello por :
Restándolo de (1):
Se observa que el error de este nuevo modelo:
es aleatorio.
Así pues, definiendo las siguientes variables:
obtendremos al siguiente ecuación con residuales aleatorios:
A este respecto, hemos de generar dos nuevas variables (concorre y precorre), de la siguiente
manera:
111 ttt eXY
111 ttt eXY
)()()1( 111 tttttt eeXXYY
1 ttt ee
1
*
1
*
ttt
ttt
XXX
YYY
ttt XY ** )1(
18
donde conmas1 es el consumo en el periodo t+1 y consumo, la variable consumo en el
momento t. Esto es, la siguiente expresión:
Lo mismo hacemos con la variable precio:
Esto es:
Como consecuencia de ello, calculamos la regresión entre estas variables transformadas:
1
*
ttt YYY
1
*
ttt XXX
19
Con los siguientes resultados:
Regresión
Obsérvese que el efecto del precio sobre el consumo es prácticamente el mismo que el
modelo sin tratar la autocorrelación (insesgados) pero en este caso las estimación de la
varianza es correcta. Véase el error tipo de precio cuyo valor es 0.073, muy diferente al caso
anterior (0.034).
Resumen del modelo
.883a .780 .777 .02664421
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Variables predictoras: (Constante), precio transf ormadaa.
Coeficientesa
.573 .022 25.806 .000
-1.114 .073 -.883 -15.294 .000
(Constante)
precio transf ormada
Modelo
1
B Error típ.
Coef icientes no
estandarizados
Beta
Coef icientes
estandarizad
os
t Sig.
Variable dependiente: consumo transformadaa.
20
En cuanto a los residuales, no se observa ninguna estructura particular en la configuración
gráfica:
E igualmente carecen de autocorrelación:
MODEL: MOD_2.
Variable: RES_2 Missing cases: 2 Valid cases: 68
_
Autocorrelations: RES_2 Unstandardized Residual
Auto- Stand.
Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.
1 .031 .119 . * . .066 .797
2 .145 .118 . *** . 1.580 .454
3 .218 .117 . ****. 5.076 .166
4 .135 .116 . *** . 6.439 .169
5 .144 .115 . *** . 7.997 .156
6 .127 .114 . *** . 9.226 .161
7 .117 .113 . ** . 10.296 .172
8 -.102 .112 . ** . 11.125 .195
9 .170 .111 . ***. 13.466 .143
10 -.249 .110 *.*** . 18.569 .046
11 .028 .109 . * . 18.635 .068
12 .136 .108 . ***. 20.201 .063
13 -.175 .107 **** . 22.861 .043
14 -.073 .107 . * . 23.331 .055
15 -.106 .106 . ** . 24.338 .060
16 .051 .105 . * . 24.579 .078
Plot Symbols: Autocorrelations * Two Standard Error Limits .
Total cases: 70 Computable first lags: 67
_
YEAR, not periodic
194019301920191019001890188018701860
Unst
an
da
rdiz
ed
Re
sid
ua
l
.1
0.0
-.1
-.2
21
2.6.- Modelo autorregresivo
Hay que decir que existen procedimientos estadísticos adecuados para trtar series de datos
cuando existe autocorrelación de orden 1 entre sus valores. Se trata de un caso especial de los
modelos ARIMA, que veremos más adelante. Se denomina AREG y se encuentra disponible
en el SPSS. Así, para los datos que estamos tratando:
Con el siguiente cuadro de diálogo:
Cuyo resultado es:
22
Variables in the Model:
B SEB T-RATIO APPROX. PROB.
AR1 .9667144 .03364885 28.729495 .0000000
PRECIO -.9486926 .08535896 -11.114153 .0000000
CONSTANT 3.7388321 .19566689 19.108149 .0000000
Se observan valores parecidos a los estimados anteriormente.