REGRESIÓN LINEAL MÚLTIPLE - Universidad de...

18
REGRESIÓN LINEAL MÚLTIPLE 1.- Planteamiento general..................................................................................................................... 1 2.- Métodos para selección de variables .............................................................................................. 4 3.- Correlaciones parciales y semiparciales ....................................................................................... 11 4.- Estudio de los supuestos del modelo ............................................................................................ 13 4.1.- Regresión por bloques ............................................................................................................... 15 4.2.- Multicolinealidad en las variables explicativas ......................................................................... 18 Carlos Camacho Universidad de Sevilla

Transcript of REGRESIÓN LINEAL MÚLTIPLE - Universidad de...

REGRESIÓN LINEAL MÚLTIPLE

1.- Planteamiento general ..................................................................................................................... 1

2.- Métodos para selección de variables .............................................................................................. 4

3.- Correlaciones parciales y semiparciales ....................................................................................... 11

4.- Estudio de los supuestos del modelo ............................................................................................ 13

4.1.- Regresión por bloques ............................................................................................................... 15

4.2.- Multicolinealidad en las variables explicativas ......................................................................... 18

Carlos Camacho

Universidad de Sevilla

2

1.-Planteamiento general

Como se sabe, le modelo de regresión múltiple se utiliza para predecir el comportamiento de una

determinada variable –variable dependiente o criterio- en función de otras variables –

independientes o explicativas (también regresores o predictores)

Trabajaremos aquí con otro fichero de datos, notas.sav tal como se ilustra a continuación:

Las variables consideradas son:

Inteligencia

Horas de estudio

Nivel social

Calificación

Sexo

Supongamos que deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas de

estudio y Nivel Social) sobre las calificaciones obtenidas:

3

Nos ofrece el siguiente conjunto de resultado que iremos desmenuzando. Comencemos por el

resumen del modelo:

El modelo explica un 90.2%, que una vez corregido por el efecto de la muestra y de las variables

independientes resulta ser 88.4%. Por otro lado, el error típico de la estimación (raíz cuadrada de la

varianza no explicada) resulta ser de 0.589.

La prueba de análisis de la varianza, que nos muestra si la varianza explicada por la regresión es

significativamente distinta ( y superior) a la varianza no explicada es:

El valor de F obtenido es 49.1, cuya probabilidad asociada según las expectativas de la Hipótesis

nula es menor del 0.0001, lo que nos lleva a rechazar tal hipótesis y suponer que existe un efecto

real de dichas variables sobre la calificación académica.

Por otro lado, el modelo de regresión será:

4

De aquí se deduce que la ecuación de regresión en directas es:

Siendo:

Y: Calificación académica

X1: Inteligencia

X2: Horas de estudio X3: Nivel Social

Tal como está expresada la ecuación anterior parecería que la Inteligencia tiene poca

importancia. Se debe a que la magnitud de su escala es mucho más alta que las restantes

variables y su peso específico por unida es menor. No obstante, la ecuación de regresión en

estandarizadas nos mostrará todas las variables en la misma dimensión. Así:

Se observa que aquí el peso específico de la Inteligencia es superior a los restantes. Si nos

atenemos al valor de t que nos indica la significación estadística de los distintos coeficientes

observaremos un valor máximo para la Horas de estudio (t = 7.272), seguido de la Inteligencia

(t = 5.35), y por ultimo le nivel social (t = 1.787).

2.- Métodos para la selección de variables

En los resultados anteriores se ha seguido un determinado procedimiento de inclusión de

variables. Si se observa el cuadro de diálogo correspondiente aparecerá en Método, Introducir. Se

quiere decir con ello que se consideren simultáneamente todas la variables especificadas.

Este procedimiento no es el más aconsejable, a menos que haya razones teóricas suficientes. Con

frecuencia nos encontramos con variables redundantes o bien irrelevantes, que no aportan nada al

modelo. Las primeras, porque ya se tiene en otras variables la información que necesitamos, y las

segundas, porque adolecen precisamente de falta de información alguna.

5

El procedimiento más frecuentemente usado se denomina Por pasos (stepwise). Como su nombre

indica consiste en ir elaborando sucesivas ecuaciones de regresión en las que se va añadiendo cada

vez un regresor más. El primer paso consiste en seleccionar el regresor de máxima

correlación simple con el criterio, y se define, en consecuencia una ecuación de regresión

simple con esa variable. A continuación se elabora una segunda ecuación de regresión añadiendo a

la anterior otro regresor, esta vez el que más proporción de variabilidad explicada aporte sobre la

ecuación anterior. Así hasta que no haya más regresores que aporten nada sustantivo, que es

cuando el procedimiento acaba. Hay que indicar, y aquí esta lo destacable de este procedimiento,

que en este proceso de elaboración del modelo definitivo, hay una continua reevaluación de los

predictores incluidos en el modelo, de forma que si algún regresor queda explicado por los

restantes (en el sentido de que carece de contribución específica propia) queda eliminado.

El procedimiento Hacia delante (forward), es equivalente al anterior excepto en el sentido que

no existe ninguna reevaluación, y se van incluyendo, por tanto en el modelo las variables según su

importancia. Frecuentemente este método coincide con el anterior cuando no hay que extraer

ninguna de las variables introducidas.

El procedimiento Hacia atrás (backward) es justamente el contrario del anterior. Se comienza

incluyendo todas las variables en el modelo de regresión y se van eliminando regresores

progresivamente de menor a mayor contribución específica hasta que ésta sea lo suficientemente

significativa como para no poder ser eliminada.

El procedimiento Eliminar (remove), permite cuando se ensayan diferentes modelos de regresión

(con la especificación de bloques) eliminar en cada uno de estos ensayos las variables que nos

interese. Es una forma, digamos manual, de ir probando distintos modelos.

Probemos en lo que sigue el procedimiento Por pasos. En el cuadro de diálogo de

Regresión lineal marcamos lo siguiente:

6

Si entramos en Estadístico podremos conseguir alguna información útil, como cambio en R

cuadrado, que nos indicará precisamente la mejora de cada variable en términos de proporción de

variación explicada.

En la siguiente tabla aparecen las variables que configuran los diferentes modelos:

7

El primer modelo está formado sólo con el predictor Inteligencia y al segundo se le añade la

variable Horas de estudio. El primer modelo explica una proporción de 0.577, y el segundo de

0.882, lo que implica una mejora de 0.305 puntos. Vemos más cosas, tales como los cambios en

el cociente F, grados de libertad y la significación de F.

Además se nos proporciona un análisis de la varianza para cada uno de los modelos:

Los coeficientes de regresión de los distintos modelos:

11

Por último las variables excluidas en ambos modelos:

Se observa que en el primer modelo, las Horas de estudio tenían un peso importante (t=6.646),

cosa que no ocurre con el Nivel social ni un modelo ni con el otro, por lo que es definitivamente

eliminada. Otros estadísticos tales como correlación parcial y colinealidad lo trataremos en las

próximas páginas. 3.- Correlaciones parciales y semiparciales

Las correlaciones parciales y semiparciales tienen especial interés por permitir conocer las

contribuciones específicas de las distintas variables al margen al margen de lo que comparten

con otras variables. Frecuentemente las predictores están correlacionados entre sí y es

importante saber deslindar lo que aportan unos y otros. No es fácil saber a dónde atribuir la parte

compartida, y frecuentemente son criterios teóricos –sustantivos del tema en cuestión- y no

criterios estadísticos los que nos permiten asignar las contribuciones de los diferentes regresores a

la explicación de la variable dependiente.

Vamos a ver en primer lugar el conjunto de correlaciones existentes en estos datos. Vamos al

comando Correlacionar/bivariadas:

12

Cuyos resultados son:

Veamos qué ocurre ahora si eliminamos de todas las variables la variabilidad que aporta la

Inteligencia. Vanos para ello al comando Correlacionar/parciales:

13

La nueva matriz de correlaciones será:

Obsérvese el poco efecto que tiene ahora el Nivel social sobre la variable Calificación. Los cálculos

han consistido en eliminar tanto de la variable dependiente (Calificación) como del regresor Nivel

Social, la variabilidad de la Inteligencia. Es una correlación, digamos, entre los residuos de ambas

variables una vez eliminada de ellas la participación de la Inteligencia.

La correlaciones parciales frecuentemente son la alternativa estadística- no experimental- a aquella

otra experimental del control de variables, cuando no es posible la manipulación de las mismas

según nuestros deseos.

Más interesante para el tema que nos atañe son las denominadas correlacione semiparciales. En

este caso, no tocamos la variabilidad e la variable dependiente, sino tan sólo sustraemos el efecto de

la variable que deseamos controlar, de los predictores que estamos tratando. Es justamente lo que

hemos denominado contribución específica de una determinada variable. Es la proporción (mejor su

raíz cuadrada) de variabilidad explicada exclusivamente por un determinado regresor sobre la

variable dependiente.

14

En el caso que nos atañe, a efectos de simplicidad vamos a trabajar con dos únicos regresores,

Inteligencia y Nivel social. Así, en el cuadro de la Regresión lineal indicamos:

A continuación en Estadísticos marcamos Correlaciones parcial y semiparcial:

15

Obtendremos:

Obsérvese como la correlación simple (de orden cero) de Nivel social con Calificación es 0.557, la

parcial la observada en la tabla anterior y la semiparcial 0.033. Esto significa que la variable Nivel

social contribuye (ella sola, sin lo que comparte con Inteligencia) en una proporción de 0.0332 =

0.001, o sea 0.1% a las calificaciones. Por el contrario, la Inteligencia, cuando se le elimina lo que

comparte con Nivel social, sigue contribuyendo en un 0.5172 = 26.72% a las Calificaciones.

Conviene aclarar la diferencia entre correlación semiparcial y parcial. Supongamos que tenemos dos

regresores X1 y X2, correlación semiparcial (al cuadrado) de la variable X2 es la proporción de

variabilidad de Y debida exclusivamente a X2. Es lo que aporta X2 a X1 hasta llegar a R2y.12. Más

formalmente:

En el caso de la correlación parcial (al cuadrado) es esa misma contribución de X2 pero no del total

de Y, sino de lo no explicado de Y por X1. Esto es, X1 se ha sustraído de todas las variables. Su

expresión será:

4.- Regresión por bloques

Obsérvese que en las correlaciones semiparciales observamos el incremento en términos de R

cuadrado cuando incrementamos variables en un determinado modelo. Si tenemos una serie de

variables independientes y establecemos una jerarquía entre ellas, podremos calcular la contribución

de cada una de ellas según la importancia (por razones teóricas) que hemos asignado. La primera

2

1

2

12.

2

)1.2( yyy RRR

2

1

2

1

2

12.2

1.21 y

yy

yR

RRR

16

variable contribuirá en todo su valor, ya que consideramos que es la más importantes, las segunda

contribuirá en lo que le deja la primera (eliminando de ella lo que aporta la primera), la tercera, su

valor eliminado el aporte de las dos primeras y así sucesivamente. Esto lo podemos resolver

recurriendo a la regresión por bloques. Vamos colocando las variables independientes por orden y

vemos su contribución en los diferentes bloques. Si en cada bloque indicamos al modelo de regresión

que nos calcule el cambio en R cuadrado veremos las distintas contribuciones de las variables en

tales bloques. Supongamos que nuestra jerarquía es: 1º.- Nivel social, 2º.- Horas de estudio y 3º.-

Inteligencia:

17

El resultado:

Observamos que todas las variables contribuyen de manera significativa. Si, por ejemplo, tomamos

una de ellas, como el Nivel Social su contribución es del 31.1% y su significación del 0.011.

Cambiemos ahora nuestra jerarquía de la siguiente manera: 1º.- Horas de estudio, 2º.- Inteligencia y

3º.- Nivel social:

18

Resultado:

En este caso la contribución del Nivel Social es tan solo de 0.02 y una probabilidad de 0.093 que no

llega a ser significativa.

5.- Multicolinealidad en las variables explicativas

Se dice que existe multicolinealidad entre las variables explicativas cuando existe algún tipo de

dependencia lineal entre ellas, o lo que es lo mismo, si existe una fuerte correlación entre las mismas.

La correlación no solamente se refiere a las distintas variables dos a dos, sino a cualquier de ellas

19

con cualquier grupo de las restantes. Por esta razón no es suficiente (aunque sí necesaria) que en la

matriz de correlaciones bivariadas haya correlaciones altas.

El principal inconveniente de la multicolinealidad consiste en que se incrementan la varianza de los

coeficientes de regresión estimados hasta el punto que resulta prácticamente imposible establecer su

significación estadística, ya que como se sabe, el valor de t para un determinado coeficiente de

regresión es el valor de dicho coeficiente dividido por su desviación tipo. Si este es grande, el valor

de t será bajo y no llegara a la significación.

El SPSS adopta varios procedimientos para detectar multicolinealidad entre los predictores. El

primero de ellos, basado en la correlación múltiple de un determinado regresor con los restantes se

denomina Tolerancia de dicho regresor. Su valor es:

Siendo 2

iR la correlación multiple al cuadrado de dicho regresor con los restantes.

Para que haya multicolinealidad dicha correlación ha de ser alta, o lo que es lo mismo la tolerancia

baja. Además otro índice relacionado con éste y que nos da una idea del grado de aumento de la

varianza se denomina Factor de Inflación de la Varianza, y es precisamente el recíproco de la

tolerancia. Su valor es:

Para que no haya multicolinealidad el denominador tiene que valer cerca de la unidad, por tanto un

poco más de 1 el valor de VIF. Cuanto mayor sea de este valor mayor multicolinealidad habrá.

La varianza de los estimadores tiene que ver con (X´X)-1

, donde X es la matriz de regresores.

Cuando las columnas de X son colineales, la matriz es singular y no tiene inversa. En este sentido los

autovalores de la matriz X´X (normalizada) nos puede proporcionar información del grado de

singularidad de la misma. A este respecto, disponemos del Indice de Condición, cuyo valor es la raíz

cuadrada del cociente entre el máximo autovalor y el mínimo de la matriz X´X:

Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que ésta es alta a partir de

30.

Podemos conocer además qué variables presentan multicolinealidad analizando la proporción de

varianza de los estimadores de los coeficientes de regresión en los componentes con un índice de

condición alto. Variables, cuya proporción de varianza en dichos componentes, sea superior a 0.5

son indicativos de colinealidad.

21 iR

2

11

1

y

iR

VIF

min

max

Autovalor

AutovalorcondicióndeIndice

20

En el ejemplo que estamos tratando, para conocer la posible colinealidad marcaremos en Regresión

lineal/estadísticos, Diagnósticos de colinealidad:

Con lo que obtendremos (además de otros resultados ya conocidos):

21

Se observa que se ha añadido a lo que ya conocemos otros indicadores tales como la Tolerancia y el

FIV. La variable Horas d estudio presenta una alta tolerancia y por tanto una pequeña FIV, lo que

nos indica que no presenta colinealidad. Por el contrario las otras dos variables, Inteligencia y Nivel

social son colineales.

En esta tabla se nos indica qué variables son colineales pero no con cuales, aunque con tres variables

y una que no lo es, no es difícil imaginarse lo que pasa. Pero puede haber más variables. Para ello

recurrimos al Índice de condición y a la proporciones de varianzas en los distintos componentes.

Así:

Se observa que hay un índice de condición asignado al cuarto componente que vale 30.893, resultado

de dividir 3.840 entre 0.004 y extraer la raíz cuadrada. En ese componente hay dos variables con una

alta proporción: la constante, Inteligencia. El Nivel social no llega a rebasar el umbral de 0.5. La

constante es el estimador del coeficiente ligado a la primera variable de la matriz X, que está

formado precisamente por un vector de 1. Si trabajamos con variables centradas, resolveremos

algunos problemas de multicolinealidad. Así si restamos a cada una de las variables explicativas su

media y realizamos de nuevo la regresión, obtendremos en diagnósticos de colinealidad:

Se observa que el mayor índice de condición es muy bajo (2.461) y por tanto no hay

multicolinealidad, al menos en un sentido importante, que altere la estimación mínimo cuadrática de

nuestro modelo.

Diagnósticos de colineal idada

1,707 1,000 ,00 ,14 ,00 ,14

1,011 1,299 ,00 ,01 ,93 ,00

1,000 1,306 1,00 ,00 ,00 ,00

,282 2,461 ,00 ,85 ,07 ,86

Dimensión

1

2

3

4

Modelo

1

Autov alor

Indice de

condición (Constante) INT2 HORAS2 NSOCIAL2

Proporciones de la varianza

Variable dependiente: Calif icacióna.