Download - Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

Transcript
Page 1: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

Fundamentos de Biología Aplicada I

Estadística

Curso 2011-2012

Práctica 5: Regresión Lineal Múltiple

Índice

1. Objetivos de la práctica 2

2. Ajuste del modelo de regresión lineal múltiple con SPSS 2

2.1. Estimación de los parámetros del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2. Contrastes en el modelo de regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2.1. Contraste de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2.2. Contraste de hipótesis individuales sobre los coe�cientes (basados en la t de Student) . 4

2.3. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.4. Diagnosis del modelo de regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.4.1. Normalidad de los errores y homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . 4

2.4.2. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.5. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.5.1. Eliminación hacia atrás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.5.2. Selección hacia adelante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.5.3. Pasos sucesivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Un análisis completo: estimación del porcentaje de grasa corporal 8

1

Page 2: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

1 Objetivos de la práctica

El objetivo de esta práctica es que aprendas a plantear y analizar un modelo de regresión lineal múltiple. En un

modelo de regresión lineal múltiple, se asume que el valor esperado de una variable respuesta Y es función lineal

de varias variables explicativas X1; X2; : : : ; Xp. El modelo y las herramientas para hacer inferencia asociadas

serán válidos siempre que se veri�quen las hipótesis de independencia, normalidad y varianza constante de los

errores. En esta práctica aprenderás a utilizar las herramientas disponibles en SPSS para llevar a cabo un análisis

completo del modelo de regresión lineal múltiple.

2 Ajuste del modelo de regresión lineal múltiple con SPSS

En primer lugar veremos como llevar a cabo el ajuste de un modelo de regresión lineal múltiple con SPSS. Para

ello trabajaremos con los datos comentados en clase de teoría.

Ejemplo: En un estudio sobre la población de un parásito se hizo un recuento de parásitos en 15 localizaciones

con diversas condiciones ambientales. Se midieron en las 15 localizaciones las variables Humedad,

Temperatura y Recuento. Los datos se encuentran en el archivo parasito.sav.

En primer lugar, realizaremos un diagrama de dispersión para analizar grá�camente las posibles relaciones entre

las variables. Para ello selecciona Grá�cos I Cuadros de diálogos antiguos I Dispersión/puntos... Elige la

opción de Dispersión matricial para obtener una grá�ca como la que se muestra en la Figura 1.

Figura 1: Diagrama de dispersión

A la vista del diagrama de dispersión, parece que tiene sentido plantear un modelo de regresión lineal múltiple

para explicar la presencia del parásito en función de la temperatura y humedad de la localización. Es decir, si

denotamos

Y = Recuento del parásito

X1= Temperatura

X2= Humedad

el modelo planteado sería:

Y = �0 + �1X1 + �2X2 + �:

Página 2 de 11

Page 3: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

El modelo asume además que los errores sin independientes, con distribución normal de media cero y varianza

constante �2. El primer objetivo será estimar, a partir de la muestra, los parámetros del modelo.

2.1 Estimación de los parámetros del modelo

Para obtener los parámetros estimados del modelo selecciona Analizar I Regresión I Lineales...

Elige la variable Recuento como variable dependiente y las variables Temperatura y Humedad como variables

independientes. Obtendrás entre otras la tabla que se muestra en la Figura 2

Figura 2: Coe�cientes parciales de la regresión estimados

A partir de la tabla deducimos que �0 = 25:7115, �1 = 1:5818 y �2 = 1:5424. Por lo tanto el modelo ajustado

sería:

Y = 25:7115 + 1:5818X1 + 1:5424X2:

Deducimos por ejemplo que, si mantenemos el porcentaje de humedad constante, el valor esperado de recuento

de parásitos aumenta 1:5818 unidades por cada unidad (oC) que aumenta la temperatura.

El estimador de la varianza del error es �2 = 343:54212 = 28:628.

En la tabla Resumen del modelo aparece también el valor de coe�ciente de determinación R2 y el del coe�ciente

de determinación ajustado.

2.2 Contrastes en el modelo de regresión lineal múltiple

2.2.1 Contraste de la regresión

Suponiendo que se cumple el modelo de regresión lineal múltiple, estamos interesados en determinar si el modelo

es o no explicativo. En este ejemplo:

Página 3 de 11

Page 4: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

H0 : �1 = �2 = 0

H1 : �j 6= 0 para algún j = 1; 2

Recuerda que el estadístico de contraste es:

F =

VE

p

VR

n�(p+1)

:

En la tabla ANOVA vemos que para este ejemplo F = 63:751. ¾Cuál es la conclusión del contraste?

2.2.2 Contraste de hipótesis individuales sobre los coe�cientes (basados en la t de Student)

Suponiendo que se cumple el modelo de regresión lineal múltiple, estamos interesados en determinar qué variables

Xj son signi�cativas para explicar la variable respuesta Y .

H0 : �j = 0 (Xj no in�uye sobre Y )

H1 : �j 6= 0 (Xj in�uye sobre Y )

El contraste individual de la t de Student permite contrastar la in�uencia individual de la variable Xj . Analiza

en la tabla de Coe�cientes los resultados para los contrastes individuales sobre �1 y �2.

2.3 Predicción

Queremos contestar a las siguientes preguntas:

¾Cuál es el número medio estimado de parásitos en las localizaciones con un 70% de humedad y tempe-

ratura de 15oC?

En una zona de clima tropical del sur de Estados Unidos, la temperatura es de 15oC y su humedad del

70%, ¾cuál es el número predicho de parásitos en dicha localización?

En base al modelo ajustado, concluimos que:

El número medio estimado será 25:7115 + 1:5818 � 15 + 1:5424 � 70 = 157:41 parásitos:

Predecimos que en dicha localización habrá 25:7115 + 1:5818 � 15 + 1:5424 � 70 = 157:41 parásitos:

Podemos guardar los valores pronosticados para las observaciones de la muestra y los intervalos de con�anza

para la media y los intervalos de con�anza para los valores observados de Y mediante la opción Guardar (ver

Figura 3).

2.4 Diagnosis del modelo de regresión lineal múltiple

2.4.1 Normalidad de los errores y homocedasticidad

Para llevar a cabo una buena interpretación de un modelo de regresión debemos acompañar siempre nuestro

estudio de la diagnosis y validación del modelo. El modelo de regresión lineal múltiple asume que la distribución de

los errores es Normal. El modelo también asume que la varianza de los errores es constante (homocedasticidad).

Para estudiar si se veri�can estas hipótesis se pueden realizar grá�cos de normalidad y de residuos mediante la

opción Grá�cos como se muestra en la Figura 4. Analiza los resultados obtenidos.

Página 4 de 11

Page 5: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

Figura 3: Predicciones e intervalos de con�anza

Figura 4: Grá�cos para diagnosis del modelo

2.4.2 Multicolinealidad

El modelo de regresión lineal múltiple asume que las variables explicativas son linealmente independientes. En la

práctica, aunque no se suele dar una relación lineal exacta entre variables explicativas, sí que suele ocurrir que

existe una cierta relación entre ellas (multicolinealidad). En ese caso se puede ajustar y estimar el modelo de

regresión lineal, pero con mucha variabilidad. Se puede detectar multicolinealidad a partir de:

Grá�co de dispersión (ver Figura 1).

Matriz de correlaciones (Analizar I Correlaciones I Bivariadas).

También se puede detectar multicolinealidad a partir de diagnósticos especí�cos:

Factores de in�ación de la varianza (FIV): Como regla general nos deberían preocupar valores de FIV

mayores de 10.

Página 5 de 11

Page 6: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

Índice de condición: Si no hay multicolinealidad, estos índices no deben superar el valor 15. Índices mayores

que 15 indican posible existencia de multicolinealidad. Si los índices superan en valor 30, hay un problema

severo de multicolinealidad.

Para llevar a cabo estos diagnósticos, selecciona la opción Diagnósticos de colinealidad en el menú Analizar

I Regresión I Lineales... (botón Estadísticos), como se muestra en la Figura 5.

Figura 5: Diagnósticos de multicolinealidad

A la vista del grá�co de dispersión y de los resultados de los diagnósticos no observamos un problema serio de

multicolinealidad.

2.5 Selección de variables

Generalmente en la práctica disponemos de un conjunto grande de posibles variables explicativas. Se trata de

determinar qué variables deben entrar en el modelo y cuáles no deben entrar en el modelo de regresión.

Ejemplo: Un estudio analiza la relación entre la composición de un cemento tipo Portland y el calor des-

prendido durante la fase de fraguado. La muestra está formada por 13 cementos. Los datos se

encuentran en el �chero cemento.sav. La variable Y mide la cantidad de calor desprendido (cal-

s/gr). Las variables X1, X2, X3 y X4 representan el contenido (%) de cuatro ingredientes activos.a

aWoods, H., Steinour, H.H., Starke, H.R. (1932) E�ect of composition of Portland cement on heat evolved

during hardening. Industrial Engineering and Chemistry, 24, 1207-1214.

Ajusta un modelo de regresión lineal múltiple que explique Y en función de X1, X2, X3 y X4. ¾Te parece un

buen modelo? ¾Encuentras problemas de multicolinealidad?

A la vista de que considerar un modelo de regresión incluyendo todas las variables explicativas no es una buena

elección, debemos plantearnos qué variables independientes serían más adecuadas para explicar la cantidad

de calor desprendido (Y ). Considerar todos las posibles combinaciones de variables explicativas es inviable en

muchas situaciones pero existen procedimientos para seleccionar las variables explicativas que deben entrar en

el modelo.

Eliminación hacia atrás (Backward Stepwise Regression). Se introducen todas las variables en la

ecuación y después se van excluyendo una tras otra. En cada etapa se elimina la variable menos in�uyente

según el contraste individual (de la t o de la F ).

Página 6 de 11

Page 7: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

Selección hacia adelante (Fordward Stepwise Regression). Las variables se introducen secuencialmen-

te en el modelo. La primera variable que se introduce es la de mayor correlación (+ o -) con la variable

dependiente. Dicha variable se introducirá en la ecuación sólo si cumple el criterio de entrada. A conti-

nuación se considerará la variable independiente cuya correlación parcial sea la mayor y que no esté en la

ecuación. El procedimiento termina cuando ya no quedan variables que cumplan el criterio de entrada.

Pasos sucesivos (Stepwise Regression). Este método es una combinación de los procedimientos an-

teriores. En cada paso se introduce la variable independiente que no se encuentre ya en la ecuación y

que tenga la probabilidad para F más pequeña. Las variables ya introducidas en la ecuación de regresión

pueden ser eliminadas del modelo. El método termina cuando ya no hay más variables candidatas a ser

incluidas o eliminadas.

2.5.1 Eliminación hacia atrás

En el menú Analizar I Regresión I Lineales... selecciona Y como variable dependiente y X1, X2, X3 y X4

como variables dependientes. En el desplegable Método selecciona la opción Atrás y analiza los resultados.

¾Cuál es la primera variable eliminada del modelo? ¾Cuáles son los modelos ajustados en los sucesivos pasos?

Comprueba que el modelo �nal ajustado es Y = 52:577 + 1:468X1 + 0:662X2. ¾Cuál es el coe�ciente de

determinación ajustado del modelo �nal?

2.5.2 Selección hacia adelante

En el menú Analizar I Regresión I Lineales... selecciona Y como variable dependiente y X1, X2, X3 y X4

como variables dependientes. En el desplegable Método selecciona la opción Adelante y analiza los resultados.

¾Cuál es la primera variable introducida en el modelo? ¾Cuáles son los modelos ajustados en los sucesivos

pasos? Comprueba que el modelo �nal ajustado es Y = 103:097 + 1:44X1 � 0:614X4. ¾Cuál es el coe�ciente

de determinación ajustado del modelo �nal?

Página 7 de 11

Page 8: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

2.5.3 Pasos sucesivos

En el menú Analizar I Regresión I Lineales... selecciona Y como variable dependiente y X1, X2, X3 y X4

como variables dependientes. En el desplegable Método selecciona la opción Pasos sucesivos y analiza los

resultados. ¾Cuáles son los modelos ajustados en los sucesivos pasos? Comprueba que el modelo �nal ajustado

es Y = 103:097 + 1:44X1 � 0:614X4. ¾Cuál es el coe�ciente de determinación ajustado del modelo �nal?

3 Un análisis completo: estimación del porcentaje de grasa corporal

Es bien conocido el hecho de que el porcentaje de grasa corporal es un factor importante a tener en cuenta

para determinar el estado de salud. El porcentaje de grasa corporal es la parte del cuerpo no magra (es decir

la no formada por músculos, huesos, órganos, sangre, etc.) constituida por tejido adiposo. Valores elevados del

porcentaje de grasa corporal incrementan el riesgo de dolencias cardíacas, entre otras. Tiene relevancia, por lo

tanto, determinar el porcentaje de grasa corporal de una persona. Existen varios procedimientos para determinar

Página 8 de 11

Page 9: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

el porcentaje de grasa corporal (como absorciometría de rayos X de energía dual o el análisis de impedancia

bioeléctrica). También se puede utilizar el método del peso debajo del agua: primero se pesa a la persona en

seco, luego se la sumerge en el agua, dentro de un tanque y se vuelve a pesar. El hueso y el músculo tienen más

densidad que el agua y la grasa tiene menos densidad que el agua. Una persona con más hueso y músculo pesará

más en el agua que una persona con menos hueso y músculo. En cualquier caso, ninguna de estas técnicas es

sencilla, y por eso sería interesante poder estimar el porcentaje de grasa corporal a partir de otros métodos.

Por ejemplo, se cree que ciertas medidas corporales están íntimamente relacionadas con el porcentaje de grasa

corporal. Sería importante encontrar un buen modelo para estimar el porcentaje de grasa a partir de dichas

medidas (fáciles de obtener).

Ejemplo: Con el objetivo de establecer un modelo que explique el porcentaje de grasa corporal mediante

técnicas sencillas basadas en la determinación de medidas corporales, se llevó a cabo un estudio en el

que 252 hombres fueron seleccionados aleatoriamente de entre una gran población de voluntariosa.

Para cada uno de los 252 individuos se obtuvo el porcentaje de grasa corporal (mediante la técnica

del peso debajo del agua) junto con otras variables y medidas corporales. En concreto se recogieron

las siguientes variables:

PORC: porcentaje de grasa corporal

EDAD: edad (años)

PESO: peso (libras)

ALTURA: estatura (pulgadas)

CUELLO: contorno de cuello (cm.)

PECHO: contorno de pecho (cm.)

ABDOMEN: contorno de abdomen (cm.)

CADERA: contorno de cadera (cm.)

MUSLO: contorno de muslo (cm.)

ANTE: contorno de antebrazo (cm.)

MUN: contorno de muñeca (cm.)

Los datos se encuentran en el archivo grasa.sav.

aEste ejemplo fue tomado de un curso de Estadística del Dpto. de Matemáticas y Ciencias Estadísticas de la

Universidad de Alberta

Contesta a las siguientes cuestiones con las ayuda de SPSS.

1. Análisis del diseño del estudio.

a) ¾Cuál es el objetivo del estudio? ¾Cuál es la variable respuesta? ¾Cuáles son las variables explicativas?

b) Teniendo en cuenta que la mayor parte de la grasa corporal en los hombres se acumula en la zona

intraabdominal (lo que se conoce como forma de �manzana�), ¾cuáles crees que pueden ser las

variables más relevantes a la hora de explicar el porcentaje de grasa corporal de los hombres?

2. Relaciones entre los distintos pares de variables.

Página 9 de 11

Page 10: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

a) Describe la relación entre PORC y el resto de variables. ¾Son relaciones lineales? ¾Te parece una

relación débil o fuerte?

b) Si tuvieses que utilizar una única variable explicativa para determinar el comportamiento de PORC,

¾cuál elegirías?

c) ¾Te parece que la multicolinealidad es un posible problema a tener en cuenta en este estudio?

3. Planteamiento del modelo de regresión.

a) Plantea un modelo de regresión lineal múltiple que explique PORC en función del resto de variables

del conjunto de datos.

b) Establece las hipótesis del modelo.

4. Ajuste del modelo.

a) Ya que el tamaño muestral es considerable (n = 252), utilizaremos las 200 primeras observaciones

para ajustar el modelo y las 52 restantes para contrastar la validez del ajuste obtenido. Selecciona las

200 primeras observaciones a través del menú Datos I Seleccionar casos. En el cuadro de diálogo,

elige la opción de seleccionar Basándose en el rango de tiempo o de los casos como se muestra

en la Figura 6.

Figura 6: Selección de casos

b) Ajusta un modelo de regresión lineal múltiple con SPSS que explique PORC en función del resto de

variables. Analiza la signi�cación de las variables introducidas en el modelo.

c) Ajusta un modelo de regresión lineal múltiple con SPSS que explique PORC en función del resto

de variables. Utiliza el método Adelante para seleccionar las variables. ¾Qué variables han sido

introducidas en el modelo por este método de selección? ¾En qué orden han sido introducidas?

Escribe la ecuación ajustada.

d) ¾Qué porcentaje de la variabilidad del porcentaje de grasa corporal es explicada por las variables que

forman parte del modelo ajustado en el apartado 4c)?

e) ¾Es el modelo ajustado en el apartado 4c) explicativo para un nivel de signi�cación igual a 0:05? Es-

cribe la hipótesis nula y alternativa del contraste, el valor del estadístico de contraste, su distribución

bajo la hipótesis nula, el p-valor y la conclusión del contraste.

f ) ¾Son signi�cativas cada una de las variables introducidas en el modelo ajustado en el apartado 4c)?

Página 10 de 11

Page 11: Fundamentos de Biología Aplicada I Estadística Curso ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MAT… · Fundamentos de Biología Aplicada I Estadística Curso 2011-2012

FBA I. Estadística Práctica 5: Regresión Lineal Múltiple

5. Diagnosis del modelo.

a) Obtén el grá�co de probabilidad normal de los residuos para el modelo ajustado en el apartado 4c).

Para ello vete a la opción Grá�cos que aparece en el cuadro de diálogo correspondiente a Analizar

I Regresión I Lineales.... A la vista del grá�co, ¾te parece razonable pensar que se incumple la

hipótesis de normalidad de los residuos?

b) Obtén un grá�co de los residuos estandarizados (Eje Y ) frente a los valores pronosticados estanda-

rizados (Eje X). Describe el patrón que observas en los residuos. ¾Existe evidencia de que incumple

la hipótesis de homocedasticidad (varianza constante de los errores)?

c) En base a la grá�ca anterior, ¾existen datos atípicos? Si es así, localiza y analiza las observaciones

atípicas.

d) El individuo número 20 es un dato atípico. Puedes comprobarlo realizando los diagramas de caja de

las distintas variables mediante el menú Grá�cos I Cuadros de diálogos antiguos I Diagramas

de caja (marca la opción Resúmenes para distintas variables).

e) Elimina la �la número 20 del archivo y reajusta el modelo (acuérdate de seleccionar ahora las 199

primeras observaciones a través del menú Datos I Seleccionar casos). ¾Siguen siendo signi�cativas

las mismas variables? Escribe la ecuación del nuevo modelo ajustado.

6. Predicción.

a) En base al modelo ajustado en el apartado 5e), ¾cuál es el valor predicho para el porcentaje de grasa

corporal de un hombre con un peso de 184:75 libras, un contorno de abdomen de 86:4 cm. y un

contorno de muñeca de 18:2 cm. (como el individuo número 1)?

b) Utiliza las salidas de SPSS para dar el Intervalo de con�anza (con nivel de con�anza del 95%) para

el porcentaje medio de grasa corporal de los individuos con un peso de 184:75 libras, un contorno de

abdomen de 86:4 cm. y un contorno de muñeca de 18:2 cm.

7. Validez del modelo.

a) Una vez ajustado el modelo 5e), calcula cuáles serían los valores de porcentaje de grasa corporal

pronosticados para los 52 individuos restantes de la muestra. Puedes hacerlo calculando una nueva

variable prediccion a partir del menú Transformar I Calcular variables.

b) Para estudiar la validez del modelo, realiza un contraste de igualdad de medias para muestras apa-

readas, que contraste si el porcentaje medio de grasa corporal es igual al porcentaje pronosticado

medio de grasa corporal. Escribe la hipótesis nula y alternativa del contraste, el valor del estadístico

de contraste, su distribución bajo la hipótesis nula, el p-valor y la conclusión del contraste.

Página 11 de 11