Fundamentos de Biología Aplicada I Estadística Curso...

Click here to load reader

  • date post

    07-Feb-2018
  • Category

    Documents

  • view

    216
  • download

    2

Embed Size (px)

Transcript of Fundamentos de Biología Aplicada I Estadística Curso...

  • Fundamentos de Biologa Aplicada I

    Estadstica

    Curso 2011-2012

    Prctica 5: Regresin Lineal Mltiple

    ndice

    1. Objetivos de la prctica 2

    2. Ajuste del modelo de regresin lineal mltiple con SPSS 2

    2.1. Estimacin de los parmetros del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2.2. Contrastes en el modelo de regresin lineal mltiple . . . . . . . . . . . . . . . . . . . . . . . . 3

    2.2.1. Contraste de la regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2.2.2. Contraste de hiptesis individuales sobre los coecientes (basados en la t de Student) . 4

    2.3. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.4. Diagnosis del modelo de regresin lineal mltiple . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.4.1. Normalidad de los errores y homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . 4

    2.4.2. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.5. Seleccin de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.5.1. Eliminacin hacia atrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.5.2. Seleccin hacia adelante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.5.3. Pasos sucesivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    3. Un anlisis completo: estimacin del porcentaje de grasa corporal 8

    1

  • FBA I. Estadstica Prctica 5: Regresin Lineal Mltiple

    1 Objetivos de la prctica

    El objetivo de esta prctica es que aprendas a plantear y analizar un modelo de regresin lineal mltiple. En un

    modelo de regresin lineal mltiple, se asume que el valor esperado de una variable respuesta Y es funcin lineal

    de varias variables explicativas X1; X2; : : : ; Xp. El modelo y las herramientas para hacer inferencia asociadas

    sern vlidos siempre que se veriquen las hiptesis de independencia, normalidad y varianza constante de los

    errores. En esta prctica aprenders a utilizar las herramientas disponibles en SPSS para llevar a cabo un anlisis

    completo del modelo de regresin lineal mltiple.

    2 Ajuste del modelo de regresin lineal mltiple con SPSS

    En primer lugar veremos como llevar a cabo el ajuste de un modelo de regresin lineal mltiple con SPSS. Para

    ello trabajaremos con los datos comentados en clase de teora.

    Ejemplo: En un estudio sobre la poblacin de un parsito se hizo un recuento de parsitos en 15 localizaciones

    con diversas condiciones ambientales. Se midieron en las 15 localizaciones las variables Humedad,

    Temperatura y Recuento. Los datos se encuentran en el archivo parasito.sav.

    En primer lugar, realizaremos un diagrama de dispersin para analizar grcamente las posibles relaciones entre

    las variables. Para ello selecciona Grcos I Cuadros de dilogos antiguos I Dispersin/puntos... Elige la

    opcin de Dispersin matricial para obtener una grca como la que se muestra en la Figura 1.

    Figura 1: Diagrama de dispersin

    A la vista del diagrama de dispersin, parece que tiene sentido plantear un modelo de regresin lineal mltiple

    para explicar la presencia del parsito en funcin de la temperatura y humedad de la localizacin. Es decir, si

    denotamos

    Y = Recuento del parsito

    X1= Temperatura

    X2= Humedad

    el modelo planteado sera:

    Y = 0 + 1X1 + 2X2 + :

    Pgina 2 de 11

  • FBA I. Estadstica Prctica 5: Regresin Lineal Mltiple

    El modelo asume adems que los errores sin independientes, con distribucin normal de media cero y varianza

    constante 2. El primer objetivo ser estimar, a partir de la muestra, los parmetros del modelo.

    2.1 Estimacin de los parmetros del modelo

    Para obtener los parmetros estimados del modelo selecciona Analizar I Regresin I Lineales...

    Elige la variable Recuento como variable dependiente y las variables Temperatura y Humedad como variables

    independientes. Obtendrs entre otras la tabla que se muestra en la Figura 2

    Figura 2: Coecientes parciales de la regresin estimados

    A partir de la tabla deducimos que 0 = 25:7115, 1 = 1:5818 y 2 = 1:5424. Por lo tanto el modelo ajustado

    sera:

    Y = 25:7115 + 1:5818X1 + 1:5424X2:

    Deducimos por ejemplo que, si mantenemos el porcentaje de humedad constante, el valor esperado de recuento

    de parsitos aumenta 1:5818 unidades por cada unidad (oC) que aumenta la temperatura.

    El estimador de la varianza del error es 2 = 343:54212 = 28:628.

    En la tabla Resumen del modelo aparece tambin el valor de coeciente de determinacin R2 y el del coeciente

    de determinacin ajustado.

    2.2 Contrastes en el modelo de regresin lineal mltiple

    2.2.1 Contraste de la regresin

    Suponiendo que se cumple el modelo de regresin lineal mltiple, estamos interesados en determinar si el modelo

    es o no explicativo. En este ejemplo:

    Pgina 3 de 11

  • FBA I. Estadstica Prctica 5: Regresin Lineal Mltiple

    H0 : 1 = 2 = 0

    H1 : j 6= 0 para algn j = 1; 2

    Recuerda que el estadstico de contraste es:

    F =

    VE

    p

    VR

    n(p+1)

    :

    En la tabla ANOVA vemos que para este ejemplo F = 63:751. Cul es la conclusin del contraste?

    2.2.2 Contraste de hiptesis individuales sobre los coecientes (basados en la t de Student)

    Suponiendo que se cumple el modelo de regresin lineal mltiple, estamos interesados en determinar qu variables

    Xj son signicativas para explicar la variable respuesta Y .

    H0 : j = 0 (Xj no inuye sobre Y )

    H1 : j 6= 0 (Xj inuye sobre Y )

    El contraste individual de la t de Student permite contrastar la inuencia individual de la variable Xj . Analiza

    en la tabla de Coecientes los resultados para los contrastes individuales sobre 1 y 2.

    2.3 Prediccin

    Queremos contestar a las siguientes preguntas:

    Cul es el nmero medio estimado de parsitos en las localizaciones con un 70% de humedad y tempe-

    ratura de 15oC?

    En una zona de clima tropical del sur de Estados Unidos, la temperatura es de 15oC y su humedad del

    70%, cul es el nmero predicho de parsitos en dicha localizacin?

    En base al modelo ajustado, concluimos que:

    El nmero medio estimado ser 25:7115 + 1:5818 15 + 1:5424 70 = 157:41 parsitos:

    Predecimos que en dicha localizacin habr 25:7115 + 1:5818 15 + 1:5424 70 = 157:41 parsitos:

    Podemos guardar los valores pronosticados para las observaciones de la muestra y los intervalos de conanza

    para la media y los intervalos de conanza para los valores observados de Y mediante la opcin Guardar (ver

    Figura 3).

    2.4 Diagnosis del modelo de regresin lineal mltiple

    2.4.1 Normalidad de los errores y homocedasticidad

    Para llevar a cabo una buena interpretacin de un modelo de regresin debemos acompaar siempre nuestro

    estudio de la diagnosis y validacin del modelo. El modelo de regresin lineal mltiple asume que la distribucin de

    los errores es Normal. El modelo tambin asume que la varianza de los errores es constante (homocedasticidad).

    Para estudiar si se verican estas hiptesis se pueden realizar grcos de normalidad y de residuos mediante la

    opcin Grcos como se muestra en la Figura 4. Analiza los resultados obtenidos.

    Pgina 4 de 11

  • FBA I. Estadstica Prctica 5: Regresin Lineal Mltiple

    Figura 3: Predicciones e intervalos de conanza

    Figura 4: Grcos para diagnosis del modelo

    2.4.2 Multicolinealidad

    El modelo de regresin lineal mltiple asume que las variables explicativas son linealmente independientes. En la

    prctica, aunque no se suele dar una relacin lineal exacta entre variables explicativas, s que suele ocurrir que

    existe una cierta relacin entre ellas (multicolinealidad). En ese caso se puede ajustar y estimar el modelo de

    regresin lineal, pero con mucha variabilidad. Se puede detectar multicolinealidad a partir de:

    Grco de dispersin (ver Figura 1).

    Matriz de correlaciones (Analizar I Correlaciones I Bivariadas).

    Tambin se puede detectar multicolinealidad a partir de diagnsticos especcos:

    Factores de inacin de la varianza (FIV): Como regla general nos deberan preocupar valores de FIV

    mayores de 10.

    Pgina 5 de 11

  • FBA I. Estadstica Prctica 5: Regresin Lineal Mltiple

    ndice de condicin: Si no hay multicolinealidad, estos ndices no deben superar el valor 15. ndices mayores

    que 15 indican posible existencia de multicolinealidad. Si los ndices superan en valor 30, hay un problema

    severo de multicolinealidad.

    Para llevar a cabo estos diagnsticos, selecciona la opcin Diagnsticos de colinealidad en el men Analizar

    I Regresin I Lineales... (botn Estadsticos), como se muestra en la Figura 5.

    Figura 5: Diagnsticos de multicolinealidad

    A la vista del grco de dispersin y de los resultados de los diagnsticos no observamos un problema serio de

    multicolinealidad.

    2.5 Seleccin de variables

    Generalmente en la prctica disponemos de un conjunto grande de posibles variables explicativas. Se trata de

    determinar qu variables deben entrar en el modelo y cules no deben entrar en el modelo de regresin.

    Ejemplo: Un estudio analiza la relacin entre la composicin de un cemento tipo Portland y el calor des-

    prendido durante la fase de fraguado. La muestra est formada por 13 cementos. Los datos se

    encuentran en el chero cemento.sav. La variable Y mide la cantidad de calor desprendido (cal-

    s/gr). Las variables X1, X2, X3 y X4 representan el contenido (%) de cuatro ingredientes activos.a