Trabajo Estadística

20
ASIGNATURA: AMPLIACION DE ESTADISTICA Titulaci´on: Grado en Tecnolog´ ıas Industriales Curso Acad´ emico: 2014/2015 Trabajo en grupo. Grupo 3 Alumnos: Adolfo del Cacho Egea Juan Jos´ e Rojo Ferrer Javier Ib´ aezGabarr´on Pedro Antonio Guill´ en Caparr´ os Paula Romero Bermejo Clara Navarro Van Iseghem Instrucciones: Se resolver´ an los siguientes problemas con ayuda del programa inform´ atico visto en pr´ acticas (R y R Commander). La nota de este trabajo constituye un 10% de la nota final de la asignatura para los miembros del grupo. Se valorar´ an tanto la exposici´on de resultados como los razonamientos y conclusiones asociados a los mismos. Tambi´ en ser´ an objeto de evaluaci´on las respuestas proporcionadas a preguntas del profesor. 1. Waugh estudi´ o en 1957 la evoluci´on de la demanda de la carne de cerdo y de ternera en Estados Unidos du- rante el per´ ıodo 1925-1941. El fichero carne log.txt contiene los datos (tras su transformaci´on logar´ ıtimica) que fueron objeto de estudio. a) Considerando el logaritmo del consumo de cerdo (ConsCerdo ) variable respuesta, ¿Cu´ al ser´ ıa la primera variable regresora que entar´ ıa en el modelo? Pista: Obtener los coeficientes de correlaci´ on. b) Si consideramos un modelo lineal con todas las posibles variables regresoras, ¿Cu´ al ser´ ıa la primera en abandonar el modelo? Pista: Observar los p-valores correspondientes a los coeficientes. c ) Seleccionar las variables que se incluir´ ıan en el modelo de regresi´on mediante los m´ etodos de eliminaci´ on hacia atr´ as y selecci´on hacia delante. Especificar el modelo definitivo con los p-valores correspondientes a cada coeficiente. Calcular el valor de R 2 . ¿Qu´ e estimaci´ on se obtiene para la varianza del error? d ) Para el modelo definitivo comprobar las hip´ otesis del modelo de regresi´on lineal, tanto gr´ afica como num´ ericamente. 2. El cloro se usa en la depuraci´on de aguas como agente desinfectante. Este agente se a˜ nade al agua a tratar en la cantidad suficiente como para eliminar agentes pat´ ogenos evitando el exceso del mismo. Por tanto, es de inter´ es conocer la cantidad de cloro necesaria en cada tratamiento. En el archivo cloro.txt se encuentran los datos de demanda de cloro en una planta de tratamiento de aguas residuales durante todo 2008. Nos interesa conocer si existen diferencias significativas en la demanda de cloro entre las distintas estaciones del no. Se pide: a) ¿Cu´ ales son la variable respuesta, el factor, sus niveles? ¿Cu´ ales son las hip´ otesis del modelo? b) ¿Existen diferencias significativas en la demanda de cloro en las distintas estaciones? Presentar la tabla ANOVA. c ) ¿Cu´ al es el p-valor del test ANOVA? d ) Realizar la verificaci´ on de las hip´ otesis del modelo mediante gr´ aficas de residuos y an´ alisis num´ ericos. Comentar lo observado. e ) Realizar comparaciones por pares, mostrando gr´ aficamente los intervalos de confianza entre pares y clasificando en grupos. ¿Es l´ogica la clasificaci´on obtenida? 1

description

Enunciado y Resuelto con R Commander

Transcript of Trabajo Estadística

  • ASIGNATURA: AMPLIACION DE ESTADISTICA

    Titulacion: Grado en Tecnologas Industriales

    Curso Academico: 2014/2015

    Trabajo en grupo. Grupo 3

    Alumnos: Adolfo del Cacho Egea

    Juan Jose Rojo Ferrer

    Javier Ibaez Gabarron

    Pedro Antonio Guillen Caparros

    Paula Romero Bermejo

    Clara Navarro Van Iseghem

    Instrucciones: Se resolveran los siguientes problemas con ayuda del programa informatico visto en practicas (Ry R Commander). La nota de este trabajo constituye un 10% de la nota final de la asignatura para los miembrosdel grupo. Se valoraran tanto la exposicion de resultados como los razonamientos y conclusiones asociados a losmismos. Tambien seran objeto de evaluacion las respuestas proporcionadas a preguntas del profesor.

    1. Waugh estudio en 1957 la evolucion de la demanda de la carne de cerdo y de ternera en Estados Unidos du-rante el perodo 1925-1941. El fichero carne log.txt contiene los datos (tras su transformacion logartimica)que fueron objeto de estudio.

    a) Considerando el logaritmo del consumo de cerdo (ConsCerdo) variable respuesta, Cual sera la primeravariable regresora que entara en el modelo? Pista: Obtener los coeficientes de correlacion.

    b) Si consideramos un modelo lineal con todas las posibles variables regresoras, Cual sera la primera enabandonar el modelo? Pista: Observar los p-valores correspondientes a los coeficientes.

    c) Seleccionar las variables que se incluiran en el modelo de regresion mediante los metodos de eliminacionhacia atras y seleccion hacia delante. Especificar el modelo definitivo con los p-valores correspondientesa cada coeficiente. Calcular el valor de R2. Que estimacion se obtiene para la varianza del error?

    d) Para el modelo definitivo comprobar las hipotesis del modelo de regresion lineal, tanto grafica comonumericamente.

    2. El cloro se usa en la depuracion de aguas como agente desinfectante. Este agente se anade al agua a trataren la cantidad suficiente como para eliminar agentes patogenos evitando el exceso del mismo. Por tanto, esde interes conocer la cantidad de cloro necesaria en cada tratamiento. En el archivo cloro.txt se encuentranlos datos de demanda de cloro en una planta de tratamiento de aguas residuales durante todo 2008. Nosinteresa conocer si existen diferencias significativas en la demanda de cloro entre las distintas estaciones delano.

    Se pide:

    a) Cuales son la variable respuesta, el factor, sus niveles? Cuales son las hipotesis del modelo?

    b) Existen diferencias significativas en la demanda de cloro en las distintas estaciones? Presentar la tablaANOVA.

    c) Cual es el p-valor del test ANOVA?

    d) Realizar la verificacion de las hipotesis del modelo mediante graficas de residuos y analisis numericos.Comentar lo observado.

    e) Realizar comparaciones por pares, mostrando graficamente los intervalos de confianza entre pares yclasificando en grupos. Es logica la clasificacion obtenida?

    1

  • 3. En el fichero clas temp2.txt se encuentran los datos correspondientes a la demanda (en miles de unidades)de un determinado producto. Los datos se han recopilado por trimestres (datos trimestrales), comenzandoen el primer trimestre de 1980.

    a) Representa los datos de la demanda en un grafico temporal y comenta los aspectos mas relevantes.La serie presenta estacionalidad? Como diras que es la tendencia?

    b) Determina si se trata de un modelo aditivo o multiplicativo (realiza un grafico de desviaciones tpicasfrente a medias para cada ano).

    c) Extrae las componentes de la serie (Tendencia-Ciclo, Estacionalidad e Irregular) y comenta los resul-tados.

    d) Obten un modelo determinista que nos permita realizar predicciones.

    e) Con el modelo del apartado anterior, calcula los valores de la serie para los trimestres observados (93trimestres) y los 8 trimestres siguientes. Es decir, queremos predecir la demanda para los proximos dosanos.

    f ) Representa en un mismo grafico la secuencia de la serie observada y de la serie predicha con el modelodeterminista.

    g) Que tecnica de alisado exponencial te parece mas adecuada para analizar esta serie?. Razona turespuesta.

    h) Aplica la tecnica de alisado que has considerado adecuada, seleccionando como parametros de alisadoaquellos que minimizan la suma de cuadrados de los errores. Determina como quedaran las formulasrecurrentes de las series alisadas e interpreta el significado de los parmetros de alisado obtenidos.

    i) Representa en un mismo grafico la serie original y los valores ajustados por el modelo. En otro grafico,representa los errores de prediccion (residuos). Comenta los resultados obtenidos.

    j) Compara los residuos obtenidos mediante esta tecnica de alisado con los residuos de la descomposicionclasica y razona que metodo es mas adecuado para realizar predicciones.

    k) Realiza una prediccion con el metodo de alisado exponencia de la demanda para los 2 anos siguientes.Representa la serie original y las predicciones en un mismo grafico temporal.

    2

  • EJERCICIO 1

    Cargamos los datos desde formato texto. Tenemos 10 variables. Planteamos un modelo de regresin lineal

    ltiple siedo la vaiale expliada el osuo de ae de edo CosCedo.

    a) Matriz de correlaciones:

    Estadsticos-Resmenes-Matriz de correlaciones (seleccionamos todas las variables):

    El valor ms alto de correlacin, siendo este el ms cercano a 1, se obtiene para la variable precio de la

    carne de cerdo PrecCerdo, lo cual tiene sentido. Esta sera la primera variable en entrar en el modelo.

    b) Nuestro modelo lineal tendra la forma:

    ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim + IRentaDispPC +

    IRentaRealDPC + PrecCerdo + PrecTernera

    Los p-valores parciales, d. tpica de los residuos, valores de R cuadrado y p-valor del modelo son:

    Estadsticos - Ajustes del modelo - Regresin lineal

    (cogemos como v. explicativa: ConsCerdo y explicadas las dems)

  • El p-valor ms alto corresponde a Intercept, variable de posicin del hiperplano.

    El p-valor ms alto correspondiente a variables explicativas es IConsAlimPC.

    Estas seran las primeras variables en salir del modelo.

    c) Utilizando los mtodos de eliminacin hacia atrs y seleccin hacia delante con criterio de

    Akaike respectivamente: Modelos->Seleccin paso a paso

    Backward:

    Forward:

    Ambas conducen al mismo resultado: un modelo lineal donde las 9 variables explicativas influyen.

    R2

    es por tanto el anteriormente calculado, 0.995(99.5% de la variabilidad explicada por los regresores),

    mientras que la varianza del error es el cuadrado de su desviacin tpica: S2=0.01183

    2=0.0001399489

    d) Procedemos a la comprobacin de hiptesis del modelo. Empezamos por mtodos grficos:

    Modelos - Grficas - Grficas bsicas de diagnstico

  • Vemos que aunque principalmente se cumplen las hiptesis de homocedasticidad(residuos formando una

    banda en torno a valores ajustados) y normalidad(cuantiles de la muestra cercanos a cuantiles tericos),

    existen observaciones atpicas.

    Procedemos ahora a la comprobacin numrica:

    Modelos - Diagnsticos numricos - Test Durbin-Watson (rho=!0)

    Durbin-Watson test

    data: ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim +

    IRentaDispPC + IRentaRealDPC + PrecCerdo + PrecTernera

    DW = 2.7775, p-value = 0.702

    alternative hypothesis: true autocorrelation is not 0

    Segn las tablas:

    Los valores crticos para 9 regresores y una muestra de 17 datos son, para un nivel de significacin del 5%:

    T K dL dU

    17. 9. 0.35639 2.75688

    No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.

    Probamos con un nivel de significacin de 2.5%:

    T K dL dU

    17. 9. 0.29928 2.66621

    No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.

    Sucesivos niveles de significacin no arrojan nuevos datos sobre la correlacin de los residuos. Pero al estar

    los datos ordenados cronolgicamente podemos referirnos al grfico de residuos:

    plot(nombredelmodelo$res)

  • Vemos que forman una nube de datos ms o menos dispersa que no sigue ningn patrn claro. Asumimos

    la hiptesis de independencia de los residuos.

    Para la normalidad, procedemos con el test de Shapiro-Wilks:

    shapiro.test(nombredelmodelo$res)

    Shapiro-Wilk normality test

    data: RegModel.1$res

    W = 0.95879, p-value = 0.6088

    Este test contrasta la hiptesis nula de normalidad de datos numricos (en nuestro caso residuos de un modelo

    ajustado). Como el p-valor es muy alto, no rechazamos la hiptesis nula. Esto confirma la hiptesis de normalidad

    de los residuos.

    No se puede comprobar la hiptesis de homocedasticidad numricamente si no hay repeticin de datos para las

    mismas variables explicativas. Como los datos son variables continuas, no podemos aplicar el test de Levenne. La

    homocedasticidad slo puede comprobarse grficamente.

  • Comprobamos que existen problemas de colinealidad (algunas variables explicativas dependen unas de

    otras). Esto puede observarse realizando el determinante de la matriz de varianzas-covarianzas (cambiar

    cor por cov en la matriz de correlaciones y almacenar esa matriz como variable, det(nombre de la

    matriz)), el cual es igual a 5.795e-eao a eo, sigifia ue existe oliealidad, o ie representando la matriz de diagramas de dispersin(Grficas->Matriz de diagramas de dispersin), en el

    que se ven relaciones claras de dependencia lineal entre alguna variable u observando la matriz de

    correlaciones, la cual tiene valores absolutos altos entre algunas variables explicativas. Podramos utilizar

    en la seleccin paso a paso otro criterio con ms significacin, como por ejemplo el basado en los

    estadsticos F parciales, seleccionando un F de entrada y uno de salida(generalmente Fen=Fsal), y siguiendo

    los mismos pasos del criterio AIC. El procedimiento termina cuando no se puede incluir ninguna variable

    ms porque su F parcial es menor que la de entrada y ninguna puede extraerse porque su F parcial es

    mayor que la de salida. Esto aumentara los residuos y disminuira el R2

    (criterio menos potente), pero el

    modelo resultara ms sencillo, con menos variables.

    Nota: Para Reg. Lineal mltiple, un mtodo de seleccin de modelos es ms significativo cunto menos

    probabilidad hay de incluir variables en el modelo, y esto implica que sea menos potente (ms

    probabilidad de desechar variables que realmente importen). Hay que buscar un equilibrio entre

    significacin y potencia. En este caso se ha comprobado que las variables explicativas dependan unas de

    otras, podra ser interesante utilizar otro mtodo de seleccin como el ya mencionado.

    Reodado ue la vaiale CosCedo ea logatia, el odelo fial sea:

    Consumo de carne de cerdo=e(-0.9*ConsTernera - 0.007*Fecha +

    1.1*IConsAlimPC - 11.35*IPCAlimentac + 11.41*IPrecRelatAlim + 11.34*IRentaDispPC

    - 11.6RentaRealDPC - 0.42*PrecCerdo - 0.62PrecTernera)

  • EJERCICIO 2

    Introducir los datos desde el portapapeles y poner tabuladores.

    a) Factor: estacin del ao

    Respuesta: cantidad de cloro necesaria en cada tratamiento

    Niveles: 4 niveles (k=4) -> invierno=, primavera=, verano= e invierno= Hiptesis del modelo: : === (no influye la estacin del ao) : algn

    b) Estadsticos -> medias -> anova para un factor (factor: estacin y variable: cloro)

    Es ANOVA de un factor ya que solo estamos evaluando la demanda de cloro en las distintas estaciones (las

    fechas no influyen).

    En la tabla se muestran las sumas de cuadrados, grados de libertad y medias cuadrticas para el factor y los

    residuos, as como el estadstico F (en este caso F = 60.25) y el p-valor asociado al test de hiptesis.

    Encontramos un p-valor muy pequeo (p-valor =

  • d) Analizando grficamente: Modelos -> grficas -> grficas bsicas para el diagnstico

    Nos interesan las dos grficas de la parte superior. En la de la izquierda podemos observar los residuos

    frente a las medias (o valores ajustados). Como no se observa ningn patrn seguido por los datos,

    podemos decir que se cumple la homocedasticidad (=se acepta la igualdad de varianzas, hiptesis nula).

    En el grfico de la derecha aparece un grfico cuantil-cuantil (Q-Q plot) de los residuos, en el que se

    observa una tendencia lineal, que nos lleva a poder decir que tambin se est cumpliendo la hiptesis de

    normalidad.

    Analizando numricamente: Estadsticos -> Varianzas -> Test de Bartlett / Test de Levene

    En ambos test numricos el p-valor obtenido (barlett: 2.049e-06 y levene: 0.0002851) es muy inferior al

    alfa=0.05 por lo que no podemos aceptar la igualdad de varianzas y confirmamos que no hay

    homocedasticidad.

    Para el chequeo numrico de la hiptesis de normalidad debemos utilizar los residuos Podemos aplicar un

    test de normalidad de Shapiro-Wilks y/o de Kolmogorov-Smirnov a los residuos:

    Estadisticos -> resmenes -> test de normalidad de shapiro-wilks

    3.0 3.5 4.0 4.5

    -2

    -1

    01

    23

    Fitted values

    Resi

    dual

    s

    Residuals vs Fitted229126214

    -3 -2 -1 0 1 2 3

    -2

    01

    23

    4

    Theoretical Quantiles

    Stan

    dard

    ized

    re

    sidu

    als

    Normal Q-Q229

    126214

    aov(Demanda_Cl ~ Estacion)

  • ks.test(AnovaModel.n$res,pnorm,mean(AnovaModel.n$res),sd(AnovaModel.n$res))

    Se obtiene, para los test de Shapiro-Wilks un p-valor de 5.604e-07 y para el de kolmogorov 0.09149. Al

    tratarse de un p-valor bajo, rechazamos la hiptesis de que los residuos siguen una distribucin normal.

    Aunque los mtodos grficos y numricos se contradigan siempre debemos tener en cuenta antes los

    numricos. Los mtodos grficos pueden estar afectados por unos datos atpicos que nos lleven a tomar

    esa conclusin. Aun as para asegurarnos podemos realizar dos grficas mas, un histograma y un diagrama

    de cajas y bigotes: Grficas -> histograma

    diagrama de caja

    Demanda_Cl

    frequ

    en

    cy

    2 3 4 5 6 7

    010

    2030

    4050

  • Como podemos observar en el histograma una cola a la derecha que se corresponden con los datos

    atpicos del diagrama de cajas y bigotes, para llegar a una conclusin clara deberamos eliminarlos y volver

    a realizar estos test.

    Aunque este sea un caso dudoso debido a los p-valores tan bajos podemos llegar a la conclusin de que

    no hay igualdad de varianzas ni normalidad.

    Para comprobar la hiptesis de independencia, que debera cumplirse si el diseo del experimento es

    adecuado, realizamos un test de Durbin-Watson. Elegimos como hiptesis alternativa la bilateral:

    Modelas -> Diagnsticos numricos -> Test de Durbin-Watson para autocorrelacin

    Luego no rechazamos la hiptesis nula (que haya independencia)

    -2

    -1

    01

    23

  • e) Estadisticos -> medias -> anova de un factor (marcar la casilla de comparaciones 2 a 2)

    Si lo ordenamos respecto a la media mas alta, que mirando la tabla anova del apartado b sabemos que la

    mayor demanda es en verano (a), luego otoo y primavera (b) y por ltimo invierno (c), lo cual es un

    resultado lgico.

    -0.5 0.0 0.5 1.0 1.5 2.0

    ERANO - PRIMAVERA

    VERANO - OTOO

    PRIMAVERA - OTOO

    VERANO - INVIERNO

    RIMAVERA - INVIERNO

    OTOO - INVIERNO (

    (

    (

    (

    (

    (

    )

    )

    )

    )

    )

    )

    95% family-wise confidence level

    Linear Function

  • EJERCICIO 3

    Al cargar los datos, hay que poner en el carcter decimal comas.

    Primero tenemos que generar una serie de datos en formato fecha.

    Para ello usamos los comandos ts:

    clas_temp2.ts

  • 23.25 porque son 23 aos y un cuarto, es decir, 23 aos y un trimestre. Es aditivo. = + +

    c) clas_temp2.dec

  • Estacionalidad: hay estacionalidad. Cada ao se repite el mismo patrn.

    Tendencia-ciclo: creciente y lineal. Est suavizada y no tiene picos como en la grfica

    de las observaciones.

    Irregular: no sigue ningn patrn. La media terica de los datos es 0, y por ellos

    sabemos que la serie temporal es un ruido blanco.

    En el ao 1991 en concreto, hubo una crecida muy pronunciada de la demanda, que se

    ve reflejada en las grficas observada y tendencia. (curva en medio)

    d) El modelo determinista permite predecir las observaciones futuras en funcin de

    las observaciones pasadas.

    Creamos una nueva variable que represente al regresor tiempo.

    Ponemos 93 porque son el nmero de datos que tenemos.

    Tendencia.

    tiempo

  • Se han eliminado 4 observaciones por estar ausentes, las correspondientes a los 4 datos

    perdidos por calcular las medias mviles de orden 4.

    La componente Tendencia-Ciclo podra modelarse segn la expresin: = . + . La parte determinista de la serie temporal es: (por ser tendencia lineal) = . + . +

    E y f)

    Se escribe 1:101, porque son 93 datos + 8 trimestres que queremos predecir.

    estimado estimado[94:101]

    [1] 134.4638 137.9325 137.4289 141.8281 137.4087 140.8774 140.3737 144.7730

    plot(1:101,estimado, type="l", col = "red")

    lines(tiempo,clas_temp2$V1,type="l")

  • g)

    Al considerar que la serie tiene estacionalidad, necesitamos un mtodo de alisado

    exponencial triple. El nico estudiado es el mtodo de Holt-Winters para modelos

    aditivos, porque presenta estacionalidad, y el grfico de desviaciones tpicas frente a

    medias no sigue ningn patrn.

    h) Esta es la funcin que nos permite aplicar el mtodo de Holt-Winters sobre nuestra

    serie temporal.

    HoltWinters(x,alpha,beta,gaa,seasoal=additive) Para elegir los parmetros de alisado que minimicen la suma de cuadrados de los

    errores, como pide en el enunciado, lo que hay que hacer es no especificar valores

    para los parmetros de alisado.

    clas_temp2.hw

  • (En la L debemos poner nuestro perodo, que es 4)

    Interpretacin de los parmetros:

    Alfa > Cuando alfa toma el valor 1, se utiliza exclusivamente la observacin ms reciente; cuando alfa toma el valor 0, las observaciones antiguas cuentan con tanto peso como las

    recientes.

    Gamma . ->Los valores prximos a 1 indican un mayor peso para los valores recientes. Delta . ->Los valores prximos a 1 corresponden a un mayor peso para las observaciones recientes.

    No estn muy prximos a 1, por lo tanto los valores recientes no tienen ms peso que

    los antiguos, pero tampoco tienen todos el mismo peso.

    i) plot(clas_temp2.hw)

    residuals(clas_temp2.hw)

    plot(residuals(clas_temp2.hw))

    Obteniendo:

  • Podemos observar que, salvo algn dato atpico, los residuos se sitan en una banda

    ms o menos estrecha en torno al 0. El modelo alisado predice bastante bien la serie.

    j) Comparamos las sumas de cuadrados:

    Anlisis clsico:

    Residuos2 sum(residuos^2)

    [1] 975.1697

    Holt Winters: sum(residuos^2)

    > sum(residuos^2)

    [1] 89.70172

    Observamos que el sumatorio de los residuos al cuadrado es menor en el mtodo de

    Holt-Winters, por lo tanto es ms adecuado para realizar predicciones.

    k)

    La prediccin para los 2 aos siguientes es:

    predict(clas_temp2.hw,n.ahead=8)

    En ahead se pone el tiempo que quieres predecir en forma de perodo, es decir, 2 aos son

    8 trimestres.

    Para la grfica:

  • En el intervalo ponemos los aos de los datos que tenemos, y los aos que queremos

    predecir. Los datos van hasta el primer trimestre de 2003.

    plot(clas_temp2.ts,xlim=c(1980,2005))

    lines(predict(clas_temp2.hw,n.ahead=8),col=red)