Trabajo Estadística

ASIGNATURA: AMPLIACION DE ESTADISTICA

Titulacion: Grado en Tecnologas Industriales

Curso Academico: 2014/2015

Trabajo en grupo. Grupo 3

Alumnos: Adolfo del Cacho Egea

Juan Jose Rojo Ferrer

Javier Ibaez Gabarron

Pedro Antonio Guillen Caparros

Paula Romero Bermejo

Clara Navarro Van Iseghem

Instrucciones: Se resolveran los siguientes problemas con ayuda del programa informatico visto en practicas (Ry R Commander). La nota de este trabajo constituye un 10% de la nota final de la asignatura para los miembrosdel grupo. Se valoraran tanto la exposicion de resultados como los razonamientos y conclusiones asociados a losmismos. Tambien seran objeto de evaluacion las respuestas proporcionadas a preguntas del profesor.

1. Waugh estudio en 1957 la evolucion de la demanda de la carne de cerdo y de ternera en Estados Unidos du-rante el perodo 1925-1941. El fichero carne log.txt contiene los datos (tras su transformacion logartimica)que fueron objeto de estudio.

a) Considerando el logaritmo del consumo de cerdo (ConsCerdo) variable respuesta, Cual sera la primeravariable regresora que entara en el modelo? Pista: Obtener los coeficientes de correlacion.

b) Si consideramos un modelo lineal con todas las posibles variables regresoras, Cual sera la primera enabandonar el modelo? Pista: Observar los p-valores correspondientes a los coeficientes.

c) Seleccionar las variables que se incluiran en el modelo de regresion mediante los metodos de eliminacionhacia atras y seleccion hacia delante. Especificar el modelo definitivo con los p-valores correspondientesa cada coeficiente. Calcular el valor de R2. Que estimacion se obtiene para la varianza del error?

d) Para el modelo definitivo comprobar las hipotesis del modelo de regresion lineal, tanto grafica comonumericamente.

2. El cloro se usa en la depuracion de aguas como agente desinfectante. Este agente se anade al agua a trataren la cantidad suficiente como para eliminar agentes patogenos evitando el exceso del mismo. Por tanto, esde interes conocer la cantidad de cloro necesaria en cada tratamiento. En el archivo cloro.txt se encuentranlos datos de demanda de cloro en una planta de tratamiento de aguas residuales durante todo 2008. Nosinteresa conocer si existen diferencias significativas en la demanda de cloro entre las distintas estaciones delano.

Se pide:

a) Cuales son la variable respuesta, el factor, sus niveles? Cuales son las hipotesis del modelo?

b) Existen diferencias significativas en la demanda de cloro en las distintas estaciones? Presentar la tablaANOVA.

c) Cual es el p-valor del test ANOVA?

d) Realizar la verificacion de las hipotesis del modelo mediante graficas de residuos y analisis numericos.Comentar lo observado.

e) Realizar comparaciones por pares, mostrando graficamente los intervalos de confianza entre pares yclasificando en grupos. Es logica la clasificacion obtenida?

1

3. En el fichero clas temp2.txt se encuentran los datos correspondientes a la demanda (en miles de unidades)de un determinado producto. Los datos se han recopilado por trimestres (datos trimestrales), comenzandoen el primer trimestre de 1980.

a) Representa los datos de la demanda en un grafico temporal y comenta los aspectos mas relevantes.La serie presenta estacionalidad? Como diras que es la tendencia?

b) Determina si se trata de un modelo aditivo o multiplicativo (realiza un grafico de desviaciones tpicasfrente a medias para cada ano).

c) Extrae las componentes de la serie (Tendencia-Ciclo, Estacionalidad e Irregular) y comenta los resul-tados.

d) Obten un modelo determinista que nos permita realizar predicciones.

e) Con el modelo del apartado anterior, calcula los valores de la serie para los trimestres observados (93trimestres) y los 8 trimestres siguientes. Es decir, queremos predecir la demanda para los proximos dosanos.

f ) Representa en un mismo grafico la secuencia de la serie observada y de la serie predicha con el modelodeterminista.

g) Que tecnica de alisado exponencial te parece mas adecuada para analizar esta serie?. Razona turespuesta.

h) Aplica la tecnica de alisado que has considerado adecuada, seleccionando como parametros de alisadoaquellos que minimizan la suma de cuadrados de los errores. Determina como quedaran las formulasrecurrentes de las series alisadas e interpreta el significado de los parmetros de alisado obtenidos.

i) Representa en un mismo grafico la serie original y los valores ajustados por el modelo. En otro grafico,representa los errores de prediccion (residuos). Comenta los resultados obtenidos.

j) Compara los residuos obtenidos mediante esta tecnica de alisado con los residuos de la descomposicionclasica y razona que metodo es mas adecuado para realizar predicciones.

k) Realiza una prediccion con el metodo de alisado exponencia de la demanda para los 2 anos siguientes.Representa la serie original y las predicciones en un mismo grafico temporal.

2

EJERCICIO 1

Cargamos los datos desde formato texto. Tenemos 10 variables. Planteamos un modelo de regresin lineal

ltiple siedo la vaiale expliada el osuo de ae de edo CosCedo.

a) Matriz de correlaciones:

Estadsticos-Resmenes-Matriz de correlaciones (seleccionamos todas las variables):

El valor ms alto de correlacin, siendo este el ms cercano a 1, se obtiene para la variable precio de la

carne de cerdo PrecCerdo, lo cual tiene sentido. Esta sera la primera variable en entrar en el modelo.

b) Nuestro modelo lineal tendra la forma:

ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim + IRentaDispPC +

IRentaRealDPC + PrecCerdo + PrecTernera

Los p-valores parciales, d. tpica de los residuos, valores de R cuadrado y p-valor del modelo son:

Estadsticos - Ajustes del modelo - Regresin lineal

(cogemos como v. explicativa: ConsCerdo y explicadas las dems)

El p-valor ms alto corresponde a Intercept, variable de posicin del hiperplano.

El p-valor ms alto correspondiente a variables explicativas es IConsAlimPC.

Estas seran las primeras variables en salir del modelo.

c) Utilizando los mtodos de eliminacin hacia atrs y seleccin hacia delante con criterio de

Akaike respectivamente: Modelos->Seleccin paso a paso

Backward:

Forward:

Ambas conducen al mismo resultado: un modelo lineal donde las 9 variables explicativas influyen.

R2

es por tanto el anteriormente calculado, 0.995(99.5% de la variabilidad explicada por los regresores),

mientras que la varianza del error es el cuadrado de su desviacin tpica: S2=0.01183

2=0.0001399489

d) Procedemos a la comprobacin de hiptesis del modelo. Empezamos por mtodos grficos:

Modelos - Grficas - Grficas bsicas de diagnstico

Vemos que aunque principalmente se cumplen las hiptesis de homocedasticidad(residuos formando una

banda en torno a valores ajustados) y normalidad(cuantiles de la muestra cercanos a cuantiles tericos),

existen observaciones atpicas.

Procedemos ahora a la comprobacin numrica:

Modelos - Diagnsticos numricos - Test Durbin-Watson (rho=!0)

Durbin-Watson test

data: ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim +

IRentaDispPC + IRentaRealDPC + PrecCerdo + PrecTernera

DW = 2.7775, p-value = 0.702

alternative hypothesis: true autocorrelation is not 0

Segn las tablas:

Los valores crticos para 9 regresores y una muestra de 17 datos son, para un nivel de significacin del 5%:

T K dL dU

17. 9. 0.35639 2.75688

No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.

Probamos con un nivel de significacin de 2.5%:

T K dL dU

17. 9. 0.29928 2.66621

No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.

Sucesivos niveles de significacin no arrojan nuevos datos sobre la correlacin de los residuos. Pero al estar

los datos ordenados cronolgicamente podemos referirnos al grfico de residuos:

plot(nombredelmodelo$res)

Vemos que forman una nube de datos ms o menos dispersa que no sigue ningn patrn claro. Asumimos

la hiptesis de independencia de los residuos.

Para la normalidad, procedemos con el test de Shapiro-Wilks:

shapiro.test(nombredelmodelo$res)

Shapiro-Wilk normality test

data: RegModel.1$res

W = 0.95879, p-value = 0.6088

Este test contrasta la hiptesis nula de normalidad de datos numricos (en nuestro caso residuos de un modelo

ajustado). Como el p-valor es muy alto, no rechazamos la hiptesis nula. Esto confirma la hiptesis de normalidad

de los residuos.

No se puede comprobar la hiptesis de homocedasticidad numricamente si no hay repeticin de datos para las

mismas variables explicativas. Como los datos son variables continuas, no podemos aplicar el test de Levenne. La

homocedasticidad slo puede comprobarse grficamente.

Comprobamos que existen problemas de colinealidad (algunas variables explicativas dependen unas de

otras). Esto puede observarse realizando el determinante de la matriz de varianzas-covarianzas (cambiar

cor por cov en la matriz de correlaciones y almacenar esa matriz como variable, det(nombre de la

matriz)), el cual es igual a 5.795e-eao a eo, sigifia ue existe oliealidad, o ie representando la matriz de diagramas de dispersin(Grficas->Matriz de diagramas de dispersin), en el

que se ven relaciones claras de dependencia lineal entre alguna variable u observando la matriz de

correlaciones, la cual tiene valores absolutos altos entre algunas variables explicativas. Podramos utilizar

en la seleccin paso a paso otro criterio con ms significacin, como por ejemplo el basado en los

estadsticos F parciales, seleccionando un F de entrada y uno de salida(generalmente Fen=Fsal), y siguiendo

los mismos pasos del criterio AIC. El procedimiento termina cuando no se puede incluir ninguna variable

ms porque su F parcial es menor que la de entrada y ninguna puede extraerse porque su F parcial es

mayor que la de salida. Esto aumentara los residuos y disminuira el R2

(criterio menos potente), pero el

modelo resultara ms sencillo, con menos variables.

Nota: Para Reg. Lineal mltiple, un mtodo de seleccin de modelos es ms significativo cunto menos

probabilidad hay de incluir variables en el modelo, y esto implica que sea menos potente (ms

probabilidad de desechar variables que realmente importen). Hay que buscar un equilibrio entre

significacin y potencia. En este caso se ha comprobado que las variables explicativas dependan unas de

otras, podra ser interesante utilizar otro mtodo de seleccin como el ya mencionado.

Reodado ue la vaiale CosCedo ea logatia, el odelo fial sea:

Consumo de carne de cerdo=e(-0.9*ConsTernera - 0.007*Fecha +

1.1*IConsAlimPC - 11.35*IPCAlimentac + 11.41*IPrecRelatAlim + 11.34*IRentaDispPC

- 11.6RentaRealDPC - 0.42*PrecCerdo - 0.62PrecTernera)

EJERCICIO 2

Introducir los datos desde el portapapeles y poner tabuladores.

a) Factor: estacin del ao

Respuesta: cantidad de cloro necesaria en cada tratamiento

Niveles: 4 niveles (k=4) -> invierno=, primavera=, verano= e invierno= Hiptesis del modelo: : === (no influye la estacin del ao) : algn

b) Estadsticos -> medias -> anova para un factor (factor: estacin y variable: cloro)

Es ANOVA de un factor ya que solo estamos evaluando la demanda de cloro en las distintas estaciones (las

fechas no influyen).

En la tabla se muestran las sumas de cuadrados, grados de libertad y medias cuadrticas para el factor y los

residuos, as como el estadstico F (en este caso F = 60.25) y el p-valor asociado al test de hiptesis.

Encontramos un p-valor muy pequeo (p-valor =

d) Analizando grficamente: Modelos -> grficas -> grficas bsicas para el diagnstico

Nos interesan las dos grficas de la parte superior. En la de la izquierda podemos observar los residuos

frente a las medias (o valores ajustados). Como no se observa ningn patrn seguido por los datos,

podemos decir que se cumple la homocedasticidad (=se acepta la igualdad de varianzas, hiptesis nula).

En el grfico de la derecha aparece un grfico cuantil-cuantil (Q-Q plot) de los residuos, en el que se

observa una tendencia lineal, que nos lleva a poder decir que tambin se est cumpliendo la hiptesis de

normalidad.

Analizando numricamente: Estadsticos -> Varianzas -> Test de Bartlett / Test de Levene

En ambos test numricos el p-valor obtenido (barlett: 2.049e-06 y levene: 0.0002851) es muy inferior al

alfa=0.05 por lo que no podemos aceptar la igualdad de varianzas y confirmamos que no hay

homocedasticidad.

Para el chequeo numrico de la hiptesis de normalidad debemos utilizar los residuos Podemos aplicar un

test de normalidad de Shapiro-Wilks y/o de Kolmogorov-Smirnov a los residuos:

Estadisticos -> resmenes -> test de normalidad de shapiro-wilks

3.0 3.5 4.0 4.5

-2

-1

01

23

Fitted values

Resi

dual

s

Residuals vs Fitted229126214

-3 -2 -1 0 1 2 3

-2

01

23

4

Theoretical Quantiles

Stan

dard

ized

re

sidu

als

Normal Q-Q229

126214

aov(Demanda_Cl ~ Estacion)

ks.test(AnovaModel.n$res,pnorm,mean(AnovaModel.n$res),sd(AnovaModel.n$res))

Se obtiene, para los test de Shapiro-Wilks un p-valor de 5.604e-07 y para el de kolmogorov 0.09149. Al

tratarse de un p-valor bajo, rechazamos la hiptesis de que los residuos siguen una distribucin normal.

Aunque los mtodos grficos y numricos se contradigan siempre debemos tener en cuenta antes los

numricos. Los mtodos grficos pueden estar afectados por unos datos atpicos que nos lleven a tomar

esa conclusin. Aun as para asegurarnos podemos realizar dos grficas mas, un histograma y un diagrama

de cajas y bigotes: Grficas -> histograma

diagrama de caja

Demanda_Cl

frequ

en

cy

2 3 4 5 6 7

010

2030

4050

Como podemos observar en el histograma una cola a la derecha que se corresponden con los datos

atpicos del diagrama de cajas y bigotes, para llegar a una conclusin clara deberamos eliminarlos y volver

a realizar estos test.

Aunque este sea un caso dudoso debido a los p-valores tan bajos podemos llegar a la conclusin de que

no hay igualdad de varianzas ni normalidad.

Para comprobar la hiptesis de independencia, que debera cumplirse si el diseo del experimento es

adecuado, realizamos un test de Durbin-Watson. Elegimos como hiptesis alternativa la bilateral:

Modelas -> Diagnsticos numricos -> Test de Durbin-Watson para autocorrelacin

Luego no rechazamos la hiptesis nula (que haya independencia)

-2

-1

01

23

e) Estadisticos -> medias -> anova de un factor (marcar la casilla de comparaciones 2 a 2)

Si lo ordenamos respecto a la media mas alta, que mirando la tabla anova del apartado b sabemos que la

mayor demanda es en verano (a), luego otoo y primavera (b) y por ltimo invierno (c), lo cual es un

resultado lgico.

-0.5 0.0 0.5 1.0 1.5 2.0

ERANO - PRIMAVERA

VERANO - OTOO

PRIMAVERA - OTOO

VERANO - INVIERNO

RIMAVERA - INVIERNO

OTOO - INVIERNO (

(

(

(

(

(

)

)

)

)

)

)

95% family-wise confidence level

Linear Function

EJERCICIO 3

Al cargar los datos, hay que poner en el carcter decimal comas.

Primero tenemos que generar una serie de datos en formato fecha.

Para ello usamos los comandos ts:

clas_temp2.ts

23.25 porque son 23 aos y un cuarto, es decir, 23 aos y un trimestre. Es aditivo. = + +

c) clas_temp2.dec

Estacionalidad: hay estacionalidad. Cada ao se repite el mismo patrn.

Tendencia-ciclo: creciente y lineal. Est suavizada y no tiene picos como en la grfica

de las observaciones.

Irregular: no sigue ningn patrn. La media terica de los datos es 0, y por ellos

sabemos que la serie temporal es un ruido blanco.

En el ao 1991 en concreto, hubo una crecida muy pronunciada de la demanda, que se

ve reflejada en las grficas observada y tendencia. (curva en medio)

d) El modelo determinista permite predecir las observaciones futuras en funcin de

las observaciones pasadas.

Creamos una nueva variable que represente al regresor tiempo.

Ponemos 93 porque son el nmero de datos que tenemos.

Tendencia.

tiempo

Se han eliminado 4 observaciones por estar ausentes, las correspondientes a los 4 datos

perdidos por calcular las medias mviles de orden 4.

La componente Tendencia-Ciclo podra modelarse segn la expresin: = . + . La parte determinista de la serie temporal es: (por ser tendencia lineal) = . + . +

E y f)

Se escribe 1:101, porque son 93 datos + 8 trimestres que queremos predecir.

estimado estimado[94:101]

[1] 134.4638 137.9325 137.4289 141.8281 137.4087 140.8774 140.3737 144.7730

plot(1:101,estimado, type="l", col = "red")

lines(tiempo,clas_temp2$V1,type="l")

g)

Al considerar que la serie tiene estacionalidad, necesitamos un mtodo de alisado

exponencial triple. El nico estudiado es el mtodo de Holt-Winters para modelos

aditivos, porque presenta estacionalidad, y el grfico de desviaciones tpicas frente a

medias no sigue ningn patrn.

h) Esta es la funcin que nos permite aplicar el mtodo de Holt-Winters sobre nuestra

serie temporal.

HoltWinters(x,alpha,beta,gaa,seasoal=additive) Para elegir los parmetros de alisado que minimicen la suma de cuadrados de los

errores, como pide en el enunciado, lo que hay que hacer es no especificar valores

para los parmetros de alisado.

clas_temp2.hw

(En la L debemos poner nuestro perodo, que es 4)

Interpretacin de los parmetros:

Alfa > Cuando alfa toma el valor 1, se utiliza exclusivamente la observacin ms reciente; cuando alfa toma el valor 0, las observaciones antiguas cuentan con tanto peso como las

recientes.

Gamma . ->Los valores prximos a 1 indican un mayor peso para los valores recientes. Delta . ->Los valores prximos a 1 corresponden a un mayor peso para las observaciones recientes.

No estn muy prximos a 1, por lo tanto los valores recientes no tienen ms peso que

los antiguos, pero tampoco tienen todos el mismo peso.

i) plot(clas_temp2.hw)

residuals(clas_temp2.hw)

plot(residuals(clas_temp2.hw))

Obteniendo:

Podemos observar que, salvo algn dato atpico, los residuos se sitan en una banda

ms o menos estrecha en torno al 0. El modelo alisado predice bastante bien la serie.

j) Comparamos las sumas de cuadrados:

Anlisis clsico:

Residuos2 sum(residuos^2)

[1] 975.1697

Holt Winters: sum(residuos^2)

> sum(residuos^2)

[1] 89.70172

Observamos que el sumatorio de los residuos al cuadrado es menor en el mtodo de

Holt-Winters, por lo tanto es ms adecuado para realizar predicciones.

k)

La prediccin para los 2 aos siguientes es:

predict(clas_temp2.hw,n.ahead=8)

En ahead se pone el tiempo que quieres predecir en forma de perodo, es decir, 2 aos son

8 trimestres.

Para la grfica:

En el intervalo ponemos los aos de los datos que tenemos, y los aos que queremos

predecir. Los datos van hasta el primer trimestre de 2003.

plot(clas_temp2.ts,xlim=c(1980,2005))

lines(predict(clas_temp2.hw,n.ahead=8),col=red)

Trabajo Estadística

Documents

Transcript of Trabajo Estadística