Trabajo Estadística
-
Upload
pedro-guillen-caparros -
Category
Documents
-
view
21 -
download
3
description
Transcript of Trabajo Estadística
-
ASIGNATURA: AMPLIACION DE ESTADISTICA
Titulacion: Grado en Tecnologas Industriales
Curso Academico: 2014/2015
Trabajo en grupo. Grupo 3
Alumnos: Adolfo del Cacho Egea
Juan Jose Rojo Ferrer
Javier Ibaez Gabarron
Pedro Antonio Guillen Caparros
Paula Romero Bermejo
Clara Navarro Van Iseghem
Instrucciones: Se resolveran los siguientes problemas con ayuda del programa informatico visto en practicas (Ry R Commander). La nota de este trabajo constituye un 10% de la nota final de la asignatura para los miembrosdel grupo. Se valoraran tanto la exposicion de resultados como los razonamientos y conclusiones asociados a losmismos. Tambien seran objeto de evaluacion las respuestas proporcionadas a preguntas del profesor.
1. Waugh estudio en 1957 la evolucion de la demanda de la carne de cerdo y de ternera en Estados Unidos du-rante el perodo 1925-1941. El fichero carne log.txt contiene los datos (tras su transformacion logartimica)que fueron objeto de estudio.
a) Considerando el logaritmo del consumo de cerdo (ConsCerdo) variable respuesta, Cual sera la primeravariable regresora que entara en el modelo? Pista: Obtener los coeficientes de correlacion.
b) Si consideramos un modelo lineal con todas las posibles variables regresoras, Cual sera la primera enabandonar el modelo? Pista: Observar los p-valores correspondientes a los coeficientes.
c) Seleccionar las variables que se incluiran en el modelo de regresion mediante los metodos de eliminacionhacia atras y seleccion hacia delante. Especificar el modelo definitivo con los p-valores correspondientesa cada coeficiente. Calcular el valor de R2. Que estimacion se obtiene para la varianza del error?
d) Para el modelo definitivo comprobar las hipotesis del modelo de regresion lineal, tanto grafica comonumericamente.
2. El cloro se usa en la depuracion de aguas como agente desinfectante. Este agente se anade al agua a trataren la cantidad suficiente como para eliminar agentes patogenos evitando el exceso del mismo. Por tanto, esde interes conocer la cantidad de cloro necesaria en cada tratamiento. En el archivo cloro.txt se encuentranlos datos de demanda de cloro en una planta de tratamiento de aguas residuales durante todo 2008. Nosinteresa conocer si existen diferencias significativas en la demanda de cloro entre las distintas estaciones delano.
Se pide:
a) Cuales son la variable respuesta, el factor, sus niveles? Cuales son las hipotesis del modelo?
b) Existen diferencias significativas en la demanda de cloro en las distintas estaciones? Presentar la tablaANOVA.
c) Cual es el p-valor del test ANOVA?
d) Realizar la verificacion de las hipotesis del modelo mediante graficas de residuos y analisis numericos.Comentar lo observado.
e) Realizar comparaciones por pares, mostrando graficamente los intervalos de confianza entre pares yclasificando en grupos. Es logica la clasificacion obtenida?
1
-
3. En el fichero clas temp2.txt se encuentran los datos correspondientes a la demanda (en miles de unidades)de un determinado producto. Los datos se han recopilado por trimestres (datos trimestrales), comenzandoen el primer trimestre de 1980.
a) Representa los datos de la demanda en un grafico temporal y comenta los aspectos mas relevantes.La serie presenta estacionalidad? Como diras que es la tendencia?
b) Determina si se trata de un modelo aditivo o multiplicativo (realiza un grafico de desviaciones tpicasfrente a medias para cada ano).
c) Extrae las componentes de la serie (Tendencia-Ciclo, Estacionalidad e Irregular) y comenta los resul-tados.
d) Obten un modelo determinista que nos permita realizar predicciones.
e) Con el modelo del apartado anterior, calcula los valores de la serie para los trimestres observados (93trimestres) y los 8 trimestres siguientes. Es decir, queremos predecir la demanda para los proximos dosanos.
f ) Representa en un mismo grafico la secuencia de la serie observada y de la serie predicha con el modelodeterminista.
g) Que tecnica de alisado exponencial te parece mas adecuada para analizar esta serie?. Razona turespuesta.
h) Aplica la tecnica de alisado que has considerado adecuada, seleccionando como parametros de alisadoaquellos que minimizan la suma de cuadrados de los errores. Determina como quedaran las formulasrecurrentes de las series alisadas e interpreta el significado de los parmetros de alisado obtenidos.
i) Representa en un mismo grafico la serie original y los valores ajustados por el modelo. En otro grafico,representa los errores de prediccion (residuos). Comenta los resultados obtenidos.
j) Compara los residuos obtenidos mediante esta tecnica de alisado con los residuos de la descomposicionclasica y razona que metodo es mas adecuado para realizar predicciones.
k) Realiza una prediccion con el metodo de alisado exponencia de la demanda para los 2 anos siguientes.Representa la serie original y las predicciones en un mismo grafico temporal.
2
-
EJERCICIO 1
Cargamos los datos desde formato texto. Tenemos 10 variables. Planteamos un modelo de regresin lineal
ltiple siedo la vaiale expliada el osuo de ae de edo CosCedo.
a) Matriz de correlaciones:
Estadsticos-Resmenes-Matriz de correlaciones (seleccionamos todas las variables):
El valor ms alto de correlacin, siendo este el ms cercano a 1, se obtiene para la variable precio de la
carne de cerdo PrecCerdo, lo cual tiene sentido. Esta sera la primera variable en entrar en el modelo.
b) Nuestro modelo lineal tendra la forma:
ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim + IRentaDispPC +
IRentaRealDPC + PrecCerdo + PrecTernera
Los p-valores parciales, d. tpica de los residuos, valores de R cuadrado y p-valor del modelo son:
Estadsticos - Ajustes del modelo - Regresin lineal
(cogemos como v. explicativa: ConsCerdo y explicadas las dems)
-
El p-valor ms alto corresponde a Intercept, variable de posicin del hiperplano.
El p-valor ms alto correspondiente a variables explicativas es IConsAlimPC.
Estas seran las primeras variables en salir del modelo.
c) Utilizando los mtodos de eliminacin hacia atrs y seleccin hacia delante con criterio de
Akaike respectivamente: Modelos->Seleccin paso a paso
Backward:
Forward:
Ambas conducen al mismo resultado: un modelo lineal donde las 9 variables explicativas influyen.
R2
es por tanto el anteriormente calculado, 0.995(99.5% de la variabilidad explicada por los regresores),
mientras que la varianza del error es el cuadrado de su desviacin tpica: S2=0.01183
2=0.0001399489
d) Procedemos a la comprobacin de hiptesis del modelo. Empezamos por mtodos grficos:
Modelos - Grficas - Grficas bsicas de diagnstico
-
Vemos que aunque principalmente se cumplen las hiptesis de homocedasticidad(residuos formando una
banda en torno a valores ajustados) y normalidad(cuantiles de la muestra cercanos a cuantiles tericos),
existen observaciones atpicas.
Procedemos ahora a la comprobacin numrica:
Modelos - Diagnsticos numricos - Test Durbin-Watson (rho=!0)
Durbin-Watson test
data: ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim +
IRentaDispPC + IRentaRealDPC + PrecCerdo + PrecTernera
DW = 2.7775, p-value = 0.702
alternative hypothesis: true autocorrelation is not 0
Segn las tablas:
Los valores crticos para 9 regresores y una muestra de 17 datos son, para un nivel de significacin del 5%:
T K dL dU
17. 9. 0.35639 2.75688
No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.
Probamos con un nivel de significacin de 2.5%:
T K dL dU
17. 9. 0.29928 2.66621
No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.
Sucesivos niveles de significacin no arrojan nuevos datos sobre la correlacin de los residuos. Pero al estar
los datos ordenados cronolgicamente podemos referirnos al grfico de residuos:
plot(nombredelmodelo$res)
-
Vemos que forman una nube de datos ms o menos dispersa que no sigue ningn patrn claro. Asumimos
la hiptesis de independencia de los residuos.
Para la normalidad, procedemos con el test de Shapiro-Wilks:
shapiro.test(nombredelmodelo$res)
Shapiro-Wilk normality test
data: RegModel.1$res
W = 0.95879, p-value = 0.6088
Este test contrasta la hiptesis nula de normalidad de datos numricos (en nuestro caso residuos de un modelo
ajustado). Como el p-valor es muy alto, no rechazamos la hiptesis nula. Esto confirma la hiptesis de normalidad
de los residuos.
No se puede comprobar la hiptesis de homocedasticidad numricamente si no hay repeticin de datos para las
mismas variables explicativas. Como los datos son variables continuas, no podemos aplicar el test de Levenne. La
homocedasticidad slo puede comprobarse grficamente.
-
Comprobamos que existen problemas de colinealidad (algunas variables explicativas dependen unas de
otras). Esto puede observarse realizando el determinante de la matriz de varianzas-covarianzas (cambiar
cor por cov en la matriz de correlaciones y almacenar esa matriz como variable, det(nombre de la
matriz)), el cual es igual a 5.795e-eao a eo, sigifia ue existe oliealidad, o ie representando la matriz de diagramas de dispersin(Grficas->Matriz de diagramas de dispersin), en el
que se ven relaciones claras de dependencia lineal entre alguna variable u observando la matriz de
correlaciones, la cual tiene valores absolutos altos entre algunas variables explicativas. Podramos utilizar
en la seleccin paso a paso otro criterio con ms significacin, como por ejemplo el basado en los
estadsticos F parciales, seleccionando un F de entrada y uno de salida(generalmente Fen=Fsal), y siguiendo
los mismos pasos del criterio AIC. El procedimiento termina cuando no se puede incluir ninguna variable
ms porque su F parcial es menor que la de entrada y ninguna puede extraerse porque su F parcial es
mayor que la de salida. Esto aumentara los residuos y disminuira el R2
(criterio menos potente), pero el
modelo resultara ms sencillo, con menos variables.
Nota: Para Reg. Lineal mltiple, un mtodo de seleccin de modelos es ms significativo cunto menos
probabilidad hay de incluir variables en el modelo, y esto implica que sea menos potente (ms
probabilidad de desechar variables que realmente importen). Hay que buscar un equilibrio entre
significacin y potencia. En este caso se ha comprobado que las variables explicativas dependan unas de
otras, podra ser interesante utilizar otro mtodo de seleccin como el ya mencionado.
Reodado ue la vaiale CosCedo ea logatia, el odelo fial sea:
Consumo de carne de cerdo=e(-0.9*ConsTernera - 0.007*Fecha +
1.1*IConsAlimPC - 11.35*IPCAlimentac + 11.41*IPrecRelatAlim + 11.34*IRentaDispPC
- 11.6RentaRealDPC - 0.42*PrecCerdo - 0.62PrecTernera)
-
EJERCICIO 2
Introducir los datos desde el portapapeles y poner tabuladores.
a) Factor: estacin del ao
Respuesta: cantidad de cloro necesaria en cada tratamiento
Niveles: 4 niveles (k=4) -> invierno=, primavera=, verano= e invierno= Hiptesis del modelo: : === (no influye la estacin del ao) : algn
b) Estadsticos -> medias -> anova para un factor (factor: estacin y variable: cloro)
Es ANOVA de un factor ya que solo estamos evaluando la demanda de cloro en las distintas estaciones (las
fechas no influyen).
En la tabla se muestran las sumas de cuadrados, grados de libertad y medias cuadrticas para el factor y los
residuos, as como el estadstico F (en este caso F = 60.25) y el p-valor asociado al test de hiptesis.
Encontramos un p-valor muy pequeo (p-valor =
-
d) Analizando grficamente: Modelos -> grficas -> grficas bsicas para el diagnstico
Nos interesan las dos grficas de la parte superior. En la de la izquierda podemos observar los residuos
frente a las medias (o valores ajustados). Como no se observa ningn patrn seguido por los datos,
podemos decir que se cumple la homocedasticidad (=se acepta la igualdad de varianzas, hiptesis nula).
En el grfico de la derecha aparece un grfico cuantil-cuantil (Q-Q plot) de los residuos, en el que se
observa una tendencia lineal, que nos lleva a poder decir que tambin se est cumpliendo la hiptesis de
normalidad.
Analizando numricamente: Estadsticos -> Varianzas -> Test de Bartlett / Test de Levene
En ambos test numricos el p-valor obtenido (barlett: 2.049e-06 y levene: 0.0002851) es muy inferior al
alfa=0.05 por lo que no podemos aceptar la igualdad de varianzas y confirmamos que no hay
homocedasticidad.
Para el chequeo numrico de la hiptesis de normalidad debemos utilizar los residuos Podemos aplicar un
test de normalidad de Shapiro-Wilks y/o de Kolmogorov-Smirnov a los residuos:
Estadisticos -> resmenes -> test de normalidad de shapiro-wilks
3.0 3.5 4.0 4.5
-2
-1
01
23
Fitted values
Resi
dual
s
Residuals vs Fitted229126214
-3 -2 -1 0 1 2 3
-2
01
23
4
Theoretical Quantiles
Stan
dard
ized
re
sidu
als
Normal Q-Q229
126214
aov(Demanda_Cl ~ Estacion)
-
ks.test(AnovaModel.n$res,pnorm,mean(AnovaModel.n$res),sd(AnovaModel.n$res))
Se obtiene, para los test de Shapiro-Wilks un p-valor de 5.604e-07 y para el de kolmogorov 0.09149. Al
tratarse de un p-valor bajo, rechazamos la hiptesis de que los residuos siguen una distribucin normal.
Aunque los mtodos grficos y numricos se contradigan siempre debemos tener en cuenta antes los
numricos. Los mtodos grficos pueden estar afectados por unos datos atpicos que nos lleven a tomar
esa conclusin. Aun as para asegurarnos podemos realizar dos grficas mas, un histograma y un diagrama
de cajas y bigotes: Grficas -> histograma
diagrama de caja
Demanda_Cl
frequ
en
cy
2 3 4 5 6 7
010
2030
4050
-
Como podemos observar en el histograma una cola a la derecha que se corresponden con los datos
atpicos del diagrama de cajas y bigotes, para llegar a una conclusin clara deberamos eliminarlos y volver
a realizar estos test.
Aunque este sea un caso dudoso debido a los p-valores tan bajos podemos llegar a la conclusin de que
no hay igualdad de varianzas ni normalidad.
Para comprobar la hiptesis de independencia, que debera cumplirse si el diseo del experimento es
adecuado, realizamos un test de Durbin-Watson. Elegimos como hiptesis alternativa la bilateral:
Modelas -> Diagnsticos numricos -> Test de Durbin-Watson para autocorrelacin
Luego no rechazamos la hiptesis nula (que haya independencia)
-2
-1
01
23
-
e) Estadisticos -> medias -> anova de un factor (marcar la casilla de comparaciones 2 a 2)
Si lo ordenamos respecto a la media mas alta, que mirando la tabla anova del apartado b sabemos que la
mayor demanda es en verano (a), luego otoo y primavera (b) y por ltimo invierno (c), lo cual es un
resultado lgico.
-0.5 0.0 0.5 1.0 1.5 2.0
ERANO - PRIMAVERA
VERANO - OTOO
PRIMAVERA - OTOO
VERANO - INVIERNO
RIMAVERA - INVIERNO
OTOO - INVIERNO (
(
(
(
(
(
)
)
)
)
)
)
95% family-wise confidence level
Linear Function
-
EJERCICIO 3
Al cargar los datos, hay que poner en el carcter decimal comas.
Primero tenemos que generar una serie de datos en formato fecha.
Para ello usamos los comandos ts:
clas_temp2.ts
-
23.25 porque son 23 aos y un cuarto, es decir, 23 aos y un trimestre. Es aditivo. = + +
c) clas_temp2.dec
-
Estacionalidad: hay estacionalidad. Cada ao se repite el mismo patrn.
Tendencia-ciclo: creciente y lineal. Est suavizada y no tiene picos como en la grfica
de las observaciones.
Irregular: no sigue ningn patrn. La media terica de los datos es 0, y por ellos
sabemos que la serie temporal es un ruido blanco.
En el ao 1991 en concreto, hubo una crecida muy pronunciada de la demanda, que se
ve reflejada en las grficas observada y tendencia. (curva en medio)
d) El modelo determinista permite predecir las observaciones futuras en funcin de
las observaciones pasadas.
Creamos una nueva variable que represente al regresor tiempo.
Ponemos 93 porque son el nmero de datos que tenemos.
Tendencia.
tiempo
-
Se han eliminado 4 observaciones por estar ausentes, las correspondientes a los 4 datos
perdidos por calcular las medias mviles de orden 4.
La componente Tendencia-Ciclo podra modelarse segn la expresin: = . + . La parte determinista de la serie temporal es: (por ser tendencia lineal) = . + . +
E y f)
Se escribe 1:101, porque son 93 datos + 8 trimestres que queremos predecir.
estimado estimado[94:101]
[1] 134.4638 137.9325 137.4289 141.8281 137.4087 140.8774 140.3737 144.7730
plot(1:101,estimado, type="l", col = "red")
lines(tiempo,clas_temp2$V1,type="l")
-
g)
Al considerar que la serie tiene estacionalidad, necesitamos un mtodo de alisado
exponencial triple. El nico estudiado es el mtodo de Holt-Winters para modelos
aditivos, porque presenta estacionalidad, y el grfico de desviaciones tpicas frente a
medias no sigue ningn patrn.
h) Esta es la funcin que nos permite aplicar el mtodo de Holt-Winters sobre nuestra
serie temporal.
HoltWinters(x,alpha,beta,gaa,seasoal=additive) Para elegir los parmetros de alisado que minimicen la suma de cuadrados de los
errores, como pide en el enunciado, lo que hay que hacer es no especificar valores
para los parmetros de alisado.
clas_temp2.hw
-
(En la L debemos poner nuestro perodo, que es 4)
Interpretacin de los parmetros:
Alfa > Cuando alfa toma el valor 1, se utiliza exclusivamente la observacin ms reciente; cuando alfa toma el valor 0, las observaciones antiguas cuentan con tanto peso como las
recientes.
Gamma . ->Los valores prximos a 1 indican un mayor peso para los valores recientes. Delta . ->Los valores prximos a 1 corresponden a un mayor peso para las observaciones recientes.
No estn muy prximos a 1, por lo tanto los valores recientes no tienen ms peso que
los antiguos, pero tampoco tienen todos el mismo peso.
i) plot(clas_temp2.hw)
residuals(clas_temp2.hw)
plot(residuals(clas_temp2.hw))
Obteniendo:
-
Podemos observar que, salvo algn dato atpico, los residuos se sitan en una banda
ms o menos estrecha en torno al 0. El modelo alisado predice bastante bien la serie.
j) Comparamos las sumas de cuadrados:
Anlisis clsico:
Residuos2 sum(residuos^2)
[1] 975.1697
Holt Winters: sum(residuos^2)
> sum(residuos^2)
[1] 89.70172
Observamos que el sumatorio de los residuos al cuadrado es menor en el mtodo de
Holt-Winters, por lo tanto es ms adecuado para realizar predicciones.
k)
La prediccin para los 2 aos siguientes es:
predict(clas_temp2.hw,n.ahead=8)
En ahead se pone el tiempo que quieres predecir en forma de perodo, es decir, 2 aos son
8 trimestres.
Para la grfica:
-
En el intervalo ponemos los aos de los datos que tenemos, y los aos que queremos
predecir. Los datos van hasta el primer trimestre de 2003.
plot(clas_temp2.ts,xlim=c(1980,2005))
lines(predict(clas_temp2.hw,n.ahead=8),col=red)