Analisis de La Varianza-ANOVA-Practica8

8

Click here to load reader

description

analisis de la varianza-ANOVA-practica8

Transcript of Analisis de La Varianza-ANOVA-Practica8

Page 1: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 1

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Práctica 8

ANÁLISIS DE LA VARIANZA

Objetivos:

En esta práctica utilizaremos el paquete SPSS para ilustrar el procedimiento ANOVApara comparar las medias de dos o más muestras.

Índice:

1. ANOVA de un factor2. Contraste no paramétrico de Kruskal-Wallis3. Ejercicios complementarios

Page 2: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 2

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

1. ANOVA de un factor.

En este apartado consideraremos la comparación de las medias de dos o máspoblaciones en base a dos o más muestras independientes. Por ejemplo, supongamosque queremos establecer si existen diferencias entre los niveles medios del ph en las tresprovincias de la Comunidad Valenciana (los datos se encuentran en el archivoAMBIENTE).

Para poder efectuar el procedimiento ANOVA de un factor, SPSS necesita una columnaen el editor de datos que contenga los valores de la variable cuyas medias en las kpoblaciones se desea comparar, y otra que indique la población o grupo a que pertenececada caso. Al seleccionar Analizar/Comparar medias/ANOVA de un factor aparecela ventana siguiente:

en la que colocaremos la variable ph en dependientes y la variable provin comofactor. Los valores de la variable de factor deben ser enteros y la variable dependientedebe ser cuantitativa.

En Opciones podemos pedirle al SPSS ciertos estadísticos descriptivos para cada grupo(número de casos, media, desviación típica, error típico de la media, mínimo, máximo,intervalo de confianza al 95% para la media) así como un gráfico de las medias de cadagrupo. (Recuerda que con Gráficos/Barras de error puedes obtener un gráfico de losintervalos de confianza para la media de cada grupo).

El procedimiento ANOVA de un factor requiere que cada grupo sea una muestraaleatoria independiente procedente de una población normal. El análisis de varianza esrobusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos(Recuerda que puedes utilizar Gráficos/Diagramas de caja para comprobarvisualmente esta propiedad). Así mismo, los grupos deben proceder de poblaciones convarianzas iguales. Para contrastar este supuesto, podemos pedir con el botón Opcionesla prueba de Levene de homogeneidad de varianzas.

En el caso que estamos considerando, la prueba de Levene tiene un p-valor de 0.813,por lo que podemos considerar las varianzas iguales

Page 3: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 3

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Prueba de homogeneidad de varianzas

PH

,207 2 297 ,813

Estadísticode Levene gl1 gl2 Sig.

El procedimiento proporciona la tabla ANOVA que aparece a continuación:

ANOVA

PH

,319 2 ,160 ,544 ,581

87,051 297 ,293

87,370 299

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrática F Sig.

Como el p-valor obtenido es 0.581, no rechazamos la igualdad de medias de la variableph en las tres provincias.

Cuando se concluye que existen diferencias entre las medias, las pruebas de rango posthoc permiten determinar qué medias difieren. La prueba de rango post hoc Student-Newman-Keuls (pulsa el botón Post Hoc, selecciona S-N-K y especifica el nivel designificatividad) identifica subconjuntos homogéneos de medias que no se diferencianentre si. En la tabla de resultados de la prueba S-N-K aparecen en cada columna losgrupos homogéneos. En el caso que estamos estudiando, al no haber rechazado lahipótesis nula de igualdad de medias, las tres medias se encuentran en el mismosubconjunto, por lo que hay una sola columna en el apartado de Subconjuntos.

PH

Student-Newman-Keulsa

100 5,894974

100 5,905580

100 5,968839

,599

ProvinciaVALENCIA

ALICANTE

CASTELLON

Sig.

N 1

Subconjunto paraalfa = .05

Se muestran las medias para los gruposen los subconjuntos homogéneos.

Usa el tamaño muestral de lamedia armónica = 100,000.

a.

Ejercicio 1:

Page 4: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 4

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Una cierta planta ha sido cultivada con cinco fertilizantes distintos. Se desea estudiar siel tipo de fertilizante influye en la longitud de la planta, para lo cual se han medido laslongitudes de cinco series de 10 plantas, obteniéndose para cada serie los resultados queaparecen en el fichero fertilizante. ¿Influye el fertilizante en la longitud de las plantas ?,o dicho de otra manera, ¿hay evidencia estadística suficiente para afirmar que lasmedias son diferentes ?. De ser así, ¿existen tipos de fertilizante que no se diferencienentre si?

2. Contraste no paramétrico de Kruskal-Wallis

El contraste no paramétrico de Kruskal-Wallis se utiliza para determinar si variasmuestras independientes proceden de la misma población. Vamos a estudiar sufuncionamiento sobre los resultados de un experimento para determinar el efecto de lahemodiálisis sobre el tamaño del hígado en el que tenemos tres grupos de individuos:control, pacientes no dializados y pacientes dializados, y la variable de interés es el áreadel hígado.

Al seleccionar Analizar / Pruebas no paramétricas / K muestras independientes,introducir la variable area en Contrastar variables y la variable grupo en Variablede agrupación y seleccionar H de Kruskal-Wallis en la pantalla siguiente:

Cuando introducimos grupo en el campo Variable de agrupación, aparecen dosinterrogantes (??). Esto permite definir el rango de las categorías de la variable deagrupación que van a ser consideradas en el contraste. Para definir el rango, hay quepulsar el botón Definir rangos e introducir valores enteros para el máximo y el mínimoque se correspondan con las categorías mayor y menor de la variable de agrupación quese quieran considerar. Se excluyen los casos con valores fuera de los límites. Porejemplo, si se indica un valor mínimo de 1 y un valor máximo de 3, únicamente seutilizarán los grupos (muestras) correspondientes a los valores enteros entre 1 y 3. Sedeben indicar ambos valores y el valor mínimo ha ser menor que el máximo.

El resultado del test aparece en los dos cuadros siguientes. En el primero aparecen losrangos promedios de las muestras. En el segundo aparece el p-valor, en este caso 0.001.

Page 5: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 5

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Rangos

7 7,71

7 7,86

10 19,10

24

GRUPOControl

Paciente no dializado

Paciente dializado

Total

AREAN

Rangopromedio

Estadísticos de contrastea,b

14,936

2

,001

Chi-cuadrado

gl

Sig. asintót.

AREA

Prueba de Kruskal-Wallisa.

Variable de agrupación: GRUPOb.

Con el botón Opciones se puede elegir uno o los dos conjuntos de estadísticos deresumen siguientes: Descriptivos (Muestra la media, la desviación típica, el mínimo, elmáximo y el número de casos no perdidos) y Cuartiles (Muestra los valorescorrespondientes a los percentiles 25, 50 y 75).

3. Ejercicios complementarios

1. ( Fichero soja )

Una planta fisiológica investigó el efecto del estrés mecánico en las plantas de soja.Se repartieron aleatoriamente semillas plantadas en tiestos individuales, en cuatrogrupos de tratamiento con 13 semillas cada uno.

Las semillas de dos grupos fueron “estresadas” mediante 20 minutos de sacudidasdos veces al día, mientras que dos grupos de control fueron no estresados. Además, lasplantas crecieron tanto con luz baja como con luz moderada. De esta manera, lostratamientos fueron cuatro:

Tratamiento 1: luz baja, controlTratamiento 2: luz baja, stressTratamiento 3: luz moderada, controlTratamiento 4: luz moderada, stress

Después de 16 días de crecimiento, se cosecharon las plantas y se midió el área totalde las hojas de cada planta. Los resultados obtenidos para cada tratamiento fueron:

Trat. 1 Trat. 2 Trat. 3 Trat.4

264 235 314 283200 188 320 312225 195 320 291268 205 340 259215 212 299 216241 214 268 201

Page 6: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 6

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

232 182 345 267256 215 271 326229 272 285 241288 163 309 291252 230 337 269288 255 282 282230 202 273 257

Analizar los datos obtenidos mediante la comparación de las medias de los cuatrotratamientos. ¿Hay evidencia estadística suficiente para afirmar que las medias sondiferentes ?. En caso afirmativo, indica si hay tratamientos que no pueden serdiferenciados entre sí.

Calcular un intervalo de confianza al 95% para las medias de los cuatro grupos, ¿sonmuy diferentes ? Obtener las gráficas de dichos intervalos.

2. ( Fichero iris )

Las longitudes de los sépalos de tres especies de flores del género Iris son (datos deR.A. Fisher):

Iris setosa Iris Versicolor Iris Virginica5.1 7.0 6.34.9 6.4 5.84.7 6.9 7.14.6 5.5 6.35.0 6.5 6.55.4 5.7 7.64.6 6.3 4.95.0 4.9 7.34.4 6.6 6.74.9 5.2 7.25.4 5.0 6.54.8 5.9 6.44.8 6.0 6.84.3 6.1 5.75.8 5.8 5.8

Estudiar si existen diferencias entre las tres especies respecto a la longitud de lossépalos, es decir ¿hay evidencia estadística suficiente para afirmar que las medias sondiferentes ?. ¿Existe alguna especie que se diferencie significativamente de las otras?.

Calcular un intervalo de confianza al 95% para las medias de los tres grupos, ¿sonmuy diferentes ? Obtener las gráficas de dichos intervalos.

Page 7: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 7

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

3. ( Fichero plomo )

Las glándulas nasales supraorbitales tienen una importante función en las avesmarinas. Ayudan a excretar cloruro de sodio cuando las condiciones del medio fuerzanal ave a consumir más sal de lo normal. Se realizó un estudio para determinar el papelde estas glándulas en la excreción de plomo, un contaminante común del medio.

Se estudian tres grupos de ánades: ánades con alimentación normal, grupo I; ánadesalimentados a la fuerza con una dosis de plomo comercial de perdigones, grupo II; yánades alimentados con perdigones de plomo y CaNa2EDTA, grupo III. Se obtuvieronlos siguientes datos sobre la concentración de plomo (en microgramos de plomo porgramo de tejido) en las glándulas nasales:

I II III 1.4 11.1 5.01.0 10.3 8.20.9 10.2 4.90.7 9.7 3.20.5 7.7 4.41.2 10.1 3.13.4 11.6 5.11.3 13.3 2.9

A la vista de los datos, ¿puede afirmarse que hay diferencias significativas en laconcentración media de plomo entre los tres grupos?. ¿Existe alguna pareja de gruposque sea indistinguible?.

4.

La deficiencia de vitamina A es un conocido problema de salud pública. Se hademostrado que añadiendo vegetales de hoja verde a la dieta, se obtiene un aumento delas concentraciones en suero sanguíneo de vitamina A Se realiza un estudio paradeterminar si se obtiene algún beneficio por añadir grasa a la dieta. Un grupo de 30niños, con similares concentraciones de vitamina A en suero, se divide aleatoriamenteen tres subgrupos. Cada subgrupo recibe diariamente 40 gr. de espinacas, pero elcontenido en grasa varía. Al final del experimento se obtienen los siguientes datos sobrela concentración en suero de vitamina A:

I II III (sin grasa) (+5 gr. de grasa) (+10 gr. de grasa)_____________________________________________18.1 29.1 26.616.5 15.8 16.121.0 20.4 18.818.7 23.5 25.07.4 18.5 21.812.4 21.3 15.416.1 23.1 19.917.9 23.8 15.5

20.1 21.111.9 25.5

Page 8: Analisis de La Varianza-ANOVA-Practica8

Práctica 8. Análisis de la varianza 8

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Utilizar un test no paramétrico para contrastar la hipótesis de que el contenido de grasaen la dieta no tiene efecto sobre la concentración de vitamina A en suero al nivel α=0.1.

Ejercicio 5.

La ureasa es una enzima conocida por producir amoniaco en el tractogastrointestinal. Se sabe que el amoniaco es nocivo para los pacientes con enfermedadesde hígado. Se realiza un estudio para comparar la concentración de ureasa en los jugosgástricos de cinco poblaciones: I, controles normales; II, pacientes con obstrucciónextrahepática de la vena porta; III, pacientes con tumores amíbicos de hígado; IV,pacientes con hepatitis vírica; y V, pacientes con hipertensión idiopática de la venaporta. Se obtienen los siguientes datos (en mg./mil.):

I II III IV V 261.1 221.9 201.4 600.9 160.6186.2 188.7 146.1 301.2 135.0239.1 167.6 96.8 607.9 455.1243.3 224.9 173.9 283.3 402.3296.8 178.8 280.8 193.3 457.9270.5 147.9 100.3 159.4 559.6

_______________________________________________________

Basándose en los datos y en el test de Kruskal-Wallis, ¿se puede pretender al nivelα=0.05 que estas poblaciones difieren con respecto a la concentración gástrica deureasa?

Ejercicio 6.

Se realiza un estudio del contenido de azufre en cinco de los principales yacimientosde carbón de Texas. Se toman muestras aleatoriamente de cada uno de los yacimientos yse analizan. Los datos del porcentaje de azufre aparecen en la tabla. Supuestasnormalidades y varianzas iguales, contrastar la igualdad de medias. ¿Qué conclusionespueden extraerse de estos datos?.

1 2 3 4 5

1.51 1.69 1.56 1.30 0.73

1.92 0.64 1.22 0.75 0.80

1.08 0.90 1.32 1.26 0.90

2.04 1.41 1.39 0.69 1.24

2.14 1.01 1.33 0.62 0.82

1.76 0.84 1.54 0.90 0.72

1.17 1.28 1.04 1.20 0.57

1.59 2.25 0.32 1.18

1.49 0.54

1.30