ANÁLISIS DE VARIANZA

24
ANÁLISIS DE VARIANZA Dra. Nidelvia del Jesús Bolívar Fernández

Transcript of ANÁLISIS DE VARIANZA

Page 1: ANÁLISIS DE VARIANZA

ANÁLISIS DE VARIANZA

Dra. Nidelvia del Jesús Bolívar Fernández

Page 2: ANÁLISIS DE VARIANZA

EJEMPLOS Y EJERCICIOS

Ejemplo 1

Page 3: ANÁLISIS DE VARIANZA

Se han aplicado cuatro métodos distintos para el aprendizaje del concepto de número primo a cuatro grupos de alumnos y alumnas elegidos aleatoriamente. Posteriormente se les ha pasado la misma prueba para valorar la adquisición del concepto, con los siguientes resultados:Método A Método B Método C Método D

8 16 16 1112 12 15 911 13 13 815 15 17 87 19 13 99 16 9 12

10 13 19 1011 10 16 917 6 14 512 11 13 10

Se supone población normal y que las muestras son independientes entre sí. ¿Hay alguna evidencia, al 95% de Nivel de Confianza, de que exista un efecto en la aplicación de los distintos métodos?

Page 4: ANÁLISIS DE VARIANZA

Aunque se haya expresado con otras palabras, lo que interesa en esta situación es averiguar si las medias de las cuatro poblaciones representadas por la aplicación de los métodos se pueden considerar iguales o no, es decir:

La hipótesis nula es

H0: m1 = m2 = m3 = m4

Para averiguar esto se acude a analizar la varianza.

La razón es que si las medias son iguales, la varianza total disminuye, pero si las medias son muy diferentes, aumenta.

Es una idea intuitiva que podemos expresar con estas imágenes:

Page 5: ANÁLISIS DE VARIANZA

En esta situación, los cuatro grupos están muy cercanos. Su varianza total no será grande. Cada grupo tiene su propia varianza interna.

En esta otra, al separarse los grupos, la varianza total aumentará, porque hay más dispersión, pero la varianza interna de cada grupo es la misma. Lo que ha aumentado es la variabilidad Intergrupos.

Page 6: ANÁLISIS DE VARIANZA

Cuando las medias de varios grupos relacionados se separan entre sí, aumenta la

varianza total.

Observando las imágenes se puede entender que si la varianza total aumenta, esto puede deberse a dos causas, o a que haya aumentado la varianza interna de cada grupo, o, lo que es más probable, que se hayan separado las medias y eso ha aumentado la varianza total.

El Análisis de la varianza (ANOVA) nos permite aceptar o rechazar la hipótesis nula

H0: 1 = 2 = 3 = 4

descomponiendo la varianza total en dos sumandos: Intragrupos e Intergrupos. Según sean estas cantidades se tomará una decisión u otra. 

Page 7: ANÁLISIS DE VARIANZA

En la práctica se forman tres sumas de cuadrados distintas y después se restan adecuadamente.

S1: Consiste en sumar todos los cuadrados de los datos. Su valor es, en este ejemplo 6207.

S2: Se suman los cuadrados de las sumas de los distintos niveles dividido cada uno entre el número de datos. En el ejemplo su valor es de 5901.1

S3: Se obtiene dividiendo el cuadrado de la suma total de todos los niveles dividido entre el número total de datos. En este caso vale 5736.03

Una vez obtenidas estas sumas, se van restando y resultarán las sumas de cuadrados Intergrupos, Intragrupos y Total:

Page 8: ANÁLISIS DE VARIANZA

S1: Consiste en sumar todos los cuadrados de los datos

Método A Método B Método C Método D Sumatoria

s64 256 256 121 697144 144 225 81 594121 169 169 64 523225 225 289 64 80349 361 169 81 66081 256 81 144 562100 169 361 100 730121 100 256 81 558289 36 196 25 546144 121 169 100 534

1338 1837 2171 861 6207 6207

Page 9: ANÁLISIS DE VARIANZA

S2: Se suman los cuadrados de las sumas de los distintos niveles dividido cada uno entre el número de datos.

Método A Método B Método C Método D

8 16 16 11

12 12 15 9

11 13 13 8

15 15 17 8

7 19 13 9

9 16 9 12

10 13 19 10

11 10 16 9

17 6 14 5

12 11 13 10

112 131 145 91 479 Sumatorias

12544 17161 21025 828159011

Cuadrado de Sumatorias

1254.4 1716.1 2102.5 828.15901.1

Cuadrado de Sumatorias entre

10

Page 10: ANÁLISIS DE VARIANZA

S3: Se obtiene dividiendo el cuadrado de la suma total de todos los niveles dividido entre el número total de datos. En este caso vale 5736.03

Método A Método B Método C Método D

8 16 16 11

12 12 15 9

11 13 13 8

15 15 17 8

7 19 13 9

9 16 9 12

10 13 19 10

11 10 16 9

17 6 14 5

12 11 13 10

112 131 145 91 479

Cuadrado de la sumatoria 229441

Cuadrado de la sumatoria entre el número total de datos (N) 5736.025

Page 11: ANÁLISIS DE VARIANZA

Suma de cuadrados INTRA: S1-S2 = 6207 - 5901,1 = 305,9Es la suma de cuadrados que corresponde al interior de los niveles, sin tener en cuenta su diferencia de medias. Sus grados de libertad se obtienen restando el número total (40) menos el número de niveles (4), es decir, 36. Su cociente es el mejor estimador de la varianza de la población, en este caso 8,5

Suma de cuadrados TOTAL: S1-S3 = 6207 – 5736.03 = 470.98Es la suma total de cuadrados. Sus grados de libertad son N-1, que en este caso son 39, con lo que la varianza total será 470.98/39 = 12.08

Suma de cuadrados INTER: S2-S3 = 5901.1 – 5736.03 = 165.08Esta suma refleja los desniveles en  las medias. Si es alta, puede indicar que las diferencias entre medias son significativas. Sus grados de libertad equivalen al número de niveles menos 1, en el ejemplo sería 3. La varianza INTER será entonces igual a 55.03 

Page 12: ANÁLISIS DE VARIANZA

ANOVA

Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado Medio

F (Fisher) Calculada

Suma de cuadrados Inter

S2-S3 = 5901.1 – 5736.03 = 165.08

4 -1 = 3 165.08 ÷ 3 = 55.03

55.03 ÷ 8.5 = 6.48

Suma de cuadrados INTRA:

S1-S2 = 6207 - 5901,1 = 305.9

40-4 =36 305.9 ÷ 36 = 8.5

Suma de cuadrados TOTAL

S1-S3 = 6207 – 5736.03 = 470.98

40 -1 = 39

470.98 ÷ 39 = 12.08

F tablas 4. 313

Page 13: ANÁLISIS DE VARIANZA

Contraste

El punto importante del ANOVA es el contraste entre unas varianzas y otras, que se realiza mediante la prueba F.

Al dividir nos resulta un valor de F=6.48, muy grande, con un p-valor de 0,001 en tablas, que la convierte en significativa, luego las medias de los distintos niveles no se pueden considerar iguales.

Como resultado del ANOVA podremos afirmar que en nuestro ejemplo el método de enseñanza ha influido en los resultados.

Page 14: ANÁLISIS DE VARIANZA

  Nivel alto Nivel medio Nivel bajo

Ciudad A

 6, 5, 6, 7, 4, 8, 9 4, 4, 6, 8 8,8,3, 10

6, 7, 8, 5, 4, 5, 10, 6, 7,7, 4, 7, 6, 8

3, 2, 3, 3, 4, 5, 4, 1, 0, 4, 6, 2, 5, 4, 4

Ciudad B6, 6, 5, 6, 4, 5, 2, 4, 2, 8, 6, 5, 4, 4, 3

4, 4, 5, 1, 4, 3, 3, 3, 6, 4, 2, 2, 6, 3, 1

5  4, 6, 3, 2, 3, 2, 3, 1,  6 4, 2, 2, 3, 1

Ejemplo Se ha recogido la valoración de un líder político en dos ciudades distintas A y B, dividida cada una en tres barrios según su nivel adquisitivo (Alto, Medio y Bajo), obteniéndose los siguientes resultados:

Suponiendo que se cumplen los supuestos del ANOVA para dos factores, ¿podemos afirmar si la población presenta diferencias significativas en la apreciación del político según la ciudad o según su nivel adquisitivo?

Page 15: ANÁLISIS DE VARIANZA

S2: Se suman los cuadrados de las sumas de los distintos niveles dividido cada uno entre el número de datos.

Nivel alto Nivel medio Nivel bajo

Ciudad A

 6, 5, 6, 7, 4, 8, 9 4, 4, 6, 8 8,8,3, 10

6, 7, 8, 5, 4, 5, 10, 6, 7,7, 4, 7, 6, 8

3, 2, 3, 3, 4, 5, 4, 1, 0, 4, 6, 2, 5, 4, 4

Ciudad B6, 6, 5, 6, 4, 5, 2, 4, 2, 8, 6, 5, 4, 4, 3

4, 4, 5, 1, 4, 3, 3, 3, 6, 4, 2, 2, 6, 3, 1

5  4, 6, 3, 2, 3, 2, 3, 1,  6 4, 2, 2, 3, 1

Page 16: ANÁLISIS DE VARIANZA

Fuente variación SC G.L. CM F

Factor A 83.83 2 41.92 14.55

Factor B 59.13 1 59.13 20.53

Interacción AB 30.12 2 15.06 5.23

Error 239.03 83 2.88  

TOTAL 412.11 88 

 

Este sería un ejemplo de Análisis de Varianza con dos factores (ciudad y nivel). Toda la teoría y consideraciones hechas para el caso de un factor siguen sirviendo en éste, pero con más sumas de cuadrados y más contrastes F.

Page 17: ANÁLISIS DE VARIANZA

P-valor de FA 0,182   

       

P-valor de FB 0,045 Significativa al 5% 

       

P-valor de FAB

0,007 Significativa al 5% 

Page 18: ANÁLISIS DE VARIANZA

Observa que ahora se pueden considerar cinco sumas de cuadrados:

Factor A: SCA=83.83. Representa la variabilidad propia del factor Nivel adquisitivo. Sus grados de libertad son 2, que equivalen al número de niveles menos 1, y su cuadrado medio 41.92

Factor B:SCB=59.13. Es la suma correspondiente al factor Ciudad. Como sólo hay dos ciudades, sus grados de libertad equivalen a 1, y su cuadrado medio 59.13, muy alto respecto al estimador 2.88.

Interacción: SCAB=30.12 Este factor no se considera si existen motivos para creer que no existe influencia mutua entre el factor Ciudad y el factor Nivel adquisitivo. Aquí lo consideraremos porque no tenemos suficiente información. Sus grados de libertad son 2, producto de los G.L. anteriores.

Error:SCE=239.03. Es la variabilidad de la encuesta si se prescinde de la influencia de los factores. Su cuadrado medio es el mejor estimador de la varianza de la población: 2.88.

Total: SCT=412.11. Nos sirve para ver si cuadran bien todos los cálculos de sumas de cuadrados y grados de libertad, o para calcular SCE mediante la operación de restar.

Page 19: ANÁLISIS DE VARIANZA

Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada

factor,

Y, aplicando el contraste correspondiente obtenemos

que son significativas al 5% tanto la influencia de la Ciudad como de la

Interacción,

no siendo significativa la influencia del Nivel adquisitivo.

 

Page 20: ANÁLISIS DE VARIANZA

Grupo A

Grupo B

Grupo C

Grupo D

7 11 11 97 11 11 98 13 11 107 7 12 99 9 11 108 9 12 811 9 10 1012 10 10 109 10 11 1210 9 11 910 9 9 9

Ejercicio 1

Se está estudiando el tiempo de cocción de un alimento antes de lanzarlo al mercado. Se han formado cuatro grupos y se les ha pedido que midan el tiempo transcurrido hasta que, según su juicio, el alimento quede a punto.

Como esta sensación es subjetiva, se usa un ANOVA para estimar la varianza que presenta el experimento.

Todos los grupos usan fuentes de calor y utensilios similares. Si la tabla siguiente recoge los resultados redondeados en minutos, a)¿qué estimación podríamos hacer de la varianza de la población de estos alimentos? b)¿Se observan diferencias entre los grupos?

Page 21: ANÁLISIS DE VARIANZA

Resultados probables:

Obtendrás que las medias de los grupos son 8.91 9.73 10.82 y 9.55, algo dispersas, y como la F tiene un p-valor de 0.016, se puede catalogar de significativa su diferencia al 5%,

luego podemos afirmar que existen diferencias entre los grupos.

Quizás haya influido algún otro factor, como la presión atmosférica o los gustos personales.

La estimación de la varianza de la población es de 1.79, y su desviación típica de 1.34, algo alta para un experimento que podía haber sido más preciso.

Page 22: ANÁLISIS DE VARIANZA

  Nivel 1 Nivel 2

Nivel A1 2 1 2 3 4 3 4 5

 2 4 3 4 5 4 3 2 3 1

Nivel B3 5 6 5 4 5 3 4 6

4 7 6 7 8 7 6 6 5 4

Nivel C4 6 5 7 8 9 6 8 6

6 8 9 9 8 7 6 7 8 9

Ejercicio 2¿Se puede afirmar que la siguiente tabla de doble entrada contiene una interacción significativa entre sus dos factores?

Page 23: ANÁLISIS DE VARIANZA

Fuente variación SC G.L. CM F

Factor A 13.38 1 13.38 7.84

Factor B 169.3 2 84.65 49.62

Interacción AB 3.2 2 1.6 0.94

Error 87 51 1.71  

TOTAL 272.88 56 

 

Vacía estos datos en el modelo de ANOVA para dos factores y obtendrás estos resultados:

La interacción presenta una F cuyo p-valor es 0.398, claramente no significativo.

Page 24: ANÁLISIS DE VARIANZA

En el inicio del trabajo 12 12 13 14 11 15 9 9 8 10 11 11 10 9 8 10 10

A las cuatro horas 9 9 9 10 9 7 6 6 9 12 11 10 8 6 9 6 7 A las siete horas 9 6 7 6 6 7 7 8 8 7 9 9 6 5 6 6 7 9 8

Fuente variación SC G.L. CM F

INTER 115 2 57.5 19.67

INTRA 146.17 50 2.92  

TOTAL 261.17 52 5.02  

Ejercicio 3Para estudiar el efecto del cansancio en una tarea rutinaria, se han contado el número de realizaciones de varios operarios a lo largo del día, con estos resultados:¿Se puede afirmar que el tiempo de trabajo transcurrido influye en el rendimiento?Usa el modelo de un factor. Analiza los resultados:La F=19.67 es claramente significativa. Sí existe una influencia del cansancio.