7. Análisis de Varianza (ANOVA)

40
María del Consuelo Valle Espinosa Análisis de varianza ANOVA Instituto Tecnológico Superior de Zacapoaxtla Departamento de Desarrollo Académico

Transcript of 7. Análisis de Varianza (ANOVA)

Page 1: 7. Análisis de Varianza (ANOVA)

María del Consuelo Valle Espinosa

Análisis de varianzaANOVA

Instituto Tecnológico Superior de Zacapoaxtla

Departamento de Desarrollo Académico

Page 2: 7. Análisis de Varianza (ANOVA)

Usaremos el análisis de la varianza (ANOVA) para contrastar la hipótesis nula de que las medias de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste a realizar sería:

HO : μ 1 = μ 2 = ... = μ 5 vs. HA : no todas las medias poblacionales son iguales

En la sección anterior se estudió cómo se utiliza la distribución t-Student (o la Normal) para contrastar la hipótesis nula de que dos medias poblacionales coinciden. Usando esta técnica, podríamos realizar los siguientes 10 contrastes la hipótesis nula anterior:

Page 3: 7. Análisis de Varianza (ANOVA)

En este caso, rechazar cualquiera de las 10 hipótesis nulas implicaría rechazar la hipótesis nula inicial de que las cinco medias coinciden. Por el contrario, si no rechazásemos ninguna de las 10 hipótesis, tampoco rechazaríamos la hipótesis inicial. El problema de este método es doble:

Por un lado, se requiere de un mayor esfuerzo computacional,

Al hacer un mayor número de contrastes aumenta el error de tipo I (la probabilidad de rechazar la hipótesis nula

siendo ésta cierta).

El uso de las técnicas ANOVA nos permiten eludir ambos problemas.

Page 4: 7. Análisis de Varianza (ANOVA)

Análisis simple de la varianza (One-Way ANOVA)

Page 5: 7. Análisis de Varianza (ANOVA)

El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre alguna variable dependiente Y tienen distintos niveles de algún factor X (variable independiente y discreta). El factor puede ser la temperatura, la empresa que ha producido elbien, el día de la semana, etc.

Esencialmente, el diseño para el análisis simple de la varianza consistirá en obtener muestras aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del factor X1, X2,..., Xn . Entonces podremos determinar si los diferentes niveles del factor tienen un efecto significativo sobre el valor de la variable dependiente.

Page 6: 7. Análisis de Varianza (ANOVA)

El funcionamiento de la técnica ANOVA simple es, a grandes rasgos, es el siguiente:

A fin de comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn), compararemos una medida de la variación entre diferentes niveles (MS-factor) con una medida de la variación dentro de cada nivel (MS-error).

Si el MS-factor es significativamente mayor que el MS-error, concluiremos que las medias asociadas a diferentes niveles del factor son distintas. Esto significa que el factor influye significativamentesobre la variable dependiente Y. Si, por el contrario, el MS-factor no es significativamente mayor que el MS-error, no rechazaremos la hipótesis nula de que todas las medias, asociadas a diferentes niveles del factor, coinciden.

Page 7: 7. Análisis de Varianza (ANOVA)

El modelo asociado al i-ésimo nivel del factor X será:Y = μi + ε

donde:

• Los errores ε están normalmente distribuidos con media 0• Los errores ε son independientes• Los errores ε tienen varianza constante σ2

Para verificar estos supuestos suele ser útil realizar un gráfico que muestre la distribución de las observaciones por niveles: si en el gráfico se aprecian diferencias entre niveles por lo que a la variación de las observaciones se refiere, es muy probable que tengamos un problema con el supuesto de varianza constante; si aparecen valores extremos, puede que no se cumpla el supuesto de normalidad; por otra parte, si el tiempo fuese un factor importante a la hora de registrar observaciones, podría ocurrir que observaciones consecutivas estuviesen correlacionadas, con lo que no se cumpliría el supuesto de independencia.

Page 8: 7. Análisis de Varianza (ANOVA)

Ejemplo:Se realiza un estudio para comparar la eficiencia

de tres programas terapéuticos para el tratamiento del acné. Se emplean tres métodos y se comparan respecto a su eficacia.

N = 35 pacientes k = 3 tratamientos a comparar. Se obtienen tres muestras independientes y

aleatorias de tamaños:n 1 = 10,

n 2 = 12 y n 3 = 13

Page 9: 7. Análisis de Varianza (ANOVA)
Page 10: 7. Análisis de Varianza (ANOVA)

Factor :El factor que interesa es el tipo de tratamiento. Ningún otro factor, tal como edad, tipo de piel, hábitos dietéticos o sexo del paciente, se consideran.

Niveles :

Se está estudiando tres tratamientos; de este modo el experimento está diseñado para tres niveles.

Aleatoriedad :La distribución de personas en cada subgrupo se ha

realizado en forma aleatoria e independiente, extraídas de las poblaciones con respuestas medias:

1 2 3

Page 11: 7. Análisis de Varianza (ANOVA)

Propósito:

Se quiere comparar la hipótesis nula de que los tratamientos tienen el mismo efecto medio:

H 0 : 1 = 2 = 3 (no hay diferencia en los efectos medios de los

tratamientos)

H a : i ≠ j (al menos una media difiere de las otras)

Page 12: 7. Análisis de Varianza (ANOVA)

Datos del ejemplo:Las respuestas

observadas son el porcentaje de mejorías registradas por paciente en el número de lesiones por acné al final de 16 semanas del tratamiento.

Nivel del factor(tratamiento recibido)

Nivel I Nivel II Nivel III48.6 68 67.549.4 67 62.550.1 70.1 64.249.8 64.5 62.550.6 68 63.950.8 68.3 64.847.1 71.9 62.352.5 71.5 61.449 69.9 67.4

46.7 68.9 65.467.8 63.268.9 61.2

60.5

Page 13: 7. Análisis de Varianza (ANOVA)

Estadísticosbásicos: Media muestral de

respuestas al tratamiento I = 49.46

Media muestral de respuestas al tratamiento II = 68.73

Media muestral de respuestas al tratamiento III= 63.60

Media muestral de todas las respuestas = 61.23

Nivel del factor(tratamiento recibido)

Nivel I Nivel II Nivel III48.6 68 67.549.4 67 62.550.1 70.1 64.249.8 64.5 62.550.6 68 63.950.8 68.3 64.847.1 71.9 62.352.5 71.5 61.449 69.9 67.4

46.7 68.9 65.467.8 63.268.9 61.2

60.5

494.6 824.8 826.8 2146.249.46 68.73 63.6 61.32

Page 14: 7. Análisis de Varianza (ANOVA)

Si los tratamientos (niveles del factor) no tienen efecto, entonces sus medias serían la misma que la media global. Si algún tratamiento tiene efecto, la diferencia entre los resultados de este tratamiento y la media global indicará tal efecto.

Dentro de cada uno de los tres subgrupos hay cierta variabilidad natural de la respuesta de cada persona en torno a la respuesta de su subgrupo. Esta diferencia se conoce como error aleatorio.

Page 15: 7. Análisis de Varianza (ANOVA)

Modelo conceptual:

La desviación de la respuesta que experimenta cada individuo involucrado en el experimento con respecto a la respuesta global (de los tres

tratamientos) se puede dividir en dos componentes:

La desviación de la respuesta del su subgrupo con

respecto a la respuesta global.

La desviación de

su propia respuesta con respecto a la

respuesta de su subgrupo

Page 16: 7. Análisis de Varianza (ANOVA)

Modelo matemático (lineal):

Sustituyendo las medias estimadas en el modelo conceptual anteriormente expuesto

obtenemos:

Page 17: 7. Análisis de Varianza (ANOVA)

Identidad de la suma de cuadrados:

Si se eleva al cuadrado cada identidad del modelo lineal y se suman las respuestas de TODOS los individuos involucrados en el experimento se obtiene

Page 18: 7. Análisis de Varianza (ANOVA)

Con otra notación:

Page 19: 7. Análisis de Varianza (ANOVA)

Nuevos estadísticos:

Cuadrado medio de los tratamientos.

Cuadrado medio del error

Page 20: 7. Análisis de Varianza (ANOVA)

Hipótesis Nula:La respuesta de cada uno de los individuos (no importando que tratamiento se le haya aplicado) es casi igual a la respuesta global. Tomado en cuenta los nuevos estadísticos en esta hipótesis tenemos:

MSStotal 0

 Esto es:

MSStr MSSE

Page 21: 7. Análisis de Varianza (ANOVA)

Contraste:Para que Ho sea cierta, esperamos que MSTr y MSE estén próximos; si Ho no es cierta, esperamos que MSTr sea mayor que MSE

 

Por lo que para poder contrastar Ho se utiliza el cociente de MSTR / MSE que tiene una distribución de probabilidad F con k-1 y N -k grados de libertad

Page 22: 7. Análisis de Varianza (ANOVA)

En el ejemplo tenemos:Nivel I Nivel II Nivel III

x1j (x1j-Xm1)^2 x2j (x2j-Xm2)^2 x3j (x3j-Xm3)^2

48.6 0.7396 68 0.5329 67.5 15.2149.4 0.0036 67 2.9929 62.5 1.2150.1 0.4096 70.1 1.8769 64.2 0.3649.8 0.1156 64.5 17.8929 62.5 1.2150.6 1.2996 68 0.5329 63.9 0.0950.8 1.7956 68.3 0.1849 64.8 1.4447.1 5.5696 71.9 10.0489 62.3 1.6952.5 9.2416 71.5 7.6729 61.4 4.8449 0.2116 69.9 1.3689 67.4 14.44

46.7 7.6176 68.9 0.0289 65.4 3.24suma 67.8 0.8649 63.2 0.16

Media M1 27.004 68.9 0.0289 61.2 5.7649.46 Media M2 suma 60.5 9.61

68.73 44.0268 Media M3 sumaMedia total 63.6 59.26

61.3210*(Xm1-Xmt)^2 SSe

1406.596 130.2908 MSe12*(Xm2-Xmt)^2 4.0715875

658.897213*(Xm3-Xmt)^2 F en tablas

67.5792 2 , 32 glSStr F observado alfa = .01

2133.0724 MStr 261.946035 5.336342911066.5362

Page 23: 7. Análisis de Varianza (ANOVA)

Nota:

Se acostumbra sintetizar los resultados más importantes del Análisis de Varianza en un cuadro ANOVA tal como sigue:

Referencia DF SS MS F

Tratamiento 2 2133.6 1066.8 262.1

Error 32 130.3 4.07

Total 34 2263.96

Page 24: 7. Análisis de Varianza (ANOVA)
Page 25: 7. Análisis de Varianza (ANOVA)
Page 26: 7. Análisis de Varianza (ANOVA)

Decisión:El punto crítico para un contraste con alfa = 0.01 es aproximadamente 5.39.

Puesto que el valor observado de F es 262.12 es mucho mayor que 5.39.

Tenemos prueba estadística de que los tres tratamientos difieren en el efecto medio.

Page 27: 7. Análisis de Varianza (ANOVA)

Análisis de varianza de dos factores con una sola muestra

por grupo

Page 28: 7. Análisis de Varianza (ANOVA)

Análisis de varianza de dos factores con una sola muestra por grupo

Suponga que usted haya experimentado con levadura para una receta de panes dulces.  Parece ser que la cantidad de azúcar y la temperatura del agua afectan el tamaño de los panes.  Basándose en los siguientes datos, realizar un análisis de varianza para averiguar lo que es significativo de estas recetas.

Page 29: 7. Análisis de Varianza (ANOVA)
Page 30: 7. Análisis de Varianza (ANOVA)
Page 31: 7. Análisis de Varianza (ANOVA)

El resultado del ANOVA (Análisis de varianza) indica el valor estadístico de la "F." En este caso el valor de la "F" por las filas (cantidad de azúcar) es 23.15.

Para saber si estos resultados son significativos (o sea, si la probabilidad "P" tiene un valor menor a 0.05), el valor de la "F" observado necesita ser al menos 6.94 (o sea, el valor crítico de la F).

Entonces, como el valor de "F" observado es de 23.15 y es mucho mayor que el valor crítico de la F (6.94), estamos seguros que los resultados de nuestras pruebas son significativas.

El valor de la "F" para las columnas (temperatura del agua) es igual a 378.53. Esto es también significativo, porque el valor de "F" crítico es solamente 6.94.

En otras palabras, existe una relación significativa en la cantidad de azúcar, la temperatura del agua y el tamaño de los panes dulces. La probabilidad muestra a qué nivel los resultados son estadísticamente significativos.

Page 32: 7. Análisis de Varianza (ANOVA)

Análisis de varianza de dos factores con varias muestras por

grupo

Page 33: 7. Análisis de Varianza (ANOVA)

Suponga que usted tenga un restaurante y haya creado una nueva receta de salsa para las enchiladas.

Por alguna razón parece ser que a sus clientes varones les gusta más la salsa anterior que la nueva.

Pero también parece ser que a sus clientes femeninas prefieren la nueva salsa que la anterior.

Usted decide realizar una prueba con un grupo de 10 mujeres y 10 varones dándole a probar las dos salsas, basándose en una escala de 100 puntos para el sabor de las dos salsas.  

¿Existe alguna relación significativa desde el punto de vista de los clientes varones y clientes femeninas y cómo ven la nueva y la anterior salsa para las enchiladas?

Page 34: 7. Análisis de Varianza (ANOVA)

hombres mujeres

  85 69

  74 65

reseta 96 63

nueva 62 70

  80 72

  78 59

  90 64

  79 70

  85 68

  80 73

  68 85

reseta 64 75

anterior 62 97

  69 80

  73 88

  61 81

  64 91

  72 83

  70 84

  71 82

Page 35: 7. Análisis de Varianza (ANOVA)
Page 36: 7. Análisis de Varianza (ANOVA)

NOTA: para que en EXCEL trabaje correctamente el algoritmo hay que incorporar a la matriz de datos la fila y la columna de títulos.

Page 37: 7. Análisis de Varianza (ANOVA)

Análisis de varianza de dos factores con varias muestras por grupo

RESUMEN hombres mujeres Total

       

Cuenta 10 10 20

Suma 809 673 1482

Promedio 80.9 67.3 74.1

Varianza 84.7666667 19.5666667 98.0947368

       

Cuenta 10 10 20

Suma 674 846 1520

Promedio 67.4 84.6 76

Varianza 18.7111111 38.0444444 104.736842

Total      

Cuenta 20 20

Suma 1483 1519

Promedio 74.15 75.95

Varianza 96.9763158 106.05

ANÁLISIS DE VARIANZA

Origen de las variaciones

Suma de cuadrados

Grados de libertad

Promedio de los cuadrados F Probabilidad

Valor crítico para F

Muestra 36.1 1 36.1 0.8963995 0.35006116 4.11316528

Columnas 32.4 1 32.4 0.80452476 0.3757033 4.11316528

Interacción 2371.6 1 2371.6 58.8892261 4.3769E-09 4.11316528

Dentro del grupo 1449.8 36 40.2722222

Total 3889.9 39        

Page 38: 7. Análisis de Varianza (ANOVA)

El resultado del ANOVA (Análisis de varianza) indica el valor estadístico de la "F." En este caso el valor de la "F" de la muestra (receta anterior y receta nueva) es 0.896.

Para saber si estos resultados son significativos (o sea, si la probabilidad "P" tiene un valor menor a 0.05), el valor de la "F" necesita ser al menos 4.11 (o sea, el valor crítico de la F).

Entonces, como el valor de nuestra "F" es de 0.896 y es no es mayor que el valor crítico de la F, no podemos decir que existe alguna diferencia significativa.

Sin embargo, a la vez necesitamos interpretar qué significa el valor de F que está relacionado al efecto de una interacción. Siempre un efecto de interación sobrepasa el efecto principal.

Page 39: 7. Análisis de Varianza (ANOVA)

En este caso tenemos un gran efecto de interacción (el valor de la "F"=58.89).

En otras palabras, sí existe una diferencia significativa entre la opinión de los hombres y de las mujeresa relacionada a la receta anterior y a la nueva.

La probabilidad demuestra a qué nivel los resultados son estadísticamente significativos.