12 Análisis de varianza plus

12. ANÁLISIS DE VARIANZA

Se conoce como Análisis de Varianza o ANOVA por sus siglas en inglés (Análisis

Of VAriance) a un conjunto de técnicas para probar hipótesis sobre la igualdad de

más de dos medias, que es un tema que extiende los procedimientos de pruebas

de hipótesis para una o para dos medias que se analizaron antes, particularmente

en el capítulo 10 que trata sobre pruebas de hipótesis para dos poblaciones.

En ese capítulo 10 se revisó el procedimiento para realizar una prueba para la

diferencia entre dos varianzas utilizando como estadístico de prueba a la F de

Fisher, que es también el estadístico de prueba en Anova.

Se pueden aplicar estas técnicas de pruebas de hipótesis para más de dos

medias en muchos campos. Por ejemplo:

Un gerente de compras (o abastecimientos) puede estar interesado en

comparar la durabilidad media de las llantas de tres o más proveedores de

su empresa.

A un gerente de producción (o de operaciones) le interesa saber si

diferentes procesos productivos tienen el mismo rendimiento, o existen

diferencias entre ellos.

A un gerente de mercadotecnia quiere saber si la productividad por visita de

sus vendedores es la misma o no.

Un analista financiero desea saber si el margen de operación de diversas

empresas es el mismo, o difiere.

El análisis de varianza se utiliza, como se menciona antes, para probar la

igualdad de más de dos medias, pero las pruebas se llevan a cabo midiendo las

diferencias entre las diferentes varianzas de las poblaciones. Es por ello que a

esta técnica se le conoce con el nombre de análisis de varianza. Aunque, más

explícitamente, se utilizan las sumas de cuadrados (SC) de diferencias entre los

datos y sus medias, ∑ (X−X )2, que son el numerador de donde se obtiene la

varianza de una muestra, después de que se divide esta SC entre n – 1:

s2=∑ (X−X )2

Como se verá más adelante, se utilizan diversas sumas de cuadrados, divididas

entre distintos grados de libertad (que son, en cierta forma, varianzas) para

calcular el estadístico con el que se realizan las pruebas, que es la F de Fisher

que ya se usó antes.

En la sección siguiente se presenta una introducción al tema, junto con algunos

conceptos importantes y, más adelante, se tiene otra sección en la que se

analizan los supuestos que se deben cumplir para que las conclusiones del

análisis sean válidas.

En las secciones subsiguientes se presentan los principales procedimientos del

análisis de varianza:

Análisis de varianza de un factor, junto con una extensión de este análisis que se

ocupa de hacer comparaciones múltiples entre pares de medias de tratamiento.

Análisis de varianza de dos factores, y

Análisis de varianza de dos factores con interacción.

Como se pretende que el alumno comprenda cabalmente la metodología de

análisis, se resuelven ejercicios paso a paso pero, también, se incluyen tres

secciones en donde se explican tres herramientas de Excel que facilitan

enormemente los laboriosos cálculos que se requieren para esos tres tipos de

análisis de varianza.

12.1 Introducción

La forma más sencilla de visualizar los diferentes tipos de análisis de varianza es

observando sus nombres, Análisis de varianza:

de un factor

de dos factores

de dos factores con interacción

Un el ejemplo 12.1 se presenta una situación típica de Anova de un factor.

Ejemplo 12.1 Una empresa ensambla cuadros para un solo modelo de bicicleta.

La planta trabaja tres turnos: el matutino, el vespertino y el nocturno. Cada mes los

trabajadores se rotan por lo que, al cabo de un trimestre, todos ellos han laborado

en los tres turnos. El director de producción quisiera saber si existe diferencia

entre la producción promedio de los tres turnos. Dado que la fábrica trabaja a

plena capacidad desde hace más de un año y no ha habido variaciones

significativas en el número de empleados, en la maquinaria, ni en los procesos

productivos, el director considera que con un análisis de varianza puede contestar

esta pregunta. Para ello, obtiene una muestra aleatoria de la producción de 6 días

de cada turno. Los datos se muestran a continuación.

Matutino

Vespertin

o Nocturno

129 138 118

141 142 120

128 140 132

145 149 118

135 129 136

144 148 138

Como ya se mencionó, el director de producción desea saber si los tres turnos

tienen, en promedio, el mismo volumen de producción o no y, para resolverlo, se

plantean las siguientes hipótesis:

H0: μ1 = μ2 = μ3

H1: Por lo menos una de las medias poblacionales no es igual a las otras.

Y en donde,

μ1= Producción media en el turno matutino.

μ2= Producción media en el turno vespertino.

μ3= Producción media en el turno nocturno.

Y el factor que se analiza aquí es la producción por turno y los datos de cada uno

de ellos están dispuestos en sendas columnas.

En este análisis de varianza de un factor se utilizan abundantemente dos

conceptos: tratamiento y unidad experimental. Tratamiento se refiere a

cualquier condición que se controla en el experimento como, por ejemplo, el

medicamento que se administra a diversas personas o animales, el tipo de

fertilizante que se utiliza en distintos lotes sembrados, o el nivel de presión que se

aplica en el llenado mecanizado de botellas de algún líquido; en el ejemplo, el

tratamiento es el turno trabajado. Por su parte, se denomina unidad experimental a

cada uno de los sujetos (persona, animal, lote sembrado o botella, por ejemplo) a

los que se les aplica determinado tratamiento; en el ejemplo, la unidad

experimental es cada turno en cada día.

Y, por otra parte, se tiene la variable de respuesta que es la medición que se

realiza sobre las unidades experimentales. En el caso del análisis de distintos

fertilizantes, la variable de respuesta es la cantidad de producción, que puede ser

el promedio de toneladas de maíz por hectárea, por ejemplo. En el caso de los

diferentes niveles de presión para el llenado de botellas, la variable de respuesta

puede ser el promedio de contenido de líquido de las botellas llenadas; en el

ejemplo, la variable de respuesta es la producción por día y por turno, es decir, el

número de cuadros de bicicleta ensamblados en cada turno de cada día.

Así, las dos variables que se manejan en este ejemplo son: el turno, que es una

variable cualitativa y la producción de cuadros, que es una variable numérica. Para

este ejemplo, se considera que la variable dependiente o de respuesta, es la

producción por turno (unidades producidas), ya que se trata de averiguar si el

volumen de producción depende del turno en que se labora. Por otra parte la

variable independiente o de tratamiento es el turno en que dicha producción se

lleva a cabo.

Por su parte, el Anova de dos factores se aplica cuando se tienen datos

clasificados de acuerdo a DOS variables, como en el ejemplo siguiente.

Ejemplo 12.2 Una pequeña empresa que elabora botanas (papas fritas,

cacahuates, etc.), tiene cuatro rutas para el reparto de sus productos dentro de la

ciudad. Para cubrir estas rutas tiene 5 conductores. El conductor suplementario

sirve para cubrir ausencias por vacaciones o enfermedad de los otros cuatro y se

le ocupa para otros menesteres si no se le requiere como conductor. El puesto de

conductor suplementario se rota entre todos los choferes sobre una base mensual.

Es importante, tanto desde el punto de vista de eficiencia, como de justicia, que

todas las rutas tengan la misma duración. También es importante que todos los

conductores sean igualmente eficientes en todas las rutas, para que los

conductores puedan sustituirse el uno al otro sin pérdida de tiempo. Por ello, la

gerencia de distribución implementó un programa de capacitación para que los

conductores se familiaricen con todas las rutas. Al cabo de esta capacitación se

hicieron recorridos de prueba, con el objeto de investigar, por una parte, si todas

las rutas se recorrían en el mismo tiempo y, por otra, si los conductores eran

igualmente eficientes en todas. La gerencia de distribución desea saber si el

tiempo medio de las cuatro rutas es igual y si la eficiencia media de todos los

conductores en las rutas es igual. La información de los recorridos y los

conductores se da a continuación.

Tiempo en minutos

Conductor/

Ruta Ruta A Ruta B Ruta C Ruta D

Antúnez 224 227 237 248

Becerra 242 235 262 250

Cervantes 225 240 235 261

Domínguez 232 253 259 255

Escamilla 232 245 257 261

En este ejemplo se tienen también datos ordenados en columnas pero, a

diferencia del ejemplo 12.1, los datos están clasificados de acuerdo a DOS

variables: el conductor y la ruta que son, entonces los dos factores.

Aquí, las hipótesis que se prueban son:

Para las rutas:

H0 : μA= μB= μC= μD

H1: Por lo menos una de las medias poblacionales de los tratamientos no es igual

a las otras.

En donde las diferentes medias son las medias de las cuatro rutas

Para los conductores:

Ho: μ1= μ2= μ3= μ4= μ5

Ha: Por lo menos una de las medias poblacionales de los bloques (conductores)

no es igual a las otras.

En donde las diferentes medias son las medias de los cinco conductores

En este ejemplo 12.2, el tratamiento son las diferentes rutas y a la variable del

conductor, cuyos datos están contenidos en los renglones, se le conoce como

grupos. Y, a su vez, tratamientos y grupos son los dos factores a los que se refiere

el nombre de esta técnica de análisis de varianza de dos factores.

Un detalle que vale la pena tener presente con respecto a este Anova de dos

factores es que se tiene un solo dato para cada conductor y para cada ruta, ya que

el análisis de varianza de dos factores con interacción que se revisa más adelante

se refiere también a conjuntos de datos clasificados de acuerdo a dos variables

pero en este caso con cuando menos dos observaciones para cada par de

factores. Se ilustra esto en el ejemplo siguiente:

Ejemplo 12.3 Una empresa que fabrica y vende purificadores de agua para el

comercio y la industria tiene tres zonas de ventas: centro, norte y sur. Dado que la

labor de venta tiene aspectos tanto técnicos como financieros, la empresa tiene

tres vendedores: un químico, un licenciado en administración y un ingeniero

mecánico. La gerencia de la empresa está interesada en saber si las tres zonas

tienen un potencial equivalente, si los tres vendedores tienen igual capacidad y si

es indistinto el trabajo de los vendedores en cualquier zona o existen diferencias.

Esta ampliación de nuestra perspectiva, requiere un poco más de información. Es

necesario contar con al menos dos mediciones para cada combinación vendedor-

zona; es decir, se tiene que replicar la observación. Si se tienen dos

observaciones para cada combinación vendedor-zona, se dice que se tienen dos

réplicas; si se tiene tres observaciones, tres réplicas y así sucesivamente. Las

variables independientes son los factores: zonas y vendedores. La variable

dependiente es el volumen de ventas. La información pertinente se da en la

siguiente tabla. Se verá que hay dos datos para cada combinación zona-

vendedor. Para esta técnica es indispensable tener por lo menos dos

observaciones para cada combinación de factores y el número de observaciones

para cada una de estas combinaciones debe ser igual. Son dos observaciones

para cada una en nuestro ejemplo, pero pueden ser tres o más, siempre que sea

el mismo número para todas.

Ventas mensuales en miles de pesos

Profesión del

vendedor Zona Centro Zona Sur Zona Norte

Químico 506 528 513

512 534 495

Licenciado en

Administració

n 529 496 508

525 498 500

Ingeniero

Mecánico 500 512 528

518 504 520

Se identifican tres variables: las zonas, que se habían manejado como variable de

tratamiento y que ahora van a ser uno de los factores, el factor A. La profesión de

los vendedores, a la que se había llamado variable de bloque y que ahora será el

factor B. Y se tiene una tercera variable, que es la dada por la interacción entre los

factores A y B y que se mide, precisamente, a través de los pares de datos que se

tienen para cada combinación de zona (factor A) y de vendedor (factor B).

Para probar las hipótesis de Anova, se utilizará un método de estadístico de

prueba de una sola cola, de una manera similar a la que se trabaja en el capítulo

10. Para ello se utiliza la misma distribución F de Fisher que ya se usó y se calcula

un valor de F, con base en los datos observados, la F empírica, la cual se

compara con el valor teórico o crítico que se obtiene de la tabla, para un

determinado nivel de confianza. Si el valor empírico no rebasa el valor crítico, no

se rechaza la hipótesis nula. En caso contrario, se le rechaza y se acepta la

hipótesis alternativa.

La manera de probar la hipótesis de igualdad de las medias consiste en obtener

diferentes sumas de cuadrados (SC) y, con éstas, obtener promedios de

cuadrados (PC). Después se obtiene la razón, o cociente, de los dos promedios de

cuadrados. Si esa razón se acerca a la unidad (o no se aleja demasiado de la

unidad) se concluirá que todas las medias son iguales. En caso contrario, se

rechazará esta suposición. En qué medida se puede alejar de la unidad la razón

de los promedios de cuadrados (el valor empírico de F) sin que se rechace H0

depende, por supuesto, del valor crítico de F, de acuerdo con el valor que se

identifica en la tabla de esa distribución F.

Esas sumas y promedios de cuadrados difieren según el modelo de Anova que

se aplique y en las secciones 12.3 y siguientes se ilustran las diferentes técnicas.

12.2 Suposiciones en que se basan las técnicas de análisis de varianza.

Tal como sucede con otras técnicas que ya se revisaron antes, el análisis de

varianza se basa en un conjunto de supuestos que deben cumplirse para que las

conclusiones sean válidas y, también al igual que antes, estos supuestos rara vez

se cumplen a cabalidad por lo que debe siempre evaluarse su cumplimiento y se

deben tomar las conclusiones obtenidas como resultados aproximados y no

absolutos. Existe un supuesto en el que se basan todos los modelos del análisis

de varianza y que es:

La variable de respuesta tiene distribución normal en cada una de las

poblaciones

Y existen otras suposiciones que varían según el diseño que se aplique. En cada

sección se especifican las suposiciones aplicables al modelo que se estudia.

Los procedimientos de ANOVA pueden servir para analizar datos procedentes

tanto de observaciones simples o de encuestas como provenientes de

experimentos específicamente diseñados, y pueden servir también para analizar

situaciones con diferentes números de variables (diseños de uno o de dos

factores) y con diferentes enfoques (diseños con y sin interacción). Estas

condiciones dan lugar a diferentes diseños y los que se estudian en el presente

capítulo son:

Diseño completamente aleatorizado de un factor

Diseño de completamente aleatorizado de dos factores

Diseño de completamente aleatorizado de dos factores con interacción, y el

Diseño de cuadrados latinos

En las secciones siguientes se revisa la metodología para realizar pruebas de

hipótesis para más de dos medias según cada uno de estos tipos de diseños de

análisis de varianza y sólo se intercala una sección adicional, inmediatamente

después del diseño completamente aleatorizado de un factor, para revisar la forma

en la que se llevan a cabo pruebas para el conjunto de todos los pares de medias

que se pueden formar en ese diseño de un factor.

12.3 El diseño completamente aleatorizado de un factor

Las suposiciones en las que se basa este diseño son:

1. La variable de respuesta tiene distribución normal en cada una de las

poblaciones

2. La varianza de la variable de respuesta, σ2

, es igual en todas las

poblaciones

3. Las observaciones son independientes entre sí.

Si el tamaño de muestra es igual para cada grupo, las pruebas de análisis de

varianza son razonablemente robustas a la violación del supuesto número 2.

Así, en este diseño completamente aleatorizado de un factor se tienen muestras

independientes y el análisis se realiza con respecto a una sola variable (de aquí el

nombre de “UN factor”).

Para la explicación de esta técnica, se utiliza el mismo ejemplo 12.1 de la

fábrica de cuadros para bicicletas que se mencionó antes y se utiliza un nivel de

significación de 0.05.