Joaquín 1Aldás Manzano · La “acumulación de pruebas” en inferencia estadística es la...

21
El análisis de la varianza Joaquín Aldás Manzano 1 Universitat de València Dpto. de Dirección de Empresas “Juan José Renau Piqueras” 1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec- cionar, ordenar y, en algunos casos traducir los textos originales.

Transcript of Joaquín 1Aldás Manzano · La “acumulación de pruebas” en inferencia estadística es la...

El análisis de la varianzaJoaquín Aldás Manzano1

Universitat de ValènciaDpto. de Dirección de Empresas “Juan José Renau Piqueras”

1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordanel tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hayque referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec-cionar, ordenar y, en algunos casos traducir los textos originales.

El análisis de la varianza

1. ¿Qué es el análisis de la varianza?(Uriel, 1995)

El análisis de la varianza es un método estadístico para determinar si unavariable determinada toma valores medios iguales o distintos en los grupos queforma otra variable, por ejemplo, si la opinión que tiene una muestra de indivi-duos sobre si deben o no subirse los impuestos sobre el tabaco, es la misma odistinta entre los fumadores y los no fumadores.

Se denomina factor a la variable que supuestamente ejerce una influencia sobrela variable dependiente. En nuestro ejemplo la variable dependiente es laopinión manifestada sobre la subida de impuestos sobre el tabaco, mientras queel factor es pertenecer al grupo de fumadores o al de no fumadores.

El diseño que hemos visto se conoce como análisis de la varianza de un factor,puesto que se considera la influencia de una sola variable (fumar o no fumar).En este tema se verá también el análisis de la varianza de dos factores, dondese considera la influencia conjunta de dos variables independientes (podría serfumar o no fumar y el sexo, por ejemplo).

2. Un ejemplo de aplicación del análisis de la varianza de unfactor(Elaboración propia y Uriel, 1995)

Paso 1. Establecimiento de los objetivos

Como se ha indicado, un análisis de la varianza es adecuado cuando queremossaber si una variable toma valores medios significativamente distintos en losgrupos que forma otra variable que llamamos factor. La primera cuestiónimportante es saber cómo deben ser las escalas de medida de cada una de lasvariables.

� El factor, o variable independiente, debe ser una variable nominal.En el ejemplo que estamos utilizando, los encuestados se clasifican

Joaquín Aldás ManzanoAnálisis de la varianza2

en 1 = fumadores; 2 = Fumaban pero lo han dejado y 3 = Nofumadores.

� La variable dependiente, debe ser métrica, dado que el cálculo delvalor medio debe tener sentido y, precisamente, es el valor medio loque deseamos saber si toma valores significativamente diferentesentre los fumadores, no fumadores o los que lo han dejado. Ennuestro ejemplo, la variable dependiente está medida del siguientemodo. Exprese su acuerdo o desacuerdo sobre la siguienteafirmación: “Deben subirse los impuestos que gravan el tabaco”. Larespuesta se recoge en una escala de 5 puntos donde 1 = Estoytotalmente en desacuerdo y 5 = Estoy totalmente de acuerdo.

Este objetivo se plantea estadísticamente formulando una hipótesis nula quedeberá ser aceptada o rechazada a la luz de la evidencia empírica. En nuestrocaso la hipótesis nula es que la opinión que expresan los entrevistados acerca deque se suban los impuestos sobre el tabaco, es la misma entre los fumadores ylos no fumadores o, dicho de otro modo, que el ser fumador no ejerce ningúntipo de influencia sobre la opinión manifestada acerca de subir los impuestossobre el tabaco. De una manera más formal, la hipótesis nula se plantea de estemodo:

0 : F NF DH x x x= =

Es decir que la media de las respuestas a la pregunta formulada es la mismaentre los fumadores, los no fumadores o los que lo han dejado. Es muy impor-tante dejar claro cuál es la hipótesis alternativa, es decir, la que asumiríamos sino pudiésemos aceptar la hipótesis nula planteada. Esta no es que todas lasmedias sean distintas entre sí, sino que, al menos una es significativamentedistinta de todas las demás. Esto es, si rechazáramos la hipótesis nula nopodríamos decir que los no fumadores piensan distinto que los fumadores y quelos que lo han dejado y que los no fuamdores también piensan diferente de losque lo han dejado. Podría ocurrir que los fumadores pensaran de maneradistinta a los no fumadores y los que lo han dejado, pero estos dos últimospiensan igual. Para determinar en qué caso nos encontramos habrá que recurrira otro tipo de pruebas, que denominamos comparaciones pareadas a posteriorio pruebas post hoc, como veremos posteriormente.

El proceso que se sigue para determinar si podemos aceptar o rechazar lahipótesis nula, es el mismo que se sigue en cualquier otra técnica de inferenciaestadística y que podemos asimilar a la decisión de un juez en un juicio. El juez

Joaquín Aldás ManzanoAnálisis de la varianza3

mantendrá siempre la hipótesis nula (inocencia del acusado) a no ser que selogren acumular suficientes pruebas en contra del acusado como para que laprobabilidad de que se equivoque al rechazar la hipótesis nula (declararleculpable) sea lo suficientemente pequeña. La “acumulación de pruebas” eninferencia estadística es la construcción de un estadístico que, en nuestro caso,es una F. Según cual sea el valor que tome ese estadístico F, podremos aceptaro rechazar la hipótesis nula. Sin embargo es imposible tener en la cabeza lastablas del estadístico, por eso los programas de ordenador “traducen” eseestadístico mediante un valor que llaman p o significatividad que no es, ni másni menos, que la probabilidad de equivocarnos cuando rechazamos la hipótesisnula. Si esa probabilidad es “lo suficientemente baja” lo rechazaremos.

Pero “suficientemente baja” es un término subjetivo. Para objetivarlo, lapráctica en Ciencias Sociales es considerar los valores máximos del 1% o del5%. Si la probabilidad mencionada es inferior al 1% (5%) consideramos que esimprobable que nos equivoquemos y rechazaremos la hipótesis nula, teniendoque aceptarla en caso contrario.

Pero vayamos paso a paso y veamos, en primer lugar, cómo se calcula elestadístico F.

Llamemos Yi a la variable que recoge la respuesta del individuo i a la pregunta“Deben subirse los impuestos que gravan el tabaco”. Cada individuo pertenecea uno de los G grupos existentes del factor (en nuestro caso 3: fumadores, nofumadores o los que lo han dejado), con lo que llamaremos Ygi a la respuestadada a esa pregunta por el individuo i dado que pertenece a grupo g. La mediade la variable Y para todos los individuos, sin distinguir grupos la llamamos Ycon lo que la desviación de cada observación respecto a la media global será:

giY Y−

desviación que puede descomponerse de la siguiente forma:

( ) ( )ggi giY Y Y Y Y Y− = − + −

donde el primer componente, refleja la desviación de la media muestral(Yg − Y)

de cada grupo respecto a la media global, lo que llamamos desviación explicadapor el factor.

Joaquín Aldás ManzanoAnálisis de la varianza4

El segundo componente, , es la desviación que no explica el factor, y(Ygi − Yg )que denominamos desviación residual. Elevando al cuadrado ambos términosde la ecuación [1] tenemos que:

( ) ( ) ( ) ( )( )2 22 2g g ggi gi giY Y Y Y Y Y Y Y Y Y− = − + − + − −

Si la expresión anterior la sumamos para todos los grupos (G en total) y paratodos los individuos de cada grupo (ng) se obtiene que:

( ) ( ) ( )2 22

1 1 1 1 1

g gn nG G Gg g ggi gi

g i g g iY Y n Y Y Y Y

= = = = =− = − + −∑ ∑ ∑ ∑∑

En el primer miembro de la ecuación anterior aparece la suma de cuadrados delas desviaciones de cada observación respecto a la media global, suma quedenominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidadtotal. Si se divide por el tamaño total de muestra se obtiene la varianza total.Pues bien, de acuerdo con [2] esta SCT se divide en dos partes:

� La suma de cuadrados de las desviaciones entre la media de cadagrupo y la media general. Esta es la suma de cuadrados explicadapor el factor considerado, a la que denominaremos Suma de cuadra-dos del factor (SCF) o variabilidad explicada.

� La suma de cuadrados de las desviaciones entre cada dato y lamedia de su grupo. Esta es la suma de cuadrados no explicada, a laque denominaremos Suma de cuadrados residual (SCR) o variabili-dad residual.

Cada suma de cuadrados tiene sus propios grados de libertad. La SCT es elnúmero total de casos menos uno, es decir n-1; La SCF es el número de gruposmenos uno, es decir, G-1 y la SCR es el número total de datos menos G, esdecir, n-G. En el análisis de la varianza, se define una media cuadrática comoel cociente entre la suma de cuadrados y sus correspondientes grados de liber-tad:

Joaquín Aldás ManzanoAnálisis de la varianza5

1

1

SCFMCF GSCRMCR n GSCTMCT n

= −= −= −

pues bien, el estadístico F que nos ha de decir si tenemos “pruebas suficientes”para rechazar o aceptar la hipótesis nula, se calcula del siguiente modo:

1SCF

MCF GF SCRMCRn G

−= =−

y se distribuye según una F de Snedecor con G-1 grados de libertad en elnumerador y n-G en el denominador. Pero como hemos dicho, es difícil sabersede memoria la tabla de esta distribución, por eso el programa traduce directa-mente ese valor en una probabilidad de equivocarnos al rechazar la hipótesisnula o significatividad llamada p.

El cuadro 2 nos ofrece la salida de SPSS del análisis de la varianza de unfactor que nos está sirviendo de ejemplo. Sin adelantar cuál es el resultadoobtenido, vemos que nos proporciona la mayor parte de la información quehemos descrito hasta el momento.

Cuadro 2. Salida de SPSS para el análisis de la varianzaANOVA

Deben aumentarse los impuestos

171,378 2 85,689 59,161 ,000

344,721 238 1,448

516,100 240

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrática F Sig.

La SCF es 171,3, y el número de grado de libertad 2 (tenemos 3 grupos,fumadores, no fumadores y los que lo han dejado, menos uno). La SCR es344,7 con 238 grados de libertad (241 datos menos 3 grupos). La SCT es la

Joaquín Aldás ManzanoAnálisis de la varianza6

suma de las dos anteriores y el número de grados de libertad es el total dedatos menos uno, es decir 240. El estadístico F se obtiene:

171,371 3 1 59,16344,72

241 3

SCFMCF GF SCRMCR

n G

− −= = = =−−

Paso 2. Condiciones de aplicabilidad

La hipótesis más relevante que deben cumplir los datos para poder aplicar unanálisis de la varianza, es la hipótesis de homoscedasticidad, es decir, que lavarianza de la variable dependiente (opinión acerca de que deben subirse losimpuestos sobre el tabaco) es constante en los grupos que hace el factor(fumadores, no fumadores y los que lo han dejado).

Algunos autores (Uriel, 1995; Stevens, 1986) afirman, sin embargo, que elestadístico F no se ve muy afectado por el hecho de que no exista homoscedas-ticidad siempre que las muestras de los diferentes grupos sean del mismo osimilar tamaño. Se afirma que el estadístico se verá afectado cuando la razónentre el tamaño muestral del grupo de mayor tamaño y el más pequeño seasuperior a 2. El cuadro 2.2 nos muestra unos estadísticos descriptivos denuestra muestra de ejemplo, se observa que el grupo más numeroso es el de losno fumadores con 120 individuos, mientras que el más pequeño es el de los quehan dejado de fumar con 14. Es evidente que la razón es superior a 2 (120/14> 2), por lo que la vulneración de la hipótesis de homoscedasticidad sí queafectará a la aplicabilidad del análisis de varianza.

¿Como saber entonces si se cumple la hipótesis de homoscedasticidad? y ¿cómoactuar caso de no ser así?

Joaquín Aldás ManzanoAnálisis de la varianza7

Cuadro 2. Estadísticos descriptivos de la variable dependienteDescriptivos

Deben aumentarse los impuestos

107 1,73 1,15 ,11 1,51 1,95 1 5

14 2,86 1,56 ,42 1,96 3,76 1 5

120 3,47 1,20 ,11 3,25 3,68 1 5

241 2,66 1,47 9,45E-02 2,47 2,85 1 5

SI

DEJADO

NO

Total

N MediaDesviación

típica Error típicoLímiteinferior

Límitesuperior

Intervalo de confianza parala media al 95%

Mínimo Máximo

Para detectar la vulneración de la hipótesis de homoscedasticidad, SPSSproporciona un test conocido como de Levene. Este test plantea la hipótesisnula de homoscedasticidad, es decir, que las varianzas son iguales en todos losgrupos (fumadores, no fumadores y los que lo han dejado), que es la propiedaddeseable. Si el valor de la significatividad de este test es inferior a los límitesclásicos (1% o 5%), podremos rechazar la hipótesis nula, es decir, habráheteroscedasticidad y el ANOVA no será aplicable.

El cuadro 3 ofrece la salida de SPSS para el test de Levene, se observa que elvalor de la significatividad es superior tanto al 1% como al 5% (concretamentep=0.089). Luego la probabilidad de equivocarnos al rechazar la hipótesis nulaes demasiado elevada, habrá que aceptarla, es decir, las varianzas son constan-tes, se cumple la hipótesis de homoscedasticidad y los resultados que se hayanobtenido del análisis de la varianza serán consistentes.

Cuadro 3. Test de LevenePrueba de homogeneidad de varianzas

Deben aumentarse los impuestos

2,439 2 238 ,089

Estadísticode Levene gl1 gl2 Sig.

¿Qué podría haberse hecho caso de no poder aceptar la homoscedasticidad? Lohabitual es transformar la variable dependiente tomando logaritmosneperianos, lo que permite estabilizar la varianza y repetir entonces el ANOVA.Si la variable está acotada entre 0 y 1 se recomienda también la transforma-ción arcosenoidal.

Joaquín Aldás ManzanoAnálisis de la varianza8

Aunque algunos autores consideran que la no normalidad de la variable depen-diente no afecta de forma importante al estadístico F, la hipótesis de normali-dad es, teóricamente, un supuesto que debe verificarse antes de realizar unanálisis de la varianza. En el tema 1 se indicó uno de los procedimientoshabituales, que son los gráficos q-q. La figura 1 muestra que los residuos sehallan homogéneamente repartidos por encima y por debajo de la diagonal, loque nos permite asumir con razonable precisión que estamos ante una distribu-ción normal.

Figura 1. Gráfico q-q para el contraste de la normalidad

Gráfico Q-Q normal de Deben aumentarse los impuestos

Valor observado

6543210

Normal esperado

1,5

1,0

,5

0,0

-,5

-1,0

Paso 3. Estimación del modelo y medida del ajuste global

Hasta este momento, hemos planteado los objetivos del ANOVA (saber si laopinión que se tiene acerca de que se suban los impuestos sobre el tabaco, varíao no entre fumadores y no fumadores), hemos comprobado las hipótesis quedeben cumplir los datos y, además, hemos construído el estadístico que nos hade permitir aceptar o rechazar la hipótesis nula de igualdad de medias, pero¿cuál es el resultado del análisis?

Observando el cuadro 2, se observa que las medias son aparentemente muydistintas entre cada uno de los grupos analizados. Así, los fumadores parecenestar muy en desacuerdo en que se suban los impuestos (1,73 en una escala de1 a 5), los no fumadores están mucho más de acuerdo (3,47) y los que handejado de fumar se muestran algo más comprensivos (2,86). Pero estas diferen-cias pueden ser aparentes más que estadísticamente significativas y, por esemotivo, hemos realizado el análisis de la varianza. Del cuadro 2.1 vemos que el

Joaquín Aldás ManzanoAnálisis de la varianza9

estadístico F=59,16 no nos dice mucho dado que no conocemos de memoria lastablas, pero sí el valor de la significatividad p=0.000. Dijimos que la significati-vidad era la probabilidad de equivocarnos al rechazar la hipótesis nula de quelas medias son iguales. Esta probabilidad es nula (en todo caso menor quecualquiera de los dos valores críticos: 0.01 y 0.05), por lo que, dado que notenemos ninguna probabilidad de equivocarnos la rechazaremos, es decir,alguna de las medias es significativamente distinta de las demás. Sin embargono sabemos si todas son distintas entre sí (xF≠xNF≠xD) o, por ejemplo, la de losfumadores es distinta del grupo de no fumadores y lo han dejado, pero estasdos últimas no son diferentes (xF≠xNF=xD). Para ello habrá que realizar algunaprueba post hoc, como veremos inmediatamente.

El cuadro 2.4 nos permite responder a la duda que hemos planteado. Si elanova demuestra que alguna media es distinta de las demás, como es el caso,SPSS nos ofrece diversos tests post hoc de comparaciones múltiples para detec-tar qué media es distinta de cuál. En este caso hemos recurrido a una de lasmúltiples posibilidades, el test de la diferencia honestamente significativa deTukey (Tukey’s HSD). El cuadro debe leerse de la siguiente manera. Veamosprimero la primera fila. La diferencia de las medias de respuesta a la variable“deben subirse los impuestos sobre el tabaco” entre los que sí que fuman y losque lo han dejado es de 1,13 y entre los que sí que fuman y los que no fumanes de 1,74. Ambas diferencias son significativas al 5%, como lo demuestra elasterisco (*) que llevan ambas. Es más, ambas son significativamente distintastambién al 1%, dado que la significatividad es también inferior a esta cantidad(0.003 y 0.000 respectivamente). Luego ya sabemos que la opinión de los que síque fuman es distinta de los otros dos grupos, pero ¿qué ocurre entre ellos?.

Leamos ahora la segunda fila. Ahora la diferencia entre los que lo han dejado ylos que sí que fuman es de 1,13 y significativa (ya lo sabíamos de la filaanterior), pero la diferencia ente los que lo han dejado y los que no fuman esde 0,61 y NO ES SIGNFICATIVA, dado que ni lleva asterisco ni 0,172<0,05.Luego la opinión de los que fuman es distinta de los que lo han dejado, pero lade estos últimos no es distinta de los que no fuman.

La tercera fila nos confirma lo anterior. La diferencia de opinión entre los queno fuman y los que sí (1,74) es estadísticamente significativa, pero no ladiferencia con los que lo han dejado (0,61).

Joaquín Aldás ManzanoAnálisis de la varianza10

Cuadro 4. Test de comparaciones múltiplesComparaciones múltiples

Variable dependiente: Deben aumentarse los impuestos

HSD de Tukey

-1,13* ,342 ,003 -1,93 -,33

-1,74* ,160 ,000 -2,11 -1,36

1,13* ,342 ,003 ,33 1,93

-,61 ,340 ,172 -1,41 ,19

1,74* ,160 ,000 1,36 2,11

,61 ,340 ,172 -,19 1,41

(J) ¿FUMA USTED?

SI

DEJADO

NO

SI

DEJADO

NO

SI

DEJADO

NO

(I) ¿FUMA USTED?

SI

DEJADO

NO

Diferenciade medias

(I-J) Error típico Sig.Límiteinferior

Límitesuperior

Intervalo de confianza al95%

La diferencia entre las medias es significativa al nivel .05.*.

En síntesis, como muestra el cuadro 5 que ofrece los grupos con la mismamedia, por un lado tenemos el grupo de los no fumadores, con media 1,73 quemantiene una opinión distinta (son menos favorables a que se suban losimpuestos) que el otro grupo, formado por no fumadores y quienes lo handejado, cuyas medias no son significativamente diferentes.

Cuadro 5. Grupos con la misma mediaDeben aumentarse los impuestos

HSD de Tukey1,2

107 1,73

14 2,86

120 3,47

1,000 ,094

¿FUMA USTED?

SI

DEJADO

NO

Sig.

N 1 2

Subconjuntopara alfa = .05

Se muestran las medias para los grupos en los subconjuntoshomogéneos.

Usa tamaño de la muestra de la media armónica = 33,667.1. Los tamaños de los grupos no son iguales. Se utilizará lamedia armónica de los tamaños de los grupos. Los niveles deerror del tipo I no están garantizados.

2.

Joaquín Aldás ManzanoAnálisis de la varianza11

Finalmente, para medir si es importante la parte de la variabilidad total expli-cada por el factor (medida de bondad del ajuste) se utiliza el coeficiente dedeterminación que viene dado por la siguiente expresión:

2 171,37 0,33516,10SCFR SCT= = =

Aunque SPSS no da este estadístico, este puede obtenerse de manera bastantesencilla de la información proporcionada por el cuadro 1. Vemos que granparte (33%) de la diferencia de opinión respecto al aumento de impuestos sobreel tabaco, se explica por el hecho de que el que conteste sea o no fumador.

Paso 4. Interpretación de los resultados

Por claridad expositiva, los resultados del análisis de la varianza efectuado sehan interpretado simultáneamente a la estimación del modelo en el pasoanterior. Sin embargo, a modo de conclusión, repetiremos que el fumar o nofumar, independientemente de que no se haya hecho nunca o se haya dejado elhábito, ejerce una influencia importante sobre el apoyo de los individuos a quese suban los impuestos sobre el tabaco. Los fumadores son mucho más reacios(1,73 en una escala de 1 a 5) a esta subida que los no fumadores, que no sedistinguen de los que lo han dejado en esta opinión.

Paso 5. Validación de los resultados

El único procedimiento adecuado para validar los resultados de un análisis dela varianza, consiste en replicar el experimento para una muestra diferente yconstatar la convergencia de los resultados lo que, por motivos obvios demedios, no suele ser habitual en los trabajos en ciencias sociales.

Joaquín Aldás ManzanoAnálisis de la varianza12

3. Un ejemplo de aplicación del análisis de varianza de dos facto-res(Elaboración propia; Uriel, 1995 y Hatcher y Stepanski, 1994)

En el ejemplo anterior intentábamos determinar la influencia sobre el acuerdocon que se subieran los impuestos sobre el tabaco, de un factor a priori relevan-te, como era el hecho de que se fumara o no. Pero supongamos que hay dosvariables independientes cuya posible influencia queremos controlar: el hechode fumar o no y el sexo del individuo. Podríamos pensar que es necesario llevara cabo un análisis de la varianza de un factor para cada uno de ellos, sinembargo es posible trabajar con las dos variables independientes de manerasimultánea en un único estudio.

El diseño experimental que se sigue en estos casos, es conocido como diseñofactorial, donde dos o más variables independientes son manipuladas en unúnico estudio de tal forma que en el análisis se representan todas las posiblescombinaciones de los diversos niveles de las variables independientes.

Teóricamente, un diseño factorial puede incluir cualquier número de variablesindependientes, en la práctica resulta poco adecuado utilizar más de tres ocuatro. Nosotros ilustraremos el tema con un diseño factorial que incluye dosfactores: el ser o no fumador, y el sexo del entrevistado. En síntesis, queremosconstatar si:

� Ser o no fumador hace que se tengan opiniones distintas sobre quese suban los impuestos sobre el tabaco.

� Ser hombre o mujer ejerce algún tipo de influencia sobre esaopinión.

De una manera similar al caso de un factor, la varianza total puede descompo-nerse del siguiente modo (donde G es el número total de grupos de un factor,en nuestro caso, por ejemplo los tres niveles de fumar, no fumar o haberlodejado; J es el número total de grupos del segundo factor, en nuestro caso 2,hombres y mujeres):

( ) ( ) ( )2 2 2

1 1 1 1 1 1 1 1

gj gjn nG J G J G J

gji gj gj gji gjg j i g j g j i

Y Y n Y Y Y Y= = = = = = = =

− = − + −∑∑∑ ∑∑ ∑ ∑ ∑

Joaquín Aldás ManzanoAnálisis de la varianza13

El primer término de la expresión anterior refleja, como hemos dicho, la sumade los cuadrados con respecto a la media muestral global. El triple sumatorio serefiere: el primero a los niveles del primer factor (e.g. fumar o no fumar), elsegundo a los del segundo factor (e.g. hombre o mujer) y el tercero a los datosindividuales del cruce de los dos anteriores. El segundo término de la expresiónse descompone en dos sumandos. El primero refleja las diferencias al cuadradoentre la media de cada celda y la media global, mientras que el segundosumando es la suma de cuadrados residual SCR.

Lo interesantes está en analizar qué ocasiona las diferencias del primer suman-do, es decir, las diferencias al cuadrado entre la media de cada celda. Puededemostrarse que:

( )

( ) ( ) ( )

2

1 1

2 22

1 1 1 1 1 1

G J

gj gjg j

G J G J G Jg ggj gj j gj gj j

g j g j g j

n Y Y

n Y Y n Y Y n Y Y Y Y

= =

= = = = = =

− =

= − + − + − − +

∑ ∑

∑ ∑ ∑∑ ∑∑se ve claramente en esta expresión que los dos primeros sumandos correspond-en a las sumas de cuadrados de los dos factores, llamémosles A y B. A estassumas las denominaremos SCFA y SCFB. El último término refleja la interac-ción de los factores A y B, es decir el efecto de los dos factores que no ha esdebido individualmente a ninguno de ellos. El efecto interacción, será denomi-nado SCFAxB. En síntesis, la suma total de cuadrados puede descomponerse, enel caso de dos factores del siguiente modo:

SCT = SCFA + SCFB + SCFA%B + SCR

Al igual que en el caso de un factor, cada suma de cuadrados tiene sus propiosgrados de libertad, tal y como ilustramos en el cuadro 2.7. En este mismocuadro ilustramos también como se construye cada uno de los estadísticos Fque, ahora, han de permitirnos determinar si el efecto de cada factor porseparado y la interacción de ambos, son o no significativos.

Joaquín Aldás ManzanoAnálisis de la varianza14

Cuadro 7. Tabla de análisis de la varianza con dos factores

MCT = SCTn−1n-1SCTTotal

MCR = SCRn−GJn-GJSCRResidual

F = MCFA%BMCRMCFA%B = SCFA%B

(G−1)(J−1(G-1)(J-1)SCFAxBInteracción

F = MCFBMCRMCFB = SCF B

J−1J-1SCFBFactor B

F = MCFAMCRMCFA = SCF A

G−1G-1SCFAFactor A

Estadístico FMedia cuadráticaGrados delibertad

Suma decuadrados

Fuente deVariación

Antes de comentar los resultados concretos del ejemplo que venimos analizan-do, tratemos de analizar los posibles resultados que podrían obtenerse ycomprender, así, qué significará que uno de los factores, o la interacción deambos sea significativa. La figura 2 es una ilustración del resultado que seobtendría si el efecto del factor 1 (fumar o no fumar) fuera significativo sin quelo sea el factor 2 (sexo) ni la interacción entre ambos. En el eje y se ha repre-sentado la opinión sobre que se suban los impuestos. En el eje x vienen repre-sentados los tres niveles del factor 1 (fumador, no fumador, han dejado defumar) y se han representado las medias de la opinión en cada uno de estostres grupos pero utilizando dos lineas, una para hombres y otra para mujeres.Decimos que el factor 1 influye y el factor 2 no porque:

� La opinión acerca de la subida de impuestos es más favorable en lamedida en que se pasa de ser fumador a haberlo dejado o no haberfumado nunca (línea recta creciente)

� Las medias en cada grupo de hábito coinciden, sin embargo, entrehombres y mujeres, como demuestra el hecho de que las líneas seancoincidentes.

La figura 3 ilustra el caso en que el resultado fuera que el sexo influye, pero nolo hace el factor 1, es decir, el hábito. Se observa que en este caso las líneasestán separadas (sexo influye), pero las medias de opinión son las mismasindependientemente del hábito (líneas paralelas al eje x).

Joaquín Aldás ManzanoAnálisis de la varianza15

Figura 2. Sólo el efecto hábito es significativo.

Op

inió

n

Desacuerdo

Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

nl

nl

nl Hombres

Mujeres

Figura 3. Sólo el efecto sexo es significativo.

Opin

ión

Desacuerdo

Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n

l

n

l

n

l Hombres

Mujeres

Figura 4. Los dos factores son significativos. No hay interacción

Op

inió

n

Desacuerdo

Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n

l

n

l

n

l Hombres

Mujeres

En la figura 4, se observa el resultado que se obtendría cuando el sexo influye(líneas separadas), pero también lo hace el hábito (medias distintas en los tresgrupos, es decir líneas no paralelas respecto al eje x).

Joaquín Aldás ManzanoAnálisis de la varianza16

La figura 5 muestra el resultado que conseguiremos cuando no influyanninguno de los dos factores (líneas juntas y paralelas al eje x) y, finalmente, lafigura 6 ilustra el caso de que ambos factores sean significativos (líneas separa-das, no paralelas al eje x) pero, además, existe una interacción significativaentre los factores, es decir, el hábito afecta más al cambio de opinión entre loshombres que entre las mujeres, puesto que la pendiente de la recta de ellos essuperior a la de ellas.

Figura 5. Efectos principales no significativos

Opin

ión

Desacuerdo

Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

l l l Hombresn n n Mujeres

Figura 6. Efectos principales e interacción significativos

Op

inió

n

Desacuerdo

Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n

n

n

l

l

l Hombres

Mujeres

Ilustradas las posibles soluciones a nuestro ejemplo, veamos a continuacióncuáles son los resultados reales que se obtendrían tal y como los proporcionaSPSS. El cuadro 7 nos muestra los estadísticos descriptivos, básicamente, lasmedias de la opinión sobre que se suban los impuestos sobre el tabaco entrefumadores, no fumadores y aquellos que lo han dejado, pero distinguiendoentre hombres y mujeres. Observando los datos, se comprueba que el

Joaquín Aldás ManzanoAnálisis de la varianza17

desacuerdo entre los fumadores es prácticamente el mismo sean estos hombres(1,71) o mujeres (1,74). Tampoco se aprecian grandes diferencias en el acuerdoentre no fumadores (3,59) y no fumadoras (3,39). La única diferencia aprecia-ble está en que los hombres que lo han dejado, son menos comprensivos con losfumadores (3,50) que las mujeres que lo han dejado (2,60).

Cuadro 7. Estadísticos descriptivos

Estadísticos descriptivos

Variable dependiente: Deben aumentarse los impuestos

1,71 1,25 41

3,50 1,73 4

3,59 1,26 46

2,74 1,57 91

1,74 1,10 66

2,60 1,51 10

3,39 1,17 74

2,61 1,40 150

1,73 1,15 107

2,86 1,56 14

3,47 1,20 120

2,66 1,47 241

¿FUMA USTED?

SI

DEJADO

NO

Total

SI

DEJADO

NO

Total

SI

DEJADO

NO

Total

sexo

Hombre

Mujer

Total

Media Desv. típ. N

Estas diferencias basadas en estadísticos descriptivos son, sin embargo, aparen-tes. Debemos constatar si son estadísticamente significativas atendiendo alcontraste de hipótesis que se ha descrito. El análisis del cuadro 8 nos permiteobtener las siguientes conclusiones:

� El sexo no ejerce una influencia significativa sobre la opiniónmanifestada por los entrevistados acerca de que se suban o no losimpuestos. Se observa que la significatividad del estadístico F=1.82de esta variable es superior a 0.05, concretamente p=0.178.

� El fumar o no fumar, sí que ejerce una influencia significativa sobredicha opinión, como ya cabía esperar de los resultados que obtuvi-mos al realizar un análisis de la varianza de un factor. La significati-vidad del estadístico F=57.9 sí que es inferior a 0.05, en este casop=0.

� La interacción de los dos factores anteriores tampoco es significativa(F=0.862; p=0.424), es decir que las diferentes opiniones según el

Joaquín Aldás ManzanoAnálisis de la varianza18

hábito no son más o menos marcadas según cuál sea el sexo delentrevistado.

Cuadro 8. Análisis de los efectos principales e interacciónPruebas de los efectos inter-sujetos

Variable dependiente: Deben aumentarse los impuestos

174,8031 5 34,961 24,072 ,000

643,121 1 643,121 442,822 ,000

2,645 1 2,645 1,821 ,178

168,187 2 84,094 57,903 ,000

2,503 2 1,252 ,862 ,424

341,296 235 1,452

2221,000 241

516,100 240

Fuente

Modelo corregido

Intercept

SEXO

FUMA

SEXO * FUMA

Error

Total

Total corregido

Suma decuadrados

tipo III glMedia

cuadrática F Sig.

R cuadrado = ,339 (R cuadrado corregido = ,325)1.

Se deja como ejercicio para el lector el que se comprueben los cálculos quepermiten obtener los estadísticos F de acuerdo con lo descrito en el cuadro 6.Por ejemplo, para el factor sexo:

2,6451 2 1 1,821341,29

241 3 2

sexosexo

SCFMCF JF SCRMCR

n GJ

− −= = = =− ⋅−

Tal y como ocurría con el análisis de varianza de un factor, es fundamentalconstatar el cumplimiento de la hipótesis de homogeneidad de las varianzas dela variable dependiente mediante el test de Levene. Como se observa en elcuadro 9, no puede rechazarse la hipótesis nula de homoscedasticidad(p=0.225) a un nivel de significación razonable, luego los resultados puedenconsiderarse sin las precauciones que se derivarían de su incumplimiento.

Joaquín Aldás ManzanoAnálisis de la varianza19

Cuadro 9. Test de Levene

Contraste de Levene sobre la igualdad de las varianzas error 1

Variable dependiente: Deben aumentarse los impuestos

1,400 5 235 ,225

F gl1 gl2 Sig.

Contrasta la hipótesis nula de que la varianza error de la variabledependiente es igual a lo largo de todos los grupos.

Diseño: Intercept+FUMA+SEXO+FUMA * SEXO1.

Finalmente, ilustraremos el resultado obtenido (recuérdese: el hábito influye,pero no así el sexo ni la interacción de ambos), con un gráfico similar a los queutilizábamos para ejemplificar los posibles resultados que podían obtenerse(figuras 2 a la 6), que se obtiene directamente de la salidad de SPSS. Anali-zando la figura 7, podemos constatar que las medias crecen sistemáticamentecuando se pasa de ser fumador a haberlo dejado o no fumar. Por sexo lasmedias están muy cercanas entre los fumadores y también entre los no fumado-res, y la diferencia que se aprecia por sexo entre quienes lo han dejado, nocompensan la igualdad anterior, lo que se deriva en no influencia del factorsexo. Esto es tanto más cierto, cuanto que el tamaño muestral de este grupo esmuy inferior a los demás, como se puede apreciar en el cuadro 7 (14 sobre 241entrevistados).

Joaquín Aldás ManzanoAnálisis de la varianza20

Figura 7. Resultado gráfico del ANOVAMedias marginales estimadas de Deben aumentarse los impuestos

¿FUMA USTED?

NODEJADOSI

Medi

as m

argi

nale

s es

tima

das

4,0

3,5

3,0

2,5

2,0

1,5

sexo

Hombre

Mujer

Referencias bibliográficasURIEL, E. (1995): Análisis de datos. Series temporales y análisis multivariable.

Madrid: Editorial AC.HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate

Data Analysis. 4ª edición. Englewood Cliffs: Prentice Hall.HATCHER, L. Y STEPANSKI, E.J. (1994): A Step-by-Step approach to using the

SAS System for univariate and multivariate statistics. Cary: SAS Insti-tute Inc.

STEVENS, J. (1996): Applied Multivariate Statistics for the Social Sciences. 3ªedición. Mahwah, NJ: Lawrence Erlbaum.

Joaquín Aldás ManzanoAnálisis de la varianza21