Post on 09-Aug-2015
Pablo A. Salgado email: psalgado@estadisticaaplicada.com.ar psalgado@fibertel.com.ar
ANOVA para más de un
factor
2
En el apartado anterior se han visto los procedimientos que permiten la comparación de medias (ANOVA de un factor), que permite contrastar la hipótesis de igualdad de medias de las poblaciones definidas por los diferentes niveles en que podía segmentar el factor o variable independiente.
Cuando se desea estudiar el efecto de más de un factor sobre la variable dependiente es preciso recurrir a los modelos factoriales de análisis de varianza que permiten estudiar el efecto de diversos factores, tanto de manera individual como conjunta.
3
Cuando se trabaja con un factor (VI), se estudia su efecto sobre la VD y se especifican diversos contrastes entre los niveles del factor, si el resultado del ANOVA es significativo.
Pero si en el estudio intervienen dos factores, hay tres efectos que deben considerarse: los efectos de cada factor por separado sobre la VD, que se conocen como efectos principales, y el efecto de la interacción de ambos factores sobre la VD
4
Dadas una variable dependiente
cuantitativa y dos o mas variables
independientes cualitativas, o factores, el
análisis factorial de la varianza consiste en
analizar el comportamiento de la variable
dependiente en las K subpoblanciones o
grupos establecidos por las combinaciones
de los valores de las independientes.
5
En el caso de tres factores, los efectos a
estudiar serían 7 (tres principales, 3
interacciones dobles y 1 interacción triple).
Si el número de factores fueran cuatro, los
efectos a estudiar serían 15 (4 principales, 6
interacciones binarias, 4 interacciones
triples, y 1 interacción cuádruple).
6
El diseño factorial completamente aleatorizado
En este diseño se exploran los efectos que cada factor tiene sobre la VD y los efectos de la interacción.
La hipótesis nula para cada factor dice que las medias de las poblaciones definidas por los grupos o niveles del factor son iguales.
La hipótesis referidas a las interacciones afirman que éstas no existen.
Para el contraste de estas hipótesis se utiliza el estadístico F, y según sea su valor crítico se aceptaráo no la hipótesis planteada.
7
Cuando hay más de un factor, el número de poblaciones involucradas serán tantas como el producto de los niveles de cada uno de los factores.
Ejemplo: ser realiza el análisis de varianza factorial con dos factores, el primer con 3 niveles, y el segundo con 4 niveles, el número total de poblaciones será 12 (3 x 4 = 12).
Estas 12 poblaciones deben ser normales y homocedásticas.
8
También supone el modelo que las
observaciones han sido aleatoriamente
seleccionadas, una muestra de cada
población.
Por lo tanto estas poblaciones son
independientes entre si.
9
Ejemplo:archivos:
”ANOVA ULCERA.sav” y ”ANOVA ULCERA.xls”
Supongamos que se sospecha que en los pacientes con úlcera péptica que han seguido un tratamiento, el tiempo que tarda en reaparecer la sintomatología ulcerosa está relacionado con el tiempo que tarda el paciente en responder al tratamiento.
10
Se somete al tratamiento a un grupo de pacientes con úlcera péptica, siendo todos ellos fumadores, y periódicamente (cada dos semanas) se comprueba si la sintomatología ulcerosa persiste o ha desaparecido.Una vez desaparecida, el paciente sigue sometido a revisiones mensuales para comprobar el tiempo que tarda en reaparecer.
11
Antes de comenzar el tratamiento, algunos de los pacientes han decidido abandonar el hábito de fumar, por lo que se sospecha que en la reaparición de los síntomas, además del tiempo de respuesta al tratamiento, puede influir el efecto del abandono del tabaco.Por lo tanto se aplicará el ANOVA de dos factores.
12
Si denominamos RESPUEST y TABACO a las variables “Tiempo de respuesta al tratamiento” y “Tabaquismo” respectivamente, los valores que presenta la primera en el conjunto de pacientes observados son: 2, 4, 6 y 8 semanas. Los valores que presenta la segunda variable son Si y No.
13
La hipótesis nula que se desea contrastar es que las ocho muestras, establecidas por las combinaciones de los valores de RESPUEST y TABACO, proceden de ocho subpoblaciones en las que las medias de REAPARIC son iguales:
14
H0:
µ respuesta1, tabaco1 = µ respuesta1, tabaco2 =
µ respuesta2, tabaco1 = µ respuesta2, tabaco2 =
µ respuesta3, tabaco1 = µ respuesta3, tabaco2 =
µ respuesta4, tabaco1 = µ respuesta4, tabaco2
15
Tabla de análisis de la varianza:
El análisis de la varianza con q factores se basa en que la variabilidad total de la muestra puede descomponerse en la variabilidad debida a, o explicada por, las diferencias entre grupos y la debida a las diferencias dentro de los grupos o residual:
SC Total = SC Entre + SC Residual
16
A su vez, la variabilidad explicada por el efecto de pertenecer a un grupo puede descomponerse en la variabilidad debida a los efectos de cada una de las q variables independientes (efectos principales) y la debida al efecto de todas las posibles interacciones entre ellas.
17
ANALIZAR -> MODELO LINEAR GENERAL -> UNIVARIANTE En el cuadro de diálogoDEPENDIENTES: LNREAPARFACTORES FIJOS:
Tiempo de respuestaPaciente que ha dejado de fumar
MODELO En el cuadro de diálogoSUMA DE CUADRADOS: TIPO IICONTINUAROPCIONES En el cuadro de diálogo
MOSTRAR: ESTADISTICOS DESCRIPTIVOSCONTINUAR
ACEPTAR
18
Análisis de varianza univariante
Factores inter-sujetos
Etiqueta del valor N
1 2 Semanas 1122 4 Semanas 1003 6 Semanas 734 8 Semanas 271 Si 1532 No 159
Paciente ha dejado de fumar
Tiempo de respuesta
19
Estadísticos descriptivos: Variable dependiente: LNREAPAR
Tiempo de respuesta Paciente ha dejado de fumar Media Desv. típ. N
Si 2,4814 ,12859 69No 2,0963 ,16019 43Total 2,3336 ,23503 112Si 2,2051 ,10899 40No 1,7987 ,27325 60Total 1,9613 ,29872 100Si 1,5745 ,20169 38No 1,8828 ,18988 35Total 1,7223 ,24898 73Si 1,0310 ,16553 6No 1,4551 ,21894 21Total 1,3609 ,27281 27Si 2,1271 ,45124 153No 1,8523 ,29495 159Total 1,9870 ,40329 312
Total
8 Semanas
6 Semanas
4 Semanas
2 Semanas
20
Pruebas de los efectos inter-sujetosVariable dependiente: LNREAPAR
FuenteSuma de
cuadrados tipo II
gl Media cuadrática F Significación
Modelo corregido 39,683(a) 7 5,669 158,147 ,000Intersección 1231,879 1 1231,879 34365,134 ,000RESPUEST 25,413 3 8,471 236,313 ,000TABACO 2,082 1 2,082 58,086 ,000RESPUEST * TABACO 8,384 3 2,795 77,966 ,000
Error 10,897 304 3,585E-02
Total 1282,460 312
Total corregida 50,581 311
a R cuadrado = ,785 (R cuadrado corregida = ,780)
21
El p-valor asociado al estadístico F, en la línea Modelo Corregido, es menor que 0,05. Por lo tanto se rechaza la hipótesis nula de que las ocho medidas son iguales.Dado que las diferencias entre lo observado en la muestra y lo esperado bajo la hipótesis nula de igualdad de las medias son estadísticamente significativas, no se puede aceptar que el tiempo de reaparición de los síntomas sea el mismo considerando simultáneamente los distintos tiempos de respuesta al tratamiento y si el paciente ha dejado de fumar o no.
22
Sin embargo, mediante el análisis
de la varianza con un factor,
habíamos comprobado que el
tiempo de reaparición de los
síntomas era distinto según el
tiempo de respuesta al tratamiento.
23
Podría suceder entonces que la diferencia
de medias fuera debida únicamente al
efecto de la variable RESPUEST, sin que
el de TABACO interviniera en el resultado.
Habiendo solo 4 medias distintas
correspondientes a los cuatro grupos
establecidos por los valores de
RESPUEST:
24
µ respuesta1 = µ respuesta1, tabaco1 = µ respuesta1, tabaco2
µ respuesta2 = µ respuesta2, tabaco1 = µ respuesta2, tabaco2
µ respuesta3 = µ respuesta3, tabaco1 = µ respuesta3, tabaco2
µ respuesta4 = µ respuesta4, tabaco1 = µ respuesta4, tabaco2
siendo µ respuesta i distintas entre si.
25
Para comprobar a qué es debido este hecho de que se rechace la hipótesis nula de igualdad de las ocho medias, analizaremos:
el efecto de cada factor por separado
el efecto de la interacción.
26
Análisis de la interacción entre los factores:
Al contrastar la hipótesis nula de que el efecto de la interacción de orden 2 es igual a cero, el p-valor asociado al estadístico F es menor que 0,05 (RESPUEST*TABACO).
27
Al contrastar la hipótesis nula de
que, en particular, el efecto de cada
uno de los factores RESPUEST y
TABACO es nulo, también los p-
valores asociados a los
estadísticos F correspondientes,
son significativos.
28
En consecuencia, al nivel de significación 0,05 todas las posibles hipótesis relativas a la nulidad de efectos pueden ser rechazadas. Luego el que las ocho medias difieran es debido tanto al efecto que causa una de las variables RESPUEST y TABACO por separado como al efecto de su interacción.Ilustremos gráficamente este resultado:
29
GRAFICOS -> LINEAS En el cuadro de diálogo
MULTIPLE -> DEFINIR En el cuadro de diálogo
EJE DE CATEGORIAS: Tiempo de respuesta
DEFINIR LINEAS POR: Pacientes ha dejado de fumar
LAS LINEAS REPRESENTAN:
OTRA FUCION DE RESUMEN
VARIABLE: MEAN (LNREAPAR)
ACEPTAR
30
31Tiempo de respuesta
8 Sem6 Sem4 Sem2 Sem
95%
IC T
iem
po d
e re
apar
ició
n
14
12
10
8
6
4
2
0
Fuma
Si
No
32
Representación gráfica de las medias
de LNREAPAR en los grupos
establecidos por las combinaciones
de los valores de las variables
RESPUEST y TABACO.
33Tiempo de respuesta
8 Sem6 Sem4 Sem2 Sem
Tiem
po d
e re
apar
ició
n
18
16
14
12
10
8
6
4
2
0
Fuma
Si
No
34
CONCLUSIONESA partir de los resultados anteriores podemos concluir que, para predecir el tiempo de reaparición de los síntomas, es adecuado distinguir según el tiempo de respuesta al tratamiento y según si el paciente ha dejado de fumar o no.
Pablo A. Salgado email: psalgado@estadisticaaplicada.com.ar psalgado@fibertel.com.ar
Ejemplo ANOVA
Archivos:“Datos de empleados fin.sav”“Datos de empleados fin.xls
36
Variables:SexoEdad (años)Edad (agrupada)Nivel educativo (años)Nivel educativo (niveles)Categoría laboralSalario actualSalario inicialMeses desde el contratoExperiencia previa (meses)Situación social (minoría/mayoría)
37
ANOVA de un factor:Categorías laboral (VI) vs. Salario actual (VD).
Prueba de homogeneidad de varianzas
Salario actual
59,733 2 471 ,000
Estadísticode Levene gl1 gl2 Sig.
DescriptivosSalario actual
363 $27,838.54 $7,567.995 $397.217 $27,057.40 $28,619.68 $15,750 $80,00027 $30,938.89 $2,114.616 $406.958 $30,102.37 $31,775.40 $24,300 $35,25084 $63,977.80 $18,244.776 $1,990.668 $60,018.44 $67,937.16 $34,410 $135,000
474 $34,419.57 $17,075.661 $784.311 $32,878.40 $35,960.73 $15,750 $135,000
AdministrativoSeguridadDirectivoTotal
N MediaDesviación
típica Error típico Límite inferiorLímite
superior
Intervalo de confianza para lamedia al 95%
Mínimo Máximo
38
ANOVA de un factor:Categorías laboral vs. Salario actual.
ANOVA
Salario actual
89438483925,943 2 44719241963,0 434,481 ,00048478011510,397 471 102925714,459
137916495436,340 473
Inter-gruposIntra-gruposTotal
Suma decuadrados gl
Mediacuadrática F Sig.
Pruebas robustas de igualdad de las medias
Salario actual
162,200 2 117,312 ,000306,810 2 93,906 ,000
WelchBrown-Forsythe
Estadísticoa gl1 gl2 Sig.
Distribuidos en F asintóticamente.a.
39
Gráfico de medias
Categoría laboral
DirectivoSeguridadAdministrativo
Med
ia d
e Sa
lario
act
ual
70000
60000
50000
40000
30000
20000
40
Box Plot: Salario actual y Categoría laboral
41
Comparación Post hoc :Scheffé y Games Howell
Comparaciones múltiples
Variable dependiente: Salario actual
-$3,100.349 $2,023.760 ,310 -$8,069.80 $1,869.10-$36,139.258* $1,228.352 ,000 -$39,155.54 -$33,122.98
$3,100.349 $2,023.760 ,310 -$1,869.10 $8,069.80-$33,038.909* $2,244.409 ,000 -$38,550.17 -$27,527.65$36,139.258* $1,228.352 ,000 $33,122.98 $39,155.54$33,038.909* $2,244.409 ,000 $27,527.65 $38,550.17-$3,100.349* $568.679 ,000 -$4,454.82 -$1,745.88
-$36,139.258* $2,029.912 ,000 -$40,977.01 -$31,301.51$3,100.349* $568.679 ,000 $1,745.88 $4,454.82
-$33,038.909* $2,031.840 ,000 -$37,881.37 -$28,196.45$36,139.258* $2,029.912 ,000 $31,301.51 $40,977.01$33,038.909* $2,031.840 ,000 $28,196.45 $37,881.37
(J) Categoría laboralSeguridadDirectivoAdministrativoDirectivoAdministrativoSeguridadSeguridadDirectivoAdministrativoDirectivoAdministrativoSeguridad
(I) Categoría laboralAdministrativo
Seguridad
Directivo
Administrativo
Seguridad
Directivo
Scheffé
Games-Howell
Diferencia demedias (I-J) Error típico Sig. Límite inferior
Límitesuperior
Intervalo de confianza al95%
La diferencia de medias es significativa al nivel .05.*.
42
Subconjuntos Homogeneos:Scheffé
Salario actual
363 $27,838.5427 $30,938.8984 $63,977.80
,259 1,000
Categoría laboralAdministrativoSeguridadDirectivoSig.
Schefféa,bN 1 2
Subconjunto para alfa = .05
Se muestran las medias para los grupos en los subconjuntoshomogéneos.
Usa el tamaño muestral de la media armónica = 58,031.a.
Los tamaños de los grupos no son iguales. Se utilizará lamedia armónica de los tamaños de los grupos. Los niveles deerror de tipo I no están garantizados.
b.
Pablo A. Salgado email: psalgado@estadisticaaplicada.com.ar psalgado@fibertel.com.ar
Comparaciones planeadas a priori
Grupo de edades (VI)Salario actual (VD)
44
Prueba de homogeneidad de varianzas
Salario actual
18,491 4 468 ,000
Estadísticode Levene gl1 gl2 Sig.
Grupo de Edades vs. Salario actualDescriptivosSalario actual
129 $28,990.74 $10,369.639 $912.996 $27,184.22 $30,797.25 $18,150 $90,625141 $40,264.61 $15,759.889 $1,327.222 $37,640.62 $42,888.60 $21,900 $91,25036 $46,358.75 $24,242.481 $4,040.414 $38,156.27 $54,561.23 $20,850 $103,75033 $44,009.09 $22,209.593 $3,866.194 $36,133.91 $51,884.27 $22,050 $110,625
134 $27,922.35 $15,164.298 $1,309.996 $25,331.23 $30,513.47 $15,750 $135,000473 $34,418.45 $17,093.723 $785.970 $32,874.01 $35,962.88 $15,750 $135,000
Menos de 25 añosEntre 25 y 30 añosEntre 30 y 35 añosEntre 35 y 40 añosMás de 40 añosTotal
N MediaDesviación
típica Error típico Límite inferiorLímitesuperior
Intervalo de confianza parala media al 95%
Mínimo Máximo
Pruebas robustas de igualdad de las medias
Salario actual
20,048 4 118,544 ,00015,813 4 130,174 ,000
WelchBrown-Forsythe
Estadísticoa gl1 gl2 Sig.
Distribuidos en F asintóticamente.a.
45
Comparaciones múltiples
Variable dependiente: Salario actualScheffé
-$11,273.873* $1,913.802 ,000 -$17,192.43 -$5,355.31-$17,368.014* $2,960.844 ,000 -$26,524.62 -$8,211.41-$15,018.354* $3,064.258 ,000 -$24,494.77 -$5,541.93
$1,068.386 $1,937.538 ,990 -$4,923.58 $7,060.35$11,273.873* $1,913.802 ,000 $5,355.31 $17,192.43-$6,094.140 $2,933.225 ,366 -$15,165.33 $2,977.05-$3,744.481 $3,037.580 ,823 -$13,138.40 $5,649.44$12,342.259* $1,895.064 ,000 $6,481.65 $18,202.87$17,368.014* $2,960.844 ,000 $8,211.41 $26,524.62
$6,094.140 $2,933.225 ,366 -$2,977.05 $15,165.33$2,349.659 $3,785.610 ,984 -$9,357.59 $14,056.91
$18,436.399* $2,948.767 ,000 $9,317.14 $27,555.66$15,018.354* $3,064.258 ,000 $5,541.93 $24,494.77
$3,744.481 $3,037.580 ,823 -$5,649.44 $13,138.40-$2,349.659 $3,785.610 ,984 -$14,056.91 $9,357.59$16,086.740* $3,052.590 ,000 $6,646.40 $25,527.08-$1,068.386 $1,937.538 ,990 -$7,060.35 $4,923.58
-$12,342.259* $1,895.064 ,000 -$18,202.87 -$6,481.65-$18,436.399* $2,948.767 ,000 -$27,555.66 -$9,317.14-$16,086.740* $3,052.590 ,000 -$25,527.08 -$6,646.40
(J) Grupo de edadesEntre 25 y 30 añosEntre 30 y 35 añosEntre 35 y 40 añosMás de 40 añosMenos de 25 añosEntre 30 y 35 añosEntre 35 y 40 añosMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 35 y 40 añosMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 30 y 35 añosMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 30 y 35 añosEntre 35 y 40 años
(I) Grupo de edadesMenos de 25 años
Entre 25 y 30 años
Entre 30 y 35 años
Entre 35 y 40 años
Más de 40 años
Diferencia demedias (I-J) Error típico Sig. Límite inferior
Límitesuperior
Intervalo de confianza al 95%
La diferencia de medias es significativa al nivel .05.*.
46
Salario actual
Schefféa,b
134 $27,922.35129 $28,990.74141 $40,264.6133 $44,009.0936 $46,358.75
,998 ,323
Grupo de edadesMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 35 y 40 añosEntre 30 y 35 añosSig.
N 1 2
Subconjunto para alfa = .05
Se muestran las medias para los grupos en los subconjuntoshomogéneos.
Usa el tamaño muestral de la media armónica =62,199.
a.
Los tamaños de los grupos no son iguales. Se utilizarála media armónica de los tamaños de los grupos. Losniveles de error de tipo I no están garantizados.
b.
Subconjuntos Homogeneos
47
Comparaciones múltiples
Variable dependiente: Salario actualGames-Howell
-$11,273.873* $1,610.925 ,000 -$15,701.15 -$6,846.60-$17,368.014* $4,142.282 ,001 -$29,218.08 -$5,517.95-$15,018.354* $3,972.533 ,005 -$26,428.75 -$3,607.96
$1,068.386 $1,596.762 ,963 -$3,321.12 $5,457.89$11,273.873* $1,610.925 ,000 $6,846.60 $15,701.15-$6,094.140 $4,252.818 ,610 -$18,203.42 $6,015.14-$3,744.481 $4,087.661 ,889 -$15,421.11 $7,932.15$12,342.259* $1,864.834 ,000 $7,221.24 $17,463.28$17,368.014* $4,142.282 ,001 $5,517.95 $29,218.08
$6,094.140 $4,252.818 ,610 -$6,015.14 $18,203.42$2,349.659 $5,592.173 ,993 -$13,327.73 $18,027.05
$18,436.399* $4,247.473 ,001 $6,339.70 $30,533.10$15,018.354* $3,972.533 ,005 $3,607.96 $26,428.75
$3,744.481 $4,087.661 ,889 -$7,932.15 $15,421.11-$2,349.659 $5,592.173 ,993 -$18,027.05 $13,327.73$16,086.740* $4,082.100 ,003 $4,423.04 $27,750.44-$1,068.386 $1,596.762 ,963 -$5,457.89 $3,321.12
-$12,342.259* $1,864.834 ,000 -$17,463.28 -$7,221.24-$18,436.399* $4,247.473 ,001 -$30,533.10 -$6,339.70-$16,086.740* $4,082.100 ,003 -$27,750.44 -$4,423.04
(J) Grupo de edadesEntre 25 y 30 añosEntre 30 y 35 añosEntre 35 y 40 añosMás de 40 añosMenos de 25 añosEntre 30 y 35 añosEntre 35 y 40 añosMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 35 y 40 añosMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 30 y 35 añosMás de 40 añosMenos de 25 añosEntre 25 y 30 añosEntre 30 y 35 añosEntre 35 y 40 años
(I) Grupo de edadesMenos de 25 años
Entre 25 y 30 años
Entre 30 y 35 años
Entre 35 y 40 años
Más de 40 años
Diferencia demedias (I-J) Error típico Sig. Límite inferior
Límitesuperior
Intervalo de confianza al95%
La diferencia de medias es significativa al nivel .05.*.
48
49
50
Coeficientes de los contrastes
1 1 0 -1 -13 -2 -2 -2 3
Contraste12
Menos de25 años
Entre 25 y30 años
Entre 30 y35 años
Entre 35 y40 años
Más de40 años
Grupo de edades
Pruebas para los contrastes
-$2,676.10 $3,602.908 -,743 468 ,458
-$90,525.64 $9,905.028 -9,139 468 ,000-$2,676.10 $4,388.465 -,610 52,745 ,545
-$90,525.64 $12453.21 -7,269 101,853 ,000
Contraste1
21
2
Asumiendo igualdadde varianzas
No asumiendoigualdad de varianzas
Salario actual
Valor delcontraste Error típico t gl Sig. (bilateral)
Pablo A. Salgado email: psalgado@estadisticaaplicada.com.ar psalgado@fibertel.com.ar
ANOVA para
Medidas Repetidas
52
Hemos visto, dentro del modelo lineal general, lo que en el ámbito del diseño se denominan diseños factoriales completamente aleatorizados, en donde se asigna aleatoriamente a los sujetos a cada una de las condiciones experimentales que se deriven del número de factores que concurren en el diseño.
En este caso las fuentes de variabilidad del análisis representan las diferencias entre los sujetos sometidos a las distintas condiciones.
53
En contraste con esto, hay otro tipo de diseños,
en los que los sujetos pueden servir en todas o
en algunas de las condiciones o tratamientos.
En estas circunstancias, parte de la variabilidad
extraída en el análisis será el reflejo de la
variabilidad de cada sujeto, y esta es la razón por
la cual a este tipo de diseños se les denomina
diseños intra-sujetos o diseños de medidas
repetidas.
54
Los modelos de ANOVA con medidas repetidas (MR) sirven para estudiar el efecto de uno o mas factor intra-sujetos y se caracteriza porque todos los los neviveles del factor (si hay mas de uno) se aplican a los mismos sujetos.
El diseño mas simple de MR consiste en medir dos variables en una misma muestra de sujetos. Los datos de este diseño, como vimos, se analizan con la prueba t de Student para muestras relacionadas.
55
Pero los diseños de MR pueden tener mas de dos medidas y mas de un factor.Las ventajas del diseño de MR son que requiere menos sujetos que un diseño aletorizado y permite eliminar la variación residual debida a las diferencias entre sujetos ya que son los mismos.Pero hay que analizar algunos efectos atribuibles a la utilización de los mismos sujetos, tales como efectos de arrastre (analizar un efecto sin esperar que finalice el efecto tomado anteriormente) o de aprendizaje entre las series (mejora con la repetición).
56
En las ciencias del comportamiento, una alta proporción de los diseños que se llevan a cabo son de este tipo por la ventajas que suponen.Son diseños que permiten estudiar cambios en conductas tales como aprendizaje, entrenamiento, recuerdo, cambio de actitudes, etc.Además son particularmente sensibles y eficientes, en el sentido de que son más económicos en cuanto al número de sujetos, en comparación con los diseños entre-sujetos.
Pablo A. Salgado email: psalgado@estadisticaaplicada.com.ar psalgado@fibertel.com.ar
Diseño de un factor con medidas repetidas
Archivos:“lectura medidas repetidas.sav”“lectura medidas repetidas.xls”
58
Es el caso más simple:
Un grupo de sujetos pasa por todas las condiciones o niveles de un único factor.
Para llevar a cabo el análisis vamos a utilizar un conjunto de datos basados en un experimento de atención, en el cual, a cada sujeto, se le dan cinco páginas impresas, asignadas en sentido aleatorio.
Cada página tienen un nivel de dificultad de lectura ascendente (menos difícil el nivel 1 y más difícil el nivel 4) y cada una contiene el mismo número de errores tipográficos.
Diseño de un factor intra-sujetos
59
Sujetos n1 n2 n3 n4
1 14 12 7 6
2 15 10 9 9
3 16 8 11 9
4 13 11 8 9
5 16 12 7 12
6 16 10 8 11
7 14 13 12 10
8 12 8 11 7
9 11 8 8 10
Los sujetos tenían que localizar los errores y la VD es el número de errores identificados correctamente.
60
SintaxisGLM
n1 n2 n3 n4/WSFACTOR = factor1 4 Polynomial/METHOD = SSTYPE(3)/PLOT = PROFILE( factor1 )/EMMEANS = TABLES(factor1) COMPARE ADJ(BONFERRONI)
/PRINT = OPOWER/CRITERIA = ALPHA(.05)/WSDESIGN = factor1 .
61
Factores intra-sujetos
Medida: MEASURE_1
n1n2n3n4
factor11234
Variabledependiente
Contrastes multivariadosc
,898 17,582b 3,000 6,000 ,002 52,747 ,994,102 17,582b 3,000 6,000 ,002 52,747 ,994
8,791 17,582b 3,000 6,000 ,002 52,747 ,9948,791 17,582b 3,000 6,000 ,002 52,747 ,994
Traza de PillaiLambda de WilksTraza de HotellingRaíz mayor de Roy
Efectofactor1
Valor FGl de lahipótesis Gl del error Significación
Parámetro deno centralidad
Potenciaobservadaa
Calculado con alfa = ,05a.
Estadístico exactob.
Diseño: Intersección Diseño intra sujetos: factor1
c.
62
La primera tabla es la de los contrastes multivariados, que ofrece cuatro estadísticos: la Traza de Pillai, la Lamdba de Wilks, la Traza de Hotelling y la Raíz mayor de Roy.Su interpretación es la misma que la de cualquier estadístico: si el nivel crítico es < 0,05 se rechaza la hipótesis de igualdad de medias de los tratamientos.En nuestro caso, efectivamente, se puede decir que el número de errores tipográficos detectados depende del nivel de dificultad de lectura de la página.
63
En los modelos de medidas repetidas es necesario trabajar con el supuesto de que las varianzas de las diferencias entre cada dos niveles del factor MR son iguales.
En este ejemplo (4 medidas) pueden hacerse 6 pares de combinaciones de a dos por cada nivel (1-2, 1-3, 1-4, 2-3, 2-4, 3-4).
64
En el modelo de un factor MR se asume que las varianzas de esas 6 variables son iguales.Este supuesto equivale a a afirmar que la matriz de varianzas-covarianzas es circularoesférica (circularidad de la matriz de varianzas-covarianzas).El procedimiento de MR ofrece para
contrastarlo la prueba de esfericidad de Mauchly.
65
Prueba de esfericidad de Mauchlyb
Medida: MEASURE_1
,819 1,344 5 ,931 ,885 1,000 ,333Efecto intra-sujetosfactor1
W de MauchlyChi-cuadrado
aprox. gl SignificaciónGreenhouse-Geisser Huynh-Feldt Límite-inferior
Epsilona
Contrasta la hipótesis nula de que la matriz de covarianza error de las variables dependientes transformadas es proporcional auna matriz identidad.
Puede usarse para corregir los grados de libertad en las pruebas de significación promediadas. Las pruebas corregidasse muestran en la tabla Pruebas de los efectos inter-sujetos.
a.
Diseño: Intersección Diseño intra sujetos: factor1
b.
Para contrastar el supuesto, el procedimiento Medidas repetidas aporta la prueba de esfericidad W de Mauchly, que para los datos que se analizan nos lleva a aceptar dicha hipótesis, que indica igualdad en las varianzas.
66
Si se rechaza el estadístico W: se ofrecen dos soluciones alternativas.La primera es basar la decisión en los contrastes multivariados, que no están afectados por el incumplimiento de dicho supuesto.La segunda es utilizar el estadístico F univariado aplicando un factor de corrección denominado Épsilon el cual expresa el grado en que la matriz de varianzas-covarianzas se aleja de la esfericidad.Son dos las estimaciones de épsilon: la de Greenhouse-Geisser y la Huynh-FeldtEl tercer valor ofrecido, Límite inferior, es el valor más extremo que alcanzaría épsilon en el caso de un incumplimiento máximo de la esfericidad.
Pruebas de efectos intra-sujetos.
Medida: MEASURE_1
152,306 3 50,769 15,632 ,000 46,897 1,000152,306 2,656 57,342 15,632 ,000 41,520 1,000152,306 3,000 50,769 15,632 ,000 46,897 1,000152,306 1,000 152,306 15,632 ,004 15,632 ,932
77,944 24 3,24877,944 21,249 3,66877,944 24,000 3,24877,944 8,000 9,743
Esfericidad asumidaGreenhouse-GeisserHuynh-FeldtLímite-inferiorEsfericidad asumidaGreenhouse-GeisserHuynh-FeldtLímite-inferior
Fuentefactor1
Error(factor1)
Suma decuadrados
tipo III glMedia
cuadrática F SignificaciónParámetro deno centralidad
Potenciaobservadaa
Calculado con alfa = ,05a.
67
Respecto de los contrastes, el procedimiento ofrece por defecto contrastes de tipo Polinómico, que permite analizar la tendencia de los datos (lineal, cuadrática, cúbica, etc.). Si no se modifica esta opción por defecto la tabla con los contrastes Polinómicos y se denomina Prueba de los contrastes intra-sujetos.
Pruebas de contrastes intra-sujetos
Medida: MEASURE_1
113,606 1 113,606 47,974 ,000 47,974 1,00038,028 1 38,028 11,385 ,010 11,385 ,839
,672 1 ,672 ,167 ,694 ,167 ,06518,944 8 2,36826,722 8 3,34032,278 8 4,035
factor1LinealCuadráticoCúbicoLinealCuadráticoCúbico
Fuentefactor1
Error(factor1)
Suma decuadrados
tipo III glMedia
cuadrática F SignificaciónParámetro deno centralidad
Potenciaobservadaa
Calculado con alfa = ,05a.
68
Los resultados de esta prueba nos indica que el mejor contraste que diferencia las 4 medidas es el contraste lineal y cuadrático.
Esto significa que las medidas de los errores de tipográfico a medida que aumenta la dificultad en la lectura se ajustan significativamente a una recta (comportamiento lineal) como a una curva (comportamiento cuadrático).
69
factor1
Medida: MEASURE_1
14,111 ,611 12,702 15,52010,222 ,641 8,745 11,700
9,000 ,624 7,562 10,4389,222 ,619 7,796 10,649
factor11234
Media Error típ. Límite inferiorLímite
superior
Intervalo de confianza al95%.
La tabla siguiente permite obtener el promedio estimado para cada nivel medido con su intervalo de confianza.
70
Comparaciones por pares
Medida: MEASURE_1
3,889* ,735 ,004 1,332 6,4465,111* ,904 ,003 1,965 8,2574,889* ,676 ,001 2,538 7,240
-3,889* ,735 ,004 -6,446 -1,3321,222 ,983 1,000 -2,197 4,6421,000 ,816 1,000 -1,840 3,840
-5,111* ,904 ,003 -8,257 -1,965-1,222 ,983 1,000 -4,642 2,197
-,222 ,940 1,000 -3,491 3,046-4,889* ,676 ,001 -7,240 -2,538-1,000 ,816 1,000 -3,840 1,840
,222 ,940 1,000 -3,046 3,491
(J) factor1234134124123
(I) factor11
2
3
4
Diferenciaentre
medias (I-J) Error típ. Significacióna Límite inferiorLímite
superior
Intervalo de confianza al 95% para la diferenciaa
Basadas en las medias marginales estimadas.La diferencia de las medias es significativa al nivel ,05.*.
Ajuste para comparaciones múltiples: Bonferroni.a.
71
Por ultimo se comparan de a pares las 4 medidas para determinar en cuales se encuentran diferencias estadísticamente significativas.
Se observa que el factor 1 se diferencia de los niveles 2, 3 y 4; pero entre los niveles 2 3 y 4 no se observan diferencias estadisticamentesignificativas.
72
73
74
Por ultimo se comparan de a pares las 4 medidas para determinar en cuales se encuentran diferencias estadísticamente significativas.
Se observa que el factor 1 se diferencia de los niveles 2, 3 y 4; pero entre los niveles 2 3 y 4 no se observan diferencias estadisticamentesignificativas.
75
A medida que aumenta la complejidad de la lalectura disminuyen los errores detectados.
La diferencia se da entre el nivel 1 y los demás niveles.
No se observan diferencias en los errores entre los niveles de complejidad 2,3 y 4.
CONCLUSIONES