teo es23 1 - · Î Estimación por mínimos cuadrados (justificado en clase): se presentan como...
Transcript of teo es23 1 - · Î Estimación por mínimos cuadrados (justificado en clase): se presentan como...
ESTADÍSTICA
FACULTAT D’INFORMÀTICA
APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 7: ANÀLISI DE LA VARIANÇA I COVARIANÇA
AUTORA: Lídia Montero Mercadé
Departament d’Estadística i Investigació Operativa Versió 1.0
Setembre del 2.004
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-2
TABLA DE CONTENIDOS
INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-3
INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-4
INTRODUCCIÓN
El Modelo Lineal General es el tratamiento de los modelos ANOVA y ANCOVA por técnicas de regresión lineal.
Formulación, estimación y contrastes de significación habituales: modelos ANOVA con uno y dos factores por regresión
Formulación, estimación de los modelos ANCOVA por regresión lineal a partir de un caso de estudio
Desarrollo de 6 Casos de Estudio e interpretación de los resultados del paquete MINITAB para Windows; paquete estadístico de soporte de la docencia en el Departamento.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-5
INTRODUCCIÓN (CONT.)
El Tema 6 de Regresión Normal Clásica ha presentado:
El modelo de regresión permite medir el efecto relativo de cada variable explicativa sobre la respuesta y hacer predicciones sobre la respuesta conocido el valor de las variables explicativas
Estimación por mínimos cuadrados (justificado en clase): se presentan como aquellos que satisfacen las ecuaciones normales. Aspectos geométricos y estadísticos.
Se conoce el principio de la varianza incremental para contrastación, la interpretación de la tabla ANOVA y la diagnosis y validación del modelo vía el análisis de los residuos.
La notación a emplear y un breve resumen de lo expuesto durante el Tema 2 es...
Sea Y la variable de respuesta representada por un vector de n observaciones nyy K1 . Se va a suponer la existencia de un término independiente asociado al parámetro 0β .
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-6
INTRODUCCIÓN (CONT.)
La notación empleada y un breve resumen de lo expuesto... Sean pXX K1 las variables explicativas o regresores, vectores de observaciones de dimensión n>p. El modelo de regresión múltiple presentado es el siguiente:
ipipii xxy εβββ ++++= L110 para ni ,,1K= o εβ += XY
=
ny
yM1
Y ,
=
pnn
p
p
xx
xxxx
L
MMMM
L
L
1
212
111
1
11
X ,
=
pβ
βM
0
β y
=
nε
εM1
ε .
Las hipótesis clásicas ligadas al término de error ε : • Errores mutuamente independientes con [ ] [ ] niii K1V,0E 2 === σεε . • Errores distribuidos normalmente, ésto es, ( )I0N 2,σn≈ε . La estimación se resume en b solución de las ecuaciones normales: YXXbX TT = ó
( ) ( ) ( )YHIeXXXXHYXXXb T1TT1T −====−− ,, β
) y
12
−−=
pns eeT
.
La distribución de los estimadores responde a ( )1T X)(XN −
+≈ 21 ,ˆ σββ p y 1
22 −−≈ pnχσ
eeT .
El test de regresión mediante el estadístico de Fisher es 12 −−≈ pnpFspSCM
, , ( )∑=
−=−=n
ii
T yyynYYSCM1
22 ˆˆˆ
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-7
INTRODUCCIÓN (CONT.)
La extensión de los modelos de regresión lineal para el tratamiento del análisis de la varianza y de la covarianza se denomina Modelo Lineal General. El análisis de la varianza es un método para el análisis de datos procedentes del diseño experimental frecuentemente empleado ...
Resulta desconocido por muchos ingenieros e investigadores que los modelos de análisis de varianza pueden tratarse a través de los procedimientos generales de regresión lineal (múltiple) tomando determinadas precauciones: ya que los modelos ANOVA resultan sobreparametrizados
El tratamiento del análisis de la varianza mediante regresión lineal enfatiza la existencia de un
modelo subyacente: el modelo de análisis de la varianza
La diagnosis y validación de los modelos ANOVA (y ANCOVA) puede remitirse a los procedimientos generales de análisis de los residuos empleados en regresión múltiple, con la ventaja de ser procedimientos gráficos y que entran por los ojos
Además, la formulación por regresión hace más llevadero el trabajo con experimentos con un
número de réplicas distintas (diseños no balanceados, o balanceados inicialmente, pero con problemas posteriores) o diseños complejos
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-8
INTRODUCCIÓN (CONT.)
Sin embargo, no hay que confundir el diseño de experimentos y la regresión...
La clave en el diseño de experimentos radica en cómo diseñar X (la decisión de cómo recoger la información); por el contrario, en regresión, la matriz X viene dada
El tratamiento por regresión de los problemas ANOVA involucra la definición de un conjunto de
variables mudas (dummies), pero hay muchas maneras de efectuar la definición, algunas más convenientes que otras, en la práctica, para la extensión a modelos complejos.
La exposición trata modelos de regresión lineal de la forma,
εβ += XY con ( )I0N 2,σn≈ε ,
donde la matriz de diseño X puede contener variables mudas para el análisis de la varianza (ANOVA) o variables mudas más variables continuas (covariantes) para el análisis de la covarianza (ANCOVA). Modelos de efectos fijos.
La presentación formal del modelo lineal general se puede consultar en Fox (1.997).
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-9
INTRODUCCIÓN: ESQUEMA DE LA PRESENTACIÓN
Caso de Estudio 1 : Análisis de la Varianza de un factor (One-Way ANOVA)
Se presenta la tabla ANOVA y el proceder del contraste de homogeneidad de medias. ... para posteriormente formular, interpretar y discutir diversos modelos de regresión lineal
equivalentes ... y mostrar preferencia por la propuesta de suma cero. Diagnosis del Modelo: análisis de los residuos.
Caso de Estudio 3: Análisis de la Varianza con dos factores (Two-Way ANOVA)
Se presentan los modelos aditivos e interactivos y los contrastes habituales (Tema 4) ... para posteriormente formular, a partir de variables dummies, los modelos de regresión lineal
equivalentes y detallar el procedimiento de los contrastes de significación habituales . Caso de estudio con factores anidados donde se ilustra la potencia de la metodología de análisis
expuesta: Caso de Estudio 5.
Caso de Estudio 6: Introducción al Análisis de la Covarianza (ANCOVA)
Tratamiento y formulación por regresión lineal ... se detallan algunas pautas de análisis de modelos ANCOVA.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-10
INTRODUCCIÓN
EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-11
CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (1)
1.1.1 Caso de Estudio 1 (Ejemplo de MINITAB v1.1) Una consultora de Ingeniería e Informática quiere evaluar la reducción de horas-hombre que supone la introducción de una nueva herramienta de cálculo, un programa nuevo con mayores requerimientos de hardware, pero con unas prestaciones superiores según los artículos aparecidos en revistas especializadas de software. La empresa dispone de 6 ingenieros senior y se diseña un experimento aleatorizado que asigna a cada ingeniero 4 problemas, de dos tipos (Factor B), 2 de sistemas lineales y 2 de modelización estadística, a resolver aleatoriamente, uno de cada, con la nueva herramienta y con la habitual (Factor A). Se contabiliza el tiempo de resolución en minutos y se introducen los datos en el programa estadístico MINITAB.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-12
Adams Dixon EricksonJones Maynes Williams
2
3
4
5
6
7
8
FACTOR A
TIEM
PO
NEW OLD
INGENIERO
CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (2)
Datos y Resultados MINITAB ... Worksheet size: 100000 cells MTB > Retrieve "G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas1.mtw". Retrieving worksheet from file: G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas1.mtw Current worksheet: Cas1.mtw MTB > Plot 'TIEMPO'*'FACTOR A'; SUBC> Symbol 'INGENIERO'; SUBC> ScFrame; SUBC> ScAnnotation. MTB > Oneway 'TIEMPO' 'FACTOR A'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,11 72,11 70,78 0,000 Error 22 22,41 1,02 Total 23 94,52 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -----+---------+---------+---------+- New 12 2,925 0,538 (----*---) Old 12 6,392 1,322 (---*---) -----+---------+---------+---------+- Pooled StDev = 1,009 3,0 4,5 6,0 7,5 MTB > PRINT C1-C7
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-13
2,51,50,5
95% Confidence Intervals for Sigmas
OLD
NEW
8765432
TIEMPO
P-Value : 0,000
Test Statistic: 32,248
t Levene's Test
P-Value : 0,006
Test Statistic: 6,042
F-Test
Factor Levels
1
0
Homogeneity of Variance Test for TIEMPO
Data Display Row TIEMPO INGENIERO FACTOR B FACTOR A D1B D1A D2A 1 3,1 Jones Stat New 1 1 0 2 7,5 Jones Stat Old 1 0 1 3 2,5 Jones Eng New 0 1 0
... 24 4,8 Maynes Eng Old 0 0 1 MTB>%Vartest 'TIEMPO''FACTOR A' SUBC> Confidence 95,0. Homogeneity of Variance Response TIEMPO Factors FACTOR A ConfLvl 95,0000 F-Test (normal distribution) Test Statistic: 6,042 P-Value : 0,006 Levene's Test (any continuous distribution) Test Statistic: 32,248 P-Value : 0,000
MTB > TwoT 95,0 'TIEMPO' 'FACTOR A'; SUBC> Alternative 0. Two Sample T-Test and Confidence Interval Two sample T for TIEMPO FACTOR A N Mean StDev SE Mean New 12 2,925 0,538 0,16 Old 12 6,39 1,32 0,38 95% CI for mu (New) - mu (Old): ( -4,35; -2,58) T-Test mu (New) = mu (Old) (vs not =): T = -8,41 P = 0,0000 DF = 14
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-14
MTB > TwoT 95,0 'TIEMPO' 'FACTOR A'; SUBC> Alternative -1. Two Sample T-Test and Confidence Interval Two sample T for TIEMPO FACTOR A N Mean StDev New 12 2,925 0,538 Old 12 6,39 1,32 95% CI for mu (New) - mu (Old): ( -4,35; -2,58) T-Test mu (New) = mu (Old) (vs <): T = -8,41 P = 0,0000 DF = 14 MTB > TwoT 95,0 'TIEMPO' 'FACTOR A'; SUBC> Alternative 0; SUBC> Pooled. Two Sample T-Test and Confidence Interval Two sample T for TIEMPO FACTOR A N Mean StDev New 12 2,925 0,538 Old 12 6,39 1,32 95% CI for mu (New) - mu (Old): ( -4,32; -2,61) T-Test mu (New) = mu (Old) (vs not =): T = -8,41 P = 0,0000 DF = 22 Both use Pooled StDev = 1,01 MTB > ANOVA 'TIEMPO' = 'FACTOR A'. Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 2 New Old Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 70,78 0,000 Error 22 22,412 1,019 Total 23 94,518
210-1-2
2
1
0
-1
-2
Nor
mal
Sco
re
Residual
Normal Probability Plot of the Residuals(response is TIEMPO)
101100 :: µµµµ ≠= HH
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-15
CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (5)
Comentarios ... El diagrama bivariante, tiempo de resolución (Y) frente al Factor A sugiere que el nuevo
programa reduce el tiempo de resolución.
ONEWAY, la tabla ANOVA muestra un valor del estadístico F de 70,78 que contrastado con un nivel de confianza del 95% facilita el nivel de significación de la hipótesis nula 10: µµ =0H ,
frente a la hipótesis alternativa 101 : µµ ≠H p=0 ( 05.0=α y F1,22) .
BasicStatistics → 2-Sample t... de MINITAB, t=8,41 con 14 grados de libertad, pero son 22: la opción Assume equal variances y contraste bilateral de 2-Sample t de MINITAB facilita el mismo contraste que ONEWAY.
La hipótesis de homogeinidad de la varianzas no se satisface: 21
200 : σσ =H , frente a la hipótesis
alternativa 21
201 : σσ ≠H muestra un nivel de significación inferior al 1% a un nivel 05.0=α
(ANOVA → Homogeniety of Variance).
En general, los diseños experimentales suelen contar con más de un factor y se abordan con los procedimientos MINITAB: ANOVA (Balanced Designs), Two-Way ANOVA y GLM.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-16
CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (6)
Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 2 New Old Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 70,78 0,000 Error 22 22,412 1,019 Total 23 94,518 Means FACTOR 1 N TIEMPO New 12 2,9250 Old 12 6,3917
La tabla ANOVA es idéntica a la obtenida con el
procedimiento ONEWAY: existen diferencias significativas entre el tiempo empleado con el programa nuevo y el habitual a un nivel 05.0=α . Sin embargo, no se sabe si es apropiado el modelo ANOVA: falta su diagnosis y validación.
El análisis de los residuos para la diagnosis y validación del modelo puede efectuarse
almacenando los residuos y procediendo como se conoce del análisis de los residuos en regresión múltiple (normal P-P plot, diagramas bivariantes de los residuos, etc.)
Adams Dixon EricksonJones Maynes Williams
-2
-1
0
1
2
FACTOR A
TRES
1
NEW OLD
INGENIERO
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-17
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (1)
El modelo ANOVA de un factor (genéricamente con I niveles). Se fijan las ideas en el Caso de Estudio 2: formulación y construcción de los modelos de regresión, interpretación de sus parámetros y discusión de su empleo en inferencia.
Grupo 1 111211 ,,, nyyy L Media 1y Grupo 2 222221 ,,, nyyy L Media 2y ... ... ... Grupo I IInII yyy ,,, 21 L Media Iy
(1) ijiijY εµ += , I parámetros y ( )I0N 2,σn≈ε .
(2) ijiijY εαµ ++= , µ es la esperanza del efecto para todos los niveles, I+1 parámetros.
La hipótesis nula habitual es que no hay diferencias entre las medias de los grupos:
(1) µµµ === IL1:0H frente :1H Alguna iµ distinta. (2) 0: 1 === Iαα L0H frente 0: ≠∃ iα1H .
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-18
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (2)
(R 1) Sea ijiijY εµ += , la formulación por regresión resultante es,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y,
} } }
{
{
=
10000010001
X
I21
OMM
L
L
,
=
Iµ
µM1
β ,
−
=
IJ
I
J
ε
ε
ε
ε
M
M
M
1
1
11
_ε
de manera que el estimador de los parámetros tiene es la media de los grupos, suponiendo el número de réplicas por clase idéntico e igual a J ( IiJni ,,1K== ).
La desventaja de esta formulación es que no puede extenderse a más de un factor y por tanto,
la generalización de la formulación ANOVA a partir de (2).
( )
=
==
∑
∑
=
=
−
−
IJ
j Ij
J
j j
y
y
y
y
J
JMMO1
1
1 11
0
0YXXXb T1T
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-19
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (3)
(R 2) ijiijY εαµ ++= El modelo de regresión correspondiente tiene I+1 parámetros y XXT es singular,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y,
} } } } }
=
===
100101
001010100011
X
Ii2i1i1
L
MLM
MM
M
L
,
=
Iα
αµ
M1β ,
−
=
IJ
I
J
ε
ε
ε
ε
M
M
M
1
1
11
_ε
,
=
JJ
JJJJn
0000
0OM
L
XXT
No existe una solución única a las ecuaciones normales, sinó infinitas y todas ellas facilitan una suma de cuadrados de los residuos de igual valor.
Técnicamente, existen infinitas posibilidades de formular un modelo de regresión equivalente,
pero con solución única, basta añadir cualquier restricción del tipo 010 =+∑ =
I
i iiαωµω . Se van a ver dos posibilidades ...
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-20
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (4)
(R 3) ijiijY εαµ ++= más la restricción 0=Iα . Si el número de réplicas por clase es idéntico e igual a J el modelo de regresión equivalente es,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y,
In×
=
0011
1010011
X R
L
OMM
M
,
=
−1
1R
Iα
αµ
Mβ ,
I parámetros. El efecto del nivel I viene expresado por µ y el efecto aditivo debido al nivel i por iα .
Sin embargo, la formulación más habitual contempla µ como la media global y iα como el efecto diferencial (positivo o negativo) debido al nivel i-ésimo sobre la media global.
( )
−
−==
−
−
II
I
I
yy
yyy
1
1
MYXXXb T
R
1
RT
R
−
=
IJ
I
J
ε
ε
ε
ε
M
M
M
1
1
11
_ε
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-21
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (5)
(R 4) ijiijY εαµ ++= más la restricción 01
=∑ =
I
i iα (o ∑ −
=−=
1
1
I
i iI αα ): el efecto medio viene
expresado por µ y el efecto aditivo debido al nivel i por iα ,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y,
Inx
−−
=
1111
1010011
XR
L
OMM
M
,
=
−1
1R
Iα
αµ
Mβ
,
−
=
IJ
I
J
ε
ε
ε
ε
M
M
M
1
1
11
_ε
( )
−
−===
−
−
yy
yyy
I
RRR
1
1R
MYXXXb T1T
El número de parámetros es I . La matriz RR XX T es no singular de dimensiones IxI . Las
columnas de la matriz de diseño o variables mudas (dummies) se notan como 11 ,, −IDD L .
La última de la propuesta produce una estimación de los parámetros tales que,
I
I
i i∑ == 1ˆ
ˆµ
µ , µµα ˆˆ −= ii y ∑ −
=−=
1
1
I
i iI αα de donde iiij yyy =+= αˆ .
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-22
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (6)
La contrastación de la hipótesis nula 0: 1 === Iαα L0H frente a la hipótesis alternativa
0: ≠∃ iα1H en (R 4) ijiijY εαµ ++= más la restricción de suma cero es, Si H1 es correcta la suma de cuadrados de los residuos correspondiente al modelo completo SCR1,
satisface 2
21
InSCR
−≈ χσ .
Si además 0: 1 === Iαα L0H es correcta entonces ( )∑∑ −== 2yySCTSCR ijo , 212
0−≈ n
SCR χσ y
de ahí, 212
10−≈−I
SCRSCR χσ y
InIInSCR
ISCRSCR
f −−≈−−
−= ,1
110
1F
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-23
CONTINUACIÓN DEL CASO DE ESTUDIO 1 (1)
Se definen las variables mudas de las propuestas (R1) a (R4) y se comparan los resultados del procedimiento Stat Regression Regression de MINITAB. Códigos: I=2 i=1 ‘Old’ e i=2 ‘New’.
D1A 1 si Old y 0 de otro modo (New). D2A 0 si Old y 1 si New. Regression Analysis The regression equation is TIEMPO = 6,39 D1A + 2,93 D2A Predictor Coef StDev T P Noconstant D1A 6,3917 0,2914 21,94 0,000 D2A 2,9250 0,2914 10,04 0,000 S = 1,009 Analysis of Variance Source DF SS MS F P Regression 2 592,91 296,45 291,01 0,000 Residual Error 22 22,41 1,02 Total 24 615,32 Source DF Seq SS D1A 1 490,24 D2A 1 102,67
(R 1)
93,2ˆˆ39,6ˆˆ
222
111
======
αα
yyyy
j
j
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-24
CONTINUACIÓN DEL CASO DE ESTUDIO 1 (2)
Definición del modelo de regresión estándar (R2), sin considerar la dependencia lineal de las columnas de la matriz de diseño: MINITAB detecta la singularidad y toma la decisión de eliminar una de las columnas, la del nivel 2, lo que facilita el modelo de regresión restringido (R3). Códigos: I=2 i=1 ‘Old’ e i=2 ‘New’.
D1A 1 si Old y 0 de otro modo (New). D2A 0 si Old y 1 si New.
Regression Analysis * D2A is highly correlated with other X variables * D2A has been removed from the equation The regression equation is TIEMPO = 2,93 + 3,47 D1A Predictor Coef StDev T P Constant 2,9250 0,2914 10,04 0,000 D1A 3,4667 0,4121 8,41 0,000 S = 1,009 R-Sq = 76,3% R-Sq(adj) = 75,2% Analysis of Variance Source DF SS MS F P Regression 1 72,107 72,107 70,78 0,000 Residual Error 22 22,412 1,019 Total 23 94,518
(R 3)
93,2ˆˆ39,6ˆˆˆˆ
22
12111
====+=+==
µααµ
yyyyy
j
j
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-25
CONTINUACIÓN DEL CASO DE ESTUDIO 1 (3)
Modelo de regresión restringido (R4): D1A 1 si Old y –1 de otro modo (New).
El término independiente estimado proporciona el valor medio del efecto que debe incrementarse en 1,73 minutos para estimar la media del programa habitual y decrementarse en la misma cantidad para reflejar la media estimada para el programa nuevo.
La varianza estimada del modelo coincide con el valor facilitado por los procedimientos ONEWAY y Balanced ANOVA y el coeficiente de determinación del modelo es del 76,3%.
MTB > LET ‘D1A’= ‘D1A’ – ‘D2A’ MTB > REGRESS ‘TIEMPO’ 1 ‘D1A’; SUBC > Constant. MTB > Regression Analysis The regression equation is TIEMPO = 4,66 + 1,73 D1A Predictor Coef StDev T P Constant 4,6583 0,2060 22,61 0,000 D1A 1,7333 0,2060 8,41 0,000 S = 1,009 R-Sq = 76,3% R-Sq(adj) = 75,2% Analysis of Variance Source DF SS MS F P Regression 1 72,107 72,107 70,78 0,000 Residual Error 22 22,412 1,019 Total 23 94,518
(R 4)
93,2ˆˆˆˆˆ39,673,166,4ˆˆˆ
1222
111
=−=+===+=+==
αµαµαµ
yyyy
j
j
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-26
CASO DE ESTUDIO 2 (DRAPER Y SMITH, 81)
Modelo ANOVA con un factor de 3 niveles que va a tratarse por regresión. En la misma empresa, se desea evaluar el efecto del consumo de café, 0, 1 y 2 tazas, en el número de pulsaciones por minuto de las 30 personas de personal de soporte que tiene en plantilla. Inicialmente se quiere dar respuesta a la cuestión de si el consumo de café tiene algún efecto significativo sobre el número de pulsaciones (y de ahí, la actividad del personal de soporte).
Datos y Resultados MINITAB MTB > PRINT C1-C2 Data Display Row PULSACS FACTOR1 1 242 0 2 245 0 3 244 0 4 248 0 ... 30 250 2
210
252
247
242
FACTOR A
PULS
ACS
MTB > ANOVA 'PULSACS' = 'FACTOR A'. Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 3 0 1 2 Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 2 61,400 30,700 6,18 0,006 Error 27 134,100 4,967 Total 29 195,500 MTB > Oneway ' PULSACS' 'FACTOR A'; SUBC> Tukey 5; SUBC> GNormalplot; SUBC> GFits.
One-way Analysis of Variance Analysis of Variance for PULSACS Source DF SS MS F P FACTOR A 2 61,40 30,70 6,18 0,006 Error 27 134,10 4,97 Total 29 195,50
Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ---+---------+---------+---------+-- 0 10 244,80 2,39 (------*------) 1 10 246,40 2,07 (------*------) 2 10 248,30 2,21 (-------*------) ----+---------+---------+--------- Pooled StDev =2,23 244,0 246,0 248,0 250,0
MTB > Code (0) 1 (1) 0 (2) 0 'FACTOR A' ‘D01A’ MTB > Code (0) 0 (1) 1 (2) 0 'FACTOR A' ‘D02A’ MTB > Code (0) 0 (1) 0 (2) 1 'FACTOR A' ‘D03A’ MTB > Regress ' PULSACS' 3 'D01A' 'D02A' 'D03A'; SUBC> Constant. Regression Analysis * D03A is highly correlated with other X variables * D03A has been removed from the equation The regression equation is PULSACS = 248 - 3,50 D01A - 1,90 D02A Predictor Coef StDev T P Constant 248,300 0,705 352,33 0,000 D01A -3,5000 0,9967 -3,51 0,002 D02A -1,9000 0,9967 -1,91 0,067 S = 2,229 R-Sq = 31,4% R-Sq(adj) = 26,3% Analysis of Variance Source DF SS MS F P Regression 2 61,400 30,700 6,18 0,006 Residual Error 27 134,100 4,967 Total 29 195,500
(R 3)
3,248ˆˆ4,2469,13,248ˆˆ8,2445,33,248ˆˆ
33
2322
1311
====−=+===−=+==
µαα
yyyyyyyy
j
j
j
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-28
210
2
1
0
-1
-2
FACTOR A
TRES
3
MTB > LET ‘D1A’ = ‘D01A’-‘D03A’ MTB > LET ‘D1B’ = ‘D02A’-‘D03A’ MTB > Name c8 = 'TRES3' MTB > Regress ' PULSACS' 2 'D1A' 'D2A'; SUBC> Tresiduals 'TRES3'; SUBC> Constant. Regression Analysis The regression equation is PULSACS = 247 - 1,70 D1A - 0,100 D2A Predictor Coef StDev T P Constant 246,500 0,407 605,82 0,000 D1A -1,7000 0,5754 -2,95 0,006 D2A -0,1000 0,5754 -0,17 0,863 S = 2,229 R-Sq = 31,4% R-Sq(adj) = 26,3% Analysis of Variance Source DF SS MS F P Regression 2 61,400 30,700 6,18 0,006 Residual Error 27 134,100 4,967 Total 29 195,500 Source DF Seq SS D1A 1 61,250 D2A 1 0,150 MTB > Plot 'TRES3'*'FACTOR A'; 3,248ˆˆˆˆˆˆ
4,2461,05,246ˆˆˆ8,2447,15,246ˆˆˆ
21333
222
111
=−−=+===−=+===−=+==
ααµαµαµαµ
yyyyyy
j
j
j
(R 4)
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-29
INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-30
CASO DE ESTUDIO 3: EL MODELO ANOVA DE DOS FACTORES
1.1.2 Caso de Estudio 1 (Ejemplo de MINITAB v1.1) Una consultora de Ingeniería e Informática quiere evaluar la reducción de horas-hombre que supone la introducción de una nueva herramienta de cálculo, un programa nuevo con mayores requerimientos de hardware, pero con unas prestaciones superiores según los artículos aparecidos en revistas especializadas de software. La empresa dispone de 6 ingenieros senior y se diseña un experimento aleatorizado que asigna a cada ingeniero 4 problemas, de dos tipos (Factor B), 2 de sistemas lineales y 2 de modelización estadística, a resolver aleatoriamente, uno de cada, con la nueva herramienta y con la habitual (Factor A). Se contabiliza el tiempo de resolución en minutos y se introducen los datos en el programa estadístico MINITAB.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-31
EL MODELO ANOVA CON 2 FACTORES: CASO DE ESTUDIO 3
Se considera la existencia de 2 tipos de problemas (Factor B) en el Caso de Estudio 1
Worksheet size: 100000 cells MTB > Retrieve "G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas3.mtw". Retrieving worksheet from file: G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\Cas3.mtw Worksheet was saved on 09/03/98 18:08:46 Current worksheet: Cas3.mtw MTB > ANOVA 'TIEMPO' = 'FACTOR A' 'FACTOR B'; SUBC> Residuals 'RESI2'. Analysis of Variance (Balanced Designs) Factor Type Levels Values FACTOR A fixed 2 New Old FACTOR B fixed 2 Eng Stat Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 263,58 0,000 FACTOR B 1 16,667 16,667 60,92 0,000 Error 21 5,745 0,274 Total 23 94,518 Two-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 698,93 0,000 FACTOR B 1 16,667 16,667 161,55 0,000 Interaction 1 3,682 3,682 35,69 0,000 Error 20 2,063 0,103 Total 23 94,518
No trata interacciones Ni diseños no balanceados
Si trata interacciones No diseños no balanceados
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-32
Individual 95% CI FACTOR A Mean ---+---------+---------+---------+-------- New 2,925 (-*-) Old 6,392 (-*-) ---+---------+---------+---------+-------- 3,000 4,000 5,000 6,000 Individual 95% CI FACTOR B Mean --------+---------+---------+---------+--- Eng 3,825 (---*--) Stat 5,492 (---*---) --------+---------+---------+---------+--- 4,000 4,500 5,000 5,500 MTB > Code ( "Stat" ) -1 ( "Eng" ) 1 'FACTOR B' 'D1B' MTB > Code ( "New" ) -1 ( "Old" ) 1 'FACTOR A' 'D1A' MTB > Plot 'TIEMPOMED'*'D1B'...
-1 NEW1 OLD
ENG10
STAT-1
7
6
5
4
3
2
D1B
TIEM
POM
EDD1A
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-33
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (1)
El análisis de la varianza de 2 factores examina la relación entre una variable de respuesta
cuantitativa y dos variables explicativas cualitativas.
La inclusión del segundo factor permite la modelización y contraste de relaciones de dependencia parciales e introducir interacciones.
Al suponer en Two-way ANOVA que se dispone de las medias poblacionales de cada celda de las combinaciones de los niveles de los factores: JjIiij ,,1,,1, KK ==µ , se pueden establecer patrones de relación habituales claramente.
1 .... J
1 11µ .... J1µ •1µ M M M M M I 1Iµ .... IJµ •Iµ
1•µ .... J•
µ
Si A y B no interaccionan, entonces la relación parcial entre cada factor y la variable de respuesta no depende del nivel del otro factor, es decir, la diferencia entre niveles es constante. Se supone I = 4 y J = 2 en los diagramas bivariantes siguientes.
A B
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-34
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (2)
1 2
543210
8
7
6
5
4
3
FACTOR A
mu_
ij
FACTOR B
Factores A y B son significativos. No hay efectos interactivos entre A y B.
Factor A es significativo.
Factor B no es
significativo.
No hay efectos interactivos entre A y B.
1 2
0 1 2 3 4 5
3
4
5
6
7
8
mu_
ij
FACTOR A
FACTOR B
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-35
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (3)
Factor A no es significativo. Factor B es significativo. No hay efectos interactivos entre A y B.
1 2
1 2 3 4
2
3
4
5
6
mu_
ij
FACTOR A
FACTOR B
1 2
543210
8
7
6
5
4
3
mu_
ij
FACTOR A
FACTOR B
Factor A es significativo.
Factor B es significativo.
Hay efectos interactivos entre A y B.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-36
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (4)
Los posibles modelos ANOVA de 2 factores son, en función de la existencia de efectos principales de alguno de los factores, o de ambos, y de interacciones adicionales: (M 0) El modelo básico de ausencia de efectos: ijkijkY εµ +=
(M 1) El modelo ANOVA completo: ijkijjiijkY εγβαµ ++++=
(M 2) El modelo ANOVA aditivo es: ijkjiijkY εβαµ +++=
(M 3) El modelo ANOVA del factor A: ijkiijkY εαµ ++=
(M 4) El modelo ANOVA del factor B: ijkjijkY εβµ ++= Las hipótesis que suelen contrastarse más habitualmente son: • H1: No existen efectos interactivos o equivalentemente, los efectos de los factores A y B son
aditivos. • H2: No existen diferencias en la variable de respuesta asociadas a los distintos niveles del
factor A. • H3: No existen diferencias en la variable de respuesta asociadas a los distintos niveles del
factor B.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-37
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (5)
La hipótesis anteriores se contrastan a partir la suma de cuadrados residual y el test de Fisher:
• H1: Se compara el modelo completo con el modelo aditivo. • H2: Se compara el modelo completo (aditivo, a veces) con el modelo ANOVA de B. • H3: Se compara el modelo completo (aditivo, a veces) con el modelo ANOVA de A.
Pero para disponer de las sumas de cuadrados residuales de los modelos implicados (M0) a (M3), es necesario hacer la estimación de los parámetros del modelo: ( ) yXbyy TTT −=−= ∑ =
n
1l2ˆ ll yySCR .
MODELO # Parám. (ν ) S.C.Residual Hipótesis Estad. Fisher
(M1) ijkijjiijkY εγβαµ ++++= IJ n-IJ SCR1
(M2) ijkjiijkY εβαµ +++= I+J-1 n-I-J+1 SCR2 H1 (M2) (M1) 1
1
12
21
νννSCRSCR
−∆
(M3) ijkiijkY εαµ ++= I n-I SCR3 H2
(M3) (M2) 1
1
23
32
νννSCRSCR
−∆
(M4) ijkjijkY εβµ ++= J n-J SCR4 H3
(M4) (M2) 1
1
24
42
νννSCRSCR
−∆
(M0) ijkijkY εµ += 1 n-1 SCR0
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-38
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (6)
Caso de Estudio 3: Mecánica de la inferencia en ANOVA 2 factores
MODELO # Parám.
(ν ) S.C.Residual Hipótesis Estad. Fisher
(M1) ijkijjiijkY εγβαµ ++++= IJ=4 n-IJ=20 2,063
(M2) ijkjiijkY εβαµ +++= I+J-1=3 n-I-J+1=21
¿? (5,745)
H1 (M2) (M1) 20
063,21683,3
(M3) ijkiijkY εαµ ++= I=2 n-I=22 ¿? (22,412)
H2
(M3) (M2) 20063,2
1667,16
(M4) ijkjijkY εβµ ++= J=2 n-J=22 ¿? (77,852)
H3
(M4) (M2) 20063,2
1107,72
(M0) ijkijkY εµ += 1 n-1=23 94,518
La ortogonalidad de las distintas componentes permite una inferencia sencilla:
( ) ( ) ( ) 1SCRSCMSCMSCMSCT +++= γβα ( ) ( ) ( ) 11 1
21
21
2 SCRyyyyKyyKIyyKJ I
i
J
j jiijJ
j jI
i i ++−−+−+−= ∑ ∑∑∑ = === y
( ) ( ) ( )ααα 321 SCMSCMSCM == , así como ( ) ( ) ( )βββ 321 SCMSCMSCM == .
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-39
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (7)
Caso de Estudio 3: Mecánica de la inferencia en ANOVA 2 factores (Cont.) MTB > Twoway 'TIEMPO' 'FACTOR A' 'FACTOR B'; Two-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 698,93 0,000 FACTOR B 1 16,667 16,667 161,55 0,000 Interaction 1 3,682 3,682 35,69 0,000 Error 20 2,063 0,103 Total 23 94,518 MTB > Twoway 'TIEMPO' 'FACTOR A' 'FACTOR B'. SUBC> Additive. Two-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,107 72,107 263,58 0,000 FACTOR B 1 16,667 16,667 60,92 0,000 Error 21 5,745 0,274 Total 23 94,518 MTB > Oneway 'TIEMPO' 'FACTOR A'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,11 72,11 70,78 0,000 Error 22 22,41 1,02 Total 23 94,52 MTB > Oneway 'TIEMPO' 'FACTOR B'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR B 1 16,67 16,67 4,71 0,041 Error 22 77,85 3,54 Total 23 94,52
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-40
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (1)
El modelo aditivo
ijkjiijkY εβαµ +++= del factor A y del factor B tiene un total de parámetros de 1 + I + J ⇒ matriz de diseño con columnas linealmente dependientes.
Las dos restricciones de suma cero a
añadir son 01
=∑ =
I
i iα y 01
=∑ =
J
j jβ ⇒ matriz de diseño restringida con un número de columnas independientes 1 + (I-1) + (J-1) = I+J-1.
Se pueden dar reglas mecánicas
fáciles para la construcción del modelo εβ += RRXY .
}
}
ε
β
−
−
+
−+
−−−−
−−−−
−−
−−
−−−−−−−−−
−−
=
−
−
−
IJK
IJ
KI
I
JK
J
K
J
I
IJK
IJ
KI
I
JK
J
K
JIn
y
y
y
y
y
y
y
y
IJ
I
J
ε
ε
ε
ε
ε
ε
ε
ε
β
βα
αµ
M
M
M
M
M
M
M
M
M
LL
MMMMM
LL
MMMMM
LL
MMMMM
LL
MMMMMMM
LL
MMMM
LL
MM
LL
MMMM
LL
M
M
M
M
M
M
M
M
M
M
M
1
1
11
1
11
11
111
R
1
1
1
1
1
1
11
1
11
11
111
)1(x11111
1111110
0
01111
01111_______
11001
1100110
0
01011
01011
_
1
1
11
RX
00
Y
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-41
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (2)
… Se pueden dar reglas mecánicas fáciles para la construcción del modelo εβ += RRXY . Más
sintéticamente, respetando la ordenación de los datos ilustrada anteriormente para I=J=3 …
1 1 1 1 1 1 1 1 1 -1 -1 1 1 X= 1 1 1 XR = 1 1 1 1 -1 -1 1 1 1 1 1 1 -1 -1 1 1 -1 -1 µ 1α … Iα
1β … Jβ µ 1α 1−Iα
1β 1−Jβ
00
1
1
=++=++
J
I
ββαα
K
K
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-42
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (3)
El modelo de regresión ANOVA interactivo ijkijjiijkY εγβαµ ++++= .
Total de parámetros del modelo completo es 1 + I + J + IJ = (I+1)(J+1).
El número de parámetros independientes es: 1 + (I-1) + (J-1) + (I-1)(J-1) = IJ.
Restricciones de suma-cero 01
=∑ =
I
i iα y 01
=∑ =
J
j jβ (las anteriores) más,
IiJj J
j ijI
i ij LK 10,1011
=∀==∀= ∑∑ ==γγ , que son I+J restricciones, pero una es redundante, y
sin pérdida de generalidad se elimina la suma de la última columna de los parámetros 01
=∑ =
I
i iJγ :
γ 11 ... γ 1,1 −J
γ J1 0
1 1 =∑ =
J
j jγ
γ 21 ... γ 1,2 −J
γ J2 0
1 2 =∑ =
J
j jγ
... ... ... ... ... γ 11
... γ 1, −JI γ IJ
01
=∑ =
J
j Ijγ
0
1 1 =∑ =
I
i iγ
... 0
1 1, =∑ = −I
i Jiγ
0
1=∑ =
I
i iJγ
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-43
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (4)
El modelo de regresión ANOVA con interacciones ijkijjiijkY εγβαµ ++++= resulta de lógica de construcción muy automatizable.
… Se pueden dar reglas mecánicas fáciles para la construcción del modelo εβ += RRXY . Sintéticamente, respetando la ordenación de los datos ilustrada anteriormente para I=J=3 …
1 1 1 1 1 1 -1 -1 -1 -1 1 1 XR = 1 1 1 1 -1 -1 -1 -1 1 -1 -1 1 -1 -1 1 -1 -1 -1 -1 1 1 1 1 µ 1α 1−Iα
1β 1−Jβ
11γ 11 −J,γ
11,−Iγ
11 −− JI ,γ
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-44
CASO DE ESTUDIO 4: TWO-WAY ANOVA (1)
Construcción del modelo de regresión para la estimación de un modelo ANOVA de 2 factores, a partir de datos ficticios correspondientes a un Factor A con I=3 niveles, un Factor B con J=2 niveles y un número de réplicas constante K=2, en total n=12 .Se detalla la construcción del modelo ANOVA completo por regresión, para a continuación estimar el modelo con el procedimiento Regression de MINITAB .
Niveles Factor B Niveles
Factor A B1 B2 Total
A1 6,8 6,6 5,3 6,1 24,8 A2 7,5 7,4 7,2 6,5 28,6 A3 7,8 9,1 8,8 9,1 34,8
Total 45,2 43,0 88,2
El modelo ANOVA completo ijkijjiijkY εγβαµ ++++= tiene 12 (=1+3+2+6) parámetros lo que da un modelo inicial al que deben añadirse los constricciones...
000000
312111
3231
2221
1211
21
321
=++=+=+=+=+=++
γγγγγγγγγββ
ααα
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-45
CASO DE ESTUDIO 4: TWO-WAY ANOVA (2)
La formulación por regresión del modelo con 1+2+1+2x1=6 variables mudas resultante de la reparametrización con las constricciones de suma cero da una matriz de diseño restringida,
ε
β
+
−−−−−−
−−−−−−−−−−−−
−−−−
=
322
321
311
311
222
221
212
211
122
121
112
111
R
21
11
1
2
1
12x6111111111111111111111111101101101101
101101101101011011011011011011011011
1,98,81,98,75,62,74,75,71,63,56,68,6
2
εεεεεεεεεεεε
γγβααµ
RXY32232131231122222121211122121112111
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-46
CASO DE ESTUDIO 4: TWO-WAY ANOVA (3)
( )
−−
=
=
==⇔= −−
−
−
−
−
−−
−
−
117,0317,0183,0
2,015,135,7
2,232,22,6
102,88
610000
610000
000000006
10
000610
00000
2,232,22,6
102,88
1
84000048000000120000008400004800000012
121
121
121
121
121
121
YXXXbYXbXX TR
1R
TRR
TRRR
TR
La suma de cuadrados explicada por
el modelo vale 14,35 y los estimadores de los parámetros del modelo ANOVA completo ...
La suma de cuadrados explicada por
el modelo se descompone en la suma de cuadrados explicada por cada uno de los términos...
183,0ˆˆ183,0ˆ35,1ˆˆˆ2,0ˆ15,1ˆ
35,7ˆ
1241
2133221
1
−=−====−−=−==−==
==
βββααααα
µ
bbb
b
434,0ˆˆ0ˆˆ434,0117,0317,0ˆˆˆ0ˆˆˆ
117,0ˆˆ0ˆˆ117,0ˆ317,0ˆˆ0ˆˆ317,0ˆ
31323231
211131312111
21222221621
11121211511
=−==+−=−−=−−==++
−=−=→=+==−=−=→=+==
γγγγγγγγγγ
γγγγγγγγγγ
bb
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-47
CASO DE ESTUDIO 4: TWO-WAY ANOVA (4)
( ) =−=−=−= ∑∑ ==22
12
12 ˆˆˆ µnynyyySCM n
i in
i i RRTR
TR bXXb
( )
( ) ( ) 35,142067,14033,074,12ˆ12ˆˆ
8448
ˆˆˆ12ˆˆ
8448
ˆˆˆ12
ˆ12
2
21
112111
21
2
121
2
2
84000048000000120000008400004800000012
21ˆ11ˆ1ˆ
2ˆ1ˆˆ
21
11
1
2
1
=++=−
++
+=
=−
=
µγγ
γγβαα
ααµ
µ
γγβααµ
γγβααµ
Puede notarse que las predicciones en el modelo reducido son coherentes con el modelo inicial
completo, por ejemplo:
3223211112132
2222211222
1221111112
3113211112131
ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆ
γβαµγγβααµγβαµγβαµγβαµγβαµγβαµγγβααµ
+++=++−−−=+++=−−+=+++=−−+=+++=−−+−−=
yyyy
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-48
CASO DE ESTUDIO 4: TWO-WAY ANOVA (5)
El modelo ANOVA aditivo ijkjiijkY εβαµ +++= tiene 6 (=1+3+2) parámetros lo que da un modelo inicial reparametrizable con las constricciones de suma cero en un modelo de regresión con 1+2+1=4 variables mudas independientes,
Los estimadores de los parámetros se
calculan resolviendo las ecuaciones normales.
La suma de cuadrados explicada por el
modelo es 13,14. Los estimadores de los parámetros del modelo ANOVA aditivo son:
00
21
321
=+=++
ββααα
ε
β
+
−−−−−−
−−−−
−−
−−
=
322
321
311
311
222
221
212
211
122
121
112
111
1
2
1
11111111
1111111111011101
1101110110111011
10111011
1,98,81,98,75,62,74,75,71,63,56,68,6
2
εεεεεεεεεεεε
βααµ
R
RXY32232131231122222121211122121112111
183,0ˆˆ183,0ˆ35,1ˆˆˆ2,0ˆ15,1ˆ
35,7ˆ
1241
2133221
1
−=−====−−=−==−==
==
βββααααα
µ
bbb
b
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-49
CASO DE ESTUDIO 4: TWO-WAY ANOVA (6)
Resultados del análisis GLM del MINITAB y tratamiento por regresión. Data Display Row Y FACTOR A FACTOR B D1A D2A D1B D1A*D1B D2A*D1B 1 6,8 1 1 1 0 1 1 0 2 6,6 1 1 1 0 1 1 0 3 5,3 1 2 1 0 -1 -1 0 4 6,1 1 2 1 0 -1 -1 0 5 7,5 2 1 0 1 1 0 1 6 7,4 2 1 0 1 1 0 1 7 7,2 2 2 0 1 -1 0 -1 8 6,5 2 2 0 1 -1 0 -1 9 7,8 3 1 -1 -1 1 -1 -1 10 9,1 3 1 -1 -1 1 -1 -1 11 8,8 3 2 -1 -1 -1 1 1 12 9,1 3 2 -1 -1 -1 1 1 MTB > GLM 'Y' = 'FACTOR A' 'FACTOR B' 'FACTOR A'* 'FACTOR B' General Linear Model Factor Type Levels Values FACTOR A fixed 3 1 2 3 FACTOR B fixed 2 1 2 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P FACTOR A 2 12,7400 12,7400 6,3700 25,82 0,001 FACTOR B 1 0,4033 0,4033 0,4033 1,64 0,248 FACTOR A*FACTOR B 2 1,2067 1,2067 0,6033 2,45 0,167 Error 6 1,4800 1,4800 0,2467 Total 11 15,8300 MTB > Regress 'Y' 5 'D1A' 'D2A' 'D1B' 'D1A*D1B' 'D2A*D1B'; SUBC> Constant. Regression Analysis The regression equation is Y = 7,35 - 1,15 D1A - 0,200 D2A + 0,183 D1B + 0,317 D1A*D1B + 0,117 D2A*D1B Predictor Coef StDev T P
1 2
321
9
8
7
6
FACTOR A
Y M
EDIA
FACTOR B
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-50
1 2 3
1 2
6
7
8
9
FACTOR B
Y M
EDIA
FACTOR A
Constant 7,3500 0,1434 51,27 0,000 D1A -1,1500 0,2028 -5,67 0,001 D2A -0,2000 0,2028 -0,99 0,362 D1B 0,1833 0,1434 1,28 0,248 D1A*D1B 0,3167 0,2028 1,56 0,169 D2A*D1B 0,1167 0,2028 0,58 0,586 S = 0,4967 R-Sq = 90,7% R-Sq(adj) = 82,9% Analysis of Variance Source DF SS MS F P Regression 5 14,3500 2,8700 11,64 0,005 Residual Error 6 1,4800 0,2467 Total 11 15,8300 Source DF Seq SS D1A 1 12,5000 … MTB > Regress 'Y' 3 'D1A' 'D2A' 'D1B' ; SUBC> Constant. Regression Analysis The regression equation is Y = 7,35 - 1,15 D1A - 0,200 D2A + 0,183 D1B Predictor Coef StDev T P Constant 7,3500 0,1673 43,94 0,000 D1A -1,1500 0,2366 -4,86 0,001 D2A -0,2000 0,2366 -0,85 0,422 D1B 0,1833 0,1673 1,10 0,305 S = 0,5795 R-Sq = 83,0% R-Sq(adj) = 76,7% Analysis of Variance Source DF SS MS F P Regression 3 13,1433 4,3811 13,05 0,002 Residual Error 8 2,6867 0,3358 Total 11 15,8300 Source DF Seq SS D1A 1 12,5000 … MTB > Regress 'Y' 2 'D1A' 'D2A' ... Regression Analysis The regression equation is Y = 7,35 - 1,15 D1A - 0,200 D2A
95,8434,0183,035,135,7ˆˆˆˆˆ45,8434,0183,035,135,7ˆˆˆˆˆ85,6117,0183,02,035,7ˆˆˆˆˆ45,7117,0183,02,035,7ˆˆˆˆˆ7,5317,0183,015,135,7ˆˆˆˆˆ7,6317,0183,015,135,7ˆˆˆˆˆ
322332
311331
222222
211221
122212
111111
=+−+=+++==−++=+++==−−−=+++==++−=+++==−−−=+++==++−=+++=
γβαµγβαµγβαµγβαµγβαµγβαµ
yyyyyy
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-51
1 1 1 2 2 1 2 2 3 1 3 2
6 7 8 9
-0,5
0,0
0,5
FITS1
RES
I1
FACTORES (A,B)
Predictor Coef StDev T P Constant 7,3500 0,1691 43,45 0,000 D1A -1,1500 0,2392 -4,81 0,001 D2A -0,2000 0,2392 -0,84 0,425 S = 0,5859 R-Sq = 80,5% R-Sq(adj) = 76,1% Analysis of Variance Source DF SS MS F P Regression 2 12,7400 6,3700 18,55 0,001 Residual Error 9 3,0900 0,3433 Total 11 15,8300 MTB > Regress 'Y' 1 'D1B' ... Regression Analysis The regression equation is Y = 7,35 + 0,183 D1B Predictor Coef StDev T P Constant 7,3500 0,3585 20,50 0,000 D1B 0,1833 0,3585 0,51 0,620 S = 1,242 R-Sq = 2,5% R-Sq(adj) = 0,0% Analysis of Variance Source DF SS MS F P Regression 1 0,403 0,403 0,26 0,620 Residual Error 10 15,427 1,543 Total 11 15,830 MTB > Plot 'RESI1'*'FITS1'...
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-52
CASO DE ESTUDIO 5: FACTORES CRUZADOS VERSUS ANIDADOS (1)
Construcción del modelo de regresión para la estimación de un modelo ANOVA de 2 factores anidado que representa un experimento para comparar 2 drogas, A1 y A2 (Factor A), una de las cuales se ha empleado en K pacientes de 3 hospitales (B1 a B3) y la otra en K pacientes de 2 hospitales distintos (B4 y B5); los hospitales constituyen el Factor B.
Los factores no están cruzados: en este diseño anidado tiene sentido comparar los efectos de las 2 drogas (Factor A) y las posibles diferencias en la respuesta entre los hospitales que hayan empleado la misma droga (Factor B).
Se detalla la construcción del modelo ANOVA completo por regresión, para a continuación estimar el modelo con el procedimiento Regression de MINITAB .
Factor A
Respuesta A1 A2
K=1 6,8 6,6 5,3 6,8 6,1 K=2 7,5 7,4 7,2 7,5 6,5 K=3 7,8 9,1 8,8 7,8 9,1
Factor B B1 B2 B3 B4 B5 El modelo completo es [ ] 252413121121 γγγγγααµ +++++++=YE tiene 8 (=1+2+5) parámetros que se reparametriza con las constricciones de suma cero ...
000
2524
131211
21
=+=++=+
γγγγγ
αα
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-53
ε
β
+
−−−
−−−−−−
−−−−−−−
=
R
24
12
11
1
100111001110011100111001110011
011110111101111010110101101011001110011100111
1,95,61,68,75,78,68,82,73,51,94,76,68,75,78,6
γγγαµ
RXY253252251243242241133132131123122121113112111
CASO DE ESTUDIO 5: FACTORES CRUZADOS VERSUS ANIDADOS (2)
Los estimadores de los 5 (1+1+3) parámetros
se calculan resolviendo las ecuaciones normales:
( )
−
−=
==⇔=
−
−
−
500,1311,0022,0
361,0028,7
98,18,05,265,106
1
600000630003600000153000315
YXXXbYXbXX TR
1R
TRR
TRRR
TR
Los estimadores de los parámetros del
modelo ANOVA anidado completo son:
5,1ˆˆ0ˆˆ5,1ˆ289,0ˆˆˆ0ˆˆˆ311,0ˆ022,0ˆ
361,0ˆˆ361,0ˆ028,7ˆ
24252524524
121113131211412311
1221
1
=−==+−==−=−−=→=++==−==
−=−=====
γγγγγγγγγγγγγ
αααµ
bbb
bb
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-54
CASO DE ESTUDIO 5: FACTORES CRUZADOS VERSUS ANIDADOS (3)
El modelo ANOVA anidado para contrastar la hipótesis nula “No hay diferencias entre las
drogas, pero sí entre los hospitales, H0: 021 ==αα ” , sería
ijkjijkY εβµ ++= tiene 4 (=1+2+1) parámetros independientes, que al añadirse las constricciones de suma cero ...
Resultados de General Linear Model primero y después con Regression de MINITAB. Se
ilustra la definición de variables mudas.
La contrastación de la hipótesis nula mediante el estadístico de Fisher a partir de los resultados de la regresión muestra que no hay evidencia para rechazar la hipótesis nula:
96,46302,110520,11
1520,11398,13
515105,0
10,1110 ==
−=
−−
= < FSCRSCRSCRf
0ˆˆ0ˆˆˆ
54
321
=+=++
βββββ
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-55
MTB > PRINT C1-C10 Data Display Row Y FACTOR A FACTOR B D1A D1A*D1B D1A*D2B D1A*D4B D1B D2B D4B 1 6,8 1 1 1 1 0 0 1 0 0 2 7,5 1 1 1 1 0 0 1 0 0 3 7,8 1 1 1 1 0 0 1 0 0 4 6,6 1 2 1 0 1 0 0 1 0 5 7,4 1 2 1 0 1 0 0 1 0 6 9,1 1 2 1 0 1 0 0 1 0 7 5,3 1 3 1 -1 -1 0 -1 -1 0 8 7,2 1 3 1 -1 -1 0 -1 -1 0 9 8,8 1 3 1 -1 -1 0 -1 -1 0 10 8,8 2 4 -1 0 0 -1 0 0 1 11 7,9 2 4 -1 0 0 -1 0 0 1 12 7,8 2 4 -1 0 0 -1 0 0 1 13 5,9 2 5 -1 0 0 1 0 0 -1 14 4,5 2 5 -1 0 0 1 0 0 -1 15 5,1 2 5 -1 0 0 1 0 0 -1 MTB > GLM 'Y' = 'FACTOR A' 'FACTOR B'( 'FACTOR A')... General Linear Model Factor Type Levels Values FACTOR A fixed 2 1 2 FACTOR B(FACTOR A) fixed 5 1 2 3 4 5 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P FACTOR A 1 1,878 1,878 1,878 1,63 0,231 FACTOR B(FACTOR A) 3 14,042 14,042 4,681 4,06 0,040 Error 10 11,520 11,520 1,152 Total 14 27,440 MTB > Regress 'Y' 4 'D1A'-'D1A*D4B'.. Regression Analysis The regression equation is Y = 7,03 + 0,361 D1A - 0,022 D1A*D1B + 0,311 D1A*D2B - 1,50 D1A*D4B Predictor Coef StDev T P Constant 7,0278 0,2828 24,85 0,000 D1A 0,3611 0,2828 1,28 0,231 D1A*D1B -0,0222 0,5060 -0,04 0,966 D1A*D2B 0,3111 0,5060 0,61 0,552 D1A*D4B -1,5000 0,4382 -3,42 0,007 S = 1,073 R-Sq = 58,0% R-Sq(adj) = 41,2%
42,715,1361,028,70ˆˆˆˆ42,685,1361,028,70ˆˆˆˆ36,70281,0361,028,70ˆˆˆˆ95,70311,0361,028,70ˆˆˆˆ62,70022,0361,028,70ˆˆˆˆ
25225
24224
13113
12112
11111
=+−=++==−−=++==−+=++==++=++==−+=++=
γαµγαµ
γαµγαµγαµ
yyyyy
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-56
Analysis of Variance Source DF SS MS F P Regression 4 15,920 3,980 3,45 0,051 Residual Error 10 11,520 1,152 Total 14 27,440 Source DF Seq SS D1A 1 1,878 D1A*D1B 1 0,107 D1A*D2B 1 0,436 D1A*D4B 1 13,500 MTB > Regress 'Y' 3 'D1B'-'D4B'. Regression Analysis The regression equation is Y = 7,10 - 0,022 D1B + 0,311 D2B + 1,50 D4B Predictor Coef StDev T P Constant 7,1000 0,2850 24,92 0,000 D1B -0,0222 0,5203 -0,04 0,967 D2B 0,3111 0,5203 0,60 0,562 D4B 1,5000 0,4506 3,33 0,007 S = 1,104 R-Sq = 51,2% R-Sq(adj) = 37,9% Analysis of Variance Source DF SS MS F P Regression 3 14,042 4,681 3,84 0,042 Residual Error 11 13,398 1,218 Total 14 27,440 Source DF Seq SS D1B 1 0,107 D2B 1 0,436 D4B 1 13,500 MTB >
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-57
INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-58
MODELOS ANOVA MÁS COMPLEJOS
La extensión de la formulación por regresión a modelos ANOVA más complejos, por ejemplo al
aumentar el número de factores en los diseños experimentales o contrastar hipótesis más complicadas.
En los diseños de experimentos reales los factores pueden estar cruzados o anidados o una
mezcla de ambos: todos ellos pueden tratarse con el procedimiento General Linear Model de MINITAB o formularse mediante variable mudas por modelos de regresión.
Al aumentar el número de factores (A, B, C, ...) también deben formularse modelos que incluyan
términos de interacción de orden superior (AB, BC, AC, ABC,...), no supone diferencias esenciales en el proceder, aunque sin lugar a dudas se complica grandemente la interpretación de los resultados.
Las interacciones de orden elevado pueden conducir a pérdida de robustez por la presencia de
valores aberrantes y a contrastes en cadena escabrosos, AB significativo, BC no significativo, ABC significativo, etc.
Las hipótesis a contrastar surgen del conocimiento externo del problema.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-59
INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-60
EL MODELO ANCOVA
Los modelos ANCOVA o modelos de análisis de la covarianza son modelos mixtos en los que
aparecen tanto variables mudas que representan niveles de factores o interacciones como variables continuas o covariantes.
Se pretende analizar las medias definidas por los niveles de los factores (y sus interacciones),
después de incluir el efecto de las covariantes en la variable de respuesta.
Se presenta un Caso de Estudio con una única covariante, pero el método de análisis propuesto se puede extender directamente a situaciones más generales.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-61
CASO DE ESTUDIO 6: “LOS VELOCISTAS”
Los datos muestran las prestaciones obtenidas por unos velocistas según los tres niveles de un factor que representan tres métodos de entrenamiento distintos, y una variable explicativa, covariante, que representa las prestaciones obtenidas antes de iniciar el entrenamiento. Se desea comparar los métodos de entrenamiento teniendo en cuenta las diferencias en las aptitudes iniciales en las tres clases de sujetos de estudio (Dobson, 1990). Factor A Réplica A1 A2 A3 k=1 6 3 8 4 6 3 k=2 4 1 9 5 7 2 k=3 5 3 7 5 7 2 k=4 3 1 9 4 7 3 k=5 4 2 8 3 8 4 k=6 3 1 5 1 5 1 k=7 6 4 7 2 7 4
(y, x) y x y x y x
El gráfico indica que las prestaciones finales se
incrementan linealmente con las aptitudes iniciales y que las prestaciones finales son generalmente superiores para los métodos de entrenamiento 2 y 3 que para el 1.
1 2 3
54321
9
8
7
6
5
4
3
XY
FACTOR A
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-62
FORMULACIÓN DEL MODELO ANCOVA (1)
Ejemplo sin datos, de carácter sociológico y muy intuitivo, inspirado en la propuesta de Fox (84): relación entre los ingresos (Y) y el nivel de educación (X) entre la población blanca, oriental y negra de los EEUU (Factor A, I=3 ).
Modelo (M1) Interacción factor – covariante: sin correlación entre
1 2 3
1 2 3 4 5 6 7 8
1
2
3
4
5
6
7
8
9
X
Y
Bl
Bl
Bl
Bl
OrOr
OrOr
Ne Ne Ne Ne
FACTOR A
1 2 3
0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
X
Y
Bl
Bl
Bl
Bl
OrOr
OrOr
Ne Ne Ne Ne
FACTOR A
Modelo (M1) Interacción factor
– covariante: con correlación entre raza y educación
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-63
FORMULACIÓN DEL MODELO ANCOVA (2)
Modelo (M2): Sin interacción factor –covariante, sin correlación entre raza y educación
Modelo (M2): Sin Interacción factor –
covariante, con correlación entre raza y
educación
1 2 3
9876543210
9
8
7
6
5
4
3
2
1
0
X
Y
NeNe
NeNe
OrOr
OrOr
BlBl
BlBl
FACTOR A
1 2 3
87654321
7
6
5
4
3
2
X
Y
Ne
Ne
Ne
Ne
Or
Or
Or
Or
Bl
Bl
Bl
Bl
FACTOR A
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-64
FORMULACIÓN DEL MODELO ANCOVA (3)
Modelo (M3) sin efecto aditivo de raza
Modelo (M4) ingresos y
educación sin efecto de raza
Modelo (M5) sin relación
con educación o raza
1 2 3
3 4 5 6
3
4
5
6
X
Y
Bl
Bl
Bl
Bl
Or Or Or Or
Ne
Ne
Ne
Ne
FACTOR A
1 2 3
3 4 5 6
3
4
5
6
X
Y
Bl
Bl
Bl
Bl
Or
Or
Or
Or
Ne
Ne
Ne
NeFACTOR A
1 2 3
3 4 5 6
3
4
5
6
X
Y
Bl
Bl
Bl
BlOr
Or
Or
Or
Ne
Ne
Ne
Ne
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-65
FORMULACIÓN DEL MODELO ANCOVA (4)
(M 1) El modelo ANCOVA completo se formula ikikiiik xY εθηαµ ++++= )( tiene 8 (=1+3+4) parámetros al reparametrizarse con las constricciones de suma cero, se configura una matriz de diseño restringida con 6 (=1+2+1+2) columnas independientes:
1 1 x1 x1 1 1 x1 x1 X= 1 1 x2 x2 XR = 1 1 x2 x2 1 1 x3 x3 1 -1 -1 x3 -x3 -x3 µ 1α 2α
3α
η 1θ 2θ 3θ µ 1α 2α η 1θ 2θ
00
321
321
=++=++
θθθααα
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-66
FORMULACIÓN DEL MODELO ANCOVA (5)
El modelo ANCOVA de pendientes paralelas se formula ikikiik xY εηαµ +++= , tiene
5 (=1+3+1) parámetros que al añadirse la constricción 0321 =++ ααα da un modelo de regresión equivalente con 1+2+1=4 variables independientes.
1 1 x1 1 1 x1 X= 1 1 x2 XR = 1 1 x2 1 1 x3 1 -1 -1 x3 µ 1α 2α
3α
η µ 1α 2α η
1 x1 X= XR = 1 x2 1 x3 µ η
El modelo de regresión simple ikikik xY εηα ++= tiene 2 (=1+1) parámetros independientes.
(M 2)
(M 4)
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-67
FORMULACIÓN DEL MODELO ANCOVA (6)
El modelo ANCOVA de centro de gravedad común se formula ( ) ikikiik xY εθηµ +++=
tiene 5 (=1+1+1) parámetros y la constricción 0321 =++ θθθ configura un modelo de regresión equivalente con 1+1+2=4 variables independientes.
1 x1 x1 1 x1 x1 X= 1 x2 x2 XR = 1 x2 x2 1 x3 x3 1 x3 -x3 -x3 µ η 1θ 2θ 3θ µ η 1θ 2θ
1 XR = 1 1 µ
Un caso extremo es el modelo ikikY εµ += de perturbación aleaotoria que tiene 1 parámetro.
(M 3)
(M 5)
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-68
FORMULACIÓN DEL MODELO ANCOVA (7)
Continuación del Caso de Estudio 6 ...
Se detalla el proceso de estimación de los modelos (M1) y (M2) por regresión, así como el contraste de significación de la interacción factor-covariante.
Los resultados calculados a mano se comparan con los resultados de los procedimientos GLM y Regression de MINITAB.
El proceso de definición de variables mudas y adición de constricciones al modelo de regresión
inicial puede generalizarse al caso de más de un regresor y más de un factor con facilidad.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-69
CASO DE ESTUDIO 6: Los Velocistas (CONT.)
La formulación del modelo ANCOVA completo por regresión tiene 8 (=1+3+4) parámetros
ikikiiik xY εθηαµ ++++= )( al que deben añadirse las constricciones de suma cero:
La suma de cuadrados explicada por el modelo es 54,175 y los estimadores de los parámetros del modelo ANCOVA completo son:
00
321
321
=++=++
θθθααα
ε
β
+
=
−−−−−−−−−−−−−−−−−−−−−−−−−−−−
37
36
35
34
33
32
31
27
26
25
24
23
22
21
17
16
15
14
13
12
11
R
2
1
2
1
444111111111444111333111222111222111333111
202101101101303101404101505101505101404101044011011011022011011011023011011011033011
758777675897986343546
εεεεεεεεεεεεεεεεεεεεε
θθηααµ
RXY373635343332312726252423222117161514131211
747,0ˆ863,0ˆˆˆ016,1ˆ879,1ˆ
234,4ˆ
41
2133221
1
===−−===−==
==
bbb
b
ηααααα
µ
151,0ˆˆˆ0ˆˆˆ070,0ˆ221,0ˆ
213321
6251
−=−−==++−====
θθθθθθθθ bb
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-70
CASO DE ESTUDIO 6: Los Velocistas (3)
En la formulación del modelo ANCOVA completo los estimadores de los parámetros se calculan resolviendo las ecuaciones normales:
( )
−
−
=
=
==−
−
−−−−−−−−−
−−−−−
−
−
−
−−−−
−−
−
070,0221,0747,0016,1879,1
234,4
5957
398616
131
0599,00263,00113.01786,00687,00119,00263,00732,00020,00687,01759,00146,00113,00020,00356,00119,00146,00953,01785,00587,00119,06440,02431,00227,0
0687,01759,00146,02431,05311,00902,00119,00146,00953,00227,00902,03106,0
5957
398616
1311
1555937431955910018193443718196545843195147019344714054580021
YXXXb TR
1R
TRR
El modelo ANCOVA sin interacciones (rectas paralelas) ikikiik xY εηαµ +++= tiene 5 (=1+3+1) parámetros al que debe añadirse la constricción 0321 =++ ααα para formular por regresión el modelo con 1+2+1=4 variables independientes ...
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-71
CASO DE ESTUDIO 6: Los Velocistas (4)
El modelo ANCOVA sin interacciones (rectas paralelas) ikikiik xY εηαµ +++=
La suma de cuadrados explicada por el modelo tiene el
valor 53,507. Los estimadores de los parámetros del modelo ANCOVA sin interacciones factor-covariante se calculan resolviendo las ecuaciones normales:
ε
β
+
=
−−−−−−−−−−−−−− R
RXY
ηααµ
2
1
411111114111311121112111311121011101310141015101510141014011101120111011301110113011
758777675897986343546
373635343332312726252423222117161514131211
( )
−
=
==⇔= −
−
−
−−
743,0838,0
35,1196,4
398616
1311
19654585147047140
580021
YXXXbYXbXX TR
1R
TRR
TRRR
TR
743,0ˆ512,0ˆˆˆ838,0ˆ35,1ˆ
19,4ˆ
4
2133221
1
===−−===−==
==
bbb
b
ηααααα
µ
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-72
CASO DE ESTUDIO 6: Los Velocistas (5)
Los resultados MINITAB de General Linear Model y Regression con la codificación de variables mudas efectuada (suma cero) se indica a continuación.
En este punto una consideración final:
los modelos deben validarse y para ello se debe proceder a un análisis de los residuos.
La contrastación de la hipótesis nula
“No hay interacción entre los niveles del factor y la covariante, (M2) versus (M1)”, mediante el estadístico de
Fisher a partir de los resultados de la regresión muestra que no hay evidencia para rechazar la hipótesis nula:
68,35192,015635,9
2635,9302,10
621205,0
15,2112 ==
−=
−−
= < FSCRSCRSCRf
1 2 3
1 2 3 4 5
-2
-1
0
1
X
RES
I1
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-73
RESULTADOS MINITAB
Worksheet size: 100000 cells MTB > Indicator 'FACTOR A' C4 C5 C8. MTB > LET C4=C4-C8 MTB > LET C5=C5-C8 MTB > LET C6=C4*C3 MTB > LET C7=C5*C3 MTB > print c1-c7 Data Display Row Y FACTOR A X D1A D2A X1A X1B 1 6 1 3 1 0 3 0 2 4 1 1 1 0 1 0 3 5 1 3 1 0 3 0 4 3 1 1 1 0 1 0 5 4 1 2 1 0 2 0 6 3 1 1 1 0 1 0 7 6 1 4 1 0 4 0 8 8 2 4 0 1 0 4 9 9 2 5 0 1 0 5 10 7 2 5 0 1 0 5 11 9 2 4 0 1 0 4 12 8 2 3 0 1 0 3 13 5 2 1 0 1 0 1 14 7 2 2 0 1 0 2 15 6 3 3 -1 -1 -3 -3 16 7 3 2 -1 -1 -2 -2 17 7 3 2 -1 -1 -2 -2 18 7 3 3 -1 -1 -3 -3 19 8 3 4 -1 -1 -4 -4 20 5 3 1 -1 -1 -1 -1 21 7 3 4 -1 -1 -4 -4 MTB > MTB > GLM 'Y' = 'FACTOR A' 'FACTOR A'* X; SUBC> covariates 'X'.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-74
General Linear Model Factor Type Levels Values FACTOR A fixed 3 1 2 3 Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P X 1 36,575 15,672 15,672 24,40 0,000 FACTOR A 2 16,932 6,693 3,346 5,21 0,019 FACTOR A*X 2 0,667 0,667 0,334 0,52 0,605 Error 15 9,635 9,635 0,642 Total 20 63,810 Term Coef StDev T P Constant 4,2337 0,4467 9,48 0,000 X 0,7470 0,1512 4,94 0,000 X*FACTOR A 1 0,2207 0,2169 1,02 0,325 2 -0,0699 0,1962 -0,36 0,727 MTB > MTB > Regress 'Y' 5 'D1A' 'D2A' 'X' 'X1A' 'X1B'; SUBC> Constant. Regression Analysis The regression equation is Y = 4,23 - 1,88 D1A + 1,02 D2A + 0,747 X + 0,221 X1A - 0,070 X1B Predictor Coef StDev T P Constant 4,2337 0,4467 9,48 0,000 D1A -1,8788 0,5841 -3,22 0,006 D2A 1,0163 0,6432 1,58 0,135 X 0,7470 0,1512 4,94 0,000 X1A 0,2207 0,2169 1,02 0,325 X1B -0,0699 0,1962 -0,36 0,727 S = 0,8015 R-Sq = 84,9% R-Sq(adj) = 79,9% Analysis of Variance Source DF SS MS F P Regression 5 54,175 10,835 16,87 0,000 Residual Error 15 9,635 0,642 Total 20 63,810 MTB > Regress 'Y' 3 'D1A' 'D2A' 'X' ; SUBC> Constant. Regression Analysis
( ) ( )( ) ( )( ) ( ) xxxy
xxxyxxxy
6,009,5151,0747,086,023,4ˆˆˆˆˆ817,025,507,0747,002,123,4ˆˆˆˆˆ968,035,2221,0747,088,123,4ˆˆˆˆˆ
33.3
22.2
11.1
+=−++=+++=+=−++=+++=+=++−=+++=
θηαµθηαµθηαµ
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-75
The regression equation is Y = 4,19 - 1,35 D1A + 0,838 D2A + 0,743 X Predictor Coef StDev T P Constant 4,1864 0,4277 9,79 0,000 D1A -1,3497 0,2558 -5,28 0,000 D2A 0,8381 0,2582 3,25 0,005 X 0,7429 0,1421 5,23 0,000 S = 0,7785 R-Sq = 83,9% R-Sq(adj) = 81,0% Analysis of Variance Source DF SS MS F P Regression 3 53,507 17,836 29,43 0,000 Residual Error 17 10,302 0,606 Total 20 63,810 MTB > Regress 'Y' 3 'X' 'X1A' 'X1B'; SUBC> Constant. Regression Analysis The regression equation is Y = 3,92 + 0,793 X - 0,398 X1A + 0,216 X1B Predictor Coef StDev T P Constant 3,9199 0,5320 7,37 0,000 X 0,7932 0,1822 4,35 0,000 X1A -0,3981 0,1189 -3,35 0,004 X1B 0,21637 0,09984 2,17 0,045 S = 0,9800 R-Sq = 74,4% R-Sq(adj) = 69,9% Analysis of Variance Source DF SS MS F P Regression 3 47,482 15,827 16,48 0,000 Residual Error 17 16,327 0,960 Total 20 63,810 MTB > Regress 'Y' 1 'X' ; SUBC> Constant. Regression Analysis The regression equation is Y = 3,45 + 1,01 X Predictor Coef StDev T P Constant 3,4468 0,6112 5,64 0,000 X 1,0106 0,2001 5,05 0,000 S = 1,197 R-Sq = 57,3% R-Sq(adj) = 55,1% Analysis of Variance Source DF SS MS F P Regression 1 36,575 36,575 25,52 0,000 Residual Error 19 27,234 1,433
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-76
Total 20 63,810 MTB > Plot 'Y'*'X'...
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-77
INTRODUCCIÓN EL MODELO ANOVA DE UN FACTOR
CASO DE ESTUDIO 1 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 2
EL MODELO ANOVA DE DOS FACTORES
CASO DE ESTUDIO 3 FORMULACIÓN DEL MODELO POR REGRESIÓN CASO DE ESTUDIO 4 CASO DE ESTUDIO 5
MODELOS ANOVA MÁS COMPLEJOS EL MODELO ANCOVA
CASO DE ESTUDIO 6 FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
CONCLUSIONES BIBLIOGRAFÍA
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-78
CONCLUSIONES (1)
En la exposición del tema se ha ilustrado como modelos específicos de análisis de la varianza y
análisis de la covarianza se podían estimar por técnicas estándar de regresión múltiple, así como el proceder en la contrastación de hipótesis habituales que aparecen en tales análisis.
La selección cuidadosa de las variables mudas es el punto crucial. A pesar de que muchas
reparametrizaciones pueden resultar válidas en modelos simples, algunas son mejores que otras, principalmente cuando se estudian interacciones entre los niveles de factores.
En diseños de experimentos complejos no estándares y no balanceados es donde se aprecia la
potencia del enfoque descrito. Si el diseño de experimentos es estándar y balanceado es más interpretable el tratamiento del modelo por los procedimientos Balanced ANOVA o Two-Way ANOVA de MINITAB.
Ante diseños no balanceados o muy complejos y por falta de ortogonalidad en las componentes,
resulta más seguro y exacto recalcular los sucesivos modelos por regresión y realizar los contrastes de significación manualmente a partir de las sumas de cuadrados residuales de los modelos representativos (varianza incremental) y el estadístico de Fisher.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-79
CONCLUSIONES (2)
La formulación por regresión pone de manifiesto la existencia de un modelo en el análisis de la
varianza y la covarianza.
La formulación por regresión pone de manifiesto que el análisis de los residuos en los modelos de análisis de la varianza y de la covarianza juega el mismo papel que en los modelos de regresión normal clásica.
Los modelos lineales generales ofrecen una visión unificada de la regresión, el análisis de la
varianza y el análisis de la covarianza, son elegantes y potentes, y mirando más allá, el siguiente paso consiste en permitir distribuciones de los errores no normales y relaciones entre regresores y respuesta no lineales que nos ocupa el resto del temario.
FACULTAT D’INFORMÀTICA ESTADÍSTICA Dept. Estadíst ica e Investigación Operativa - UPC
Setembre del 2.004 Dra. Lídia Montero pàgina 7-80
BIBLIOGRAFÍA
A. Dobson (1.990). An Introduction to Generalized Linear Models. Chapman and Hall. N.R. Draper y H. Smith (1.981). Applied Regression Analysis. John Wiley. J. Fox (1.997). Applied Regression Analysis, Models and Related Methods. Sage Publications. L. Lebart, A. Morineau y J.P. Fénelon (1.985). Traitement des données statistiques: Méthodes
et programmes. Ed. Bordas (Paris). J.K. Lindsey (1.997). Applying Generalized Linear Models. Springer-Verlag. P. McCullagh y J.A. Nelder (1.989). Generalized Linear Models. Chapman and Hall. MINITAB Reference Manual, Release 1.1 for Windows. State College, PA: MINITAB Inc.
(1.996). D. Peña Sánchez de la Rivera (1.994). Estadística Modelos y Métodos (2): Modelos lineales y
series temporales. Alianza Universidad Textos.