ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la...

153
Gestión Aeronáutica: Estadística Teórica Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández ANÁLISIS DE LA VARIANZA

Transcript of ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la...

Page 1: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

Gestión Aeronáutica: Estadística TeóricaFacultad Ciencias Económicas y EmpresarialesDepartamento de Economía AplicadaProfesor: Santiago de la Fuente Fernández

ANÁLISIS DE LA VARIANZA

Page 2: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor
Page 3: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

1                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

                     MODELOS DE ANÁLISIS DE LA VARIANZA                       MODELO LINEAL GENERAL

Page 4: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

2                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 5: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

3                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

MODELOS DE ANÁLISIS DE LA VARIANZA

El análisis de la varianza es un método estadístico para determinar sí diversos conjuntos demuestras aleatorias de una determinada variable proceden de la misma población o depoblaciones distintas.

En general, cada conjunto muestral se caracteriza por estar afectado por un tratamientoespecifico, que eventualmente puede influir en los valores que tome la variable objeto deestudio.

Originalmente, el análisis de la  varianza se utilizó para determinar si las cosechas, que seobtenían con distintos tratamientos o niveles de fertilizantes, diferían o no. Así, en este caso, lasparcelas tratadas con un determinado nivel de fertilizantes constituyen una población.

Se denomina factor a la variable que supuestamente ejerce una influencia sobre la variableestudiada a la que se denomina dependiente. En el caso anterior, el factor es el fertilizante y lavariable dependiente la cosecha.

En el análisis de la varianza, el factor cuya influencia se quiere corroborar se introduce de formadiscreta, independientemente que sea de naturaleza continua o no. Así, la cantidad defertilizante aplicada tiene una naturaleza intrínsecamente continua pero en un estudio deanálisis de la varianza solamente se consideran un número determinado de niveles. Cuando elfactor sea de naturaleza discreta, que será la situación más frecuente, se utilizan de formaequivalente los términos de grupo o nivel para referirse a una característica concreta.

El análisis de la varianza, especialmente por la difusión de programas de ordenador, es conocidopor las siglas inglesas ANOVA (ANalysis  Of  VAriance).

ANÁLISIS DE LA VARIANZA CON UN FACTOR

El análisis de la varianza es un caso de aplicación de un contraste de hipótesis a un modelo linealespecífico.

Tomando como referencia,  un modelo,  en un contraste de hipótesis se requiere la formulaciónde una hipótesis nula y otra alternativa, la construcción de un estadístico (a partir de los datosmuestrales) con una distribución conocida y el establecimiento de una región de aceptación yotra de rechazo.

El modelo teórico de referencia en el análisis de la varianza es muy sencillo, y viene expresadopor cualquiera de las expresiones alternativas que se adjuntas, que son equivalentes:

Modelos teóricos en el análisis de la varianza:   g g g

g g g

Y g 1, 2, , G

Y g 1, 2, , G

= μ + ε =⎧⎨ = μ + δ + ε =⎩

Page 6: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

4                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En las dos formulaciones, considerando G poblaciones, cada valor de la variable es igual a una

media teórica más una variable aleatoria  g( )ε , que implícitamente tiene de media cero.

En  el modelo teórico  g g gY = μ + ε  la media de cada población es igual a un parámetro  gμ

En el modelo teórico  g g gY = μ + δ + ε   la media de cada población se define mediante dos

parámetros: una media general μ  y un parámetro  gδ que recoge la discrepancia específica

de cada población respecto a la media general. En este caso, las discrepancias están sujetasa que su suma sea nula.

HIPÓTESIS SOBRE LA POBLACIÓN: Para especificar un modelo se requiere establecer hipótesisacerca de los elementos que aparecen en el mismo. Las hipótesis estadísticas que se adoptan serefieren a la población y, en consecuencia, al proceso de obtención de la muestra.

Hipótesis estadísticas sobre la población:  2g gY N( , )μ σ∼

Hipótesis de Homocedasticidad:  Las varianzas  2σ de todas las poblaciones son idénticas

Cada una de las poblaciones tiene una distribución normal

De  2g gY N( , )μ σ∼  se desprende que la variable aleatoria   2

g gN( , )ε μ σ∼

HIPÓTESIS SOBRE LA OBTENCIÓN DE LA MUESTRA:  Las hipótesis sobre el proceso de obtenciónde la muestra facilita la realización del proceso de inferencia a partir de la informacióndisponible.  Se supone que se ha obtenido una muestra aleatoria independiente de cada una delas G poblaciones.

MODELO  g g gY = μ + ε ≡   0 1 2 G

1 g

H :

H : No todas las son iguales

μ = μ = = μ⎧⎨ μ⎩

MODELO  g g gY = μ + δ + ε ≡    0 1 2 G

1 g

H :

H : No todas las son iguales

δ = δ = = δ⎧⎨ δ⎩

En lo sucesivo, en el análisis de la varianza con un solo factor se elige el modelo  g g gY = μ + ε ,

mientras que en el análisis de la varianza con dos factores se utilizará la formulación

g g gY = μ + δ + ε

En el análisis de la varianza se distingue entre modelo de efectos fijos y modelo de efectosaleatorios.

Page 7: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

5                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En el modelo de efectos fijos, los grupos, o niveles, del factor o factores investigados se fijande antemano. Por ello, las conclusiones que se extraen en el análisis únicamente puedenaplicarse  a los niveles analizados. El modelo de efectos fijos es el más utilizado en el mundo dela empresa.

En el modelo de efectos aleatorios los niveles utilizados se extraen de forma aleatoria de unconjunto amplio de niveles. En consecuencia, los resultados del análisis son válidos para elconjunto de niveles que se ha tenido en cuenta en el diseño inicial.

Para este modelo se vereifica que  gE( )δ = μ  y   2 2gV( ) δ εδ = σ + σ  , donde   2

δσ   y   2εσ  se denominan

componentes de la varianza, razón por la que el modelo se denomina modelos de componentesde la varianza. Una vez estimado el modelo, es necesario comprobar mediante distintos test silas hipótesis básicas del mismo están en contradicción con los datos observados.

Para contrastar la normalidad de los errores experimentales  gε  (hipótesis de normalidad), se

utiliza el test W de Shapiro y Wilk, un contraste de la Chi‐cuadrado o el test de Kolmogorov‐Smirnov.

Para contrastar la independencia de las observaciones, o no correlación de los residuos(hipótesis de no autocorrelación), suele utilizarse el coeficiente de correlación serial o el test derachas.

En el caso de más de un factor, pueden diseñarse un modelo de efectos mixtos si se tienenen cuenta simultáneamente factores de efectos fijos y factores de efectos aleatorios.

DESCOMPOSICIÓN DE LA VARIANZA DE UN FACTOR

En cada población se pueden extraer muestras de distintos tamaños. En esta línea,  gn  será el

tamaño de la muestra del grupo g.

El tamaño de la muestra total es N, que es igual a la suma de los tamaños de las muestras de

cada uno de los grupos:   1 2 Gn n n N+ + + =

La media muestral global se obtiene sumando todos los valores de la muestra y dividiendo por el

tamaño de la muestra total: 

gnG

gig 1 i 1

Y

YN

= ==∑∑

Dentro de cada grupo se puede obtener la correspondiente media muestral. En este sentido, la

media del grupo g vendrá dada por: 

gn

gii 1

gg

Y

Yn==∑

Page 8: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

6                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Cada  gY  es un estimador insesgado de  gμ , es decir,  g gE Y⎡ ⎤ = μ⎣ ⎦

La desviación de cada observación con respecto a la media global es  gi(Y Y)− , que puede

descomponerse de la forma:

                                    gi g gi g

Desviaciónno explicadaDesviación cada Desviación explicadaobservación por el factor (desviación residual)

   (Y Y)             (Y Y)                (Y Y )        − = − + −

elevando al cuadrado ambos miembros de la expresión anterior:

  22 2 2

gi g gi g g gi g g gi g(Y Y) (Y Y) (Y Y ) (Y Y) (Y Y ) 2 (Y Y) (Y Y )⎡ ⎤− = − + − = − + − + − −⎣ ⎦

Si la expresión anterior se suma para todos los grupos y para todos los individuos de cada grupode la muestra, se obtiene:

           g g g gn n n nG G G G

2 2 2gi g gi g g gi g

g 1 i 1 g 1 i 1 g 1 i 1 g 1 i 1

(Y Y) (Y Y) (Y Y ) 2 (Y Y) (Y Y )= = = = = = = =

− = − + − + − −∑∑ ∑∑ ∑∑ ∑∑    [1]

el término  g gn nG G

g gi g g gi gg 1 i 1 g 1 i 1

(Y Y) (Y Y ) (Y Y) . (Y Y ) 0= = = =

− − = − − =∑∑ ∑ ∑

La expresión [1]  queda:

g g gn n nG G G2 2 2

gi g gi gg 1 i 1 g 1 i 1 g 1 i 1

Sumacuadrados Sumacuadrados desviación Sumacuadesviación total explicadapor el factor

SCT SCF

   (Y Y)           (Y Y)                (Y Y )        = = = = = =

− = − + −∑∑ ∑∑ ∑∑

drados desviaciónno explicadapor el factor

SCR

g g g gn n n nG G G G G2 2 2 2 2

gi g gi g g g gi gg 1 i 1 g 1 i 1 g 1 i 1 g 1 g 1 i 1

SCT SCRSCF SCRSCF

  (Y Y)     (Y Y)     (Y Y )     n . (Y Y)     (Y Y )  = = = = = = = = =

− = − + − = − + −∑∑ ∑∑ ∑∑ ∑ ∑∑

A su vez, la suma de cuadrados de la desviación no explicada, denominada suma de cuadradosde la desviación residual (SCR) o variabilidad residual, puede expresarse como agregación de lasuma de cuadrados de desviaciones residuales correspondientes a cada uno de los grupos:

                                                    1 2 GSCR SCR SCR SCR= + + +

Page 9: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

7                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ESTADÍSTICO F:  GRADOS DE LIBERTAD

Grados de libertad (SCT) N 1= −  (número total de datos menos uno)

La restricción viene determinada por el cálculo de Y . Una vez calculada la media globalgnG

gig 1 i 1

Y

YN

= ==∑∑

 se puede obtener un dato (por ejemplo,  GnY ) de la siguiente forma:

Gn 11 12 1n G1 G2 G(N 1)Y NY Y Y Y Y Y Y −= − − − − − − − − −

es decir, al tomar desviaciones respecto a la media, como la suma total de las desviaciones esnula, se puede calcular una desviación dadas las demás.

Grados de libertad (SCF) G 1= −  (número total de grupos menos uno)

La restricción viene dada por el cálculo de Y . Las g medias muestrales son datos independientescon la salvedad de que vienen sometidos a una restricción de la media general.

                             1 1 2 2 G Gn Y n Y n Y NY+ + + =

Grados de libertad (SCR) N G= −   (número total de datos menos número total de grupos)

Dado que la media muestral de cada grupo actúa como una restricción en el cálculo de lasdesviaciones de dicho grupo.

                        gl (SCT) gl (SCF) gl (SCR) (G 1) (N G) N 1= + = − + − = −

MEDIA CUADRÁTICA: En el análisis de la varianza se define una media cuadrática como elcociente entre cada suma de cuadrados y sus correspondientes grados de libertad, teniendo lassiguientes definiciones:

                 g gn nG G

2 2gi g

g 1 i 1 g 1 i 1

Sumacuadrados Sumacuadrados desviacióndesviación total explicadapor el factor

SCT SCF

(N 1) gl (G 1) gl

(Y Y)         (Y Y)             = = = =

− −

− = − +∑∑ ∑∑gnG

2gi g

g 1 i 1

Sumacuadrados desviaciónno explicadapor el factor

SCR

(N G) gl

  (Y Y )         = =

−∑∑

Media cuadrática total (MCT):   

gnG2

gig 1 i 1

(Y Y)SCT

MCTN 1 N 1

= =

−= =

− −

∑∑

Page 10: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

8                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Media cuadrática del factor (MCF):   

gnG2

gg 1 i 1

(Y Y)SCF

MCFG 1 G 1

= =

−= =

− −

∑∑

Media cuadrática residual (MCR):    

gnG2

gi gg 1 i 1

(Y Y )SCR

MCRN G N G

= =

−= =

− −

∑∑

La media cuadrática residual (MCR), a la que se designa por  2RS , es un estimador insesgado de la

varianza  2σ , es decir:    2 2R

SCRE S E

N G⎡ ⎤⎡ ⎤ = = σ⎣ ⎦ ⎢ ⎥−⎣ ⎦

Siendo el modelo  g g gY = μ + ε   con las hipótesis estadísticas:

                  0 1 2 G 1 gH : H : No todas las son igualesμ = μ = = μ μ

Para el contraste del análisis de la varianza con un factor se utiliza el estadístico de contraste:

                                                (G 1) , (N G)

SCFMCF G 1F F

SCRMCRN G

− −−= =

Suma de cuadrados Grados libertad Media cuadrática Estadístico

    Factor SCF G 1−SCF

MCFG 1

=−

    Residual SCR N G−SCR

MCRN G

=−

    Total SCT N 1−SCT

MCTN 1

=−

MCFF

MCR=

2 SCFR

SCT=

Regla de decisión:

No se rechaza  0H  si   (G 1) , (N G) , (G 1) , (N G)

MCFF F

MCR− − α − −= ≤

Se rechaza  0H  si   (G 1) , (N G) , (G 1) , (N G)

MCFF F

MCR− − α − −= >

Page 11: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

9                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El valor de α indica la probabilidad de cometer unerror de tipo I, es decir, de rechazar la hipótesis nulacuando es cierta. Si se rechaza la hipótesis nula con laevidencia de la información muestral se dice que eserechazo implica una conclusión fuerte.

Sin embargo, la aceptación de la hipótesis nula es unaconclusión débil debido a que se desconoce cuál es laprobabilidad de no rechazar la hipótesis nula cuandodebería ser rechazada, es decir, se desconoce laprobabilidad de cometer un error tipo II.

 Por este motivo, en lugar de utilizar la expresión de aceptar la hipótesis nula, es más correctodecir no rechazar la hipótesis nula, ya que cuando se da esta circunstancia lo que realmenteocurre es que no se dispone de suficiente evidencia empírica para rechazar la hipótesis nula. Sise tiene en cuenta esta reserva, se puede utilizar de forma indistinta las expresiones de aceptary no rechazar.

Los programas informáticos suelen ofrecer, junto al estadístico aplicado, el nivel de significacióncrítico (p_valor) asociado a dicho estadístico.

                              , (G 1) , (N G)p_ valor Prob F Fα − −⎡ ⎤= >⎣ ⎦

Se acepta la hipótesis nula  0H cuando   p_valor > α

La utilización del p‐valor (nivel de significación crítico) implicadar la vuelta al problema del contraste de hipótesis. Así enlugar de fijar a priori un nivel de significación, se calcula unvalor p‐valor que permita determinar a posteriori para queniveles de significación se puede rechazar la hipótesis nula.

Page 12: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

10                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

VALIDACIÓN DEL MODELO

Se analizan dos tipos de cuestiones diferentes:

¿Se cumplen en el modelo las hipótesis básicas adoptadas?

¿Es importante la variabilidad total explicada por el factor?

a)  La validez del estadístico F construido está condicionada al cumplimiento de las hipótesis

estadísticas básicas del modelo formuladas:    g g gY = μ + ε ,   2g gY N( , )μ σ∼

Hipótesis de Homocedasticidad: Las varianzas  2σ  de todas las poblaciones son idénticas

Cada una de las poblaciones tiene una distribución normal.

De  2g gY N( , )μ σ∼  se desprende que la variable aleatoria   2

g gN( , )ε μ σ∼

 Los contrastes de las hipótesis básicas se efectúan a partir de los residuos, que se definen:

                                                      gi gi g gi gˆ ˆY Y Yε = − μ = −

HIPÓTESIS DE NORMALIDAD:  Se puede verificar mediante alguno de los contrastes existentes,como por ejemplo el contraste de Kolmogorov‐Smirnov. Como un indicador de si los residuos seaproximan o no a una distribución normal, son útiles los gráficos denominados Q‐Q.

En estos gráficos se representan los valores observados de los residuos y los valores esperadosen el caso de que siguieran una distribución normal.

Ahora bien, ¿Cuáles son los efectos de la no normalidad en el análisis de la varianza?.

El hecho de que los residuos no se aproximen a una distribución normal en general no afecta deforma importante al estadístico F, que está basado en el supuesto de normalidad.

La razón se debe a que, como se están comparando medias, puede ser válida la aplicación delteorema central del límite a datos procedentes de una distribución no normal.

HIPÓTESIS DE HOMOCEDASTICIDAD:  Para determinar si la varianza permanece constante através de los distintos grupos (es decir, para verificar el cumplimiento de la hipótesis dehomocedasticidad) se utilizan, entre otros, los contrastes de Cochran, Bartlett y Box.

El problema que se plantea con la aplicación de dichos contrastes de homocedasticidad es que lavalidez de los mismos está condicionada al cumplimiento de la hipótesis de normalidad.

En tal caso, el estadístico F no se ve muy afectado por el hecho de que no existahomocedasticidad, siempre que las muestras de los diferentes grupos sean del mismo o similartamaño. En este sentido, algunos autores afirman que el no cumplimiento de la hipótesis de

Page 13: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

11                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

homocedasticidad puede afectar a los contrastes del análisis de la varianza cuando la razónentre los tamaños muestrales del grupo más grande y el grupo más pequeño es mayor que 2.

En algunos casos, la no homocedasticidad de los datos puede corregirse aplicando el modelo

g g gY = μ + ε al logaritmo de la variable, en lugar de hacerlo a la variable original.

El gráfico desviación típica‐media, que representa en ordenadas la desviación típica de cadagrupo y en abscisas la media respectiva, puede ser un instrumento sencillo  para determinar sies o no adecuada la transformación logarítmica. La transformación logarítmica sería pertinentecuando los puntos desviaciones típicas‐medias muestren una tendencia creciente de carácteraproximadamente lineal.

HIPÓTESIS DE INDEPENDENCIA:  En la formulación de hipótesis se adopta el supuesto de que sehan obtenido muestras aleatorias independientes dentro de cada uno de los grupos.

Sin embargo, cuando los datos se obtienen de forma secuencial puede ocurrir que este supuestono se cumpla. Una forma de averiguar si ocurre esta circunstancia  es mediante larepresentación gráfica de los residuos. Si los residuos siguen una cierta estela, en lugar de estardistribuidos de forma aleatoria en torno al eje de abscisas, será un indicio de falta deindependencia.

b)  La variabilidad total explicada por el factor viene dada por la medida de bondad del ajuste.

MEDIDA DE BONDAD DE AJUSTE:  Para determinar si es importante la parte de la variabilidadtotal explicada por el factor se utiliza el coeficiente de determinación.

Coeficiente de determinación:  SCF

RSCT

=2         también denominado eta cuadrado  2η

Un valor próximo a 1 del coeficiente de determinación indica que la mayor parte de lavariabilidad total puede atribuirse al factor, mientras que un valor próximo a 0 significa que elfactor explica muy poco de esa variabilidad total.

Page 14: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

12                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ANÁLISIS EX‐POST: COMPARACIONES MÚLTIPLES

En el caso de que en un análisis de la varianza se acepte la hipótesis nula de que los distintosgrupos tienen la misma media puede darse por concluido el estudio del caso.

Por el contrario, si se rechaza la hipótesis nula de igualdad es conveniente investigar qué gruposhan sido determinantes en ese rechazo. A este tipo de investigación complementaria y posteriora los contrastes básicos del análisis de la varianza se denomina análisis Ex‐post.

En el análisis ex‐post se pueden aplicar dos tipos de procedimientos: (a) Intervalos de confianzaindividuales.  (b) Comparaciones múltiples.

Con cualquiera de los dos procedimientos se trata de determinar en qué medida difieren lasmedias de las distintas poblaciones.

INTERVALOS DE CONFIANZA INDIVIDUALES:  Bajo la hipótesis de normalidad, la media muestralde un grupo (por ejemplo, el grupo g) se distribuye

g g

g

Y N ,n

⎡ ⎤σ⎢ ⎥μ⎢ ⎥⎣ ⎦

∼     en consecuencia,   g g

g

YN 0 ,1

n

− μ⎡ ⎤⎣ ⎦σ

La media cuadrática residual  es un estimador insesgado del parámetro σ2 , es decir,

2 2 2r r

SCRE s E s

N G⎡ ⎤⎡ ⎤ = = σ → σ =⎣ ⎦ ⎢ ⎥−⎣ ⎦

Al sustituir en la expresión  g g

g

Y

n

−μσ

  se tiene:   g gN G

r

g

Yt

s

n

− μ∼

Construyendo el intervalo de confianza   r(1 ) g g /2 , (N G)

g

sI ( ) Y t

n− α α −

⎡ ⎤⎢ ⎥μ = ±⎢ ⎥⎣ ⎦

donde   /2 , (N G)tα −  es el valor de la t de Student con  (N G)−  grados de libertad que deja a la

derecha  / 2α  de la masa probabilística.

De este modo se pueden construir intervalos de confianza individuales para cada una de lasmedias poblacionales, sin tener en cuenta una visión de conjunto.

Page 15: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

13                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

COMPARACIONES MÚLTIPLES

Existen diferentes procedimientos para realizar comparaciones múltiples de mediaspoblacionales. Los métodos más conocidos para la construcción de intervalos de confianzaconjuntos son los de Bonferroni, Scheffé y Tukey.

INTERVALO DE CONFIANZA DE BONFERRONI

Si existen G  grupos, el número de comparaciones que se pueden realizar es:  G(G 1)

c2−

=

La  hipótesis a contrastar en cada una de estas comparaciones es:

                                                       0 p q 1 p qH :  H :μ = μ μ ≠ μ

La aplicación del contraste de Bonferroni, también conocido como contraste de la diferenciasignificativa mínima modificada (LSD, en siglas inglesas) llevará a rechazar la hipótesis nula

0 p qH : μ = μ , para un nivel de significación global α , cuando:

p q /2c , (N G) rp q

1 1ˆy y t . s .n n• • α −− > +             donde   2

r

SCRs

N G=

Cuando se rechaza la hipótesis nula se busca qué grupos son distintos entre sí realizandocomparaciones múltiples (Pruebas Post Hoc) dos a dos.

Se construye un intervalo de confianza para la diferencia de medias poblacionales entre todaslas posibles parejas de niveles en cada factor.

( )p q p q /2c , (N G) r rp q p q

1 1 1 1ˆ ˆI C (y y ) t s Error típico sn n n n• • α −

⎡ ⎤μ − μ = − ± + = +⎢ ⎥

⎢ ⎥⎣ ⎦

El test de Bonferroni fija un nivel de significación total  ( / 2c)α , donde c ≡  número de

contrastes, est decir, el número de tests G

c2

⎛ ⎞= ⎜ ⎟⎝ ⎠

 que hay que realizar para comparar todos los

pares de medias.

Algunos autores proponen utilizar la aproximación de Bonferroni cuando el número decomparaciones  c  no es muy elevado. El test de Bonferroni es muy conservador, especialmentecuando  c  es grande. Pueden aplicarse otros contrastes múltiples: Test de Tukey (cuando eldiseño es equilibrado), test de Scheffé (cuando los tamaños muestrales son diferentes, coincidesiempre con ANOVA), test de Dunnett (cuando hay un grupo control), test de Duncan, ..., etc

Señalar que puede ocurrir que se rechace la hipótesis nula  0H en ANOVA y no se encuentren

diferencias entre ningún par de medias aplicando el test de Bonferroni.

Page 16: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

14                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

INTERVALO DE CONFIANZA DE SHEFFÉ

Es un método de comparaciones múltiples muy conservador, basado en la distribución F,controla la tasa de error para el conjunto total de comparaciones que es posible diseñar con Jmedias.Se utiliza solo para  efectuar solo comparaciones por pares, tiende a considerar significativasmenos diferencias de las que debería.

              ( )p q p q ; (G 1) , (N G) rp q

1 1ˆI C (y y ) (G 1) . F . s .n n• • α − −

⎡ ⎤μ − μ = − ± − +⎢ ⎥

⎢ ⎥⎣ ⎦

rp q

1 1ˆError típico sn n

= +

INTERVALO DE CONFIANZA DE TUKEY

El test HSD (Honestly significant difference) de Tukey es un método de comparaciones múltiples

que permite comparar  G G(G 1)

c2 2

⎛ ⎞ −= =⎜ ⎟⎝ ⎠

  pares de medias,  después de haber rechazado la

hipótesis nula de igualdad de medias mediante la técnica ANOVA.

El método resuelve cada una de estas comparaciones:   0 p q 1 p qH :  H :μ = μ μ ≠ μ

Se acepta la hipótesis nula  0H  cuando   p qy y HSD• •− ≤

Se rechaza la hipótesis nula  0H  cuando   p qy y HSD• •− >

 Cuando el diseño es balanceado o equilibrado (las muestras tienen el mismo tamaño):

1 2 Gn n n n= = = =  el estadístico  r, G , (N G)

sHSD q

nα −=

Los valores de   , G , (N G)qα −  corresponden a la distribución de Tukey, conocida como distribución

de rango estudentizado

( ) rp q p q , G , (N G)

sI C (y y ) q

n• • α −

⎡ ⎤μ − μ = − ±⎢ ⎥

⎢ ⎥⎣ ⎦

Si el intervalo cubre el 0 no existe diferencia significativa entre las medias.

Page 17: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

15                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Si el modelo no es equilibrado se emplea el ajuste de Tukey‐Kramer, que consiste en

reemplazar  n  por la media armónica   h 2

gg 1

2n

1n=

=

Estadístico  r, G , (N G)

p q

s 1 1HSD q

n n2α −= +

( ) rp q p q , G , (N G)

p q

s 1 1I C (y y ) q

n n2• • α −

⎡ ⎤μ − μ = − ± +⎢ ⎥

⎢ ⎥⎣ ⎦

Con este prueba se obtienen los mismos resultados que con el procedimiento de Bonferroni.

INTERVALO DE CONFIANZA DE DUNCAN

Es un procedimiento iterativo con el que se intenta comprobar la igualdad de medias basándoseen las más extremas. Es similar al procedimiento HSD de Tukey excepto que el nivel designificación varía de unas comparaciones a otras.

Se establecen las hipótesis:   0 p q 1 p qH :  H :μ = μ μ ≠ μ

En el modelo balanceado o equilibrado, se acepta la hipótesis nula  0H  cuando

p

rp q , p , (N G)

sy y q p 2, 3, ... ,G

n• • α −− ≤ =

pα ≡ es el nivel de significación conjunto relativo a p medias consecutivas:   p 1p 1 (1 ) −α = − − α

Para calcular  p , p , (N G)qα −    se utiliza la tabla de amplitudes significativas de Duncan

( )p

rp q p q , p , (N G)

sI C (y y ) q

n• • α −

⎡ ⎤μ − μ = − ±⎢ ⎥

⎢ ⎥⎣ ⎦

Si el intervalo cubre el 0 no existe diferencia significativa entre las medias.

En el modelo no‐balanceado o no‐equilibrado, se acepta la hipótesis nula  0H  cuando

p

rp q , p , (N G)

p q

s 1 1y y q p 2, 3, ... ,G

n n2• • α −− ≤ + =

( )p

rp q p q , p , (N G)

p q

s 1 1I C (y y ) q

n n2• • α −

⎡ ⎤μ − μ = − ± +⎢ ⎥

⎢ ⎥⎣ ⎦

Si el intervalo cubre el 0 no existe diferencia significativa entre las medias.

Page 18: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

16                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

TEST DE BARTLETT

Permite contrastar la igualdad de varianza en dos o más poblaciones sin necesidad de que eltamaño de los grupos sea el mismo. Es más sensible que el test de Levene a la falta denormalidad. Es la mejor opción, cuando los datos provienen de una distribución normal.

               2 2 2 2 2 20 1 2 3 4 1 i jH :   H :    para algún  i jσ = σ = σ = σ σ ≠ σ ≠

G

2 2r g g

gg 1 2G 1G

gi 1

G grupos                                                                ˆ ˆ(N G) . ln s (n 1) . ln sn tamaño de cada grupo                       

B           1 1 1

1 .3(G 1) n 1 N G

=−

=

≡− − −≡

= ≈ χ⎛ ⎞⎜ ⎟+ −

− − −⎜ ⎟⎝ ⎠

∑2g2r

          

s cuasivarianza de cada grupo                       

s media ponderanda de las cuasivarianzas

≡≡

Se acepta  0H  si   2, (G 1)B α −≤ χ

Page 19: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

17                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ANOVA DE UN FACTOR (ANOVA I)

Nivelesdel factor

Tratamientos Totales

1 Y11 Y12 Y1i Y1k 1Y •

2 Y21 Y22 Y2i Y2k 2Y •

g Yg1 Yg2 Ygi Ygk gY •

G YG1 YG2 YGi YGk GY •

Y• •

El objetivo es averiguar si los tratamientos empleados son significativamente diferentes, esto es, sihay diferencia significativa entre los efectos medios producidos por los tratamientos.

Para la aplicación del método ANOVA I  han de verificarse las siguientes hipótesis:a)  Que las poblaciones de donde proceden las muestras sean normales.b)  Que las citadas poblaciones tengan la misma varianza (hipótesis de homocedasticidad).c)  Que las muestras hayan sido elegidas al azar.

Se pretende contrastar la hipótesis nula  0H  frente a la hipótesis alternativa  1H :

0H :  Las medias de las poblaciones de donde proceden las muestras son iguales,  1 2 pμ = μ = = μ

1H :  Las medias de las poblaciones de donde proceden las muestras no son iguales.

A priori se supone que en los datos de la tabla existe una variación que se denomina SST:

                                g g gn n nG G G

2 2 2ij i ij i

g 1 i 1 g 1 i 1 g 1 i 1

2 2y f

Variación total Variación Factor Variación azar           SCT            SC F     

(y y ) (y y ) (y y )

SCT SCFˆ ˆs s

N 1 G 1

•• • •• •= = = = = =

− = − + −

= =− −

∑∑ ∑∑ ∑∑2r

     SCR

SCRs

N G=

Se acepta la hipótesis nula  0H  cuando el  estadístico observado (empírico)  2f

(G 1) , (N G) 2r

SF

S− − =   es

menor o igual que el estadístico teórico  , (G 1) , (N G)Fα − −

Page 20: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

18                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

SCT SCF SCR= + Notación

g 2nG2gi

g 1 i 1

YSCT Y

N• •

= =

= −∑∑

22Gg

SPSSg 1 g

YYSCF SC Intergrupos

n N• •

=

= − =∑

g 2nG Gg2

gi SPSSg 1 i 1 g 1 g

YSCR Y SC Error

n= = =

= − =∑∑ ∑

Media cuadrática total:  SCT

MCTN 1

=−

Media cuadrática del factor:   SCF

MCFG 1

=−

Media cuadrática residual:    SCR

MCRN G

=−

Estadístico  MCF

FMCR

=

Medidas de tamaño del efecto:  Estimación de la proporción de varianza explicada.

eta2:     2 ASCFSCT

η =

epsilon2:   2 ASCF (G 1)MCRSCT

− −ε =

omega2:  2 ASCF (G 1)MCRSCT MCR− −

ϖ =+

donde,    SCR

MCR (media cuadrática residual)N G

=−

Page 21: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

19                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 1 ‐   De un cierto producto se tomaron 12 muestras lo más parecidas posibles y sedividieron en 5 familias con 4, 2, 2, 3, 1 muestras, que se almacenaron bajo diferentescondiciones.   Se trata de ver con los datos de hidratación de la tabla adjunta si con un nivel deconfianza del 95% hay diferencias significativas entre los métodos de almacenaje.

Método 1 2 3 4 5

8,37,68,48,3

7,47,1

8,16,4

7,99,510,0

7,1

Solución:

Para asegurar que los datos de hidratación medios son iguales se aplica el modelo ANOVA deFisher con un solo factor (método).

Bajo los supuestos de independencia de las variables, normalidad y homocedásticidad (lavarianza del error condicional a las variables explicativas es constante a lo largo de las

observaciones). Denotando por  1 1N( , )μ σ ,  2 2N( , )μ σ ,  3 3N( , )μ σ ,  4 4N( , )μ σ   y   5 5N( , )μ σ  cada

una de los métodos de almacenaje, se contrastan las hipótesis:

0 1 2 3 4 5H : Los métodos son igualmente efectivos  ≡ μ = μ = μ = μ = μ

1 i jH : Los tratamientos no son igualmente efectivos   para algún  i j ≡ μ ≠ μ ≠

Se acepta la hipótesis nula  0H  cuando el  estadístico observado (empírico) 2e

(k 1) , (n k) 2r

SF

S− − =   es

menor o igual que el estadístico teórico  , (k 1) , (n k)Fα − −

donde,   i i in n nk k k

2 2 2ij ij i i

i 1 j 1 i 1 j 1 i 1 j 1

2 2 2y r e

SCT SCR SCE

(y y ) (y y ) (y y )

SCT SCR SCEˆ ˆ ˆs s s

n 1 n k k 1

•• • • ••= = = = = =

− = − + −

= = =− − −

∑∑ ∑∑ ∑∑

Page 22: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

20                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

CálculosTamaño

muestra  in

in

ijj 1

y=∑

in

2ij

j 1

y=∑

i2n

iji j 1

1y

n =

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠∑

in

ijj 1

ii

y

yn

=• =∑

1 8,3 ‐ 7,6 ‐ 8,4 ‐ 8,3 4 32,6 266.1 265,69 8,2

2 7,4 ‐ 7,1 2 14,5 105,17 105,13 7,3

3 8,1 ‐ 6,4 2 14,5 106,57 105,13 7,3

4 7,9 ‐ 9,5 ‐ 10 3 27.4 252,66 250,25 9,1

5 7,1 1 7,1 50,41 50,41 7.1

5

ii 1

n 12=

=∑in5

iji 1 j 1

y 96,1= =

=∑∑in5

2ij

i 1 j 1

y 780,91= =

=∑∑i

2n

ij5

j 1

ii 1

y

776,61n

=

=

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠ =∑

∑y 7,8• • =

( )

i2n5

ij 2i 1 j 1

y96,1

769,612 12

= =

⎡ ⎤⎢ ⎥⎢ ⎥⎣ ⎦ = =∑∑

i

i

2n5

ijn5i 1 j 12

iji 1 j 1

y

SCT y 780,91 769,6 11,31 Suma cuadrados total12

= =

= =

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠= − = − =∑∑

∑∑i

i

2n5

2 ijn5i 1 j 1

ijii 1 j 1

y1

SCE y 776,61 769,6 7,01n 12

Suma de cuadrados explicados (entre los métodos) debida a que hay distintos niveles del factor.

= =

= =

⎛ ⎞⎜ ⎟⎡ ⎤ ⎜ ⎟⎛ ⎞ ⎝ ⎠⎢ ⎥⎜ ⎟= − = − =

⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥⎣ ⎦

∑∑∑ ∑

2e

SCE 7,01s 1,75 Variabilidad explicada en la muestra

k 1 4= = =

SCT SCR SCE SCR 11,31 7,01 4,30= + → = − =

SCR 4,30 Suma de cuadrados residuos (dentro grupos) variabilidad interna dentro de cada nivel=

2 SCE 7,01R 0,62 Coeficiente de determinación, porcentaje de variabilidad explicada

SCT 11,31= = =

Page 23: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

21                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Fuente devariación

Sumacuadradosdesviaciones

Gradoslibertad

Variabilidad muestalTest F

     Explicadaentre grupos

SCE 7,01= k 1 4− = 2e

SCE 7,01S 1,75

k 1 4= = =

     Residualdentro grupos

SCR 4,30= n k 7− = 2r

SCR 4,30S 0,61

n k 7= = =

       Total SCT 11,31= n 1 11− = 2y

SCT 11,31S 1,03

n 1 11= = =

2e2r

SF 2,86

S= =

  2 SCER 0,62

SCT= =

Hipótesis nula   0H :  No existe diferencia significativa en los métodos de almacenaje.

Siendo  0,05 ; 4 , 7F 2,86 4,1203 F= < =   se acepta la hipótesis nula, afirmando que no hay

diferencia significativa entre los métodos de almacenaje con una fiabilidad del 95%  (nivel deconfianza).

Page 24: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

22                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 2 ‐   En un restaurante desean contratar a un camarero profesional cualificado. En unapreselección  se eligieron a cuatro personas de prueba. Para evaluar su rendimiento y el gradode satisfacción de los clientes se utilizó las cantidades entregadas como propinas. En la tablaadjunta se refleja el porcentaje de propina entregado sobre el importe total de la factura de losdistintos clientes.

1 2 3 4

87,510,910126,510

109,511,410,312

8,551511,110,5711

1310,59,512168

Se supone que los porcentajes de propinas sobre el importe total de la factura se puedenconsiderar normalmente distribuidos. Con un nivel de significación del 10% se pide:a)  Se puede aceptar la hipótesis de homocedasticidad de las distribuciones correspondientes alporcentaje de propina.b)  Se pueden considerar los cuatro candidatos igualmente cualificados para el trabajo.

Solución:

a)  Para decidir si los candidatos se encuentran igualmente cualificados se aplica el modeloANOVA de Fisher con un solo factor (propinas).

Las variables aleatorias  iY ≡  "Porcentaje de propina sobre el importe total de una factura

recibida por un candidato"  siguen distribuciones normales   i i iY N( , )μ σ∼  y pueden

considerarse independientes.

Antes de aplicar el modelo ANOVA hay que verificar que pueden considerarse homocedásticas(la varianza del error condicional a las variables explicativas es constante a lo largo de lasobservaciones), realizando para ello el test de Bartlett de homogeneidad de varianzas:

  2 2 2 2 2 20 1 2 3 4 1 i jH :   H :    para algún  i jσ = σ = σ = σ σ ≠ σ ≠

Se acepta  0H  si   21 , (k 1)B − α −≤ χ

k

2 2r i i

ii 1 2k 1k

ii 1

k grupos                                                                ˆ ˆ(n k) . ln s (n 1) . ln sn tamaño de cada grupo                       

B           1 1 1

1 .3(k 1) n 1 n k

=−

=

≡− − −≡

= ≈ χ⎛ ⎞⎜ ⎟+ −

− − −⎜ ⎟⎝ ⎠

∑2i2r

          

s cuasivarianza de cada grupo                       

s media ponderanda de las cuasivarianzas

≡≡

Page 25: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

23                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Para calcular el valor experimental del estadístico  B  hay que calcular las cuasivarianzasmuestrales y el valor de la variabilidad residual dentro de los grupos.

1 2 3 4

87,510,910126,510

109,511,410,312

8,551511,110,5711

1310,59,512168

7

1i 1

y 64,9=

=∑5

2i 1

y 53,2=

=∑7

3i 1

y 68,1=

=∑6

4i 1

y 69=

=∑  in4

iji 1 j 1

y 255,2= =

=∑∑7

21

i 1

y 625,31=

=∑5

22

i 1

y 570,3=

=∑7

23

i 1

y 725,71=

=∑6

24

i 1

y 833,5=

=∑in4

2ij

i 1 j 1

y 2754,82= =

=∑∑21s 3,9324= 2

2s 1,063= 23s 10,5324= 2

4s 8=21ˆln s 1,3692= 2

2ˆln s 0,0611= 23ˆln s 2,3545= 2

4ˆln s 2,079=

i i i2n n n

2 2 2i i i i i

i i ii 1 i 1 j 1

1 1 1s (y y ) y y

n 1 n 1 n= = =

⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟= − = −⎢ ⎥⎜ ⎟− − ⎝ ⎠⎢ ⎥⎣ ⎦

∑ ∑ ∑

2 22 21 2

2 22 23 4

1 64,9 1 53,2ˆ ˆs 625,31 3,9324  s 570,3 1,0636 7 4 5

1 68,1 1 69ˆ ˆs 725,71 10,5324 s 833,5 8        6 7 5 6

⎡ ⎤ ⎡ ⎤= − = = − =⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤

= − = = − =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

La variabilidad residual dentro de los grupos   2rs   es la media ponderada de la variabilidad de los

grupos:

2 2 2 22 1 1 2 2 3 3 4 4r

1 2 3

ˆ ˆ ˆ ˆ(n 1) . s (n 1) . s (n 1) . s (n 1) . ss

n n n 4− + − + − + −

=+ + −

2 2r r

6 . 3,9324 4 .1,064 6 .10,5324 5 . 8ˆ ˆs 6,24023 lns 1,831

25 4+ + +

= = → =−

Page 26: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

24                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

4

2i i

i 1

4

ii 1

ˆ(25 4) . ln 6,24 (n 1) . ln s21 .1,831 6 .1,3692 4 . 0,0611 6 . 2,3545 5 . 2,079

B1 1 1 1 1 11 1 1 1 .1 . 3 . 3 6 4 6 5 25 43(4 1) n 1 25 4

5,4694   5,0563

1,0817

=

=

− − −− + + +⎡ ⎤⎣ ⎦= = =

⎛ ⎞ ⎛ ⎞+ + + + −⎜ ⎟⎜ ⎟+ − −⎝ ⎠− − −⎜ ⎟⎝ ⎠

= =

Como  3 20,1 , 3 1 , k 1B 5,0563 6,251 − α −= < = χ = χ  se acepta la hipótesis nula de homogeneidad de

varianzas.

b)  Se establecen las hipótesis:

0 1 2 3 4H : Los tratamientos son igualmente efectivos  ≡ μ = μ = μ = μ

1 i jH : Los tratamientos no son igualmente efectivos   para algún  i j ≡ μ ≠ μ ≠

Se acepta la hipótesis nula  0H  cuando el  estadístico observado (empírico) 2e

(k 1) , (n k) 2r

SF

S− − =   es

menor o igual que el estadístico teórico  , (k 1) , (n k)Fα − −

 Se calculan las sumas de cuadrados y la variabilidad muestral   2 2 2y r e

SCT SCR SCEˆ ˆ ˆs s s

n 1 n k k 1

  SCT       SCR       SCE   

= = =− − −

= +

  2r

SCR SCRs 6,2402 variabilidad residual SCR 131,045

n k 21= = = → =

i in n4 42

1 ij 2 iji 1 j 1 i 1 j 1

1 255,2 1 2754,82y y 10,208 y 110,1928

n 25 n 25= = = =

α = = = = α = = =∑∑ ∑∑

2 2y 2 1 y

25 . 5,9895ˆˆ 110,1928 10,208 5,9895 s 6,2391 variabilidad total

24σ = α − α = − = → = =

          ySCT

s SCT 25 . 5,9895 149,7375n 1

= → = =−

SCT SCR SCE SCE SCT SCR 149,7375 131,045 18,6925= + → = − = − =

        eSCE 18,6925

s 6,2308 variabilidad explicadak 1 3

= = =−

Page 27: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

25                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Fuente devariación

Sumacuadrados

Gradoslibertad

Variabilidad muestal Test F

  Explicadaentre grupos

SCE 18,69= k 1 3− =   2e

SCE 18,69s 6,23

k 1 3= = =

  Residualdentro grupos

SCR 131,04= n k 21− =   2r

SCR 131,04s 6,24

n k 21= = =

       Total SCT 149,74= n 1 24− = 2y

SCT 149,74s 6,24

n 1 24= = =

2e2r

s 6,23F 0,999

ˆ 6,24s= = =

  2 SCER 0,125

SCT= =

Siendo  (4 1) , (25 4) 0,1 ; 3 , 21F 0,999 2,3649 F− − = < =   se acepta la hipótesis nula, afirmando que

todos los candidatos se encuentran igualmente cualificados.

Page 28: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

26                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 3 ‐  En una zona rural los labradores disponenn de cuatro tipos de abonos producidosen cuatro fábricas distintas. En las etiquetas de los sacos, cada fábrica asegura que su abono essuperior a los otros tres, en sus efectos fertilizantes.Se eligen cuatro fincas con la misma calidad de tierra y sembradas con el mismo tipo de árboles,suministrando a cada una un tipo de abono. Al final de la cosecha se han tomado muestras deárboles en cada una de ellas y se ha pesado la cantidad del fruto que dan. Obteniéndose:

Abonos1 2 3 4

 Peso en kilos

80724059

7552439031

83796892

1004137605372

¿Mienten todas las fábricas, con una significación del 5%?

Solución:

Se supone que la variable X≡ "peso en kilos de fruta por árbol" sigue una distribución normal,que las cuatro varianzas correspondientes a las cuatro poblaciones normales son iguales (pruebade Levene, criterio de homocedasticidad) y, además que las muestras fueron obtenidas al azar.

Con estas hipótesis se puede aplicar el modelo estadístico del análisis de la varianza para un solofactor (tratamiento con abonos) de variación.

Contraste de hipótesis que se plantea:

0H : Los pesos medios obtenidos al aplicar los distintos abonos son iguales

1H : Los pesos medios obtenidos al aplicar los distintos abonos no son iguales

Como existe variación debida al azar, la variación total se puede descomponer:

                      g g gn n nG G G

2 2 2ij i ij i

g 1 i 1 g 1 i 1 g 1 i 1

2 2y f

Variación total Variación Factor Variación azar           SCT            SC F     

(y y ) (y y ) (y y )

SCT SCFˆ ˆs s

N 1 G 1

•• • •• •= = = = = =

− = − + −

= =− −

∑∑ ∑∑ ∑∑2r

     SCR

SCRs

N G=

Page 29: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

27                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Se acepta la hipótesis nula  0H  cuando el  estadístico observado (empírico)  2f

(G 1) , (N G) 2r

SF

S− − =   es

menor o igual que el estadístico teórico  , (G 1) , (N G)Fα − −

Abonos1 2 3 4

 Peso en kilos

80724059

7552439031

83796892

1004137605372

1Y 251• = 2Y 291• = 3Y 322• = 4Y 363• = Y 1227•• =

g1 g2 g3 g4n 4 n 5 n 4 n 6 G 4 N 19= = = = = =

gn42 2 2 2 2 2 2 2 2 2 2 2 2 2gi

g 1 i 1

2 2 2 2 2 2

Y (80 72 40 59 ) (75 52 43 90 31 ) (83 79 68 92 )

                 (100 41 37 60 53 72 ) 86765

= =

= + + + + + + + + + + + + +

+ + + + + + =

∑∑

g 2n 242gi

g 1 i 1

Y 1227SCT Y 86765 7526,632

N 19• •

= =

= − = − =∑∑

Entre grupos: 22 2 2 2 2 24

gSPSS

g 1 g

YY 251 291 322 363 1227SCI SCF 1330,582

n N 4 5 4 6 19• •

=

⎡ ⎤= = − = + + + − =⎢ ⎥

⎣ ⎦∑

Dentro de los grupos:   SPSSSCE SCR SCT SCF 7526,632 1330,582 6196,05= = − = − =

g 2n 2 2 2 24 4g2

gig 1 i 1 g 1 g

Y 251 291 322 363SCR Y 86765 86765 80568,95 6196,05

n 4 5 4 6= = =

⎡ ⎤= − = − + + + = − =⎢ ⎥

⎣ ⎦∑∑ ∑

Media cuadrática total:  SCT 7526,632

MCT 418,146N 1 19 1

= = =− −

Media cuadrática del factor:   SCF 1330,582

MCF 443,527G 1 4 1

= = =− −

Media cuadrática residual:    SCR 6196,05

MCR 413,07N G 19 4

= = =− −

Estadístico  MCF 443,527

F 1,074MCR 413,07

= = =

Page 30: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

28                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Para un nivel de significación  0,05α = ,    , (G 1) , (N G) 0,05; 3 , 15F F 3,2874α − − = =

siendo,  (G 1) , (N G) 3, 15 0,05; 3 , 15 , (G 1) , (N G)

MCFF F 1,074 F 3,2874 F

MCR− − α − −= = = < = = →

Se acepta la hipótesis nula, concluyendo que no existe diferencia significativa entre los abonos.En consecuencia, los fabricantes mienten.

Fuentevariación

Suma de cuadrados Gradoslibertad

Media cuadrática Estadístico

 Entre‐grupos SCF 1330,582= G 1 3− =   1330,582

MCF 443,5273

= =

 Dentrode los grupos

SCR 6196,05= N G 15− =   6196,05

MCR 413,0715

= =

 Total SCT 7526,632= N 1 18− =   7526,632

MCT 418,14618

= =

   443,527

F413,07

   1,074

= =

=

Page 31: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

29                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Siendo p_valor (Sig.) 0,39 0,05= > →    Se acepta la hipótesis nula. Por tanto, no existe

diferencia significativa entre los abonos y los fabricantes mienten.

 Se podrían haber realizado las pruebas de normalidad (test de Kolmogorov‐Smirnov y  testde Shapiro‐Wilk) y las pruebas  de homocedasticidad (homogeneidad de varianzas) con el testde Levene y el test de Bartlett.

PRUEBAS DE NORMALIDAD

Page 32: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

30                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Los dos contrastes presentan en cada caso un p_valor (Sig.)  0,05>  por lo que se puede aceptar

la hipótesis nula de normalidad de los datos. En general, el test de Shapiro‐Wilk es más potente.

PRUEBAS DE HOMOCEDASTICIDAD

Test de Levene

Page 33: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

31                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La prueba de Levene conduce a un estadístico igual a 1,164 que en una  3, 15F  deja a su derecha

una cola de probabilidad 0,356.Siendo p_valor 0,356 0,05= > α = , se acepta la hipótesis nula de igualdad de varianzas

(criterio de homocedasticidad).

El test de Bartlett permite contrastar la igualdad de varianza en dos o más poblaciones sinnecesidad de que el tamaño de los grupos sea el mismo. Es más sensible que el test de Levene ala falta de normalidad. Es la mejor opción, cuando los datos provienen de una distribuciónnormal.

               2 2 2 2 2 20 1 2 3 4 1 i jH :   H :    para algún  i jσ = σ = σ = σ σ ≠ σ ≠

G

2 2r g g

gg 1 2G 1G

gi 1

G grupos                                                                ˆ ˆ(N G) . ln s (n 1) . ln sn tamaño de cada grupo                       

B           1 1 1

1 .3(G 1) n 1 N G

=−

=

≡− − −≡

= ≈ χ⎛ ⎞⎜ ⎟+ −

− − −⎜ ⎟⎝ ⎠

∑2g2r

          

s cuasivarianza de cada grupo                       

s media ponderanda de las cuasivarianzas

≡≡

Se acepta  0H  si   2, (G 1)B α −≤ χ

Para calcular el valor experimental del estadístico  B  hay que calcular las cuasivarianzasmuestrales y el valor de la variabilidad residual dentro de los grupos.

Abonos

1 2 3 4

80724039

7552439031

83796892

1004137605372

4

1 1i 1

Y y 251•=

= =∑5

2 2i 1

Y y 291•=

= =∑4

3 3i 1

Y y 322•=

= =∑6

4 4i 1

Y y 363•=

= =∑gin4

iji 1 j 1

Y y 1227••= =

= =∑∑4

2 21 1

i 1

Y y 16665•=

= =∑5

2 22 2

i 1

Y y 19239•=

= =∑4

2 23 3

i 1

Y y 26218•=

= =∑6

2 24 4

i 1

Y y 24643•=

= =∑gin4

2 2ij

i 1 j 1

Y y 86765••= =

= =∑∑21s 304,917= 2

2s 575,7= 23s 99= 2

4s 536,3=

21ˆln s 5,72= 2

2ˆln s 6,356= 23ˆln s 4,595= 2

4ˆln s 6,285=

Page 34: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

32                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

i gg2n nn

2 2 2g i i i i

g g gi 1 i 1 j 1

1 1 1s (y y ) y y

n 1 n 1 n= = =

⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟= − = −⎢ ⎥⎜ ⎟− − ⎝ ⎠⎢ ⎥⎣ ⎦

∑ ∑ ∑

2 22 21 2

2 22 23 4

1 251 1 291ˆ ˆs 16665 304,917  s 19239 575,7          3 4 4 5

1 322 1 363ˆ ˆs 26218 99             s 24643 536,3        3 4 5 6

⎡ ⎤ ⎡ ⎤= − = = − =⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤

= − = = − =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

La variabilidad residual dentro de los grupos   2rs   es la media ponderada de la variabilidad de los

grupos:   2 2 2 2

2 1 1 2 2 3 3 4 4r

1 2 3

ˆ ˆ ˆ ˆ(n 1) . s (n 1) . s (n 1) . s (n 1) . ss

n n n 4− + − + − + −

=+ + −

2 2r r

3 . 304,917 4 . 575,7 3 . 99 5 . 536,3ˆ ˆs 393,536 lns 5,975

19 4+ + +

= = → =−

4

2g g

g 1

4

gi 1

ˆ(19 4) . ln 393,536 (n 1) . ln s

B1 1 1

1 .3(4 1) n 1 19 4

15 . 5,975 3 . 5,72 4 . 6,356 3 . 4,595 5 . 6,285   1,6397

1 1 1 1 1 11 .

3 . 3 3 4 3 5 19 4

=

=

− − −

= =⎛ ⎞⎜ ⎟+ −

− − −⎜ ⎟⎝ ⎠

− + + +⎡ ⎤⎣ ⎦= =⎛ ⎞+ + + + −⎜ ⎟−⎝ ⎠

Como  3 20,05 , 3 , G 1B 1,6397 7,815 α −= < = χ = χ  se acepta la hipótesis nula de homogeneidad de

varianzas.

Page 35: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

33                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 4 ‐   Con gratificaciones al personal tres empresas de un grupo  deciden llevar unapolítica para reducir el absentismo laboral.  Previamente al diseño definitivo de medidas, setoman datos al azar de las ausencias anuales de varios empleados en tres empresas del grupo:

Empresa 1 Empresa 2 Empresa 3

1235135

6589735

1215432

a)  Probar la normalidad de los datos y la hipótesis de homocedasticad con un 5% de significación.b)  Se puede admitir, con un 5% de significación, que el número de ausencias de un empleado tienediferencias significativas según la empresa considerada.c)  Entre qué empresas se producen las diferencias más significativas.

Solución:

a)  Sean las variables   iY Número de ausencias anuales de un empleado de la empresa i≡

Para contrastar si las variables siguen distribuciones normales se utiliza el test de normalidad deLilliefors para cada una de las funciones de distribución.

Los contrastes a realizar son:  0 i

1 i

H : F (x) es la función de distribución de una variable normal     

H : F (x) no es la función de distribución de una variable normal⎧⎨⎩

Estadístico de contraste con valores tipificados: i in n 0D máx F (z) F (z)    = −

in i

0

F  Función de distribución empírica de las observaciones muestrales tipificadas de la variable Y

F  Función de distribución correspondiente a una distribución normal 

Se acepta la hipótesis nula sí

in , n , nP D D D  valor en tabla de Kolmogorov‐Smirnov‐Lillieforsα α⎡ ⎤≤ = α⎣ ⎦

Empresa 11n

1 1j 1j1 j 1

1 20y y .n 2,857

n 7=

= = =∑

Page 36: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

34                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

1 12n n 2

2 21 1j 1j 1j 1j

1 1j 1 j 1

1 1 1 20s y .n y .n 74 2,8095

n 1 n 7 1 7= =

⎡ ⎤⎛ ⎞ ⎛ ⎞⎢ ⎥⎜ ⎟= − = − =⎜ ⎟⎢ ⎥⎜ ⎟− − ⎝ ⎠⎝ ⎠⎢ ⎥⎣ ⎦∑ ∑

1s 2,8095 1,6762= =

Valores tipificados de las observaciones muestrales:   1j 1 1j1j

1

y y y 2,857z

s 1,6762

− −= =

El valor de 1n

F y  0F en cada uno de los valores, así como las diferencias en valor absoluto

aparecen en la tabla adjunta.

                        = −11 j 0 1j n 1ja F (z ) F (z )        −= −

11 j 0 1j n 1j 1b F (z ) F (z )

1jy 1jn 1jN 1jz1

1jn 1j

1

N(z )F (z )

n= 0 1j 1jF (z ) P(z z )= ≤      1ja      1jb

1 2 2 1,11− 2 / 7 0,1335 0,1522 0,13352 1 3 0,51− 3 / 7 0,3050 0,1236 0,01933 2 5 0,09 5 / 7 0,5359 0,1784 0,10735 2 7 1,28 1 0,8977 0,1003 0,1854

1n 7=

En consecuencia,   = − = =1 1n n 0 j 1j 1jD máx F (z) F (z) máx (a  ,  b ) 0,1854  

Como   = < =1n 0,05 , 7D 0,1854  0,300  D  se acepta la hipótesis de normalidad de la muestra de la

empresa 1.

Empresa 2

=

= = =∑2n

2 2j 2j2 j 1

1 43y y .n 6,143

n 7

= =

⎡ ⎤⎛ ⎞ ⎛ ⎞⎢ ⎥⎜ ⎟= − = − =⎜ ⎟⎢ ⎥⎜ ⎟− − ⎝ ⎠⎝ ⎠⎢ ⎥⎣ ⎦∑ ∑

2 22n n 2

2 22 2j 2j 2j 2j

2 2j 1 j 1

1 1 1 43s y .n y .n 289 4,1429

n 1 n 7 1 7

= =2s 4,1429 2,0354

Valores tipificados de las observaciones muestrales:  − −

= =2j 2 2j2j

2

y y y 6,143z

s 2,0354

El valor de 2n

F y  0F en cada uno de los valores, así como las diferencias en valor absoluto

aparecen en la tabla adjunta.

                        = −22 j 0 2 j n 2 ja F (z ) F (z )        −= −

22 j 0 2 j n 2 j 1b F (z ) F (z )

Page 37: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

35                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

2jy 2jn 2jN 2jz =2

2jn 2j

2

N(z )F (z )

n= ≤0 2j 2jF (z ) P(z z )      2ja      2jb

3 1 1 − 1,54 1 / 7 0,0618 0,0811 0,06185 2 3 − 0,56 3 / 7 0,2877 0,1409 0,14486 1 4 − 0,07 4 / 7 0,4721 0,0993 0,04357 1 5 0,42 5 / 7 0,6628 0,0515 0,09148 1 6 0,91 6 / 7 0,8186 0,0385 0,10439 1 7 1,40 1 0,9192 0,0808 0,0621

1n 7=

Por tanto,   = − = =2 2n n 0 j 2j 2jD máx F (z) F (z) máx (a  ,  b ) 0,1448  

Como   = < =2n 0,05 , 7D 0,1448  0,300  D  se acepta la hipótesis de normalidad de la muestra de la

empresa 2.

Empresa 3

=

= = =∑3n

3 3j 3j3 j 1

1 18y y .n 2,571

n 7

= =

⎡ ⎤⎛ ⎞ ⎛ ⎞⎢ ⎥⎜ ⎟= − = − =⎜ ⎟⎢ ⎥⎜ ⎟− − ⎝ ⎠⎝ ⎠⎢ ⎥⎣ ⎦∑ ∑

3 32n n 2

2 23 3j 3j 3j 3j

3 3j 1 j 1

1 1 1 18s y .n y .n 60 2,2857

n 1 n 7 1 7

= =3s 2,2857 1,5119

Valores tipificados de las observaciones muestrales:  − −

= =3j 3 2j3j

3

y y y 2,571z

s 1,5119

El valor de 3n

F y  0F en cada uno de los valores, así como las diferencias en valor absoluto

aparecen en la tabla adjunta.

                        = −33 j 0 3 j n 3 ja F (z ) F (z )        −= −

33 j 0 3 j n 3 j 1b F (z ) F (z )

3jy 3jn 3jN 3jz =3

3jn 3j

3

N(z )F (z )

n= ≤0 3j 3jF (z ) P(z z )      3ja      3jb

1 2 2 − 1,04 2 / 7 0,1492 0,1365 0,14922 2 4 − 0,38 4 / 7 0,3520 0,2194 0,06633 1 5 0,28 5 / 7 0,6103 0,1040 0,03894 1 6 0,94 6 / 7 0,8264 0,0307 0,11215 1 7 1,61 1 0,9463 0,0537 0,0892

1n 7=

Luego,   = − = =3 3n n 0 j 3j 3jD máx F (z) F (z) máx (a  ,  b ) 0,2194  

Page 38: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

36                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Como   = < =3n 0,05 , 7D 0,2194  0,300  D  se acepta la hipótesis de normalidad de la muestra de la

empresa 3.

En definitiva, se admite la normalidad de las tres variables en estudio.

Page 39: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

37                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 40: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

38                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Cuando el p_valor (Sig. Asintótica) es menor que 0,05 se rechaza la hipótesis nula y, enconsecuencia, la distribución no es normal.

En este caso, las tres empresas presentan un p_valor mayor que 0,05 (respectivamente: 0,9700 ,0,9986  y 0,8913) con lo que las tres empresas siguen una distribución normal.

También se podía haber recurrido:

Siendo el p_valor (Sig.) mayor que 0,05 se acepta la hipótesis nula y, por tanto, el absentismo enlas empresas sigue una distribución normal.

Page 41: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

39                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

b)  Para analizar si existen diferencias en las empresas en el absentismo por empleado,mediante un análisis de la varianza hay que contrastar las hipótesis:

μ = μ = μ0 1 2 3H :       no hay diferencias significativas 

μ ≠ μ ≠1 i jH :    para algún  i j    si hay diferencias significativas

Para aplicar el método ANOVA, una vez que las muestras son independientes y siguen unadistribución normal, es necesario verificar la homogeneidad de las varianzas de las variables

=iY , i 1, 2, 3 . Para ello, se utiliza el test de Bartlett de homocedasticidad al contrastar las

hipótesis:

2 2 2 2 2 20 1 2 3 1 i jH :   H :    para algún  i jσ = σ = σ = σ σ ≠ σ ≠

Se acepta  0H  si   21 , (k 1)B − α −≤ χ

k

2 2r i i

ii 1 2k 1k

ii 1

k grupos                                                                ˆ ˆ(n k) . ln s (n 1) . ln sn tamaño de cada grupo                       

B           1 1 1

1 .3(k 1) n 1 n k

=−

=

≡− − −≡

= ≈ χ⎛ ⎞⎜ ⎟+ −

− − −⎜ ⎟⎝ ⎠

∑2i2r

          

s cuasivarianza de cada grupo                       

s media ponderanda de las cuasivarianzas

≡≡

Para calcular el valor experimental del estadístico  B  hay que calcular las cuasivarianzasmuestrales y el valor de la variabilidad residual dentro de los grupos.

Empresa 1 Empresa 2 Empresa 3

1235135

6589735

1215432

7

1i 1

y 20=

=∑7

2i 1

y 43=

=∑7

3i 1

y 18=

=∑  in3

iji 1 j 1

y 81= =

=∑∑7

21

i 1

y 74=

=∑7

22

i 1

y 289=

=∑7

23

i 1

y 60=

=∑in3

2ij

i 1 j 1

y 423= =

=∑∑21s 2,8095= 2

2s 4,1429= 23s 2,2857=

21ˆln s 1,0330= 2

2ˆln s 1,4214= 23ˆln s 0,8267=

Page 42: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

40                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

i i i2n n n

2 2 2i i i i i

i i ii 1 i 1 j 1

1 1 1s (y y ) y y

n 1 n 1 n= = =

⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟= − = −⎢ ⎥⎜ ⎟− − ⎝ ⎠⎢ ⎥⎣ ⎦

∑ ∑ ∑

2 22 21 2

223

1 20 1 43ˆ ˆs 74 2,8095  s 289 4,14296 7 6 5

1 18s 60 2,2857        

6 7

⎡ ⎤ ⎡ ⎤= − = = − =⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦⎡ ⎤

= − =⎢ ⎥⎣ ⎦

La variabilidad residual dentro de los grupos   2rs   es la media ponderada de la variabilidad de los

grupos:

2 2 22 1 1 2 2 3 3r

1 2 3

ˆ ˆ ˆ(n 1) . s (n 1) . s (n 1) . ss

n n n 3− + − + −

=+ + −

2 2r r

6 . 2,8095 6 . 4,1429 6 . 2,2857ˆ ˆs 3,07936 lns 1,1247

21 3+ +

= = → =−

3

2i i

i 1

3

ii 1

ˆ(21 3) . ln 3,0794 (n 1) . ln s18 .1,1247 6 .1,0330 6 .1,4214 6 . 0,8267

B1 1 1 1 11 1 1 1 .1 . 3 . 2 6 6 6 21 33(3 1) n 1 21 3

0,558   0,5195

1,0741

=

=

− − −− + +⎡ ⎤⎣ ⎦= = =

⎛ ⎞ ⎛ ⎞+ + + −⎜ ⎟⎜ ⎟+ − −⎝ ⎠− − −⎜ ⎟⎝ ⎠

= =

Como  3 20,05 , 2 1 , k 1B 0,5195 5,991 − α −= < = χ = χ  se acepta la hipótesis nula de homogeneidad de

varianzas.

Uilizando las técnicas del ANOVA para una clasificación simple, admitiendo que las variables

=iY , i 1, 2, 3  con independientes, normales y homocedásticas, se procede a contrastar la

hipótesis nula   0 1 2 3H :     (no hay diferencias significativas) μ = μ = μ

Se acepta la hipótesis nula  0H  cuando el  estadístico observado (empírico) 2e

(k 1) , (n k) 2r

SF

S− − =   es

menor o igual que el estadístico teórico  , (k 1) , (n k)Fα − −

 Se calculan las sumas de cuadrados y la variabilidad muestral   2 2 2y r e

SCT SCR SCEˆ ˆ ˆs s s

n 1 n k k 1

  SCT       SCR       SCE   

= = =− − −

= +

Page 43: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

41                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

  2r

SCR SCRs 3,07936 variabilidad residual SCR 55,4286

n k 18= = = → =

i in n3 32

1 ij 2 iji 1 j 1 i 1 j 1

1 81 1 423y y 3,85714 y 20,14285

n 21 n 21= = = =

α = = = = α = = =∑∑ ∑∑

2 2y 2 1 y

21 . 5,26533ˆˆ 20,14285 3,85714 5,26533 s 5,52859 variabilidad total

20σ = α − α = − = → = =

  ySCT

s SCT 20 . 5,52859 110,5717n 1

= → = =−

SCT SCR SCE SCE SCT SCR 110,5717 55,4286 55,1431= + → = − = − =

        eSCE 55,1431

s 27,5715 variabilidad explicadak 1 2

= = =−

Fuente devariación

Sumacuadrados

Gradoslibertad

Variabilidad muestal Test F

  Explicadaentre grupos

SCE 55,1431= k 1 2− =     2es 27,5715=

  Residualdentro grupos

SCR 55,4286= n k 18− =     2rs 3,0794=

       Total SCT 110,5717= n 1 20− =     2ys 5,5286=

2e2r

sF 8,9536

s= =

  2 SCER 0,4987

SCT= =

Siendo  (3 1) , (21 3) 0,05 ; 2 , 18F 8,9536 3,5546 F− − = > =   se rechaza la hipótesis nula, afirmando que

hay diferencias significativas en el número de absentismo por empleado según la emperesa.

Page 44: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

42                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 45: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

43                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 5 ‐  Se someten 24 muestras de agua a 4 tratamientos de descontaminacióndiferentes y asignados al azar. Para cada muestra se mide un indicador de la calidad del agua(cuanto más alto está el indicador, mayor es la calidad del agua).  Con un nivel de confianza del95%  ¿son los tratamientos igualmente efectivos?.

T1 T2 T3 T4

62606359

636771646566

686671676868

5662606163646359

Solución:

En un principio parece que el tratamiento más efectivo es el 3.  Para asegurar que losindicadores medios son iguales se aplica el modelo ANOVA de Fisher con un solo factor(tratamientos).

Bajo los supuestos de independencia de las variables, normalidad y homocedásticidad (lavarianza del error condicional a las variables explicativas es constante a lo largo de las

observaciones). Denotando por  1 1N( , )μ σ ,  2 2N( , )μ σ ,  3 3N( , )μ σ ,  4 4N( , )μ σ  cada uno de los

tratamientos, se contrastan las hipótesis:

0 1 2 3 4H : Los tratamientos son igualmente efectivos  ≡ μ = μ = μ = μ

1 i jH : Los tratamientos no son igualmente efectivos   para algún  i j ≡ μ ≠ μ ≠

Se acepta la hipótesis nula  0H  cuando el  estadístico observado (empírico) 2f

(G 1) , (N G) 2r

sF

s− − =   es

menor o igual que el estadístico teórico  , (G 1) , (N G)Fα − −

donde,       g g gn n nG G G

2 2 2ij i ij i

g 1 i 1 g 1 i 1 g 1 i 1

2 2y f

Variación total Variación Factor Variación azar           SCT            SC F     

(y y ) (y y ) (y y )

SCT SCFˆ ˆs s

N 1 G 1

•• • •• •= = = = = =

− = − + −

= =− −

∑∑ ∑∑ ∑∑2r

     SCR

SCRs

N G=

Page 46: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

44                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

g

g g

2nGn nG G gi

g 1 i 12 2gi gi

g 1 i 1 g 1 i 1

ySCT (y y ) y

n= =

• •

= = = =

⎛ ⎞∑ ∑⎜ ⎟

⎝ ⎠= − = −∑∑ ∑∑g

g

g

2n2nG

ijnG G gii 1 g 1 i 12

ggg 1 i 1 g 1

y ySCE (y y )

n N= = =

• • •

= = =

⎛ ⎞⎜ ⎟ ⎛ ⎞

∑ ∑⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠= − = −∑

∑∑ ∑

Cálculos:  G 4=Tamaño

muestra  gn

gn

gii 1

y=∑

gn

2gi

i 1

y=∑

g2n

gig i 1

1y

n =

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠∑

gn

gii 1

ig

y

yn

=• =∑

T1 62 ‐ 60 ‐ 63 ‐ 59 4 244 14894 14884 61

T2 63 ‐ 67 ‐ 71 ‐ 64 ‐65 ‐ 66

6 396 26176 26136 66

T3 68 ‐ 66 ‐ 71 ‐ 67 ‐68 ‐ 68

6 408 27758 27744 68

T4 56 ‐ 62 ‐ 60 ‐ 61 ‐63 ‐ 64 ‐ 63 ‐ 59

8 488 29816 29768 61

4

ig 1

n 24=

=∑gn4

gig 1 i 1

y 1536= =

=∑∑gin4

2gi

g 1 i 1

y 98644= =

=∑∑g

2n

gi4

i 1

gg 1

y

98532n

=

=

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠ =∑

∑y 64• • =

g2n4

gi2

g 1 i 1

y1536

9830424 24

= =

⎡ ⎤⎢ ⎥⎢ ⎥⎣ ⎦ = =∑∑

g

g

2n4

gin4g 1 i 12

gig 1 i 1

y

SCT y 98644 98304 340 Suma cuadrados total24

= =

= =

⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠= − = − =∑∑

∑∑

Page 47: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

45                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

g

g

2n4

2 gin4g 1 i 1

gigg 1 i 1

y1

SCE y 98532 98304 228n 24

Suma de cuadrados explicados (entre tratamientos) debida a que hay distintos niveles del factor.

= =

= =

⎛ ⎞⎜ ⎟⎡ ⎤ ⎜ ⎟⎛ ⎞ ⎝ ⎠⎢ ⎥⎜ ⎟= − = − =

⎢ ⎥⎜ ⎟⎝ ⎠⎢ ⎥⎣ ⎦

∑∑∑ ∑

2f

SCE 228s 76 Varianza explicada en la muestra

k 1 3= = =

SCT SCR SCE SCR 340 228 112

SCR Suma de cuadrados residuos (dentro grupos) variabilidad interna dentro de cada nivel

= + → = − =≡

2 SCE 228R 0,6706 Coeficiente de determinación, porcentaje de variabilidad explicada

SCT 340= = =

Fuente devariación

Sumacuadrados

Gradoslibertad

Variabilidad muestal Test F

  Entre grupos SCE 228= k 1 3− =   2f

SCE 228s 76

k 1 3= = =

 Dentro Grupos SCR 112= n k 20− =   2r

SCR 112s 5,6

n k 20= = =

       Total SCT 340= n 1 23− = 2y

SCT 340s 14,782

n 1 23= = =

  2f2r

s 76F 13,571

ˆ 5,6s= = =

   2 SCER 0,6706

SCT= =

Siendo  (4 1) , (20 4) 0,05 ; 3 , 20F 13,571 3,0984 F− − = > =   se rechaza la hipótesis nula, afirmando que no

todos los tratamientos son iguales de efectivos.

Cuando se rechaza la hipótesis nula se busca qué grupos son distintos entre sí realizandocomparaciones múltiples (Pruebas Post Hoc) dos a dos. Una de las opciones más utilizadas es elTest de Bonferroni.

Se construye un intervalo de confianza para la diferencia de medias poblacionales entre todaslas posibles parejas de niveles en cada factor.

( )p q p q /2c , (N G) r rp q p q

1 1 1 1ˆ ˆI C (y y ) t s Error típico sn n n n• • α −

⎡ ⎤μ − μ = − ± + = +⎢ ⎥

⎢ ⎥⎣ ⎦

El test de Bonferroni fija un nivel de significación total  ( / 2c)α , donde c ≡  número de

contrastes, est decir, el número de tests k

c2⎛ ⎞

= ⎜ ⎟⎝ ⎠

 que hay que realizar para comparar todos los

pares de medias.

Page 48: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

46                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

0,005 , (24 4) 0,005 , 20 r

4 0,05 ˆc 6 0,005 t t 2,845 s 5,6 2,3672 2c 12 −

⎛ ⎞ α= = = = = = = =⎜ ⎟⎝ ⎠

( )1 21 1

I C (61 66) 2,845 . 2,367 9,47 , 0,534 6

⎡ ⎤μ − μ = − ± + = − −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

El intervalo no cubre el 0 y se rechaza la hipótesis de igualdad de medias, siendo mejor la calidaddel agua en el tratamiento 2.

( )1 31 1

I C (61 68) 2,845 . 2,367 11,47 , 2,534 6

⎡ ⎤μ − μ = − ± + = − −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

El intervalo no cubre el 0 y se rechaza la hipótesis de igualdad de medias, siendo mejor la calidaddel agua en el tratamiento 3.

( )1 41 1

I C (61 61) 2,845 . 2,367 4,24 , 4,244 8

⎡ ⎤μ − μ = − ± + = −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

El intervalo cubre el 0 y se acepta la hipótesis de igualdad de medias, siendo igual la calidad delagua en los dos tratamientos.

( )2 31 1

I C (66 68) 2,845 . 2,367 6 , 26 6

⎡ ⎤μ − μ = − ± + = −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

El intervalo cubre el 0 y se acepta la hipótesis de igualdad de medias, siendo igual la calidad delagua en tratamientos 2 y 3.

En definitiva los tratamientos 2 y 3 ofrecen la misma y mejor calidad en el agua con un nivel deconfianza del 95%.

El método de comparaciones múltiples de Sheffé es muy conservador, basado en ladistribución F, controla la tasa de error para el conjunto total de comparaciones que es posiblediseñar con J medias. Se utiliza solo para  efectuar solo comparaciones por pares, tiende aconsiderar significativas menos diferencias de las que debería.

( )p q p q ; (G 1) , (N G) rp q

1 1ˆI C (y y ) (G 1) . F . s .n n• • α − −

⎡ ⎤μ − μ = − ± − +⎢ ⎥

⎢ ⎥⎣ ⎦

( )1 2 0,05 ; 3 , 201 1

I C (61 66) 3 . F 2,367 9,66 , 0,344 6

⎡ ⎤μ − μ = − ± + = − −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

( )1 3 0,05 ; 3 , 201 1

I C (61 68) 3 . F 2,367 11,66 , 2,344 6

⎡ ⎤μ − μ = − ± + = − −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

Page 49: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

47                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

( )1 4 0,05 ; 3 , 201 1

I C (61 61) 3 . F 2,367 4,42 , 4,424 8

⎡ ⎤μ − μ = − ± + = −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

Siendo  0p_ valor Signatura 0,00 0,05 Se rechaza H≡ = < →

En consecuencia, no todos los tratamientos son iguales de efectivos.

Page 50: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

48                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 51: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

49                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 6 ‐  La tabla refleja las puntuaciones obtenidas por catorce operarios adiestrados enuna determinada técnica, aplicando tres métodos alternativos.a) Con una significación del 5%, ¿son diferentes los resultados obtenidos con los tres métodos?.b) ¿Producen los mismos resultados, con una significación del 1%?c)  Con un nivel de significación del 5%, comparar las medias de los métodos alternativos.

Método A Método B Método C

6 9 97 8 8

8 9 7

7 8 8

9 9

Solución:

En este caso existen tres poblaciones distintas, a cada una de las cuales se ha aplicado unmétodo diferente. Se establecen las hipótesis:

0 1 2 3H : μ = μ = μ    Los tres métodos producen idénticos resultados

1 j jH :  •μ ≠ μ              No producen los mismos resultados

Supuestos: Independencia, Normalidad, Homocedasticidad

Método A Método B Método C

6 9 97 8 8

8 9 7

7 8 8

9 9

1Y 28• = 2Y 43• = 3Y 41• = Y 112• • =

g 2n 232gi

g 1 i 1

Y 112SCT Y 908 12

N 14• •

= =

= − = − =∑∑

22 2 2 2 23g

SPSSg 1 g

YY 28 43 41 112SCI SCF 6

n N 4 5 5 14• •

=

⎡ ⎤= = − = + + − =⎢ ⎥

⎣ ⎦∑

g 2n 2 2 23 3g2

SPSS gig 1 i 1 g 1 g

Y 28 43 41SCE SCR Y 908 6

n 4 5 5= = =

⎡ ⎤= = − = − + + =⎢ ⎥

⎣ ⎦∑∑ ∑

Media cuadrática total:  SCT 12

MCT 0,92N 1 14 1

= = =− −

Page 52: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

50                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Media cuadrática del factor:   SCF 6

MCF 3G 1 3 1

= = =− −

Media cuadrática residual:    SCR 6

MCR 0,545N G 14 3

= = =− −

        rs 0,545 0,7382= =

Estadístico  MCF 3

F 5,5MCR 0,545

= = =

Para un nivel de significación  0,05α = ,    , (G 1) , (N G) 0,05; 2 , 11F F 3,98α − − = =

Siendo,  (G 1) , (N G) (3 1) , (14 3) 0,05; (3 1) , (14 3) , (G 1) , (N G)

MCFF F 5,5 F 3,98 F

MCR− − − − − − α − −= = = > = = → Se

rechaza la hipótesis nula, concluyendo que los tres métodos no producen los mismos resultados,con una significación del 5%

Fuentevariación

Suma decuadrados

Grados libertad Media cuadrática Estadístico

 Factor SCF 6= G 1 3 1 2− = − =   SCF 6

MCF 3G 1 2

= = =−

 Residual SCR 6= N G 14 3 11− = − =   SCR 6

MCR 0,545N G 11

= = =−

 Total SCT 12= N 1 14 1 13− = − =   SCT 12

MCT 0,92N 1 13

= = =−

   MCF 3

F 5,5MCR 0,545

= = =

    2 SCF 6R 0,5

SCT 12= = =

b)  Para un nivel de significación del 1%   ( 0,01)α =  no se rechaza la hipótesis nula, aceptando

que los tres métodos producen idénticos resultados. Adviértase que en este caso,

(G 1) , (N G) (3 1) , (14 3) 0,01; (3 1) , (14 3) , (G 1) , (N G)

MCFF F 5,5 F 7,20 F

MCR− − − − − − α − −= = = < = =

Dado que el tamaño de la muestra en los tres grupos es muy similar, el no cumplimiento de lahipótesis de homoscedasticidad no afectaría de forma importante al contraste realizado.

El coeficiente de determinación que se obtiene:   2 SCF 6R 0,5

SCT 12= = =

b)  En el caso de rechazo de la hipótesis nula del análisis de la varianza se procede a realizar unestudio Ex‐post.En este sentido, se construyen intervalos de confianza individuales para cada una de las tresmedias poblacionales y se aplica el método de Bonferroni para comparar las medias de los tresmétodos  de entrenamiento tomados dos a dos.

Page 53: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

51                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Los intervalos de confianza vienen dados por la expresión:   r(1 ) g /2 , (N G)

g

sI Y t

n− α α −

⎡ ⎤⎢ ⎥= ±⎢ ⎥⎣ ⎦

Con una fiabilidad del 95%, el valor de la t‐Student con N G 14 3 11− = − =  grados de libertad,

que deja un 2,5% de masa probabilística a su derecha es:   0,025, 11t 2,201= .

Los intervalos de confianza para las medias  1 2 3( , , )μ μ μ  serán:

r0,95 1 1 0,025 , (14 3)

1

s 0,7382I ( ) Y t 7 2,201 6,188 ; 7,812

n 4−

⎡ ⎤ ⎡ ⎤μ = ± = ± = ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎣ ⎦

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

r0,95 2 2 0,025 , (14 3)

2

s 0,7382I ( ) Y t 8,6 2,201 7,873 ; 9,327

n 5−

⎡ ⎤ ⎡ ⎤μ = ± = ± = ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎣ ⎦

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

r0,95 3 3 0,025 , (14 3)

3

s 0,7382I ( ) Y t 8,2 2,201 7,473 ; 8,927

n 5−

⎡ ⎤ ⎡ ⎤μ = ± = ± = ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎣ ⎦

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Se puede observar que entre los intervalos del primer y segundo grupo no existe ningúnsolapamiento.

Se pueden realizar  G(G 1) 3(3 1)

c 32 2− −

= = =  contrastes múltiples de comparación de

medias.

Las hipótesis a contrastar son:    0 1 2 0 1 3 0 2 3

1 1 2 1 1 3 1 2 3

H : H : H :

H : H : H :

μ = μ μ = μ μ = μ⎧ ⎧ ⎧⎨ ⎨ ⎨μ ≠ μ μ ≠ μ μ ≠ μ⎩ ⎩ ⎩

Aplicando el criterio de Bonferroni, se rechaza la hipótesis nula  0 p qH : μ = μ , para un nivel de

significación global α , cuando:  p q /2c , (N G) rp q

1 1y y t . s .

n nα −− > +

Nivel de significación crítico:    / 2c 0,05 6 0,008α = =

El valor de la t‐Student es:  0,008, 11t 2,82=

• Entre la media del grupo 1 y la media del grupo 2 se verifica:

    1 2 0,08 , 11 r1 2

1 1 1 1y y t . s . 7 8,6 1,6 2,82 . 0,7382 . 1,39

n n 4 5− > + → − = > + =

con lo que se rechaza la hipótesis nula de igualdad de medias   0 1 2H : μ = μ

Page 54: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

52                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

• Entre la media del grupo 1 y la media del grupo 3 se verifica:

   1 3 0,008 , 11 r1 3

1 1 1 1y y t . s . 7 8,2 1,2 < 2,82 . 0,7382 . 1,39

n n 4 5− > + → − = + =

por tanto, no se rechaza la hipótesis nula de igualdad de medias   0 1 3H : μ = μ

• Entre la media del grupo 2 y la media del grupo 3 se verifica:

   2 3 0,008 , 11 r2 3

1 1 1 1y y t . s . 8,6 8,2 0,4 < 2,82 . 0,7382 . 1,31

n n 5 5− > + → − = + =

en consecuencia, no se rechaza la hipótesis nula de igualdad de medias   0 2 3H : μ = μ

Como conclusión se rechaza la hipótesis de que las medias de los tres grupos son iguales,resultando las diferencias más significativas entre los grupos 1 y 2.Por el contrario, no existen evidencias para rechazar la hipótesis de que las medias de los grupos2 y 3 sean iguales.

Page 55: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

53                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

SPSS:  Cuando la variable categórica tiene tres o más categorías (por ejemplo, tresgrupos) se aplica el Análisis de la Varianza (ANOVA de una vía), que permite no solosaber si hay diferencias en las medias entre los diferentes grupos sino también

explorar entre qué grupos están o no esas diferencias (a través de los llamados contrastes aposteriori ex‐post).

El análisis de la varianza puede considerarse en parte como una extensión de la prueba t parados muestras:Analizar > Pruebas no paramétricas > 2 muestras independientes (ó k muestras independientes)

Un aspecto importante del ANOVA es que es exigente sobre los requisitos en la distribuciónde la variable cuantitativa, en concreto sobre dos aspectos:

CRITERIO DE NORMALIDAD:  La variable cuantitativa se debe distribuir según una LeyNormal en cada uno de los grupos que se comparan. Las pruebas de normalidad con laopción:  Analizar > Estadísticos Descriptivos > Explorar

CRITERIO DE HOMOCEDASTICIDAD: Las varianzas de la distribución de la variablecuantitativa en las poblaciones de las que provienen los grupos que se comparan deben deser homogéneas.  Este segundo criterio es menos exigente para hacer el contraste.  Laspruebas de homoscedasticidad con la opción:Analizar > Comparar medias > ANOVA de un factor →  Post hoc

En un principio, hay que comprobar si se cumple el requisito de normalidad en la distribución dela variable cuantitativa en todos y cada uno de los estratos o grupos que establece la variablecategórica.

Page 56: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

54                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Intervalos de confianza de los tres grupos, respectivamente: [5,70 ‐ 8,30] ,  [7,92 ‐ 9,28] y[7,16 ‐ 9,24].  Los intervalos se superponen en parte de su recorrido, por lo que es probable queno existan diferencias en las medias y la técnica no se asocie con la población de la que provienela muestra analizada.

Page 57: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

55                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Con respecto a los tests de normalidad, según el contraste de hipótesis de Kolmogorov‐Smirnovse acepta la hipótesis nula (los datos analizados siguen una distribución normal) cuando elp_valor (Sig.) ≥ α ;  en caso contrario, se rechaza.

En este caso, solo en el tercer grupo con p_valor = 0,20 0,05> → se acepta la hipótesis de

normalidad.

Con el contraste de hipótesis de Shapiro‐Wilk, el segundo grupo tiene un p_valor = 0,006 0,05<

y no verifica la hipótesis de normalidad.

Después del análisis, no es demasiado correcto aplicar un análisis ANOVA, ya que la variabletratamiento no se distribuye como una normal en los grupos de comparación.Con carácter instructivo se lleva a cabo el contraste.

Page 58: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

56                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En la pestaña Post hoc...(contrastes o comparacionesmúltiples a posteriori) seseleccionan alguno de losprocedimientos que ofrecen.Los más habituales son Bonferroniy Scheffé.

En la pestaña Opciones..., se solicita una Pruebade homogeneidad de varianzas y, si se desea, unresumen de los principales Descriptivos en cadagrupo de comparación.

El Visor de SPSS muestra un cuadro resumen con los estadísticos descriptivos (de la variablecuantitativa) más relevantes en cada grupo que se va a contrastar: las medias (y sus IC 0,95), lasdesviaciones típicas y los valores máximo y mínimo.

El test de Levene se utiliza para contrastar lahipótesis nula de igualdad de varianzas, cuandoel p_valor ≥ α  se acepta la hipótesis nula; en

caso contrario, se rechaza la hipótesis nula.

Como el p_valor = 0,801 0,05> , se acepta la hipótesis nula de igualdad de varianzas (criterio de

homocedasticidad)

Page 59: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

57                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Por último, aparece la salida del ANOVA propiamente dicho, con sus diferentes componentes ofuentes de variabilidad: Inter‐grupos e Intra‐grupos.

La variabilidad Intra‐grupos representa la dispersión que no es explicada por el factor deagrupamiento (variable categórica), y que sería explicable sólo por el azar.

El estadístico F de Snedecor  (F 5,5)=  tiene un valor p_value asociado (Sig.) de 0,022 , que

siendo  p_valor ≥ α  se aceptaría la hipótesis nula de que los tres métodos de entrenamiento

producen idénticos resultados.

En este caso, p_valor = 0,022 0,05< → Se rechaza la hipótesis nula con un nivel de

significación de 0,05, concluyendo que los tres entrenamientos no producen los mismosresultados.

La tabla de comparaciones múltiples (prueba Post hoc) identifica qué diferencias de medias sono no significativas categoría a categoría según los diferentes contrastes. Los valores marcadoscon un asterisco indican diferencia de medias significativa.

Page 60: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

58                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En el cuadro de comparaciones múltiples,  cada grupo de edad se compara con los otrosdos,obteniéndose en cada contraste la diferencia de medias, el IC0,95, el error estándar y el p_valor .

Se observa que solo la diferencia de medias entre el grupo 1 y 2 es significativa, elp_valor = 0,026 < 0,05 , lo que hacer rechazar la hipótesis nula de igualdad de medias.

Por el contrario, no existen evidencias para rechazar la hipótesis nula de igual de medias entrelos grupos 2 y 3.

INTERVALO DE CONFIANZA DE TUKEY

El test HSD de Tukey permite realizar  G(G 1) 3(3 1)

c 32 2− −

= = =  contrastes múltiples de

comparación de medias.Cuando el modelo no es equilibrado (no tienen las mismas observaciones cada grupo)  seemplea el ajuste de Tukey‐Kramer:

          ( ) rp q p q , G , (N G)

p q

s 1 1I C (y y ) q

n n2• • α −

⎡ ⎤μ − μ = − ± +⎢ ⎥

⎢ ⎥⎣ ⎦

♦ Intervalo de confianza para la diferencia de medias poblacionales entre los grupos 1 y 2:

r 1 2 0,05, 3 , 1128 43

s 0,7382 y 7 y 8,6 q 3,82  (valor crítico tabla Tukey)4 5• •= = = = = =

( )1 20,7382 1 1

I C (7 8,6) 3,82 2,94 , 0,264 52

⎡ ⎤μ − μ = − ± + = − −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

Como el intervalo no cubre el 0 existe diferencia significativa entre las medias, siendo mayor ladel grupo 2.  El p_valor (Sig.)  0,02 0,05= < = α → Rechazando la hipótesis nula de igualdad

de medias.

Page 61: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

59                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

♦ Intervalo de confianza para la diferencia de medias poblacionales entre los grupos 1 y 3:

r 1 3 0,05, 3 , 1128 41

s 0,7382 y 7 y 8,2 q 3,82  (valor crítico tabla Tukey)4 5• •= = = = = =

( )1 30,7382 1 1

I C (7 8,2) 3,82 2,54 , 0,144 52

⎡ ⎤μ − μ = − ± + = −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

Como el intervalo cubre el 0 no existe diferencia significativa entre las medias.El p_valor (Sig.)  0,08 0,05= > = α → Aceptando la hipótesis nula de igualdad de medias.

♦ Intervalo de confianza para la diferencia de medias poblacionales entre los grupos 2 y 3:

r 2 3 0,05, 3 , 1143 41

s 0,7382 y 8,6 y 8,2 q 3,82  (valor crítico tabla Tukey)5 5• •= = = = = =

( )2 30,7382 1 1

I C (8,6 8,2) 3,82 0,86 , 1,665 52

⎡ ⎤μ − μ = − ± + = −⎡ ⎤⎢ ⎥ ⎣ ⎦

⎣ ⎦

Como el intervalo cubre el 0 no existe diferencia significativa entre las medias.

El p_valor (Sig.)  0,677 0,05= > = α → Aceptando la hipótesis nula de igualdad de medias.

Page 62: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

60                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ANOVA Y ANCOVA UNIVARIANTES CON MLG EN SPSS

El procedimiento MLG Univariante permite realizar un análisis de la varianza para una variabledependiente cuantitativa y uno o más factores o variables dependientes cualitativas (ANOVAmultifactorial) o mezcla de cualitativas con cuantitativas (ANCOVA).

Con el procedimiento MLG (Modelo Lineal General) se pueden contrastar hipótesis sobre losefectos de otras variables en las medias de varias agrupaciones de una única variabledependiente. Se pueden analizar las interaccciones entre los factores así como los efectos de losfactores individuales. Además, se pueden incluir los efectos de las covariables y las interaccionesde covariables con los factores.

Se pueden contrastar tanto los modelos equilibrados (cada casilla del modelo contiene el mismonúmero de casos) como los modelos no equilibrados.Además de contrastar hipótesis, MLG Univariante genera estimaciones de los parámetros delmodelo. También se encuentran disponibles los contrastes a priori de uso más habitual.Además, si una prueba F global de igualdad de medias muestra significación en las diferencias demedias, se pueden emplear las pruebas Post hoc para evaluar las diferencias entre las mediasespecíficas.

Las medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticadaspara las casillas del modelo; los gráficos de perfil (gráficos de las interacciones) de estas mediaspermiten observar fácilmente algunas de estas relaciones.En el archivo de datos se pueden guardar residuos, valores pronosticados, distancia de Cook yvalores de influencia como variables nuevas.Ponderación MCP permite especificar una variable de ponderación en un análisis de mínimoscuadrados ponderados (MCP).

En cuanto a estadísticos, se obtienen las pruebas de rango Post hoc y las comparacionesmúltiples: Diferencia menos significativa (DMS), Bonferroni, Sidak, Scheffé, múltiples F de Ryan‐Einot‐Gabriel‐Welsch (R‐E‐G‐W F), rango múltiple de Ryan‐Einot‐Gabriel‐Welsch,Student‐Newman‐Keuls (S‐N‐K), diferencia honestamente significativa de Tukey, Duncan,GT2 de Hochberg, Gabriel, pruebas t de Waller Duncan, Dunnett (unilateral y bilateral), T2 deTamhane, T3 de Dunnett, Games‐Howell y C de Dunnett.Entre los estadísticos descriptivos: medias observadas, desviaciones típicas y frecuencias detodas las variables dependientes en todas las casillas; así como la prueba de Levene para lahomogeneidad de varianzas. En cuanto a gráficos se obtienen diagramas de dispersión por nivel,gráficos de residuos y gráficos de perfil (interacción).

Page 63: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

61                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ANÁLISIS DE LA VARIANZA CON VARIOS FACTORES

En el análisis de la varianza con dos factores aparece una novedad en relación con el análisis dela varianza con un solo factor: la interacción entre factores.

MODELO E HIPÓTEIS:  El modelo para el análisis de la varianza con dos factores:

                   gi g j i j g jY ( ) g 1, 2, , G j 1, 2, , J i 1, 2, , n= μ + α + β + αβ + ε = = =

donde,

μ ≡   media global gα ≡  efecto del nivel g del factor A       jβ ≡  efecto del nivel j del factor B

g j( )αβ ≡  efecto de interacción de los niveles g y j correspondientes a los factores A y B

respectivamente. Teniendo en cuenta que  ( )αβ  es una notación usual para referirse al

término de interacción, no un producto de parámetros.

En este modelo μ  representa la media global, mientras que  g j g j, y ( )α β αβ miden efectos

diferenciales. Por esta razón, estos últimos parámetros están sujetos a la restricción:

G J G J

g j g jg 1 j 1 g 1 j 1

( ) 0= = = =

α = β = αβ =∑ ∑ ∑∑

En el análisis de la varianza con dos factores, se mantienen las hipótesis de poblaciones condistribución normal e igual varianza para cada combinación de niveles de los dos factores. Esdecir, se mantienen las hipótesis básicas de la varianza con un factor con la única diferencia deque ahora la media teórica viene definida por tres términos.

♦ Hipótesis nula e hipótesis alternativa sobre el factor A:   0 1 2 G

1 g

H : 0

H : No todas son nulas 

α = α = = α =⎧⎨ α⎩

♦ Hipótesis nula e hipótesis alternativa sobre el factor B:   0 1 2 J

1 J

H : 0

H : No todas son nulas

β = β = = β =⎧⎨ β⎩

♦ Hipótesis nula e hipótesis alternativa  sobre la interacción entre A y  B:

             0 g j

1 g j

H : ( ) 0 g 1, 2, , G j 1, 2, , J

H : No todas ( ) son nulas     

αβ = = =⎧⎨ αβ⎩

A los efectos individuales se les denominan también efectos principales. Es conveniente realizarel contraste correspondiente a los efectos principales. El motivo es que la presencia del efectointeracción dificulta la interpretación de los efectos principales.

Page 64: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

62                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

TRATAMIENTO DE LOS DATOS   N nGJ observaciones=

Niveles factor B

Niveles factor A 1 2 J Marginal A iα

1

1

2

n

11

112

n11

1Y

Y

Y

11

11

Y

Y

12

122

n12

1Y

Y

Y

12

12

Y

Y

1J

1J2

n1J

1Y

Y

Y

1J

1J

Y

Y1

1

Y

Y

•1Y Y• ••−

2

1

2

n

21

212

n21

1Y

Y

Y

21

21

Y

Y

22

222

n22

1Y

Y

Y

22

22

Y

Y

2J

2J2

n2J

1Y

Y

Y

2J

2J

Y

Y2

2

Y

Y

•2Y Y• ••−

G

1

2

n

G1

G12

nG1

1Y

Y

Y

G1

G1

Y

Y

G2

G22

nG2

1Y

Y

Y

G2

G2

Y

Y

GJ

GJ2

nGJ

1Y

Y

Y

GJ

GJ

Y

YG

G

Y

Y

•GY Y• ••−

Marginal B 1

1

Y

Y

2

2

Y

Y

J

J

Y

Y

      Y

Y

••

••

jβ 1Y Y• ••− 2Y Y• ••− JY Y• ••−

Supuestos:

Independencia:  Las GJ muestras son aleatorias e independientes.

Normalidad: Las GJ poblaciones de donde se extraen las GJ muestras son normales.

Homocedasticidad: Las GJ poblaciones tienen todas ellas  la misma varianza (homocedasticidad)

Page 65: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

63                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

G J G J

g j g jg 1 j 1 g 1 j 1

( ) 0= = = =

α = β = αβ =∑ ∑ ∑∑

μ ≡   Media global

gα ≡  Efecto del factor A     g 1, 2, , G=

jβ ≡  Efecto del factor B       j 1, 2, , J=

g j( )αβ ≡  Efecto de interacción de los niveles g y j

g jε ≡  Componente aleatoria    2N(0, )σ       i 1, 2, , n=

Page 66: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

64                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

DESCOMPOSICIÓN DE LA VARIANZA

Antes de realizar la descomposición de la varianza se construye una tabla de doble entrada querecoge la muestra disponible para cada combinación de los factores A y B. En las filas se indicanlos distintos niveles del factor A y en las columnas los distintos niveles del factor B.

Considerando todas las celdas (excepto las marginales), de forma análoga a como se hizo con unfactor, se puede realizar la siguiente descomposición:

              g j g j g jn n nG J G J

2 2 2g ji g ji g ji g ji

g 1 j 1 i 1 g 1 j 1 i 1 j i 1

Suma de Cuadrados Total Suma de Cuadrados de los Factores  SCT     SCF

   (Y Y)            (Y Y)               (Y Y )     = = = = = = =

− = − + −∑∑∑ ∑∑∑ ∑G J

g 1 1

Suma de Cuadrados Residual     SCR

= =∑∑

En el triple sumatorio: el primero se refiera a los distintos valores del factor A, el segundo a losdistintos niveles del factor B, y el tercero a los datos de cada celda.

gj

g j

nG J2

g jig 1 j 1 i 1

nG J2

g jig 1 j 1 i 1

2g ji g ji

SCT (Y Y)        Suma de cuadrados total                           

SCF (Y Y)         Suma de los cuadrados de los factores 

SCR (Y Y )     Suma de cuadrados 

= = =

= = =

= −

= −

= −

∑∑∑

∑∑∑g jnG J

g 1 j 1 i 1

residual                   = = =∑∑∑

El término g jnG J

2g ji

g 1 j 1 i 1

SCF (Y Y)= = =

= −∑∑∑  suma de los cuadrados de los factores registra las diferencias

al cuadrado entre la media de cada celda y la media global.

Estas diferencias pueden deberse bien a la influencia del factor A,  bien a la influencia del factorB, o bien a la interacción entre ambos factores. Para aislar estas influencias se descompone eltérmino, con sencillas manipulaciones algebraicas, de la siguiente forma:

gjnG J G J2 2

g ji g j g jg 1 j 1 i 1 g 1 j 1

G J G J G J2 2 2

g j g g j j g j g j g jg 1 j 1 g 1 j 1 g 1 j 1

A B ABSCF SCF SCF

SCF (Y Y) n (Y Y)

           n (Y Y)       n (Y Y)   n (Y Y Y Y)

= = = = =

= = = = = =

= − = − =

= − + − + − − +

∑∑∑ ∑∑

∑∑ ∑∑ ∑∑

Los términos primero y segundo del segundo miembro son las sumas de cuadrados de los

factores A y B respectivamente. A estas sumas se denominan  ASCF  y   BSCF .

El último término, con una configuración menos clara, refleja la interacción de los factores A y B.

Page 67: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

65                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En efecto, si los dos primeros términos del segundo miembro reflejan el efecto individual decada uno de los factores, entonces el término restante debe reflejar el efecto conjunto, o deinteracción, entre los factores A y B, es decir, el efecto de estos dos factores no recogido

individualmente. El efecto de interacción será denominado  ABSCF

Finalmente, la descomposición en el análisis de la varianza con dos factores:

gjnG J2

g jig 1 j 1 i 1

G J G J2 2

g j g g j jg 1 j 1 g 1 j 1

A B

Suma de Cuadrados Total

Suma Cuadrados Factor A Suma Cuadrados Factor B

  SCT

    SCF     SCF

   (Y Y)  

  n (Y Y)    n (Y Y)

= = =

= = = =

− =

= − + −

∑∑∑

∑∑ ∑∑g jnG J G J

2 2g j g j g j g ji g ji

g 1 j 1 g 1 j 1 i 1

AB

Suma de Cuadrados ResidualSuma Cuadrados Factores A y B    SCF      SCR

  n (Y Y Y Y)   (Y Y )= = = = =

+ − − + + −∑∑ ∑∑∑

 SUMA DE CUADRADOS:  A B ABSCT SCF SCF SCF SCR= + + +G J

2 22 2 2i jn G J

g 1 j 12ig j A B

i 1 g 1 j 1

Y YY Y Y

SCT Y SCF SCFN n.J N n.G N

• ••• = •• = ••

= = =

= − = − = −∑ ∑

∑∑∑

G J G J G J2 2 2 2

2g j g j g jn G Jg 1 j 1 g 1 j 1 g 1 j 12

AB igji 1 g 1 j 1

Y Y Y YY

SCF SCR Yn n.J n.G N n

• •= = = = •• = =

= = =

= − − + = −∑∑ ∑ ∑ ∑∑

∑∑∑  

MEDIDAS DE LOS EFECTOS DE LOS FACTORES

En el análisis de la varianza con un factor se utiliza el coeficiente de determinación (o estadísticoeta η  al cuadrado) como una medida de variabilidad total explicada por el factor.

En el análisis de la varianza con dos factores sigue siendo válido dicho coeficiente como unamedida general del efecto de los factores sobre la variable dependiente.

Con objeto de medir el efecto de cada factor (y de la interacción) separadamente se utilizanestadísticos eta cuadrados parciales, que se definen:

2 2 2A B ABA B AB

A B AB

SCF SCF SCFSCF SCR SCF SCR SCF SCR

η = η = η =+ + +

Page 68: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

66                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

 GRADOS DE LIBERTAD Y CONSTRUCCIÓN DEL ESTADÍSTICO

Descomposición varianza con dos factores:   A B ABSCT SCF SCF SCF SCR= + + +

Grados de libertad SCT son el número total de datos menos 1:  gl(SCT) (N 1)= −

Grados de libertad de SCFA son el número total de grupos menos 1:  Agl(SCF ) (G 1)= −

Grados de libertad de SCFB son el número total de grupos menos 1:  Bgl(SCF ) (J 1)= −

El número total de combinaciones de niveles de los factores A y B es igual a GJ. Ahora bien,una vez, calculadas las medias marginales por filas y por columnas, los grados de libertad de

SCFAB  quedan:  ABgl(SCF ) (G 1)(J 1)= − −

Grados de libertad de SCR son el número total de datos menos el número total de celdas, esdecir:   gl(SCR) (N G)= −

Los grados de libertad de la SCT es igual a la suma de los grados de libertad de cada uno de loscomponentes, es decir:

                        A B AB

(G 1)(J 1) (N GJ)G 1 J 1N 1

 gl (SCT)   gl (SCF )   gl (SCF )   gl (SCF )   gl (SCR) 

− − −− −−

= + + +

En la tabla se recoge el análisis de la varianza para el caso de dos factores:

Fuentevariación

Suma decuadrados

Gradoslibertad

Media cuadrática Estadístico F

 Factor A SCFA G 1− AA

SCFMCF

G 1=

−AMCF

FMCR

=

 Factor B SCFB J 1− BB

SCFMCF

J 1=

−BMCF

FMCR

=

 Interacción SCFAB (G 1) (J 1)− − ABAB

SCFMCF

(G 1)(J 1)=

− −ABMCF

FMCR

=

 Residual SCR N GJ− SCRMCR

N GJ=

 Total SCT N 1− SCTMCT

N 1=

Page 69: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

67                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ESTIMACIÓN MODELO  gi g j i j g jY ( )= μ + α + β + αβ + ε

Nivel Factor B

Nivel Factor A 1 2 J Medias iα

111Y 12Y 1JY 1Y • 1Y Y• ••−

221Y 22Y 2JY 2Y • 2Y Y• ••−

GG1Y G2Y GJY GY • GY Y• ••−

Medias 1Y• 2Y• JY• Y• •

jβ 1Y Y• ••− 2Y Y• ••− JY Y• ••−

Estimadores:

i i

j j

ij ij i j

2 2r

ˆ Y                                 

ˆ Y Y                       ˆ Y Y                        

( ) Y Y Y Y

SCRˆ s                 

N GJ

• •

• • •

• • •

• • • •

μ =α = −

β = −

αβ = − − +

σ = =−

Page 70: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

68                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 7 ‐  Se tienen cuatro razas de gatos. Se toman tres muestras elegidas al azar de formaque en cada una de ellas hay un gato de cada raza. Se dispone de tres tipos de vitaminasdistintas y se administra una de ellas solamente a cada muestra. Se elige como variable derespuesta el peso ganado por cada uno de los gatos, información que se recoge en la tabla:

TratamientosRazasVitamina A Vitamina B Vitamina C

1 80 70 82

2 60 32 35

3 90 82 85

4 95 89 78

Con una significación del 5%, se quiere saber:

1)  Si la ganancia media de pesos es equivalente para las tres vitaminas

2)  Si el peso medio ganado es significativamente distinto de una raza a otra

Solución:

1)  Se supone que se cumplen las hipótesis de normalidad, homocedasticidad y elección al azarde las muestras. Se aplica el modelo ANOVA con dos factores de variación sin interacción(cuando el efecto de un factor sobre el peso depende de cual sea el nivel del otro factor):

Factor A:  Razas        

Factor B:  Vitaminas

El contraste de hipótesis:

0H :  Las tres vitaminas proporcionan una ganancia en peso medio equivalente

1H :  Las ganancias en peso medio proporcionadas por las distintas vitaminas no son iguales

La descomposición de la varianza total sin interacción:   A BSCT SCF SCF SCR= + +

TratamientosRazasVitamina A Vitamina B Vitamina C TOTAL

1 80 70 82 1Y 232• =2 60 32 35 2Y 127• =3 90 82 85 3Y 257• =4 95 89 78 4Y 262• =

  TOTAL 1Y 325• = 2Y 273• = 3Y 280• = Y 878•• =

n 1= , G 4=  ,  J 3=  , N G. J 12= =

Page 71: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

69                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

2 24 32gj

g 1 j 1

Y 878SCT Y 68952 68952 64240,333 4711,667

N 12••

= =

= − = − = − =∑∑

G 42 2

2 2i i 2 2 2 2 2g 1 g 1

A

Y YY Y 232 127 257 262 878

SCF 3975n . J N 3 12 3 3 3 3 12

• •= •• = •• ⎡ ⎤

= − = − = + + + − =⎢ ⎥⎣ ⎦

∑ ∑

J 32 2

2 2j j 2 2 2 2j 1 j 1

B

Y YY Y 325 273 280 878

SCF 64638,5 64240,333 398,167n.G N 4 12 4 4 4 12

• •= •• = •• ⎡ ⎤

= − = − = + + − = − =⎢ ⎥⎣ ⎦

∑ ∑

A B A BSCT SCF SCF SCR SCR SCT SCF SCF 4711,667 3975 398,167 338,5= + + → = − − = − − =

A AA A

SCF MCF3975 SCR 338,5MCF 1325 MCR 56,4167 F 23,486

G 1 3 (G 1)(J 1) 6 MCR= = = = = = = =

− − −

B BB B

SCF MCF398,167 SCT 338,5MCF 199,083 F 3,529     MCT 30,773

J 1 2 MCR N 1 11= = = = = = = =

− −

Fuentevariación

Suma decuadrados

Grados libertad Media cuadrática Estadístico

Intergrupos ASCF 3975= G 1 3− =   AA

SCFMCF 1325

G 1= =

−A

A

MCFF 23,486

MCR= =

Intersujetos BSCF 398,167= J 1 2− =   BB

SCFMCF 199,083

J 1= =

−B

B

MCFF 3,529

MCR= =

Error SCR 338,5= (G 1)(J 1) 6− − = SCRMCR 56,417

(G 1)(J 1)= =

− −

 Total SCT 4711,667= N 1 11− =  SCT

MCT 30,773N 1

= =−

El estadístico observado  BF 3,529=  contrasta si las vitaminas proprorcionan o no ganancia de

peso medio en los gatos.  El estadístico teórico   0,05 ; (J 1) , (G 1)(J 1) 0,05 ; 2 , 6F F 5,1433− − − = =

Siendo  B 0,05 ; 2 , 6F 3,529 5,1433 F= < = → Se acepta la hipótesis nula de  que no hay diferencia

de ganancia de pesos debida a las vitaminas.

2)  Para contrastar si el peso medio ganado es significativamente distinto por razas, se estableceel contraste:

0H :  El peso medio ganado es independiente de las razas

1H :  El peso medio ganado depende de las razas

Page 72: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

70                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El estadístico observado  AF 23,486=  contrasta si las razas proprorcionan o no ganancia de peso

medio en los gatos.  El estadístico teórico   0,05 ; (G 1) , (G 1)(J 1) 0,05 ; 3 , 6F F 4,7571− − − = =

Como  A 0,05 ; 3 , 6F 23,486 4,7571 F= > = → Se rechaza la hipótesis nula de  que no hay

diferencia de ganancia de pesos debida a las razas, concluyendo que el peso medio ganadodepende de la raza de los gatos.

Page 73: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

71                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Al contrastar la hipótesis nula  0H :  El peso medio ganado es independiente de las razas.

El p_valor (Significación)  0,001 0,05= < = α →  Se rechaza la hipótesis nula, concluyendo

que el peso medio ganado depende de la raza de los gatos.

♦ Al contrastar la hipótesis nula  0H :  Las vitaminas proporcionan una ganancia en peso medio

equivalente, se observa un p_valor (Significación)  0,097 0,05= > = α → Se acepta la

hipótesis nula y, en consecuencia, no hay diferencia de ganancia de pesos debida a lasvitaminas.

Page 74: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

72                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 8 ‐  Se usaron tres clases de gasolina en cuatro marcas de automóviles. ¿Indican losvalores de la tabla (kilómetros recorridos por litro) una diferencia significativa entre las clases degasolina?. ¿Y entre las marcas de automóviles?. Significacíón del 5%.

AutomóvilesGasolinaA1 A2 A3 A4

G1 6,290 6,460 6,418 6,205

G2 6,503 6,290 7,225 6,843

G3 7,310 7,183 7,438 7,055

Solución:

1)  Se supone que se cumplen las hipótesis de normalidad, homocedasticidad y elección al azarde las muestras. Se aplica el modelo ANOVA con dos factores de variación sin interacción(cuando el efecto de un factor depende de cual sea el nivel del otro factor):

Factor A:  Tipos de gasolina           

Factor B:  Marcas de automóviles

♦ Para analizar si existe diferencia significativa entre las clases de gasolina, se establece elcontraste de hipótesis:

0H :  No hay diferencia significativa entre los efectos medios de las distintas gasolinas

1H :  Si hay diferencia significativa entre los efectos medios de las distintas gasolinas

♦ Para analizar si existe diferencia significativa entre los efectos medios producidos por lasdistintas marcas de autómoviles, se establece el contraste:

0H :i  No hay diferencia significativa entre marcas de automóviles

1H :i  Si hay diferencia significativa entre marcas de automóviles

La descomposición de la varianza total sin interacción:   A BSCT SCF SCF SCR= + +

Page 75: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

73                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

AutomóvilesGasolinaA1 A2 A3 A4 TOTAL

G1 6,290 6,460 6,418 6,205 1Y 25,373• =G2 6,503 6,290 7,225 6,843 2Y 26,861• =G3 7,310 7,183 7,438 7,055 4Y 28,986• =

  TOTAL 1Y 20,103• = 2Y 19,933• = 3Y 21,081• = 4Y 20,103• = Y 81,22•• =

n 1= , G 3=  ,  J 4=  , N G. J 12= =

2 23 42gj

g 1 j 1

Y 81,22SCT Y 551,997 551,997 549,724 2,273

N 12••

= =

= − = − = − =∑∑

G 32 2

2 2i i 2 2 2 2g 1 g 1

A

Y YY Y 25,373 26,861 28,986 81,22

SCF 1,649n . J N 4 12 4 4 4 12

• •= •• = •• ⎡ ⎤

= − = − = + + − =⎢ ⎥⎣ ⎦

∑ ∑

J 42 2

2 2j j 2 2 2 2 2j 1 j 1

B

Y YY Y 20,103 19,933 21,081 20,103 878

SCFn.G N 3 12 3 3 3 3 12

        549,998 549,724 0,274

• •= •• = •• ⎡ ⎤

= − = − = + + + − =⎢ ⎥⎣ ⎦

= − =

∑ ∑

A B A BSCT SCF SCF SCR SCR SCT SCF SCF 2,273 1,649 0,274 0,351= + + → = − − = − − =

A AA A

SCF MCF1,649 SCR 0,351MCF 0,824 MCR 0,0585 F 14,108

G 1 2 (G 1)(J 1) 6 MCR= = = = = = = =

− − −

B BB B

SCF MCF0,274 SCT 2,273MCF 0,091 F 1,563     MCT 0,207

J 1 3 MCR N 1 11= = = = = = = =

− −

Fuentevariación

Suma decuadrados

Grados libertad Media cuadrática Estadístico

Intergrupos ASCF 1,649= G 1 2− =   AA

SCFMCF 0,824

G 1= =

−A

A

MCFF 14,108

MCR= =

Intersujetos BSCF 0,274= J 1 3− =   BB

SCFMCF 0,091

J 1= =

−B

B

MCFF 1,563

MCR= =

Error SCR 0,351= (G 1)(J 1) 6− − = SCRMCR 0,058

(G 1)(J 1)= =

− −

 Total SCT 2,273= N 1 11− =  SCT

MCT 0,207N 1

= =−

Page 76: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

74                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

¿Existe diferencia significativa entre las clases de gasolina?

Estadístico observado o empírico:  AA

MCFF 14,108

MCR= =

Estadístico teórico:   , (G 1) , (G 1)(J 1) 0,05 , 2 , 6F F 5,1433α − − − = =

Siendo   A 0,05 , 2 , 6F 14,108 5,1433 F= > =   se rechaza la hipótesis nula. En consecuencia, si hay

diferencia significativa entre los efectos medios de las distintas gasolinas.

¿Existe diferencia significativa entre los efectos medios producidos por las distintas marcasde autómoviles?

Estadístico observado o empírico:  BB

MCFF 1,563

MCR= =

Estadístico teórico:   , (J 1) , (G 1)(J 1) 0,05 , 3 , 6F F 4,7571α − − − = =

Como   B 0,05 , 3 , 6F 1,563 4,7571 F= < =   se acepta la hipótesis nula. Por tanto, no hay diferencia

significativa entre las marcas de autómoviles.

Page 77: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

75                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El factor Gasolina tiene un p_valor  0,05 0,05= ≤ = α → Se rechaza la hipótesis nula,

concluyendo que hay diferencia significativa entre los efectos medios de las distintas gasolinas.

El factor Automóviles tiene un p_valor  0,293 0,05= > = α → Se acepta la hipótesis nula, con

lo que no hay diferencia significativa entre las marcas de autómoviles.

Page 78: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

76                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 9 ‐  Analizar el efecto de las variables Edad y Fumar sobre la Ansiedad Social, con unnivel de significación del 5%.

Fumar

Edad Si No

15 ‐ 25

3,91

5,01

4,44

3,33

4,71

4,83

3,95

4,04

3,66

9,42

25 ‐ 35

5,65

6,49

5,47

5,72

5,44

9,66

7,68

9,57

7,93

7,39

35 45

4,94

7,13

5,54

5,92

6,16

5,92

5,45

5,19

6,12

4,45

Solución:

En cada caso, las hipótesis a contrastar son las siguientes:

Efecto A: Categoría edad

        0

1

H : La media de edad en cada categoría es la misma

H : Las medias no son iguales⎧⎨⎩

Efecto B: Fumar

        0

1

H : La media  no difiere entre fumadores y no fumadores  

H : Las medias no son iguales⎧⎨⎩

Efecto interacción: Edad  x  Fumar

Bajo los supuestos de Independencia, Normalidad y Homocedasticidad, se calculan losestadísticos del contraste.

Page 79: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

77                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Fumar

Edad Si (1) No (2) TOTAL

1

3,91

5,01

4,44

3,33

4,71

11Y 21,40=

11Y 4,28=

4,83

3,95

4,04

3,66

9,42

  12Y 25,90=

12Y 5,18=1   Y 47,30• =

1Y 4,73• =

2

5,65

6,49

5,47

5,72

5,44

21Y 28,77=

21Y 5,754=

9,66

7,68

9,57

7,93

7,39

22Y 42,23=

22Y 8,446=

2    Y 71• =

2Y 7,1• =

3

4,94

7,13

5,54

5,92

6,16

31Y 29,69=

31Y 5,938=

5,92

5,45

5,19

6,12

4,45

32Y 27,13=

32Y 5,426=3  Y 56,82• =

3Y 5,682• =

TOTAL        1Y 79,86• =

1       Y 5,324• =2Y 95,26• =

2Y 6,351• =

 Y 175,12•• =

Y 5,8373•• =

5 3 22ig j

i 1 g 1 j 1

G 3 J 2 n 5 Y 1106,281= = =

= = = =∑∑∑2 25 3 2

2igj

i 1 g 1 j 1

Y 175,12SCT Y 1106,28 84,047

N 30••

= = =

= − = − =∑∑∑

G 32 2

2 2i i 2 2 2 2g 1 g 1

A

Y YY Y 47,30 71 56,82 175,12

SCF 28,446n.J N 5.2 30 5.2 5.2 5.2 30

• •= •• = •• ⎡ ⎤

= − = − = + + − =⎢ ⎥⎣ ⎦

∑ ∑

J 22 2

2 2j j 2 2 2j 1 j 1

B

Y YY Y 79,86 95,26 175,12

SCF 7,905n.G N 5.3 30 15 15 30

• •= •• = •• ⎡ ⎤

= − = − = + − =⎢ ⎥⎣ ⎦

∑ ∑

Page 80: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

78                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

G J 3 22 2g j g jn G J 5 3 2

g 1 j 1 g 1 j 12 2ig j ig j

i 1 g 1 j 1 i 1 g 1 j 1

2 2 2 2 2 2

Y Y

SCR Y Yn n

21,40 25,90 28,77 42,23 29,69 27,131106,281 34,803

5 5 5 5 5 5

= = = =

= = = = = =

= − = − =

⎡ ⎤= − + + + + + =⎢ ⎥

⎣ ⎦

∑∑ ∑∑∑∑∑ ∑∑∑

A B AB AB A BSCT SCF SCF SCF SCR SCF SCT SCF SCF SCR= + + + → = − − −

AB A BSCF SCT SCF SCF SCR 84,04 28,44 7,90 34,80 12,892= − − − = − − − =

O bien,  

G J G J 3 2 3 22 2 2 2 2 2

2 2g j g j g j g jg 1 j 1 g 1 j 1 g 1 j 1 g 1 j 1

AB

Y Y Y Y Y YY Y

SCFn n.J n.G N 5 5.2 5.3 30

           1071,478 1050,68 1030,139 1022,234 12,892

• • • •= = = = •• = = = = ••= − − + = − − + =

= − − + =

∑∑ ∑ ∑ ∑∑ ∑ ∑

donde,3 2

2g j 2 2 2 2 2 2

g 1 j 1

Y21,40 25,90 28,77 42,23 29,69 27,13

1071,478n 5

= = + + + + += =

∑∑

32g 2 2 2

g 1

Y47,30 71 56,82

1050,68010 10

•= + +

= =∑

22j 2 2

j 1

Y79,86 95,26

1030,13915 15

•= +

= =∑

        2 2Y 175,12

  1022,23430 30•• = =

Análisis de la varianza con dos factores

Fuentevariación

Suma decuadrados

Grados libertad Media cuadrática Estadístico F

 Factor A ASCF = 28,44 (G 1) 3 1 2− = − = AA

SCFMCF 14,22

G 1= =

−AMCF

F 9,80MCR

= =

 Factor B BSCF = 7,90 (J 1) 2 1 1− = − = BB

SCFMCF 7,90

J 1= =

−BMCF

F 5,44MCR

= =

Interacción ABSCF = 12,89 (G 1)(J 1) 2− − = ABAB

SCFMCF 6,44

(G 1)(J 1)= =

− −ABMCF

F 4,44MCR

= =

 Residual SCR = 34,80 N G J  = 24− SCRMCR 1,45

N G J = =

 Total SCT 84,04= N 1 = 29− SCTMCT 2,89

N 1= =

Page 81: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

79                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

A B ABA B AB

SCF SCF SCF28,44 12,89MCF 14,22 MCF 7,90 MCF 6,44

G 1 2 J 1 (G 1)(J 1) 2= = = = = = = =

− − − −

SCR 34,80 SCT 84,04MCR 1,45 MCT 2,89

N G J  24 N 1 29= = = = = =

− −

A B ABMCF MCF MCF14,22 7,90 6,44F 9,80 F 5,44 F 4,44

MCR 1,45 MCR 1,45 MCR 1,45= = = = = = = = =

El efecto de cada factor (edad, fumar) es:

2 AA

A

SCF 28,440,45

SCF SCR 28,44 34,80η = = =

+ +

2 BB

B

SCF 7,900,185

SCF SCR 7,90 34,80η = = =

+ +

2 ABAB

AB

SCF 12,890,270

SCF SCR 12,89 34,80η = = =

+ +

Page 82: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

80                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Se puede construir el modelo deinterés introduciendo losfactores tratamiento y susiteracciones a criterio delinvestigador.

Por defecto está el modeloFactorial conpleto, que incluye atodos los factores tratamientointroducidos previamente y atodas sus iteraciones.

Si se desea un modeloalternativo, por ejemplo unmodelo de dos vías principales,es decir, sin iteracciones, semarca Personalizado, con lo quese activa el campo Construirtérminos. Se continua pasandolos Factores y covariables almodelo.

Se deja por defecto Suma de cuadrados Tipo III, es el procedimiento más utilizado. Proporcionala descomposicioón de las sumas de cuadrados tal y como se ha visto anteriormente.La suma de cuadrados Tipo III explicada por el factor Edad es igual a la diferencia entre la sumade cuadrados residual del modelo completo (con todos los factores) sin el factor Edad y la sumade cuadrados residual del modelo completo.El orden de introducción de los factores de tratamiento es independiente y produce unadescomposición ortogonal,  de modo que las sumas de cuadrados suman la suma de cuadradostotal.

En ocasiones, también es de utilidad la Suma de cuadrados Tipo I, se conoce como el método dedescomposición jerárquica de la suma de cuadrados. La Suma de cuadrados tipo I  explicada porel factor Edad es igual a la diferencia entre la suma de cuadrados residual del modelo construidocon los factores incluidos hasta ese momento menos el factor Edad y la suma de cuadradosresidual del modelo con el factor Edad incluido.  Cuando el diseño es balanceado (mismonúmero de observaciones en cada casilla)  la descomposición en Suma de cuadrados Tipo IIIcoincide con la descomposición en Suma de cuadrados Tipo I.

Page 83: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

81                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Se elige el factor tratamiento sobre cuyos niveles se ejecutarán los contrastes. En el subcuadrose selecciona la familia de contrastes de interés.

Estadísticos descriptivos proporciona la media muestral, desviación típica muestral y tamañopara cada nivel y combinación de niveles.

Estimaciones del tamaño del efecto añaden al cuadro ANOVA el coeficiente  2η  (eta al cuadrado)

para cada fuente de variación incluida en el modelo. Con objeto de medir el efecto de cadafactor (y de la iteracción) separadamente se utilizan estadísticos eta cuadrados parciales, que sedefinen:

2 2 2Edad Fumar Edad*FumarEdad Fumar Edad*Fumar

Edad Fumar Edad*Fumar

SCF SCF SCF0,45 0,185 0,270

SCF SCR SCF SCR SCF SCRη = = η = = η = =

+ + +

Page 84: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

82                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Potencia observada añade al cuadrado ANOVA una nueva columna con el valor de la potenciadel F‐test para cada fuente de variación incluida en el modelo.El valor de la potencia se entenderá como la capacidad de la prueba de hipótesis para detectaruna diferencia poblacional real entre los niveles de la fuente de variación igual a la diferenciaobservada en las muestras, con un nivel de significación igual al prefijado.La potencia de una contraste se define como la probabilidad de rechazar la hipótesis nulacuando es falsa.

Se observan coeficientes parciales   2η  bajos  para todas las fuentes de variación, siendo el

mayor el correspondiente a la intersección (0,967).En todos los casos la potencia es alta lo que sugiere una alta capacidad del test para rechazar lahipótesis nula con diferencias reales iguales a las observadas.

Page 85: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

83                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La información puede esquematizarse como sigue:

Parámetros que se igualan a 0 por redundantes:

        3 2 12 22 31 32( ) ( ) ( ) ( ) 0α = β = αβ = αβ = αβ = αβ =

Parámetros que se estiman:

ˆ 5,426μ =

1 2ˆ ˆ0,246 3,020α = − α =

1ˆ 0,512β =

         11 21( ) 1,412 ( ) 3,204αβ = − αβ = −

El modelo estimado se resume (empleando variables dummy) como:

  1 2 1 1 1 2 1Y 5,426 0,246 . X 3,020. X 0,512. Z 1,412. X . Z 3,204. X . Z= − + + − − + ε

siendo:

1X 1=  si la edad es del tipo 1 y  1X 0=  en otro caso

2X 1=  si la edad es del tipo 2 y  2X 0=  en otro caso

1Z 1=  si fuma y  1Z 0=  en caso de no fumar

Excepto en los casos  2 3,020α =  y   21( ) 3,204αβ = − , los parámetros no son

significativamente distintos de cero y por tanto no tienen peso significativo en el modeloestimado.

La Tabla proporciona además los intervalos de confianza para cada parámetro y los

coeficientes  2η  y  potencia observada para cada contraste de los parámetros.

La prueba de Levene conduce a un

estadístico igual a 2,706 que en una  5,24F deja

a su derecha una cola de probabilidad 0,045.

Siendo p_valor 0,045 0,05= < α = , no se

acepta la hipótesis nula de igualdad devarianzas (criterio de homocedasticidad).

Page 86: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

84                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Diagramas de dispersión x nivel:  Aporta información gráfica sobre la homogeneidad de lavarianza, completando la información recogida en Pruebas de homogeneidad.

El diagrama consiste en un gráfico de puntos: cada uno representa una población (combinaciónde niveles)  donde la media se representa en la abscisa y la desviación típica (o varianza) en laordenada.

El objetivo es detectar si la varianza depende de la media (es frecuente comprobar que larespuesta crezca cuando lo hace la media).      

Gráfico de los residuos:  Es un gráfico matricial de puntos enfrentando Valores Observadosde la variable respuesta, Valores Pronosticados por el modelo estimado para la variablerespuesta, y Residuos (valores observados menos valores pronosticados por el modeloestimado).

Los residuos se muestran tipificados (divididos por la raíz cuadrada del error cuadrático medioestimado).

Este gráfico matricial da una idea si se verifican los supuestos de independencia, homogeneidadde varianzas y falta de ajuste. En efecto:

Si existe Independencia, el gráfico de dispersión Residuos‐Observados no debería mostrarpauta de variación (línea, curva, …). Gráfico de coordenadas (1, 3)  o  (3, 1) en la matriz.

Si existe Homocedasticidad, el gráfico de dispersión Residuos‐Pronosticados es de interéspuesto que la dispersión de los residuos debe de ser similar para todos los valorespronosticados. Gráfico de coordenadas (2, 3)  o  (3, 2) en la matriz.

Page 87: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

85                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En un modelo con buen ajuste a los datos, la nube de puntos Pronosticados‐Observadosdebiera mostrar un perfil cercano a la linealidad (a más linealidad mejor ajuste). Gráfico decoordenadas (1, 2)  o  (2, 1) en la matriz.

Page 88: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

86                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

MODELO FACTORIAL COMPLETO E INCOMPLETO

Se dice que un modelo para análisis de la varianza es un modelo factorial completo cuando seincluyen en el mismo los efectos de todos los factores  (efectos principales) y todas lasinteracciones entre los mismos. En el caso de dos factores es un modelo factorial completo elque incluye el factor A, el factor B y la interacción entre los factores A y B.

En el caso de tres factores, a los que denominaremos A, B y C, se pueden distinguir interaccionesde primer orden y de segundo orden.  Son interacciones de primer orden las que tienen lugarentre cada par de factores   x(A B,  AxC,  CxB) , mientras que la interacción conjunta de los tres

factores  x x(A B C)  es una interacción de tercer orden. Estos conceptos son fácilmente

generalizables al caso de un mayor número de factores.

La existencia de interacciones entre los factores complica la interpretación de los efectosprincipales, ya que la influencia de un factor se reparte entre el efecto principal y los efectos deinteracción con otros factores.

Por esta razón es aconsejable no realizar contrastes para cada factor cuando el término deinteracción es estadísticamente significativo. En esta situación, el efecto total de un factordepende de como se combine con otros factores. Por ello, los efectos de todos los factores sobrela variable dependiente deben analizarse conjuntamente.  El gráfico de interacción es útil paraexaminar la variable conjunta.

En el gráfico de interacción, en el caso de dos factores, se representan las medias de las casillasdel cuadro uniendo por una línea las medias correspondientes a cada fila, es decir, a undeterminado nivel del factor A.

Niveles del factor BNiveles del factor A1 2 ...... J

Marginal A

1 11Y 12Y ...... 1JY 1Y •

2 21Y 22Y ...... 2 JY 2Y •

...... ...... ...... ...... ...... ......

G G1Y G2Y ...... GJY GY •

Marginal B 1Y• 2Y• ...... JY• Y

Si las líneas son más o menos paralelas indicarán que los efectos son de carácter aditivo, esdecir, que no existen efectos cruzados entre los dos factores. Cualquier otra configuración seráindicio de no independencia.

Page 89: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

87                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En todo caso, conviene aplicar inicialmente  un análisis factorial completo. Si resulta que algunosefectos de interacción no son estadísticamente significativos entonces en un análisissubsiguiente se eliminan dichos efectos del modelo. Un modelo de este tipo es un modelofactorial incompleto.

En el caso de dos factores, la interacción  xA B  se elimina cuando ésta no es representativa. El

modelo teórico se formula entonces de la siguiente forma:

        gi g j g jY g 1, 2, , G j 1, 2, , J= μ + α + β + ε = =     modelo de efectos principales

Cuando se prescinde del efecto de interacción en el análisis, la descomposición de la suma totalde cuadrados se define de la siguiente forma:

                                            A BSCT SCF SCF SCR= + +

Comparando con la descomposición delanálisis de la varianza del modelo completo: A B ABSCT SCF SCF SCF SCR= + + +

se observa que dentro de la SCR se incluye implícitamente al componente  ABSCF

En el siguiente cuadro se refleja la tabla de análisis de la varianza con dos factores en un modelode efectos principales, es decir, un modelo sin interacción.

Análisis de la varianza con dos factores, modelo de efectos principales

Fuente variaciónSuma decuadrados

Gradoslibertad

Media cuadrática Estadístico F

 Factor A SCFA G 1− AA

SCFMCF

G 1=

−A

A

MCFF

MCR=

 Factor B SCFB J 1− BB

SCFMCF

J 1=

−B

B

MCFF

MCR=

 Residual SCR N G J 1− − + SCRMCR

N G  J 1=

− − +

 Total SCT N 1− SCTMCT

N 1=

Page 90: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

88                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ESTIMACIÓN DE LOS EFECTOS DIFERENCIALES Y ANÁLISIS EX‐POST

En el modelo  g g gY = μ + ε del análisis de la varianza con un factor, las medias de cada grupo  gY

son un estimador de cada una de las medias poblacionales  gμ .

En el modelo   gi g j g j g jY ( )= μ + α + β + αβ + ε  , o en el   gi g j g jY = μ + α + β + ε  ,  los coeficientes

α  y  β  miden los efectos diferenciales respecto a la media global μ .

El estimador de la media global es la media muestral:    ˆ Yμ =

Los efectos diferenciales α  y  β   se estiman mediante las diferencias entre la media

muestral global y la media de cada grupo:   g gˆ Y Y•α = −  ,    j jˆ Y Y•β = −

Las estimaciones están sometidas por construcción a la restricción:  G J

g g j jg 1 j 1

ˆˆn n 0• •= =

α = β =∑ ∑

Si los tamaños muestrales de los grupos son iguales entre sí dentro de un mismo factor, se

verifica: G J

g jg 1 j 1

ˆˆ 0= =

α = β =∑ ∑

Al rechazar la hipótesis nula sobre los factores A o B:

            0 1 2 G

1 g

H : 0

H : No todas son nulas

α = α = = α =⎧⎨ α⎩

          0 1 2 J

1 J

H : 0    

H : No todas son nulas

β = β = = β =⎧⎨ β⎩

de que los efectos diferenciales son nulos, entonces en un análisis ex‐post se puede contrastar lahipótesis de que cada uno de los efectos diferenciales es nulo. Planteando un problema decomparaciones múltiples.

Utilizando la aproximación de Bonferroni se pueden construir intervalos de confianzaconjuntos para cada uno de los efectos diferenciales. Si en un caso se encuentra el valor 0dentro de un intervalo, se concluye que dicho efecto no es significativamente distinto de 0.

Page 91: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

89                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 10 ‐   Se realiza un experimento para estudiar el efecto del nivel del agua sobre lalongitud del tallo de dos tipos de plantas de guisantes, utilizando una significación del 5%.Para ello se utilizaron tres niveles de agua, los datos obtenidos se reflejan en la tabla adjunta,figurando en rojo el orden temporal de la toma de datos.

Nivel del agua

Nivel I Nivel II Nivel III

Tipo 1

71,3  (1)

75,1  (4)

69,0  (5)

73,2  (7)

74,4  (22)

107,5  (2)

96,1  (8)

103,6  (18)

100,7  (21)

102,3  (26)

123,1  (11)

125,2  (16)

125,7  (19)

121,0  (20)

122,9  (30)Tipo

Planta

Tipo 2

70,4  (13)

73,2  (15)

71,1  (23)

71,2  (24)

69,2  (27)

88,1  (6)

85,8  (10)

86,0  (17)

87,5  (25)

81,0  (29)

109,0  (3)

101,1  (9)

103,2  (12)

109,7  (14)

106,1  (28)

Solución:

Existen dos factores tratamiento: 'Niveles de agua' (con tres niveles de efectos fijos) y 'Tipo deplanta' (con dos niveles de efectos fijos).

Los niveles se cruzan formando un total de 6 observaciones o condiciones experimentalesdiferentes.

Para cada tratamiento se obtienen 5 respuestas de la variable 'Crecimiento de la longitud deltallo' de otras tantas unidades experimentales. Se crea así un diseño balanceado (de 5 réplicas),aleatorio y de tamaño 30.

Al disponer de réplicas es posible contrastar la existencia de interacción entre los niveles de losdos factores tratamiento, de manera que el modelo matemático es el propio de un diseñocompleto de dos vías.

Page 92: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

90                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Nivel del agua

Nivel I Nivel II Nivel III Total

Tipoplanta

1

71,3  (1)

75,1  (4)

69,0  (5)

73,2  (7)

74,4  (22)

11Y 363=

11Y 72,60=

107,5  (2)

96,1  (8)

103,6  (18)

100,7  (21)

102,3  (26)

12Y 510,2=

12Y 120,04=

123,1  (11)

125,2  (16)

125,7  (19)

121,0  (20)

122,9  (30)

13Y 617,9=

13Y 123,58=

1Y 1491,1• =

1Y 99,41• =

Tipoplanta

2

70,4  (13)

73,2  (15)

71,1  (23)

71,2  (24)

69,2  (27)

21Y 355,1=

21Y 71,02=

88,1  (6)

85,8  (10)

86,0  (17)

87,5  (25)

81,0  (29)

22Y 428,4=

22Y 85,68=

109,0  (3)

101,1  (9)

103,2  (12)

109,7  (14)

106,1  (28)

23Y 529,1=

23Y 105,82=

2Y 1312,6• =

2Y 87,51• =

Total1Y 718,1• =

1Y 71,81• =

2Y 938,6• =

2Y 102,86• =

3Y 1147• =

3Y 114,7• =

Y 2803,7•• =

Y 93,46•• =

G 2=        J 3=       n 5=      N 5.2.3 30= =        5 2 3

2igj

i 1 g 1 j 1

Y 272890,99= = =

=∑∑∑

2 25 2 32ig j

i 1 g 1 j 1

Y 2803,7SCT Y 272890,99 10866,534

N 30••

= = =

= − = − =∑∑∑

G 22 2

2 2i i 2 2 2g 1 g 1

A

Y YY Y 1491,1 1312,6 2803,7

SCF 1062,075n . J N 5 . 3 30 5 . 3 5 . 3 30

• •= •• = •• ⎡ ⎤

= − = − = + − =⎢ ⎥⎣ ⎦

∑ ∑

J 32 2

2 2j j 2 2 2 2j 1 j 1

B

Y YY Y 718,1 938,6 1147 2803,7

SCF 9200,201n . G N 5 . 2 30 5 . 2 5 . 2 5 . 2 30

• •= •• = •• ⎡ ⎤

= − = − = + + − =⎢ ⎥⎣ ⎦

∑ ∑

Page 93: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

91                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

G J 2 32 2g j g jn G J 5 2 3

g 1 j 1 g 1 j 12 2ig j ig j

i 1 g 1 j 1 i 1 g 1 j 1

2 2 2 2 2 2

Y Y

SCR Y Yn n

363 510,2 617,9 355,1 428,4 529,1272890,99 202,424

5 5 5 5 5 5

= = = =

= = = = = =

= − = − =

⎡ ⎤= − + + + + + =⎢ ⎥

⎣ ⎦

∑∑ ∑∑∑∑∑ ∑∑∑

A B AB AB A BSCT SCF SCF SCF SCR SCF SCT SCF SCF SCR= + + + → = − − −

AB A BSCF SCT SCF SCF SCR 10866,534 1062,075 9200,201 202,424 401,834= − − − = − − − =

o bien, 

G J G J 2 3 2 32 2 2 2 2 2

2 2g j g j g j g jg 1 j 1 g 1 j 1 g 1 j 1 g 1 j 1

AB

Y Y Y Y Y YY Y

SCFn n . J n . G N 5 5 . 3 5 . 2 30

• • • •= = = = •• = = = = ••= − − + = − − +∑∑ ∑ ∑ ∑∑ ∑ ∑

2 A A ABSCF SCF SCFSCFR 0,981

SCT SCT+ +

= = =

Análisis de la varianza con dos factores

Fuentevariación

Suma decuadrados

Grados libertad Media cuadrática Estadístico F

 Factor A    ASCF = 1062,075    (G 1) 1− =    AA

SCFMCF 1062,075

G 1= =

−  A

A

MCFF 125,928

MCR= =

 Factor B    BSCF = 9200,201    (J 1) 2− =    BB

SCFMCF 4600,10

J 1= =

−  B

B

MCFF 545,423

MCR= =

Interacción    ABSCF = 401,834    (G 1)(J 1) 2− − =    ABAB

SCFMCF 200,917

(G 1)(J 1)= =

− −  AB

AB

MCFF 23,822

MCR= =

 Residual    SCR = 202,424   N G J  = 24−   SCR

MCR 8,434N G J 

= =−

 Total    SCT 10866,534=   N 1 = 29−   SCT

MCT 374,708N 1

= =−

   2 SCFR 0,981

SCT= =

2 AA

A

SCF 1062,0750,840

SCF SCR 1062,075 202,424η = = =

+ +          2 B

BB

SCF 9200,2010,978

SCF SCR 9200,201 202,424η = = =

+ +

2 ABAB

AB

SCF 401,8340,665

SCF SCR 401,834 202,424η = = =

+ +

Page 94: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

92                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Dependiente:  Se introduce la variable respuesta (necesariamente cuantitativa yunidimensional). En el ejemplo, la variable crecimiento de los tallos de guisantes.

Factores fijos:  Se introducen las variables conteniendo los niveles de los factores detratamiento con efectos fijos (ya que sus efectos sobre la respuesta desean ser comparados yson el objeto de la investigación). En el ejemplo, variables tipo y nivel.

Factores aleatorios:  Se introducen los niveles de los factores tratamiento con efectosaleatorios (los niveles son una muestra aleatoria de una población mayor y por ello no son elobjetivo de la investigación ya que la inferencia se realiza sobre la población y no sobre lamuestra).  Introducir tantas variables como factores de tratamiento.En el ejercicio, ninguna variable es de efectos aleatorios por lo que queda vacío.

Covariables:  Introducir las covariables (factor de control en el modelo no categórico sinocontinuo). En el ejemplo no hay covariables por lo que este campo queda vacío.

Ponderación MCP:  Variable de pesos para computar los estimadores mínimo cuadráticos demanera ponderada. De utilidad cuando no se tiene homocedasticidad.

Page 95: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

93                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El cuadro Factores inter‐sujetos proporciona un resumen de las etiquetas devalor de cada nivel y el número de observaciones de cada nivel.

Modelo Factorial completo

2 A A ABSCF SCF SCFSCF 1062,075 9200,201 401,834 10664,110R 0,981

SCT SCT 10866,534 10866,534+ + + +

= = = = =

La tabla Prueba de los efectos inter‐sujetos proporciona el cuadro ANOVA. Lo proporciona parados posibles descomposiciones de la suma de cuadrados global según que en el modelo larespuesta aparezca en bruto (Suma de Cuadrados Total (Total = SCT) o con la constante sustraída(Suma de Cuadrados Corregida).

El modelo en bruto es:     igj i j ij igjY ( )= μ + α +β + αβ + ε

Equivalente a:   xSC Total SC Intersección SC Tipo SC Nivel SC Tipo Nivel SC Error= + + + +

El modelo corregido (sustrayendo la constante):    igj i j ij igjY ( )− μ = α +β + αβ + ε

Notación:     

A B ABSCT SCF SCF SCF SCR

SC Total corregido SC Tipo SC Nivel SC Tipo *Nivel SC Error= + + +

Page 96: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

94                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

MODELO: Cuando se desea un modelo alternativo, por ejemplo un modelo de dos vías principales(esto es, sin interacción) entonces:

♦ Marcar Personalizado, activando los campos que le siguen.

♦ En Construir términos se selecciona Efectos Principales, marcar tipo (F) en el campo Factores ycovariables y pulsar la flecha Construir términos. El factor tipo (F) ya formará parte del modeloal aparecer en el campo Modelo.

♦ Se hace lo mismo con el factor nivel (F).

Se deja por defecto Suma de cuadrados Tipo III, porque es el procedimiento más utilizado.Proporciona la descomposición de las sumas de cuadrados tal y como ya se ha visto.

La Suma de cuadrados Tipo III explicada por un factor A es igual a la diferencia entre la suma decuadrados residual del modelo completo (con todos los factores) sin el factor A y la suma decuadrados residual del modelo completo.  Es independiente del orden de introducción de losfactores tratamiento y produce una descomposición ortogonal de modo que las sumas decuadrados suman la suma de cuadrados total.

En ocasiones también es de utilidad la Suma de cuadrados de Tipo I, conocida como el métodode descomposición jerárquica de la suma de cuadrados.

La suma de cuadrados de Tipo I explicada por un factor A es igual a la diferencia entre la sumade cuadrados residual del modelo construido con los factores incluidos hasta ese momentomenos el factor A y la suma de cuadrados residual del modelo con A incluido.

Cuando el diseño es balanceado, la descomposición en suma de cuadrados Tipo III coincide conla descomposición en suma de cuadrados Tipo I.

Page 97: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

95                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

CONTRASTES:  En el cuadro de Factores se elige el factor tratamiento sobre cuyos niveles seejecutarán los contrastes. Por ejemplo, marcar Nivel (Ninguno).

Contrastes Helmert:  Familia de  (J 1)− contrastes comparando el efecto de cada nivel del factor

(menos el último) con el efecto promedio de los niveles subsiguientes.

En este caso, los contrastes de Helmert son dos:

(1) (1)0 1 2 3 1 1 2 3

(2) (2)0 2 3 1 2 3

1 1H : ( ) 0 frente H : ( ) 0

2 2

H : 0 frente H : 0

⎧ β − β + β = β − β + β ≠⎪⎪⎨⎪ β −β = β −β ≠⎪⎩

Siendo  jβ  el efecto marginal del nivel del agua j‐ésimo.

La resolución particular de cada uno de ellos se realiza bajo el supuesto de independencia ynormalidad, mediante la t de Student con un número de grados de libertad igual al empleadopara estimar el error.

♦ En general, se rechaza  0 j jj

H : 0α β =∑  (con  jj

0β =∑ ) al nivel de significación α  si:

j jj

/2 , gl (SCMR)2j

J j

ˆ

t

SCMRn

α

α β>

α

Siendo  jβ  la media muestral de las  jn  observaciones en el

j‐ésimo nivel y  SCMR la suma de cuadrados media residual.

El criterio para rechazar la hipótesis nula se puede escribir: 

22j

j jj J j

/2 , 1

ˆn

FSCMR α

⎛ ⎞αα β⎜ ⎟⎜ ⎟

⎝ ⎠ >∑ ∑

Page 98: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

96                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La estimación del contraste  1 2 3

1( )

2β − β + β  presenta un p_valor 0 0,05= < , rechazando la

hipótesis nula  (1)0 1 2 3

1H : ( ) 0

2β − β + β = .

De otra parte, el intervalo de confianza no cubre el 0, lo que conduce a la misma conclusión.

La estimación del contraste  2 3β −β  presenta un p_valor 0 0,05= < , rechazando la hipótesis nula(2)0 2 3H : 0β −β = .

El intervalo de confianza no cubre el 0, lo que conduce a la misma conclusión.

El cuadro de Resultados de la prueba muestra la suma de cuadrados explicada por los doscontrastes de Helmert y el correspondiente F‐test con dos grados de libertad (uno por contraste) y24 grados de libertad que muestra la significación estadística conjunta de ambos contrastes.Siendo p_valor 0 0,05= <  no se acepta la hipótesis nula de igualdad de varianzas (criterio de

homocedasticidad)

Page 99: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

97                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Post Hoc (CONTRASTES DE RANGO MÚLTIPLE) : Las comparaciones Post hoc para los efectosmarginales sólo deben realizarse en el supuesto de no interacción.Se solicitan los procedimientos de Tukey y Bonferroni para los niveles del factor tratamiento'nivel del agua' y ninguno para el otro factor.

Gráfico de las tres medidas estimadas

Page 100: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

98                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En el gráfico de interacción se observa queaparentemente no existe interacción entre  tiposde planta y los dos últimos niveles de agua:

El crecimiento del tipo 1 ha sido superior enigual longitud promedio tanto con el nivel 2 comocon el nivel 3 de agua y, análogamente, el nivel 3de agua fue igual o mejor para el crecimiento conindependencia del tipo de planta.

Sin embargo, este comportamiento no se hamantenido con el nivel 1 de agua, estando aquí laposible interacción. Probablemente el nivel 1 deagua sea el menos exitoso,  especialmente con uncomportamiento malo para el tipo 1 de plantas.

Page 101: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

99                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Hay J(J 1) 3. 2c 3

2 2−

= = =  comparaciones que se pueden realizar por nivles del agua. En el

contraste de Bonferroni (LSD) y el contraste DHS de Tukey la hipótesis nula establece que elcrecimiento medio de las plantas de guisantes es el mismo por niveles de agua.

Se observa en todos los casos, que bien por el  p _ valor 0,000 0,05= < , o bien observando los

intervalos de confianza que no cubren el 0, que no se verifica la hipótesis nula, habiendo unadiferencia de medias significativa.

Page 102: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

100                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Opciones:  Modelo Factorial completo

Opciones:  Modelo Personalizado, efectos principales

Page 103: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

101                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Señalar que, como ejemplo, el cuadro demedias estimadas para los niveles de lainteracción Tipo*Nivel no es el mismo paraun modelo completo que para un modelo deefectos principales.

Al señalar Comparar los efectos principalesse realizan las comparaciones de medias dosa dos (pairwise comparisons) de todos losniveles de los efectos principales con tresposibles criterios que se seleccionarán en lalista desplegable de Ajustes del intervalo deconfianza.

DMS (Mínima Diferencia Significativa) consiste en utilizar el criterio de la t de Student paracomparar dos muestras independientes, no considerando por tanto la tasa de error tipo I global.

Bonferroni y Sidak suponen diferentes correcciones para controlar la tasa de error tipo I,siendo recomendables cuando hay que realizar un número muy grande de comparaciones dos ados.

En el Modelo factorial completo, se tiene:

Page 104: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

102                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 105: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

103                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Se observa que el crecimiento medio estimado del tallo de guisantes de las plantas de tipo 1tratadas con el nivel de agua 1 es 72,60.

En el modelo factorial completo este crecimiento medio se obtiene mediante: μ + α + β + αβ1 1 11( )

Su estimador se calcula a través de las estimaciones mínimo‐cuadráticas de sus parámetros:

1 1 11 11ˆˆˆ ( ) Y 72,60μ + α + β + αβ = =

concluyendo que, para este modelo, la estimación coincide con la media muestral de loscrecimientos alcanzados con las plantas de tipo 1 tratadas con nivel de agua 1.

Estimación del tamaño del efecto:  En el cuadro ANOVA se añade el coeficiente  2η   para cada

fuente de variación incluida en el modelo.

                              2A 0,840η =             2

B 0,978η =               2AB 0,665η =

es por tanto una estimación de la proporción de varianza explicada por diferencias entre los nivelesde la fuente de variación una vez eliminado el efecto de las otras fuentes de variación incluidas en

el modelo. Se observan coeficientes  2η  altos para todas las fuentes de variación, siendo el menor el

correspondiente a la interacción (0,665).

Page 106: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

104                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La potencia de un contraste es la probabilidad de rechazar la hipótesis nula cuando es falsa.

El valor de la potencia se entiende como la capacidad de la prueba de hipótesis para detectar unadiferencia real (poblacional) entre los niveles de la fuente de variación igual a la diferenciaobservada entre las muestras.

En todos los casos la potencia es igual a 1, lo que sugiere una alta capacidad de F‐test  para rechazarla hipótesis nula con diferencias reales iguales a las observadas.

El modelo estimado se resume:

1 1 2 1 1 1 2Y 105,82 17,76.X 34,80.Z 20,140.Z 16,180.X Z 1,400.X Z= + − − − − + ε

Las variables dummy:

1X 1=  si la planta es de tipo 1, en otro caso vale 0

1Z  1  = si es tratada con el nivel 1  de agua, en otro caso vale 0

2Z  1  = si es tratada con el nivel 2  de agua, en otro caso vale 0

Page 107: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

105                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La prueba de Levene para testar la hipótesis nula de igualdad de varianzas de la variablecrecimiento en todas las poblaciones definidas por combinaciones de los niveles de factoresconduce a un estadístico igual a 1,130 que en una F5, 24 deja a su derecha una cola deprobabilidad 0,372.

Siendo p_valor 0,372 0,05= >  no se rechaza la hipótesis nula de homogeneidad de varianzas

de la variable crecimiento del tallo de guisantes en las 6 poblaciones definidas (combinación deltipo de planta y nivel de agua considerados), validando así una de las hipótesis estructurales delmodelo propuesto (homoscedasticidad).

Diagrama de dispersión x nivel:  Complementa las pruebas de homogeneidad (contraste deLevene). El diagrama consiste en un gráfico de puntos, cada uno representa una población(combinación de niveles) de modo que la abscisa es la media y la ordenada la desviación típica ola varianza. El objetivo es destacar si la varianza depende de la media (es frecuente comprobarque la respuesta crezca cuando lo hace la media).

Page 108: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

106                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En los gráficos de (media, desviación típica) y (media, varianza) se pone de manifiesto que lasmedidas de dispersión dependen de la media.

El gráfico 1 muestra que los niveles con mayor y menor crecimiento medio conducen a desviacionestípicas muy semejantes y, aparentemente, no parece claro que la dispersión de ambos gráficospueda achacarse a una relación determinista, lo que concuerda con el hecho de que la Prueba deLevene no encuentra significación estadística.

Gráfico de los residuos es un gráfico matricial depuntos enfrentando Valores Observados(variable respuesta) con Valores Pronosticados(por el método estimado) y los Residuos( valoresobservados menos valores pronosticados).

Los residuos se muestran tipificados (divididospor la raíz cuadrada del error cuadrático medioestimado).

El gráfico matricial da una idea de sí se verificanlos supuestos de independencia, homogeneidadde varianzas y falta de ajuste.

Page 109: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

107                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Independencia: El gráfico de dispersión Residuos‐Observados no debería mostrar una pauta devariación sistemática (línea, curva, …)

Homoscedasticidad:  El gráfico de dispersión Residuos‐Pronosticados debería mostrar unadispersión de residuos similar para todos los valores pronosticados.

Ajuste de los datos:  El gráfico de dispersión Pronosticados‐Observados debería mostrar un perfilcercano a la linealidad, cuánto mas lineal mejor ajuste.

♦ Residuos‐Observados:  Gráfico de coordenadas (1, 3) o (3, 1) en la matriz, se dispersaformando un círculo, redundando en su aleatoriedad, corroborando la hipótesis deindependencia.

♦ Residuos‐Pronosticados:  Gráfico de coordenadas (2, 3) o (3, 2) en la matriz, muestra unadispersión semejante para cada valor pronosticado. Algo mayor para las mediaspronosticadas en lugar 4 y 5 en orden creciente, pero sin relevancia aparente.

♦ Pronosticados‐Observados:  Gráfico de coordenadas (1, 2) o (2, 1) en la matriz, se ajusta auna relación lineal, ratificando el buen nivel de ajuste del modelo estimado.

Page 110: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

108                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

ANOVA DE UN FACTOR CON MEDIDAS REPETIDAS

Los modelos de análisis de la varianza (ANOVA) con medidas repetidas (MR) se estudian a travésdel procedimiento MLG Medidas repetidas, que proporciona un análisis de varianza cuando setoma la misma medida varias veces a cada sujeto o caso. Si se especifican factores iner‐sujetos,éstos dividen la población en grupos.

Utilizando este procedimiento del Modelo Lineal General (MLG) se pueden contrastar hipótesisnulas sobre los efectos tanto de los factores inter‐sujetos como de los factores intra‐sujetos. Asímismo, se puede investigar las interacciones entre los factores y también los efectosindividuales de los factores. Se pueden incluir los efectos de covariables constantes y lasinteracciones de las covariables con los factores inter‐sujetos.

En un diseño de medidas repetidas (MR), las variables dependientes representan medidas demás de una variable para los diferentes niveles de los factores intra‐sujetos. Se puedencontrastar tanto modelos equilibrados (cada casilla contiene el mismo número de casos) comolos no equilibrados.

MLG con MR realiza los contrastes a priori (ad hoc) usados habitualmente para elaborarhipótesis que contrastan los factores inter‐sujetos. Además, si una prueba F global ofrecesignificación, puede utilizarse las pruebas post hoc para evaluar las diferencias entre las mediasespecíficas. Las medias marginales estimadas ofrecen estimaciones de valores de las mediaspronosticados para las casillas del modelo. Se pueden guardar en un archivo de datos losresiduos, valores pronosticados, distancia de Cook y valores de influencia como variables nuevaspara comprobar los supuestos.

La ventaja del diseño de medidas repetidas es que requiere menos sujetos que un diseñocompletamiento aleatorizado y permite eliminar la variación residual debida a la diferenciaentre los sujetos (pues se utilizan los mismos). Como contrapartida, se necesita vigilar algunosefectos atribuibles a la utilización de los mismos sujetos, tales como el efecto de arrastre, queocurre cuando se administra una condición antes de que haya finalizado el efecto de otraadministrada previamente; o el efecto de aprendizaje por la práctica, que ocurre cuando lasrespuestas de los sujetos pueden mejorar con la repetición y, como consecuencia de ello, lostratamientos administrados en el último lugar parecen más efectivos que los administrados enprimer lugar, sin que haya diferencias reales entre ellos (en estos casos es importante controlarel orden de presentación de las condiciones).Conviene conocer las ventajas e inconvenientes de estos diseños para decidir correctamentecuándo es apropiado utilizarlos.

El análisis de medidas repetidas se puede enfocar de dos formas: univariado y multivariado.

Page 111: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

109                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El enfoque univariado (también conocido como el método de modelo mixto o split‐plot)considera las variables dependientes como respuestas a los niveles de los factores intra‐sujetos.

Las medidas en un sujeto deben ser una muestra de una distribución normal multivariada y lasmatrices de varianzas‐covarianzas son las mismas en todas las casillas formadas por los efectosinter‐sujetos. Se realizan ciertos supuestos sobre la matriz de varianzas‐covarianzas de lasvariables dependientes. La validez del estadístico F utilizado en el enfoque univariado puedegarantizarse si la matriz de varianzas‐covarianzas es de forma circular (Huynh y Mandeville).

Para contrastar este supuesto se puede utilizar la prueba de esfericidad de Mauchly, que realizauna prueba de esfericidad sobre la matriz de varianzas‐covarianzas de la variable dependientetransformada y ortonormalizada. La prueba de Mauchly aparece automáticamente en el análisisde medidas repetidas. En las muestras de tamaño reducido, esta prueba no resulta muypotente. En las de gran tamaño, la prueba puede ser significativa incluso si es pequeño elimpacto de la desviación en los resultados. Si la significación de la prueba es grande, se puedeasumir la hipótesis de esfericidad. Cuando la significación es pequeña y parece que se ha violadoel supuesto de esfericidad, se puede realizar una corrección en los grados de libertad delnumerador y del denominador para validar el estadístico F univariado. Se encuentrandisponibles tres estimaciones para dicha corrección, denominada épsilon. Los grados de libertadtanto del numerador como del denominador deben multiplicarse por épsilon y la significacióndel cociente F debe evaluarse con los nuevos grados de libertad.

El enfoque multivariado considera que las medidas de un sujeto son una muestra de unadistribución normal multivariada y las matrices de varianzas‐covarianzas son las mismas entodas las casillas formadas por los efectos inter‐sujetos. Para contrastar si las matrices devarianzas‐covarianzas de todas las casillas son las mismas, se puede utilizar la prueba M de Box.

Page 112: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

110                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 11 ‐  Un grupo de expertos pasa a 12 estudiantes una prueba de nivel de ansiedad,que divide a los sujetos en grupos de alta o baja ansiedad. A cada estudiante se le dan cuatroensayos para una tarea de aprendizaje y se registra el número de errores por ensayo en la tablaadjunta.

Sujeto Ansiedad Ensayo 1 Ensayo 2 Ensayo 3 Ensayo 4

1 1 18 14 12 6

2 1 19 12 8 4

3 1 14 10 6 2

4 1 16 12 10 4

5 1 12 8 6 2

6 1 18 10 5 1

7 2 16 10 8 4

8 2 18 8 4 1

9 2 16 12 6 2

10 2 19 16 10 8

11 2 16 14 10 9

12 2 16 12 8 8

Se desea saber si el efecto de los ensayos es significativo y si la interacción ensayo‐ansiedad es ono significativa, con un nivel de significación del 5%.

Solución:

El factor Ensayo tiene cuatro niveles que se aplican a todos los sujetos. Los errores de cadaensayo se registran en variables distintas y se define un factor  Intra‐sujetos (Ensayo) con cuatroniveles para cada cada uno de los ensayos.

La ansiedad es un factor Inter‐sujetos que divide a los sujetos en grupos de alta o baja ansiedad.

Page 113: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

111                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 114: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

112                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

En el Visor aparece la prueba de igualdad de covarianzas en los grupos

Se acepta la hipótesis nula de igualdad de covarianzasporque el p_valor 0,315 0,05= > = α

Page 115: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

113                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La tabla ofrece varios estadísticos para poner a prueba la hipótesis nula referida al efecto delfactor Ensayo y al factor Ensayo‐Ansiedad.

Los cuatro estadísticos multivariados: Traza de Pillai, Lambda de Wilks, Traza de Hotelling y Raízmayor de Roy,  se interpretan de la misma forma que los estadísticos ya estudiados.

En el factor Ensayo el p_valor (Significación)  0,000 0,05= < = α → Se rechaza la hipótesis

nula de igualdad de medias y se concluye que los errores no son los mismos en los cuatroensayos realizados definidos.

Si se considera el factor Ensayo‐Ansiedad el p_valor (Significación)  0,138 0,05= > = α →     Se

acepta la hipótesis nula de igualdad de medias de los errores cometidos en los cuatro ensayos.La interacción Ensayo‐Ansiedad no es significatica.

En los modelos de medidas repetidas es necesario suponer que las varianzas de las diferenciasentre cada dos niveles del factor MR son iguales. En este caso hay 4 niveles, con lo que hay 6pares de combinaciones dos a dos entre niveles: 1 2− , 1 3− , 1 4− , 2 3− , 2 4−  y  3 4− .Calculando las diferencias entre las puntuaciones de sos 6 pares, se tienen 6 nuevas variables.

En el modelo de un factor MR, se supone que las varianzas de esas 6 nuevas variables soniguales. Este supuesto equivale a afirmar que la matriz de varianzas‐covarianzas es circular oesférica.

Page 116: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

114                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Para contrastarlo, el procedimiento de Medidas repetidas, presenta la prueba de esfericidad deMauchly con el estadístico W.

El p_valor (Significación)  0,053 0,05= > = α →

no se puede rechazar la hipótesis de esfericidad, con lo que las varianzas de las diferenciasemtre cada dos nivles del factor MR son iguales.

En el caso de que el estadístico  W rechazase la hipótesis de esfericidad se puede optar por dossoluciones alternativas: Se puede basar la decisión en los estadísticos multivariados de la tablaanterior (Traza de Pillai, Lambda de Wilks, Traza de Hotelling y Raíz mayor de Roy), pues no lesafecta el incumplimiento del supuesto de esfericidad, o bien se puede utilizar el estadístico Funivariado que ofrece la tabla posterior (Efectos intra‐sujetos) aplicando un índice correctorllamado Épsilon.

El índice Épsilon expresa el grado en que la matriz de varianzas‐covarianzas se aleja de la

esfericidad. En condiciones de esfericidad perfecta  1=Épsilon . La tabla presenta dos

estimaciones de épsilon: Greenhouse‐Gesisser (más conservadora) y Huynh‐Feldt. Un tercervalor, Límite inferior, expresa el valor que adoptaría Épsilon en el caso de incumplimientoextremo del supuesto de esfericidad.

Para utilizar el estadístico F univariado de la tabla posterior (Efectos intra‐sujetos) encondiciones de no‐esfericidad es necesario dorregir los grados de libertad de F (tanto los delnumerador como los del denominador) multiplicándolos por el valor estimado de Épsilon.

Cuando no se incumple el supuesto de esfericidad es mejor utilizar la aproximación univariada(esfericidad asumida), pues, en condiciones de esfericidad, el estadístico univariado F es máspotente que los estadísticos multivariados, sobre todo con muestras pequeñas (en el supuestode que ambas aproximaciones conduzcan a la misma decisión es irrelevante).

Page 117: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

115                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Observando los resultados de la tabla se ve que las cuatro versiones del estadístico F (la nocorregida y las tres corregidas) conducen a rechazar la hipótesis nula de igualdad de medias delos ensayos como en el caso de la aproximación multivariada (Traza de Pillai, Lambda de Wilks,Traza de Hotelling y Raíz mayor de Roy).Adviétase que el p_valor (Significación)  0,000 0,05= < = α → Se rechaza la hipótesis nula de

igualdad de medias de los ensayos. El efecto Ensayo es significativo.

El efecto Ensayo‐Ansiedad no es significatico al tener un p_valor (Significación)  0,05>

♦ El único modelo con sentido en un diseño con un solo factor es justamente el que incluye esefactor. En consecuencia, en el diseño con el que se trabaja carece de sentido utilizar este botón(escepto para cambiar el tipo de suma de cuadrados utilizado por defecto; cosa, por otro lado,poco recomendable en este caso).

Page 118: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

116                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

♦ El procedimiento MR asigna, por defecto,contrastes de tipo Polinómico a los factores MR.Los contrastes polinómicos, que permiten estudiarel tipo de relación existente entre el factor y lavariable dependiente (lineal, cuadrática, cúbica,etc), podrían no tener sentido dependiendo delfactor MR que se está utilizando.

La prueba de contrastes Intra‐sujetos corroboran la significatividad del efecto Ensayo y la nosignificatividad de la interacción Ensayo‐Ansiedad.

Ratificando la significatividad delefecto Ensayo y la no significatividadde la interacción Ensayo‐Ansiedad.

Page 119: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

117                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

♦ En el diseño de un solo factor Intra‐sujetos el único efecto Inter‐sujetos es el que se refiere ala media global.  El estadístico F de la tabla permite contrastar la hipótesis de que el promediopoblacional global vale 0.

El p_valor  0,000 0,05= < = α ,

por lo que se rechaza lahipótesis de que el promedioglobal de la población vale 0.Generalmente, este contrastecarece de sentido.

♦ En Estimaciones de los parámetros se observa que las ansiedades para los cuatro ensayos nointeraccionan (efecto conjunto de los dos factores).

Si el efecto interacción no es estadísticamente significativo, los efectos de los factoresprincipales serán independientes. Por su parte, esta independencia advierte de que el efecto deun factor es el mismo para cada nivel del resto de factores y, en consecuencia, los efectosprincipales pueden interpretarse correctamente.

Page 120: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

118                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

♦ Gráficos de perfil o gráfico de interacciónde los efectos, donde se observa que no hayinteracciones significativas, ya que las líneas nose cruzan.Esto concuerda con la ni significatividad de lainteracción Ensayo‐Ansiedad.Existen otras pantallas de salida adicionalessimilares a los métodos sin medidas repetidas.

Page 121: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

119                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El procedimiento Medidas repetidas no permite efectuar comparaciones Post hoc entre losniveles de un factor MR.

Una de las opciones más interesantes es la que se refiere a la comparación de efectos principalesy, aunque el procedimiento de Medidas repetidas no permite efectuar comparaciones Post hocentre los niveles de un factor MR, se puede utilizar la opción Comparar los efectos principalespara comparar dos a dos los distintos niveles del factor. Para ello:

Page 122: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

120                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Para cada nivel del factor Ensayo setiene la media estimada, el errortípico y el intervalo de confianza.

La tabla muestra las comparaciones dos a dos entre los niveles del factor  Ensayo. Observandolos niveles críticos asociados a cada comparación (p_valor) se observa que existen diferenciassignificativas entre todos los niveles.

♦ Las matrices SCPC (suma de cuadrados y productos cruzados) proporciona una matrizdiferente para cada efecto Inter‐sujetos, para cada efecto Intra‐sujetos y para cada términoerror.

Page 123: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

121                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Para un efecto dado, la matriz SCPC muestra, en la diagonal, la suma de cuadradoscorrespondiente a ese efecto descompuesta en tantas partes como grados de libertad tiene eseefecto. La descomposición se efectúa a partir de los contrastes definidos en el botón Contrastes.

♦ La matriz SCPC residual (suma de cuadrados y productos cruzados residual) contiene tressubtablas, todas ellas basadas en información sobre los residuos (diferencias entre los valoresobservados y los valores pronosticados por el modelo). La primera subtabla ofrece, en ladiagonal, las sumas de cuadrados de cada nivel del factor. La segunda subtabla, las varianzas (enla diagonal)  y las covarianzas (fuera de la diagonal). La tercera subtabla incluye la mismainformación tipificada, las correlaciones entre los residuos de cada nivel del factor.

♦ La matriz SCPC residual incorpora la prueba de esfericidad de Bartlett, similar a la prueba deMauchly.

Page 124: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

122                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La prueba de Barlett permite contrastar la hipótesis de quela matriz de varianzas‐covarianzas residual es proporcionala la matriz identidad. Para ello, ofrece dos estadísticosasintóticamente equivalentes: la razón de verosimilitud y elestadístico Chi‐cuadrado.

Page 125: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

123                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Nivel Factor B

Nivel Factor A 1 2 Medias iα

111Y 4,28= 12Y 5,18=    1Y 4,73• = 1Y Y 1,107• • •− = −

221Y 5,754= 22Y 8,446=    2Y 7,1• = 2Y Y 1,263• • •− =

331Y 5,938= 32Y 27,13=    3Y 5,682• = GY Y 0,155• • •− = −

Medias 1Y 5,324• = 2Y 6,351• =   Y 5,837• • =

jβ 1Y Y 3,513• ••− = − 2Y Y 0,5137• ••− =

Page 126: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

124                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

IGUAL NÚMERO DE NIVELES DEL FACTOR ANIDADO EN TODOS LOS NIVELES DEL FACTORPRINCIPAL (DISEÑO BALANCEADO)

EJERCICIO 12 ‐  Dos fabricantes comercializan tres filtros muy utilizados en respiradorescomerciales para la protección de partículas de materia. Para comparar los filtros se realizarontres réplicas de prueba independientes con cada filtro, evaluándose el porcentaje depenetración mediante una prueba estándar de aerosol.

Fabricante 1 Fabricante 2

Réplicas \ Filtro 1 2 3 4 5 6

1 1,12 0,16 0,15 0,91 0,66 2,172 1,10 0,11 0,12 0,83 0,83 1,52

3 1,12 0,26 0,12 0,95 0,61 1,58

Solución:

En el experimento hay dos factores tratamiento:

El Fabricante con dos niveles de efectos fijos: Fabricante 1 y Fabricante 2

El Tipo de Filtro con seis niveles fijos: Filtro 1, Filtro 2,  …. , Filtro 6.

Los niveles del factor 'Tipo de Filtro' están anidados en los niveles del factor 'Fabricante':En Fabricante 1 se ubican los niveles Filtro 1, Filtro 2 y Filtro 3. En Fabricante 2 se ubican losniveles Filtro 4, Filtro 5 y Filtro 6.

Se trata por tanto de un diseño jerarquizado o anidado en dos etapas.

Fabricante 1 Fabricante 2

Réplicas \ Filtro 1 2 3 4 5 6

1 1,12 0,16 0,15 0,91 0,66 2,172 1,10 0,11 0,12 0,83 0,83 1,52

3 1,12 0,26 0,12 0,95 0,61 1,58

i jY • 3,34 0,53 0,39 2,69 2,1 5,27

iY•• 4,26     1(b 3)= 10,06     2(b 3)=

Y••• 14,32

2 3 32i jk

i 1 j 1 k 1

SCT Y 17,3072= = =

= =∑∑∑            2 22 3 3

2

i 1 j 1 k 1

Y 14,32SCIntersección Y 11,392

N 18•••

•••= = =

= = = =∑∑∑

Page 127: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

125                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

2 3 32

i jki 1 j 1 k 1

SCT corregida (Y Y ) SCT SCIntersección 17,3072 11,3923 5,915•••= = =

= − = − = − =∑∑∑

2 2 2 22 3 3 2i2

ii 1 j 1 k 1 i 1

Y Y1 1 4,26 10,06SCA (Y Y ) 11,392 1,869

K I N 3 3 3•• •••

•• •••= = = =

⎡ ⎤= − = − = + − =⎢ ⎥

⎣ ⎦∑∑∑ ∑

22 3 2i2 2 2 2 2 2 2

i ji 1 j 1 i 1 i

2 2

Y1 1 1SCB(A) Y 3,34 0,53 0,39 2,69 2,1 5,27

K K b 3

1 4,26 10,06               17,0025 13,2612 3,7413

3 3 3

•••

= = =

⎡ ⎤= − = + + + + + −⎣ ⎦

⎡ ⎤− + = − =⎢ ⎥

⎣ ⎦

∑∑ ∑

SCE SCT corregida SCA SCB(A) SCE 5,915 1,869 3,741 0,305= − − → = − − =

Fuentes Variación S.C. G.L. M.C. F

Intersección Intersección 11,392= 1

Factor A SCA 1,869=   I 1 2 1 1− = − = MCA 1,869=AF 73,611=

Factor B en A SCB(A) 3,741=  R I 6 2 4− = − = MCB(A) 0,935=B(A)F 36,84=

Error SCE 0,305= R(K 1) 6(3 1) 12− = − = MCE 0,025=

Total SCT 17,3072=  N 18=Total corregida corregidaSCT 5,915=  N 1 17− = MCT 0,348=

MODELO DE EFECTOS FIJOS: Ciudades (Factor A) y Sucursales (Factor B) son de efectos fijos.

                                       0 iH (A) :   0α =   y    0 j(i)H B(A) :   0β =⎡ ⎤⎣ ⎦

      SCA 1,869

MCA 1,869I 1 1

= = =−

                  SCB(A) 3,741

MCB(A) 0,935(R I) 4

= = =−

      SCE 0,305

MCE 0,025R(K 1) 12

= = =−

           SCT 5,915

MCT 0,348(N 1) 17

= = =−

       A

MCA 1,869F 73,611

MCE 0,0254= = =                   B(A)

MCB(A) 0,935F 36,84

MCE 0,0254= = =

Con un nivel de significación  0,05α =  se tiene que  A 0,05 ; 1, 12

estadístico observado estadísticofactor A (fabricantes) teórico

     F 73,611        4,74 F  = > =

rechazando la hipótesis nula, el porcentaje de penetración es significativamente distinta en losdos tipos de fabricantes.

Page 128: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

126                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Por otra parte,  B(A) 0,05 ; 4 , 12

estadístico observado estadísticofactor B(A) (filtros/ fabricantes) teórico

             F 36,84               3,26 F  = > = , rechazando la hipótesis nula, por

tanto, la eficacia de los filtros de cada fabricante también es significativamente distinta.

Los estimadores por mínimos cuadrados de  j(i) i j(i)μ = μ + α + β  son únicos y son  j(i) i jY •μ =

Sin embargo, existen infinitas soluciones para estimar los parámetros  i j(i), yμ α β , siendo necesario

imponer restricciones.

Habitualmente se imponen las restricciones:   ii

ˆ 0α =∑  y   j(i)j

0β =∑   i∀ , resultando los

estimadores: ˆ Y (14,32 / 18) 0,7956•••μ = = =

1

2i i

ˆ (4,26 / 9) (14,32 / 18) 0,3223ˆ Y Y

ˆ (10,06 / 9) (14,32 / 18) 0,3223•••••α = − = −⎧

α = − → ⎨α = − =⎩

1(1) 1(2)

2(1) 2(2)

3(1) 3(2)

i j ij(i)

ˆ ˆ(3,34 / 3) (4,26 / 9) 0,64 (2,69 / 3) (10,06 / 9) 0,2211ˆ ˆ ˆY Y (0,53 / 3) (4,26 / 9) 0,2966 (2,1 / 3) (10,06 / 9) 0,4178  

ˆ ˆ(0,39 / 3) (4,26 / 9) 0,3433 (5,27 / 3) (10,06 /• • •

β = − = β = − = −

β = − → β = − = − β = − = −

β = − = − β = − 9) 0,6389  

⎧⎪⎪⎨⎪ =⎪⎩

En SPSS se plantea el mismo modelo pero los efectos se computan con las restricciones  Iˆ 0α =  y

J(i)ˆ 0 iβ = ∀ , siendo I y J  los últimos códigos de los niveles del Factor A y del factor B anidado

respectivamente.

En el ejemplo, I = 2  y J = 3, de  modo que las restricciones son: 2

3(1) 3(2)

ˆ 0              ˆ ˆ 0

α =⎧⎪⎨β = β =⎪⎩

Con este criterio, los efectos en el SPSS se estiman como sigue:

IJ 23ˆ Y Y (5,27 / 3) 1,757• •μ = = = =   (Intersección)

1

2

13 23IJi iJ

ˆ Y Y (0,39 / 3) (5,27 / 3) 1,627ˆ Y Y

ˆ 0    • •

••α = − = − = −⎧⎪α = − ⎨α =⎪⎩

Page 129: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

127                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

1(1)

2(1)

3(1)

1(2)

11 13

12 13

13 13

i j iJj(i)

21 23

ˆ Y Y (3,34 / 3) (0,39 / 3) 0,983

ˆ Y Y (0,53 / 3) (0,39 / 3) 0,047

ˆ Y Y (0,39 / 3) (0,39 / 3) 0

ˆ Y Yˆ Y Y (2,69 / 3)

• •

• •

• •

• •

• •

β = − = − =

β = − = − =

β = − = − =

β = − →

β = − =

i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i

2(2)

3(2)

22 23

23 23

(5,27 / 3) 0,86

ˆ Y Y (2,1 / 3) (5,27 / 3) 1,057

ˆ Y Y (5,27 / 3) (5,27 / 3) 0

• •

• •

⎧⎪⎪⎪⎪⎪⎪⎨⎪ − = −⎪⎪β = − = − = −⎪

⎪β = − = − =⎪⎩

ESTIMACIÓN DE LOS PARÁMETROS

Intersección 1,757[fabricante 1] − 1,627[fabricante 2] 0

[Filtro 1] ([Fabricante 1]) 0,983

[Filtro 2] ([Fabricante 1]) 0,047

[Filtro 3] ([Fabricante 1]) 0

[Filtro 4] ([Fabricante 2]) − 0,860[Filtro 5] ([Fabricante 2]) − 1, 057[Filtro 6] ([Fabricante 2]) 0

El modelo estadístico utilizando variables 'dummy':

J 1 I 1 J 1

j(I) j i j(i) j ij 1 i 1 j 1

Y Z Z X− − −

= = =

⎛ ⎞= μ + β + α + β + ε⎜ ⎟⎜ ⎟

⎝ ⎠∑ ∑ ∑

1 2 1 1 2 2Y 1,757 1,627 0,983 . Z 0,047 . Z . X 0,860 . Z 1,057 . Z . X= + − + + + − − + ε⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦

1 2 1 1 2Y 1,757 1,627 0,983 . Z 0,047 . Z . X 0,860 . Z 1,057 . Z= + − + + − − + ε⎡ ⎤⎣ ⎦

Page 130: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

128                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Entrada de datos en SPSS:  Analizar > Modelo lineal general > Univariante

Page 131: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

129                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 132: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

130                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

No se realizan pruebasPost Hoc paraFabricantes porquehay menos de tresgrupos.

Page 133: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

131                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Es necesario utilizar el editor de sintaxis parainformar al SPSS que se trata de un diseñojerarquizado.

Para desarrollar el análisis jerarquizado sepulsa Pegar en el cuadro de diálogoUnivariante, abriéndose una ventana como laque se visualiza a continuación:

Page 134: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

132                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

La última fila  DESIGN = Fabricante.  se cambia por DESIGN = Fabricante filtro(fabricante).

informando a SPSS del factor filtro en fabricante.Posteriormente, se pulsa Ejecutar en el menú principal del editor de sintaxis.

Los resultados más relevantes del Visor de Resultados de SPSS:

♦ El cuadro de Estadísticos descriptivos muestra una razonable homogeneidad en la dispersiónde cada uno de los seis grupos [fabricante * filtro(fabricante)] con excepción del filtro 3 delfabricante 2 para el que se obtiene una desviación típica considerablemente más importante.

La construcción de un gráfico dedispersión ilustra el hecho de que elfiltro 2 del fabricante 1 presenta unadesviación típica mayor.

Señalar que el tamaño muestral (tresdatos por grupo) es excepcionalmentepequeño.

Page 135: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

133                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El gráfico muestra como el filtro 1 del fabricante 1proporciona resultados sustancialmente más elevadosque los otros dos filtros de este fabricante y al nivelpromedio de los filtros del fabricante 2.

Page 136: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

134                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El contraste de Levene rechaza la hipótesisnula de homocedasticidad

[ ]p valor 0,01 0,05− = < , es decir, se

rechaza la hipótesis de igualdad devarianzas.

En Pruebas de los efectos inter‐sujetos está el cuadro ANOVA:

El único coeficiente que podría ser eliminado del modelo por no ser significativamente distinto de 0

es el  2(1)β  por tener un p valor 0,726− = .

En otros términos, los porcentajes de penetración medios con los Filtros 1 y 3 del primer fabricanteno difieren significativamente.

Page 137: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

135                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Modelo matemático asociado:   i jk i j (i) (i j)kY = μ + α + β + ε

1 2 1 2 1Y 1,757 0,860 . Z 1,057 . Z 1,627 0,983 . Z 0,047 . Z . X= − − + − + + + ε⎡ ⎤⎣ ⎦

siendo,

X1 ≡ Variable que toma el valor 1 cuando el porcentaje de penetración se mide en un filtro delprimer fabricante y 0 en otro caso.

Zj ≡ Variable que toma el valor 1 si se trata del j‐ésimo filtro y 0 en otro caso.

Page 138: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

136                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

DISEÑO JERARQUICO FACTORIAL:  MODELO JERÁRQUICO Y FACTORES CRUZADOS

Factor BNivel 1 Nivel 2

Factor CFactor A

    1     2 3 i1Y ••     1     2 3 i2Y •• iY • • •

1

1111

1112

111 l

Y

Y

Y

Y 111

1121

1122

112 l

Y

Y

Y

Y 112

1131

1132

113 l

Y

Y

Y

Y 113 11Y ••

1211

1212

121 l

Y

Y

Y

Y 121

1221

1222

122 l

Y

Y

Y

Y 122

1231

1232

123 l

Y

Y

Y

Y 123 12Y •• 1Y • • •

2

2111

2112

211 l

Y

Y

Y

Y 211

2121

2122

212 l

Y

Y

Y

Y 212

2131

2132

213 l

Y

Y

Y

Y 213 21Y ••

2211

2212

221 l

Y

Y

Y

Y 221

2221

2222

222 l

Y

Y

Y

Y 222

2231

2232

223 l

Y

Y

Y

Y 223 22Y •• 2Y • • •

3

3111

3112

311 l

Y

Y

Y

Y 311

3121

3122

312 l

Y

Y

Y

Y 312

3131

3132

313 l

Y

Y

Y

Y 313 31Y ••

3211

3212

321 l

Y

Y

Y

Y 321

3221

3222

322 l

Y

Y

Y

Y 322

3231

3232

323 l

Y

Y

YY 3

23 32Y •• 3Y • • •

j kY• •

jY• • • 1Y• • • 2Y• • •

El modelo estadístico asociado:   i j k l i j k( j) i j i k ( j) (i j k) rY ( ) ( )= μ + α + β + γ + αβ + αγ + ε

μ ≡ Media global

iα ≡  Efecto del nivel i‐ésimo del Factor A   (i 1, 2, , I)=

jβ ≡   Efecto producido por el nivel j‐ésimo del Factor B   ( j 1, 2, , J)=

i j( )α β ≡  Efecto producido por la interacción (A x B)

k(j)γ ≡  Efecto producido por el nivel k‐ésimo del Factor C dentro del nivel j‐ésimo del Factor B,

donde  (k 1, 2, , K)=

i k( j)( )αγ ≡   Efecto producido por la interacción del Factor (A x C) dentro del Factor B

Page 139: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

137                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

r ≡  Número de réplicas  (r 1, 2, , R)=

(i j k) rε ≡  Error experimental, se supone que las variables aleatorias independientes siguen

N(0, )σ

Si el Factor C está anidado en B   →   No existen interacciones  (B x C)  ni  (A x B x C)

Si el A está cruzado con los factores B y   C  →   Puede existir  interacción entre   (A x B)  y  (A x C)

La ecuación básica del Análisis de la Varianza:

x xSCT    SCA  SCB   SC (A   B)   SC [C(B)]   SC [(A C)(B)]   SCR= + + + + +

I J K R2ijkr

i 1 j 1 k 1 r 1

SCT Y= = = =

=∑∑∑∑                 2Y

SCIntersecciónN• • • •=

I J K R 22ij k r

i 1 j 1 k 1 r 1

YSCT corregida Y SCT SCIntersección

N• • • •

= = = =

= − = −∑∑∑∑I J

2 2i j2 2

i 1 j 1

Y YY Y

SCA SCBJKL N IKR N

• • • • • •• • • • • • • •= == − = −

∑ ∑

I J2i j 2

i 1 j 1x

YY

SC(A B) SCA SCBKR N

• •• • • •= == − − −

∑∑

I J K2i j k J K 2 I J 2 J 2

i 1 j 1 k 1 j k i j j

j 1 k 1 i 1 j 1 j 1

x

YY Y Y

SC (A C) (B)R IR KR IKR

•• • • • • • •= = =

= = = = =

= − − +⎡ ⎤⎣ ⎦

∑∑∑∑∑ ∑∑ ∑

x xSCR     SCT SCA  SCB   SC (A    B)   SC [C(B)]  SC [(A   C)(B)]  = − − − − −

Page 140: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

138                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

TABLA ANOVA: DISEÑO JERÁRQUICO FACTORIAL

Factor Variación S. C. G. L. M. C. F

 Factor A SCA          I 1−         SCA

MCAI 1

=−

     AMCA

FMC AC (B)

=⎡ ⎤⎣ ⎦

   Factor B SCB       J I−        

SCBMCB

(J I)=

−      B

MCBF

MCC(B)=

    C en B SC C(B)    J.(K 1)−       

SCC(B)MCC(B)

J (K 1)=

−    C(B)

MCC(B)F

MCR=

    A x B SC [AB] (I  1).(J 1)− −     SC AB

MC AB(I 1) (J 1)

⎡ ⎤⎣ ⎦=⎡ ⎤⎣ ⎦ − −    xA B

MC ABF

MC AC(B)

⎡ ⎤⎣ ⎦=⎡ ⎤⎣ ⎦

 (A x C)  en B SC [AC(B)] J.(I 1).(K 1)− −SC AC(B)

MC AC (B)J (I 1) (K 1)

⎡ ⎤⎣ ⎦=⎡ ⎤⎣ ⎦ − − AC(B)

MC AC(B)F

MCR

⎡ ⎤⎣ ⎦=

  Error   SCR I.J.K.(R 1)−             SCR

MCRI J K ( R I )

=−

Total corregida    SCT N 1−             SCT

MCT(N 1)

=−

Page 141: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

139                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

EJERCICIO 13 ‐  Para mejorar la rapidez de ensamblaje en una línea de producción se estudia laintersección manual de componentes electrónicos en circuitos impresos.

Se diseñan tres aparatos para ensamblar y dos distribuciones del lugar de trabajo, seleccionandoa cuatro operadores en cada línea de distribución en dos localidades diferentes. Se obtienen dosréplicas de cada combinación de tratamientos de este diseño.

Los tiempos de ensamblaje se muestran en la siguiente tabla:

Distribución 1 Distribución 2

Aparato / Operadores 1 2 3 4 1 2 3 4

122

24

23

24

28

29

25

23

26

28

27

25

28

25

24

23

230

27

29

28

30

32

27

25

29

28

30

27

24

23

28

30

325

21

24

22

27

25

26

23

27

25

26

24

24

27

28

27

Solución:    I 3 , J 2 , K 4 , R 2 , N I . J . K . R= = = = =⎡ ⎤⎣ ⎦

Factor A: Aparatos    ‐    Factor B: Línea  Distribución    ‐    Factor C: Operadores    ‐    R: Réplicas

Factor BDistribución 1 Distribución 2

Factor CFactor A

1 2 3 4i 1Y • •

1 2 3 4i2Y • • iY • • •

122

24

23

24

28

29

25

23

11Y • •

198

26

28

27

25

28

25

24

23

12Y • •

206

1Y • • •

404

230

27

29

28

30

32

27

25

21Y • •

228

29

28

30

27

24

23

28

30

22Y • •

219

2Y • • •

447

325

21

24

22

27

25

26

23

31Y • •

193

27

25

26

24

24

27

28

27

32Y • •

208

3Y • • •

401

j kY• • 149 150 171 149 163 159 151 160

jY• • • 619619

633633 1252

Page 142: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

140                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

32i 2 2

i 1 2 2 2

YY 1 1252

SCA 404 447 401 32739,13 32656,33 82,80JKR N 16 48

• • •• • • •= ⎡ ⎤= − = + + − = − =⎣ ⎦

22j 2 2

j 1 2 2

YY 1 1252

SCB 619 633 32660,41 32656,33 4,08I K R N 24 48

• • •• • • •= ⎡ ⎤= − = + − = − =⎣ ⎦

3 22i j 2

i 1 j 1

22 2 2 2 2 2

x

YY

SC (A B) SCA SCBKR N

1 1252198 228 193 206 219 208

8 4832762,25 32656,33 82,80 4,08 19,04

• •• • • •= == − − − =

⎡ ⎤= + + + + + − =⎣ ⎦

= − − − =

∑ ∑

3 22j k 2

i 1 j 1 j

2 22 2 2 2 2 2 2 2

YY

SCC(B)IR IKR

(619 633 )1149 150 171 149 163 159 151 160

6 2432732,33 32660,42 71,91

• •• ••= == − =

+⎡ ⎤= + + + + + + + − =⎣ ⎦

= − =

∑ ∑

Factor BDistribución 1 Distribución 2

Factor CFactor A

1 2 3 4 i 1Y • • 1 2 3 4i2Y • • iY • • •

146

111 

47

112 

57

113 

48

114 

11Y • •

198

54

121 

52

122 

53

123 

47

124 

12Y • •

206

1Y • • •

404

257

211 

57

212 

62

213 

52

214 

21Y • •

228

57

221 

57

222 

47

223 

58

224 

22Y • •

219

2Y • • •

447

346

311 

46

312 

52

313 

49

314 

31Y • •

193

52

321 

50

322 

51

323 

55

324 

32Y • •

208

3Y • • •

401

j kY• • 149 150 171 149 163 159 151 160

jY• • • 619619

633633 1252

Page 143: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

141                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

j3 2 4 2 4 3 22 2 2 2i j k j k i j j

i 1 j 1 k 1 j 1 k 1 i 1 j 1 J 1

2 2 2 2 2

x

Y Y Y Y

SC A C(B)R IR KR IKR

46 47 57 51 55    32732,33 32762,5 32660,42 65,84

2

• • • • • • • •= = = = = = = == − − + =⎡ ⎤⎣ ⎦

⎡ ⎤+ + + + += − − + =⎢ ⎥⎣ ⎦

∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑

x xSCR     SCT    SCA     SCB     SC(A   B)     SC[C(B)]    SC[A   C(B)]   

  299,67 82,80 4,08 19,04 71,91 65,84  56 

= − − − − − == − =− − − −

De la igualdad anterior, resulta:

0,276 0,014 0,064 0,240 0,220 0,187

Coeficiente Determinación 0,813 Variaciónno Exp

82,80 4,08 19,04 71,91 65,84 561 + + + + + 

299,67 299,67 299,67 299,67 299,67 299,67≡

=

licada

 

TABLA ANOVA:  DISEÑO JERÁRQUICO FACTORIAL

Factor Variación S. C. G. L. M. C. F

 Factor A SCA   82,80= 2 MCA 41,40= AF 7,54=

 Factor B SCB   4,08= 1 MCB 4,08=B

MCBF

MCC(B)=

 C en B SCC(B)   71,91= 6 MCC(B) 11,99= C(B)F 0,34=

 A x B SC[AB]   19,04= 2 MC AB 9,52=⎡ ⎤⎣ ⎦ xA BF 1,73=

 (A x C)  en B SC[AC(B)]   65,84= 12 MC AC(B) 5,49=⎡ ⎤⎣ ⎦ AC(B)F 2,36=

 Error SCR   56= 24 MCR 2,33=

 Total corregida SCT   299,67= 47 MCT 6,38=

SCA 82,80 SCB 4,08MCA 41,40 MCB 4,08

I 1 2 (J I) 1= = = = = =

− −

SCC(B) 71,91MCC(B) 11,99

J (K 1) 6= = =

SC AB SC AC(B)19,04 65,84MC AB 9,52 MC AC(B) 5,49

(I 1) (J 1) 2 J (I 1) (K 1) 12

⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦= = = = = =⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦− − − −   

SCR 56 SCT 299,67MCR 2,33 MCT 6,38

I J K (R I) 24 (N 1) 47= = = = = =

− −

Page 144: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

142                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

A BMCBMCA 41,40 4,08

F 7,54 F 0,34MC AC(B) 5,49 MCC(B) 11,99

= = = = = =⎡ ⎤⎣ ⎦

xA B AC(B)

MC AB MC AC(B)9,52 5,49F 1,73 F 2,36

MC AC(B) 5,49 MCR 2,33

⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦= = = = = =⎡ ⎤⎣ ⎦

  Entrada de datos en SPSS:  Analizar > Modelo lineal general > Univariante

Page 145: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

143                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Pulsando Aceptar en el Visor de Resultados:

Page 146: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

144                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Para obtener la información deseada es necesario cambiar la última fila  [/DESIGN =]  por:

UNIANOVAEmbalaje  BY Aparatos Distribución Operadores Réplicas/METHOD = SSTYPE(3)/INTERCEPT = INCLUDE/CRITERIA = ALPHA(.05)     /DESIGN = DistribuciónOperadores(Distribución).

En este línea, se informa a SPSS:

El Factor C (Operarios) está anidado en B ejecutando, además de crearse la fuente devariación originaria : Factor B (Distribución).

Page 147: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

145                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

C(B)

 /DESIGN   Distribución Operadores (Distribución). =

El Factor C (Operarios) está anidado en B  y se declara el Factor A (aparatos):

AC(B)

/DESIGN   Distribución Operadores (Distribución)  Aparatos.=

Page 148: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

146                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

        

El Factor C está anidado en B,  se declara el Factor A (aparatos), y la intersección de losFactores A (Aparatos) y B (Distribución):

xA A BC(B)

 /DESIGN   Distribución Operadores (Distribución)  Aparatos  Aparatos Distribución (Aparatos).=

Page 149: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

147                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

El Factor C está anidado en B,  se declara el Factor A (aparatos), la intersección de losFactores A (Aparatos) y B (Distribución), y  los Factores A (aparatos) y C (Operarios) estánanidados en el Factor B (Distribución):

x

x

A A BC(B)

A C(B)

/DESIGN = Distribución Operadores (Distribución)  Aparatos  Aparatos Distribución (Aparatos)

Distribución Operadores* Aparatos (Distribución).

Page 150: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

148                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 151: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

149                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

♣ Para obtener las estimaciones de los parámetros y, en consecuencia,  el modelo estadísticoasociado:

       Analizar > Modelo lineal general > Univariante > Opciones…

Page 152: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor

150                    Estadística Aplicada:‐  Análisis de la Varianza ‐ MLG

Page 153: ANÁLISIS DE LA VARIANZA - Estadistica · 2020. 1. 7. · Estadística Aplicada:‐ Análisis de la Varianza ‐ MLG 5 En el modelo de efectos fijos, los grupos, o niveles, del factor