Análisis de la Varianza ANalysis ANOVA VAriance...Análisis de la varianza. X Y Lo hemos estudiado...

Post on 09-Aug-2020

24 views 0 download

Transcript of Análisis de la Varianza ANalysis ANOVA VAriance...Análisis de la varianza. X Y Lo hemos estudiado...

ANalysisANalysis OfOf VArianceVArianceANOVAANOVA

Análisis de la VarianzaAnálisis de la Varianza

Teresa VillagarcíaTeresa Villagarcía

El objetivo del diseño de experimentosEl objetivo del diseño de experimentos

�� Estudiar si determinados factores influyen sobre una variable deEstudiar si determinados factores influyen sobre una variable de nuestro nuestro interés.interés.�� Por ejemplo: Rendimiento de un proceso industrial.Por ejemplo: Rendimiento de un proceso industrial.�� ¿Influyen?...¿Influyen?...

�� Presión de trabajo.Presión de trabajo.�� Temperatura de trabajo.Temperatura de trabajo.�� Catalizador.Catalizador.

�� Lo más importante es TOMAR DATOS. Lo más importante es TOMAR DATOS. �� Es decir EXPERIMENTAR.Es decir EXPERIMENTAR.

El diseño de experimentosEl diseño de experimentos

�� Es un mecanismo de muestreoEs un mecanismo de muestreo�� Nos muestra cómo tomar observaciones para comprobar si sobre la Nos muestra cómo tomar observaciones para comprobar si sobre la variable variable

de interés (Rendimiento de la reacción) influyen los factores (Tde interés (Rendimiento de la reacción) influyen los factores (Temperatura, emperatura, Presión, Catalizador)Presión, Catalizador)

�� Nuestro objetivo será realizar un análisis que nos lleve a conclNuestro objetivo será realizar un análisis que nos lleve a conclusiones usiones fiables.fiables.

�� Con pocas observaciones. ¿Por qué?Con pocas observaciones. ¿Por qué?�� Las observaciones son caras.Las observaciones son caras.

Vamos a estudiar.Vamos a estudiar.

�� Análisis de la varianzaAnálisis de la varianza�� Diseños factoriales a dos niveles.Diseños factoriales a dos niveles.�� Diseños fraccionales.Diseños fraccionales.�� Extensiones (Extensiones (TaguchiTaguchi))

Análisis de la varianza.Análisis de la varianza.

XY

¿Cómo influye X sobre Y?

Análisis de la varianza.Análisis de la varianza.

XY

Lo hemos estudiado en Regresión. Pero no nos importaba cómorecoger los datos. Ahora sí.

Vamos a estudiarlo con un ejemploVamos a estudiarlo con un ejemplo

�� Se desea saber si el contenido de algodón de una fibra Se desea saber si el contenido de algodón de una fibra semisintéticasemisintética influye en la influye en la fortaleza de la misma:fortaleza de la misma:

�� Se toman los siguientes datos:Se toman los siguientes datos:

111123231919181899

15151919191918181111

11112222181812121515

101025251818171777

7719191414121277

35%35%30%30%25%25%20%20%15%15%

Porcentaje de algodónPorcentaje de algodón

151523231919181899

MediasMedias

10.810.821.621.617.617.615.415.49.89.8

15151919191918181111

11112222181812121515

101025251818171777

7719191414121277

35%35%30%30%25%25%20%20%15%15%

Porcentaje de algodónPorcentaje de algodón

¿Influye el % de algodón?¿Influye el % de algodón?

¿Influye el % de algodón?¿Influye el % de algodón?

15 20 25 30 35

Scatterplot by Level Code

7

10

13

16

19

22

25

Forta

leza

Porc. Algodon

Medias

Porc. Algodon

Forta

leza

15 20 25 30 359

12

15

18

21

24

¿Influye el % de algodón?¿Influye el % de algodón?

Box-and-Whisker Plot

Porc. Algodon

Forta

leza

15 20 25 30 357

10

13

16

19

22

25

ANOVAANOVA

151523231919181899

MediasMedias

10.810.821.621.617.617.615.215.29.89.8

15151919191918181111

11112222181812121515

101025251818171777

7719191414121277

35%35%30%30%25%25%20%20%15%15%

Porcentaje de algodónPorcentaje de algodón

MediasMedias

......

yyII,nI,nIyy2,n22,n2yy1,n11,n1

..

..

..

......

......

......

..

..

..

..

..

..

yyII,2,2......yy2,22,2yy1,21,2

yyII,1,1......yy2,12,1yy1,11,1

II......2211

Grupo o FactorGrupo o Factor

.Iy .2y .Iy

No tiene que haber el mismo número de datos para cada grupo

n=n1+n2+…+nI

El modelo estadístico:El modelo estadístico:

yij = µi + eij

Observación j-ésimadel grupo i

Media del grupo iEfecto del factor

Error de la observaciónj-ésima del grupo i

Hipótesis:Hipótesis:

yij = µi + eij

1. Linealidad2. Homocedasticidad3. Independencia4. Normalidad

Grupo 1

µ1

Grupo 1

Grupo 2

µ2

µ1

Grupo 1

Grupo 2

Grupo 3µ2

µ3Los datos proceden de campanas (Son normales). Con medias distintas y varianza (Amplitud) constante

µ1

µi

µ se deslaza de un grupo a otro:

•Si el factor influye µ será distinto para cada grupo•Si el factor no influye µ será igual para todos

Estimación: Máxima Estimación: Máxima verosimilitudverosimilitud

�� ¿Cómo estimaríais ¿Cómo estimaríais µµii??

�� Por mPor mááxima verosimilitud xima verosimilitud se obtiene:se obtiene:

Efecto grupoEfecto grupo

......

yyII,nI,nIyy2,n22,n2yy1,n11,n1

..

..

..

......

......

......

..

..

..

..

..

..

yyII,2,2......yy2,22,2yy1,21,2

yyII,1,1......yy2,12,1yy1,11,1

II......2211

Grupo o FactorGrupo o Factor

y

∑=

=

in

jiji yy

1

Objetivo del análisisObjetivo del análisis

�� Saber si el grupo (Factor) influyeSaber si el grupo (Factor) influye�� En el modelo equivale a:En el modelo equivale a:

�� ¿Son iguales ¿Son iguales µµ11, , µµ22, , µµ33. . ……..? ..? �� ¿¿Alguna media es diferente?Alguna media es diferente?

�� EstadEstadíísticamente:sticamente:

�� ¿¿HHoo: : µµ11= = µµ22= = µµ33= = …….= .= µµII??�� ¿¿HH11: Alguna es diferente?: Alguna es diferente?

µ1

µ2

Supongamos los datos:

La flecha indica la diferencia entre ambas medias.

¿Son iguales?

µ1

µ2

O estos datos:

¿Son iguales?

La flecha indica la diferencia entre ambas medias.Es la misma que en el caso anterior.

µ1

µ2

¿Son iguales?

O finalmente:

La flecha indica la diferencia entre ambas medias.Es la misma que en el caso anterior.

Hay que comparar las mediasteniendo en cuenta las dispersiones(varianzas)

La distancia entre las dos medias es la misma.Pero la variabilidad es muy diferente.

¿Son iguales?

El análisis de la varianza:El análisis de la varianza:

�� Decide si los grupos son iguales comparando la distancia entre lDecide si los grupos son iguales comparando la distancia entre las medias as medias en función de varianza de los grupos.en función de varianza de los grupos.

�� Grupos con la misma diferencia de medias serán probablemente disGrupos con la misma diferencia de medias serán probablemente distintos si tintos si sus datos tienen menos variabilidadsus datos tienen menos variabilidad

Bases del Bases del análisisanálisis

.3y

.2y

..y

.1y

Todos los datos

Datos por grupos

Bases del Bases del análisisanálisis

.3y

.2y

..y

.1y

Todos los datos

Datos por grupos

...3 yy −

...2 yy −

...1 yy −

Bases del Bases del análisisanálisis

.3y

.2y

..y

.1y

Esa observación jy ,1

jy ,1

...1 yy −

...2 yy −

...3 yy −

Bases del Bases del análisisanálisis

.3y

.2y

..y

.1y

Esa observación...1 yy −

...3 yy −

...2 yy −

jy ,1

jy ,1

..,1 yy j −

.1,1 yy j −

)()()( ...1.1,1..,1 yyyyyy jj −+−=−

))((

)()()(

....,1 1

2...

1 1

2.,

1 1

2..,

1 1

yyyy

yyyyyy

iiji

n

i

n

j

i

n

i

n

jiji

n

i

n

jji

n

i

n

j

i

iii

−−

+−+−=−

∑∑

∑∑∑∑∑∑

= =

= == == =

Elevando al cuadrado y sumando para todas las observaciones:

0)()())(( .,1 1

.......,1 1

=−−=−− ∑ ∑∑∑= == =

iji

n

i

n

jiiiji

n

i

n

jyyyyyyyy

ii

)()()( ...1.1,1..,1 yyyyyy jj −+−=−

2.,

1 1

2...

1 1

2..,

1 1

)()()( iji

n

i

n

ji

n

i

n

jji

n

i

n

jyyyyyy

iii

−+−=− ∑∑∑∑∑∑= == == =

El primer término se denomina Variación Total: VTyy

j

n

i

n

j

i

=−∑∑= =

)(..,11 1

VNEyy j

n

i

n

j

i

=−∑∑= =

2.1,1

1 1)(

VEyynyy i

n

iii

n

i

n

j

i

=−=− ∑∑∑== =

2...

1

2...

1 1

)()(

El segundo término se denomina Variación Explicada:

El tercero se denomina Variación No Explicada

Distribuciones: Se puede demostrarDistribuciones: Se puede demostrar

22 una como SIEMPRE distribuye se In

VNE−

χσ

2

12

210

una como distribuye se

:Hcumplese si sóloy Si

===

I

I

VEχ

σ

µµµ m

2

2

, 1

1:esF una que Sabemos

m

n

mn

m

nFχ

χ

= O

2

2

,1 Hcumple se si SOLO 11

1

11

1:Por tanto

VNEIn

VEI

VNEIn

VEIF InI

−=

−=

−−

σ

σ

O,1 Hcumple se si SOLO 11

1:Por tanto

VNEIn

VEIF InI

−=

−−

Numerator d.f,D10,10

F (variance ratio) Distribution

0 1 2 3 4 5

x

0

0,2

0,4

0,6

0,8

dens

ity

Rechazamos HoNo rechazamos Ho

Tabla ANOVATabla ANOVA

VT/nVT/n--11nn--11VTVTTotalTotal

VNE/nVNE/n--IInn--IIVNEVNENo explicada No explicada o residualo residual

VE/IVE/I--11II--11VEVEExplicada o Explicada o entre gruposentre grupos

FFVarianzaVarianzaGrados de Grados de libertadlibertad

Suma de Suma de cuadradoscuadrados

Fuente de Fuente de variaciónvariación

)( ..,1 1

yy ji

n

i

n

j

i

−∑∑= =

2.1,

1 1

)( yy jin

i

n

j

i

−∑∑= =

2...

1)( yyn i

n

ii −∑

=

2ˆRs

2ˆes

2

Ys

2ˆes 2ˆ

Rs

Ejemplo: Porcentaje de algodónEjemplo: Porcentaje de algodón

111123231919181899

15151919191918181111

11112222181812121515

101025251818171777

7719191414121277

35%35%30%30%25%25%20%20%15%15%

Porcentaje de algodónPorcentaje de algodón

Se desea saber si el contenido de algodón de una fibra Se desea saber si el contenido de algodón de una fibra semisintéticasemisintética influye en la fortaleza de la misma:influye en la fortaleza de la misma:

Tabla ANOVATabla ANOVA

VT/nVT/n--112424nn--11

636.96636.96TotalTotal

VNE/nVNE/n--II161.2/20=161.2/20=

8.068.06

2020nn--II

161.2161.2No explicada No explicada o residualo residual

118.94/8.06118.94/8.06==

14.7614.76

VE/IVE/I--11475.76/4=475.76/4=

118.94118.94

44II--11

475.76475.76Explicada o Explicada o entre gruposentre grupos

FFVarianzaVarianzaGrados de Grados de libertadlibertad

Suma de Suma de cuadradoscuadrados

Fuente de Fuente de variaciónvariación

)( ..,1 1

yy ji

n

i

n

j

i

−∑∑= =

2.1,

1 1

)( yy jin

i

n

j

i

−∑∑= =

2...

1)( yyn i

n

ii −∑

=

151523231919181899

MediasMedias

10.810.821.621.617.617.615.415.49.89.8

15151919191918181111

11112222181812121515

101025251818171777

7719191414121277

35%35%30%30%25%25%20%20%15%15%

Porcentaje de algodónPorcentaje de algodón

Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Between groups 475,76 4 118,94 14,76 0,0000Within groups 161,2 20 8,06-----------------------------------------------------------------------------Total (Corr.) 636,96 24

Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Between groups 475,76 4 118,94 14,76 0,0000Within groups 161,2 20 8,06-----------------------------------------------------------------------------Total (Corr.) 636,96 24

Numerator d.f,Denominator d.f.4,20

F (variance ratio) Distribution

x

dens

ity

0 2 4 6 8 10 12 14 16 18 200

0,2

0,4

0,6

0,8

¿Influye el algodón?. Si se cumple Ho el número obtenido proviene de esa FSi no se cumple Ho el número no proviene de esa F

Comparación de mediasComparación de medias

�� Los datos indican que alguna media es diferenteLos datos indican que alguna media es diferente�� ¿Cuántas difieran?¿Cuántas difieran?�� ¿Son todas distintas?¿Son todas distintas?�� ¿Cuál es la mayor?¿Cuál es la mayor?

�� Intervalo de confianza para la diferencia de medias:Intervalo de confianza para la diferencia de medias:

�� Si el cero está dentro del intervalo las dos medias pueden ser iSi el cero está dentro del intervalo las dos medias pueden ser igualesguales

jiInjiji nnstyyR

11ˆ)( ,2/.. −±−∈−−α

µµ

Comparación de los gruposComparación de los grupos

�� tt0.025, 20gl0.025, 20gl=2.09=2.09

�� ((µµ11 ––µµ2 2 ) ) εε (61(61--66) +66) +-- 2.09 2.37 2.09 2.37 sqrtsqrt(1/4+1/6)(1/4+1/6)�� ((µµ11 ––µµ3 3 ) ) εε ((--10.2, 10.2, --3.8)3.8)�� ((µµ11 ––µµ4 4 ) ) εε ((--3.03, 3.03)3.03, 3.03)�� ((µµ22 ––µµ3 3 ) ) εε ((--4.8, 0.86)4.8, 0.86)�� ((µµ22 ––µµ4 4 ) ) εε (2.32, 7.67)(2.32, 7.67)�� ((µµ33 ––µµ4 4 ) ) εε (4,32, 9.7)(4,32, 9.7)

jijiji nn

styyR

11ˆ)( 2/.. −±−∈−α

µµ

Esto lo hace el ordenador mejor ya que tiene en Esto lo hace el ordenador mejor ya que tiene en cuenta el problema de contrastes múltiplescuenta el problema de contrastes múltiples

15 20 25 30 35

Means and 95,0 Percent LSD Intervals

Col_2

7

10

13

16

19

22

25

Col

_1

Multiple Range Tests for Col_1 by Col_2

-------------------------------------------------------------------------------Method: 95,0 percent LSDCol_2 Count Mean Homogeneous Groups-------------------------------------------------------------------------------15 5 9,8 X 35 5 10,8 X 20 5 15,2 X 25 5 17,6 X 30 5 21,6 X-------------------------------------------------------------------------------Contrast Difference +/- Limits-------------------------------------------------------------------------------15 - 20 *-5,4 3,69399 15 - 25 *-7,8 3,69399 15 - 30 *-11,8 3,69399 15 - 35 -1,0 3,69399 20 - 25 -2,4 3,69399 20 - 30 *-6,4 3,69399 20 - 35 *4,4 3,69399 25 - 30 *-4,0 3,69399 25 - 35 *6,8 3,69399 30 - 35 *10,8 3,69399 -------------------------------------------------------------------------------* denotes a statistically significant difference.

DiagnosisDiagnosis

�� Igual que en regresión: residuos vs. Igual que en regresión: residuos vs. Valores ajustadosValores ajustados

�� Comprobaremos que son Comprobaremos que son homocedásticos y que no pasan cosas homocedásticos y que no pasan cosas raras.raras.

Residual Plot for Col_1

-6

-4

-2

0

2

4

6

resi

dual

9 12 15 18 21 24

predicted Col_1