UD 5 –Introducción a la Inferencia Estadística

101
DEIOAC Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9 UD 5 – Introducción a la Inferencia Estadística

Transcript of UD 5 –Introducción a la Inferencia Estadística

Page 1: UD 5 –Introducción a la Inferencia Estadística

DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9

UD 5 – Introducción a la Inferencia Estadística

Page 2: UD 5 –Introducción a la Inferencia Estadística

Contenido- UD5 Introducción a la Inferencia Estadística -

5.4. Introducción a la Regresión Lineal5.4. Introducción a la Regresión Lineal

2.2. Estadística Descriptiva Bidimensional - 22.2. Estadística Descriptiva Bidimensional - 2

5.3 Introducción al Análisis de la Varianza

5.2 Inferencia básica en poblaciones normales

5.1 Distribuciones en el muestreo5.1 Distribuciones en el muestreo

Page 3: UD 5 –Introducción a la Inferencia Estadística

5.3 - ANOVAAnálisis de la Varianza(ANalysis Of VAriance)

Page 4: UD 5 –Introducción a la Inferencia Estadística

Contenidos

1. Idea Intuitiva del ANOVA

2. ANOVA con un sólo factor controlado

2.1. Un ejemplo

2.2. Descomposición de la Suma de Cuadrados.

Test F

2.3. Intervalos LSD

2.4. Análisis de residuos

3. ANOVA con más de un factor. Factores cuantitativos

4. Ejemplos y ejercicios

Page 5: UD 5 –Introducción a la Inferencia Estadística

Idea intuitiva del ANOVA

Técnica estadística muy poderosa para el estudiodel efecto de uno o más factores sobre la mediade una variable

Idea básica: descomponer la variabilidad totalobservada en unos datos en las partes asociadas acada factor estudiado más una parte residual, conla que después se compararán las primeras

Técnica básica para el estudio de observacionesque dependen de varios factores, siendo laherramienta fundamental en el análisis de losModelos de Regresión Lineal y de Diseño deExperimentos

Page 6: UD 5 –Introducción a la Inferencia Estadística

Idea intuitiva del ANOVA

Ejemplo intuitivo

Efecto del tipo de algoritmo y del nivel de tráficoen la red de interconexión de un multicomputador,sobre la latencia de los mensajes enviados por la red

Veamos unos resultados hipotéticos en algunos casos extremos:

Page 7: UD 5 –Introducción a la Inferencia Estadística

Ejemplo intuitivo ALTURA

1 2 3

ALG

ORIT

MO

1 20 20 20 20 20 20

2 20 20 20 20 20 20

Factor 2

Factor 1

2 variantes: 2algoritmos diferentes

3 niveles: 3 niveles de

TRÁFICO en la red

Valor observado: LATENCIA(media) de los mensajes enviados utilizando el algoritmo 2 con un nivel de tráficointermedio (2) en la red

TRÁFICO

Page 8: UD 5 –Introducción a la Inferencia Estadística

Ejemplo intuitivo TRÁFICO

1 2 3

ALG

ORIT

MO

1 20 20 20 20 20 20

2 20 20 20 20 20 20

Latencia media = 20La suma de los cuadrados de las desviaciones de cada valor observado de la LATENCIA con respecto a su media:

( ) ( ) ( ) ( )2 2 2 2020 20 20 20 20 20ikj

ikj

x x− = + + + =− − − …

Suma de Cuadrados Total (SCT)

Caso A

Nada influye

SCTotal=0

Page 9: UD 5 –Introducción a la Inferencia Estadística

( ) ( ) ( ) ( )2 2 2 230020 25 20 25 30 25ikj

ikj

x x− = + + + =− − − …

Ejemplo intuitivo TRÁFICO

1 2 3

ALG

ORIT

MO

1 20 20 20 20 20 20

2 30 30 30 30 30 30

Latencia media = 25

Caso B

SCT=300 Hay variabilidad.

Al “analizar la varianza” se observa que la variabilidad se debe sólo al efecto del tipo de algoritmo utilizado

El factor algoritmo influye sobre la mediade la latencia de los mensajes

SCTotal=SCalgoritmo

Page 10: UD 5 –Introducción a la Inferencia Estadística

( ) ( ) ( )2 2 250020 30 25 30 40 30TOTAL

SC = + + + =− − −…

Ejemplo intuitivo TRÁFICO

1 2 3

ALG

OR

ITM

O 1 20 20 25 25 30 30

2 30 30 35 35 40 40

Latencia media = 30

Caso C

SCT=500 Hay variabilidad

Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto del algoritmo como al efecto del nivel de

tráfico en la red

El factor algoritmo y el factor nivel de tráfico de la red influyensobre el promedio de la latencia de los mensajes No hay interacción entre ambos factores. El efecto del tráfico es lineal

SCTotal=SCalgoritmo+SCtráfico

Page 11: UD 5 –Introducción a la Inferencia Estadística

TRÁFICO

1 2 3

ALG

ORIT

MO

1 20 20 25 25 30 30

2 30 30 35 35 50 50

( ) ( ) ( )2 2 2

1066 6720 31 67 25 31 67 50 31 67TOTALSC '' ' '= + + + =− − −…

Ejemplo intuitivo

Latencia media = 31’67

Caso D

SCT=1066’67 Hay variabilidad

Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto del tipo de algoritmo como al efecto del

nivel de tráfico de la red y a su interacción

El factor algoritmo, el factor tráfico y su interaccióninfluyen sobre el promedio de la latencia. El efecto del nivel detráfico sobre la latencia media de los mensajes es mayor utilizando elalgoritmo 2 que el 1

SCTotal=SCalgoritmo+SCtráfico+ SCInteracción

Page 12: UD 5 –Introducción a la Inferencia Estadística

TRÁFICO

1 2 3

ALG

ORIT

MO

1 19 21 27 24 28 32

2 30 31 36 33 47 51

( ) ( ) ( )2 2 2

100119 31 6 21 31 6 51 31 6TOTALSC ' ' '= + + + =− − −…

Ejemplo intuitivo

Latencia media = 31’6

Caso E

Único realista

SCT=1001 Hay variabilidad

Se observa que la variabilidad se debe tanto al efecto del algoritmo como al efecto del nivel de tráfico y a su

interacción, así como al de los factores no controlados

El factor algoritmo, el factor tráfico y su interacción, así como otros factores no controlados o no tenidos en cuenta influyen sobre el promedio de la latencia de los mensajes

SCTotal=SCalgoritmo+SCtráfico+ SCInteracción + SCResidual

Page 13: UD 5 –Introducción a la Inferencia Estadística

Grados de libertad (gl)

SCT glT = nº de datos – 1 SCF glF = nº de variantes –1 SCInteracción producto de los gl de los factores que interaccionan

SCR glR= glT - glF - glinter

En el ejemplo:

SCT 12 - 1= 11 gl

SCalgoritmo 2 – 1 = 1 gl

SCtráfico 3 – 1 = 2 gl

SCalgoritmoXtráfico 1 x 2 = 2 gl

SCR 11 – 5 = 6 gl

En paralelo a esta descomposición de la SCTotal se realiza una descomposición de los “grados de libertad” totales en los grados de libertad asociados a cada término

Page 14: UD 5 –Introducción a la Inferencia Estadística

Significación de un efecto

La comparación de la “varianza” asociada acada efecto con la varianza residual permiteestudiar si dicho efecto es o no significativo

Estas varianzas se estiman dividiendo cadasuma de cuadrados por sus grados de libertad,obteniéndose unos estadísticos a los que sedenomina Cuadrados Medios:

SCCM

g .l=

Page 15: UD 5 –Introducción a la Inferencia Estadística

Test F

El CMTotal es la varianza de los datos observados(no se suele calcular)

El CMResidual es una estimación de la σ2 existenteen las poblaciones muestreadas, asumiendo lamisma σ2 para todas las poblaciones (o unaestimación del promedio de dichas varianzas, en elcaso de que difieran de unas poblaciones a otras)

El CM asociado a cada efecto: es otra estimación de la σ2 independiente de la

del CMResidual, si el efecto no existe en lapoblación

tiende a ser mayor que σ2, si existe un efectoreal poblacional

Page 16: UD 5 –Introducción a la Inferencia Estadística

Test F

Si no existe un efecto real del factor a nivelpoblacional el CMfactor será muy parecido alCMresidual

glF,glR

CMFF ratio F

CMR− = ≈

La F-ratio será muy parecida a 1 con unadistribución F de Fisher con los grados delibertad correspondientes

El factor no influye sobre la media de la respuesta

Page 17: UD 5 –Introducción a la Inferencia Estadística

Test F

Si existe un efecto real del factor a nivelpoblacional el CMfactor >>> CMresidual

La F-ratio será demasiado elevada para ser una Fde Fisher con los grados de libertadcorrespondientes

El factor influye sobre la media de la respuesta

,glF glR

CMFF

CMR>>

Page 18: UD 5 –Introducción a la Inferencia Estadística

Test F

Los programas estadísticos no muestran losvalores críticos de la distribución F manejada. En sulugar, utilizan el p-value asociado (en ladistribución manejada, porcentaje de valores

mayores que el correspondiente estadístico

calculado) Prob (Fglf, glr > Fratio) = p-value

Cuanto menor sea este p-value más fuerte será laevidencia respecto a la existencia poblacional delefecto correspondiente

Page 19: UD 5 –Introducción a la Inferencia Estadística

Contenidos

1. Idea Intuitiva del ANOVA

2. ANOVA con un sólo factor controlado

2.1. Un ejemplo

2.2. Descomposición de la Suma de Cuadrados.

Test F

2.3. Intervalos LSD

2.4. Análisis de residuos

3. ANOVA con más de un factor. Factores cuantitativos

4. Ejemplos y ejercicios

Page 20: UD 5 –Introducción a la Inferencia Estadística

ANOVA con un factor. EjemploUna factoría de motores tiene 2 proveedores de loscigüeñales que mecaniza. Un tercer proveedorofrece sus cigüeñales algo más carosargumentando sus mejores propiedades dinámicas,concretamente que su equilibrado dinámico(número de gramos de material que hay queeliminar hasta conseguir que el centro de gravedadde la pieza coincida con el eje de giro) es menor.

La factoría decide hacer una prueba comparando10 cigüeñales del nuevo proveedor (código=1) con10 de cada uno de sus 2 proveedores tradicionales(códigos 2 y 3). Los resultados obtenidos serecogen en la siguiente tabla:

Page 21: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

Factor estudiado PROVEEDOR

Variantes del factor 1 2 3

Resultados obtenidos

Equilibrado dinámico (grs)

23 35 50

28 36 43

21 29 36

27 40 34

95 43 45

41 49 52

37 51 52

30 28 43

32 50 44

36 52 34

Page 22: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

¿Hay evidencia suficiente respecto a lasuperioridad de los cigüeñales del nuevoproveedor para cambiar a éste, pese al precioligeramente más elevado?

CUESTIÓN CLAVE

El ejemplo que consideramos es un caso particular deDiseño de Experimentos:

se estudia el efecto de un único factor (el proveedor) con3 variantes (los 3 proveedores a comparar) sobre lamedia de la variable respuesta (el equilibrado dinámico,que debe ser el menor posible)

(Más adelante consideraremos el efecto de varios factores en el análisis)

Page 23: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

Experimento:Factores: PROVEEDORVariantes: Prov. 1, 2, 3Variable respuesta: Equilibrado Dinámico (EQUIDINA)

Objetivo: ¿existen diferencias entre losequilibrados dinámicos medios en loscigüeñales de los 3 proveedores?

0 1 2 3

1 1 2 3i j

H : m m m

H : i, j ;i j / m m ;i, j : , ,

= =

∃ ≠ ≠

ANOVA

Page 24: UD 5 –Introducción a la Inferencia Estadística

Descomposición de la Suma de Cuadrados. Test F

Descomposición de la variabilidad total:

Variabilidad Total en los

datos=

Variabilidad debida a diferencias entre

proveedores(efecto del factor

proveedor)

+Variabilidad residual(diferencias dentro de

cada proveedor)

¿Cómo se obtiene...?

Page 25: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

PROVEEDORES

1 2 3

23 35 50

28 36 43

21 29 36

27 40 34

95 43 45

41 49 52

37 51 52

30 28 43

32 50 44

36 52 34

37 41.3 43.3medias

40.53

Media de todos los

datos

Page 26: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

Cuantificación de la variabilidad:

Variabilidad Total en los

datos=

Variabilidad debida a diferencias entre

proveedores(efecto del factor

proveedor)

+Variabilidad residual(diferencias dentro de

cada proveedor)

Suma de Cuadrados Total

SCT

Suma de Cuadrados

FactorSCF

Suma de Cuadrados ResidualSCR

Page 27: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

PROVEEDORES

1 2 3

23 35 50

28 36 43

21 29 36

27 40 34

95 43 45

41 49 52

37 51 52

30 28 43

32 50 44

36 52 34

37 41.3 43.3 40.53

Suma de Cuadrados Total (SCT):

(23– 40.53)2 + (28– 40.53)2 + ... +

(36– 40.53)2 + (35– 40.53)2 + ... +

(44– 40.53)2 + (34– 40.53)2 = 5465

Suma de los cuadrados de las desviaciones de cada dato con respecto a la media general

Page 28: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

PROVEEDORES

1 2 3

23 35 50

28 36 43

21 29 36

27 40 34

95 43 45

41 49 52

37 51 52

30 28 43

32 50 44

36 52 34

37 41.3 43.3 40.53

Suma de Cuadrados Factor (SCF):

10 x (37– 40.53)2

+ 10 x (41.3– 40.53)2 +

+ 10 x (43.3– 40.53)2 = 207

Suma de los cuadrados de las desviaciones de la media de cada proveedor con respecto a la media general

Page 29: UD 5 –Introducción a la Inferencia Estadística

(23– 37)2 + ... + (36– 37)2 +

(35– 41.3)2 + ... + (52– 41.3)2 +

(50– 43.3)2 + ... + (34– 43.3)2 = 5258

Suma de los cuadrados de las desviaciones de cada dato con respecto a la media del proveedor correspondiente

Ejemplo Proveedores cigüeñales

PROVEEDORES

1 2 3

23 35 50

28 36 43

21 29 36

27 40 34

95 43 45

41 49 52

37 51 52

30 28 43

32 50 44

36 52 34

37 41.3 43.3 40.53

Suma de Cuadrados Residual (SCR):

Page 30: UD 5 –Introducción a la Inferencia Estadística

Grados de libertad (gl)

SCT glT = nº de datos – 1SCF glF = nº de variantes –1SCR glR= glT - glF

En el ejemplo:

SCT 30 - 1= 29 glSCF 3 – 1 = 2 glSCR 29 – 2 = 27 gl

Page 31: UD 5 –Introducción a la Inferencia Estadística

Significación de un efecto

La comparación de la SC asociada a cada efectocon la SCresidual permite estudiar si dicho efectoes o no significativo

Para llevar a cabo dicha comparación, cada sumade cuadrados SC se divide por sus grados delibertad, obteniéndose unos estadísticos a losque se denomina Cuadrados Medios:

SCCM

g .l=

Page 32: UD 5 –Introducción a la Inferencia Estadística

Test F

Si el CMfactor es muy parecido al CMresidual

glF,glR

CMFF ratio F

CMR− = ≈

La F-ratio será muy parecida a 1, con unadistribución F de Fisher con los grados delibertad correspondientes

0 1 2 3Aceptamos H :m m m= =

No hay diferencias significativas entre los proveedores

(El factor no tiene un efecto real a nivel poblacional)

Page 33: UD 5 –Introducción a la Inferencia Estadística

Test F

Si el CMfactor >>> CMresidual

La F-ratio será demasiado elevada para ser unaF de Fisher con los grados de libertadcorrespondientes

Sí hay diferencias significativas entre los proveedores, con respecto al valor medio del equilibrado dinámico

de los cigüeñales

Al menos uno de los tres proveedores tiene una media diferente a la de los otros dos

(Existe un efecto real del factor a nivel poblacional)

0 1 2 3Rechazamos H :m m m= =

Page 34: UD 5 –Introducción a la Inferencia Estadística

¿Cómo estudiar si el efecto de un factor es o no significativo?

VARIABILIDAD RESIDUAL (CMR) VARIABILIDAD FACTOR (CMF)

m2

σ

m1

σ

m3

σ

m1= m2 = m3

σ

1C M RC M F C M RC M F ≈≈1

C M RC M F C M RC M F >>>>

Page 35: UD 5 –Introducción a la Inferencia Estadística

Si no es cierta H0 (al menos uno de los tresproveedores tiene una media diferente a la de losotros dos) la Fratio (o la Fcalculada) tiende a sermayor que una F2, 27

La H0 se contrasta, por tanto, viendo si el valorobtenido para la F-ratio es “demasiado grande”para ser una F de Fisher, lo que viene cuantificadopor el p-value correspondiente que no es más quela Prob(F2,27 > Fratio). Si dicho p-value es inferior alriesgo de 1ª especie α con el que se trabaja(generalmente se opera con α= 0.05), o sea si laFratio excede al valor crítico de una F2, 27 para dichaprobabilidad α, se considera que el efecto delfactor será significativo

Test F (Conclusión)

Page 36: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

Tabla resumen del ANOVA

Origen Variación

Suma de Cuadrados

Grados Libertad

Cuadrado Medio

F ratio

Total 5465 29 - -

Proveedor 207 2 103’5 0’532

Residual 5258 27 194’7 -

Riesgo de 1ª especie: α=0’05

Tabla: F2,27(5%) = 3’35 >> 0’532Aceptamos H0

¡NO HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES!

Page 37: UD 5 –Introducción a la Inferencia Estadística

Test F (p-value)

Distribucion F 2,27

x

den

sity

0 1 2 3 4 5

0

0,2

0,4

0,6

0,8

1

1,2

f=3,35

F-ratio=0,53

(P_value=0,59) > (α=0,05) Aceptamos H0

TEST F Comparando la P_value con α Gráficamente

α=0’05

2,27 ratio 2,27P(F F ) P(F 0,53

P _ value

)

0,59

≥ = ≥ =

= =

α 0,05=2,27/ P(F > f) = 0,05

Page 38: UD 5 –Introducción a la Inferencia Estadística

DEIOAC – Estadística – etsinfDEIOAC – Estadística – etsinf

Construcción Tabla resumen del ANOVA

Origen Variación

Suma de Cuadrados

Grados Libertad

Cuadrado Medio

F ratio

Total SCT glT - -

Factor SCF glF CMF=SCF/glF CMF/CMR

Residual SCR glR CMR=SCR/glR -

1) Establecer Riesgo de 1ª especie: α2) Buscar valor f en Tabla:

3) Comparar f con el F ratio

4) Aceptar o Rechazar H0 NO hay/SI hay diferencias significativas entre los tratamientos

αF Rgl ,glf / P(F > f) = α

Resolución del Test o contraste¡OJO!α NO se

divide por 2

Page 39: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

Analysis of Variance for EQUIDINA - Type III Sums of Squares--------------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value--------------------------------------------------------------------------------MAIN EFFECTS A:PROVEEDO 207,267 2 103,633 0,53 0,5934

RESIDUAL 5258,2 27 194,748--------------------------------------------------------------------------------TOTAL (CORRECTED) 5465,47 29

--------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.

Los resultados se sintetizan en la Tabla Resumen del Anova, proporcionada por Statgraphics

El p-value es superior a 0.05 � ¡el efecto delproveedor sobre la media del equilibrado dinámicoNO es significativo!, es decir es admisible la

H0: m1 = m2 = m3

Page 40: UD 5 –Introducción a la Inferencia Estadística

Contenidos

1. Idea Intuitiva del ANOVA

2. ANOVA con un sólo factor controlado

2.1. Un ejemplo

2.2. Descomposición de la Suma de Cuadrados.

Test F

2.3. Intervalos LSD

2.4. Análisis de residuos

3. ANOVA con más de un factor. Factores cuantitativos

4. Ejemplos y ejercicios

Page 41: UD 5 –Introducción a la Inferencia Estadística

Análisis de residuos

Tiene una gran importancia práctica completarcualquier análisis de datos reales con un estudio de los residuos de los datos. En estos residuos, se refleja el efecto de todos los factores no controlados que pueden haber afectado a los resultados obtenidos

El Statgraphics calcula los residuos automáticamente y permite guardarlos en una variable que por defecto denomina RESIDUALS

También proporciona diferentes representaciones gráficas de los mismos

Page 42: UD 5 –Introducción a la Inferencia Estadística

Análisis de residuos

El “cumplimiento” de las tres hipótesis básicas del ANOVA: Normalidad, Independencia, Homocedasticidad (igualdad de varianzas de las poblaciones) se puede “comprobar” a partir de diferentes tipos de análisis realizados sobre los residuos

Permite detectar datos anómalos o pautas de variabilidad sospechosas

Los residuos deben ser independientes, presentar distribución normal y tener de media 0. La varianza de los residuos es la varianza residual (CMR del ANOVA)

Page 43: UD 5 –Introducción a la Inferencia Estadística

Análisis de residuos

Residuos: diferencia entre cada dato y la media del tratamiento que se ha aplicado para obtener dicho datoObjetivo: Validar análisis previosEjemplo:

37 423 1− = −

91 7415 3' '− =Primer valor

observado del equilibrado

dinámico del prov. 1

Media del equilibrado dinámico de la

muestra del prov. 1

Residuo 1

El residuo de una observaciónrecoge el efecto que sobre dichaobservación han tenido todos losfactores no incluidos en elexperimento

Page 44: UD 5 –Introducción a la Inferencia Estadística

Análisis de residuos

Residual Plot for EQUIDINAR

ES

IDU

OS

PROVEEDOR

1 2 3

-60

-40

-20

0

20

40

60

Residual Plot for EQUIDINAR

ES

IDU

OS

PROVEEDOR

1 2 3

-60

-40

-20

0

20

40

60 Los residuos deben estar alrededor de cero, distribuidos más o menos de manera uniforme

Dato anómalo: la 5ª observación del prov. 1 debe ser 35, no 95

¡Una observación anómala puede invalidar por completo todas las conclusiones de un análisis!

Page 45: UD 5 –Introducción a la Inferencia Estadística

Estudiando los datos introducidos, con los que haoperado el programa, se observa que el 5º dato delproveedor 1 se ha introducido como 95, en vez de 35que era su valor correcto

Análisis de residuos

Si se vuelve a realizar el ANOVA ...

Factor estudiado PROVEEDOR

Variantes del factor 1 2 3

Resultados obtenidos

Equilibrado dinámico (grs)

23 35 50

28 36 43

21 29 36

27 40 34

35 43 45

41 49 52

37 51 52

30 28 43

32 50 44

36 52 34

Page 46: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores (sin dato anómalo)

Tabla resumen del ANOVA

Origen Variación

Suma de Cuadrados

Grados Libertad

Cuadrado Medio

F ratio

Total 2409’46 29 - -

Proveedor 871’26 2 435’6 7’64

Residual 1538’2 27 56’97 -

Riesgo de 1ª especie: α=0’05

Tabla: F2,27(5%) = 3’35 << 7’64Rechazamos H0

¡SI HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES!

Page 47: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores cigüeñales

Distribucion F 2,27

x

den

sity

0 1 2 3 4 5

0

0,2

0,4

0,6

0,8

1

1,2

3.35

α=0’05

Aceptación Rechazo

7’6

Rechazamos H0

TEST F (Gráficamente)

Page 48: UD 5 –Introducción a la Inferencia Estadística

Analysis of Variance for EQUIDINA - Type III Sums of Squares--------------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value--------------------------------------------------------------------------------MAIN EFFECTS A:PROVEEDO 871,267 2 435,633 7,65 0,0023

RESIDUAL 1538,2 27 56,9704--------------------------------------------------------------------------------TOTAL (CORRECTED) 2409,47 29

--------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.

Ejemplo Proveedores cigüeñalesSe recoge a continuación el cuadro resumen del ANOVA, obtenido una vez corregido el dato erróneo

Las conclusiones son ahora distintas, detectándose un efecto significativo estadísticamente (p-value = 0.0023) del factor Proveedor. (Obsérvese que un único dato anómalo, de un total de 30, había conducido en una FRatio catorce veces menor que la correcta)

Page 49: UD 5 –Introducción a la Inferencia Estadística

Comparación de medias Si el test F resulta significativo:

¿Es mejor el Proveedor 1 que el 2 y el 3?

¿Son mejores el 1 y el 2 que el 3, no habiendodiferencias entre los primeros?

...

Estudiar entre qué proveedores existendiferencias significativas

Un valor significativo de la Fratio sólo indicaría que almenos una de las tres medias difiere de lasrestantes, pero no precisa cuáles son las quedifieren entre sí

Comparación de medias

Page 50: UD 5 –Introducción a la Inferencia Estadística

Intervalos LSD (Least Signficative Difference) son intervalos para la media de cada tratamiento.

Intuitivamente, se calculan como la mitad del intervalo de confianza para la diferencia de medias, pero no corresponde a un intervalo de confianza para las medias.

Interpretación práctica:

Comparación de medias. Intervalos LSD

La diferencia entre la media de dos tratamientos no será significativa si los respectivos

intervalos LSD se solapan.

Page 51: UD 5 –Introducción a la Inferencia Estadística

Intervalos LSD

¿Entre qué proveedores existen diferencias significativas con respecto al equilibrado dinámico?

Means and 95,0 Percent LSD Intervals

PROVEEDOR

EQ

UID

INA

1 2 3

27

31

35

39

43

47

Means and 95,0 Percent LSD Intervals

PROVEEDOR

EQ

UID

INA

1 2 3

27

31

35

39

43

47

Los intervalos se solapan: entre los prov 2 y 3 no hay diferencias significativas del eq. dinámico

Pero entre el prov. 1 y el 2 ó el 3 si hay diferencias significativas

27'53,34'47

37'83,44'77

39'83,46'77

Page 52: UD 5 –Introducción a la Inferencia Estadística

Ejemplo Proveedores (con dato anómalo)

Means and 95,0 Percent LSD Intervals

PROVEEDOR

EQ

UID

INA

1 2 3

30

32

34

36

38

40

42

44

46

48

50

¿Entre que tratamientos existen diferencias significativas con respecto al equilibrado dinámico?

Los 3 intervalos se solapan: no hay diferencias significativas del eq. dinámico entre los proveedores

Page 53: UD 5 –Introducción a la Inferencia Estadística

Análisis de residuos

1 2 3

Residual Plot for EQUIDINA

-14

-9

-4

1

6

11

16

resi

dual

PROVEEDOR

1 2 3

Residual Plot for EQUIDINA

-14

-9

-4

1

6

11

16

resi

dual

PROVEEDOR

Page 54: UD 5 –Introducción a la Inferencia Estadística

Contenidos

1. Idea Intuitiva del ANOVA

2. ANOVA con un sólo factor controlado

2.1. Un ejemplo

2.2. Descomposición de la Suma de Cuadrados.

Test F

2.3. Intervalos LSD

2.4. Análisis de residuos

3. ANOVA con más de un factor. Factores cuantitativos

4. Ejemplos y ejercicios

Page 55: UD 5 –Introducción a la Inferencia Estadística

Ejemplo 2: ANOVA con 2 factores

Objetivo: analizar el efecto que sobre el tiempomedio de respuesta de un sistema informático tienen dos factores :

Factor cualitativo: FICHEROS con 3 variantescodificadas como 1, 2 y 3 I=3

Distribución de los ficheros en los discos.

Factor cuantitativo: BUFFERS con 3 niveles10, 20, 30 J=3Número de buffers en el sistema.

Page 56: UD 5 –Introducción a la Inferencia Estadística

Tratamientos y pruebas

Cada uno de los 9 tratamientos (9 combinaciones posibles) se ha probado 2 veces N=2

Plan Factorial Equilibrado y replicado

Cada prueba consistió en un día completo: obteniéndose los tiempos medios de respuesta evaluados para un proceso estándar consistente en la

compilación de un determinado programa en lenguaje C.

Los resultados se recogen en la siguiente tabla:

Page 57: UD 5 –Introducción a la Inferencia Estadística

Resultados

BUFFERS

10 20 30

1 2’72’4

2’02’2

1’81’6

2 3’13’2

2’72’5

2’21’9

3 3’73’9

2’93’2

3’53’8

FICH

ERO

S

Page 58: UD 5 –Introducción a la Inferencia Estadística

Sumas de Cuadrados y g.l.

FicherosSC 5= '914(nº de variantes – 1) ↔

(I – 1)=(3-1)=2 g.l.

BuffersSC 1= '688(nº de niveles– 1) ↔

(J – 1)=(3-1)=2 g.l.

Suma de Cuadrados Total SCT=8'74

(nº de datos– 1) ↔ (IxJxN – 1)=(3x3x2 - 1)=17 g.l.

Suma de Cuadrados Factores

Page 59: UD 5 –Introducción a la Inferencia Estadística

Sumas de Cuadrados y g.l.

=FicherosxBuffersSC 0'875

(I – 1)x(J – 1) ↔ (3-1)x(3-1) = 2x2 = 4 g.l.

Suma de Cuadrados Interacción

SC Factor i x Factor j = SCFixFj

… Más adelante veremos con más detalle qué representan las interacciones entre factores.

Page 60: UD 5 –Introducción a la Inferencia Estadística

Sumas de Cuadrados y g.l. Suma de Cuadrados Residual

pResidual El fTotaSC SC-S =C

Residual =8'74-(5'914+1'568+0'875)=SC 0'265

SCT 18-1=17 g.l. SCFICHEROS 3-1=2 g.l. SCBUFFERS 3-1=2 g.l. SCFICHxBUFF 2x2=4 g.l.

8 g.l

SCR 17-8=9 g.l. Suficientes

Los g.l de los que disponemos serían:

Page 61: UD 5 –Introducción a la Inferencia Estadística

Tabla Resumen del ANOVAOrigen

VariaciónSC g.l. CM F

ratioF_tabla α=0’05

Total 8’743

FICHEROS 5’914

BUFFERS 1’688

FICHxBUFF 0’876

Residual

Page 62: UD 5 –Introducción a la Inferencia Estadística

Tabla Resumen del ANOVAOrigen

VariaciónSC g.l. CM F

ratioF_tabla α=0’05

Total 8’743 17 - -

FICHEROS 5’914 2 2’957 100’433 4’26 = F2,9

BUFFERS 1’688 2 0’844 28’66 4’26 = F2,9

FICHxBUFF 0’876 4 0’219 7’437 3’63 = F4,9

Residual 0’265 9 0’029

>>>

• Los efectos simples de FICHEROS y BUFFERS resultan significativos, pues su Fratio es mayor que el valor en tablas de una F2,9

(α=0,05) .

• Por el mismo motivo, también es significativo el efecto de la interacción FICHEROSxBUFFERS (F4,9

α)

Page 63: UD 5 –Introducción a la Inferencia Estadística

Means and 95,0 Percent LSD Intervals

FICHEROS

TM

RE

SP

1 2 3

2

2,2

2,4

2,6

2,8

3

3,2

3,4

3,6

3,8

Análisis efecto FICHEROS: Intervalos LSD

1X 2'116=

2X 2'6=

3X 3'5=

Para el promedio de BUFFERS ensayados, con la distribución de FICHEROS 1 se obtienen Tiempos medios de Respuesta significativamente menores que para la distribución 2, y a su vez para ésta se tienen Tiempos de Respuesta significativamente más pequeños que para la configuración 3.

Page 64: UD 5 –Introducción a la Inferencia Estadística

Means and 95,0 Percent LSD Intervals

FICHEROS

TM

RE

SP

1 2 3

2

2,2

2,4

2,6

2,8

3

3,2

3,4

3,6

3,8

Efecto simple de un factor

El efecto simple de un factor se define sobre el promedio de las condiciones estudiadas de los restantes factores

1X 2'116=

2X 2'6=

3X 3'5=

=X 2'74

Media general

= − == − =

F3 3X

3,

X

2,745

Ef

0,76

El efecto simple de la distribución de FICHEROS 3 hace aumentar el Tiempo MEDIO DE RESPUESTA en 0,76

Page 65: UD 5 –Introducción a la Inferencia Estadística

Efecto de la interacción doble

Cuando se estudia más de un factor, aparece el concepto de INTERACCIÓN.

• Puede ser doble, triple, etc, según sea entre dos, tres, … factores. El estudio de interacciones de orden superior a 3 son difíciles de interpretar y rara vez tienen sentido.

• Aparece cuando el efecto de un determinado factor es diferente según el nivel (o variante) considerada del otro factor.

Page 66: UD 5 –Introducción a la Inferencia Estadística

Ejemplos de efectos simples e interacciones dobles

Factor A- +

B a nivel -

B a nivel +

Resultado

A Bx + +

A Bx + −

A Bx − +

A Bx − −

A no tiene efecto B tiene efectoNo hay interacción

Resultado

Factor A- +

A Bx + −

A Bx + +

A Bx − +

A Bx − −

A tiene efecto B tiene efectoNo hay interacción

A tiene efecto B tiene efectoLigera interacción

Fuerte interacción(carece de sentido hablar de efectos simples)

Resultado

Factor A- +

A Bx + −

A Bx + +

A Bx − +

A Bx − −

Factor A- +

Resultado

A Bx + +

A Bx + −

A Bx − +

A Bx − −

Page 67: UD 5 –Introducción a la Inferencia Estadística

Efecto de la interacción doble

El efecto de la interacción existe porque el efecto del factor Buffers es distinto para las diferentes variantes de ficheros

Interaction Plot

BUFFERS

1,6

2

2,4

2,8

3,2

3,6

4T

MR

ES

P

10 20 30

FICHEROS123

Page 68: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos: Introducción

Factores Cualitativos Cuantitativos

Factores cualitativos: Tipo de procesador en cierto sistema

Tipo de procedimiento de análisis utilizado en determinado laboratorio

Tipo de proveedor del cableado de red

Tipo de material utilizado en la fabricación de cierto producto

Topología de la red

.......

Page 69: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos: Introducción

Factores Cualitativos Cuantitativos

Factores cuantitativos: Tamaño de la memoria caché Cantidad de abono utilizado en cierto cultivo Velocidad de agitación de una mezcla en un proceso

químico Cantidad de pegamento utilizado en un proceso de

adhesivado Nivel de carga de un sistema informático Número de procesadores en un multicomputador Nivel de presión ejercida en cierto proceso ...........

Page 70: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos : Introducción

Factores cuantitativos: si su efecto resulta significativo en el ANOVA ……

No tiene sentido comprobar entre qué niveles del factor existen diferencias significativas

Sino si se observa algún tipo de pautas en esas diferencias

Interesa estudiar la naturaleza del efecto del factor sobre la media de la vble. respuesta

Page 71: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos

EJEMPLO: Estudio de PRESTACIONES de un multicomputador

• Analizar la LATENCIA de los mensajes de una red deinterconexión en función del TRÁFICO (tasa deinyección de mensajes) de esa red.

• Se ensayan 4 ó 5 niveles de tráfico diferentes y semide la latencia media. ANOVA: TRÁFICOsignificativo.

Cuestión Clave:

¿Existen diferencias significativas en la LATENCIA MEDIA de los mensajes con “poco” y “mucho”

TRÁFICO?

Page 72: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos

EJEMPLO: Estudio de PRESTACIONES de un multicomputador

• Analizar la LATENCIA de los mensajes de una red enfunción del TRÁFICO (tasa de inyección de mensajes)de esa red.

• Se ensayan 4 ó 5 niveles de tráfico diferentes y semide la latencia media. ANOVA: TRÁFICOsignificativo.

Cuestión Clave:

¿Cómo evoluciona la LATENCIA MEDIA de los mensajes a medida que aumenta o disminuye el

nivel de TRÁFICO?

DEIOAC – EST

Page 73: UD 5 –Introducción a la Inferencia Estadística

Es obvio que a medida que aumenta el tráfico también aumenta la latencia media, pero cómo ...

¿En la misma proporción a medida que

aumenta el el nivel de TRÁFICO?

EFECTO LINEAL

Tráfico

Latencia media

EJEMPLO: Estudio del TRUOGHPUT

A medida que aumenta el el nivel de TRÁFICO, ¿son mayores los incrementos

de la latencia media?

EFECTO CUADRÁTICO

Tráfico

Latencia media

Page 74: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos

EJEMPLO: Estudio de PRESTACIONES de un multicomputador

• Es obvio que a medida que aumenta el tráfico también aumenta la latencia media, pero cómo ...

A medida que aumenta el nivel de

TRÁFICO, ¿son menores los

incrementos de la latencia media?

EFECTO CUADRÁTICOTráfico

Latencia media

Page 75: UD 5 –Introducción a la Inferencia Estadística

EJEMPLO: Buffers y Ficheros

No tiene sentido decir que para 10 buffers el TM de Respuesta es mayor y que entre 20 y 30 buffers no hay diferencia, obteniéndose los menores TM de respuesta (aunque se ha de tener en cuenta).

10 20 30

Means and 95,0 Percent LSD Intervals

BUFFERS

2,2

2,4

2,6

2,8

3

3,2

3,4

TM

RE

SP

Lo importante es si se aprecia o no una posible relación lineal o cuadrática para, en el caso de que ésta fuera significativa, obtener la expresión matemática correspondiente y obtener el número óptimo de ficheros, que puede ser no se haya contemplado en el experimento.

Page 76: UD 5 –Introducción a la Inferencia Estadística

NOTA sobre Condiciones Operativas Óptimas¿Qué número de buffers y qué protocolo se deberían usar para que el TM de Respuesta fuera el menor?

Interactions and 95,0 Percent LSD Intervals

BUFFERS

1,5

1,7

1,9

2,1

2,3

2,5

2,7

2,9

3,1

3,3

3,5

3,7

3,9

4,1

TM

RE

SP

10 20 30

FICHEROS123

COO

Nº buffers = 30

Distribución de Ficheros = 1 o 2

Pero entre la distribución de Ficheros 1 y 2 NO hay diferencias

significativas

Cuanto menor, mejor

Page 77: UD 5 –Introducción a la Inferencia Estadística

Fact. cuantitativos. Combinación de efectos

ZCuadrática

<0 0 >0

ZLineal

<0

0

>0

Page 78: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos: Ejemplo1

Con el fin de estudiar el comportamiento de unsistema informático, y tratar de minimizar eltiempo medio de utilización de CPU, se hallevado a cabo un experimento para conocer laposible influencia que la carga pueda tener sobredicho tiempo.

Se han ensayado 3 niveles de carga (50, 100 y 150Mflops/seg.) y se ha medido el tiempo medio deutilización de CPU en segundos. Cada tratamientose ha probado 5 veces en diferentes ejecuciones .

Los resultados del experimento se recogen en lasiguiente tabla:

Page 79: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos: Ejemplo1

Factor: Carga Niveles: 3 (50, 100 y 150 Mflops/seg) Variable respuesta:Tiempo medio de Utilización CPU (seg)

CARGA (Mflops/s)50 100 15038 54 63

40 47 65

42 52 57

37 53 58

43 49 62

T1= 200 T2= 255 T3= 305 TG=760

140=X

251X = 3

61X =

Page 80: UD 5 –Introducción a la Inferencia Estadística

Objetivo: estudiar si el factor CARGA afecta a lavariable respuesta “Tiempo medio de utilización

de CPU”

Factores cuantitativos: Ejemplo1

0 50 100 150

1 50 100 150i j

H : m m m

H : i, j ;i j / m m i, j : , ,

= = ∃ ≠ ≠

Hipótesis a contrastar:

ANOVA

Page 81: UD 5 –Introducción a la Inferencia Estadística

2 2

2

,

2

1

76038506,67

15

1209,33

1103,33

106

ij

i j

Ii

i i

TG

N

x

SG

SG

SGT

SCT

SN

SC

CF

FR TC SCS

=

= = =

= − =

= − =

= − =

Factores cuantitativos: Ejemplo1

1103,33551,66

2

1068,83

12

551,66_ 62,45

8,8_

3

SC SCFCM

gl glF

SCR

glR

CMFF ratio

CMR

CMF

CMR

F ratio

= = = =

= = =

= = =

Page 82: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos: Ejemplo1

Tabla resumen del ANOVA

Origen Variación

Suma de Cuadrados

Grados Libertad

Cuadrado Medio

F ratio

Total 1209’33 14 - -

CARGA 1103’33 2 551’66 62’45

Residual 106 12 8’83 -

Riesgo de 1ª especie: α=0’05

Tabla: F2,12(5%) = 3’88 << 62’45Rechazamos H0

¡SÍ HAY DIFERENCIAS SIGNIFICATIVAS ENTRE LOS NIVELES DE CARGA!

Page 83: UD 5 –Introducción a la Inferencia Estadística

50 100 150

Medias y 95,0% de Fisher LSD

CARGA

37

42

47

52

57

62

67

TC

PU

Factores cuantitativos: Ejemplo1

A medida que aumenta la CARGA el tiempo medio de utilización de CPU crece linealmente.

Page 84: UD 5 –Introducción a la Inferencia Estadística

Factores cuantitativos: Ejemplo1

A medida que aumenta la CARGA el tiempo medio de utilización de CPU crece linealmente.

Carga

Tiempo CPU

Page 85: UD 5 –Introducción a la Inferencia Estadística

Contenidos

1. Idea Intuitiva del ANOVA

2. ANOVA con un sólo factor controlado

2.1. Un ejemplo

2.2. Descomposición de la Suma de Cuadrados.

Test F

2.3. Intervalos LSD

2.4. Análisis de residuos

3. ANOVA con más de un factor. Factores cuantitativos

4. Ejemplos y ejercicios

Page 86: UD 5 –Introducción a la Inferencia Estadística

Ejercicios

A continuación tienes dos ejercicios adicionales a

las explicaciones de esta tercera parte de la Unidad

Didáctica 5.

Intenta responder a las diferentes preguntas que

se plantean en los dos ejercicios.

Recuerda que puedes consultar ejercicios resueltos

de ANOVA, tanto en el documento de Ejercicios

resueltos UD5_3 como en los diferentes exámenes

resueltos de la asignatura que se encuentran en la

carpeta de Recursos de PoliformaT.

No te olvides aclarar las posibles dudas con tu

profesor.

Page 87: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1

Con el objeto de analizar el comportamiento de los sistemas

de memoria caché en un tipo de multiprocesador se plantea

llevar a cabo un estudio de la influencia de dos de las

características más importantes de estos sistemas (Nº de

procesadores y protocolo) sobre las prestaciones de los

mismos (3 niveles y 3 variantes).

Cada uno de los 9 tratamientos se ensayó 3 veces,

midiéndose en cada prueba la tasa de fallos (%) de los

sistemas de memoria producida por la ejecución de un

determinado programa tipo.

Los datos obtenidos se recogen en la siguiente tabla:

Page 88: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1

CPU’s

Para mantener la coherencia entre las memorias necesitamos

un protocolo

Page 89: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1

PROTOCOLO (PROT)

MSI MESI DRAGON

DE

PR

OC

ES

AD

OR

ES

(NP

RO

)

2

25,80 30,00 35,25

26,25 32,25 33,17

24,60 33,75 37,01

4

32,40 40,05 48,45

28,80 37,35 47,70

30,90 37,05 45,75

6

19,05 20,10 14,70

15,60 19,95 16,65

14,70 21,90 20,10

DATOS ADICIONALES

SCT = 2601,63

SCPROT = 376,06

SCPROTxNPRO = 212,62

CMNPRO = 976,62

Page 90: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1

a) ¿Cuál es la variable respuesta?, ¿cuáles son losfactores?, indica de qué tipo son.

b) Construye la tabla resumen del ANOVA e indicaqué efectos han resultado significativos y por qué(α=0,05). Explica los cálculos realizados.

c) Analiza el efecto del tipo de protocolo utilizadomediante los intervalos LSD que se acompañan, eindica qué porcentaje de fallos se ha obtenido, enpromedio, para cada variante.

Page 91: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1d) Estudia la naturaleza del efecto del número de

procesadores a nivel descriptivo mediante loscorrespondientes gráficos de medias. ¿Existenindicios de una posible relación lineal o cuadrática(positiva o negativa) entre el porcentaje de fallosde los sistemas de memoria y el número deprocesadores? Justifica la respuesta.

e) Interpreta gráficamente los gráficos de lainteracción entre el tipo de protocolo y el númerode procesadores.

Page 92: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1: Tabla Resumen del ANOVA

109

Source Sum of Squares Df Mean Square F-Ratio P-Value

MAIN EFFECTS

A:NPRO 1953,24 2 976,62 294,41 0,0000

B:PROT 376,06 2 188,03 56,68 0,0000

INTERACTIONS

AB 212,619 4 53,2287 16,02 0,0000

RESIDUAL 59,7099 18 3,3172

TOTAL

(CORRECTED) 2601,63 26

OrigenVariación

SC g.l. CM Fratio

F_tablaα=0’05

Total 2601,63 - -

NPROC 976,62 = F

PROTO 376,06 = F

NPROxPROT 212,62 = F

Residual

Page 93: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1: Intervalos LSD

PROTOCOLO

DRAGON MESI MSI

Medias y 95,0% de Fisher LSD

23

25

27

29

31

33

35

Tasa_fa

llo

s

Para el promedio del número de procesadores estudiados, existendiferencias significativas en el promedio de la tasa de fallosresultante con los tres protocolos analizados.

A falta de estudiar la interacción, el protocolo MSI proporciona unvalor de la tasa de fallos significativamente más bajo que losotros dos protocolos.

Page 94: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1: Intervalos LSD

Nº PROCESADORES

2 4 6

Medias y 95,0% de Fisher LSD

17

21

25

29

33

37

41T

asa_fa

llo

s

A medida que aumenta el número de procesadores (y para elpromedio de los protocolos analizados) aumenta la tasa promedio defallos y luego disminuye, dando lugar a una tendencia o pautacuadrática negativa.

A falta de estudiar la interacción, trabajar con 6 procesadores conducea un valor medio de la tasa de fallos significativamente menor.

Page 95: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1: Interacción doble

Nº PROCESADORES

Interacciones y 95,0% de Fisher LSD

10

20

30

40

50

Tasa_fa

llo

s

2 4 6

PROTODRAGONMESIMSI

El paso de 4 a 6 procesadores proporciona una disminución en la tasamedia de fallos más marcada con el protocolo DRAGON que con los otrosdos protocolos analizados. En estos dos últimos, el comportamiento de latasa promedio de fallos conforme aumenta el número de procesadores esmuy similar, proporcionando MSI en todos los casos valores más bajos dela tasa de fallos.

Sería adecuado trabajar con 6 procesadores y el protocolo MSI con el finde reducir la tasa media de fallos.

Page 96: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 1: Interacción doble

PROTOCOLO

Gráfico de Interacciones

16

26

36

46

56

Tasa_fa

llo

s

DRAGON MESI MSI

NPRO246

Nº PROCESADORES

Gráfico de Interacciones

16

26

36

46

56

Tasa_fa

llo

s

2 4 6

PROTODRAGONMESIMSI

Page 97: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 2

Se ha llevado a cabo un diseño de experimentos con el

objeto de conocer la posible influencia de dos tipos de

puerto de conexión (codificados como A y B) y de tres

niveles de memoria RAM (64, 128 y 192), sobre los

tiempos medios de transmisión de un servidor. Los

resultados del experimento, expresados en segundos por

Mb de información, son los que se indican a continuación:

RAM

64 128 192

Conexión

A

5,462

5,769

5,615

3,308

3,923

4,231

2,692

2,923

3,077

B

6,154

6,538

6,077

5,231

5,307

5,538

4,307

4,615

4,692

Page 98: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 2

a) Realizar un ANOVA para estudiar qué efectosresultan significativos sobre el tiempo medio detransmisión del servidor, teniendo en cuenta losdos factores en estudio y su interacción (α=0,1).

NOTA: SCT= 24,0078; SCCONX=7,295;CMRAM=7,493; CMR=0,0683.

b) Indicar cuál de los dos tipos de puerto resultamás interesante. Justifica el procedimientoutilizado para llegar a la decisión adoptada.

Page 99: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 2

c) Estudia la naturaleza del factor memoria anivel descriptivo mediante los correspondientesgráficos de medias. ¿Existen indicios de unaposible relación lineal o cuadrática (positiva onegativa) entre el tiempo medio de transmisióny el tamaño de memoria? Justifica la respuesta.

d) Interpreta gráficamente los gráficos de lainteracción entre el tipo de conexión y eltamaño de memoria.

e) ¿Con qué tipo de conexión y cantidad de RAM sedebería trabajar con el fin de obtener el menortiempo medio de transmisión?. Justifica larespuesta.

Page 100: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 2: Tabla Resumen del ANOVA

117

OrigenVariación

SC g.l. CM Fratio

F_tablaα=0’05

Total 24,0078 - -

CONX 7,295 = F

RAM 7,493 = F

CONXxRAM = F

Residual 0,0683

Page 101: UD 5 –Introducción a la Inferencia Estadística

Ejercicio 2Means and 90,0 Percent LSD Intervals

CONX

TM

TR

AN

SM

A B

4

4,3

4,6

4,9

5,2

5,5

Means and 90,0 Percent LSD Intervals

RAM

TM

TR

AN

SM

64 128 192

3,5

4

4,5

5

5,5

6

6,5

Interaction Plot

RAM

TM

TR

AN

SM

CONXA

B

2,8

3,8

4,8

5,8

6,8

64 128 192