Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos...

32
Capítulo 9 Experimentos con un factor 1. Introducción al diseño de experimentos 2. El modelo 3. Estimación de los parámetros 4. Análisis de la varianza 5. Análisis de las diferencias entre medias 6. Diagnosis 0 Apuntes realzados por el Profesor Ismael Sánchez para la asignatura: Métodos Estadísticos para la Mejora de la Calidad, de la titulación de Ingeniería de Telecomunicaciones. Universidad Carlos III de Madrid 1

Transcript of Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos...

Page 1: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

Capítulo 9

Experimentos con un factor

1. Introducción al diseño de experimentos

2. El modelo

3. Estimación de los parámetros

4. Análisis de la varianza

5. Análisis de las diferencias entre medias

6. Diagnosis

0Apuntes realzados por el Profesor Ismael Sánchez para la asignatura: Métodos Estadísticos para la Mejora dela Calidad, de la titulación de Ingeniería de Telecomunicaciones. Universidad Carlos III de Madrid

1

Page 2: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

2 Experimentos con un factor

9.1. Introducción al diseño de experimentosEn este capítulo estudiaremos los fundamentos del análisis estadístico de datos que proceden

de un experimento. Por experimento, nos referimos a su definición clásica en el ámbito científico;es decir, la observación o determinación voluntaria de un fenómeno, o variable respuesta, endeterminadas condiciones, como medio de aprendizaje. El objetivo del análisis estadístico serádeterminar qué variables influyen en la variable respuesta del experimento y cuáles no. Estasvariables de las que deseamos saber si afectan o no a la variable respuesta les denominaremosfactores, variables explicativas, o simplemente variables de entrada. A la variable respuestatambién se le denomina variable dependiente (dependiente de los factores). A los diferentesvalores que puede tomar un factor se les denominará niveles.Bajo esta definición de experimento pueden englobarse multitud de estudios posibles. Un as-

pecto importante de esta definición es que el objetivo es el aprendizaje por medio de la ob-servación, como contraposición del aprendizaje meramente teórico a partir de leyes o principiosmatemáticos, físicos o químicos. Ambas formas de aprendizaje (experimental o teórica) son com-plementarias. Los fenómenos reales son mucho más complejos de lo que son capaces de describir losmodelos teóricos, basados en ambientes ideales y perfectos. De esta forma, el aprendizaje teóricopuede servir como punto de partida para acercarse al conocimiento de un fenómeno, mientas queel aprendizaje experimental ayuda a conocer en más detalle dicho fenómeno en un entorno realconcreto.La experimentación es uno de los principales métodos de aprendizaje a partir de la observación.

Su principal rasgo es que existen una serie de condiciones que el experimentador o analista controla.Es decir, el experimentador tiene el control de un conjunto (grande o pequeño) de factores. Deesta forma, el experimentador puede observar qué cambios se producen en la variable respuestaal manipular intencionadamente los valores de los niveles de los factores. Esta secuencia deacciones: cambios intencionados en los niveles de los factores y observación de cambios producidosen la variable respuesta, es la que permite establecer relaciones causa-efecto. Lo contrario deun experimento o estudio experimental es un estudio observacional (que también recibeel nombre de encuesta, no necesariamente de personas), en la que el analista sólo observa los datossin influir sobre ninguno ellos. En los estudios observacionales, el analista no tiene ningún controlsobre ninguno de los factores. No existe por tanto la manipulación de los factores y por tanto noes fácil establecer relaciones causa-efecto.Existirán muchas circunstancias que sólo permitan el estudio de datos meramente observa-

cionales, como el estudio de las galaxias a partir de los datos suministrados por los astrónomos,el comportamiento de los primeros homínidos a partir de restos arqueológicos, o el análisis demovimientos sociales a partir de estudios demográficos y socio-económicos. En ingeniería, sin em-bargo, la realización de experimentos no solo será posible sino que será una herramienta muypotente de aprendizaje. En muchas circunstancias será la única forma de conocer un fenómeno,como en el caso de análisis de las propiedades de nuevos productos o del diseño de modificacionessobre sistemas complejos.

9.1.1. Clasificación de los experimentos

Los diferentes tipos de experimentos se pueden clasificar atendiendo a muchos criterios. De caraal desarrollo de este tema, es útil clasificar los experimentos según los siguientes grupos:

Experimentos para la selección de factores (variable screening): Si hay un número

Page 3: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.1 Introducción al diseño de experimentos 3

grande de factores a analizar y se piensa que sólo un numero reducido de los mismos seránrealmente importante, un experimento de selección de factores puede ayudarnos a discriminarlas variables importantes de las poco relevantes. Nótese que el objetivo no es saber en quémedida o de qué forma influyen los factgores, sino sólo si influyen o no. En este tipo deestudios, y puesto que se manejan muchos factores, suele existir una importante restriccióneconómica, por lo que el énfasis se pondrá en la obtención de conclusiones a partir delmenor número de datos posible. Una vez reconocidas las variables importantes, puedeampliarse la toma de datos concentrándose sólo en dichos factores significativos. Por estarazón, los factores que se introducen en este estudio de selección suelen tomar muy pocosvalores distintos, siendo lo más habitual el que tomen sólo dos posibles valores (con/sin ciertoatributo, nivel alto/nivel bajo del factor, etc).

Experimentos para la comparación de tratamientos: En este tipo de experimentos,se quieren detectar diferencias entre los distintos niveles de uno o más factores. Por ejemplo,qué tipo de material de entre 3 diferentes es el más resistente, qué componente electrónicode entre 5 tecnologías alternativas es más fiable. En este tipo de estudios, los factores tomanun número discreto de valores. Puede analizarse un solo factor o varios simultáneamente.Si hay un solo factor, a sus niveles se les denomina tratamientos. Si hay varios factores, eltratamiento será cada una de las combinaciones de los niveles.

Superficies de respuesta: Una vez que se han identificado los factores que ejercen un efectosifgnificativo en la variable respuesta, la siguiente tarea es analizar cómo es esa relación, espe-cialmente si los factores son variables continuas. Para ello se toma un mayor número de datosy se estima la función matemática que mejor aproxime dicha relación. A esta relación entrelos factores y la variabe respuesta se suele denominar superficie de respuesta. Normalmenteel análisis consiste en estimar funciones lineales o cuadráticas.

9.1.2. Naturaleza de los datos

Los datos para el análisis pueden recogerse de muchas maneras, pero fundamentalmente sepueden establecer dos tipos de datos según su forma de obtención: datos observacionales y datosexperimentales. En un experimento habrá datos de ambos tipos.

Datos observacionales: Son los datos que se recogen de forma pasiva. Simplemente obser-vamos un proceso o a un conjunto de individuos y esperamos a que se genere la información.Las principales características de los datos observacionales son:

1. El investigador no ejerce ningún control sobre dicha variable.

2. Los valores que toman la variable son conocidos por el analista después de haber selec-cionado a los individuos a analizar, es información ’a posteriori’. El analista no puededeterminar el valor de la variable. A lo sumo puede hacer una selección de aquellasobservaciones que tuvieron determinados valores con vistas a especializar su estudio.Obviamente, la variable respuesta será siempre un dato observacional.

Por ejemplo, cuando se realiza la inspección de artículos manufacturados para ver si son o nodefectuosos se toman datos observacionales: se toman artículos al azar y se miden las carac-terísticas de interés. El hecho de que sean datos observacionales hace que sea difícil encontrarlas razones de por qué un artículo es defectuoso o no. Si hemos tomado información de otras

Page 4: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

4 Experimentos con un factor

variables y las analizamos conjuntamente podremos relacionarlas y extraer conclusiones so-bre qué factores pudieron hacer que el artículo fuese defectuoso. Pero pudiera ser que dichoanálisis no nos revelase nada de interés y que la variable que haya provocado que los artícu-los sean defectuosos no haya sido medida. También resultaría difícil establecer relaciones decausalidad entre unas variables y otras. El que dos sucesos sean observados conjuntamenteno necesariamente implica causalidad. Esta dificultad para establecer relaciones causa-efectoconcluyentes es el principal inconveniente de los datos observacionales. No hay nada maloen analizar variables exclusivamente mediante datos observacionales, y en muchas ocasionesserá la única forma de obtener información, pero se ha de ser consciente de sus limitacionesa la hora de extraer conclusiones. Pudiera ser que las variables importantes no hayan sidoregistradas, o el rango de variación de las variables observadas no sea lo bastante ampliocomo para poder establecer alguna relación.

Datos experimentales: Son aquellos cuyo valor los fija el experimentador. El analista ma-nipula deliberadamente los valores del factor con el fin de poder establecer una relaciónde causalidad entre dicho factor y la variable respuesta. El analista también consigue deesta forma aquellos valores en los que está interesado. La principal ventaja de los datos ex-perimentales es que es más fácil establecer relaciones de causalidad entre las variables, puesel analista puede observar la evolución de los resultados a medida que va manipulando losfactores. La capacidad de poder elegir los valores de las variables que interesen hace que senecesiten menos datos para sacar conclusiones que si se usase datos observacionales. Hay portanto una clara ventaja económica en este tipo de datos. La necesidad de economizara la hora de recoger datos es muy importante en ingeniería, pues los costes de manipularprocesos industriales o realizar ensayos de laboratorio pueden ser muy elevados. Otra ventajade los datos experimenales es que permiten provocar situaciones de interés que difícimentepuedan observarse en la realidad o que se precise de demasiado tiempo de observación. Aveces, un experimento será la única forma de obtener información, como sucede en el diseñode nuevos productos o modificaciones en el diseño de productos existentes. De nuevo, estetipo de situaciones son las que interesan en ingeniería.

9.1.3. Ejecución de un experimento

El objetivo de un experimento será determinar si hay alguna relación causa-efecto entre los fac-tores y la variable respuesta, así como determinar qué valor de los factores son los más adecuados.Por tanto, las condiciones ideales de un experimento es que todas las variables (salvo la variablerespuesta) estén controladas y generen datos experimentales. En la práctica es imposible que todoslos datos que se posean de los factores sean experimentales pues es imposible controlarlo todo. Lacalidad de un experimento se puede entonces medir por la influencia de los factores no controlados.Un experimento será tanto mejor cuanto menos importantes sean los factores no controladas, deforma que la relación causa-efecto entre los factores importantes y la variable respuesta se puedamedir más claramente. Las técnicas que vamos a estudiar son aplicables tanto si los datos sonexperimentales como observacionales. No obstante, las técnicas que se presentarán están encam-inadas a usar el mínimo número de datos posible y a determinar los niveles de los factores queproporcionan valores de la variable respuesta óptimos, por lo que su entorno natural de aplicaciónson los experimentos.Hay dos principios fundamentales, entre otros, que debemos considerar en la ejecución de un

experimento: la replicación y la aleatorización.

Page 5: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.1 Introducción al diseño de experimentos 5

Replicación: es la aplicación de un mismo tratamiento a unidades experimentales diferentes.Por unidad experimental nos referimos a cada elemento genérico sobre el que experimen-tamos: persona, material, máquina, etc, que genera un valor de la variable respuesta. No debeconfundirse la replicación con la repetición. Repetición sería ejecutar el mismo tratamien-to sobre la misma unidad experimental. La variabilidad que hay entre las replicaciones esclaramente debida al conjunto de factores no controlados, por lo que un mayor número dereplicaciones mejorará la estimación de su magnitud. Al aumentar el número de replicacionestambién mejoramos las estimaciones del efecto del tratamiento. Las repeticiones, sin embar-go, tiene menor variabilidad que las replicaciones, pues sólo estarán recogiendo parte de laposible variabilidad inducida por los factores no controlados.

Aleatorización: la adjudicación de los tratamientos a las unidades experimentales deberealizarse al azar. Para ello ha de utilizarse algún procedimiento objetivo como por ejemplouna tabla de números aleatorios.

Denominaremos diseño de un experimento al conjunto de factores que vamos a manipular, porconsiderarlos los más relevantes, así como los valores (niveles) que consideraremos en cada caso, elnúmero de replicaciones y el plan de aleatorización. Puesto que el objetivo es minimizar el númerode datos, consideraremos que los factores toman un número pequeño de valores posibles (o al menosque dichos valores son suficientemente representativos del total de valores). Consideraremos tam-bién que la variable respuesta es una variable continua. En la práctica podemos tratar como si fuesecontinua a una variable discreta que toma muchos valores diferentes. En este tema estudiaremosel análisis de un experimento con un solo factor, mientras que en los temas siguiente analizaremosel efecto conjunto de varios factores. Veamos unos ejemplos que ilustren estas ideas.

Ejemplo 1:

Se desea saber si el material utilizado (factor) en el substrato de unas placas de circuito im-preso influye en la resistencia a la temperatura (variable respuesta). Para ello se poseen placas dediferentes materiales (niveles):

Fibra de vidrio: 6 unidades

Polietafluoretileno: 12 unidades

Resina epoxídica: 10 unidades

Se someten las placas a diferentes tratamientos a altas temperaturas en un horno de laboratorio,obteniéndose para cada placa el valor de un índice de resistencia térmica. A mayor valor del índicemayor es la resistencia térmica de la placa. Los valores obtenidos se muestran en la Tabla .Este estudio es un ejemplo de comparación de tratamientos. El análisis de estos datos nos

permitirá saber si el tipo de material tiene un efecto significativo en el índice de resistencia térmicay qué material es el más apropiado.

Puede verse en la Tabla 9.1 del ejemplo 1 que apenas hay valores iguales, incluso dentro de unmismo tipo de material. Esta disparidad de valores puede expresarse en términos de variablidad.El índice de resistencia a la temperatura no es constante, sino que tiene variabilidad. Las causasde dicha variabilidad pueden ser muchas:

Page 6: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

6 Experimentos con un factor

Indice de resistencia térmicaFibra de vidrio Polietafluoretileno Resina epoxídica

35 53 5423 41 4641 45 5742 43 4128 40 6251 49 71

36 4863 6340 6743 395242

Media 36.7 45.6 54.8Desv. Típica (corr) 10.17 7.46 11.05

ICμ(95 %) (26.0;47.3) (40.8;50.3) (46.9;62.7)

Cuadro 9.1: Indice de resistencia a la temperatura de placas de circuito impreso

La placas pueden tener grosores diferentes, aunque sean diferencias pequeñas.

Puede que los hornos que se utilizan en el experimento nunca alcancen exactamente la mismatemperatura.

La ubicación de las placas en el horno podría tener alguna influencia debido a efectos deconvección de aire.

Podría haber imprecisiones o errores en la recogida de la información.

El objetivo del análisis será averiguar si parte de esa variabilidad puede atribuirse al tipo desubstrato. Si conseguimos concluir que no todos los substratos son iguales, habrá que averiguarcuál, o cuáles, de ellos tiene ventaja significativa.

Ejemplo 2:

A un equipo de ingenieros de telecomunicaciones, especializado en técnicas de calidad, se leencarga la mejora del rendimiento de un multiplexor de 45 canales de 1.5 megabits (ver artículode Larry Seese, vicepresidente de ATT, pag. 35). Parte de las mejoras que se pretenden introducires un nuevo tipo de memoria fija (ver pag. 36 del mismo artículo). Se barajan cuatro tipos detecnología para dicha memoria (factor=tipo de memoria):

RAM estática (con circuitos lógicos tipo flip-flop) (SRAM).

RAM dinámica (más capacidad y menor consumo) (DRAM).

RAM no volátil de 16.384×1 bits (combina RAM estáticas y PROM borrables eléctricamente)(NVRAM-1)

RAM no volátil de 65.536×1 bits (NVRAM-2)

Para comparar estos tipos de memoria se somete el multiplexor a un protocolo de pruebas en ellaboratorio con cada tipo de memoria, computándose el tiempo total de ejecución de dichas tareas(variable respuesta). Un menor tiempo de ejecución será un argumento a favor (junto con el coste,

Page 7: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.1 Introducción al diseño de experimentos 7

Tiempo de ejecución del protocoloSRAM DRAM NVRAM-1 NVRAM-2149.24 129.26 60.67 51.18143.05 153.17 54.01 50.88141.67 173.35 63.34 49.31154.02 159.30 60.31 53.61159.62 180.50 58.69 63.56183.31 156.09 68.55 54.38129.57 178.83 72.69 61.72133.98 143.45 57.26 50.92164.64 132.42 60.96 54.63142.73 145.31 55.65 50.48

Media 150.18 155.17 61.21 54.06Desv. Típica (corr) 5.03 5.75 1.81 1.54

ICμ(95 %) (138.8;161.6) (142.2;168.2) (57.1;65.3) (50.6;57.6)

Cuadro 9.2: Indice de resistencia a la temperatura de placas de circuito impreso

fiabilidad y mantenimiento necesario) para decidir el tipo de memoria. Para cada tipo de memoriase poseen 10 pastillas que se prueban con el mismo multiplexor. Los tiempos totales de ejecuciónpara cada pastilla (en segundos) se encuentran en la tabla 9.2.

Este ejemplo es también una aplicación de comparación de tratamientos. El objetivo delanálisis será saber si el tipo de memoria tiene una influencia significativa sobre el tiempo de eje-cución y qué tipo de memoria es la más adecuada.

Al igual que en el ejemplo 1, los tiempos de ejecución del protocolo son distintos incluso dentrode cada tipo de memoria. El tiempo de ejecución tiene, por tanto, variabilidad. Dicha variabilidadestará originada por muchos factores, aparte del tipo de memoria empleada:

Dos pastillas de la mismo tipo de memoria pueden ser de distinto fabricante.

Incluso siendo del mismo fabricante, las pastillas no serán iguales debido a la variabilidadintrínseca del proceso de producción.

Habrá errores de medida en cada experimento.

La temperatura del multiplexor no será constante y eso podría influir en su rendimiento.

El objetivo del análisis será detectar si una parte significativa de dicha variabilidad viene ex-plicada por el tipo de memoria. En caso afirmativo, habrá que detectar si algún tipo de memoriaes significativamente mejor.

Comencemos con un análisis descriptivo de los datos. La Figura 9.1 representa la informacióndel ejemplo 1. ¿Qué sugieren estos gráficos? A simple vista, en lo que nos fijamos para comparar lostres niveles del factor es en sus valores medios, es decir, en sus medias muestrales. Será precisamenteesta idea de comparar los grupos mediante la comparación de sus medias el fundamento de nuestroanálisis estadístico. Vemos en ambos gráficos que el nivel medio en esta muestra de datos esdiferente. Parece que, en promedio, y en esta muestra, el substrato 3 tiene mayor valor medioque el substrato 2 y, a su vez, mayor que el substrato 1. En el gráfico box-plot puede verse quelas medias muestrales son distintas (cruces). Pero nuestro interés no está en detectar diferenciasen las medias de estas placas concretas, sino en las medias de las placas que se puedan usar en el

Page 8: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

8 Experimentos con un factor

1 2 3

Scatterplot by Level Code

23

33

43

53

63

73

Indi

ce d

e re

sist

enci

a té

rmic

a

Tipo de Substrato

Box-and-Whisker Plot

Substrato

Indi

ce d

e re

sist

enci

a té

rmic

a

1 2 323

33

43

53

63

73

Figura 9.1: Indice de resistencia térmica para cada tipo de substrato. Datos del ejemplo 1

futuro. En términos más estadísticos, el interés está en saber si las medias poblacionales sondiferentes, mientras que lo que vemos son sólo las medias muestrales. Estas medias muestralesno implican necesariamente que las medias poblacionales (las obtenidas con infinitas placas) seandiferentes, pues el valor de la media muestral depende del azar de la muestreo, es decir, de lasplacas concretas que hayamos seleccionado por azar.Puede decirse entonces que el índice de resistencia térmica de cada substrato es una variable

aleatoria que varía, para un mismo substrato, de placa en placa. La media poblacional en cadaplaca será un parámetro desconocido y lo que tenemos es sólo una estimación de dicha media(media muestral). El inferir cuánto valdrá una media poblacional μ a partir de una media muestraly es un problema que ya ha resuelto la estadística satisfactoriamente, y que has estudiado encursos anteriores de estadística. Por ejemplo, si sabemos que una variable aleatoria Y es normal,Y ∼ N(μ, σ2) su media muestral, Y , en una muestra de tamaño n variará de unas muestra a otras,pero lo hará según la distribución Y ∼ N(μ, σ2/n). Sabemos además que si n es grande (n>50) nisiquiera es necesario que Y sea normal para seguir utilizando que Y ∼ N(μ, σ2/n). De esta forma,aunque Y varíe de muestra en muestra sabemos mucho sobre sus valores posibles. Concretamente,somos capaces de dar un intervalo de confianza que contendrá a μ con una confianza dada 1− α.La Figura 9.2 muestra los intervalos de confianza al 95% para las medias poblacionales de cadatipo de sustrato. Estos intervalos están calculados mediante la formulación habitual, usando laexpresión

μi ∈½yi ± tni−1;α/2

si√ni

¾, (9.1)

donde μi es la media poblacional del índice de temperatura en el substrato de tipo i-ésimo, yi es lamedia muestral de los índices de temperatura observados con el substrato i-ésimo, ni es el númerode observaciones de ese tipo de substrato, y si es la desviación típica muestral (corregida por gradosde libertad, es decir, dividiendo por ni− 1) obtenida con los datos. El término tni−1;α/2 es el valorde la distribución t de Student de ni−1 grados de libertad, que deja el área α/2 a la derecha. El usode esta distribución está limitado al caso en que Y sea normal. En caso contrario sólo podremoshacer el intervalo (9.1) para muestras grandes, y usaremos za/2 en lugar de tni−1;α/2. El intervalo(9.1) consituye una región en la que se encuentra la media verdadera μi con una confianza de100× (1− α)%.

Al observar estos intervalos de confianza, las diferencias entre cada tipo de substrato ya noparecen tan claras. Lo más palpable sea tal vez la diferencia entre los substratos 1 y 3. Es necesariohacer una advertencia: la comparación de estos intervalos tal y como lo estamos haciendo

Page 9: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.1 Introducción al diseño de experimentos 9

Means and 95,0 Percent Confidence Intervals (internal s)

Substrato

Indi

ce d

e re

sist

enci

a té

rmic

a

1 2 325

35

45

55

65

Figura 9.2: Intervalos de confianza para las medias del ejemplo 1

ahora, es decir, viendo si se solapan o no, no es correcta. Aunque cada intervalo por sepa-rado es correcto, hay varias razones que hacen que la comparación de estos intervalos sea poco re-comendable. No obstante, más adelante veremos que mediante algunos cambios es posible construirintervalos de confianza que sí permitan su comparación y podamos sacar conclusiones. El motivoprincipal es que si bien cada intervalo tiene una confianza del 95% de contener a su respectivamedia poblacional, la confianza de que los tres tengan a sus respectivas medias simultaneamentetendrá una confianza menor, pues son tres sucesos que han de observarse simultaneamente, lo cuales más difícil de observar que cada suceso por separado. Veámoslo numéricamente: si los intervalospara las medias en cada substrato son de un nivel de confianza del 95% se tendrá que,

P (media poblacional μ1 esté en su intervalo) = 0,95,

P (media poblacional μ2 esté en su intervalo) = 0,95,

P (media poblacional μ3 esté en su intervalo) = 0,95.

Sin embargo, conjuntamente este nivel de confianza se pierde, pues la probabilidad conjunta deque la primera media esté en el primer intervaloY, además, que lo esté la segunda es su intervaloY,además, que la tercera media se encuentre en su respectivo intervalo, ya no es del 95%. Suponendopor ejemplo que esos tres sucesos son independientes tendríamos que

P [(media 1 esté en el intervalo) y (media 2 esté en su intervalo)

y (media 3 esté en su intervalo)] = 0,95× 0,95× 0,95 = 0,86 < 0,95.

Luego la región formada por los tres intervalos tiene una confianza del 85% y no del 95%. Esteresultado ilustra que estos intervalos de confianza individuales no son apropiados para hacer com-paraciones, pues las conclusiones que tomemos tendrán un grado de confianza menor del quecreemos que estamos manejando. Es necesario, introducir técnicas estadísticas más apropiadas queaseguren que las conclusiones tengan un nivel de confianza prefijado. Similares conclusiones puedenhacerse a la vista de los datos del ejemplo 2 (Figura 9.3).

Podemos resumir todo lo anterior en las siguientes conclusiones:

La variable respuesta de interés es una variable aleatoria que dependerá de muchos factores,entre ellos el factor que se controla en el experimento.

Page 10: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

10 Experimentos con un factor

1 2 3 4

Scatterplot by Level Code

0

40

80

120

160

200

Tiem

po d

e ej

ecuc

ión

Tipo de Memoria

Means and 95,0 Percent Confidence Intervals (internal s)

Memoria

Tiem

po

1 2 3 450

70

90

110

130

150

170

Figura 9.3: Tiempo de ejecución. Datos e intervalos de confianza Datos del ejemplo 2

El efecto del factor en la variable respuesta de interés (tipo de substrato en el índice deresistencia térmica, o tipo de memoria en el tiempo de ejecución) se medirá a través del valormedio de la variable en cada uno de los niveles seleccionados del factor.

El valor de la variable respuesta en cada nivel del factor es una variable aleatoria que depen-derá del resto de factores que no controlamos. La media de dicha variable aleatoria para unnivel concreto será un parámetro desconocido. Lo único que se tiene es una estimación de lasmedias a través de los datos.

Las comparaciones de las medias no se deben realizar con los procedimientos habituales como,por ejemplo, comparando los intervalos de confianza individuales.

Ejercicios:

1. Clasifica los siguientes grupos de datos en observacionales o experimentales:

a) En la universidad preguntamos a los estudiantes su edad, sexo, curso, si tienen o noteléfono móvil y cuánto hace que lo compraron, y vemos qué relación existe entre laantigüedad del teléfono y el resto de las variables

b) En el registro de una gasolinera recogemos la información de los litros de combustibleque repostan los automóviles y analizamos su relación con el día de la semana y el tipode combustible

c) Para ver qué tipo de batería, de entre 3 tipos, es más adecuada para una cámara difitalconcreta se prueban los 3 tipos diferentes de bateria en 2 camaras digitales de dicho tipo.En cada cámara se prueban los tres tipos de batería. Se hacen 100 fotografías sin flashcon cada cámara a intervalos de 10 segundos cada una. El orden en que cada batería esasignada en cada cámara se hace al azar. Después se mide la carga de cada batería conel mismo aparato de medida y se comparan.

2. ¿Por qué se usa la distribución t de Student en el intervalo (9.1)?

3. ¿Cuándo es válido este intervalo?

4. ¿Qué otras distribuciones se pueden emplear para hacer intervalos para μ?¿Cuándo se puedenemplear?

Page 11: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.2 El modelo 11

5. ¿Qué diferencias se observan entre el Scatterplot del ejemplo 1 y del 2?

6. ¿Qué puede concluirse si dos intervalos de confianza sobre las medias poblacionales según laexpresión (9.1), construidos con dos grupos de datos distintos, se solapan?

7. ¿Cómo compararías si dos grupos de datos corresponden a poblaciones con la misma media?

9.2. El modeloSea Y la variable de interés, por ejemplo el índice de resistencia a la temperatura de las placas

de circuitos impresos o el tiempo de ejecución de un conjunto de tareas para un multiplexor.Supongamos un factor principal que puede afectar al valor de la variable Y. Por ejemplo, el tipo desubstrato del circuito impreso o el tipo de memoria fija del multiplexor. El factor toma I niveles.Para cada nivel i, i=1,2,...,I se poseen ni observaciones. Los valores de la variable Y se denotanpor Yij : valor de Y para el individuo j-ésimo (j=1,2,...,ni) del nivel i-ésimo. Para el ejemplo 1, elfactor tiene 3 niveles (I=3) y los tamaños muestrales son n1 = 6; n2 = 12; n3 = 10. Para el ejemplo2, el factor tiene 4 niveles y todos los tamaños muestrales son iguales: n1 = n2 = n3 = n4 = 10.La variable Yij es una variable aleatoria. Su variabilidad depende de muchas causas. El modelo

estadístico para describir esa variable aleatoria viene inspirado de las figuras anteriores. Por ejemp-lo, en las figuras 9.1 y 9.3 puede verse que cada nivel del factor (cada tipo de substrato, o cada tipode memoria) equivale a un nivel medio distinto de yij , o potencialmente distinto. Supondremos,entonces, que el valor medio viene determinado por el nivel del factor principal, es decir:

E(Yij |i) = μi, i = 1, 2, ..., I.

Dentro de cada nivel, existe variabilidad en Yij . Esta variabilidad es debida al resto de losfactores que no se controlan y que, en general, serán muchos. Se supondrá, además que dichosfactores no controlados afectan de forma homogénea, o similar, en todo el experimento y por tantosu efecto tiene las mismas propiedades estadísticas en cada uno de los niveles del factor principal.Una hipótesis razonable es que ese conjunto de factores no controlados puedan englobarse en unavariable aleatoria normal (por aplicación del teorema central del límite). Por tanto, la variablealeatoria Yij puede modelizarse como

Yij = μi + uij , (9.2)

donde uij engloba el efecto de todos los demás factores y que hacen que, para un nivel dado, lavariable Yij fluctúe alrededor del valor medio. Según lo dicho anteriormente, uij tendrá las mismaspropiedades en todos los niveles. Por tanto:

uij ∼ N(0, σ2), i = 1, 2, ..., I; j = 1, 2, ..., ni. (9.3)

Entonces,Yij ∼ N(μi, σ

2), .i = 1, .., I

Supondremos, además, que las variables aleatorias uij , son independientes. Puesto que un exper-imento es tanto mejor cuanto más control se tenga sobre los factores, al efecto de los factores nocontrolados, uij , se le suele denominar error experimental o perturbación aleatoria. Cuando nocontrolamos el valor que tomará un factor, diremos que su valor depende del azar. Por eso, altérmino uij se ledice que es causado por el azar.

Page 12: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

12 Experimentos con un factor

9.3. Estimación de los parámetrosEl modelo estadístico (9.2 ) que describe el comportamiento de la variable respuesta Yij tiene

los siguientes parámetros desconocidos:

I medias μ1, ..., μI

la varianza σ2.

Se tiene un total de I + 1 parámetros a estimar con n1 + n2 + · · ·+ nI = n datos

9.3.1. Estimación de las medias:

Utilizando el método de los momentos, las medias poblacionales se estimarán con las mediasmuestrales de cada grupo:

μi =

Pnij=1 Yij

ni≡ Yi..

Entonces, se cumplirá que:

E(μi) = μi,

V ar(μi) =σ2

ni,

y si hay normalidad

μi ∼ N

µμi,

σ2

ni

¶Puede demostrarse que, bajo normalidad, éste es también el estimador máximo verosímil.

9.3.2. Estimación de σ2

El parámetro σ2 es la varianza del error experimental; es decir, es la varianza que hay dentro decada grupo alrededor de su media μi. El estimador máximo verosímil de σ

2 para cualquier variablealeatoria de la que se tiene una muestra aleatoria simple de una población de media μ y varianzaσ2 es también el estimador por el método de los momentos. Según este principio, estimaremos σ2

utilizando la dispersión de los datos de cada nivel i = 1, ..., I alrededor de su media muestral μi.Sea si la desviación típica de los datos de cada grupo, es decir:

S2i =

Pnij=1 (Yij − μi)

2

ni≡Pni

j=1

¡Yij − Yi.

¢2ni

.

El estimador que usaremos (y que es el máximo verosímil bajo normalidad) será un promedio,ponderado por el número de elementos en cada grupo, de éstos valores:

σ2 =

PIi=1 niS

2i

n=

PIi=1

Pnij=1 (Yij − μi)

2

n. (9.4)

Puede demostrarse que este estimador es sesgado. Es sesgado porque las desviaciones no sehacen respecto a las medias verdaderas μ1, ..., μI sino a estimaciones hechas con los propios datos.

Page 13: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.4 Análisis de la varianza 13

Puede asímismo demostrarse que un estimador de σ2 insesgado se obtiene dividiendo por los gradosde libertad del numerador en lugar de por el número de términos.Los grados de libertad de dicho numerador es igual al número de términos distintos que esta-

mos sumando menos el número de restricciones que existen entre dichos términos. Las restriccionesque existen entre dichos términos proceden de la utilización de parámetros estimados con los datos.Por ejemplo, si nos dicen que tenemos cinco número y que su media debe ser 3, y cuatro de esoscinco números son 2,1,4 y 5, entonces el quinto número está ya determinado. Ese quinto númeroes el 3. Tenemos así que dada una media, existe una restricción entre esos cinco números. En elcaso de la suma del numerador en (9.4), las restricciones están en que estamos utilizando mediasmuestrales obtenidas con los mismos datos que aparecen en ese numerador en lugar de mediaspoblacionales. Por ejemplo, la utilización de μ1 en lugar de μ1 equivale a introducir la restricción

μ1 =1

n1y11 + · · ·+

1

n1y1n1 . (9.5)

De esta forma, si sólo conociésemos n1 − 1 datos y la media μ1 de los n1 datos, podríamosdeducir el valor del dato n1, pues se debe verificar la expresión (9.5). Por tanto, en el numeradorde (9.4) hay tantas restricciones como parámetros estimados con los datos yij . En nuestro caso, seutilizan I medias estimadas. El estimador de σ2 insesgado es, por tanto,

S2R =

PIi=1

Pnij=1 (Yij − μi)

2

n− I.

Usando las propiedades de la distribución normal puede demostrarse que

n− I

σ2S2R ∼ χ2(n−I).

Definimos residuo a la estimación de la perturbación del modelo:

residuo = eij = uij = Yij − μi = Yij − yi..

Según esta notación, al estimador S2R le llamaremos varianza residual:

S2R =

PIi=1

Pnij=1 (Yij − μi)

2

n− I=

PIi=1 e

2ij

n− I,

y diremos también que los residuos tiene n− I grados de libertad.

9.4. Análisis de la varianza

9.4.1. Planteamiento del contraste

El análisis de la varianza consiste en un contraste global por el que se contrasta si las mediaspoblacionales de todos los grupos μi son todas iguales, o por el contario hay alguna diferente. Elanálisis se denomina de la varianza aunque se trate de obtener conclusiones sobre las medias, porque su mecánica consiste en comparar ciertas varianzas muestrales. Las hipótesis nula y alternativadel contraste son:

Hipótesis nula: las medias son iguales, o análogamente, el efecto de los tratamientos en lavariable respuesta es el mismo. El factor analizado no es por tanto relevante.

Page 14: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

14 Experimentos con un factor

Hipótesis alternativa: no todas son iguales. Basta que una media sea distinta al resto. Tambiénpuede expresarse como que no todos los tratamientos producen el mismo efecto. El factoranalizado es por tanto relevante

Esto puede escribirse como:

H0 : μ1 = μ2 = · · · = μI = μ. (9.6)

H1 : H0 es falsa, algún, μr 6= μi.

Como puede verse no es un contraste donde se compare las medias de cada grupo de dos endos, sino que es un contraste conjunto. El contraste se basa en comparar la variabilidad de lasobservaciones dentro de cada grupo con la variabilidad de las medias muestrales.Necesitamos ahora un estadístico de contraste que resuma la información de los datos en un

número, y una distribución de referencia que nos diga si dado el valor del estadístico de contrastetenemos que aceptar o rechazar H0 con un nivel de significación α deseado. Estos elementos sedefinen en los siguientes apartados.

9.4.2. Descomposición de la variabilidad

LLamamos variabilidad a la dispersión que presentan los datos. El análisis de esta variabilidadnos va a proporcionar las herramientas estadísticas para construir el contraste (9.6). Para cada datoyij puede descomponerse a variabilidad alrededor de la media de todos los datos de la siguienteforma:

yij − y = (yij − μi) + (μi − y)

(yij − y)2 = (yij − μi)2 + (μi − y)2 + 2(μi − y)(yij − μi)

IXi=1

niXj=1

(yij − y)2 =IXi=1

niXj=1

(yij − μi)2 +

IXi=1

niXj=1

(μi − y)2

+ 2IXi=1

niXj=1

(μi − y)(yij − μi),

pero se comprueba fácilmente que

IXi=1

niXj=1

(μi − y)(yij − μi) =IXi=1

(μi − y)

niXj=1

(yij − μi)| {z }es cero

= 0.

Por tantoIXi=1

niXj=1

(yij − y)2 =IXi=1

ni(μi − y)2 +IXi=1

niXj=1

(yij − μi)2.

Este resultado puede interpretarse en términos de descomposición de la variabilidad observada.Al primer término le llamaremos variabilidad total (VT), y mide la dispersión general de losdatos alrededor de la media muestral global y. El segundo término (primero a la derecha de laigualdad) es la variabilidad que existe entre grupos. Es la dispersión debida a que las medias

Page 15: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.4 Análisis de la varianza 15

de cada grupo son distintas. Es la variabilidad debida al factor. Por esta razón la llamaremosvariabilidad explicada (VE) o entre grupos. Al último término le llamaremos variabilidad noexplicada (VNE), interna o residual. Es la variabilidad observada dentro de cada nivel y que estáprovocada por el azar (efecto del resto de factores no controlados). Analíticamente puede escribirseque,

V T =IXi=1

niXj=1

(yij − y)2 ,

V E =IXi=1

niXj=1

(μi − y)2 =IXi=1

ni(μi − y)2,

V NE =IXi=1

niXj=1

(yij − μi)2 =

IXi=1

niXj=1

eij2 = ns2R,

V T = V E + V NE.

Corrigiendo por sus respectivos grados de libertad obtendremos estimadores insesgado de var-ianzas:

La variabilidad explicada (VE) tiene I términos distintos, pero tienen la restricción de que

IXi=1

ni(μi − y) = 0.

Por tanto tiene I − 1 grados de libertad. Definimos varianza explicada a:

S2e =

PIi=1 ni(μi − Y )2

I − 1 =V E

I − 1 .

La variablidad no explicada tiene n valores distintos, pero tiene I restricciones pues paracada nivel se verifica que

niXj=1

(yij − μi) = 0.

Por tanto los grados de libertad son n − I. por eso la varianza no explicada o residual sedefine como

s2R =

PIi=1

Pnij=1 (Yij − μi)

2

n− I=

PIi=1 e

2ij

n− I=

V NE

n− I.

Finalmente, la variabilidad total tiene n términos distintos y la restricción

IXi=1

niXj=1

(Yij − y) = 0.

Por tanto tiene n− 1 grados de libertad. La varianza total será:

S2y =

PIi=1

Pnij=1

¡Yij − Y

¢2n− 1 =

V T

n− 1 .

Page 16: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

16 Experimentos con un factor

9.4.3. El contraste F

El estadístico de contraste que vamos a utilizar para el contaste (9.6) es

F =

µV E

I − 1

¶µV NE

n− I

¶ =S2e

S2R. (9.7)

Puede demostrarse que dadas las condiciones de normalidad y de homogeneidad de la varianzadel error experimental expuestas en (9.3) se tiene que, si H0 es cierta, el estadístico F expuesto en(9.7) sigue la siguiente distribución

F ∼ FI−1,n−I , (9.8)

donde FI−1,n−I es la distribución F de Fisher. La distribución F de Fisher depende de dosparámetros g1 y g2 denominados grados de libertad y su notación habitual es Fg1,g2. El valor deg1 está relacionado con el numerador de (??) y toma en nuestro contraste el valor g1 = I − 1.Por esta razón, a g1 también se le denomina grados de libertad del numerador. El valor deg2 está relacionado con el denominador de (??) y toma el valor g2 = n − I. Por esta razón, a g2también se le denomina grados de libertad del denominador. La distribución Fg1,g2 es unavariable aleatoria continua no negativa, definida en [0,∞), y su forma varía dependiendo de losvalores g1 y g2. Sus valores están tabulados y pueden encontrarse en muchos libros de estadísticay en programas de ordenador. En general, es una distribución unimodal y asimétrica positiva,disminuyendo la asimetría al aumentar los valores de g1 y g2. La siguiente figura muestra dosejemplos de esta distribución: la F5,10 y la F20,20.

Dos ejemplos de distribuciones F

Una vez que tenemos el estadístico de contraste F expuesto en (9.7) y su distribución dereferencia (9.8) cuando la hipótesis nula es cierta, necesitamos localizar las regiones de aceptacióny rechazo. Para ello analizaremos el comportamiento del estadístico F . Si H0 es falsa, tendremosque alguna media será distinta. En ese caso, el comportamiento del denominador del estadístico F(la varianza residual S2R) no influye, pues es un promedio de la variabilidad dentro de los gruposy su valor no depende de si las medias de los grupos son iguales o distintas. Sin embargo, los grupostendrán medias distintas entre sí, y s2e tenderá a ser tanto mayor cuanto más diferentes sean lasmedias, lo que hará aumentar el numerador de s2e :

PIi=1 ni(μi − y)2. En este numerador, si las

Page 17: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.4 Análisis de la varianza 17

medias poblacionales son iguales se tendrá que μi ≈ y y, por tanto, el término (μi − y)2 no serámuy grande. Por el contrario, ese término será tanto mayor cuanto más diferentes sean las μi de y,lo que ocurrirá con más facilidad bajo H1. Por tanto si H0 es falsa, F tenderá a ser muy grande.La región de rechazo de H0 estará a la izquierda de la distribución FI−1,n−I . Si usamos un nivelde significación α y denotamos por FI−1,n−I;α al valor de la distribución FI−1,n−I que deja a laderecha un área α, tendremos que el contraste es:

Rechazamos H0 si F > FI−1,n−I;α

Aceptamos H0 si F ≤ FI−1,n−I;α

La figura 9.4 visualiza este contraste. En esta figura puede verse la región de rechazo a laderecha del valor crítico. El valor crítico es el valor que deja a la derecha un área igual al nivelde significación, es decir, es el valor FI−1,n−I;α. Otra forma de determinar si se acepta o rechazaH0 es mediante la comparación del p-valor con el nivel de significación α. El p-valor es el nivelde significación que deberíamos tener para que el valor F obtenido con los datos esté justo en lafrontera entre la región de aceptación y rechazo. En el presente contraste, el p-valor será el areaque queda a la derecha del valor de F obtenido con los datos. Si F > FI−1,n−I;α entonces el p-valorserá menor que α. De esta forma, el contraste sería:

Rechazamos H0 si p-valor < α

Aceptamos H0 si p-valor ≥ α.

Para hacer el contraste se suele escribir la información necesaria en la siguiente tabla, llamadatabla ANOVA o ADEVA.

Fuente de variabilidad Suma de cuadrados Grados de libertad Varianzas Estadístico F

Entre grupos (VE)PI

i=1 ni (μi − y)2

I − 1 s2e =V E

I − 1 F =s2es2R∼ FI−1,n−I

Interna (VNE)PI

i=1

Pnij=1(yij − μi)

2 n− I s2R =V NE

n− I

Total (VT)PI

i=1

Pnij=1 (yij − y)2 n− 1 s2y =

V T

n− 1

Es usual utilizar como medida de la importancia del factor la proporción de la variabilidadtotal (VT) que es debida al factor. Dicha medida se denomina coeficiente de determinación y sedefine de la siguiente manera:

R2 = coeficiente de determinación =V E

V T.

Como V T = V E + V NE puede también escribirse que

R2 = 1− V NE

V T.

Ejemplo 3:

Page 18: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

18 Experimentos con un factor

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8Distribución F y conraste ANOVA

Región de rechazo Región de no rechazo

α

Figura 9.4:

Con los datos del ejemplo 1 podemos hacer el contraste de igualdad de medias. La hipótesis nulaes que la media del índice de resistencia térmica es la misma con los tres tipos de substrato, esdecir:

H0 : μ1 = μ2 = μ3

y la alternativa será que alguna media es distinta. La tabla ANOVA es (cálculos hechos con elStatgraphics 4.0):

Fuente de variabilidad Suma de cuadrados Grados de libertad varianzas Estadístico FEntre grupos (VE) 1273,11 2 636,557 7,14Interna (VNE) 2229,85 25 89,194Total (VT) 3502,96 27 129,73

Si utilizamos un nivel de significación del 5%, tenemos que, mirando las tablas,

F(2,25;0,05) = 3,39 < 7,14

por lo que el valor del estadístico está en la región de rechazo. El p-valor es 0.0035 que es muchomenor que el nivel de significación. Por tanto rechazamos que las tres medias sean iguales. Haypor tanto diferencias significativas en la resistencia térmica de los substratos. El coeficiente dedeterminación es

R2 =1273,11

3502,96= 0,36

Luego el tipo de sustrato explica el 36% de la variabilidad de índice.

El contraste ANOVA se basa en que si H0 es cierta, la varianza del error experimental σ2

puede estimarse de dos formas alternativas. El estadístico F es, entonces, el ratio entre ambosestimadores alternativos de σ2. Por un lado, una forma de estimar σ2 es a través de la varianza

Page 19: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.5 Análisis de las diferencias entre medias 19

de las observaciones dentro de cada nivel. Esto es lo que hace la varianza residual s2R, que es unpromedio ponderado de las varianzas muestrales. Se tiene, por tanto, que

σ2(1) = s2R ≡ estimador basado en la varianza interna de cada nivel.

Este estimador es válido aunque H0 no sea cierta. Por otro lado, sólo si H0 es cierta, se puedeestimar σ2 a través de la dispersión de las medias muestrales μ1, ..., μI , alrededor del valor μ, querepresenta la media global si H0 es cierta: μ1 = μ2 = · · · = μI = μ. La varianza de una mediamuestral genérica es

Var(μi) =σ2

ni,

por tanto

σ2 = niVar(μi) = niEh(μi − μ)

2i= E

hni (μi − μ)

2i.

El estimador de σ2 se obtendría, si μ fuese conocido, promediando todos los valores de ni (μi − μ)2

que se tienen:

σ2 =n1 (μ1 − μ)

2+ n2 (μ2 − μ)

2+ · · ·+ nI (μI − μ)

2

I

Como μ es desconocido se estimará con y. Al sustituir μ por y se pierde un grado de libertad,por lo que el estimador sería:

σ2(2) =

PIi=1 ni(μi − y)2

I − 1 ≡ s2e = estimador basado en la varianza de las medias muestrales.

que es la varianza explicada definida anteriormente. El estadístico F del contaste es, entonces,

F =σ2(2)

σ2(1)=

s2es2R

.

9.5. Análisis de las diferencias entre mediasSi al hacer el contaste F anterior aceptamos (no rechazamos) la hipótesis nula de igualdad de

medias, ya habremos concluido nuestro análisis. Sin embargo, si rechazamos el test F anterior, lasituación se vuelva algo más complicada. Si rechazamos la igualdad de medias, concluiremos quehay diferencias significativas en alguna de las medias (con nivel de significación α). Sin embargo,en general, no sabremos qué medias son significativamente diferentes de las demás. Puede ser queuna sola media sea la responsable del resultado o que todas las medias sean diferentes. Necesita-mos entonces análisis adicionales para extraer conclusiones sobre qué poblaciones (qué niveles delfactor) son diferentes. El análisis descriptivo y gráfico inicial nos puede dar algunas pistas sobrelas diferencias entre los grupos. Sin embargo, necesitaremos realizar contrastes estadísticos paraconfirmar las diferencias que veamos en los gráficos. Sin la realización de un contraste no podremosconcluir que las diferencias observadas sean estadísticamente significativas. Es importante re-saltar que este análisis adicional de comparación de medias se hará sólo si rechazamos la igualdadde medias.Realizaremos contrastes para analizar las diferencias entre los diferentes niveles del factor com-

parándolos de dos en dos. En el presente contexto, no resulta muy adecuado realizar el contrastede diferencia de medias habitual. La razón es la siguiente: Supongamos que queremos realizar con-trastes de diferencia de medias para los datos del ejemplo 1 empleando un nivel de significación del

Page 20: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

20 Experimentos con un factor

5%. Entonces, si H0 es cierta, cada contraste acertará con una probabilidad del 95%. El problemasurge porque no desearemos realizar sólo un contraste, sino que contrastaremos la igualdad demedias de todos los pares posibles. En general, se realizarán

¡I2

¢contrastes. En el caso del ejemplo

1 serían 3 contrastes:

Contraste 1:nH0 : μ1 = μ2H1 : μ1 6= μ2

Contraste 2:nH0 : μ1 = μ3H1 : μ1 6= μ3

Contraste 3:nH0 : μ2 = μ3H1 : μ2 6= μ3

Si la probabilidad de acertar que H0 es cierta es del 95% en cada uno y se supone, por sim-plicidad, que los resultados de los tres contrastes son independientes, la probabilidad de acertarcon los tres simultáneamente es 0.953 = 0,86. Por lo tanto, el nivel de significación de hacer los 3contrastes es (1− 0,86)=0.14, que es muy superior al 5% que estamos suponiendo. Por lo tanto,las conclusiones que obtengamos están sujetas a un mayor margen de error del que creemos. Laprobabilidad de detectar diferencias inexistentes no será del 5% sino del 14%. Necesitamos, pues,un procedimiento de contrastación que nos asegure que el nivel de significación de hacer los

¡I2

¢contrastes de igualdad de medias sea, conjuntamente, del 5%.(o, en general, de cierto valor α pre-fijado). Este problema de que el nivel de significaión real sea mayor (es decir, peor) que el creemosse agrava a medida que aumenta el número de niveles del factor. Por ejemplo, si tuviésemos unexperimento en el que se analiza un factor con I = 20 niveles, las comparaciones de dichos nivelesde dos en dos llevarían a realizar 190 contrastes. Si en cada contraste utilizamos un nivel de sig-nificación del 5%, estaríamos permitiendo que si los grupos fuesen iguales, 5 de cada 100 veces nosequivocásemos y concluyésemos que son diferentes. Por tanto, en 190 contrastes tendríamos portérmino medio 9.5 contrastes considerados erroneamente significativos. De esta forma, si el númerode contrastes es elevado, la probabilidad de que en alguno nos equivocásemos será muy próxima a1, mientras que queremos que dicha probabilidad sea pequeña (precisamente α). El razonamientoes, pues, muy similar al que se hacía antes acerca de la comparación de intervalos de confianza.A continuación vamos a ver formas diferentes de hacer estos contrastes de diferencias de medias.Empezaremos recordando cómo se hace un contraste de diferencia de medias utilizando sólamentela información de las dos poblaciones que se comparan. Seguidamente, veremos procedimientos quesean más adecuados para el contexto actual.

9.5.1. Contraste de igualdad de medias de dos poblaciones. Métodoclásico.

En este apartado se recordará el contraste de igualdad de medias entre dos poblaciones. Laforma general del contraste es la siguiente. Sea una población de media μ1 y varianza σ

2 de la quese tiene una muestra aleatoria simple de tamaño n1. De dicha muestra se ha calculado su mediamuestral y1. Sea una segunda población de media μ2 con la misma varianza que la anterior, σ

2. Deesta población se extrae una muestra de tamaño n2 obteniéndose la media muestral y2. El problemaconsiste en averiguar, a partir de la información de las dos muestras, si las media poblacionales μ1y μ2 son iguales. La hipótesis nula y alternativa son:

H0 : μ1 = μ2H1 : μ1 6= μ2

Page 21: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.5 Análisis de las diferencias entre medias 21

Como se verifica queE (y2 − y1) = E (y2)−E(y1) = μ2 − μ1

y, por independencia de ambas muestras (no comparten individuos),

Var (y2 − y1) = Var (y2) +Var(y1) =σ2

n1+

σ2

n2,

se tiene, bajo normalidad, que

(y2 − y1) ∼ N

½μ2 − μ1, σ

2

µ1

n1+1

n2

¶¾.

Estandarizando:(y2 − y1)− (μ2 − μ1)r

σ2³1n1+ 1

n2

´ ∼ N(0, 1).

Para realizar el contraste es necesario estimar σ2. El estimador que se usará es la varianzamuestral, corregida por grados de libertad, empleando tanto las observaciones de la primera mues-tra (y11, y12, ..., y1n1) como de la segunda (y21, y22, ..., y2n2), pues en ambos grupos la varianzapoblacional σ2 es la misma:

s2T =

Pn1i=1(y1i − y1)

2 +Pn2

j=1(y1j − y1)2

n1 + n2 − 2=(n1 − 1) s21 + (n2 − 1) s22

n1 + n2 − 2,

donde s21 y s22 son las estimaciones de las varianzas (corregidas por grados de libertad) de cadapoblación. Entonces, el estadístico del contraste es

(y2 − y1)− (μ2 − μ1)

sT

r1

n1+1

n2

∼ tn1+n2−2,

donde los grados de libertad de la distribución t son los del estimador de la varianza s2T . Por tanto,si H0 : μ1 = μ2 se tiene que el estadístico que se calcula es

t =y2 − y1

sT

r1

n1+1

n2

∼ tn1+n2−2

y si la hipótesis nula es cierta, se distribuye como una tn1+n2−2. Al ser el contraste bilateral,se rechaza la hipótesis nula si el valor que se obtiene es demasiado alto o demasiado bajo. Paradeterminar las regiones de rechazo se elige un nivel de significación α. Sea tn1+n2−2;α/2 el valor quedeja a la derecha un área α/2. Entonces:

Si |t| > tn1+n2−2;α/2 ⇒ Se rechaza H0

Si |t| ≤ tn1+n2−2;α/2 ⇒ No se rechaza H0

La figura 9.5 visualiza este contraste. Las regiones de rechazo se encuentran para valores delestadístico muy altos o muy bajos.Otra forma alternativa de resolver el conrtaste es mediante el uso del p-valor. Como se mencionó

anteriormente, el p-valor es el nivel de significación que deberíamos usar para que el valor del

Page 22: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

22 Experimentos con un factor

-4 -3 -2 -1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Distribución t y contraste de igualdad de medias

Región derechazo

Regiónderechazo

Región de no rechazo

α/2 α/2

Figura 9.5:

estadístico de contraste esté justo en la frontera de las zonas de aceptación y rechazo. En el casodel presente contraste, al ser la H1 bilateral, el pvalor será el area a la derecha de |t| más el area ala izquierda de −|t|. Entonces

Si p-valor< α ⇒ Se rechaza H0Si p-valor ≥ α ⇒ No se rechaza H0

Con los datos del ejemplo 1 se desea comparar las medias del índice de resistencia térmica paralos substratos 1 y 2. De los datos de la tabla 9.1 se tiene que (cálculos realizados con el Statgraphics4.0)

y1 = 36,67; s21 = 103,467y2 = 45,58; s22 = 55,720

¾⇒ s2T =

5× 103,467 + 11× 55,72016

= 70,64.

El valor del estadístico est =

y2 − y1qs2T¡16 +

112

¢ = 2,122Como t16;0,025 = 2,120 < 2,122 se rechaza, aunque por poco margen, la hipótesis nula de que

ambas medias sean iguales. Se considera, por tanto, que con este procedimiento de contraste, sedetectan diferencias significativas entre ambos tipos de substratos.

Este contraste realizado con los datos del ejemplo 1 es más adecuado que la comparación delos intervalos de confianza de la Figura 9.1. La comparación de los intervalos de confianza llevaríana la conclusión de que ambas medias son iguales, pues los intervalos (del 95% de confianza) sesolapan. Recordemos la expresión general de un intervalo de confianza para la media μ :

IC(1− α) : μ ∈µy ± tα/2

s√n

¶,

Page 23: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.5 Análisis de las diferencias entre medias 23

donde los grados de libertad de la distribución t son los del estimador s2. La comparación delos intervalos de confianza individuales tiene dos desventajas importantes respecto al contraste deigualdad de dos medias realizado aquí.

En primer lugar, la comparación de intervalos de confianza individuales no tiene en cuentaque la varianza del error experimental es la misma. De esta forma, cada intervalo utilizaun estimador de σ2 (s21 y s22, respectivamente) calculado con muy pocos datos, en lugar deusar todos los datos para estimar σ2. Esto hace que la distribución t tenga pocos gradosde libertad. Basta echar un vistazo a las tablas de la distribución t de Student para verque cuantos menos grados de libertad, el valor correspondiente al área α/2 será mayor,aumentando innecesariamente la longitud del intervalo de confianza.

En segundo lugar, y tal y como se ha comentado anteriormente, el nivel de significación dela comparación de intervalos no será α, sino mayor. Tendremos, entonces, un sesgo haciarechazar H0 y, por consiguiente, a detectar diferencias inexistentes.

9.5.2. Contraste de igualdad de medias. Método LSD

El método LSD o de lamenor diferencia significativa (Least Significant Difference), no es unprocedimiento de contraste múltiple pero utiliza la información disponible más eficientemente queel procedimiento de contraste de diferencia de medias habitual. Consiste en realizar el contrasteanterior pero usando un estimador de σ2 basado en toda la información, es decir, en los datosde todos los grupos y no sólo la información de los grupos que se comparan en el contraste. Elestimador que se emplea es s2R, realizado con los n = n1 + n2 + · · · + nI datos, y los grados delibertad de la distribución t serán n− I. El estadístico de contraste es:

t =Y2 − Y1

sRq

1n1+ 1

n2

,

y si H0:μ1 = μ2 es cierta se distribuirá como una tn−I . Este procedimiento será más fiable, en elsentido de que le resulta más fácil detectar diferencias que con el método clásico, la razón es queestamos utilizando un mejor esti ador de σ2. ¿Y cómo sabe el método que el estimador es mejor?,pues precisamente a través de los grados de libertad de la distribución t de Student de referencia.Los grados de libertad de la distribución t es el valor del denominador del estimador de σ2 queestemos utilizando. Por tanto, a mayor número de datos utilizado en la estimación de σ2 podemosutilizar una distribución t de más grados de libertad. ¿Y qué ventaja tiene el poder utilizar unadistribución t de más grados de libertad?. Pues que los valores críticos tα/2 serán más pequeños, yserá más fácil distiguir diferencias significativas. La figura siguiente ilustra la diferencia entre dosdistribuciones t, una con pocos grados de libertad (t2) y otra con muchos (t200). En esta figurapuede verse que a mayor número de grados de lbertad, la parte de los extremos de la distribución esmás estrecha, y la parte central es más alta. Por consiguiente, el intervalo que tenga una confianzade, por ejemplo, el 95% será más estrecho. Por tanto, los valores críticos son más pequeños cuantomayor sean los grados de libertad. Esto puede verse claramente en esta figura, donde se aprecia

Page 24: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

24 Experimentos con un factor

que al utilizar α = 0,05 resulta t200;α/2 << t2;α/2.

Nótese que este método LSD basado en s2R precisa que las varianzas poblacionales dentro decada nivel sean iguales, lo cual será algo que habrá que comprobar en los datos. A la comprobaciónde las hipótesis del modelo (igualad de varianza del error experimental y normalidad del errorexperimental) se le llama diagnosis, y se estudiará más adelante.

Si realizamos el contraste de medias por el método LSD se obtiene que, al ser s2R =89.194,

t =y2 − y1r

s2R

³1n1+ 1

n2

´ = 1,89.Como t25;0,025 = 2,06 > 1,89, nos encontramos en la región de NO rechazo. Por tanto, y a difer-

encia de la conclusión obtenida con el contrastre de diferencia de medias clásico, no se detectandiferencias significativas entre la resitencia térmica de ambos substratos. Como este contraste esmás preciso que el anterior, esta conclusión es más convincente

Este procedimiento es más recomendable que el clásico para comparar sólo dos grupos. Noobstante, para contrastes múltiples no es adecuado, pues, como ya se ha explicado arriba, el nivelde significación puede ser mucho mayor que α. Es recomendable únicamente cuando el contrasteANOVA es significativo y existen dudas sobre la diferencia entre dos niveles.

9.5.3. Contrastes múltiples de igualdad de pares de medias

En esta sección se comenta brevemente algunos procedimientos empleados para la realizaciónde múltiples contrastes de igualdad de medias. El objetivo de estos procedimientos es asegurar queel nivel de significación conjunto sea cierto valor prefijado α. Por ejemplo, del 5%.

Page 25: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.5 Análisis de las diferencias entre medias 25

Método de Bonferroni

Es el método más sencillo, pero no el más adecuado. Si el número de comparaciones es muy alto,este procedimiento es poco potente. Es decir, es necesario que las diferencias entre las medias seangrandes para que sean detectadas. En este sentido se dice que es un procedimiento conservador,pues tiende a favorecer a H0. Es un método que para evitar detectar diferencias inexistentes tieneun sesgo a no detectarlas cuando realmente existen. La idea es la siguiente: se desea saber el nivelde significación α0 para cada contraste individual de forma que, conjuntamente, estemos utilizandoun nivel de significación máximo de αT . Es decir, que la probabilidad de que los contrastes detectenque las medias son iguales cuando realmente lo son sea, como mucho, αT . Si se tienen I niveles yse hacen todos los contrastes posibles se realizará un total de m =

¡I2

¢contrastes diferentes. Si un

contraste tiene nivel de significación α0, entonces:

P (Detectar diferencias cuando no las hay) = P (concluir que H0 es falsa|H0 es cierta) = α0.

Llamemos Ci al suceso anterior en una comparación genérica (i = 1, 2, ...m); es decir: Ci = porazar de la muestra, cometemos el error de detectar, en la comparación í-ésima, una diferencia demedias que no existe realmente. La probabilidad de que en todas las comparaciones detectemosdiferencias inexistentes será (utilizando que P (A+B) = P (A) +P (B)−P (AB) ≤ P (A) +P (B)):

P (C1 + C2 + · · ·+ Cm) ≤ P (C1) + P (C2) + · · ·+ P (Cm) = mα0 = αT

Por tanto,α0 =

αTm

.

Por ejemplo, si I = 3 hay¡32

¢= 3 comparaciones entre pares de medias. Si queremos que el

nivel de significación conjunto sea del 5%, tendremos que realizar los contrastes individuales conel metodo LSD, pero utilizando un nivel de significación

α0 =0,05

3= 0,0167.

El valor crítico será, por tanto, tn−I;α0/2. Como se ha dicho antes, este método es bastanteconservador, en el sentido de que el nivel de significación conjunto que se maneja realmente αRserá menor o igual que αT . Podemos decir, entonces, que el método de Bonferroni asegura que elnivel de significación conjunto es como máximo αT .

Método de Scheffé

Supongamos que etamos interesados en todos los contrastes de diferencias de medias entre Igrupos distintos (

¡I2

¢contrastes). Utilizaremos, para contrastar cada diferencia de medias, el mismo

estadístico que con el método LSD. Por ejemplo, para contrastar si el nivel 1 y el nivel 2 tienenmedias distintas en la variable respuesta calcularemos con los datos disponibles el estadístico

t =Y2 − Y1

sR

r1

n1+1

n2

.

La diferencia respecto al metodo LSD es que en lugar de usar como valor crítico a tn−I;α/2 se usa:

c =q(I − 1)FI−1;n−I;α.

Page 26: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

26 Experimentos con un factor

Este valor crítico es siempre no nulo. Por tanto se rechazará la hipótesis nula H0 : μ1 = μ2 si

|t| > c.

Puede comprobarse que para I = 1 este contraste coincide con el método LSD (pF1;n−I;α =

tn−I;α/2). Este procedimiento supone que al analista le interesan todas las comparaciones entrepares de tratamientos. Es, pues, el caso opuesto al método LSD, que era adecuado si sólo nosinteresaba hacer un único contraste. El método de Scheffé, por tanto, puede ser, al igual que elmétodo de Bonferroni, muy conservador en aquellos casos en que el interés está en un númeroreducido de contrastes.

Otros procedimientos

Existen otros procedimientos para realizar contrastes múltiples que tienen una mayor eficaciaque los anteriores. Es decir, el nivel de significación real no es tan elevado como con el métodoLSD ni tan bajo como con el método de Bonferroni, (o el método de Scheffé si no se realizan todoslos contrastes posibles). Estos procedimientos son computacionalmente más costosos y requierentablas específicas. Los más empleados son

Método de Duncan: basado en la comparación de las diferencias de medias con unas tablasque dependen del número de comparaciones que se realizan. Es un procedimiento muy eficaz.

Método de Newman-Keuls: más conservador que el método de Duncan. El procedimientoes similar al de Duncan. Las tablas que se emplean son distintas y están basadas en losdenominados rangos estudentizados.

Método de Tukey: este procedimiento detecta que dos medias son estadísticamente difer-entes si su diferencia en valor absoluto, estandarizada, es mayor que cierto valor crítico quepuede encontrarse en unas tablas (tablas de rangos estudentizados). Es también más conser-vador que el procedimiento de Duncan.

Estos tres procedimientos son muy utilizados y están incluidos en la mayoría de las aplica-ciones informáticas, por lo que su utilización es sencilla.

Con los datos del ejemplo 1 vamos a realizar contrastes múltiples de igualdad de medias paralas tres posibles comparaciones. El nivel de significación conjunto es αT = 0,05. Los tres contrastesson: (1)μ1 = μ2; (2)μ1 = μ3; y (3)μ2 = μ3. La información que proporciona el Statgraphics 4.0 esla siguiente (multiple range tests):

Método de Duncan:

Este método detecta que sólo μ1 6= μ3.

Page 27: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.5 Análisis de las diferencias entre medias 27

Método LSD:

Este método detecta que μ1 6= μ3 y también μ2 6= μ3. Este método es menos fiable que elanterior. El nivel de significación conjunto que realmente se está usando es menor que αT(en cada contraste el nivel de significación es αT .), por lo que los intervalos de confianza quese han construido son más estrechos de lo que deberían ser. Esto puede explicar que esteprocedimiento detecte que μ2 6= μ3 mientras que el anterior no lo detectaba.

Método de Bonferroni:

Este procedimiento utiliza un nivel de confianza conjunto máximo de αT . El nivel de confianzaindividual será

α0 =αT3,

por eso los intervalos son más amplios que en el caso anterior. Este método sólo encuentrasignificativa la diferencia entre μ1 y μ3.

Método de Scheffé:

Este procedimiento también encuentra que sólo μ1 6= μ3.

Método de Newman-Keuls:

Page 28: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

28 Experimentos con un factor

Este método es más conservador que el de Duncan. Sin embargo se obtiene el mismo resultado,lo que refuerza la validez de las conclusiones.

Método de Tukey:

Este procedimiento es similar al anterior, y las conclusiones son las mismas.

Todos los procedimientos, excepto el LSD ofrecen las mismas conclusiones. Puesto que el LSD noes verdaderamente un contaste múltiple asumiremos como definitiva la conclusión de que μ1 6= μ3y que tal vez con más datos se podría concluir que μ2 6= μ3 de forma más clara. A efectos prácticos,los datos recomendarían la utilización del substrato tipo3 (resina epoxídica).Como resumen de lo dicho anteriormente podemos decir que para comparar I grupos con un

nivel de significación total α realizaremosm =¡I2

¢contrastes individuales en los que contrastaremos

todos los grupos de dos en dos. El contraste individual que compare el grupo i-ésimo con el j-ésimoserá

H0 : μi = μj ,

H1 : μi 6= μj ;

y el estadístico de contraste será

t =yi − yj

sRq

1ni+ 1

nj

,

Rechazaremos H0 si

|t| > t∗α0/2 (9.9)

donde t∗α0/2 es el valor de una distribución t de Student con los mismos grados de libertad queel estimador s2R, y el nivel de significación individual α0 ha sido obtenido mediante algún proced-imiento de contrastes múltiples tales como Bonferroni, para un nivel de significación conjunto αprefijado por el experimentador.

Page 29: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.6 Diagnosis 29

9.5.4. Intervalos de confianza

Este valor t∗ mencionado en (9.9) puede también ser utilizado para realizar intervalos de confi-anza individuales tanto para ser utilizados para predecir la media de un grupo como para comparargrupos. En el caso en que quisiésemos un intervalo de confianza para el grupo i-ésimo podemosmejorar el intervalo expresado en (9.1) utilizando s2R en lugar de s

2i . El intervalo para μi de nivel

de confianza (1-α) será

μi ∈½yi ± t∗α/2

sR√ni

¾, (9.10)

donde t∗α/2 es el valor de una distribución t de Student con los mismos grados de libertad queel estimador s2R. Si nuestro interés es en construir intervalos que puedan ser comparados entre sícomo si estuviésemos realizando contrastes, utilizaremos el intervalo

μi ∈½yi ± t∗α0/2

sR√ni

¾,

donde α0 ha sido obtenido mediante algún procedimiento de contrastes múltiples tales como Bon-ferroni, para un nivel de confianza (1− α) prefijado por el experimentador.

9.6. DiagnosisLa diagnosis es una etapa del análisis de la varianza que consiste en comprobar que se cumplen

las hipótesis del modelo. Estas hipótesis son:

uij se distribuye de forma normal con media cero y varianza constante uij ∼ N(0, σ2)

las variables aleatorias uij son independientes

Esta etapa del análisis es muy importante, pues de no cumplirse las hipótesis en las que se basael modelo, las conclusiones podrían ser eróneas. El error experimental es

uij = yij − μi.

Como μi es desconocido, la variable uij será inobservable. Lo único que se tiene es una esti-mación de μi, que es la media muestral en cada grupo: μi = yi. Lo que se tiene entonces es unaestimación del error experimental, y que recibe el nombre de residuo:

residuo ≡ eij = yij − μi.

El objetivo es comprobar que los residuos tiene propiedades similares a las que deberían tenerlos términos de error. El primer paso para realizar la diagnosis será, por tanto, calcular los residuosen cada punto. Con estos residuos realizaremos los siguientes análisis.

Normalidad:

Siempre es aconsejable hacer un histograma para ver si los residuos se alejan mucho de lanormalidad. También podemos hacer los contrastes de normalidad habituales que se encuentranen todas las aplicaciones informáticas (χ2 o Kolmogorov-Smirnov). Como en cualquier contraste,bastará comprobar que el p-valor es mayor que el nivel de significación para aceptar la hipótesisnula de normalidad.

Page 30: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

30 Experimentos con un factor

Media cero y varianza constante:

Para analizar estos supuestos se hará un gráfico de residuos frente a valores previstos. Losvalores previstos son, para cada nivel, la media muestral μi. Este gráfico es similar al de los datosoriginales pero todos los niveles tendrán media cero y están ordenados de menor a mayor valormedio de la variable respuesta. Si se cumplen las hipótesis del modelo, este gráfico no deberíatener ningún patrón claro: fuertes curvaturas, crecimientos o decrecimientos de variabilidad. Porejemplo, para los datos del ejemplo 1, el gráfico de residuos frente a valores previstos se muestraen la Figura 9.6.

Residuos del índice de resistencia térmica

Res

iduo

s

Valores previstos (medias muestrales)

-18

-8

2

12

22

36 40 44 48 52 56

Figura 9.6: Valores previstos y residuos. Datos del ejemplo 1

En la figura 9.6 los datos de la izquierda corresponden al nivel que tiene menor valor mediodel índice, que coresponde con el substrato tipo 1; a continuación están los datos del nivel quetiene mayor valor medio y que corresponde al substrato tipo 2; a la derecha están los datos quecorresponden con el nivel de mayor valor medio y que son los del substrato tipo 3. Si las hipótesisdel modelo se cumplen, este gráfico no debería tener ningún tipo de estructura. En este caso nose detecta ninguna estructura en los datos. La figura 9.7 muestra el gráfico de residuos frente avalores previstos con los datos del ejemplo 2.En este caso se observa un patrón creciente de la variabilidad, lo que viola una de las hipótesis

del modelo. Además, se ve que la variabilidad es creciente con el valor medio de la variable. Losniveles que tienen medias más bajas (memorias tipo 3 y 4) tienen menos variabilidad que losniveles de mayor valor medio (memorias tipo 1 y 2). Este efecto ya se veía en la Figura 9.3 conlos datos iniciales. Este efecto es muy frecuente en la práctica y ocurre cuando los erroresson proporcionales a la magnitud. El patrón que se ve en el gráfico es como un embudo que seensancha de derecha a izquierda. Matemáticamente, este efecto equivale a una represenación en laque el modelo no es aditivo sino multiplicativo, es decir:

yij = μi × uij (9.11)

y, por tantoVar(yij)=μ2iσ

2

y niveles de mayor valor medio aparecen con mayor variabilidad. Por tanto, el modelo aditivo quese está suponiendo,

yij = μi + uij ,

Page 31: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

9.6 Diagnosis 31

Residuos del Tiempo de ejecución

Res

iduo

s

Valores previstos (medias muestrales)

-34

-14

6

26

46

50 70 90 110 130 150 170

Figura 9.7: Residuos frente a valores previstos. Datos del ejemplo 2.

Datos originales en logaritmos

log(

Tiem

po)

Tipo de memoria1 2 3 4

3,8

4,1

4,4

4,7

5

5,3

Residuos del Logaritmo del tiempo de ejecuciónR

esid

uos

Valores previstos (medias muestrales)

-0,21

-0,11

-0,01

0,09

0,19

0,29

3,9 4,1 4,3 4,5 4,7 4,9 5,1

Figura 9.8: Datos del ejemplo 2 en logaritmos

no sería correcto. Un gráfico del tipo 9.3 o unos residuos con el aspecto del la Figura 9.7 sugieren,entonces, que el modelo aditivo no es correcto y que el modelo multiplicativo (9.11) sería másadecuado. Una solución sencilla y que tiene muy buen resulado en la práctica, es la linealizacióndel modelo (9.11) mediante una transformación logarítmica (sumando cierta constante si hubiesevalores negativos). Entonces, el análisis se realizaría sobre la variable yij = ln(yij). El modelo sería:

yij = ln(μi × uij) = ln(μi) + ln(uij) ≡ mi + vij . (9.12)

Por ejemplo, si en lugar de analizar el tiempo de ejecución se analizase su logaritmo se tendríanlos datos y los residuos frente a valores previstos de la Figura 9.8.En esta figura puede verse que la variabilidad es más estable y que las hipótesis del modelo

se cumplen. Otra forma de detectar este efecto de variabilidad creciente con la magnitud de lavariable es a través de una asimetría positiva de la distribución de los residuos. Como es sabido,una transformación logarítmica ayudaría a corregir este tipo de asimetría.Las aplicaciones informáticas suelen añadir algún contraste de homogeneidad de varianzas. Su

hipótesis nula es la igualdad, por lo que si su p-valor es muy bajo deberemos cuncluir que lasvarianzas son diferentes. En general, estos contrastes de varianza son muy sensibles a la falta denormalidad, por lo que pequeños alejamientos de la normalidad pueden darnos resultados equiv-

Page 32: Capítulo 9 - UC3M · 2 Experimentos con un factor 9.1. Introducción al diseño de experimentos ... un experimento o estudio experimental es un estudio observacional (que también

32 Experimentos con un factor

ocados. Por el contrario el test F es aún fiable ante pequeñas desviaciones de normalidad (másque los tests de igualdad de varianzas) así como pequeñas desviaciones de igualdad de varianzas.Por tanto, muchos autores no recomiendan confiar en dichos contrastes de igualdad de varianzascomo requisito previo para hacer el test F (esos contrastes son interesantes, pero en otros proble-mas estadísticos). Suele recomendarse la siguiente regla informal: si la mayor desviación típicamuestral no supera al doble de la menor, podemos utilizar los métodos basados en lahipótesis de igualdad de varianzas y los resultados ser aún bastante precisos.

Independencia:

El error experimental uij no será independiente si a lo largo del transcurso del experimentocambian lentamente las condiciones de experimentación. Por ejemplo, supongamos que el exper-imento del ejemplo 1 se realiza de la siguiente manera: en primer lugar se colocan en el hornode pruebas todas las placas de substrato 1 y se anotan los resultados. Después se extraen dichasplacas y se repite el experimento con todas las placas de tipo 2 y, finalmente, se vuelve a repetircon las placas de tipo3. De esta forma, si las condiciones del horno no son estacionarias, partede la variabilidad puede deberse a las condiciones del horno, que evolucionan con el tiempo, y noal tipo de substrato. El análisis de la independencia es, en general, complicado. Por esa razón,el experimento debe diseñarse de manera que dicha independencia pueda asegurarse ya desde elcomienzo. Por ejemplo, para evitar que el estado transitorio del horno afecte a la interpretaciónde los resultados, puede aleatorizarse el orden en que las distintas placas se colocan en el horno.Una forma sencilla de comprobar la independencia es hacer un gráfico de residuos ordenados en lamisma secuencia temporal en que se obtuvieron. Si existe dependencia se observará una tendenciaen la evolución temporal de los residuos.

OBJETIVOS DE APRENDIZAJE

Al finalizar este tema el alumno debe ser capaz de:

Entender la diferencia entre un estudio observacional y un experimento

Entender que en un experimento pueden extraerse conclusiones de causa-efecto

Escribir un modelo que explique la variabilidad de la media de una variable aleatoria enfunción de los niveles de un factor

Entender la descomposición de la variabilidad y realizar una tabla ANOVA con un factor

Hacer el test F de análisis de la varianza e interpretarlo

Comprobar a partir de los datos que se cumplen las hipótesis del modelo para poder realizarel test F

Realizar comparaciones de varios grupos mediante intervalos de confianza múltiples

Realizar transformaciones que corrijan heterocedasticidad

Aplicar ANOVA a un conjunto de datos reales obtenidos por el alumno mediante experi-mentación y sacar conclusiones prácticas