teorico10

46
Elementos del Diseño de Experimentos y Análisis de la Varianza

description

eco

Transcript of teorico10

Page 1: teorico10

Elementos del Diseño de Experimentos y

Análisis de la Varianza

Page 2: teorico10

Sobre un proceso existente se observa una o más variables aleatorias (registrar información)

¿Qué es un estudio observacional?

Finalidad: explorar, describir, confirmar hipótesis

Page 3: teorico10

“Prueba o serie de pruebas en las cuales se inducen cambios deliberados en las variables de entrada de un proceso o sistema, de manera que sea posible observar e identificar las causas de los cambios en la respuesta de salida” (Montgomery 1991).

¿Qué es un experimento?

Finalidad: confirmar hipótesis, modelar, predecir

Page 4: teorico10

Consisten en la aplicación de tratamientos a un conjunto de unidades experimentales para valorar y comparar las respuestas obtenidas desde diferentes tratamientos

Experimentos Comparativos

Se busca incrementar la precisión y el alcance de la inferencia realizada

DiseñoDiseño

Page 5: teorico10

Algunos diseños clásicosAlgunos diseños clásicosCompletamente aleatorizado

Bloques completos aleatorizados

Cuadrado latino

Experimentos factoriales

Diseños en parcelas divididas

Page 6: teorico10

Diseño de Experimentos: Elementos

Unidad experimentalFactores y TratamientosFuentes de Error

AleatorizaciónRepetición

Estructura de parcelasEstructura de tratamientos

Page 7: teorico10

Unidad Experimental (UE)

Porción de material, individuo o grupo Porción de material, individuo o grupo de individuos, que recibe un de individuos, que recibe un tratamiento y sobre la que se observa tratamiento y sobre la que se observa una respuesta. una respuesta.

El El tamaño de la UEtamaño de la UE es usualmente una es usualmente una decisión arbitraria, pero afecta la decisión arbitraria, pero afecta la calidad de la observación de la variable calidad de la observación de la variable respuesta.respuesta.

La UE es definida y tratada de forma La UE es definida y tratada de forma tal que provea una respuesta “nueva” tal que provea una respuesta “nueva” o estadísticamente o estadísticamente independienteindependiente de la de la provista por otras UE.provista por otras UE.

Page 8: teorico10

Variables de respuesta

Las respuestas suelen Las respuestas suelen llamarse variables de llamarse variables de respuesta o variables respuesta o variables dependientes.dependientes.

Las variables de respuesta Las variables de respuesta pueden ser pueden ser cualitativas o cualitativas o cuantitativas.cuantitativas.

Las observaciones de la Las observaciones de la respuesta pueden ser respuesta pueden ser uni o uni o multivariadas.multivariadas.

Page 9: teorico10

Factores

Las potenciales fuentes de Las potenciales fuentes de variación de la respuesta en un variación de la respuesta en un experimento identificadas experimento identificadas a a prioripriori son llamadas factores. son llamadas factores.

Los distintos estados o valores Los distintos estados o valores de los factores se llaman niveles.de los factores se llaman niveles.

La combinación de niveles La combinación de niveles evaluados para un conjunto de evaluados para un conjunto de factores recibe el nombre de factores recibe el nombre de tratamiento.tratamiento.

Page 10: teorico10

Error experimental

El término de error El término de error experimental es la diferencia experimental es la diferencia entre el valor observado de entre el valor observado de la variable respuesta sobre la variable respuesta sobre una UE y su valor esperado.una UE y su valor esperado.

El error experimental es la El error experimental es la fuente de variación fuente de variación observada entre UE tratadas observada entre UE tratadas de la misma forma.de la misma forma.

Page 11: teorico10

Aunque la aleatorización “distribuye Aunque la aleatorización “distribuye los errores” y controla el sesgo, no los errores” y controla el sesgo, no elimina ni minimiza el error elimina ni minimiza el error experimental.experimental.

Cuando se puede reconocer una Cuando se puede reconocer una fuente sistemática de variación en el fuente sistemática de variación en el error, entonces es posible error, entonces es posible incorporarla al modelo y descontarla incorporarla al modelo y descontarla del error experimental.del error experimental.

El bloqueo es el resultado de un El bloqueo es el resultado de un reconocimiento a priori de fuentes reconocimiento a priori de fuentes sistemáticas de error y permite sistemáticas de error y permite obtener experimento más eficientes.obtener experimento más eficientes.

Aleatorización

Page 12: teorico10

Repetición

Repetición de un tratamiento es Repetición de un tratamiento es la aplicación del tratamiento a una la aplicación del tratamiento a una nueva UEnueva UE

Dado que toda observación tiene Dado que toda observación tiene error, la única forma de estimar error, la única forma de estimar insesgadamente el efecto de un insesgadamente el efecto de un tratamiento es promediando sobre tratamiento es promediando sobre un conjunto de repeticionesun conjunto de repeticiones

La identificación de las fuentes de La identificación de las fuentes de error facilita obtener repeticiones error facilita obtener repeticiones genuinas de un tratamientogenuinas de un tratamiento

Pseudoréplicas

Page 13: teorico10

El diseño de la estructura de parcelas consiste en el agrupamiento de unidades experimentales homogéneas en grupos o bloques

Estructura de parcelas

Page 14: teorico10

Estructura de parcelas

Unidades experimentales homogéneas, es decir sin estructura

Diseño Completamente al Azar

Unidades experimentales heterogéneas, es decir que presentan variabilidad sistemática natural o inducida

Diseño en Bloques

Page 15: teorico10

Consiste en el conjunto de tratamientos o poblaciones que el experimentador ha seleccionado para estudiar y/o comparar

Estructura de tratamientos

Page 16: teorico10

Modelo A través de la modelación estadística A través de la modelación estadística

se analiza la respuesta del sistema en se analiza la respuesta del sistema en estudioestudio

El modelo debe incluir todas las El modelo debe incluir todas las fuentes de variación reconocidas, ya fuentes de variación reconocidas, ya sean debida a factores de tratamiento sean debida a factores de tratamiento o a la estructura de las UEo a la estructura de las UE

También debe reconocer fuentes de También debe reconocer fuentes de variación no explicadas (error) de variación no explicadas (error) de naturaleza aleatorianaturaleza aleatoria

El modelo debe incluir supuestos El modelo debe incluir supuestos distribucionales sobre las distribucionales sobre las componentes aleatoriascomponentes aleatorias

Page 17: teorico10

Diseño Completamente Aleatorizado

Page 18: teorico10

variable respuesta = media general + efecto de tratamiento + error aleatorio

Diseño Completamente Aleatorizado:Modelo

Media general de las observaciones ()

Efecto del tratamiento (i )

El error aleatorio (ij )

Page 19: teorico10

Yij = + i + ij , con i=1,...,a y j=1,..,n

donde: Yij es la j-ésima observación del i-ésimo tratamiento

es la media general de las observaciones

i es el efecto del i-ésimo tratamiento

ij es una variable aleatoria normal, indep. distribuida con esperanza 0 y varianza 2 ij

Diseño Completamente Aleatorizado:Modelo

Page 20: teorico10

Diseño Completamente Aleatorizado

El objetivo del ANAVA de efectos fijos es contrastar las hipótesis

H0: µ1=...=µa versus

H1: Al menos un par de medias difieren

Page 21: teorico10

Diseño Completamente Aleatorizado

O bien:

H0: 1=...=a= 0 vs.

H1: Al menos un tratamiento tiene efecto no nulo

Page 22: teorico10

Diseño Completamente Aleatorizado

La prueba consiste en calcular el estadístico F utilizando los estimadores de 2

E y 2D de la siguiente

forma:

2 2 2 20 1: vs. : E D E DH H

CMEF

CMD

Page 23: teorico10

Diseño Completamente Aleatorizado

Fuente deVariación

Suma deCuadrados

GradosdeLibertad

CuadradosMedios

F Obs.

EntreTratamientos

SCE gle=a-1

CME CMECMD

Dentro(ErrorExperimental)

SCD=SCT-SCE

gld=N-a

CMD

Total SCT glt=N-1

Page 24: teorico10

Diseño Completamente Aleatorizado:ejemplo

El porcentaje de humedad relativa (HR) es determinante para el ataque de hongos en semillas. Para evaluar la susceptibilidad de las semillas de una forrajera al ataque de un hongo se realizó un ensayo en cámaras de cría con tres porcentajes de HR: 70%, 80% y 90%. Se tomaron cinco observaciones para cada porcentaje de HR, registrándose el número de semillas atacadas en un grupo de 100 semillas.

Page 25: teorico10

Diseño Completamente Aleatorizado:ejemplo

Porcentajede HR

Observaciones(número de semillas atacadas)

Totales detratamiento

yi.70 7 6 9 5 9 36

80 12 15 17 18 20 8290 14 16 18 21 15 84

y..=202

Page 26: teorico10

Diseño Completamente Aleatorizado:ejemplo

Cuadro de Análisis de la Varianza

F.V. SC gl CM F p-valorModelo 294.93 2 147.47 21.90 0.0001

HR 294.93 2 147.47 21.90 0.0001

Error 80.80 12 6.73

Total 375.73 14 _

Page 27: teorico10

Diseño Completamente aleatorizado:ejemplo

Si = 0.05 luego el punto crítico que delimita la zona de aceptación y rechazo de H0 es F(2,12; 0.95) = 3.88

Valor p= 0.0001

Se concluye, con un nivel de significación del 5%, que se rechaza la hipótesis nula de igualdad de medias, por lo tanto al menos una de las HR produce un grado de ataque de hongos diferente de los restantes.

Page 28: teorico10

Comparaciones Múltiples

Si se rechaza la hipótesis nula del ANAVA, la pregunta que sigue es ¿cuál o cuáles de las medias poblacionales en estudio son las diferentes?Existe una gama muy amplia de alternativas para llevar adelante este tipo de pruebas, entre las que se destacan las pruebas de Tukey (Tukey, 1949), Scheffé (Scheffé, 1953), Duncan (Duncan, 1955), Dunnet (Dunnet, 1964) y la de Fisher (Fisher, 1966), entre otras

Page 29: teorico10

Prueba de Tukey

La DMS de la prueba de Tukey para el ejemplo es 4.37 Luego, se debe observar que las diferencias entre medias muestrales sean mayores que 4.37

Media de 70%=7.2

Media de 80%=16.4

Media de 90%=16.8

Media de 70%=7.2

9.2 9.6

Media de 80%=16.4

0.4

Media de 90%=16.8

Page 30: teorico10

Prueba de Tukey

Así se concluye:

70% 80%

70% 90%

80% = 90%

Page 31: teorico10

Prueba de Tukey

Test: Tukey Alfa= 0.05 DMS= 4.37841

Error: 6.7333 gl: 12HR Medias n 70 7.20 5 A 80 16.40 5 B 90 16.80 5 B

Letras distintas indican diferencias significativas (p <= 0.05)

Page 32: teorico10

Verificación de SupuestosLos errores se suponen normales con esperanza cero, varianza común e independientes. Los predictores de los errores son los residuos

Se llama residuo de la observación j-ésima correspondiente al i-ésimo nivel del factor tratamiento al predictor de ij, que se denota por

eij y se obtiene como la diferencia

entre el valor observado y el valor predicho por el modelo

Page 33: teorico10

NormalidadSeleccionando los residuos como variable de análisis, una de las técnicas más usadas es construir un Q-Q plot normal. Mediante esta técnica se obtiene un diagrama de dispersión en el que, si los residuales son normales y no hay otros defectos del modelo, entonces se alinean sobre una recta a 45°

-4.40 -2.25 -0.10 2.05 4.20

Cuantiles de una Normal(1.3693E-16,5.7714)

-4.40

-2.25

-0.10

2.05

4.20

Cua

ntile

s ob

serv

ados

(RD

UO

_Num

.Sem

.) n= 15 r= 0.992 (RDUO_Num.Sem.)

Page 34: teorico10

NormalidadInfoStat provee automáticamente el coeficiente de correlación (r) entre los residuos y los estadísticos de orden muestrales, en el gráfico Q-Q plot.

El cuadrado de r es el estadístico r2 de Shapiro-Francia, para la prueba de normalidad. Los valores de significancia asociados a r2 para muestras de tamaño 35 a 99 fueron publicados por Shapiro y Francia en 1972 (Rawlings,1988).

Valores de r2 cercanos a 1 sugieren distribución normal de la variable en estudio.

Page 35: teorico10

Homogeneidad de VarianzasCuando los errores son homocedásticos, haciendo un gráfico de dispersión de residuos vs. valores predichos por el modelo se debe observar una nube de puntos sin patrón alguno. Un patrón típico que indica falta de homogeneidad en las varianzas, se muestra en la siguiente figura:

4.83 5.78 6.74 7.69 8.65

Predichos

-1.81

-1.18

-0.56

0.07

0.70

1.32

1.95

2.58R

es

idu

os

Residuos vs. Predichos

Page 36: teorico10

Homogeneidad de Varianzas:

Ejemplo

6.72 9.36 12.00 14.64 17.28

PRED_Semillas

-4.83

-2.46

-0.10

2.27

4.63R

DU

O_

Se

mill

as

Page 37: teorico10

Para modelar es importante identificar DOS tipos de estructuras

Estructura de parcelas

Aleatorización

Estructura de tratamientos

Page 38: teorico10

El balance de algunos factores que influyen sobre las unidades experimentales se puede mejorar aleatorizando separadamente dentro de subgrupos de unidades (estratificando o bloqueando).

Toda restricción a la aleatorización completa debe ser considerada durante el análisis.

Estratificación o Bloqueo de UE

Page 39: teorico10

Diseño en Bloques completos aleatorizados

Page 40: teorico10

Diseño en Bloques completos aleatorizados

Homogeneidad dentro de bloques

Heterogeneidad entre bloques

Page 41: teorico10

Modelo

YYij ij = = + + ii + + jj + + ijij

con i=1,...,a j=1,...,bcon i=1,...,a j=1,...,b• corresponde a la media general• i el efecto del i-ésimo tratamiento • j el efecto del j-ésimo bloque• ij es el error aleatorio

El error aleatorio está asociado con la unidad experimental en el bloque j , que recibe el tratamiento i. Comúnmente los términos de error se asumen normalmente distribuidos con esperanza cero y varianza común 2.

Page 42: teorico10

Diseño en Bloques completos aleatorizados: ejemplo

Se realizó un ensayo para evaluar el rendimiento en kg de materia seca por hectárea de una forrajera con distintos aportes de N2 en forma de urea. Las dosis de urea probadas fueron 0 (control), 75, 150, 225 y 300 kg/ha.

El ensayo se realizó en distintas zonas, en las que por razones edáficas y climáticas se podían prever rendimientos diferentes. Las zonas en este caso actuaron como bloques.

Page 43: teorico10

BloqueI

225 300 75 0 150

BloqueII

300 150 75 0 225

BloqueIII

75 0 300 225 150

BloqueIV

225 150 75 300 0

Diseño en Bloques completos aleatorizados:

ejemplo

Page 44: teorico10

Fuente deVariación

Suma deCuadrados

GradosdeLibertad

CuadradosMedios

F Obs.

Bloques SCB glb=b-1

EntreTratamientos

SCE gle=a-1

CME CMECMD

Dentro(ErrorExperimental)

SCD=SCT-SCE

gld=N-a

CMD

Total SCT glt=N-1

Diseño en Bloques completos aleatorizados

Page 45: teorico10

Diseño en Bloques completos aleatorizados: ejemplo

Page 46: teorico10

Comentarios finales

El DBCA es una estrategia experimental para disminuir el efecto de variaciones sistemáticas entre UE sobre la comparación de medias de tratamiento.Tales variaciones son reconocidas antes de realizar el experimento.

Un bloque es un grupo de UE homogéneas.

El DBCA representa una restricción a la aleatorización. Los tratamientos son aleatorizados por bloques.