Post on 04-May-2018
1
AGRO 5005
BIOMETRÍA
Notas de clase
2017
Raúl E. Macchiavelli, Ph.D.
Linda Wessel-Beaver, Ph.D.
Estas notas complementan el material presentado en el libro de texto del curso
2
Contenidos
1. Introducción .................................................................................................................... 3
2. Recolectando datos ......................................................................................................... 4
3. Organización y resumen de datos: métodos gráficos ...................................................... 6
4. Medidas numéricas de resumen: tendencia central ....................................................... 13
5. Medidas numéricas de resumen: variabilidad o dispersión .......................................... 15
6. Introducción a probabilidad .......................................................................................... 18
7. Distribución normal ...................................................................................................... 21
8. Muestreo aleatorio. Distribución muestral. ................................................................... 26
9. Estimación de parámetros ............................................................................................. 29
10. Pruebas estadísticas ..................................................................................................... 31
11. Pruebas t para dos muestras independientes ............................................................... 36
12. Pruebas t para datos pareados ..................................................................................... 43
13. Introducción al análisis de la varianza ........................................................................ 49
14. Comparaciones múltiples en ANOVA........................................................................ 53
15. Tablas de contingencia ................................................................................................ 57
16. Regresión lineal simple ............................................................................................... 59
17. Diseño en bloques completos al azar .......................................................................... 65
18. Introducción a los diseños experimentales ................................................................. 69
19. Documentación y comunicación de resultados ........................................................... 71
3
1. Introducción
¿Qué es la Biometría? Es la disciplina que se encarga de obtener información a
partir de datos biológicos.
¿Cómo? Mediante gráficos, medidas numéricas de resumen (ej., promedio),
comparaciones, predicciones, etc.
Etapas que debemos seguir para obtener información “buena” a partir de los datos:
1. Recolectar los datos
2. Resumir los datos
3. Analizar los datos
4. Comunicar los resultados
Ejemplo
Queremos conocer el efecto de un nuevo insecticida sobre la población de un cierto
insecto. Para ello el investigador selecciona cinco fincas en la región de interés y aplica el
insecticida a la mitad del área sembrada en cada finca. La otra mitad del área en cada
finca queda como “testigo” o “control”. Nos interesa conocer el número promedio de
insectos por planta luego de aplicar el insecticida, y compararlo con el número promedio
de insectos por planta en el área testigo.
Población(es) de interés: Todas las plantas de ese cultivo a las que podríamos aplicar el
insecticida (o todos los recuentos de insectos en todas las plantas de ese cultivo a las que
podríamos aplicar el insecticida).
Muestra(s): Las plantas tratadas en las cinco fincas que se usaron en el experimento (o
los recuentos en las plantas usadas en el experimento).
La forma más común para obtener información de los datos es realizar una
INFERENCIA acerca de una población de interés con la información disponible en una
muestra de esa población.
Población (conjunto de
todas las medidas)
Muestra (sub-
conjunto de la
población)
4
2. Recolectando datos
a. Muestreos
b. Experimentos
c. Estudios observacionales
Antes de comenzar a recolectar los datos debemos especificar claramente para qué
recolectamos los datos (OBJETIVOS), identificar la(s) medición(es) de interés
(OBSERVACIONES) y seleccionar un diseño o plan apropiado. Estas tres etapas
preliminares se pueden pensar como tres preguntas:
Muestreos
Planes de muestreo más comunes:
1. muestreo aleatorio simple
2. muestreo aleatorio estratificado
3. muestreo por conglomerados (de dos o más etapas)
4. muestreo sistemático
En el muestreo aleatorio simple todas las posibles muestras tienen la misma probabilidad
de ser elegidas. En el muestreo aleatorio estratificado la población es heterogénea, y
entonces de divide en estratos más homogéneos. En cada uno de estos estratos se obtiene
una muestra aleatoria simple. Por ejemplo, se muestrean aleatoriamente 15 fincas de
plátano en la región central de la isla, 15 fincas en la región sur y 15 fincas en la región
norte. En este ejemplo los estratos son las regiones.
En el muestreo por conglomerados la población es homogénea, pero por cuestiones
prácticas se muestrea en dos etapas: primero se muestrean grupos de unidades
(aleatoriamente) y luego se muestrean unidades (aleatoriamente) solo en los grupos o
conglomerados seleccionados en la primera etapa. Por ejemplo, muestreamos
aleatoriamente 10 vaquerías, y en cada vaquería seleccionada muestreamos
(aleatoriamente) la leche de 15 vacas. El conglomerado es la vaquería, y la unidad es la
vaca.
En el muestreo sistemático se comienza en un punto aleatorio (por ejemplo la séptima
planta de la primera fila de un cultivo), y luego muestreamos cada 10 plantas.
Métodos de recolección más comunes:
1. entrevistas (personales, telefónicas)
2. cuestionarios (encuestas)
3. observación directa
4. trampas (insectos)
5. muestreo de suelos
6. transectas
7. cuadrículas
¿PARA QUÉ?, ¿QUÉ?, ¿CÓMO?
5
Experimentos
Diseños más comunes:
1. diseño completamente aleatorizado (DCA)
2. diseño en bloques completos aleatorizados (DBCA)
3. otros diseños y experimentos factoriales
Estudios observacionales
Similares a experimentos pero no hay control sobre las unidades del estudio (ya vienen
con su “tratamiento” asignado). El tipo de inferencia que podemos hacer no es tan
general como en los experimentos.
Manejo de datos
1. Recibir los datos originales (encuestas, libro de campo, cuaderno de laboratorio,
etc.)
2. Crear la base de datos en la computadora.
3. Editar la base de datos (verificar errores, pruebas lógicas, etc.)
4. Corregir y clarificar los datos.
5. Documentar la base de datos.
6. Almacenar (tanto en forma digital como en papel) los archivos originales
7. Obtener los archivos de trabajo (a partir de los originales) para pasar a las
siguientes etapas.
6
3. Organización y resumen de datos: métodos gráficos
1. ¿Qué es lo que se desea informar al lector del gráfico?
2. Elegir cuidadosamente los títulos, ejes, colores, rayas, etc.
3. No sobrecargar de información al gráfico.
4. Practicar mucho!
Gráficos para una variable:
Gráfico de sectores (“pie chart”, gráfico de torta)
Gráfico de barras (verticales, horizontales)
Diagrama de tallo y hojas
Histogramas de frecuencias (absolutas, relativas)
Polígonos de frecuencias acumuladas (ojivas)
Gráficos para dos variables:
Gráfico x-y (diagrama de dispersión o “scattergram”)
Series de tiempo
Gráfico de sectores (“pie chart”): Se usa para representar partes de un todo (por ejemplo,
porcentajes). Deben usarse para pocas categorías, y si es posible, ordenarse en forma
ascendente o descendente.
Variedad Cuerdas
“Categorías en filas” en InfoStat (categorías discretas)
A 3500 Frecuencia B 1200
C 700
D 300
A (61%)
B (21%)
C (12%)
D (5%)
7
Gráfico de barras: similar al de sectores, excepto que la altura de la barra es la frecuencia
o porcentaje que se quiere presentar. También se usa para representar totales, promedios,
sumas u otras cantidades en el eje vertical.
Se deben dejar espacios entre las categorías discretas (“Variedad” en este
ejemplo).
Los rectángulos deben ser todos del mismo ancho.
Usar barras horizontales si el número de categorías es muy alto.
Gráfico x-y (diagrama de dispersión o “scattergram”): En el eje horizontal (x) se ubica la
variable independiente (“explicativa”) y en el eje vertical (y) la variable dependiente
(“respuesta”).
A B C D
Variedad
0
740
1480
2220
2960
3700
Cue
rdas
0.0025 0.0035 0.0045 0.0055
Peso Seco
0
25
50
75
100
% G
erm
ina
ció
n
8
Series de tiempo: gráfico x-y en el que el eje horizontal es el tiempo. Debe haber al
menos 4-5 puntos en el eje horizontal para poder observar alguna tendencia.
Otros gráficos relacionados
Carne res Carne cerdo
1924 1927 1930 1933 1936 1939 1942
Año
38.0
47.2
56.4
65.6
74.8
84.0
Pre
cio
carn
e (
cents
/lbs)
Diagrama de dispersión del precio de la carne de res y de cerdo entre 1925 y1941
Carne res Carne cerdo
CM SUC1 SUC2 SUC3 SUC4
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Año
0
100
200
300
400
500
600
Ganancia
s n
eta
s (
mile
s d
e d
óla
res)
y cuatro sucursales de una empresa agropecuaria
Ganancias netas discriminadas por año de las contribuciones de la casa matriz
CM SUC1 SUC2 SUC3 SUC4
9
Principales problemas en la construcción, presentación e interpretación de gráficos
Ejes no indican claramente qué se está midiendo
Escalas no apropiadas exageran u ocultan diferencias
Sobrecarga de información no relevante (por ejemplo, palabras muy largas, letras
muy pequeñas, 23 barras adyacentes en cada una de 5 categorías, etc.)
Falta de información relevante (por ejemplo, observaciones individuales atípicas,
desviaciones estándar, etc.)
Demasiados detalles que distraen la atención (por ejemplo, exceso de adornos,
sombras, dimensiones innecesarias, colores que no se aprecian, etc.)
Énfasis en la forma y no en el contenido (estamos enseñando a estudiantes
universitarios, no a alumnos de kinder!)
PG-claro PG-oscuro
PG-rojizo
chicas medianas grandes
Tamaño
0
25
50
75
100
% G
erm
ina
ció
n
PG-claro PG-oscuro
PG-rojizo
1896 1900 1904 1908 1912 1916 1920 1924 1928 1932 1936 1940 1944 1948 1952 1956 1960 1964 1968 1972
año
70
75
80
85
90
95
altu
ra
Salto en alto en olimpiadas
10
Un sitio muy interesante con ejemplos históricos de buenos y malos gráficos estadísticos
que pueden visitar es http://www.math.yorku.ca/SCS/Gallery/
Diagrama de tallo y hoja: Para resumir muchos datos sin perder demasiada información.
1. Dividir cada observación en dos conjuntos de dígitos: el primero es el tallo y el
segundo es la hoja.
2. Hacer una lista vertical con los tallos.
3. Para cada tallo, anotar las hojas.
4. Si quedan muy pocos tallos con muchas hojas cada uno, usar los dígitos 0-4 como
hojas de un primer tallo y los dígitos 5-9 como hojas de un segundo tallo.
5. Si cada hoja tiene demasiados dígitos, redondear.
Ejemplo: los siguientes son recuentos de insectos por planta en 40 plantas escogidas
aleatoriamente. (Los datos ya están ordenados.)
0 30 47 Ejemplo de Diagrama de Tallo y Hoja:
1 33 49 Tallo Hojas
2 34 52
4 36 55
6 36 55
8 37 56
10 38 56
11 40 57
11 42 58
15 42 58
16 45 59
19 45 59
29 46
29 46
Histograma de frecuencias (absolutas o relativas): Se usa para datos cuantitativos. (Si los
datos son cualitativos, el gráfico análogo es el de barras).
Primero construimos una tabla de frecuencias. Dividimos los datos en intervalos de
clase. Cada dato va a pertenecer a exactamente un intervalo. Para definir estos intervalos
definimos el recorrido = valor máximo – valor mínimo. Dividimos el recorrido entre la
cantidad de intervalos deseados (entre 5 y 20, según el número de observaciones).
Ejemplo: los siguientes son recuentos de insectos por plantas en 40 plantas escogidas
aleatoriamente. (Los datos ya están ordenados.)
Recorrido: ω=59-0=59
11
Si deseamos usar 6 clases, el ancho de cada intervalo debe ser mayor de 9.8 (para cubrir
todas las observaciones). Por lo tanto usaremos un ancho de cada intervalo de 10.
Para evitar ambigüedades, usaremos los límites de clase con un lugar decimal más que
las observaciones (de esta forma ninguna observación caerá en el límite).
Intervalo Marca de
clase
Frecuencia Frecuencia
Acumulada
Frecuencia
Relativa
Frec.Relativa
Acumulada
-0.5 – 9.5 4.5 6 6 .15 .15
9.5 – 19.5 14.5 6 12 .15 .30
19.5 – 29.5 24.5 2 14 .05 .35
29.5 – 39.5 34.5 7 21 .175 .525
39.5 – 49.5 44.5 9 30 .225 .75
49.5 – 59.5 54.5 10 40 .25 1.00
Histograma (la forma del gráfico se ve igual no importa si se utiliza “frecuencia” o
“frecuencia relativa”) :
-0.5 9.5 19.5 29.5 39.5 49.5 59.5
Insectos por planta
0
3
6
9
12
15
frecu
enci
a ab
solu
ta
12
Polígono de frecuencias acumuladas:
Las frecuencias relativas siempre tienen una interpretación de probabilidad. Por ejemplo,
si seleccionamos una planta al azar, ¿cuál es la probabilidad de encontrar entre 10 y 19
insectos?, ¿cuál es la probabilidad de encontrar menos de 30 insectos?
-0.5 9.5 19.5 29.5 39.5 49.5 59.5
Insectos por planta
0.00
0.20
0.40
0.60
0.80
1.00
frec.
rel.
acum
ulad
a
13
4. Medidas numéricas de resumen: tendencia central
Las medidas numéricas de resumen son más simples que los gráficos y es más sencillo
hacer inferencias sobre ellas que sobre gráficos.
Podemos calcular medidas numéricas sobre todas las mediciones en una población
(medidas poblacionales o parámetros), o sobre las observaciones en una muestra (medidas
muestrales o estadísticos). En la práctica los estadísticos pueden usarse como estimadores
de los parámetros.
1. Medidas de tendencia central
1a. Modo (moda): medición más frecuente (con la mayor frecuencia).
Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1 Modo= Mo = 7
Para datos agrupados en tablas de frecuencia, es el centro del intervalo modal (el más
“alto” en el histograma).
Puede usarse para datos cualitativos o cuantitativos.
Puede haber más de un modo en la distribución (bimodal, trimodal, etc.)
1b. Mediana: valor central de las observaciones cuando éstas están ordenadas de menor a
mayor.
Si hay un número impar de observaciones (n), la posición de la mediana es 1
2
n.
Si n es par, la mediana es el promedio de la observaciones en posiciones 2
n y 1
2
n .
Si hacemos la convención que una posición fraccional (ej. 5.5) es el promedio de las
posiciones correspondientes, entonces siempre podemos usar la fórmula 1
2
n para la
posición de la mediana.
Ejemplos: 7, 9, 11, 11, 13; n=5, posición=3, Mediana=Md=11
1, 5, 6, 7, 8, 10, 10, 11; n=8, posición= 4.5, Md= (7+8)/2=7.5
Si los datos están agrupados el libro presenta una fórmulas que no vamos a usar, pero son
equivalentes a interpolar a partir de la ojiva. Nosotros podemos leerla directamente desde
este gráfico, como el valor sobre el eje horizontal que acumula el 50% de la frecuencia
total. Para los datos de insectos por planta,
14
En este caso la mediana es aproximadamente 38.
1c. Media (promedio o media aritmética). Según sea poblacional o muestral, la
denotaremos como o Y , respectivamente.
1
1 n
i
i
Y Yn
Si los datos son agrupados en intervalos, 1
1 k
i i
i
Y f Yn
, donde iY es el centro de cada
intervalo y if es la frecuencia de cada uno de los k intervalos.
Es la medida más usada, la más simple de interpretar, pero puede estar muy afectada por
valores extremos. Por ejemplo, 1, 3, 5, 7 y 9 tienen 5Y y Md=5; pero 1, 3, 5, 7, 90 tienen
la misma mediana y 21.2Y .
1d. Media “recortada” (trimmed mean). La media recortada al 10% (10%rY ) se calcula
eliminando el 10% superior y el 10% inferior de los datos y calculando el promedio del
resto.
¿Cómo se comparan Mo, Md, Y y rY ? Si los datos tienen una distribución simétrica con
un único pico central, todas son aproximadamente iguales. Si la distribución es asimétrica
o “sesgada” (tiene una “cola” más larga que la otra), la media tiende hacia la cola y el modo
hacia el otro extremo.
Modo Mediana Media
No único Único Único
No influido por extremos No influido por extremos Influido por extremos
No puede combinarse No puede combinarse Puede combinarse
Datos cualitativos o
cuantitativos
Datos cuantitativos (al
menos ordinales)
Datos cuantitativos
0
0.5
1
0 5 10 15 20 25 30 35 40 45 50 55 60Fre
c. R
ela
tiva
Ac
um
.
Insectos
Ojiva
15
5. Medidas numéricas de resumen: variabilidad o dispersión
2a. Recorrido (amplitud): ω=máximo-mínimo
Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1, 2 ω=9-1=8
Para datos agrupados en tablas de frecuencia, es la diferencia entre el límite superior
del último intervalo y el límite inferior del primero.
2b. Recorrido intercuartílico (IQR): para definirlo necesitamos presentar otras medidas
de posición: los percentiles.
El percentil 60 ( 60P ), por ejemplo, es un valor de las observaciones que tiene el 60% de las
observaciones por debajo de él, y un 40% de las observaciones por encima. La mediana,
usando esta notación es 50P .
Los cuartiles son percentiles que dividen el 25%, 50% y 75% de las observaciones:
1 25 2 3 75, Md,Q P Q Q P
Para el cálculo de percentiles y cuartiles de datos agrupados, se usa la ojiva (de la misma
manera que se usa para el cálculo de la mediana).
Para datos no agrupados debemos tener los datos ordenados (por ejemplo en un diagrama
de tallo y hoja). Recordemos que la posición de la mediana es 1
2
n. La posición de los
cuartiles es
posición dela mediana (truncada)+1
2.
Si estamos calculando el primer cuartil, comenzamos a contar desde el mínimo, y si
estamos calculando el tercer cuartil, comenzamos a contar desde el máximo.
Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1, 2 10n
posición de la mediana=5.5
posición de los cuartiles = (5+1)/2=3
1 33, Md=6, 7.Q Q
El recorrido intercuartílico es la diferencia entre los cuartiles: 3 1IQR Q Q .
Se debe hacer notar que hay formas alternativas de calcular percentiles y cuartiles para
datos no agrupados, y es posible que InfoStat o Excel den resultados levemente diferentes
cuando la cantidad de datos es pequeña.
16
2c. Varianza. Según sea poblacional o muestral, la denotaremos como 2 o 2s ,
respectivamente.
2
2 1
( )
1
n
i
i
Y Y
sn
Es la medida más usada, aunque para expresarla en las mismas unidades de las
observaciones se prefiere la:
2d. Desviación estándar: 2s s .
Fórmula de cálculo para varianza y desviación estándar:
2
12 2
1
1 1
1 1
n
ini
i
i
Y
s SS Yn n n
Fórmula de cálculo para datos agrupados:
2
12 2
1
1
1
k
i iki
i i
i
f Y
s f Yn n
2e. Coeficiente de variación:
CV= 100s
Y
Esta medida puede usarse para comparar variabilidad de conjuntos de datos diferentes.
Regla empírica: Si los datos tienen un histograma (distribución) en forma de montaña, el
68% de las observaciones estarán en el intervalo Y s , el 95% en el intervalo 2Y s y
prácticamente el 100% en el intervalo 3 .Y s
Esta regla nos permite aproximar el valor de la desviación estándar usando el recorrido:
4s , o podemos usar
6s , aunque este valor seguramente subestima s.
“Suma” en InfoStat >
Medidas Resumen
“Suma Cuad.” en InfoStat
>Medidas Resumen
(SC = SCC [“sumas de
cuadrados corregidos”] en
InfoStat)
17
Gráfico de caja (“box plot”)
Este gráfico permite representar las medidas de tendencia central y variabilidad de un
conjunto de datos y nos da al mismo tiempo una idea de la forma de la distribución. Aquí
representamos los cuartiles Q1 y Q3 como los bordes de una caja (es decir, adentro de la
caja quedará el 75%-25%=50% central de los datos). El recorrido intercuartílico es la
longitud de la caja. Además marcamos la mediana como una línea en la caja. InfoStat indica
la media con un punto dentro de la caja. De cada borde de la caja (cuartil inferior o
superior), se dibujan líneas (“bigotes”) que se extienden hasta la última observación que
no es atípica (ver más abajo). En InfoStat, las líneas se extienden hasta el valor mínimo y
máximo, si no hay valores atípicos. Otros autores o programas estadísticas dibujen estas
líneas hasta el percentil 5 o 95 respectivamente.
Cualquier valor que esté “lejos” del centro (recordemos que la caja representa el 50%
central de los datos), va a ser considerado un valor atípico. El libro de texto y InfoStat
consideran valores atípicos todos los que se encuentran a una distancia mayor de 1.5 IQR
del borde de la caja (es decir, 1.5 IQR de 1Q si consideramos los extremos inferiores, o 1.5
IQR de 3Q si consideramos los valores superiores). InfoStat llama el 1.5IQR el semi
recorrido intercuartílico (“SRIC”). El mismo libro de texto y InfoStat consideran valores
atípicos extremos aquellas observaciones a más de 3 veces el IQR del borde de la caja.
Otros textos consideran valores atípicos a las observaciones que están a una distancia
mayor de 3 IQR de la mediana. En este gráfico las observaciones atípicas se representan
por puntos, estrellas, etc. InfoStat utiliza un punto para valores atípicos y un círculo para
valores atípicos extremos.
En el gráfico abajo podemos observar la tendencia central de los datos (mediana, y la
media), la forma de la distribución (simétrica, asimétrica, etc.), los extremos, etc.
1998 1999
Año
5
10
15
20
25
Pe
rím
etr
o d
e f
ruto
(cm
)
Título
Valores atípicos (que se encuentran a
una distancia mayor de 1.5 IQR del
borde de la caja)
Q3
Q2
Q1
Recorrido Intercuartílico (IQR – “intercuartil
range” ) (50% de las observaciones
18
6. Introducción a probabilidad
(El material del capítulo 4 del texto que cubriremos en el curso está en las secciones 1, 2,
3, 6, 7, 8, 9, 10, 11, 12)
¿Para qué sirve conocer probabilidad?
Definiciones:
Experimento aleatorio: acción cuyo resultado no podemos predecir exactamente
(sólo podemos conocer los posibles resultados)
Evento: conjunto de resultados de un experimento aleatorio.
Conceptos de probabilidad:
A. Clásica: eN N
Determinando la probabilidad de un evento
1. Listamos todos los resultados igualmente probables (N)
2. Contamos los resultados que son favorables al evento ( eN )
3. Calculamos la probabilidad: eN N
Ejemplo: la probabilidad de seleccionar ace: N=52; Ne = 4 (número de
resultados “favorables”; P = 4/52
*Solamente funciona en el caso donde los resultados son igualmente probables
B. Frecuencia relativa: enn
en muchas repeticiones.
Interpretación práctica. Se halla la probablidad por medio de experimentación.
La probabilidad es la frecuencia relativa. n = número de veces que se realiza el
experimento; ne = número de veces que evento E ocurre
C. Subjetiva: “Hay un 60% de probabilidad que llueva mañana”.
Propiedad 1: 0 ( ) 1P A
Eventos mutuamente excluyentes: A y B son mutuamente excluyentes si cuando ocurre
uno el otro no puede ocurrir. Ejemplo: supongamos que el experimento sea tirar un dado,
el evento A sea que salga un número menor que 3, y el evento B sea que salga un número
mayor que 5.
Propiedad 2:
( o ) ( ) ( )P A B P A P B para eventos mutuamente excluyentes
Complemento de un evento A es el evento que A no ocurra ( A ).
19
Propiedad 3:
( ) 1 ( )P A P A
Unión de dos eventos: A B es el evento que A ocurra o que B ocurra.
Intersección de dos eventos: A B es el evento que A ocurra y que B ocurra.
Propiedad 4: ( ) ( ) ( ) ( )P A B P A P B P A B
Variable aleatoria: Es una variable cuyo valor no conocemos de antemano. El valor se
determina mediante un experimento aleatorio. Sólo sabemos cuáles son sus valores
posibles, y conocemos la probabilidad que cada uno de ellos ocurra.
Ejemplo: Definamos la variable aleatoria S, la suma de los resultados obtenidos al arrojar
dos dados. Sus valores posibles son 2, 3, ..., 12. Según lo discutido en clase, conocemos la
probabilidad de que cada uno de los valores ocurra:
P(S=2)=1/36, P(S=3)=2/36, P(S=4)=3/36, P(S=5)=4/36, P(S=6)=5/36, P(S=7)=6/36,
P(S=8)=5/36, P(S=9)=4/36, P(S=10)=3/36, P(S=11)=2/36, P(S=12)=1/36
Las variables aleatorias (al igual que todas las variables) se clasifican en cualitativas y
cuantitativas. En general trabajaremos con variables cuantitativas (numéricas). Éstas a
su vez se clasifican en discretas y continuas.
Ejemplos de variables discretas (típicamente recuentos)
la variable S del ejemplo anterior
cantidad de árboles enfermos en una muestra de 10 árboles
cantidad de hembras en una camada de cerdos
cantidad de días sin lluvia desde la siembra
Ejemplos de variables continuas (típicamente medidas)
peso
altura
concentración de Mn
pH del suelo
Distribución de probabilidad de una variable aleatoria (discreta): es una función que
asocia a cada valor de la variable aleatoria su probabilidad.
20
Ejemplo: Y=cantidad de caras al arrojar dos monedas.
Y 0 1 2 Suma
P(Y) .25 .5 .25 1
Variable binomial
Tenemos n ensayos idénticos
Cada ensayo puede resultar en “éxito” o “fracaso”
P(éxito en un ensayo)=π es siempre la misma para todos los ensayos
Los ensayos son independientes (el resultado de uno no afecta al resultado de otro)
La variable Y es el número de éxitos en los n ensayos.
Ejemplos:
1. Entrevistamos 40 vecinos y le preguntamos a cada uno cuál es su opinión sobre el
nuevo vertedero (favorable/desfavorable)
2. Arrojamos una moneda 6 veces y contamos el número de caras obtenidas.
3. En una finca que tiene un 70% de las plantas de plátano con sigatoka (una enfer-
medad), muestreamos 50 plantas aleatoriamente y a cada planta la evaluamos para
ver si tiene o no la enfermedad.
La distribución de probabilidad de Y se llama la distribución binomial:
!
( ) (1 )!( )!
y n ynP y
y n y
La media y la varianza de Y son respectivamente, n y 2 (1 )n .
Ejemplo: Para el ejemplo 2, ¿cuál sería la probabilidad de observar 0 caras? ¿y 3 caras?
0 1 2
Y
0.0
0.1
0.2
0.3
0.4
0.5
0.6
P(Y
)
21
7. Distribución normal
Variable aleatoria continua: ejemplos de variables continuas (típicamente medidas)
peso
altura
concentración de Mn
pH del suelo
Para variables continuas nos interesa la probabilidad de encontrar observaciones en un
intervalo, ( )P a Y b , y no en un valor especifico, ya que ( ) 0P Y a .La distribución
de probabilidad se denomina ( )f x y es en general una curva suave. El área bajo esta curva
es 1, y la probabilidades se calculan como áreas bajo la curva entre los valores de interés.
La distribución normal es la más comúnmente usada para variables continuas. Está
caracterizada por dos parámetros: y (la media y la desviación estándar respec-
tivamente). La variable aleatoria Y puede tomar cualquier valor real.
2
2
1 1( ) exp , .
22
Yf Y Y
Hay infinitas curvas normales, una para cada combinación de y .
0 3 6 9 12 15 18
x
0.00
0.05
0.09
0.14
0.18
f(x)
Función de densidad
P(3<x<9)
22
1. 1 2
1 2
X
0 1 2 3 4
y=
f(x)
0.0
0.2
0.4
0.6
0.8
1.0
Curva 1
Curva 2
2. 1 2
1 2
X
0 1 2 3 4
y=
f(x)
0.0
0.2
0.4
0.6
0.8
1.0
Curva 1Curva 2
Para calcular probabilidades podemos usar la Tabla 1, que indica probabilidades
asociadas con Z, que es una variable que tiene una distribución normal “estandarizada” (
0, 1 ). Se debe notar que esta distribución es siempre simétrica alrededor de .
Ejemplo 1
( 1) ?
( 1.63) ?
( 0.5) ?
( 1) ?
P Z
P Z
P Z
P Z
Para otros valores de ( , ) también podemos usar la tabla 1, notando que en esta tabla
tenemos áreas desde menos infinito hasta Z desviaciones estándar a la derecha. Para usar
esta tabla debemos calcular primero el valor .Y
Z
23
Ejemplo 2, 100, 10. Calculemos
( 120) ?
( 90) ?
(95 110) ?
(110 120) ?
P Y
P Y
P Y
P Y
El problema inverso también se puede se puede resolver con la tabla 1: Dada un área o
probabilidad, calcular el valor de Z o Y asociado. Debemos recordar que las áreas que
presenta la tabla 1 son áreas a la izquierda del valor. Por lo tanto siempre debemos
expresarla de esta forma
Ejemplo 3, calcular el valor de a tal que:
( ) .75
( ) .10 ( ) 0.90
( ) .3212
( ) .9599 ( ) .0401
P Z a
P Z a P Z a
P Z a
P Z a P Z a
Ejemplo 4, con 100, 10, calcular el valor de a tal que:
( ) .60
( ) .1515
( ) .33 ( ) .67
( ) .7157 ( ) .2843
P Y a
P Y a
P Y a P Y a
P Y a P Y a
Los mismos cálculos se pueden realizar en InfoStat usando el menú Estadísticas >
Probabilidades y Cuantiles. Allí podemos seleccionar la distribución normal, su media y
su varianza, y el dato que disponemos. Por ejemplo, para el ejemplo 1b, podemos hacer
24
Para el ejemplo 4b,
Para ver gráficamente las áreas y poder variar los parámetros de la distribución normal
podemos usar el menú Aplicaciones > Didácticas > Gráficos de funciones de densidad
continuas, y elegir la normal, con los parámetros de interés. Por ejemplo, para visualizar
el ejemplo 2d,
25
50 70 90 110 130 150
Variable
0.00
0.01
0.02
0.02
0.03
0.04
De
ns
ida
d
Función de densidad
Normal(100,100): p(evento)=0.1359
26
8. Muestreo aleatorio. Distribución muestral.
Recordemos que el muestreo aleatorio nos permite evitar tendencias sistemáticas (sesgos)
en nuestra inferencia, ya que antes de hacer el muestreo no sabemos qué elementos de la
población van a ser incluidos en la muestra.
Muestra aleatoria simple: cada posible muestra de tamaño n tiene la misma probabilidad
de ser elegida. Existen muestras aleatorias simples con y sin reemplazo, pero para
poblaciones grandes no hay mucha diferencia.
¿Cómo obtenemos una muestra aleatoria simple? Mediante una tabla de números
aleatorios, un generador de números aleatorios en la calculadora, u otro mecanismo físico
que nos permita asegurar igual probabilidad a todas las muestras.
Población de todas las muestras de tamaño n. Dada una población cualquiera, podemos
generar una nueva población cuyos elementos son cada una de las muestras posibles de
un cierto tamaño n. Es una población teórica que nos sirve para estudiar las propiedades
de los estadísticos (medidas de resumen calculadas con la muestra).
Ejemplo: Consideremos una población formada por los números 1, 2, 3, 4, 5. Todas las
muestras posibles de tamaño n=2 (sin reemplazo). Es decir nuestra población de muestras
de tamaño 2 está formada por los siguientes elementos:
(1,2); (1,3); (1,4); (1,5); (2,3); (2,4); (2,5); (3,4); (3,5); (4,5)
Ahora supongamos que calculamos Y , la media muestral a cada una de las muestras. Lo
que tenemos ahora es una media muestral asociada a cada elemento de nuestra nueva
población:
1.5; 2; 2.5; 3; 2.5; 3; 3.5; 3.5; 4; 4.5
Como ésta es una población de medias muestrales, podemos calcular su media Y , su
desviación estándar Y , etc. También podemos considerar la distribución de probabili-
dad del estadístico Y . Esta distribución se llama la distribución muestral de Y . En este
caso sería:
Y 1.5 2.0 2.5 3.0 3.5 4.0 4.5
( )f Y 0.1 0.1 0.2 0.2 0.2 0.1 0.1
27
Los pasos a seguir cuando construímos la distribución muestral de un estadístico son:
1. Obtenemos todas las muestras posibles del tamaño deseado (o tomamos muchas
muestras del tamaño deseado).
2. Para cada muestra calculamos el valor del estadístico.
3. Calculamos la probabilidad asociada con cada uno de los valores calculados en 2.
Esto es una construcción teórica para estudiar las propiedades del estadístico. En la práctica
no hacemos esto sino que obtenemos una muestra, y calculamos el valor de la media (u
otro estadístico). Con las propiedades que conocemos usamos este valor de Y para hacer
inferencias acerca de , la media poblacional de interés.
Para la media muestral, y considerando muestreo con reemplazo, tenemos las siguientes
propiedades:
2
2; ;Y Y Y
nn
Si la población original es normal, la distribución de Y también es normal. Si n es grande, la
distribución de Y es aproximadamente normal aunque la población original no lo sea.
Este resultado se denomina “teorema central del límite”.
¿Cuán grande tiene que ser la muestra para que esta propiedad se cumpla? Depende de la
forma de la distribución de la población original. En la práctica se considera que 30n
ya es suficientemente grande para la mayoría de las aplicaciones reales (esto depende de
la simetría de la población original).
El mismo ejemplo en Infostat. Para generar todas las muestras posibles, ponemos los
datos en una columna, seleccionamos Aplicaciones > Didácticas > Todas las muestras
posibles.
28
Los valores generados aparecerán en una nueva hoja de datos, y entonces podemos
construir una tabla de frecuencias, o un histograma para observar la distribución muestral,
o calcular medidas numéricas de resumen.
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Valores de media muestral
0.00
0.05
0.10
0.15
0.20
0.25
fre
cu
en
cia
re
lativa
Distribución muestral (n=2)
29
9. Estimación de parámetros
El problema central que la estadística trata de resolver es cómo hacer inferencias confia-
bles. Es decir, tratamos de decir “algo” acerca de la población usando la información
disponible en una muestra. Ese “algo” que nos interesa de la población es típicamente un
parámetro como la media o la varianza (en otros casos el “algo” puede ser la distribución
poblacional completa, no solamente la media y la varianza de la distribución).
Existen dos formas principales de hacer inferencia estadística: la estimación y la prueba
de hipótesis. En la estimación nos interesa dar un valor (o un conjunto de valores)
aproximado al parámetro de interés, mientras que en la segunda tratamos de ver si un valor
postulado del parámetro es razonable a la luz de la evidencia en la muestra.
La forma más obvia de realizar estimación es la estimación puntual: usamos el esta-dístico
como un estimador del parámetro. Por ejemplo, para estimar la media poblacional
podemos usar la media muestral Y . Decimos entonces que Y es un estimador puntual
de , y podemos indicarlo poniendo un “sombrerito” a :
ˆ Y
Ya sabemos de la clase anterior que usar Y como estimador de es razonable, ya que
Y (es decir, el promedio de todos los valores posibles de Y es el parámetro de
interés). Otro ejemplo es 2 2ˆ s . Podemos verificar que 2
2
s .
El principal problema con la estimación puntual es que en la práctica no es muy realista.
Es mejor dar un intervalo de posibles valores del parámetro. Esta forma de estimación se
llama estimación por intervalos de confianza. Para construir el intervalo, recordemos el
“teorema central del límite”: si n es grande, ~ ,Y Nn
. Esto significa que el 95% de
los valores de Y van a estar en el intervalo 1.96 , 1.96n n
. Pero cada
vez que Y está en este intervalo, estará en el intervalo
1.96 , 1.96Y Yn n
.
Esto significa que si obtuviéramos muchas muestras aleatorias de la misma población, el
95% de las veces obtendremos valores de Y con los que podemos construir intervalos que
cubrirán a .
30
Podemos pensar este proceso de la siguiente manera:
1. Obtenemos una muestra, calculamos Y y el intervalo
1.96 , 1.96Y Yn n
2. Verificamos si este intervalo cubre a . Si lo cubre, será un intervalo “bueno”, y
si no lo cubre será un intervalo “malo”.
3. Repetimos los pasos 1 y 2 muchas veces.
El 95% de las veces tendremos intervalos “buenos”, y el 5% de las veces intervalos
“malos”.
En la práctica nosotros sólo obtenemos un intervalo, y no sabemos si es “bueno” o “malo”.
Pero como sabemos que la mayoría de los intervalos son “buenos”, decimos que tenemos
una “confianza” del 95% que nuestro intervalo sea “bueno”.
En general, para cualquier nivel de confianza 1 100%, el intervalo de confianza será
2 2
, ,Y z Y zn n
donde 2
z es un valor de la tabla normal que deja un área de 2 a su derecha.
Si la desviación estándar poblacional no se conoce y 30,n podemos usar s, la
desviación estándar muestral. Si 30n veremos más adelante qué hacer.
Tamaño muestral para estimar :
Para estimar con un intervalo de confianza de un ancho no mayor de W (o lo que es lo
mismo, para estimar de manera que quede a una distancia no mayor de 2
WE de la
media muestral Y ) podemos usar la siguiente fórmula, que se obtiene a partir del inter-
valo presentado antes:
22
2
2.
z
nE
Siempre debemos redondear el resultado hacia arriba, para asegurarnos que nuestro tama-
ño muestral sea suficiente para lograr la precisión deseada.
Si no conocemos 2 , podemos usar información de estudios previos, estudios prelimina-
res o usar la aproximación 4
, que presentamos junto a la regla empírica.
31
10. Pruebas estadísticas
Esta es una forma de inferencia muy comúnmente usada: establecemos una hipótesis
científica y tratamos de comprobarla (o no) mediante datos observados.
Las etapas en la realización de pruebas estadísticas son las siguientes:
1. Formulación de las hipótesis. La hipótesis alternativa, aH , es la hipótesis de
investigación (es decir, la que formulamos para ver si los datos la verifican). La
hipótesis nula, 0H , es la que mantendremos si no hay evidencia suficiente a favor
de la alternativa.
2. Definición del estadístico de la prueba.
3. Construcción de la región de rechazo (valores del estadístico que me van a hacer
rechazar 0H ).
4. Conclusiones (aceptación o rechazo de 0H ).
Ejemplo: Queremos probar que el diámetro promedio del tronco de árboles de una cierta
variedad de mango es mayor que 25 cm a los 5 años de injertado.
Las hipótesis pueden formularse así:
0 : 25
: 25a
H
H
En la práctica, la hipótesis nula se plantea como el valor más cercano a la alternativa. En
este caso sería 0 : 25H .
Para probar estas hipótesis, obtenemos una muestra aleatoria de 15 árboles y medimos
sus diámetros. Supongamos por el momento que conocemos que la distribución de los
diámetros es ( ,10)N . Entonces podemos afirmar que 10
~ , .15
Y N
Con esta información podemos definir nuestra región de rechazo, que estará formada por
valores de Y que sean contradictorios a 0H . En este caso podemos pensar en un conjunto
de valores de Y mayores a una cierta constante cY , ya que éstos serían los valores
contradictorios a la hipótesis nula.
32
Gráficamente, si 0H es verdadera,
Al tomar una decisión podemos estar cometiendo uno de los dos errores siguientes:
1. Rechazar 0H cuando ésta es verdadera (error de tipo I).
2. Aceptar 0H cuando ésta es falsa (error de tipo II).
El criterio para definir la región de rechazo es fijar la probabilidad de cometer un error de
tipo I ( ) y definir en base de este valor la región de rechazo. Debemos observar que este
error de tipo I se puede cometer cuando 0H es verdadera, y en ese caso nosotros
conocemos exactamente la distribución de Y :
10~ 25, .
15Y N
Supongamos que fijamos 0.05 . Entonces la región de rechazo estará formada por los
valores de 10
25 1.645 29.2515
Y
Ahora supongamos que en nuestra muestra, 30.Y Como 30 está en la región de rechazo,
la conclusión es que rechazamos 0H , y por lo tanto afirmamos que el diámetro promedio es
mayor que 25.
Otra manera de alcanzar la misma conclusión es definir nuestro estadístico de la prueba como
0YZ
n
y calcular la región de rechazo en función de Z. En este caso sería 1.645.Z Como el
valor observado de 30 25
1.93610
15
Z
está en la región de rechazo, entonces
rechazamos 0H .
12.118.5
25.031.5
37.9
Diámetro
0.0
0.0
0.1
0.1
0.2
f(y)
Yc
33
Las etapas en la realización de pruebas estadísticas son las siguientes:
1. Formulación de las hipótesis nula y alternativa ( 0H y aH ). Existen tres tipos de
hipótesis alternativas, según cuál sea la hipótesis científica de interés:
0 0 0: , : , : .a a aH H H
Las dos primeras son hipótesis unilaterales (o “de una cola”), mientras que la
tercera es bilateral (“de dos colas”).
2. Definición del estadístico de la prueba:
0 .Y
Z
n
3. Construcción de la región de rechazo (R.R.), que son los valores del estadístico
que me van a hacer rechazar 0H . Ésta dependerá de la hipótesis alternativa:
2
0
0
0
Para : , la R.R. es ,
para : , la R.R. es
y para : , la R.R. es .
a
a
a
H Z Z
H Z Z
H Z Z
4. Conclusiones (aceptación o rechazo de 0H ).
Otra manera de definir nuestra región de rechazo es mediante el “valor p” o “nivel de
significancia observado”. Este método consiste en calcular el área hacia los valores más
extremos que el valor observado de Z y comparar esta área con . En este caso la regla de
decisión es muy simple:
0
0
Si , rechazamos H ,
y si , no rechazamos H .
p
p
El cálculo de p depende de la hipótesis alternativa:
0 observado
0 observado
0 observado
Para : , Pr( ),
para : , Pr( ),
y para : , 2Pr .
a
a
a
H p Z Z
H p Z Z
H p Z Z
Ejemplo: Para el ejemplo de la clase anterior, recordemos que para probar
0 : 25, : 25aH H teníamos 30, 10, 15 y 1.936.Y n Z El valor p es el área
a la derecha del valor observado de Z (1.94):
Pr( 1.94) 1 .9738 .0262p Z
34
¿Qué hacemos cuando es desconocido?
Podemos estimarlo con s (la desviación estándar muestral). Si el tamaño de muestra es
grande (n>30) entonces podemos sustituir por su estimador y usar el mismo
estadístico que usábamos antes. En caso contrario tenemos que usar otro estadístico: la t
de Student.
0 .Y
ts
n
Los valores críticos para definir la región de rechazo son diferentes y deben buscarse en
otra tabla. Para usar esta tabla necesitamos conocer los “grados de libertad”, que son el
denominador del estimador de desviación estándar que estemos utilizando (en este caso
recordemos que s tiene como denominador a 1n , y por lo tanto tenemos 1n grados de
libertad). Si los grados de libertad son , entonces la distribución es la normal estándar.
Resumen
Hipótesis 0 0:H
0 0 0: , : , : .a a aH H H
Estadístico de la prueba: 0 .Y
ts
n
Región de rechazo: 2
, , .t t t t t t
Conclusiones (aceptación o rechazo de 0H ).
Para usar esta prueba, los datos deben ser normales (o por lo menos, en forma de
montaña).
Un intervalo de confianza para basado en el estadístico t es 2 .sY tn
¿ conocido?:
Sí
n > 30 n < 30
Hipotesis nula: Ho: = o
Ho: = o Ho: = o
Estadístico de la
prueba:
z
z t
Límites de confianza: �� ± 𝑧𝛼/2 (𝜎√𝑛⁄
)
�� ± 𝑧𝛼/2 (𝜎√𝑛⁄
)
2 .sY tn
35
36
11. Pruebas t para dos muestras independientes
Consideremos la siguiente situación: queremos estudiar el efecto de una droga sobre la
cantidad de parásitos en corderos. (T = tratado; C = control)
¿Cuáles serían las hipótesis de interés?
0 1 2 1 2: :aH H
(Las siguientes hipótesis son idénticas: Ha: tratados < control; Ha: control > tratados)
Para probar las hipótesis, se realizó un experimento donde se eligieron 14 corderitos
similares, todos infectados con el parásito.
A 7 de ellos (elegidos aleatoriamente) se los trató con la droga (T), y los otros 7 se
dejaron sin tratar (C). Al cabo de 6 meses se contó el número de gusanos presentes en los
intestinos de cada uno de los corderos.
Cordero
(unidad
exp’tl)
Trat.
# de
gusanos
Cordero
(unidad
exp’tl)
Trat.
# de
gusanos
1 C 50 8 T 50
2 C 54 9 C 21
3 T 14 10 T 16
4 C 26 11 T 32
5 T 43 12 C 37
6 T 28 13 T 13
7 C 63 14 C 39
Organizando los datos para hacer la prueba a mano tenemos:
Tratados 14 43 28 50 16 32 13 ��1=28.00 s22=215.00
Control 40 54 26 63 21 37 39 2 40.00Y 2
2 215.33s
Para poder probar estas hipótesis debemos conocer la distribución muestral de 1 2Y Y .
Sabemos que 11 1
1
~ ,Y Nn
y que 22 2
2
~ , .Y Nn
Además, ambas medias son
independientes (por la forma en que diseñamos nuestro experimento). Entonces,
2 2
1 21 2 1 2
1 2
~ ,Y Y Nn n
37
Si suponemos que 2 2
1 2 , el error estándar de la diferencia se simplifica a 1 2
1 1
n n .
El estimador de la varianza común se denomina 2
ps y se calcula como un promedio
ponderado de las dos varianzas:
2 2
1 1 2 22
1 2
1 1
2p
n s n ss
n n
Este estimador tiene 1 2 2n n grados de libertad. Si 1 2n n , entonces 2 2
2 1 2
2p
s ss
.
Ahora recordemos la estructura del estadísticoestimador valor hipotético
error estándar del estim.t
. Para
probar las hipótesis de interés podemos usar también un estadístico t con la misma
estructura.
Pasos en una prueba t de datos independientes:
1. Definir las Hipótesis, t-crítica (ttabular: t o t/2), región (o regiones) de rechazo
0 1 2 0 1 2 0
1 2 0
1 2 0
: :
:
:
a
a
a
H D H D
H D
H D
los grados de libertad para t-crítica (t o t/2) son: 1 2 2n n
para pruebas de una cola se busca t tabular usando
para la prueba de dos colas se busca t tabular usando t/2
-5.48 -3.65 -1.83 0.00 1.83 3.65 5.48
Variable
0.00
0.10
0.20
0.29
0.39
De
nsi
da
d
Función de densidad
T Student(12): p(evento)=0.0500Región de rechazo para la hipótesis
Ha: 1 > 2 (t tabular es positivo)
(área sombrado = )
38
2. Realizar el experimento, tomar los datos y calcular el Estadístico (t-“observada” o
“calculada”):
1 2 0
1 2
1 1p
Y Y Dt
sn n
3. Comparar t observada (t) vs. t tabular (t o t/2) para determinar si t tabular cae en la
Región de rechazo:
2
, o t t t t t t
4. Hacer Conclusiones
Si 2
, o t t t t t t , entonces se rechaza la Ho.
En InfoStat:
p-valor > a , se acepta la Ho.
p-valor < a , se rechaza la Ho y se acepta la Ha
También podemos calcular un intervalo de confianza para 1 2 basado en el
estadístico t:
1 2 2
1 2
1 1.pY Y t s
n n
-5.48 -3.65 -1.83 0.00 1.83 3.65 5.48
Variable
0.00
0.10
0.20
0.29
0.39
De
nsid
ad
Función de densidad
T Student(12): p(evento)=0.0500
Hay dos regiones de rechazo para la
hipótesis Ha: 1 ≠ 2
La suma de las dos áreas sombradas =
39
Para que la prueba y el intervalo sean válidos, necesitamos realizar tres supuestos:
1. Poblaciones normales
2. Varianzas iguales
3. Muestras independientes
Cálculos detallados para nuestro ejemplo Para el ejemplo presentado antes,
Paso 1. Hipótesis: Ho: T = C Ha: T < C (prueba de una cola – cola izquierda)
Para .05 la región de rechazo son los valores de 1.782t (observar que tenemos 12
g.l.).
Paso 2. Calcular el estadístico (tobs)
𝑠𝑝2 =
215.00+215.33
2 = 215.165 (porque n1 = n2)
sp = √215.165 = 14.669
t = 28−40
14.669√1
7+
1
7
= -1.53 (t “observado”) (el numerador es ��T - ��C = -12*)
Paso 3. Determinar si tobs está en la región de rechazo
-1.53 > -1.782 (no está en la región de rechazo)
Paso 4: Conclusión: aceptamos 0H : no hay evidencias para decir que el tratamiento con
droga es mejor que el control sin droga.
*si usamos Ha: C > T, entonces t = +1.53 (porque el numerador es ��C - ��T = 40 – 28 =
+12); la región de rechazo son los valores de t > +1.782, y la conclusión es la misma (1.53
< 1.882, se acepta la Ho)
-5.48 -2.74 0.00 2.74 5.48
Variable
0.00
0.10
0.20
0.29
0.39
De
nsi
da
d
Función de densidad
T Student(12): p(evento)=0.0500
40
Muestras con Varianzas no iguales
¿Cómo sabemos si las varianzas poblacionales son iguales? Existen distintas pruebas para
ello. Infostat calcula una prueba F que la estudiaremos en el laboratorio correspondiente.
Si los tamaños de muestra son iguales, podemos usar el cociente entre las varianzas
muestrales como criterio aproximado: si la varianza mayor dividida la menor nos da un
cociente menor a 3, entonces el supuesto de varianzas poblacionales iguales es aceptable.
¿Qué hacemos si el supuesto de varianzas iguales no se cumple? Existe una prueba apro-
ximada, llamada la prueba t de varianzas separadas. El estadístico de esta prueba es
1 2 0
2 2
1 2
1 2
'Y Y D
ts s
n n
, y los grados de libertad se calculan como:
1 2
2 2
2 1
1 1gl
1 1 (1 )
n n
n c n c
, donde
2
1
1
2 2
1 2
1 2
.
sn
cs s
n n
Ejemplo en InfoStat (prueba de datos independientes):
Se entran los datos en dos
columnas (trata y gusanos).
Cada dato está clasificado de
una sola manera: por su
tratamiento (T o C). La
información en la primera
columna (cordero) no forma
parte de la prueba t como tal,
pero puede ser útil incluirla. Por
ejemplo, si hay un valor
extremo, uno puede investigar
en qué animal se observó este
valor.
41
`
Infostat entra los nombres de los tratamientos en orden alfabético. Para este ejemplo, tratamiento 1 es C y tratamiento 2 es T (al revés del ejemplo donde hicimos los cálculos a mano). La Ha es:
C > T, (una prueba unilateral derecha). El estadístico t se calcula con
��C - ��T = 40 – 28 = +12 (una diferencia positiva)
Ha: T <C es la misma hipótesis, pero se hace una prueba unilateral izquierdo. El estadístico t se calcula con
��T - ��C = 28 – 40 = -12 (una diferencia negativa).
42
Resultado de la prueba F de homogenidad de varianzas. Como 0.9985 > 0.05, concluimos que el supuesto de varianzas poblacionales iguales es aceptable.
Dos maneras de llegar a la misma conclusión:
t “observado” (1.53) es menor que t “crítico” o “tabular” (1.782). Está en la región de aceptación. No se rechaza Ho: no hay evidencia para decir que el uso de la droga fue mejor que el control
El p-valor es mayor que (0.0759 > 0.05). Aceptamos Ho: no hay evidencia para decir que el uso de la droga fue mejor que el control
43
12. Pruebas t para datos pareados
Consideremos la siguiente situación: queremos comparar dos laboratorios en cuanto a su
confiabilidad para determinar residuos de plomo en muestras de suelo.
¿Cuáles serían las hipótesis de interés?
0 1 2 1 2: :aH H
tratamiento 1 = laboratorio 1
tratamiento 2 = laboratorio 2
(un “tratamiento” no necesariamente es algo que se “aplica” a una unidad experimental)
Este estudio presenta una situación donde el uso de un diseño de unidades independientes
no es ideal. En realidad, no hay manera de asegurar que las muestras son uniformes (como
mínimo, las muestras varían en su cantidad de residuos de plomo).
Afortunadamente, para situaciones como esta existe un diseño experimental apropiado: un
diseño de unidades pareadas. Por ejemplo: Escogemos aleatoriamente 7 muestras
(repeticiones) de suelo. A cada muestra la dividimos por la mitad, y enviamos una mitad
al laboratorio 1 y la otra al laboratorio 2. Como en el experimento de datos independientes,
hay 14 unidades experimentales en total (7 muestras x 2 mitades/muestra = 14), pero estas
14 unidades están agrupados en 7 pares (o “grupos” o “bloques”) de unidades. Cada par
de unidades contiene dos unidades experimentales (las dos mitades de la misma muestra
de suelo). Las dos unidades dentro de un par son uniformes (porque son de la misma
muestra de suelo con el mismo nivel de plomo). Pero hay diferencias entre unidades de
diferentes pares (porque son de diferentes muestras de suelo con diferentes niveles de
plomo). Analizamos los datos de este tipo de diseño con una prueba t para datos
pareados.
En vez de considerar los datos separadamente (14 datos en este ejemplo), en una prueba t
de datos pareados consideramos las diferencias entre los datos de cada par (7 pares en este
ejemplo). De esta manera eliminamos las diferencias entre pares (que no nos interesan) y
nos concentramos en las diferencias dentro de cada par (que es lo que realmente nos
interesa). En nuestro ejemplo nos interesa saber si, para una muestra de suelo dada, hay
diferencias entre los dos laboratorios, pero no nos interesa que haya o no diferencias entre
muestras diferentes (en realidad, es mejor que haya muchas diferencias entre los diferentes
pares, así nuestra inferencia es más general).
Laboratorio1 7.6 10.1 9.5 1.3 3.0 5.4 6.2 1 6.1571Y
2
1 10.4895s
Laboratorio2 7.3 9.1 8.4 1.5 2.7 4.8 5.4 2 5.6000Y 2
2 8.1467s
Diferencia
(lab1 – lab2)
0.3 1.0 1.1 -0.2 0.3 0.6 0.8 �� = .5571 𝑠𝑑2 = 0.20949
44
Pasos en una prueba t de datos pareados:
1. Definir las Hipótesis, t-crítica (ttabular: t o t/2), región (o regiones) de rechazo
0 1 2: 0 : 0
( 0) : 0
: 0
a d
d a d
a d
H H
H
H
esto es lo mismo que: 1 = 2 , Ha: 1 > 2 , Ha: 1 < 2 , Ha: 1 ≠ 2 )
los grados de libertad para t-crítica (t o t/2) son: n-1 (donde n = número de pares)
para pruebas de una cola se busca t tabular usando t
para la prueba de dos colas se busca t tabular usando t/2
2. Realizar el experimento y calcular el Estadístico (t-“observada” o “calculada”):
0
d
dt
s
n
�� = la media de las diferencias (= ��1 - ��2 )
𝑠𝑑
√𝑛 = 𝑠�� (la desviación estándar de la media de diferencias = error estándar)
Como solamente consideramos las diferencias dentro de cada par, la varianza en una
prueba pareada (o sea, la varianza de diferencias, 𝑠𝑑2 ) es mucho más pequeña que la
varianza común (𝑠𝑝2) que tendríamos si hubiésemos analizado (erróneamente) los datos
como una prueba de datos independientes.
3. Comparar t observada (t) vs. t tabular (t o t/2) para determinar si t tabular cae en la
Región de rechazo:
2
, o t t t t t t
4. Hacer Conclusiones
Si 2
, o t t t t t t , entonces se rechaza la Ho.
45
También podemos calcular un intervalo de confianza para 1 2 basado en el
estadístico t:
2 .dsd t
n
Para nuestro ejemplo tenemos:
0 1 2 1 2: :aH H
( = 0.05)
tcrítico (ttab = t) = -2.447 y -2.447 (prueba de dos colas, 7-1 = 6 g.l.)
regiones de rechazo:
0
d
dt
s
n
De la tabla anterior tenemos: �� = 0.5571 𝑠𝑑2
= 0.20949
𝑠𝑑 = 0.4577
𝑠�� = 0.4577
√7 = 0.17299
tobs = 0.5571
0.17299 = 3.22
|3.22| > 2.447
Conclusión: Se rechaza la Ho. Los laboratorios no son igualmente confiables. Al
considerar las medias, vemos que la media de Laboratorio 1 ( 1 6.1571Y ) es mayor que la
media de Laboratorio 2 ( 2 5.6000Y ). El laboratorio 1 posiblemente está sobreestimando
el residuo de plomo en las muestras de suelo.
-6.12 -4.37 -2.62 -0.87 0.87 2.62 4.37 6.12
Variable
0.00
0.10
0.19
0.29
0.38
Den
sida
d
Función de densidad
T Student(6): p(evento)=0.0500
46
En resumen, lo único que necesitamos hacer es crear una nueva variable 1 2i i id Y Y , y
realizar una prueba t para una muestra (con n-1 grados de libertad). Es decir, hemos
reducido nuestro problema a tener una muestra aleatoria de diferencias, y ya sabemos que
tenemos la prueba t disponible para esta situación.
Para que la prueba y el intervalo sean válidos, sólo necesitamos suponer poblaciones
normales (y tener el estudio diseñado como observaciones pareadas).
Para hacer los cálculos en Infostat, los datos deben disponerse en columnas separadas, y
cada fila representará un par. El menú Estadísticas>Inferencias para dos muestras>
Prueba t apareada nos permite realizar la prueba.
Los resultados para la prueba bilateral y para el intervalo de confianza del 95% son:
Usando un nivel de significancia del 5%, podemos ver que rechazamos la hipótesis nula,
ya que el valor p (0.0181) es menor que α. Usando la tabla, el valor crítico
correspondiente a 6 grados de libertad y 0.025 (α/2, ya que es una prueba a dos colas), es
2.447, por lo que la conclusión es también rechazar Ho.
Los mismos resultados se obtienen si creamos una variable Diferencia=lab1-lab2
(usando el menú Datos>Fórmulas), y realizamos una prueba t de una muestra:
47
¿Qué pasaría si analizamos los datos (erróneamente) como datos
independientes?
Si analizamos los datos con UNA PRUEBA T DE DATOS INDEPENDIENTES
tendríamos lo siguiente:
Laboratorio1 7.6 10.1 9.5 1.3 3.0 5.4 6.2 1 6.1571Y 2
1 10.4895s
Laboratorio2 7.3 9.1 8.4 1.5 2.7 4.8 5.4 2 5.6000Y 2
2 8.1467s
Se calcula la varianza común (s2p = 9.318 -- mucho más grande que la varianza de las
diferencias, 𝑠𝑑2
= 0.20949, que se usa en la prueba pareada).
El estadístico de la prueba es 1 17 7
6.1571 5.60.343
3.0525t
, y el valor crítico para .05 es
12;.025 2.179.t Por lo tanto la conclusión sería que aceptamos 0H y concluimos que no
hay una diferencia en confiabilidad entre los dos laboratorios (en la prueba pareada [el
análisis correcto] rechazamos la 0H ).
48
Para justificar el uso de la prueba independiente uno tendría que tener 14 muestras
uniformes (con la misma cantidad de plomo y otros elementos, mantenidas bajas las
mismas condiciones de temperatura, humidad, por el mismo periodo de tiempo, etc). La
razón por usar unidades uniformes en una prueba independiente es para minimizar la
varianza común. Como sp es parte del denominador en el cálculo de t, una varianza pequeña
hace la tobs ser más grande, y aumenta la posibilidad de que tobs cae en la región de rechazo
(generalmente la meta de un investigador es rechazar la Ho, o sea, demonstrar que hay
diferencias significativas). Si la varianza es grande, y la diferencia entre medias es
relativamente pequeña (como en este ejemplo), no tenemos suficiente evidencia para
rechazar la Ho.
Si hubiésemos usado (erróneamente en este ejemplo) la prueba t para muestras
independientes, los datos se deberían haber arreglado en InfoStat de otra manera (ejemplo
abajo):
49
13. Introducción al análisis de la varianza
En esta clase vamos a generalizar la idea de comparar dos medias independientes.
Mediante el análisis de la varianza se puede probar la igualdad de t medias
0 1 2: ... tH .
Consideremos los siguientes ejemplos. Los datos son diámetros de aguacates de 3
variedades (5 frutos de cada variedad).
CASO A
6.00 5.59 5.10
5.95 5.54 5.05
5.90 5.50 5.00
5.85 5.46 4.95
5.80 5.41 4.90
5.90Y 5.50Y 5.00Y
CASO B
5.90 6.31 4.52
4.42 3.54 6.93
7.51 4.73 4.48
7.89 7.20 5.55
3.78 5.72 3.52
5.90Y 5.50Y 5.00Y
Aquí podemos ver que en ambos casos las medias muestrales son las mismas, pero nosotros
estaríamos más convencidos que las medias poblacionales serían diferentes en el caso A,
mientras que en el caso B no estaríamos tan seguros. Esto se debe a que los datos en A son
menos variables dentro de cada muestra.
Podemos particionar la variabilidad de las 15 observaciones en dos: la variabilidad dentro
de cada muestra (grupo) y la variabilidad entre muestras (grupos). Si la variabilidad entre
muestras es grande con respecto a la variabilidad dentro de muestras (Caso A), entonces
vamos a pensar que los grupos tienen medias poblacionales distintas. Por otra parte, si la
Var 1 Var 2 Var 3
Variedad
3.30
4.30
5.30
6.30
7.30
8.30
Y
Caso A
Var 1 Var 2 Var 3
Variedad
3.30
4.30
5.30
6.30
7.30
8.30
Y
Caso B
50
variabilidad entre grupos es más o menos comparable a la variabilidad dentro de grupos,
entonces no habría evidencias para concluir que las medias poblacionales son diferentes.
Cuando pensamos en la variabilidad de las ijY podemos ver que éstas varían debido a dos
causas: una es que pertenecen a distintos grupos (las “i” son diferentes) y la otra es la
variabilidad aleatoria dentro de cada grupo (las desviaciones que existen entre cada ijY y
su promedio i ):
Variabilidad total = Variabilidad entre grupos + Variabilidad dentro de grupos
Si sólo tuviéramos dos grupos (tratamientos) entonces usaríamos el estadístico t para dos
muestras independientes
1 2
1 2
1 1p n n
Y Yt
s
Aquí también estamos comparando la variabilidad “entre” (en el numerador) con la
variabilidad “dentro” (en el denominador).
Si tenemos más de dos grupos podríamos comparar de a pares (por ejemplo, probar 1 2
, 1 3 , 2 3 ), pero tenemos el problema que los errores de tipo I pueden acumularse,
y entonces las pruebas no ser válidas. La idea es entonces lograr una prueba para probar
simultáneamente todas las medias. Esta prueba se basa en el estadístico F obtenido de la
tabla de ANOVA para la partición de la variabilidad total en variabilidad “entre” y
“dentro”.
La notación que usaremos será la siguiente: tenemos t tratamientos, cada uno con in
repeticiones.
denota la ésima observación del ésimo tratamientoijY j i .
1
, es la suma de todas las observaciones del tratamiento .in
i ij
j
Y Y i
1 1 1
, es la suma de todas las observaciones.int t
ij i
i j i
Y Y Y
es la media de las observaciones del tratamiento .iY i
es la media de todas las observaciones (media general).Y
es la cantidad total de observaciones ( si hay observaciones en cada tratamiento).i
i
n n nt n
51
Las sumas de cuadrados se calculan de la siguiente manera:
22 2
, ,
SCTotal=SCTot ij ij
i j i j
YY Y Y
n
2 2
2
SCEntre=SCTratamientos=SCTrat ii i
i i i
Y Yn Y Y
n n
2
,
SCDentro=SCResidual=SCError=SCRes SCTot-SCTratij i
i j
Y Y
La siguiente es la tabla de ANOVA:
Fuente de
Variación
Suma de
Cuadrados
grados de
libertad
Cuadrado
Medio
F
Tratamiento SCTrat 1t CMTrat F=CMTrat/CME
Residual (Error) SCRes=SCE n t CMRes=CME
Total SCTot 1n
0 1 2: ...
: al menos una es diferente
t
a i
H
H
Estadístico de la prueba: CMTratCME
F
Región de rechazo: (g.l.: 1, )F F t n t
Vamos a aplicar estas ideas a un ejemplo: consideremos los siguientes datos de contenido
de almidón en tallos de tomate bajo 3 regímenes diferentes de fertilización:
A 22 20 21 18 16 14 1 111Y
1 18.5Y
B 12 14 15 10 9 2 60Y
2 12.0Y
C 7 9 7 6 3 29Y
3 7.25Y
2 2
2
,
200SCTot 3062 395.333315ij
i j
YY
n
2 2 2 2 2 2111 60 29 200SCTrat 317.0833
6 5 4 15
i
i i
Y Y
n n
SCRes SCTot-SCTrat=78.2500
52
Fuente de Variación Suma de
Cuadrados
grados de
libertad
Cuadrado
Medio
F
Tratamiento 317.0833 2 158.5417 24.313
Residual (Error) 78.2500 12 6.5208
Total 395.3333 14
0 1 2: ...
: al menos una es diferente
t
a i
H
H
Estadístico de la prueba: CMTratCME
F
Región de rechazo (α=.05): 3.89F
Cálculo del estadístico de la prueba: 24.313F
Conclusión: Rechazamos 0H , al menos uno de los tratamientos es diferente.
Otra manera de pensar este análisis es mediante un modelo para explicar cada observación:
ij i ijY
Vemos que cada tratamiento tiene su propia media. Los supuestos que hacemos para que
nuestra prueba sea válida son los siguientes: vamos a asumir que los 11,..., ttn son
independientes y tienen distribución normal con media 0 y varianza constante:
~ 0,ij N
Otra manera de escribir este mismo modelo es pensando que cada media i se puede
descomponer en una media general y una desviación de esa media i , que llamaremos
el “efecto” del tratamiento i i i . Esta formulación nos permitirá extender el
modelo a otras situaciones y diseños experimentales.
ij i ij i ijY
Las hipótesis que estamos probando pueden escribirse en término de cualquiera de las
dos formulaciones del modelo:
0 1 2: ...
: al menos una es diferente
t
a i
H
H
0 1 2: ... 0
: al menos un es diferente de 0
t
a i
H
H
53
14. Comparaciones múltiples en ANOVA
Cuando rechazamos la hipótesis nula de igualdad de medias de tratamiento (o ausencia de
efectos de tratamiento), concluimos que al menos una de las medias es diferente. La
pregunta que nos hacemos inmediatamente es ¿cuál es/son la(s) media(s) diferente(s)?
Una manera de responder a esta pregunta es a través de la comparación de cada media con
todas las restantes, usando uno de los procedimientos de comparaciones múltiples. Éstos
consisten en probar las siguientes t(t-1)/2 hipótesis:
1 2 1 3 1; ; ...; .t t
Si tuviésemos una sola de estas hipótesis que probar, podríamos usar el estadístico t para
dos muestras independientes. Como aquí tenemos más de una hipótesis, el uso de t para
cada una podría ocasionar una acumulación de los errores, por lo que sólo se aconseja hacer
esta prueba luego de encontrar mediante la prueba F que hay diferencias entre al menos
una de las medias.
Bajo el supuesto que las varianzas son iguales, el mejor estimador de la desviación estándar
común es CMEws . Entonces podemos construir cada uno de los estadísticos t como,
por ejemplo,
1 3
1 3
1 1CMEn n
Y Yt
Supongamos que la cantidad de repeticiones en cada tratamiento es la misma (n). Entonces,
1 3
2CMEn
Y Yt
.
¿Cuándo vamos a rechazar la hipótesis nula y quedarnos con la alternativa (de dos colas)?
Cuando el valor del estadístico t sea mayor (en valor absoluto) que 2
t . Es decir, vamos a
concluir que las medias i y j son diferentes cuando 1 3
2 2
.CME
n
Y Yt t
Equivalentemente, vamos a concluir que las medias i y j son diferentes cuando
2 2
2 2CME=DMS.i j wY Y t s t
n n
Debemos notar que la cantidad a la derecha no depende de i o j (siempre que los n sean
iguales) y se llama DMS “diferencia mínima significativa” porque es la diferencia más
pequeña que va a hacer que dos medias sean consideradas diferentes. Si los tamaños
muestrales fueran diferentes, entonces el DMS dependerá de los , .i jn n
54
Ejemplo
Vamos a considerar un ejemplo en el que tenemos 6 tratamientos, cuyas medias aparecen
en orden descendente a continuación. El valor de la diferencia mínima significativa es
DMS=2.2.
Tratamiento Y Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen
(es decir, 3Y con
1Y , 3Y con
5Y , 3Y con
4Y , 3Y con
2Y , 3Y con
6Y ). Vamos a conectar con
una línea las medias que no son significativamente diferentes (es decir, aquéllas cuya
diferencia sea menor que DMS)
Tratamiento Y Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
b. Ahora compararemos 1Y con todas las medias que le siguen, y conectaremos con líneas
las medias que no son significativamente diferentes de 1Y :
c. Cuando seguimos el proceso para 5 ,Y observamos que la media que le sigue,
4 ,Y tiene
una diferencia mayor que DMS, y por lo tanto no podemos poner una línea que una 5Y
con una media que está más abajo.
Tratamiento Y Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
55
d. Repetimos el proceso para 4 2 y Y Y :
e. Observar que hay una línea (uniendo las medias 1 y 5) que está de más, ya que las
medias 1 y 5 ya aparecen unidas por la línea que va desde la media 3 hasta la media 5.
Por lo tanto, eliminamos la línea redundante.
f. Ahora podemos dejar las líneas, o cambiar las líneas por letras iguales:
Tratamiento Y
Trat. 3 35.7 a
Trat. 1 34.0 a
Trat. 5 33.9 a
Trat. 4 25.1 b
Trat. 2 24.7 bc
Trat. 6 22.8 c
g. Se debe observar que las medias que no están unidas por líneas verticales (o la misma
letra) son significativamente diferentes entre sí.
Tratamiento Y Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
Tratamiento Y Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
56
Intervalos de confianza para medias y diferencias de medias en ANOVA
Para reportar las medias luego de realizar un ANOVA podemos usar un gráfico de barras
(que se genera opcionalmente en InfoStat), e incluir límites de confianza para las medias
(o errores estándar para las medias). Las fórmulas estudiadas anteriormente usando la
tabla t se podrían aplicar aquí:
2 .sY tn
Si usamos una salida de InfoStat, podemos leer directamente la cantidad
sn como
E.E. (error estándar) en la salida “Medias ajustadas, error estándar y número de
observaciones”.
Como hemos hecho para el cálculo del DMS, el mejor estimador que tenemos de la
desviación estándar poblacional es (bajo el supuesto que las varianzas son iguales),
CME
Este estimador tiene los grados de libertad del error. Por lo tanto, el intervalo de
confianza para una media de tratamiento es
2
CMEY t
n
Recordar que en esta fórmula n representa la cantidad de observaciones en la media
específica (cantidad de repeticiones), y no la cantidad total de observaciones en todo el
experimento. Los grados de libertad para el valor tabular de t son los grados de libertad
del error.
Similarmente podemos calcular un intervalo de confianza para la diferencia de dos
medias. Suponiendo igual número de repeticiones n:
/2
2CMEi jY Y t
n
Observar que el término que se suma y resta en esta fórmula es DMS, por lo que el
intervalo de confianza para la diferencia de dos medias es:
DMSi jY Y
Si este intervalo incluye el valor de cero, las dos medias correspondientes no son
significativamente diferentes. Esto es lo que hemos usado cuando estudiamos la prueba
de DMS: si la diferencia de dos medias es menor que DMS, esas medias no son
significativamente diferentes. El intervalo va a incluir 0 si y solo si la diferencia de las
dos medias es menor que DMS.
57
15. Tablas de contingencia
Este tipo de análisis se usa también para estudiar el efecto de una variable (como en
regresión, que estudiaremos en las próximas conferencias) o de un tratamiento (como en
ANOVA). A diferencia de ANOVA, la variable dependiente en tablas de contingencia es
categórica. Por ejemplo, podemos comparar la susceptibilidad de 4 cultivares de
habichuela al tizón bacteriano. Se escogen 30 plántulas al azar de cada cultivar, y se
clasifica cada plántula en dos categorías: con síntomas y sin síntomas de la enfermedad.
Los datos se presentan a continuación.
Cultivar Con
síntomas
Sin
síntomas
Bac-6 2 28 30
V 16 14 30
PC 13 17 30
GNT 7 23 30
Debemos observar que la respuesta aquí es una variable con dos posibles categorías: con o
sin síntomas. Nos interesa ver si la presencia de síntomas es independiente del cultivar (es
decir, si la proporción de plantas con síntomas es la misma en cada cultivar). Recordando
la variable binomial (SÍ / NO), la proporción de “éxitos” la denotábamos con , en este
caso denotaremos con i a la verdadera proporción de éxitos en el grupo (tratamiento) i.
Entonces la hipótesis que nos interesa probar es
0 1 2 3 4:H
Usando una notación análoga a ANOVA, la cantidad de plántulas observada en cada
celda se denotará como ijn :
Cultivar Con
síntomas
Sin síntomas
Bac-6 11n =2 12n =28
V 21n =16 22n =14
PC 31n =13 32n =17
GNT 41n =7 42n =23
Si todas las variedades tuvieran la misma proporción de enfermas en la población (es
decir, la hipótesis nula fuese cierta), las cantidades esperadas de plántulas en cada celda
se podrían calcular como
(total fila )(total columna )
total general
i j
ij
n n i jE
n
58
La tabla de valores esperados sería
Cultivar Con síntomas Sin síntomas
Bac-6 11 9.5E 12 20.5E
V 21 9.5E 22 20.5E
PC 31 9.5E 32 20.5E
GNT 41 9.5E 42 20.5E
¿Cómo sabemos que lo que nosotros estamos observando ijn está lo suficientemente
cerca de lo que nosotros esperamos si la hipótesis nula fuese cierta ijE ? Una forma es
comparando cada valor observado con cada valor esperado:
2
2 ij ij
ij
n E
E
Éste será el estadístico de la prueba (chi-cuadrado). Debemos notar que si lo que
observamos es exactamente igual a lo que esperamos, entonces 2 0 . Si lo que
observamos está muy “lejos” de lo que esperamos entonces el estadístico será muy grande.
Por lo tanto, una región de rechazo razonable para esta prueba rechazará cuando el
estadístico tenga valores muy grandes. Para encontrar el valor crítico debemos usar la tabla
de una distribución nueva: la distribución chi-cuadrado. Para usar esta tabla debemos
conocer los grados de libertad, que en el caso de tablas de contingencia siempre serán
1 1r c , donde r es la cantidad de filas y c la cantidad de columnas. Para que esta
aproximación funcione bien necesitamos que todos lo valores esperados sean mayores o
iguales a 5.
En el ejemplo que estamos revisando,
2 2 2
22 9.5 16 9.5 23 20.5
18.0239.5 9.5 20.5
La región de rechazo, para 0.05 y 3 grados de libertad según la tabla 7 (páginas 1100-
1101) es 2 2 7.815 . Por lo tanto rechazamos 0H y concluimos que al menos una de
las variedades tiene una susceptibilidad diferente.
Otra aplicación de esta prueba es para probar que hay independencia entre dos variables
categóricas observadas conjuntamente. Por ejemplo, nos puede interesar saber si el color
de flor (azul/amarillo) y el tamaño de la semilla (pequeña/mediana/grande) son caracteres
independientes. Las fórmulas para el estadístico de la prueba son las mismas que las que
hemos presentado para probar la igualdad de proporciones.
Es importante destacar que estamos siempre probando hipótesis acerca de relaciones entre
proporciones (no frecuencias absolutas) y por lo tanto cualquier gráfico de resumen que
construyamos debe hacerse con proporciones.
59
16. Regresión lineal simple
Hasta ahora hemos estudiado la relación entre una variable dependiente (Y) y dos o más
“tratamientos” (por ejemplo: tratado / control, variedades 1-4, etc.).
Ahora vamos a estudiar la relación que existe entre dos variables: una independiente y
otra dependiente. Por ejemplo la cantidad de proteína en la dieta y el aumento de peso. La
variable que nosotros variamos a voluntad es la “variable independiente”, y sobre la que
nos interesa estudiar el efecto es la “variable dependiente”. Por ejemplo, queremos ver
cuál es el promedio de ganancia de peso cuando agregamos 10%, 15%, 20% y 25% de
proteína a la dieta.
La relación más simple es la de una línea recta 0 1Y x , donde Y es el aumento de
peso, x es el porcentaje de proteína en la dieta, 0 es el intercepto (valor de Y cuando
x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad). La pendiente
también se denomina coeficiente de regresión asociado a la variable independiente.
Este modelo se llama modelo determinístico: conociendo el valor de x podemos predecir
exactamente el valor de Y. En la práctica no es muy realista, ya que los puntos observados
no van a estar exactamente sobre la línea recta. El siguiente gráfico es más realista:
Un modelo más realista es pensar que la línea recta representa la relación entre la media
de las Y para un valor dado de x y la variable independiente: 0 1Y x . Otra forma
de escribir este modelo es
0 1Y x
donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y
(o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores
aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se
“balancean”) y por lo tanto ambas formulaciones de este modelo estocástico son
equivalentes.
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10
Y
x
60
Problema: los parámetros de la recta 0 1, son desconocidos, por lo que
necesitaremos una muestra de N observaciones 1 1, ,..., ,N Nx Y x Y para estimarlos. La
recta que obtendremos será la recta estimada:
0 1ˆ ˆY x
La diferencia entre cada valor observado iY y el valor correspondiente sobre la recta
estimada se llama “error de predicción” o residuo, y se denomina como ˆ .i i ie Y Y
Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre
cada valor observado y la recta verdadera (poblacional).
Para estimar la recta vamos a usar el método de mínimos cuadrados, que consiste en
elegir los parámetros 0 1, que minimicen la suma de los cuadrados de los errores de
predicción:
2 2
1
1 1
ˆ ˆˆ( ) ( )N N
i i i o i
i i
Y Y Y x
Los estimadores son
1 0 1
ˆ ˆ ˆ,xy
xx
SY x
S
2
2 2
1 1 1
( )N N N
xx i i i
i i i
S X X X X N
= suma de cuadrados de X
1 1 1 1
( )( )N N N N
xy i i i i i i
i i i i
S X X Y Y X Y X Y N
= suma de productos
Ejemplo: Relación entre el peso de gallinas (lb) y el consumo de alimento durante 1 año.
Peso Consumo
4.6 87.1
5.1 93.1
4.8 89.8
4.4 91.4
5.9 99.5
4.7 92.1
5.1 95.5
5.2 99.3
4.9 93.4
5.1 94.4
Para este ejemplo 1 0ˆ ˆ1.536, 11.812, 7.69, 55.26.xx yyS S
Ahora vamos a estudiar cómo realizar inferencias en regresión lineal (es decir, vamos a
construir intervalos de confianza y a probar hipótesis acerca de los parámetros de interés).
y = 55.2633+ 7.6901x
86889092949698
100102
4 4.5 5 5.5 6
Co
ns
um
o
Peso
61
Cuando pensamos en la variabilidad de las iY podemos ver que estas iY varían debido a
dos causas fundamentales: una es la relación que existe entre Y y las x (la recta de
regresión) y la otra es la variabilidad aleatoria alrededor de la recta (las desviaciones que
existen entre cada iY y su promedio iY:
Variabilidad total = Variabilidad explicada + Variabilidad no explicada
Este mismo concepto se traduce en la siguiente fórmula:
2 22 ˆ ˆ
i i i iY Y Y Y Y Y
SC “Total” = SC “Regresión” + SC “Residual”
Las fórmulas de cálculo para estas sumas de cuadrados son bastante sencillas:
2
2
1
SCTotal
ˆSCRegresión
SCResidual SCTotal SCRegresión
i
YY i
XY
YS Y
N
S
Podemos ver qué pasaría si todas las observaciones estuviesen sobre la recta
(SCResidual=0), y qué pasaría si la mejor recta de ajuste fuese una línea horizontal
(SCRegresión=0).
Ahora estamos en condiciones de realizar inferencias. Recordemos nuestro modelo
0 1i i iY x .
Vamos a asumir que este es el modelo correcto, que los 1,..., n son independientes y
tienen distribución normal con media 0 y varianza constante:
~ 0,i N
Si estos supuestos se cumplen, entonces tenemos las siguientes propiedades de la
distribución muestral de 0 1ˆ ˆ y :
0 1
0 1
ˆ ˆ0 1
2
ˆ ˆ
,
,xx
xx
xN S S
Además, 0 1ˆ ˆ y tienen distribución normal.
Un estimador de se obtiene a partir de la suma de cuadrados residual (también
llamada suma de cuadrados del “error”):
62
2 2 1ˆSCResidual
ˆ .2 2
YY XYS Ss
N N
Con esta información podemos construir intervalos de confianza y realizar pruebas de
hipótesis usando el estadístico t que hemos estudiado antes. Por ejemplo, un intervalo de
confianza para 0 sería:
2
2
0ˆ
xx
xt s
N S
Si usamos una salida de InfoStat, podemos leer directamente las cantidades
2
ó ee
xxxx
x ss
N S S
como E.E. (error estándar) que acompaña a los estimadores del intercepto y pendiente
respectivamente (“Est.”) en la salida “Coeficientes de regresión y estadísticos asociados”.
Otro ejemplo:
0 1 1
1
: 0, : 0
ˆ 0, gl 2
a
xx
H H
t Ns
S
Esta última prueba es la más importante en regresión lineal: si no podemos rechazar 0H
entonces estamos concluyendo que no hay una relación lineal entre el promedio de las Y y
las x. Otro estadístico alternativo para esta misma prueba se obtiene a partir de la tabla de
“análisis de la varianza”, que refleja la partición de la variabilidad que mencionamos al
comienzo de la clase.
Fuente de
Variación
Suma de
Cuadrados
grados
de
libertad
Cuadrado Medio F
Regresión SCRegresión 1 CMReg=SCReg/1 F=CMReg/CME
Residual (Error) SCResidual=SCE N-2 CME=SCE/(N-2)
Total SCTotal N-1
El estadístico para esta prueba es CMReg
CMEF y debemos rechazar 0H si F F .
Para encontrar el valor tabular de F debemos buscar en la tabla correspondiente con 1 y N-
2 grados de libertad. Podemos verificar que tanto para el valor observado como para el
tabular, 2F t y por lo tanto ambas pruebas siempre van a conducir a las mismas
conclusiones.
63
Correlación lineal
Un concepto relacionado con el de regresión es el de correlación. Cuando hablamos de
correlación pensamos en la relación que existe entre dos variables, sin distinguir cuál es la
dependiente y cuál la independiente. Para medir correlación se usa el coeficiente de
correlación lineal: XY
XX YY
Sr
S S . Este coeficiente puede tomar valores entre –1 y 1, y mide
la fuerza de la asociación lineal entre ambas variables. Observar que no importa cuál es la
x y cuál es la y, el coeficiente es simétrico.
Ejemplos de correlación:
Otra forma de pensar en correlación es considerar el coeficiente de determinación, que es
la proporción de la variabilidad total explicada por la regresión:
3.00 4.25 5.50 6.75 8.00
pH
150
738
1325
1913
2500
Bio
ma
sa
23 27 31 35 39
Salinidad
150
738
1325
1913
2500
Bio
ma
sa
0 7 14 21 28 35
Zinc
24
28
32
36
40
Sa
lin
ida
d
1.65 1.77 1.90 2.03 2.15
CO
2.71
2.85
3.00
3.14
3.28
PB
64
2SCRegresión
SCTotalR
Este coeficiente siempre está entre 0 y 1, y cuanto más cerca de 1 está mejor será el ajuste.
Si tuviésemos una regresión lineal simple, 2R es simplemente el cuadrado del coeficiente
de correlación lineal r.
65
17. Diseño en bloques completos al azar
Recordemos el diseño completamente aleatorizado. Un supuesto fundamental era que las
unidades experimentales debían ser homogéneas. Cuando las unidades no son homogéneas
pero pueden agruparse en grupos de unidades homogéneas existe otro diseño, que es la
generalización del diseño pareado para comparar dos grupos: el diseño en bloques
completos aleatorizados (DBCA). Un “bloque” es un conjunto de unidades experimentales
homogéneas (es decir, parecidas entre sí). Este diseño consiste en asignar los tratamientos
aleatoriamente dentro de cada bloque de manera tal que cada tratamiento que representado
una vez en cada bloque. De esta manera garantizamos que todos los tratamientos estarán
representados en todos los bloques, y que las comparaciones estarán libres de las
diferencias entre bloques (el mismo efecto que lográbamos con el diseño pareado). Para
que este efecto del DBCA sea útil en reducir la variabilidad necesitamos que haya
diferencias entre los bloques y dentro de cada bloque las unidades sean homogéneas.
La notación que usaremos será la misma que para el DCA: tenemos t tratamientos, cada
uno con n repeticiones (=bloques).
denota la observación del ésimo tratamiento en el bloque .ijY i j .
Ahora tendremos una fuente adicional de variabilidad: los bloques. Las sumas de cuadrados
se calculan de la siguiente manera:
22 2
, ,
SCTotal=SCTot ij ij
i j i j
YY Y Y
nt
2 2
2
SCTratamientos=SCTrat ii
i i
Y Yn Y Y
n nt
2 2
2
SCBloques=SCBlj
j
j j
Y Yt Y Y
t nt
2
,
SCResidual=SCError=SCRes SCTot-SCTrat-SCBlij i j
i j
Y Y Y Y
La siguiente es la tabla de ANOVA:
Fuente de
Variación
Suma de
Cuadrados
grados de
libertad
Cuadrado
Medio
F
Tratamiento SCTrat 1t CMTrat F=CMTrat/CME
Bloque SCBl 1n CMBl F=CMBl/CME
Residual (Error) SCRes=SCE 1 1n t CMRes=CME
Total SCTot 1nt
El modelo que describe los datos provenientes de este diseño es el siguiente:
66
ij i j ijY
Los supuestos que necesitamos hacer son los mismos que para el DCA (los ij son inde-
pendientes, tienen distribución normal y varianza constante) y además necesitamos asumir
que los efectos de los tratamientos son iguales en todos los bloques.
La hipótesis de interés es, como siempre, acerca de los efectos de tratamiento:
0 1 2: ...
: al menos una es diferente de 0.
t
a i
H
H
Estadístico de la prueba: CMTratCME
F
Región de rechazo: g.l.: 1, ( 1)( 1)F F t n t
También podemos probar la hipótesis de que no existen diferencias entre bloques:
0 1 2: ...
: al menos una es diferente de 0.
t
a i
H
H
Estadístico de la prueba: CM BlCME
F
Región de rechazo: g.l.: 1, ( 1)( 1)F F n n t
Ejemplo de bloque analizado en Infostat
Estos datos aparecen en el archivo Bloque.idb en Infostat, y representan rendimientos de
un ensayo con 5 tratamientos arreglados en un DBCA con 4 repeticiones (=bloques). Para
hacer el análisis en Infostat usamos el menú Estadísticas>Análisis de la Varianza. Usamos
bloque y tratamiento como variables de clasificación y rendimiento como variable
dependiente.
67
68
Análisis de la varianza
Variable N R² R² Aj CV
Rendimiento 20 0.94 0.90 5.83
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 4494763.30 7 642109.04 24.88 <0.0001
Bloque 203319.00 3 67773.00 2.63 0.0983
Tratamiento 4291444.30 4 1072861.08 41.57 <0.0001
Error 309716.50 12 25809.71
Total 4804479.80 19
Test:LSD Fisher Alfa:=0.05 DMS:=247.51210
Error: 25809.7083 gl: 12
Tratamiento Medias n
0 1972.75 4 A
75 2498.50 4 B
150 2973.00 4 C
225 3093.50 4 C D
300 3237.75 4 D
Letras distintas indican diferencias significativas(p<= 0.05)
69
18. Introducción a los diseños experimentales
Hasta este momento hemos discutido dos diseños diferentes: el diseño completamente
aleatorizado (DCA) y el diseño en bloques completos aleatorizados (DBCA). En el primer
caso se requiere independencia entre todas las observaciones. En un experimento, esto se
logra realizando una aleatorización completa de los tratamientos a las unidades
experimentales (es decir, cada unidad experimental tiene la misma probabilidad de recibir
cualquiera de los tratamientos, independientemente del tratamiento asignado a unidades
vecinas).
Ventajas del DCA:
Simple para construir
Simple para analizar, aun cuando el número de repeticiones no es constante.
Sirve para cualquier número de tratamientos.
Desventajas del DCA:
Requiere que todas las unidades experimentales sean homogéneas.
Fuentes de variación no consideradas inflarán el error experimental.
Cuando las unidades no son homogéneas pero pueden agruparse en grupos de unidades
homogéneas existe el diseño en bloques completos aleatorizados (DBCA). Un “bloque” es
un conjunto de unidades experimentales homogéneas (es decir, parecidas entre sí). Este
diseño consiste en asignar los tratamientos aleatoriamente dentro de cada bloque de manera
tal que cada tratamiento que representado una vez en cada bloque. De esta manera
garantizamos que todos los tratamientos estarán representados en todos los bloques, y que
las comparaciones estarán libres de las diferencias entre bloques (el mismo efecto que
lográbamos con el diseño pareado). Para que este efecto del DBCA sea útil en reducir la
variabilidad necesitamos que haya diferencias entre los bloques y dentro de cada bloque
las unidades sean homogéneas.
Ventajas del DBCA:
Útil para comparar tratamientos en presencia de una fuente externa de
variabilidad.
Simple para construir y analizar (siempre que el número de repeticiones sea
constante).
Desventajas del DBCA:
Práctico para pocos tratamientos, para que las unidades de un bloque sean
realmente homogéneas.
Controla una sola fuente de variabilidad externa.
El efecto del tratamiento debe ser el mismo en cada bloque.
Luego de haber estudiado dos diseños, podemos volver a preguntarnos: ¿qué es diseñar
un estudio científico?
70
El diseño es el proceso de establecer un marco para que se puedan comparar tratamientos,
grupos o condiciones.
Ya hemos discutido anteriormente los tipos de estudios más comunes: experimentos y
estudios observacionales.
En un estudio observacional se obtiene información bajo condiciones “no perturbadas”, es
decir, condiciones naturales, y se comparan las diferentes condiciones o grupos. Por el
contrario, en un experimento, el investigador controla las condiciones y decide qué
tratamiento recibe cada unidad. Este control permite que en un experimento se pueda
atribuir al efecto observado (por ejemplo que la condición A es más efectiva que la
condición B) a que las unidades fueron tratadas con dos tratamientos diferentes.
En el caso de un estudio observacional, se podría argumentar que, como el investigador no
tuvo control sobre las unidades antes de asignarles la condición a la que se verían expuestas,
la causa de las diferencias podría ser otra.
Existen situaciones prácticas, éticas, o de la naturaleza del estudio, que hacen que se tengan
que hacer estudios observacionales. Si podemos escoger, el experimento nos va a brindar
conclusiones más “sólidas”.
Cuando hablamos de controlar las condiciones a las que exponemos a las distintas unidades
en un experimento, también debemos considerar todo el desarrollo del experimento. Es
decir, debemos seguir un plan (protocolo) sistemático durante todo el experimento, y
cualquier situación que pudiera presentarse debería considerarse en este plan. Algunos
aspectos que deberían incluirse en este plan son:
1. Los objetivos de investigación
2. La selección de los factores (condiciones) que se van a variar (“tratamientos”)
3. La identificación de otros factores de variación que puedan estar presentes (por ej.,
factores de bloqueo)
4. Las características a medir en las unidades experimentales (las variables de
respuesta)
5. El método de aleatorización
6. Los procedimientos para registrar los datos
7. La determinación del número de repeticiones según la precisión deseada
71
19. Documentación y comunicación de resultados
Esto es lo que presentamos en la primera clase de AGRO 5005:
¿Qué es la Biometría? Es la disciplina que se encarga de obtener
información a partir de datos biológicos.
¿Cómo? Mediante gráficos, medidas numéricas de resumen (ej., promedio),
comparaciones, predicciones, etc.
Etapas que debemos seguir para obtener información “buena” a partir de los datos:
5. Recolectar los datos
6. Resumir los datos
7. Analizar los datos
8. Comunicar los resultados
En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr
eficazmente la etapa 4, “comunicar los resultados”.
La comunicación puede ser verbal o escrita. La comunicación verbal puede ser desde una
comunicación informal hasta una presentación formal. La comunicación escrita también
varía desde memorandos e informes de proyecto dentro de la misma organización (interna)
hasta cartas, folletos de divulgación, artículos científicos y libros (externa). En todos los
casos tenemos que tener en cuenta la audiencia (hacia quién nos estamos comunicando).
Los principales problemas que se pueden encontrar al comunicar resultados estadísticos
son los siguientes:
Distorsiones gráficas: recordemos lo que habíamos discutido antes
5. ¿Qué es lo que se desea informar al lector del grafico?
6. Elegir cuidadosamente los títulos, ejes, colores, rayas, etc.
7. No sobrecargar de información al gráfico.
8. Practicar mucho!
Muestras sesgadas: éste es posiblemente uno de los problemas centrales que nos
encontramos. Las conclusiones pueden ser correctas pero se refieren a la “población”
equivocada. Recordemos que si no existe la aleatorización no podemos realizar la
inferencia estadística correctamente. Se requiere de una planificación adecuada del estudio.
Tamaño muestral inadecuado: los resultados de un experimento pueden llevar a una
conclusión equivocada porque no había suficientes observaciones como para que el error
de tipo II (aceptar una hipótesis nula falsa) fuese suficientemente pequeño. Se requiere de
una planificación adecuada para que la cantidad de repeticiones sea suficiente como para
detectar con una probabilidad alta una diferencia que exista en la población y que sea de
interés para el investigador.
72
Al informar las conclusiones debemos especificar claramente cómo se obtuvieron las
observaciones, qué diseño se usó (=cómo se aleatorizó) y cuántas observaciones
(=repeticiones) se realizaron. Si es posible, se debería incluir un estudio de la potencia de
las pruebas para evidenciar que el tamaño muestral fue adecuado para detectar las
diferencias de interés.
Preparación de los datos para el análisis
1. Generar (recibir) los datos originales
2. Crear la base de datos a partir de los datos originales
3. Editar la base de datos
4. Corregir y clarificar la base de datos comparándola con los datos originales
5. Finalizar la base de datos, archivarla y crear copias (en varios medios, como USB,
DVD, papel, etc.)
6. Crear archivos de datos para los análisis
Es muy importante (y en algunas áreas obligatorio) llevar un registro detallado de todo el
proceso para, de ser necesario, rehacer nuevamente las distintas etapas por las que los datos
han pasado. Una forma común de documentar esto es mediante un registro del estudio
(cuaderno de bitácora o “study log”). Éste debería incluir:
a. datos recibidos, y de quién
b. investigador a cargo del estudio
c. estadístico y otro personal asignado
d. descripción breve del estudio
e. tratamientos usados
f. diseño experimental usado
g. mapa de campo con tratamientos y aleatorizaciones
h. fuente de los datos originales
i. variables dependientes medidas (“respuestas”)
j. fechas de toma de datos, análisis, etc.
k. irregularidades en la toma de datos, registro, etc.
l. otra información relacionada
Guías para el análisis e informe estadísticos
Los análisis preliminares, a menudo descriptivos o gráficos, permiten familiarizarse con
los datos, observar algunas relaciones, detectar problemas, etc.
Los análisis primarios se hacen para responder las preguntas de investigación que se
indicaron en los objetivos del estudio.
Los análisis secundarios (o de apoyo) incluyen métodos alternativos de observar los datos,
uso de métodos poco comunes en el área de aplicación, exploración de hipótesis sugeridas
por los resultados del experimento, etc.
73
Informe estadístico
a. Resumen
b. Introducción
c. Diseño experimental y procedimientos del estudio
d. Estadísticos descriptivos
e. Metodología estadística
f. Resultados y conclusiones
g. Discusión
h. Lista de datos y salidas de computación relevantes
Documentación y almacenamiento de resultados
La idea fundamental es que podamos tener la documentación y los datos almacenados de
forma tal que en el futuro nosotros (o algúna otra persona) pueda rehacer los análisis,
obtener nuevos resultados (o confirmar los obtenidos) y alcanzar nuevas conclusiones sin
mayores dificultades. En algunas áreas de investigación esto es necesario para poder
evaluar la calidad de las conclusiones obtenidas, y en todos los casos es una práctica muy
importante.