AGRO 5005 BIOMETRÍA Notas de clase - …academic.uprm.edu/rmacchia/agro5005/AGRO5005.pdf1 AGRO 5005...

AGRO 5005

BIOMETRÍA

Notas de clase

Raúl E. Macchiavelli, Ph.D.

Linda Wessel-Beaver, Ph.D.

Estas notas complementan el material presentado en el libro de texto del curso

Contenidos

1. Introducción .................................................................................................................... 3

2. Recolectando datos ......................................................................................................... 4

3. Organización y resumen de datos: métodos gráficos ...................................................... 6

4. Medidas numéricas de resumen: tendencia central ....................................................... 13

5. Medidas numéricas de resumen: variabilidad o dispersión .......................................... 15

6. Introducción a probabilidad .......................................................................................... 18

7. Distribución normal ...................................................................................................... 21

8. Muestreo aleatorio. Distribución muestral. ................................................................... 26

9. Estimación de parámetros ............................................................................................. 29

10. Pruebas estadísticas ..................................................................................................... 31

11. Pruebas t para dos muestras independientes ............................................................... 36

12. Pruebas t para datos pareados ..................................................................................... 43

13. Introducción al análisis de la varianza ........................................................................ 49

14. Comparaciones múltiples en ANOVA........................................................................ 53

15. Tablas de contingencia ................................................................................................ 57

16. Regresión lineal simple ............................................................................................... 59

17. Diseño en bloques completos al azar .......................................................................... 65

18. Introducción a los diseños experimentales ................................................................. 69

19. Documentación y comunicación de resultados ........................................................... 71

1. Introducción

¿Qué es la Biometría? Es la disciplina que se encarga de obtener información a

partir de datos biológicos.

¿Cómo? Mediante gráficos, medidas numéricas de resumen (ej., promedio),

comparaciones, predicciones, etc.

Etapas que debemos seguir para obtener información “buena” a partir de los datos:

1. Recolectar los datos

2. Resumir los datos

3. Analizar los datos

4. Comunicar los resultados

Ejemplo

Queremos conocer el efecto de un nuevo insecticida sobre la población de un cierto

insecto. Para ello el investigador selecciona cinco fincas en la región de interés y aplica el

insecticida a la mitad del área sembrada en cada finca. La otra mitad del área en cada

finca queda como “testigo” o “control”. Nos interesa conocer el número promedio de

insectos por planta luego de aplicar el insecticida, y compararlo con el número promedio

de insectos por planta en el área testigo.

Población(es) de interés: Todas las plantas de ese cultivo a las que podríamos aplicar el

insecticida (o todos los recuentos de insectos en todas las plantas de ese cultivo a las que

podríamos aplicar el insecticida).

Muestra(s): Las plantas tratadas en las cinco fincas que se usaron en el experimento (o

los recuentos en las plantas usadas en el experimento).

La forma más común para obtener información de los datos es realizar una

INFERENCIA acerca de una población de interés con la información disponible en una

muestra de esa población.

Población (conjunto de

todas las medidas)

Muestra (sub-

conjunto de la

población)

2. Recolectando datos

a. Muestreos

b. Experimentos

c. Estudios observacionales

Antes de comenzar a recolectar los datos debemos especificar claramente para qué

recolectamos los datos (OBJETIVOS), identificar la(s) medición(es) de interés

(OBSERVACIONES) y seleccionar un diseño o plan apropiado. Estas tres etapas

preliminares se pueden pensar como tres preguntas:

Muestreos

Planes de muestreo más comunes:

1. muestreo aleatorio simple

2. muestreo aleatorio estratificado

3. muestreo por conglomerados (de dos o más etapas)

4. muestreo sistemático

En el muestreo aleatorio simple todas las posibles muestras tienen la misma probabilidad

de ser elegidas. En el muestreo aleatorio estratificado la población es heterogénea, y

entonces de divide en estratos más homogéneos. En cada uno de estos estratos se obtiene

una muestra aleatoria simple. Por ejemplo, se muestrean aleatoriamente 15 fincas de

plátano en la región central de la isla, 15 fincas en la región sur y 15 fincas en la región

norte. En este ejemplo los estratos son las regiones.

En el muestreo por conglomerados la población es homogénea, pero por cuestiones

prácticas se muestrea en dos etapas: primero se muestrean grupos de unidades

(aleatoriamente) y luego se muestrean unidades (aleatoriamente) solo en los grupos o

conglomerados seleccionados en la primera etapa. Por ejemplo, muestreamos

aleatoriamente 10 vaquerías, y en cada vaquería seleccionada muestreamos

(aleatoriamente) la leche de 15 vacas. El conglomerado es la vaquería, y la unidad es la

En el muestreo sistemático se comienza en un punto aleatorio (por ejemplo la séptima

planta de la primera fila de un cultivo), y luego muestreamos cada 10 plantas.

Métodos de recolección más comunes:

1. entrevistas (personales, telefónicas)

2. cuestionarios (encuestas)

3. observación directa

4. trampas (insectos)

5. muestreo de suelos

6. transectas

7. cuadrículas

¿PARA QUÉ?, ¿QUÉ?, ¿CÓMO?

Experimentos

Diseños más comunes:

1. diseño completamente aleatorizado (DCA)

2. diseño en bloques completos aleatorizados (DBCA)

3. otros diseños y experimentos factoriales

Estudios observacionales

Similares a experimentos pero no hay control sobre las unidades del estudio (ya vienen

con su “tratamiento” asignado). El tipo de inferencia que podemos hacer no es tan

general como en los experimentos.

Manejo de datos

1. Recibir los datos originales (encuestas, libro de campo, cuaderno de laboratorio,

2. Crear la base de datos en la computadora.

3. Editar la base de datos (verificar errores, pruebas lógicas, etc.)

4. Corregir y clarificar los datos.

5. Documentar la base de datos.

6. Almacenar (tanto en forma digital como en papel) los archivos originales

7. Obtener los archivos de trabajo (a partir de los originales) para pasar a las

siguientes etapas.

3. Organización y resumen de datos: métodos gráficos

1. ¿Qué es lo que se desea informar al lector del gráfico?

2. Elegir cuidadosamente los títulos, ejes, colores, rayas, etc.

3. No sobrecargar de información al gráfico.

4. Practicar mucho!

Gráficos para una variable:

Gráfico de sectores (“pie chart”, gráfico de torta)

Gráfico de barras (verticales, horizontales)

Diagrama de tallo y hojas

Histogramas de frecuencias (absolutas, relativas)

Polígonos de frecuencias acumuladas (ojivas)

Gráficos para dos variables:

Gráfico x-y (diagrama de dispersión o “scattergram”)

Series de tiempo

Gráfico de sectores (“pie chart”): Se usa para representar partes de un todo (por ejemplo,

porcentajes). Deben usarse para pocas categorías, y si es posible, ordenarse en forma

ascendente o descendente.

Variedad Cuerdas

“Categorías en filas” en InfoStat (categorías discretas)

A 3500 Frecuencia B 1200

A (61%)

B (21%)

C (12%)

D (5%)

Gráfico de barras: similar al de sectores, excepto que la altura de la barra es la frecuencia

o porcentaje que se quiere presentar. También se usa para representar totales, promedios,

sumas u otras cantidades en el eje vertical.

Se deben dejar espacios entre las categorías discretas (“Variedad” en este

ejemplo).

Los rectángulos deben ser todos del mismo ancho.

Usar barras horizontales si el número de categorías es muy alto.

Gráfico x-y (diagrama de dispersión o “scattergram”): En el eje horizontal (x) se ubica la

variable independiente (“explicativa”) y en el eje vertical (y) la variable dependiente

(“respuesta”).

A B C D

Variedad

0.0025 0.0035 0.0045 0.0055

Peso Seco

Series de tiempo: gráfico x-y en el que el eje horizontal es el tiempo. Debe haber al

menos 4-5 puntos en el eje horizontal para poder observar alguna tendencia.

Otros gráficos relacionados

Carne res Carne cerdo

1924 1927 1930 1933 1936 1939 1942

Diagrama de dispersión del precio de la carne de res y de cerdo entre 1925 y1941

Carne res Carne cerdo

CM SUC1 SUC2 SUC3 SUC4

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001

Ganancia

y cuatro sucursales de una empresa agropecuaria

Ganancias netas discriminadas por año de las contribuciones de la casa matriz

CM SUC1 SUC2 SUC3 SUC4

Principales problemas en la construcción, presentación e interpretación de gráficos

Ejes no indican claramente qué se está midiendo

Escalas no apropiadas exageran u ocultan diferencias

Sobrecarga de información no relevante (por ejemplo, palabras muy largas, letras

muy pequeñas, 23 barras adyacentes en cada una de 5 categorías, etc.)

Falta de información relevante (por ejemplo, observaciones individuales atípicas,

desviaciones estándar, etc.)

Demasiados detalles que distraen la atención (por ejemplo, exceso de adornos,

sombras, dimensiones innecesarias, colores que no se aprecian, etc.)

Énfasis en la forma y no en el contenido (estamos enseñando a estudiantes

universitarios, no a alumnos de kinder!)

PG-claro PG-oscuro

PG-rojizo

chicas medianas grandes

Tamaño

PG-claro PG-oscuro

PG-rojizo

1896 1900 1904 1908 1912 1916 1920 1924 1928 1932 1936 1940 1944 1948 1952 1956 1960 1964 1968 1972

Salto en alto en olimpiadas

Un sitio muy interesante con ejemplos históricos de buenos y malos gráficos estadísticos

que pueden visitar es http://www.math.yorku.ca/SCS/Gallery/

Diagrama de tallo y hoja: Para resumir muchos datos sin perder demasiada información.

1. Dividir cada observación en dos conjuntos de dígitos: el primero es el tallo y el

segundo es la hoja.

2. Hacer una lista vertical con los tallos.

3. Para cada tallo, anotar las hojas.

4. Si quedan muy pocos tallos con muchas hojas cada uno, usar los dígitos 0-4 como

hojas de un primer tallo y los dígitos 5-9 como hojas de un segundo tallo.

5. Si cada hoja tiene demasiados dígitos, redondear.

Ejemplo: los siguientes son recuentos de insectos por planta en 40 plantas escogidas

aleatoriamente. (Los datos ya están ordenados.)

0 30 47 Ejemplo de Diagrama de Tallo y Hoja:

1 33 49 Tallo Hojas

2 34 52

4 36 55

6 36 55

8 37 56

10 38 56

11 40 57

11 42 58

15 42 58

16 45 59

19 45 59

Histograma de frecuencias (absolutas o relativas): Se usa para datos cuantitativos. (Si los

datos son cualitativos, el gráfico análogo es el de barras).

Primero construimos una tabla de frecuencias. Dividimos los datos en intervalos de

clase. Cada dato va a pertenecer a exactamente un intervalo. Para definir estos intervalos

definimos el recorrido = valor máximo – valor mínimo. Dividimos el recorrido entre la

cantidad de intervalos deseados (entre 5 y 20, según el número de observaciones).

Ejemplo: los siguientes son recuentos de insectos por plantas en 40 plantas escogidas

aleatoriamente. (Los datos ya están ordenados.)

Recorrido: ω=59-0=59

Si deseamos usar 6 clases, el ancho de cada intervalo debe ser mayor de 9.8 (para cubrir

todas las observaciones). Por lo tanto usaremos un ancho de cada intervalo de 10.

Para evitar ambigüedades, usaremos los límites de clase con un lugar decimal más que

las observaciones (de esta forma ninguna observación caerá en el límite).

Intervalo Marca de

Frecuencia Frecuencia

Acumulada

Frecuencia

Relativa

Frec.Relativa

Acumulada

-0.5 – 9.5 4.5 6 6 .15 .15

9.5 – 19.5 14.5 6 12 .15 .30

19.5 – 29.5 24.5 2 14 .05 .35

29.5 – 39.5 34.5 7 21 .175 .525

39.5 – 49.5 44.5 9 30 .225 .75

49.5 – 59.5 54.5 10 40 .25 1.00

Histograma (la forma del gráfico se ve igual no importa si se utiliza “frecuencia” o

“frecuencia relativa”) :

-0.5 9.5 19.5 29.5 39.5 49.5 59.5

Insectos por planta

Polígono de frecuencias acumuladas:

Las frecuencias relativas siempre tienen una interpretación de probabilidad. Por ejemplo,

si seleccionamos una planta al azar, ¿cuál es la probabilidad de encontrar entre 10 y 19

insectos?, ¿cuál es la probabilidad de encontrar menos de 30 insectos?

-0.5 9.5 19.5 29.5 39.5 49.5 59.5

Insectos por planta

4. Medidas numéricas de resumen: tendencia central

Las medidas numéricas de resumen son más simples que los gráficos y es más sencillo

hacer inferencias sobre ellas que sobre gráficos.

Podemos calcular medidas numéricas sobre todas las mediciones en una población

(medidas poblacionales o parámetros), o sobre las observaciones en una muestra (medidas

muestrales o estadísticos). En la práctica los estadísticos pueden usarse como estimadores

de los parámetros.

1. Medidas de tendencia central

1a. Modo (moda): medición más frecuente (con la mayor frecuencia).

Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1 Modo= Mo = 7

Para datos agrupados en tablas de frecuencia, es el centro del intervalo modal (el más

“alto” en el histograma).

Puede usarse para datos cualitativos o cuantitativos.

Puede haber más de un modo en la distribución (bimodal, trimodal, etc.)

1b. Mediana: valor central de las observaciones cuando éstas están ordenadas de menor a

mayor.

Si hay un número impar de observaciones (n), la posición de la mediana es 1

Si n es par, la mediana es el promedio de la observaciones en posiciones 2

Si hacemos la convención que una posición fraccional (ej. 5.5) es el promedio de las

posiciones correspondientes, entonces siempre podemos usar la fórmula 1

n para la

posición de la mediana.

Ejemplos: 7, 9, 11, 11, 13; n=5, posición=3, Mediana=Md=11

1, 5, 6, 7, 8, 10, 10, 11; n=8, posición= 4.5, Md= (7+8)/2=7.5

Si los datos están agrupados el libro presenta una fórmulas que no vamos a usar, pero son

equivalentes a interpolar a partir de la ojiva. Nosotros podemos leerla directamente desde

este gráfico, como el valor sobre el eje horizontal que acumula el 50% de la frecuencia

total. Para los datos de insectos por planta,

En este caso la mediana es aproximadamente 38.

1c. Media (promedio o media aritmética). Según sea poblacional o muestral, la

denotaremos como o Y , respectivamente.

Si los datos son agrupados en intervalos, 1

Y f Yn

, donde iY es el centro de cada

intervalo y if es la frecuencia de cada uno de los k intervalos.

Es la medida más usada, la más simple de interpretar, pero puede estar muy afectada por

valores extremos. Por ejemplo, 1, 3, 5, 7 y 9 tienen 5Y y Md=5; pero 1, 3, 5, 7, 90 tienen

la misma mediana y 21.2Y .

1d. Media “recortada” (trimmed mean). La media recortada al 10% (10%rY ) se calcula

eliminando el 10% superior y el 10% inferior de los datos y calculando el promedio del

resto.

¿Cómo se comparan Mo, Md, Y y rY ? Si los datos tienen una distribución simétrica con

un único pico central, todas son aproximadamente iguales. Si la distribución es asimétrica

o “sesgada” (tiene una “cola” más larga que la otra), la media tiende hacia la cola y el modo

hacia el otro extremo.

Modo Mediana Media

No único Único Único

No influido por extremos No influido por extremos Influido por extremos

No puede combinarse No puede combinarse Puede combinarse

Datos cualitativos o

cuantitativos

Datos cuantitativos (al

menos ordinales)

Datos cuantitativos

0 5 10 15 20 25 30 35 40 45 50 55 60Fre

Insectos

5. Medidas numéricas de resumen: variabilidad o dispersión

2a. Recorrido (amplitud): ω=máximo-mínimo

Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1, 2 ω=9-1=8

Para datos agrupados en tablas de frecuencia, es la diferencia entre el límite superior

del último intervalo y el límite inferior del primero.

2b. Recorrido intercuartílico (IQR): para definirlo necesitamos presentar otras medidas

de posición: los percentiles.

El percentil 60 ( 60P ), por ejemplo, es un valor de las observaciones que tiene el 60% de las

observaciones por debajo de él, y un 40% de las observaciones por encima. La mediana,

usando esta notación es 50P .

Los cuartiles son percentiles que dividen el 25%, 50% y 75% de las observaciones:

1 25 2 3 75, Md,Q P Q Q P

Para el cálculo de percentiles y cuartiles de datos agrupados, se usa la ojiva (de la misma

manera que se usa para el cálculo de la mediana).

Para datos no agrupados debemos tener los datos ordenados (por ejemplo en un diagrama

de tallo y hoja). Recordemos que la posición de la mediana es 1

n. La posición de los

cuartiles es

posición dela mediana (truncada)+1

Si estamos calculando el primer cuartil, comenzamos a contar desde el mínimo, y si

estamos calculando el tercer cuartil, comenzamos a contar desde el máximo.

Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1, 2 10n

posición de la mediana=5.5

posición de los cuartiles = (5+1)/2=3

1 33, Md=6, 7.Q Q

El recorrido intercuartílico es la diferencia entre los cuartiles: 3 1IQR Q Q .

Se debe hacer notar que hay formas alternativas de calcular percentiles y cuartiles para

datos no agrupados, y es posible que InfoStat o Excel den resultados levemente diferentes

cuando la cantidad de datos es pequeña.

2c. Varianza. Según sea poblacional o muestral, la denotaremos como 2 o 2s ,

respectivamente.

Es la medida más usada, aunque para expresarla en las mismas unidades de las

observaciones se prefiere la:

2d. Desviación estándar: 2s s .

Fórmula de cálculo para varianza y desviación estándar:

s SS Yn n n

Fórmula de cálculo para datos agrupados:

s f Yn n

2e. Coeficiente de variación:

CV= 100s

Esta medida puede usarse para comparar variabilidad de conjuntos de datos diferentes.

Regla empírica: Si los datos tienen un histograma (distribución) en forma de montaña, el

68% de las observaciones estarán en el intervalo Y s , el 95% en el intervalo 2Y s y

prácticamente el 100% en el intervalo 3 .Y s

Esta regla nos permite aproximar el valor de la desviación estándar usando el recorrido:

4s , o podemos usar

6s , aunque este valor seguramente subestima s.

“Suma” en InfoStat >

Medidas Resumen

“Suma Cuad.” en InfoStat

>Medidas Resumen

(SC = SCC [“sumas de

cuadrados corregidos”] en

InfoStat)

Gráfico de caja (“box plot”)

Este gráfico permite representar las medidas de tendencia central y variabilidad de un

conjunto de datos y nos da al mismo tiempo una idea de la forma de la distribución. Aquí

representamos los cuartiles Q1 y Q3 como los bordes de una caja (es decir, adentro de la

caja quedará el 75%-25%=50% central de los datos). El recorrido intercuartílico es la

longitud de la caja. Además marcamos la mediana como una línea en la caja. InfoStat indica

la media con un punto dentro de la caja. De cada borde de la caja (cuartil inferior o

superior), se dibujan líneas (“bigotes”) que se extienden hasta la última observación que

no es atípica (ver más abajo). En InfoStat, las líneas se extienden hasta el valor mínimo y

máximo, si no hay valores atípicos. Otros autores o programas estadísticas dibujen estas

líneas hasta el percentil 5 o 95 respectivamente.

Cualquier valor que esté “lejos” del centro (recordemos que la caja representa el 50%

central de los datos), va a ser considerado un valor atípico. El libro de texto y InfoStat

consideran valores atípicos todos los que se encuentran a una distancia mayor de 1.5 IQR

del borde de la caja (es decir, 1.5 IQR de 1Q si consideramos los extremos inferiores, o 1.5

IQR de 3Q si consideramos los valores superiores). InfoStat llama el 1.5IQR el semi

recorrido intercuartílico (“SRIC”). El mismo libro de texto y InfoStat consideran valores

atípicos extremos aquellas observaciones a más de 3 veces el IQR del borde de la caja.

Otros textos consideran valores atípicos a las observaciones que están a una distancia

mayor de 3 IQR de la mediana. En este gráfico las observaciones atípicas se representan

por puntos, estrellas, etc. InfoStat utiliza un punto para valores atípicos y un círculo para

valores atípicos extremos.

En el gráfico abajo podemos observar la tendencia central de los datos (mediana, y la

media), la forma de la distribución (simétrica, asimétrica, etc.), los extremos, etc.

1998 1999

Título

Valores atípicos (que se encuentran a

una distancia mayor de 1.5 IQR del

borde de la caja)

Recorrido Intercuartílico (IQR – “intercuartil

range” ) (50% de las observaciones

6. Introducción a probabilidad

(El material del capítulo 4 del texto que cubriremos en el curso está en las secciones 1, 2,

3, 6, 7, 8, 9, 10, 11, 12)

¿Para qué sirve conocer probabilidad?

Definiciones:

Experimento aleatorio: acción cuyo resultado no podemos predecir exactamente

(sólo podemos conocer los posibles resultados)

Evento: conjunto de resultados de un experimento aleatorio.

Conceptos de probabilidad:

A. Clásica: eN N

Determinando la probabilidad de un evento

1. Listamos todos los resultados igualmente probables (N)

2. Contamos los resultados que son favorables al evento ( eN )

3. Calculamos la probabilidad: eN N

Ejemplo: la probabilidad de seleccionar ace: N=52; Ne = 4 (número de

resultados “favorables”; P = 4/52

*Solamente funciona en el caso donde los resultados son igualmente probables

B. Frecuencia relativa: enn

en muchas repeticiones.

Interpretación práctica. Se halla la probablidad por medio de experimentación.

La probabilidad es la frecuencia relativa. n = número de veces que se realiza el

experimento; ne = número de veces que evento E ocurre

C. Subjetiva: “Hay un 60% de probabilidad que llueva mañana”.

Propiedad 1: 0 ( ) 1P A

Eventos mutuamente excluyentes: A y B son mutuamente excluyentes si cuando ocurre

uno el otro no puede ocurrir. Ejemplo: supongamos que el experimento sea tirar un dado,

el evento A sea que salga un número menor que 3, y el evento B sea que salga un número

mayor que 5.

Propiedad 2:

( o ) ( ) ( )P A B P A P B para eventos mutuamente excluyentes

Complemento de un evento A es el evento que A no ocurra ( A ).

Propiedad 3:

( ) 1 ( )P A P A

Unión de dos eventos: A B es el evento que A ocurra o que B ocurra.

Intersección de dos eventos: A B es el evento que A ocurra y que B ocurra.

Propiedad 4: ( ) ( ) ( ) ( )P A B P A P B P A B

Variable aleatoria: Es una variable cuyo valor no conocemos de antemano. El valor se

determina mediante un experimento aleatorio. Sólo sabemos cuáles son sus valores

posibles, y conocemos la probabilidad que cada uno de ellos ocurra.

Ejemplo: Definamos la variable aleatoria S, la suma de los resultados obtenidos al arrojar

dos dados. Sus valores posibles son 2, 3, ..., 12. Según lo discutido en clase, conocemos la

probabilidad de que cada uno de los valores ocurra:

P(S=2)=1/36, P(S=3)=2/36, P(S=4)=3/36, P(S=5)=4/36, P(S=6)=5/36, P(S=7)=6/36,

P(S=8)=5/36, P(S=9)=4/36, P(S=10)=3/36, P(S=11)=2/36, P(S=12)=1/36

Las variables aleatorias (al igual que todas las variables) se clasifican en cualitativas y

cuantitativas. En general trabajaremos con variables cuantitativas (numéricas). Éstas a

su vez se clasifican en discretas y continuas.

Ejemplos de variables discretas (típicamente recuentos)

la variable S del ejemplo anterior

cantidad de árboles enfermos en una muestra de 10 árboles

cantidad de hembras en una camada de cerdos

cantidad de días sin lluvia desde la siembra

Ejemplos de variables continuas (típicamente medidas)

altura

concentración de Mn

pH del suelo

Distribución de probabilidad de una variable aleatoria (discreta): es una función que

asocia a cada valor de la variable aleatoria su probabilidad.

Ejemplo: Y=cantidad de caras al arrojar dos monedas.

Y 0 1 2 Suma

P(Y) .25 .5 .25 1

Variable binomial

Tenemos n ensayos idénticos

Cada ensayo puede resultar en “éxito” o “fracaso”

P(éxito en un ensayo)=π es siempre la misma para todos los ensayos

Los ensayos son independientes (el resultado de uno no afecta al resultado de otro)

La variable Y es el número de éxitos en los n ensayos.

Ejemplos:

1. Entrevistamos 40 vecinos y le preguntamos a cada uno cuál es su opinión sobre el

nuevo vertedero (favorable/desfavorable)

2. Arrojamos una moneda 6 veces y contamos el número de caras obtenidas.

3. En una finca que tiene un 70% de las plantas de plátano con sigatoka (una enfer-

medad), muestreamos 50 plantas aleatoriamente y a cada planta la evaluamos para

ver si tiene o no la enfermedad.

La distribución de probabilidad de Y se llama la distribución binomial:

( ) (1 )!( )!

y n ynP y

La media y la varianza de Y son respectivamente, n y 2 (1 )n .

Ejemplo: Para el ejemplo 2, ¿cuál sería la probabilidad de observar 0 caras? ¿y 3 caras?

7. Distribución normal

Variable aleatoria continua: ejemplos de variables continuas (típicamente medidas)

altura

concentración de Mn

pH del suelo

Para variables continuas nos interesa la probabilidad de encontrar observaciones en un

intervalo, ( )P a Y b , y no en un valor especifico, ya que ( ) 0P Y a .La distribución

de probabilidad se denomina ( )f x y es en general una curva suave. El área bajo esta curva

es 1, y la probabilidades se calculan como áreas bajo la curva entre los valores de interés.

La distribución normal es la más comúnmente usada para variables continuas. Está

caracterizada por dos parámetros: y (la media y la desviación estándar respec-

tivamente). La variable aleatoria Y puede tomar cualquier valor real.

1 1( ) exp , .

Yf Y Y

Hay infinitas curvas normales, una para cada combinación de y .

0 3 6 9 12 15 18

Función de densidad

P(3<x<9)

1. 1 2

0 1 2 3 4

Curva 1

Curva 2

2. 1 2

0 1 2 3 4

Curva 1Curva 2

Para calcular probabilidades podemos usar la Tabla 1, que indica probabilidades

asociadas con Z, que es una variable que tiene una distribución normal “estandarizada” (

0, 1 ). Se debe notar que esta distribución es siempre simétrica alrededor de .

Ejemplo 1

( 1) ?

( 1.63) ?

( 0.5) ?

( 1) ?

Para otros valores de ( , ) también podemos usar la tabla 1, notando que en esta tabla

tenemos áreas desde menos infinito hasta Z desviaciones estándar a la derecha. Para usar

esta tabla debemos calcular primero el valor .Y

Ejemplo 2, 100, 10. Calculemos

( 120) ?

( 90) ?

(95 110) ?

(110 120) ?

El problema inverso también se puede se puede resolver con la tabla 1: Dada un área o

probabilidad, calcular el valor de Z o Y asociado. Debemos recordar que las áreas que

presenta la tabla 1 son áreas a la izquierda del valor. Por lo tanto siempre debemos

expresarla de esta forma

Ejemplo 3, calcular el valor de a tal que:

( ) .75

( ) .10 ( ) 0.90

( ) .3212

( ) .9599 ( ) .0401

P Z a P Z a

Ejemplo 4, con 100, 10, calcular el valor de a tal que:

( ) .60

( ) .1515

( ) .33 ( ) .67

( ) .7157 ( ) .2843

P Y a P Y a

Los mismos cálculos se pueden realizar en InfoStat usando el menú Estadísticas >

Probabilidades y Cuantiles. Allí podemos seleccionar la distribución normal, su media y

su varianza, y el dato que disponemos. Por ejemplo, para el ejemplo 1b, podemos hacer

Para el ejemplo 4b,

Para ver gráficamente las áreas y poder variar los parámetros de la distribución normal

podemos usar el menú Aplicaciones > Didácticas > Gráficos de funciones de densidad

continuas, y elegir la normal, con los parámetros de interés. Por ejemplo, para visualizar

el ejemplo 2d,

50 70 90 110 130 150

Variable

Normal(100,100): p(evento)=0.1359

8. Muestreo aleatorio. Distribución muestral.

Recordemos que el muestreo aleatorio nos permite evitar tendencias sistemáticas (sesgos)

en nuestra inferencia, ya que antes de hacer el muestreo no sabemos qué elementos de la

población van a ser incluidos en la muestra.

Muestra aleatoria simple: cada posible muestra de tamaño n tiene la misma probabilidad

de ser elegida. Existen muestras aleatorias simples con y sin reemplazo, pero para

poblaciones grandes no hay mucha diferencia.

¿Cómo obtenemos una muestra aleatoria simple? Mediante una tabla de números

aleatorios, un generador de números aleatorios en la calculadora, u otro mecanismo físico

que nos permita asegurar igual probabilidad a todas las muestras.

Población de todas las muestras de tamaño n. Dada una población cualquiera, podemos

generar una nueva población cuyos elementos son cada una de las muestras posibles de

un cierto tamaño n. Es una población teórica que nos sirve para estudiar las propiedades

de los estadísticos (medidas de resumen calculadas con la muestra).

Ejemplo: Consideremos una población formada por los números 1, 2, 3, 4, 5. Todas las

muestras posibles de tamaño n=2 (sin reemplazo). Es decir nuestra población de muestras

de tamaño 2 está formada por los siguientes elementos:

(1,2); (1,3); (1,4); (1,5); (2,3); (2,4); (2,5); (3,4); (3,5); (4,5)

Ahora supongamos que calculamos Y , la media muestral a cada una de las muestras. Lo

que tenemos ahora es una media muestral asociada a cada elemento de nuestra nueva

población:

1.5; 2; 2.5; 3; 2.5; 3; 3.5; 3.5; 4; 4.5

Como ésta es una población de medias muestrales, podemos calcular su media Y , su

desviación estándar Y , etc. También podemos considerar la distribución de probabili-

dad del estadístico Y . Esta distribución se llama la distribución muestral de Y . En este

caso sería:

Y 1.5 2.0 2.5 3.0 3.5 4.0 4.5

( )f Y 0.1 0.1 0.2 0.2 0.2 0.1 0.1

Los pasos a seguir cuando construímos la distribución muestral de un estadístico son:

1. Obtenemos todas las muestras posibles del tamaño deseado (o tomamos muchas

muestras del tamaño deseado).

2. Para cada muestra calculamos el valor del estadístico.

3. Calculamos la probabilidad asociada con cada uno de los valores calculados en 2.

Esto es una construcción teórica para estudiar las propiedades del estadístico. En la práctica

no hacemos esto sino que obtenemos una muestra, y calculamos el valor de la media (u

otro estadístico). Con las propiedades que conocemos usamos este valor de Y para hacer

inferencias acerca de , la media poblacional de interés.

Para la media muestral, y considerando muestreo con reemplazo, tenemos las siguientes

propiedades:

2; ;Y Y Y

Si la población original es normal, la distribución de Y también es normal. Si n es grande, la

distribución de Y es aproximadamente normal aunque la población original no lo sea.

Este resultado se denomina “teorema central del límite”.

¿Cuán grande tiene que ser la muestra para que esta propiedad se cumpla? Depende de la

forma de la distribución de la población original. En la práctica se considera que 30n

ya es suficientemente grande para la mayoría de las aplicaciones reales (esto depende de

la simetría de la población original).

El mismo ejemplo en Infostat. Para generar todas las muestras posibles, ponemos los

datos en una columna, seleccionamos Aplicaciones > Didácticas > Todas las muestras

posibles.

Los valores generados aparecerán en una nueva hoja de datos, y entonces podemos

construir una tabla de frecuencias, o un histograma para observar la distribución muestral,

o calcular medidas numéricas de resumen.

1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

Valores de media muestral

lativa

Distribución muestral (n=2)

9. Estimación de parámetros

El problema central que la estadística trata de resolver es cómo hacer inferencias confia-

bles. Es decir, tratamos de decir “algo” acerca de la población usando la información

disponible en una muestra. Ese “algo” que nos interesa de la población es típicamente un

parámetro como la media o la varianza (en otros casos el “algo” puede ser la distribución

poblacional completa, no solamente la media y la varianza de la distribución).

Existen dos formas principales de hacer inferencia estadística: la estimación y la prueba

de hipótesis. En la estimación nos interesa dar un valor (o un conjunto de valores)

aproximado al parámetro de interés, mientras que en la segunda tratamos de ver si un valor

postulado del parámetro es razonable a la luz de la evidencia en la muestra.

La forma más obvia de realizar estimación es la estimación puntual: usamos el esta-dístico

como un estimador del parámetro. Por ejemplo, para estimar la media poblacional

podemos usar la media muestral Y . Decimos entonces que Y es un estimador puntual

de , y podemos indicarlo poniendo un “sombrerito” a :

Ya sabemos de la clase anterior que usar Y como estimador de es razonable, ya que

Y (es decir, el promedio de todos los valores posibles de Y es el parámetro de

interés). Otro ejemplo es 2 2ˆ s . Podemos verificar que 2

El principal problema con la estimación puntual es que en la práctica no es muy realista.

Es mejor dar un intervalo de posibles valores del parámetro. Esta forma de estimación se

llama estimación por intervalos de confianza. Para construir el intervalo, recordemos el

“teorema central del límite”: si n es grande, ~ ,Y Nn

. Esto significa que el 95% de

los valores de Y van a estar en el intervalo 1.96 , 1.96n n

. Pero cada

vez que Y está en este intervalo, estará en el intervalo

1.96 , 1.96Y Yn n

Esto significa que si obtuviéramos muchas muestras aleatorias de la misma población, el

95% de las veces obtendremos valores de Y con los que podemos construir intervalos que

cubrirán a .

Podemos pensar este proceso de la siguiente manera:

1. Obtenemos una muestra, calculamos Y y el intervalo

1.96 , 1.96Y Yn n

2. Verificamos si este intervalo cubre a . Si lo cubre, será un intervalo “bueno”, y

si no lo cubre será un intervalo “malo”.

3. Repetimos los pasos 1 y 2 muchas veces.

El 95% de las veces tendremos intervalos “buenos”, y el 5% de las veces intervalos

“malos”.

En la práctica nosotros sólo obtenemos un intervalo, y no sabemos si es “bueno” o “malo”.

Pero como sabemos que la mayoría de los intervalos son “buenos”, decimos que tenemos

una “confianza” del 95% que nuestro intervalo sea “bueno”.

En general, para cualquier nivel de confianza 1 100%, el intervalo de confianza será

, ,Y z Y zn n

donde 2

z es un valor de la tabla normal que deja un área de 2 a su derecha.

Si la desviación estándar poblacional no se conoce y 30,n podemos usar s, la

desviación estándar muestral. Si 30n veremos más adelante qué hacer.

Tamaño muestral para estimar :

Para estimar con un intervalo de confianza de un ancho no mayor de W (o lo que es lo

mismo, para estimar de manera que quede a una distancia no mayor de 2

WE de la

media muestral Y ) podemos usar la siguiente fórmula, que se obtiene a partir del inter-

valo presentado antes:

Siempre debemos redondear el resultado hacia arriba, para asegurarnos que nuestro tama-

ño muestral sea suficiente para lograr la precisión deseada.

Si no conocemos 2 , podemos usar información de estudios previos, estudios prelimina-

res o usar la aproximación 4

, que presentamos junto a la regla empírica.

10. Pruebas estadísticas

Esta es una forma de inferencia muy comúnmente usada: establecemos una hipótesis

científica y tratamos de comprobarla (o no) mediante datos observados.

Las etapas en la realización de pruebas estadísticas son las siguientes:

1. Formulación de las hipótesis. La hipótesis alternativa, aH , es la hipótesis de

investigación (es decir, la que formulamos para ver si los datos la verifican). La

hipótesis nula, 0H , es la que mantendremos si no hay evidencia suficiente a favor

de la alternativa.

2. Definición del estadístico de la prueba.

3. Construcción de la región de rechazo (valores del estadístico que me van a hacer

rechazar 0H ).

4. Conclusiones (aceptación o rechazo de 0H ).

Ejemplo: Queremos probar que el diámetro promedio del tronco de árboles de una cierta

variedad de mango es mayor que 25 cm a los 5 años de injertado.

Las hipótesis pueden formularse así:

0 : 25

En la práctica, la hipótesis nula se plantea como el valor más cercano a la alternativa. En

este caso sería 0 : 25H .

Para probar estas hipótesis, obtenemos una muestra aleatoria de 15 árboles y medimos

sus diámetros. Supongamos por el momento que conocemos que la distribución de los

diámetros es ( ,10)N . Entonces podemos afirmar que 10

~ , .15

Con esta información podemos definir nuestra región de rechazo, que estará formada por

valores de Y que sean contradictorios a 0H . En este caso podemos pensar en un conjunto

de valores de Y mayores a una cierta constante cY , ya que éstos serían los valores

contradictorios a la hipótesis nula.

Gráficamente, si 0H es verdadera,

Al tomar una decisión podemos estar cometiendo uno de los dos errores siguientes:

1. Rechazar 0H cuando ésta es verdadera (error de tipo I).

2. Aceptar 0H cuando ésta es falsa (error de tipo II).

El criterio para definir la región de rechazo es fijar la probabilidad de cometer un error de

tipo I ( ) y definir en base de este valor la región de rechazo. Debemos observar que este

error de tipo I se puede cometer cuando 0H es verdadera, y en ese caso nosotros

conocemos exactamente la distribución de Y :

10~ 25, .

Supongamos que fijamos 0.05 . Entonces la región de rechazo estará formada por los

valores de 10

25 1.645 29.2515

Ahora supongamos que en nuestra muestra, 30.Y Como 30 está en la región de rechazo,

la conclusión es que rechazamos 0H , y por lo tanto afirmamos que el diámetro promedio es

mayor que 25.

Otra manera de alcanzar la misma conclusión es definir nuestro estadístico de la prueba como

y calcular la región de rechazo en función de Z. En este caso sería 1.645.Z Como el

valor observado de 30 25

1.93610

está en la región de rechazo, entonces

rechazamos 0H .

12.118.5

25.031.5

Diámetro

Las etapas en la realización de pruebas estadísticas son las siguientes:

1. Formulación de las hipótesis nula y alternativa ( 0H y aH ). Existen tres tipos de

hipótesis alternativas, según cuál sea la hipótesis científica de interés:

0 0 0: , : , : .a a aH H H

Las dos primeras son hipótesis unilaterales (o “de una cola”), mientras que la

tercera es bilateral (“de dos colas”).

2. Definición del estadístico de la prueba:

3. Construcción de la región de rechazo (R.R.), que son los valores del estadístico

que me van a hacer rechazar 0H . Ésta dependerá de la hipótesis alternativa:

Para : , la R.R. es ,

para : , la R.R. es

y para : , la R.R. es .

4. Conclusiones (aceptación o rechazo de 0H ).

Otra manera de definir nuestra región de rechazo es mediante el “valor p” o “nivel de

significancia observado”. Este método consiste en calcular el área hacia los valores más

extremos que el valor observado de Z y comparar esta área con . En este caso la regla de

decisión es muy simple:

Si , rechazamos H ,

y si , no rechazamos H .

El cálculo de p depende de la hipótesis alternativa:

0 observado

Para : , Pr( ),

para : , Pr( ),

y para : , 2Pr .

H p Z Z

Ejemplo: Para el ejemplo de la clase anterior, recordemos que para probar

0 : 25, : 25aH H teníamos 30, 10, 15 y 1.936.Y n Z El valor p es el área

a la derecha del valor observado de Z (1.94):

Pr( 1.94) 1 .9738 .0262p Z

¿Qué hacemos cuando es desconocido?

Podemos estimarlo con s (la desviación estándar muestral). Si el tamaño de muestra es

grande (n>30) entonces podemos sustituir por su estimador y usar el mismo

estadístico que usábamos antes. En caso contrario tenemos que usar otro estadístico: la t

de Student.

Los valores críticos para definir la región de rechazo son diferentes y deben buscarse en

otra tabla. Para usar esta tabla necesitamos conocer los “grados de libertad”, que son el

denominador del estimador de desviación estándar que estemos utilizando (en este caso

recordemos que s tiene como denominador a 1n , y por lo tanto tenemos 1n grados de

libertad). Si los grados de libertad son , entonces la distribución es la normal estándar.

Resumen

Hipótesis 0 0:H

0 0 0: , : , : .a a aH H H

Estadístico de la prueba: 0 .Y

Región de rechazo: 2

, , .t t t t t t

Conclusiones (aceptación o rechazo de 0H ).

Para usar esta prueba, los datos deben ser normales (o por lo menos, en forma de

montaña).

Un intervalo de confianza para basado en el estadístico t es 2 .sY tn

¿ conocido?:

n > 30 n < 30

Hipotesis nula: Ho: = o

Ho: = o Ho: = o

Estadístico de la

prueba:

Límites de confianza: �� ± 𝑧𝛼/2 (𝜎√𝑛⁄

�� ± 𝑧𝛼/2 (𝜎√𝑛⁄

2 .sY tn

11. Pruebas t para dos muestras independientes

Consideremos la siguiente situación: queremos estudiar el efecto de una droga sobre la

cantidad de parásitos en corderos. (T = tratado; C = control)

¿Cuáles serían las hipótesis de interés?

0 1 2 1 2: :aH H

(Las siguientes hipótesis son idénticas: Ha: tratados < control; Ha: control > tratados)

Para probar las hipótesis, se realizó un experimento donde se eligieron 14 corderitos

similares, todos infectados con el parásito.

A 7 de ellos (elegidos aleatoriamente) se los trató con la droga (T), y los otros 7 se

dejaron sin tratar (C). Al cabo de 6 meses se contó el número de gusanos presentes en los

intestinos de cada uno de los corderos.

Cordero

(unidad

exp’tl)

gusanos

Cordero

(unidad

exp’tl)

gusanos

1 C 50 8 T 50

2 C 54 9 C 21

3 T 14 10 T 16

4 C 26 11 T 32

5 T 43 12 C 37

6 T 28 13 T 13

7 C 63 14 C 39

Organizando los datos para hacer la prueba a mano tenemos:

Tratados 14 43 28 50 16 32 13 ��1=28.00 s22=215.00

Control 40 54 26 63 21 37 39 2 40.00Y 2

2 215.33s

Para poder probar estas hipótesis debemos conocer la distribución muestral de 1 2Y Y .

Sabemos que 11 1

~ ,Y Nn

y que 22 2

~ , .Y Nn

Además, ambas medias son

independientes (por la forma en que diseñamos nuestro experimento). Entonces,

1 21 2 1 2

~ ,Y Y Nn n

Si suponemos que 2 2

1 2 , el error estándar de la diferencia se simplifica a 1 2

El estimador de la varianza común se denomina 2

ps y se calcula como un promedio

ponderado de las dos varianzas:

1 1 2 22

n s n ss

Este estimador tiene 1 2 2n n grados de libertad. Si 1 2n n , entonces 2 2

Ahora recordemos la estructura del estadísticoestimador valor hipotético

error estándar del estim.t

. Para

probar las hipótesis de interés podemos usar también un estadístico t con la misma

estructura.

Pasos en una prueba t de datos independientes:

1. Definir las Hipótesis, t-crítica (ttabular: t o t/2), región (o regiones) de rechazo

0 1 2 0 1 2 0

H D H D

los grados de libertad para t-crítica (t o t/2) son: 1 2 2n n

para pruebas de una cola se busca t tabular usando

para la prueba de dos colas se busca t tabular usando t/2

-5.48 -3.65 -1.83 0.00 1.83 3.65 5.48

Variable

T Student(12): p(evento)=0.0500Región de rechazo para la hipótesis

Ha: 1 > 2 (t tabular es positivo)

(área sombrado = )

2. Realizar el experimento, tomar los datos y calcular el Estadístico (t-“observada” o

“calculada”):

Y Y Dt

3. Comparar t observada (t) vs. t tabular (t o t/2) para determinar si t tabular cae en la

Región de rechazo:

, o t t t t t t

4. Hacer Conclusiones

, o t t t t t t , entonces se rechaza la Ho.

En InfoStat:

p-valor > a , se acepta la Ho.

p-valor < a , se rechaza la Ho y se acepta la Ha

También podemos calcular un intervalo de confianza para 1 2 basado en el

estadístico t:

1 1.pY Y t s

-5.48 -3.65 -1.83 0.00 1.83 3.65 5.48

Variable

T Student(12): p(evento)=0.0500

Hay dos regiones de rechazo para la

hipótesis Ha: 1 ≠ 2

La suma de las dos áreas sombradas =

Para que la prueba y el intervalo sean válidos, necesitamos realizar tres supuestos:

1. Poblaciones normales

2. Varianzas iguales

3. Muestras independientes

Cálculos detallados para nuestro ejemplo Para el ejemplo presentado antes,

Paso 1. Hipótesis: Ho: T = C Ha: T < C (prueba de una cola – cola izquierda)

Para .05 la región de rechazo son los valores de 1.782t (observar que tenemos 12

g.l.).

Paso 2. Calcular el estadístico (tobs)

𝑠𝑝2 =

215.00+215.33

2 = 215.165 (porque n1 = n2)

sp = √215.165 = 14.669

t = 28−40

14.669√1

= -1.53 (t “observado”) (el numerador es ��T - ��C = -12*)

Paso 3. Determinar si tobs está en la región de rechazo

-1.53 > -1.782 (no está en la región de rechazo)

Paso 4: Conclusión: aceptamos 0H : no hay evidencias para decir que el tratamiento con

droga es mejor que el control sin droga.

*si usamos Ha: C > T, entonces t = +1.53 (porque el numerador es ��C - ��T = 40 – 28 =

+12); la región de rechazo son los valores de t > +1.782, y la conclusión es la misma (1.53

< 1.882, se acepta la Ho)

-5.48 -2.74 0.00 2.74 5.48

Variable

Muestras con Varianzas no iguales

¿Cómo sabemos si las varianzas poblacionales son iguales? Existen distintas pruebas para

ello. Infostat calcula una prueba F que la estudiaremos en el laboratorio correspondiente.

Si los tamaños de muestra son iguales, podemos usar el cociente entre las varianzas

muestrales como criterio aproximado: si la varianza mayor dividida la menor nos da un

cociente menor a 3, entonces el supuesto de varianzas poblacionales iguales es aceptable.

¿Qué hacemos si el supuesto de varianzas iguales no se cumple? Existe una prueba apro-

ximada, llamada la prueba t de varianzas separadas. El estadístico de esta prueba es

'Y Y D

, y los grados de libertad se calculan como:

1 1 (1 )

n c n c

, donde

Ejemplo en InfoStat (prueba de datos independientes):

Se entran los datos en dos

columnas (trata y gusanos).

Cada dato está clasificado de

una sola manera: por su

tratamiento (T o C). La

información en la primera

columna (cordero) no forma

parte de la prueba t como tal,

pero puede ser útil incluirla. Por

ejemplo, si hay un valor

extremo, uno puede investigar

en qué animal se observó este

valor.

Infostat entra los nombres de los tratamientos en orden alfabético. Para este ejemplo, tratamiento 1 es C y tratamiento 2 es T (al revés del ejemplo donde hicimos los cálculos a mano). La Ha es:

C > T, (una prueba unilateral derecha). El estadístico t se calcula con

��C - ��T = 40 – 28 = +12 (una diferencia positiva)

Ha: T <C es la misma hipótesis, pero se hace una prueba unilateral izquierdo. El estadístico t se calcula con

��T - ��C = 28 – 40 = -12 (una diferencia negativa).

Resultado de la prueba F de homogenidad de varianzas. Como 0.9985 > 0.05, concluimos que el supuesto de varianzas poblacionales iguales es aceptable.

Dos maneras de llegar a la misma conclusión:

t “observado” (1.53) es menor que t “crítico” o “tabular” (1.782). Está en la región de aceptación. No se rechaza Ho: no hay evidencia para decir que el uso de la droga fue mejor que el control

El p-valor es mayor que (0.0759 > 0.05). Aceptamos Ho: no hay evidencia para decir que el uso de la droga fue mejor que el control

12. Pruebas t para datos pareados

Consideremos la siguiente situación: queremos comparar dos laboratorios en cuanto a su

confiabilidad para determinar residuos de plomo en muestras de suelo.

¿Cuáles serían las hipótesis de interés?

0 1 2 1 2: :aH H

tratamiento 1 = laboratorio 1

tratamiento 2 = laboratorio 2

(un “tratamiento” no necesariamente es algo que se “aplica” a una unidad experimental)

Este estudio presenta una situación donde el uso de un diseño de unidades independientes

no es ideal. En realidad, no hay manera de asegurar que las muestras son uniformes (como

mínimo, las muestras varían en su cantidad de residuos de plomo).

Afortunadamente, para situaciones como esta existe un diseño experimental apropiado: un

diseño de unidades pareadas. Por ejemplo: Escogemos aleatoriamente 7 muestras

(repeticiones) de suelo. A cada muestra la dividimos por la mitad, y enviamos una mitad

al laboratorio 1 y la otra al laboratorio 2. Como en el experimento de datos independientes,

hay 14 unidades experimentales en total (7 muestras x 2 mitades/muestra = 14), pero estas

14 unidades están agrupados en 7 pares (o “grupos” o “bloques”) de unidades. Cada par

de unidades contiene dos unidades experimentales (las dos mitades de la misma muestra

de suelo). Las dos unidades dentro de un par son uniformes (porque son de la misma

muestra de suelo con el mismo nivel de plomo). Pero hay diferencias entre unidades de

diferentes pares (porque son de diferentes muestras de suelo con diferentes niveles de

plomo). Analizamos los datos de este tipo de diseño con una prueba t para datos

pareados.

En vez de considerar los datos separadamente (14 datos en este ejemplo), en una prueba t

de datos pareados consideramos las diferencias entre los datos de cada par (7 pares en este

ejemplo). De esta manera eliminamos las diferencias entre pares (que no nos interesan) y

nos concentramos en las diferencias dentro de cada par (que es lo que realmente nos

interesa). En nuestro ejemplo nos interesa saber si, para una muestra de suelo dada, hay

diferencias entre los dos laboratorios, pero no nos interesa que haya o no diferencias entre

muestras diferentes (en realidad, es mejor que haya muchas diferencias entre los diferentes

pares, así nuestra inferencia es más general).

Laboratorio1 7.6 10.1 9.5 1.3 3.0 5.4 6.2 1 6.1571Y

1 10.4895s

Laboratorio2 7.3 9.1 8.4 1.5 2.7 4.8 5.4 2 5.6000Y 2

2 8.1467s

Diferencia

(lab1 – lab2)

0.3 1.0 1.1 -0.2 0.3 0.6 0.8 �� = .5571 𝑠𝑑2 = 0.20949

Pasos en una prueba t de datos pareados:

1. Definir las Hipótesis, t-crítica (ttabular: t o t/2), región (o regiones) de rechazo

0 1 2: 0 : 0

( 0) : 0

esto es lo mismo que: 1 = 2 , Ha: 1 > 2 , Ha: 1 < 2 , Ha: 1 ≠ 2 )

los grados de libertad para t-crítica (t o t/2) son: n-1 (donde n = número de pares)

para pruebas de una cola se busca t tabular usando t

para la prueba de dos colas se busca t tabular usando t/2

2. Realizar el experimento y calcular el Estadístico (t-“observada” o “calculada”):

�� = la media de las diferencias (= ��1 - ��2 )

𝑠𝑑

√𝑛 = 𝑠�� (la desviación estándar de la media de diferencias = error estándar)

Como solamente consideramos las diferencias dentro de cada par, la varianza en una

prueba pareada (o sea, la varianza de diferencias, 𝑠𝑑2 ) es mucho más pequeña que la

varianza común (𝑠𝑝2) que tendríamos si hubiésemos analizado (erróneamente) los datos

como una prueba de datos independientes.

3. Comparar t observada (t) vs. t tabular (t o t/2) para determinar si t tabular cae en la

Región de rechazo:

, o t t t t t t

4. Hacer Conclusiones

, o t t t t t t , entonces se rechaza la Ho.

También podemos calcular un intervalo de confianza para 1 2 basado en el

estadístico t:

2 .dsd t

Para nuestro ejemplo tenemos:

0 1 2 1 2: :aH H

( = 0.05)

tcrítico (ttab = t) = -2.447 y -2.447 (prueba de dos colas, 7-1 = 6 g.l.)

regiones de rechazo:

De la tabla anterior tenemos: �� = 0.5571 𝑠𝑑2

= 0.20949

𝑠𝑑 = 0.4577

𝑠�� = 0.4577

√7 = 0.17299

tobs = 0.5571

0.17299 = 3.22

|3.22| > 2.447

Conclusión: Se rechaza la Ho. Los laboratorios no son igualmente confiables. Al

considerar las medias, vemos que la media de Laboratorio 1 ( 1 6.1571Y ) es mayor que la

media de Laboratorio 2 ( 2 5.6000Y ). El laboratorio 1 posiblemente está sobreestimando

el residuo de plomo en las muestras de suelo.

-6.12 -4.37 -2.62 -0.87 0.87 2.62 4.37 6.12

Variable

En resumen, lo único que necesitamos hacer es crear una nueva variable 1 2i i id Y Y , y

realizar una prueba t para una muestra (con n-1 grados de libertad). Es decir, hemos

reducido nuestro problema a tener una muestra aleatoria de diferencias, y ya sabemos que

tenemos la prueba t disponible para esta situación.

Para que la prueba y el intervalo sean válidos, sólo necesitamos suponer poblaciones

normales (y tener el estudio diseñado como observaciones pareadas).

Para hacer los cálculos en Infostat, los datos deben disponerse en columnas separadas, y

cada fila representará un par. El menú Estadísticas>Inferencias para dos muestras>

Prueba t apareada nos permite realizar la prueba.

Los resultados para la prueba bilateral y para el intervalo de confianza del 95% son:

Usando un nivel de significancia del 5%, podemos ver que rechazamos la hipótesis nula,

ya que el valor p (0.0181) es menor que α. Usando la tabla, el valor crítico

correspondiente a 6 grados de libertad y 0.025 (α/2, ya que es una prueba a dos colas), es

2.447, por lo que la conclusión es también rechazar Ho.

Los mismos resultados se obtienen si creamos una variable Diferencia=lab1-lab2

(usando el menú Datos>Fórmulas), y realizamos una prueba t de una muestra:

¿Qué pasaría si analizamos los datos (erróneamente) como datos

independientes?

Si analizamos los datos con UNA PRUEBA T DE DATOS INDEPENDIENTES

tendríamos lo siguiente:

Laboratorio1 7.6 10.1 9.5 1.3 3.0 5.4 6.2 1 6.1571Y 2

1 10.4895s

Laboratorio2 7.3 9.1 8.4 1.5 2.7 4.8 5.4 2 5.6000Y 2

2 8.1467s

Se calcula la varianza común (s2p = 9.318 -- mucho más grande que la varianza de las

diferencias, 𝑠𝑑2

= 0.20949, que se usa en la prueba pareada).

El estadístico de la prueba es 1 17 7

6.1571 5.60.343

3.0525t

, y el valor crítico para .05 es

12;.025 2.179.t Por lo tanto la conclusión sería que aceptamos 0H y concluimos que no

hay una diferencia en confiabilidad entre los dos laboratorios (en la prueba pareada [el

análisis correcto] rechazamos la 0H ).

Para justificar el uso de la prueba independiente uno tendría que tener 14 muestras

uniformes (con la misma cantidad de plomo y otros elementos, mantenidas bajas las

mismas condiciones de temperatura, humidad, por el mismo periodo de tiempo, etc). La

razón por usar unidades uniformes en una prueba independiente es para minimizar la

varianza común. Como sp es parte del denominador en el cálculo de t, una varianza pequeña

hace la tobs ser más grande, y aumenta la posibilidad de que tobs cae en la región de rechazo

(generalmente la meta de un investigador es rechazar la Ho, o sea, demonstrar que hay

diferencias significativas). Si la varianza es grande, y la diferencia entre medias es

relativamente pequeña (como en este ejemplo), no tenemos suficiente evidencia para

rechazar la Ho.

Si hubiésemos usado (erróneamente en este ejemplo) la prueba t para muestras

independientes, los datos se deberían haber arreglado en InfoStat de otra manera (ejemplo

abajo):

13. Introducción al análisis de la varianza

En esta clase vamos a generalizar la idea de comparar dos medias independientes.

Mediante el análisis de la varianza se puede probar la igualdad de t medias

0 1 2: ... tH .

Consideremos los siguientes ejemplos. Los datos son diámetros de aguacates de 3

variedades (5 frutos de cada variedad).

CASO A

6.00 5.59 5.10

5.95 5.54 5.05

5.90 5.50 5.00

5.85 5.46 4.95

5.80 5.41 4.90

5.90Y 5.50Y 5.00Y

CASO B

5.90 6.31 4.52

4.42 3.54 6.93

7.51 4.73 4.48

7.89 7.20 5.55

3.78 5.72 3.52

5.90Y 5.50Y 5.00Y

Aquí podemos ver que en ambos casos las medias muestrales son las mismas, pero nosotros

estaríamos más convencidos que las medias poblacionales serían diferentes en el caso A,

mientras que en el caso B no estaríamos tan seguros. Esto se debe a que los datos en A son

menos variables dentro de cada muestra.

Podemos particionar la variabilidad de las 15 observaciones en dos: la variabilidad dentro

de cada muestra (grupo) y la variabilidad entre muestras (grupos). Si la variabilidad entre

muestras es grande con respecto a la variabilidad dentro de muestras (Caso A), entonces

vamos a pensar que los grupos tienen medias poblacionales distintas. Por otra parte, si la

Var 1 Var 2 Var 3

Variedad

Caso A

Var 1 Var 2 Var 3

Variedad

Caso B

variabilidad entre grupos es más o menos comparable a la variabilidad dentro de grupos,

entonces no habría evidencias para concluir que las medias poblacionales son diferentes.

Cuando pensamos en la variabilidad de las ijY podemos ver que éstas varían debido a dos

causas: una es que pertenecen a distintos grupos (las “i” son diferentes) y la otra es la

variabilidad aleatoria dentro de cada grupo (las desviaciones que existen entre cada ijY y

su promedio i ):

Variabilidad total = Variabilidad entre grupos + Variabilidad dentro de grupos

Si sólo tuviéramos dos grupos (tratamientos) entonces usaríamos el estadístico t para dos

muestras independientes

1 1p n n

Aquí también estamos comparando la variabilidad “entre” (en el numerador) con la

variabilidad “dentro” (en el denominador).

Si tenemos más de dos grupos podríamos comparar de a pares (por ejemplo, probar 1 2

, 1 3 , 2 3 ), pero tenemos el problema que los errores de tipo I pueden acumularse,

y entonces las pruebas no ser válidas. La idea es entonces lograr una prueba para probar

simultáneamente todas las medias. Esta prueba se basa en el estadístico F obtenido de la

tabla de ANOVA para la partición de la variabilidad total en variabilidad “entre” y

“dentro”.

La notación que usaremos será la siguiente: tenemos t tratamientos, cada uno con in

repeticiones.

denota la ésima observación del ésimo tratamientoijY j i .

, es la suma de todas las observaciones del tratamiento .in

, es la suma de todas las observaciones.int t

es la media de las observaciones del tratamiento .iY i

es la media de todas las observaciones (media general).Y

es la cantidad total de observaciones ( si hay observaciones en cada tratamiento).i

n n nt n

Las sumas de cuadrados se calculan de la siguiente manera:

SCTotal=SCTot ij ij

i j i j

YY Y Y

SCEntre=SCTratamientos=SCTrat ii i

Y Yn Y Y

SCDentro=SCResidual=SCError=SCRes SCTot-SCTratij i

La siguiente es la tabla de ANOVA:

Fuente de

Variación

Suma de

Cuadrados

grados de

libertad

Cuadrado

Tratamiento SCTrat 1t CMTrat F=CMTrat/CME

Residual (Error) SCRes=SCE n t CMRes=CME

Total SCTot 1n

0 1 2: ...

: al menos una es diferente

Estadístico de la prueba: CMTratCME

Región de rechazo: (g.l.: 1, )F F t n t

Vamos a aplicar estas ideas a un ejemplo: consideremos los siguientes datos de contenido

de almidón en tallos de tomate bajo 3 regímenes diferentes de fertilización:

A 22 20 21 18 16 14 1 111Y

1 18.5Y

B 12 14 15 10 9 2 60Y

2 12.0Y

C 7 9 7 6 3 29Y

3 7.25Y

200SCTot 3062 395.333315ij

2 2 2 2 2 2111 60 29 200SCTrat 317.0833

6 5 4 15

SCRes SCTot-SCTrat=78.2500

Fuente de Variación Suma de

Cuadrados

grados de

libertad

Cuadrado

Tratamiento 317.0833 2 158.5417 24.313

Residual (Error) 78.2500 12 6.5208

Total 395.3333 14

0 1 2: ...

Región de rechazo (α=.05): 3.89F

Cálculo del estadístico de la prueba: 24.313F

Conclusión: Rechazamos 0H , al menos uno de los tratamientos es diferente.

Otra manera de pensar este análisis es mediante un modelo para explicar cada observación:

ij i ijY

Vemos que cada tratamiento tiene su propia media. Los supuestos que hacemos para que

nuestra prueba sea válida son los siguientes: vamos a asumir que los 11,..., ttn son

independientes y tienen distribución normal con media 0 y varianza constante:

~ 0,ij N

Otra manera de escribir este mismo modelo es pensando que cada media i se puede

descomponer en una media general y una desviación de esa media i , que llamaremos

el “efecto” del tratamiento i i i . Esta formulación nos permitirá extender el

modelo a otras situaciones y diseños experimentales.

ij i ij i ijY

Las hipótesis que estamos probando pueden escribirse en término de cualquiera de las

dos formulaciones del modelo:

0 1 2: ...

0 1 2: ... 0

: al menos un es diferente de 0

14. Comparaciones múltiples en ANOVA

Cuando rechazamos la hipótesis nula de igualdad de medias de tratamiento (o ausencia de

efectos de tratamiento), concluimos que al menos una de las medias es diferente. La

pregunta que nos hacemos inmediatamente es ¿cuál es/son la(s) media(s) diferente(s)?

Una manera de responder a esta pregunta es a través de la comparación de cada media con

todas las restantes, usando uno de los procedimientos de comparaciones múltiples. Éstos

consisten en probar las siguientes t(t-1)/2 hipótesis:

1 2 1 3 1; ; ...; .t t

Si tuviésemos una sola de estas hipótesis que probar, podríamos usar el estadístico t para

dos muestras independientes. Como aquí tenemos más de una hipótesis, el uso de t para

cada una podría ocasionar una acumulación de los errores, por lo que sólo se aconseja hacer

esta prueba luego de encontrar mediante la prueba F que hay diferencias entre al menos

una de las medias.

Bajo el supuesto que las varianzas son iguales, el mejor estimador de la desviación estándar

común es CMEws . Entonces podemos construir cada uno de los estadísticos t como,

por ejemplo,

1 1CMEn n

Supongamos que la cantidad de repeticiones en cada tratamiento es la misma (n). Entonces,

¿Cuándo vamos a rechazar la hipótesis nula y quedarnos con la alternativa (de dos colas)?

Cuando el valor del estadístico t sea mayor (en valor absoluto) que 2

t . Es decir, vamos a

concluir que las medias i y j son diferentes cuando 1 3

Y Yt t

Equivalentemente, vamos a concluir que las medias i y j son diferentes cuando

2 2CME=DMS.i j wY Y t s t

Debemos notar que la cantidad a la derecha no depende de i o j (siempre que los n sean

iguales) y se llama DMS “diferencia mínima significativa” porque es la diferencia más

pequeña que va a hacer que dos medias sean consideradas diferentes. Si los tamaños

muestrales fueran diferentes, entonces el DMS dependerá de los , .i jn n

Ejemplo

Vamos a considerar un ejemplo en el que tenemos 6 tratamientos, cuyas medias aparecen

en orden descendente a continuación. El valor de la diferencia mínima significativa es

DMS=2.2.

Tratamiento Y Trat. 3 35.7

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen

(es decir, 3Y con

1Y , 3Y con

5Y , 3Y con

4Y , 3Y con

2Y , 3Y con

6Y ). Vamos a conectar con

una línea las medias que no son significativamente diferentes (es decir, aquéllas cuya

diferencia sea menor que DMS)

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

b. Ahora compararemos 1Y con todas las medias que le siguen, y conectaremos con líneas

las medias que no son significativamente diferentes de 1Y :

c. Cuando seguimos el proceso para 5 ,Y observamos que la media que le sigue,

4 ,Y tiene

una diferencia mayor que DMS, y por lo tanto no podemos poner una línea que una 5Y

con una media que está más abajo.

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

d. Repetimos el proceso para 4 2 y Y Y :

e. Observar que hay una línea (uniendo las medias 1 y 5) que está de más, ya que las

medias 1 y 5 ya aparecen unidas por la línea que va desde la media 3 hasta la media 5.

Por lo tanto, eliminamos la línea redundante.

f. Ahora podemos dejar las líneas, o cambiar las líneas por letras iguales:

Tratamiento Y

Trat. 3 35.7 a

Trat. 1 34.0 a

Trat. 5 33.9 a

Trat. 4 25.1 b

Trat. 2 24.7 bc

Trat. 6 22.8 c

g. Se debe observar que las medias que no están unidas por líneas verticales (o la misma

letra) son significativamente diferentes entre sí.

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

Trat. 1 34.0

Trat. 5 33.9

Trat. 4 25.1

Trat. 2 24.7

Trat. 6 22.8

Intervalos de confianza para medias y diferencias de medias en ANOVA

Para reportar las medias luego de realizar un ANOVA podemos usar un gráfico de barras

(que se genera opcionalmente en InfoStat), e incluir límites de confianza para las medias

(o errores estándar para las medias). Las fórmulas estudiadas anteriormente usando la

tabla t se podrían aplicar aquí:

2 .sY tn

Si usamos una salida de InfoStat, podemos leer directamente la cantidad

sn como

E.E. (error estándar) en la salida “Medias ajustadas, error estándar y número de

observaciones”.

Como hemos hecho para el cálculo del DMS, el mejor estimador que tenemos de la

desviación estándar poblacional es (bajo el supuesto que las varianzas son iguales),

Este estimador tiene los grados de libertad del error. Por lo tanto, el intervalo de

confianza para una media de tratamiento es

CMEY t

Recordar que en esta fórmula n representa la cantidad de observaciones en la media

específica (cantidad de repeticiones), y no la cantidad total de observaciones en todo el

experimento. Los grados de libertad para el valor tabular de t son los grados de libertad

del error.

Similarmente podemos calcular un intervalo de confianza para la diferencia de dos

medias. Suponiendo igual número de repeticiones n:

2CMEi jY Y t

Observar que el término que se suma y resta en esta fórmula es DMS, por lo que el

intervalo de confianza para la diferencia de dos medias es:

DMSi jY Y

Si este intervalo incluye el valor de cero, las dos medias correspondientes no son

significativamente diferentes. Esto es lo que hemos usado cuando estudiamos la prueba

de DMS: si la diferencia de dos medias es menor que DMS, esas medias no son

significativamente diferentes. El intervalo va a incluir 0 si y solo si la diferencia de las

dos medias es menor que DMS.

15. Tablas de contingencia

Este tipo de análisis se usa también para estudiar el efecto de una variable (como en

regresión, que estudiaremos en las próximas conferencias) o de un tratamiento (como en

ANOVA). A diferencia de ANOVA, la variable dependiente en tablas de contingencia es

categórica. Por ejemplo, podemos comparar la susceptibilidad de 4 cultivares de

habichuela al tizón bacteriano. Se escogen 30 plántulas al azar de cada cultivar, y se

clasifica cada plántula en dos categorías: con síntomas y sin síntomas de la enfermedad.

Los datos se presentan a continuación.

Cultivar Con

síntomas

Bac-6 2 28 30

V 16 14 30

PC 13 17 30

GNT 7 23 30

Debemos observar que la respuesta aquí es una variable con dos posibles categorías: con o

sin síntomas. Nos interesa ver si la presencia de síntomas es independiente del cultivar (es

decir, si la proporción de plantas con síntomas es la misma en cada cultivar). Recordando

la variable binomial (SÍ / NO), la proporción de “éxitos” la denotábamos con , en este

caso denotaremos con i a la verdadera proporción de éxitos en el grupo (tratamiento) i.

Entonces la hipótesis que nos interesa probar es

0 1 2 3 4:H

Usando una notación análoga a ANOVA, la cantidad de plántulas observada en cada

celda se denotará como ijn :

Cultivar Con

síntomas

Sin síntomas

Bac-6 11n =2 12n =28

V 21n =16 22n =14

PC 31n =13 32n =17

GNT 41n =7 42n =23

Si todas las variedades tuvieran la misma proporción de enfermas en la población (es

decir, la hipótesis nula fuese cierta), las cantidades esperadas de plántulas en cada celda

se podrían calcular como

(total fila )(total columna )

total general

n n i jE

La tabla de valores esperados sería

Cultivar Con síntomas Sin síntomas

Bac-6 11 9.5E 12 20.5E

V 21 9.5E 22 20.5E

PC 31 9.5E 32 20.5E

GNT 41 9.5E 42 20.5E

¿Cómo sabemos que lo que nosotros estamos observando ijn está lo suficientemente

cerca de lo que nosotros esperamos si la hipótesis nula fuese cierta ijE ? Una forma es

comparando cada valor observado con cada valor esperado:

2 ij ij

Éste será el estadístico de la prueba (chi-cuadrado). Debemos notar que si lo que

observamos es exactamente igual a lo que esperamos, entonces 2 0 . Si lo que

observamos está muy “lejos” de lo que esperamos entonces el estadístico será muy grande.

Por lo tanto, una región de rechazo razonable para esta prueba rechazará cuando el

estadístico tenga valores muy grandes. Para encontrar el valor crítico debemos usar la tabla

de una distribución nueva: la distribución chi-cuadrado. Para usar esta tabla debemos

conocer los grados de libertad, que en el caso de tablas de contingencia siempre serán

1 1r c , donde r es la cantidad de filas y c la cantidad de columnas. Para que esta

aproximación funcione bien necesitamos que todos lo valores esperados sean mayores o

iguales a 5.

En el ejemplo que estamos revisando,

22 9.5 16 9.5 23 20.5

18.0239.5 9.5 20.5

La región de rechazo, para 0.05 y 3 grados de libertad según la tabla 7 (páginas 1100-

1101) es 2 2 7.815 . Por lo tanto rechazamos 0H y concluimos que al menos una de

las variedades tiene una susceptibilidad diferente.

Otra aplicación de esta prueba es para probar que hay independencia entre dos variables

categóricas observadas conjuntamente. Por ejemplo, nos puede interesar saber si el color

de flor (azul/amarillo) y el tamaño de la semilla (pequeña/mediana/grande) son caracteres

independientes. Las fórmulas para el estadístico de la prueba son las mismas que las que

hemos presentado para probar la igualdad de proporciones.

Es importante destacar que estamos siempre probando hipótesis acerca de relaciones entre

proporciones (no frecuencias absolutas) y por lo tanto cualquier gráfico de resumen que

construyamos debe hacerse con proporciones.

16. Regresión lineal simple

Hasta ahora hemos estudiado la relación entre una variable dependiente (Y) y dos o más

“tratamientos” (por ejemplo: tratado / control, variedades 1-4, etc.).

Ahora vamos a estudiar la relación que existe entre dos variables: una independiente y

otra dependiente. Por ejemplo la cantidad de proteína en la dieta y el aumento de peso. La

variable que nosotros variamos a voluntad es la “variable independiente”, y sobre la que

nos interesa estudiar el efecto es la “variable dependiente”. Por ejemplo, queremos ver

cuál es el promedio de ganancia de peso cuando agregamos 10%, 15%, 20% y 25% de

proteína a la dieta.

La relación más simple es la de una línea recta 0 1Y x , donde Y es el aumento de

peso, x es el porcentaje de proteína en la dieta, 0 es el intercepto (valor de Y cuando

x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad). La pendiente

también se denomina coeficiente de regresión asociado a la variable independiente.

Este modelo se llama modelo determinístico: conociendo el valor de x podemos predecir

exactamente el valor de Y. En la práctica no es muy realista, ya que los puntos observados

no van a estar exactamente sobre la línea recta. El siguiente gráfico es más realista:

Un modelo más realista es pensar que la línea recta representa la relación entre la media

de las Y para un valor dado de x y la variable independiente: 0 1Y x . Otra forma

de escribir este modelo es

0 1Y x

donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y

(o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores

aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se

“balancean”) y por lo tanto ambas formulaciones de este modelo estocástico son

equivalentes.

0 2 4 6 8 10

Problema: los parámetros de la recta 0 1, son desconocidos, por lo que

necesitaremos una muestra de N observaciones 1 1, ,..., ,N Nx Y x Y para estimarlos. La

recta que obtendremos será la recta estimada:

0 1ˆ ˆY x

La diferencia entre cada valor observado iY y el valor correspondiente sobre la recta

estimada se llama “error de predicción” o residuo, y se denomina como ˆ .i i ie Y Y

Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre

cada valor observado y la recta verdadera (poblacional).

Para estimar la recta vamos a usar el método de mínimos cuadrados, que consiste en

elegir los parámetros 0 1, que minimicen la suma de los cuadrados de los errores de

predicción:

ˆ ˆˆ( ) ( )N N

i i i o i

Y Y Y x

Los estimadores son

ˆ ˆ ˆ,xy

( )N N N

xx i i i

S X X X X N

= suma de cuadrados de X

1 1 1 1

( )( )N N N N

xy i i i i i i

i i i i

S X X Y Y X Y X Y N

= suma de productos

Ejemplo: Relación entre el peso de gallinas (lb) y el consumo de alimento durante 1 año.

Peso Consumo

4.6 87.1

5.1 93.1

4.8 89.8

4.4 91.4

5.9 99.5

4.7 92.1

5.1 95.5

5.2 99.3

4.9 93.4

5.1 94.4

Para este ejemplo 1 0ˆ ˆ1.536, 11.812, 7.69, 55.26.xx yyS S

Ahora vamos a estudiar cómo realizar inferencias en regresión lineal (es decir, vamos a

construir intervalos de confianza y a probar hipótesis acerca de los parámetros de interés).

y = 55.2633+ 7.6901x

86889092949698

100102

4 4.5 5 5.5 6

Cuando pensamos en la variabilidad de las iY podemos ver que estas iY varían debido a

dos causas fundamentales: una es la relación que existe entre Y y las x (la recta de

regresión) y la otra es la variabilidad aleatoria alrededor de la recta (las desviaciones que

existen entre cada iY y su promedio iY:

Variabilidad total = Variabilidad explicada + Variabilidad no explicada

Este mismo concepto se traduce en la siguiente fórmula:

2 22 ˆ ˆ

i i i iY Y Y Y Y Y

SC “Total” = SC “Regresión” + SC “Residual”

Las fórmulas de cálculo para estas sumas de cuadrados son bastante sencillas:

SCTotal

ˆSCRegresión

SCResidual SCTotal SCRegresión

Podemos ver qué pasaría si todas las observaciones estuviesen sobre la recta

(SCResidual=0), y qué pasaría si la mejor recta de ajuste fuese una línea horizontal

(SCRegresión=0).

Ahora estamos en condiciones de realizar inferencias. Recordemos nuestro modelo

0 1i i iY x .

Vamos a asumir que este es el modelo correcto, que los 1,..., n son independientes y

tienen distribución normal con media 0 y varianza constante:

~ 0,i N

Si estos supuestos se cumplen, entonces tenemos las siguientes propiedades de la

distribución muestral de 0 1ˆ ˆ y :

ˆ ˆ0 1

xN S S

Además, 0 1ˆ ˆ y tienen distribución normal.

Un estimador de se obtiene a partir de la suma de cuadrados residual (también

llamada suma de cuadrados del “error”):

2 2 1ˆSCResidual

ˆ .2 2

YY XYS Ss

Con esta información podemos construir intervalos de confianza y realizar pruebas de

hipótesis usando el estadístico t que hemos estudiado antes. Por ejemplo, un intervalo de

confianza para 0 sería:

Si usamos una salida de InfoStat, podemos leer directamente las cantidades

como E.E. (error estándar) que acompaña a los estimadores del intercepto y pendiente

respectivamente (“Est.”) en la salida “Coeficientes de regresión y estadísticos asociados”.

Otro ejemplo:

: 0, : 0

ˆ 0, gl 2

Esta última prueba es la más importante en regresión lineal: si no podemos rechazar 0H

entonces estamos concluyendo que no hay una relación lineal entre el promedio de las Y y

las x. Otro estadístico alternativo para esta misma prueba se obtiene a partir de la tabla de

“análisis de la varianza”, que refleja la partición de la variabilidad que mencionamos al

comienzo de la clase.

Fuente de

Variación

Suma de

Cuadrados

grados

libertad

Cuadrado Medio F

Regresión SCRegresión 1 CMReg=SCReg/1 F=CMReg/CME

Residual (Error) SCResidual=SCE N-2 CME=SCE/(N-2)

Total SCTotal N-1

El estadístico para esta prueba es CMReg

CMEF y debemos rechazar 0H si F F .

Para encontrar el valor tabular de F debemos buscar en la tabla correspondiente con 1 y N-

2 grados de libertad. Podemos verificar que tanto para el valor observado como para el

tabular, 2F t y por lo tanto ambas pruebas siempre van a conducir a las mismas

conclusiones.

Correlación lineal

Un concepto relacionado con el de regresión es el de correlación. Cuando hablamos de

correlación pensamos en la relación que existe entre dos variables, sin distinguir cuál es la

dependiente y cuál la independiente. Para medir correlación se usa el coeficiente de

correlación lineal: XY

S S . Este coeficiente puede tomar valores entre –1 y 1, y mide

la fuerza de la asociación lineal entre ambas variables. Observar que no importa cuál es la

x y cuál es la y, el coeficiente es simétrico.

Ejemplos de correlación:

Otra forma de pensar en correlación es considerar el coeficiente de determinación, que es

la proporción de la variabilidad total explicada por la regresión:

3.00 4.25 5.50 6.75 8.00

23 27 31 35 39

Salinidad

0 7 14 21 28 35

1.65 1.77 1.90 2.03 2.15

2SCRegresión

SCTotalR

Este coeficiente siempre está entre 0 y 1, y cuanto más cerca de 1 está mejor será el ajuste.

Si tuviésemos una regresión lineal simple, 2R es simplemente el cuadrado del coeficiente

de correlación lineal r.

17. Diseño en bloques completos al azar

Recordemos el diseño completamente aleatorizado. Un supuesto fundamental era que las

unidades experimentales debían ser homogéneas. Cuando las unidades no son homogéneas

pero pueden agruparse en grupos de unidades homogéneas existe otro diseño, que es la

generalización del diseño pareado para comparar dos grupos: el diseño en bloques

completos aleatorizados (DBCA). Un “bloque” es un conjunto de unidades experimentales

homogéneas (es decir, parecidas entre sí). Este diseño consiste en asignar los tratamientos

aleatoriamente dentro de cada bloque de manera tal que cada tratamiento que representado

una vez en cada bloque. De esta manera garantizamos que todos los tratamientos estarán

representados en todos los bloques, y que las comparaciones estarán libres de las

diferencias entre bloques (el mismo efecto que lográbamos con el diseño pareado). Para

que este efecto del DBCA sea útil en reducir la variabilidad necesitamos que haya

diferencias entre los bloques y dentro de cada bloque las unidades sean homogéneas.

La notación que usaremos será la misma que para el DCA: tenemos t tratamientos, cada

uno con n repeticiones (=bloques).

denota la observación del ésimo tratamiento en el bloque .ijY i j .

Ahora tendremos una fuente adicional de variabilidad: los bloques. Las sumas de cuadrados

se calculan de la siguiente manera:

SCTotal=SCTot ij ij

i j i j

YY Y Y

SCTratamientos=SCTrat ii

Y Yn Y Y

SCBloques=SCBlj

Y Yt Y Y

SCResidual=SCError=SCRes SCTot-SCTrat-SCBlij i j

Y Y Y Y

La siguiente es la tabla de ANOVA:

Fuente de

Variación

Suma de

Cuadrados

grados de

libertad

Cuadrado

Tratamiento SCTrat 1t CMTrat F=CMTrat/CME

Bloque SCBl 1n CMBl F=CMBl/CME

Residual (Error) SCRes=SCE 1 1n t CMRes=CME

Total SCTot 1nt

El modelo que describe los datos provenientes de este diseño es el siguiente:

ij i j ijY

Los supuestos que necesitamos hacer son los mismos que para el DCA (los ij son inde-

pendientes, tienen distribución normal y varianza constante) y además necesitamos asumir

que los efectos de los tratamientos son iguales en todos los bloques.

La hipótesis de interés es, como siempre, acerca de los efectos de tratamiento:

0 1 2: ...

: al menos una es diferente de 0.

Región de rechazo: g.l.: 1, ( 1)( 1)F F t n t

También podemos probar la hipótesis de que no existen diferencias entre bloques:

0 1 2: ...

: al menos una es diferente de 0.

Estadístico de la prueba: CM BlCME

Región de rechazo: g.l.: 1, ( 1)( 1)F F n n t

Ejemplo de bloque analizado en Infostat

Estos datos aparecen en el archivo Bloque.idb en Infostat, y representan rendimientos de

un ensayo con 5 tratamientos arreglados en un DBCA con 4 repeticiones (=bloques). Para

hacer el análisis en Infostat usamos el menú Estadísticas>Análisis de la Varianza. Usamos

bloque y tratamiento como variables de clasificación y rendimiento como variable

dependiente.

Análisis de la varianza

Variable N R² R² Aj CV

Rendimiento 20 0.94 0.90 5.83

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F p-valor

Modelo 4494763.30 7 642109.04 24.88 <0.0001

Bloque 203319.00 3 67773.00 2.63 0.0983

Tratamiento 4291444.30 4 1072861.08 41.57 <0.0001

Error 309716.50 12 25809.71

Total 4804479.80 19

Test:LSD Fisher Alfa:=0.05 DMS:=247.51210

Error: 25809.7083 gl: 12

Tratamiento Medias n

0 1972.75 4 A

75 2498.50 4 B

150 2973.00 4 C

225 3093.50 4 C D

300 3237.75 4 D

Letras distintas indican diferencias significativas(p<= 0.05)

18. Introducción a los diseños experimentales

Hasta este momento hemos discutido dos diseños diferentes: el diseño completamente

aleatorizado (DCA) y el diseño en bloques completos aleatorizados (DBCA). En el primer

caso se requiere independencia entre todas las observaciones. En un experimento, esto se

logra realizando una aleatorización completa de los tratamientos a las unidades

experimentales (es decir, cada unidad experimental tiene la misma probabilidad de recibir

cualquiera de los tratamientos, independientemente del tratamiento asignado a unidades

vecinas).

Ventajas del DCA:

Simple para construir

Simple para analizar, aun cuando el número de repeticiones no es constante.

Sirve para cualquier número de tratamientos.

Desventajas del DCA:

Requiere que todas las unidades experimentales sean homogéneas.

Fuentes de variación no consideradas inflarán el error experimental.

Cuando las unidades no son homogéneas pero pueden agruparse en grupos de unidades

homogéneas existe el diseño en bloques completos aleatorizados (DBCA). Un “bloque” es

un conjunto de unidades experimentales homogéneas (es decir, parecidas entre sí). Este

diseño consiste en asignar los tratamientos aleatoriamente dentro de cada bloque de manera

tal que cada tratamiento que representado una vez en cada bloque. De esta manera

garantizamos que todos los tratamientos estarán representados en todos los bloques, y que

las comparaciones estarán libres de las diferencias entre bloques (el mismo efecto que

lográbamos con el diseño pareado). Para que este efecto del DBCA sea útil en reducir la

variabilidad necesitamos que haya diferencias entre los bloques y dentro de cada bloque

las unidades sean homogéneas.

Ventajas del DBCA:

Útil para comparar tratamientos en presencia de una fuente externa de

variabilidad.

Simple para construir y analizar (siempre que el número de repeticiones sea

constante).

Desventajas del DBCA:

Práctico para pocos tratamientos, para que las unidades de un bloque sean

realmente homogéneas.

Controla una sola fuente de variabilidad externa.

El efecto del tratamiento debe ser el mismo en cada bloque.

Luego de haber estudiado dos diseños, podemos volver a preguntarnos: ¿qué es diseñar

un estudio científico?

El diseño es el proceso de establecer un marco para que se puedan comparar tratamientos,

grupos o condiciones.

Ya hemos discutido anteriormente los tipos de estudios más comunes: experimentos y

estudios observacionales.

En un estudio observacional se obtiene información bajo condiciones “no perturbadas”, es

decir, condiciones naturales, y se comparan las diferentes condiciones o grupos. Por el

contrario, en un experimento, el investigador controla las condiciones y decide qué

tratamiento recibe cada unidad. Este control permite que en un experimento se pueda

atribuir al efecto observado (por ejemplo que la condición A es más efectiva que la

condición B) a que las unidades fueron tratadas con dos tratamientos diferentes.

En el caso de un estudio observacional, se podría argumentar que, como el investigador no

tuvo control sobre las unidades antes de asignarles la condición a la que se verían expuestas,

la causa de las diferencias podría ser otra.

Existen situaciones prácticas, éticas, o de la naturaleza del estudio, que hacen que se tengan

que hacer estudios observacionales. Si podemos escoger, el experimento nos va a brindar

conclusiones más “sólidas”.

Cuando hablamos de controlar las condiciones a las que exponemos a las distintas unidades

en un experimento, también debemos considerar todo el desarrollo del experimento. Es

decir, debemos seguir un plan (protocolo) sistemático durante todo el experimento, y

cualquier situación que pudiera presentarse debería considerarse en este plan. Algunos

aspectos que deberían incluirse en este plan son:

1. Los objetivos de investigación

2. La selección de los factores (condiciones) que se van a variar (“tratamientos”)

3. La identificación de otros factores de variación que puedan estar presentes (por ej.,

factores de bloqueo)

4. Las características a medir en las unidades experimentales (las variables de

respuesta)

5. El método de aleatorización

6. Los procedimientos para registrar los datos

7. La determinación del número de repeticiones según la precisión deseada

19. Documentación y comunicación de resultados

Esto es lo que presentamos en la primera clase de AGRO 5005:

¿Qué es la Biometría? Es la disciplina que se encarga de obtener

información a partir de datos biológicos.

¿Cómo? Mediante gráficos, medidas numéricas de resumen (ej., promedio),

comparaciones, predicciones, etc.

Etapas que debemos seguir para obtener información “buena” a partir de los datos:

5. Recolectar los datos

6. Resumir los datos

7. Analizar los datos

8. Comunicar los resultados

En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr

eficazmente la etapa 4, “comunicar los resultados”.

La comunicación puede ser verbal o escrita. La comunicación verbal puede ser desde una

comunicación informal hasta una presentación formal. La comunicación escrita también

varía desde memorandos e informes de proyecto dentro de la misma organización (interna)

hasta cartas, folletos de divulgación, artículos científicos y libros (externa). En todos los

casos tenemos que tener en cuenta la audiencia (hacia quién nos estamos comunicando).

Los principales problemas que se pueden encontrar al comunicar resultados estadísticos

son los siguientes:

Distorsiones gráficas: recordemos lo que habíamos discutido antes

5. ¿Qué es lo que se desea informar al lector del grafico?

6. Elegir cuidadosamente los títulos, ejes, colores, rayas, etc.

7. No sobrecargar de información al gráfico.

8. Practicar mucho!

Muestras sesgadas: éste es posiblemente uno de los problemas centrales que nos

encontramos. Las conclusiones pueden ser correctas pero se refieren a la “población”

equivocada. Recordemos que si no existe la aleatorización no podemos realizar la

inferencia estadística correctamente. Se requiere de una planificación adecuada del estudio.

Tamaño muestral inadecuado: los resultados de un experimento pueden llevar a una

conclusión equivocada porque no había suficientes observaciones como para que el error

de tipo II (aceptar una hipótesis nula falsa) fuese suficientemente pequeño. Se requiere de

una planificación adecuada para que la cantidad de repeticiones sea suficiente como para

detectar con una probabilidad alta una diferencia que exista en la población y que sea de

interés para el investigador.

Al informar las conclusiones debemos especificar claramente cómo se obtuvieron las

observaciones, qué diseño se usó (=cómo se aleatorizó) y cuántas observaciones

(=repeticiones) se realizaron. Si es posible, se debería incluir un estudio de la potencia de

las pruebas para evidenciar que el tamaño muestral fue adecuado para detectar las

diferencias de interés.

Preparación de los datos para el análisis

1. Generar (recibir) los datos originales

2. Crear la base de datos a partir de los datos originales

3. Editar la base de datos

4. Corregir y clarificar la base de datos comparándola con los datos originales

5. Finalizar la base de datos, archivarla y crear copias (en varios medios, como USB,

DVD, papel, etc.)

6. Crear archivos de datos para los análisis

Es muy importante (y en algunas áreas obligatorio) llevar un registro detallado de todo el

proceso para, de ser necesario, rehacer nuevamente las distintas etapas por las que los datos

han pasado. Una forma común de documentar esto es mediante un registro del estudio

(cuaderno de bitácora o “study log”). Éste debería incluir:

a. datos recibidos, y de quién

b. investigador a cargo del estudio

c. estadístico y otro personal asignado

d. descripción breve del estudio

e. tratamientos usados

f. diseño experimental usado

g. mapa de campo con tratamientos y aleatorizaciones

h. fuente de los datos originales

i. variables dependientes medidas (“respuestas”)

j. fechas de toma de datos, análisis, etc.

k. irregularidades en la toma de datos, registro, etc.

l. otra información relacionada

Guías para el análisis e informe estadísticos

Los análisis preliminares, a menudo descriptivos o gráficos, permiten familiarizarse con

los datos, observar algunas relaciones, detectar problemas, etc.

Los análisis primarios se hacen para responder las preguntas de investigación que se

indicaron en los objetivos del estudio.

Los análisis secundarios (o de apoyo) incluyen métodos alternativos de observar los datos,

uso de métodos poco comunes en el área de aplicación, exploración de hipótesis sugeridas

por los resultados del experimento, etc.

Informe estadístico

a. Resumen

b. Introducción

c. Diseño experimental y procedimientos del estudio

d. Estadísticos descriptivos

e. Metodología estadística

f. Resultados y conclusiones

g. Discusión

h. Lista de datos y salidas de computación relevantes

Documentación y almacenamiento de resultados

La idea fundamental es que podamos tener la documentación y los datos almacenados de

forma tal que en el futuro nosotros (o algúna otra persona) pueda rehacer los análisis,

obtener nuevos resultados (o confirmar los obtenidos) y alcanzar nuevas conclusiones sin

mayores dificultades. En algunas áreas de investigación esto es necesario para poder

evaluar la calidad de las conclusiones obtenidas, y en todos los casos es una práctica muy

importante.

AGRO 5005 BIOMETRÍA Notas de clase - …academic.uprm.edu/rmacchia/agro5005/AGRO5005.pdf1 AGRO 5005...

Documents

Transcript of AGRO 5005 BIOMETRÍA Notas de clase - …academic.uprm.edu/rmacchia/agro5005/AGRO5005.pdf1 AGRO 5005...

3 Biometría hemática

Biometría Hemática

Biometría y tecnologías de identificación biométrica

BIOMETRÍA HEMÁTICA (1)

BIOMETRIA César Tolosa Borja Álvaro Giz Bueno. Índice Introducción Concepto de Biometría Sensores Procesamiento de la información Clasificación Biometría.

VALORACIÓN DE LA BIOMETRÍA HEMÁTICA

Adición de beneficiarios con biometría

La Biometría en Un Entorno Operacional

AGRO 5005: BIOMETRÍA LABORATORIOS - …academic.uprm.edu/rmacchia/agro5005/labs2009.pdf · un documento (por ejemplo en Word), o los guardamos como gráficos de Infostat. La última

Transmisión Modelo - Tren Automotriz · Transmisión Modelo Catálogo de Partes 2009 - 2010 Catálogo de Partes 2009 - 2010 FSM-5005 CAJA DE 5 VELOCIDADES Transmisión Modelo FSM-5005

Análisis de la biometría hemática

Biometría hemática completa

¿Qué es la biometría?

Química Sanguínea y Biometría Hemática

Protocolo de Biometría - Programa GLOBE Argentinaglobeargentina.org/.../protocolos/protbiometria.pdf · Protocolo de Biometría Objetivo General Medir y clasificar las plantas existentes

5005 - La Jornada de Oriente Tlaxcala - 2015/03/20

Biometría Hemática TP TTP PRA

Política de Biometría Febrero de 2016 - Acepta.com · 1.0 Primera versión 22-2-2016 Política de Biometría - PO01 4.0 Revisión anual 01-10-2016 Política de Biometría - PO01

Biometría hemática prope

Aplicación de Pruebas No Destructivas Al Tanque de Almacenamiento Tv 5005