Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia...

45
Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 1 Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS 1.1 Las mediciones de altura de 40 plantas de girasol (Helianthus annuus L.) registradas por los estudiantes en la parcela con densidad alta (10 plantas por m²) se transcriben a continuación. Planta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Altura (cm) 229 234 218 216 219 211 223 238 233 219 227 224 226 222 209 Planta 16 17 18 18 20 21 22 23 24 25 26 27 28 29 30 Altura (cm) 222 219 221 230 224 230 208 231 218 229 231 222 214 215 226 Planta 31 32 33 34 35 36 37 38 39 40 Altura (cm) 211 226 223 226 217 221 220 230 213 233 a. Organizar esta información en una tabla con las frecuencias absolutas, las frecuencias relativas y las frecuencias acumuladas (absolutas y relativas) correspondientes a cada valor registrado. b. A partir de la tabla elaborada en a, identificar los valores de la moda, del mínimo, el máximo y los tres cuartiles de la distribución de frecuencias de las alturas de estas plantas y compararlos con los correspondientes a las plantas de la parcela con densidad baja (5 plantas por m²) presentados en el texto. c. Calcular la media aritmética de las alturas de estas plantas y compararla con la de las 40 plantas medidas en la parcela con densidad baja. d. Calcular la varianza, el desvío estándar y el coeficiente de variación de las alturas de estas plantas y comparar sus valores con los correspondientes a las 40 plantas medidas en la parcela con densidad baja. e. ¿Cómo se interpretan las comparaciones realizadas en b, c y d en relación con la posible plasticidad de la altura de las plantas frente a la diferencia en la densidad del cultivo entre las dos parcelas? 1.2 Según registros de Servicio Meteorológico Nacional, los valores de la temperatura mínima del mes más frio (julio) en el observatorio del Aeropuerto de Concordia en la última década del siglo XX son los que se transcriben a continuación. Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Temperatura mínima (ºC) 5,23 6,71 5,10 6,60 8,34 8,37 3,99 10,42 9,87 7,79 a. Con la información provista, elaborar una tabla de frecuencias (absolutas, relativas y acumuladas) de clases de temperatura mínima. Dividir la escala de la variable en un número de clases apropiado para visualizar los principales rasgos de la distribución de frecuencias. b. Confeccionar un histograma de frecuencias. c. A partir de la tabla elaborada, calcular valores aproximados de la media, la varianza, el desvío estándar y el coeficiente de variación de los rendimientos. d. A partir de los datos originales, calcular los valores exactos de las medidas aproximadas en el punto c y evaluar los errores de aproximación. 1.3 La Productividad Primaria Neta es la producción anual de biomasa de la vegetación. En sistemas ganaderos pastoriles se evalúa la Productividad Primaria Neta Aérea (PPNA) como una medida de la máxima producción de forraje aprovechable por los herbívoros. El histograma de la Figura 1.10 representa gráficamente la distribución de frecuencias de la PPNA anual (g/m 2 año) medida en 50 sitios de la Comunidad II (Pradera de Mesófitas) en el sur de la Pampa Deprimida.

Transcript of Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia...

Page 1: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

1

Capítulo 1

DISTRIBUCIONES DE FRECUENCIAS

1.1 Las mediciones de altura de 40 plantas de girasol (Helianthus annuus L.) registradas por los estudiantes en la parcela con densidad alta (10 plantas por m²) se transcriben a continuación.

Planta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Altura (cm) 229 234 218 216 219 211 223 238 233 219 227 224 226 222 209

Planta 16 17 18 18 20 21 22 23 24 25 26 27 28 29 30 Altura (cm) 222 219 221 230 224 230 208 231 218 229 231 222 214 215 226

Planta 31 32 33 34 35 36 37 38 39 40 Altura (cm) 211 226 223 226 217 221 220 230 213 233

a. Organizar esta información en una tabla con las frecuencias absolutas, las frecuencias relativas y las frecuencias acumuladas (absolutas y relativas) correspondientes a cada valor registrado.

b. A partir de la tabla elaborada en a, identificar los valores de la moda, del mínimo, el máximo y los tres cuartiles de la distribución de frecuencias de las alturas de estas plantas y compararlos con los correspondientes a las plantas de la parcela con densidad baja (5 plantas por m²) presentados en el texto.

c. Calcular la media aritmética de las alturas de estas plantas y compararla con la de las 40 plantas medidas en la parcela con densidad baja.

d. Calcular la varianza, el desvío estándar y el coeficiente de variación de las alturas de estas plantas y comparar sus valores con los correspondientes a las 40 plantas medidas en la parcela con densidad baja.

e. ¿Cómo se interpretan las comparaciones realizadas en b, c y d en relación con la posible plasticidad de la altura de las plantas frente a la diferencia en la densidad del cultivo entre las dos parcelas?

1.2 Según registros de Servicio Meteorológico Nacional, los valores de la temperatura mínima del mes más frio (julio) en el observatorio del Aeropuerto de Concordia en la última década del siglo XX son los que se transcriben a continuación.

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Temperatura mínima (ºC) 5,23 6,71 5,10 6,60 8,34 8,37 3,99 10,42 9,87 7,79

a. Con la información provista, elaborar una tabla de frecuencias (absolutas, relativas y acumuladas) de clases de temperatura mínima. Dividir la escala de la variable en un número de clases apropiado para visualizar los principales rasgos de la distribución de frecuencias.

b. Confeccionar un histograma de frecuencias.

c. A partir de la tabla elaborada, calcular valores aproximados de la media, la varianza, el desvío estándar y el coeficiente de variación de los rendimientos.

d. A partir de los datos originales, calcular los valores exactos de las medidas aproximadas en el punto c y evaluar los errores de aproximación.

1.3 La Productividad Primaria Neta es la producción anual de biomasa de la vegetación. En sistemas ganaderos pastoriles se evalúa la Productividad Primaria Neta Aérea (PPNA) como una medida de la máxima producción de forraje aprovechable por los herbívoros. El histograma de la

Figura 1.10 representa gráficamente la distribución de frecuencias de la PPNA anual (g/m2año) medida en 50 sitios de la Comunidad II (Pradera de Mesófitas) en el sur de la Pampa Deprimida.

Page 2: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

2

a. A partir de la información contenida en el histograma, construir un polígono de frecuencias y un polígono de frecuencias acumuladas por clases (recordar que las frecuencias acumuladas por clases se grafican sobre el límite superior de cada clase).

b. ¿Qué valores aproximados tienen el primer cuartil, la mediana y el tercer cuartil de esta distribución de frecuencias?

c. ¿Cuántos de los sitios representados en esta distribución de frecuencias tuvieron PPNA > 550

g/m2año y cuántos tuvieron PPNA ≤ 350 g/m2año?

Figura 1.10. Distribución de frecuencias de

los valores de productividad primaria neta

aérea en 50 sitios de Pradera de Mesófitas

(Comunidad II) en el sur de la Pampa

Deprimida

d. Calcular valores aproximados de la media aritmética y de la varianza de la PPNA de estas praderas. Especificar las unidades correspondientes.

e. Un conjunto de 40 mediciones de PPNA en sitios de la Comunidad IV (Pradera de Hidrofitas)

tuvo media aritmética de 626 g/m2año y desvío estándar de 151 g/m2año, ¿qué diferencias habría entre el histograma aquí presentado para la Comunidad II y el histograma de frecuencias relativas basado en dichas mediciones?

1.4 La vegetación natural de la Pampa Deprimida es un extenso pastizal con aspecto monótono. Sin embargo, cuando se lo observa en detalle, se encuentra que este pastizal es un mosaico de varias comunidades vegetales con diferente composición florística distribuidas en el paisaje en correspondencia con diferentes características de los suelos. En la Figura 1.11 se representan las distribuciones de frecuencias de los contenidos de carbono orgánico del horizonte superficial de suelos asociados con cuatro comunidades vegetales del sur de la Pampa Deprimida.

200 250 300 350 400 450 500 550 600 650 700

PPNA (g/m² año)

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

0,20

0,22

0,24

0,26

Fre

cuencia

Rela

tiva

Page 3: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

3

Figura 1.11. Distribuciones de frecuencias de los

contenidos de Carbono orgánico (%) en el horizonte

superficial de suelos asociados con diferentes

comunidades vegetales del pastizal del sur de la Pampa

Deprimida. Comunidad II, Pradera de Mesófitas,

Comunidad III, Pradera Húmeda de Mesófitas,

Comunidad IV, Pradera de Hidrófitas, Comunidad V,

Estepa de Halófitas.

a. ¿Qué tipo de gráficos se presentan en la Figura 1.11?

b. Aproximadamente ¿qué valores tienen los máximos, mínimos y cuartiles de los contenidos de carbono del horizonte superficial de los suelos asociados con las comunidades IV (Pradera de Hidrófitas) y V (Estepa de Halófitas)?

c. Aproximadamente, ¿qué valores tienen las amplitudes totales y las amplitudes entre cuartiles de los contenidos de carbono del horizonte superficial de los suelos asociados con las comunidades IV (Pradera de Hidrófitas) y V (Estepa de Halófitas)?

d. Comparando las comunidades II (Pradera de Mesófitas) y III (Pradera Húmeda de Mesófitas), ¿cuál está asociada con mayor frecuencia con suelos cuyo contenido de carbono orgánico no supera 3 %? ¿cuál está asociada con mayor frecuencia con suelos cuyo contenido de carbono orgánico supera 4 %?

e. ¿Cuál de las cuatro comunidades está asociada con suelos cuyos contenidos de carbono orgánico del suelo superficial son menores?

f. ¿Cuál de las cuatro comunidades está asociada con un conjunto de suelos más heterogéneo en relación con el contenido de carbono orgánico en el horizonte superficial?

1.5 Los herbicidas que se aplican a los cultivos eliminan malezas que compiten con las plantas cultivadas por luz, agua y nutrientes pero que también sirven como fuentes de alimento para organismos ubicados en el eslabón siguiente de la cadena trófica. Un grupo de estudiantes que investiga los impactos de las prácticas agrícolas sobre la biota de los campos de cultivo registró los pesos de Calomys laucha (laucha manchada) capturadas en dos lotes agrícolas de la Pampa Interior cultivados con soja, uno que había sido tratado con el herbicida Atrazina y otro que no había sido tratado con ningún herbicida. Los pesos registrados son los que se presentan a continuación:

Peso corporal de Calomys laucha (g)

Lote tratado con Atrazina: 18,9 17,8 15,5 16,8 18,3 17,4 16,2 18,3 Lote no tratado: 18,7 19,5 19,2 18,9 18,2 19,9 19,5

a. En un mismo gráfico construir los polígonos de frecuencias relativas acumuladas de los pesos de Calomys laucha de cada lote como funciones escalonadas basadas en los registros individuales.

b. A partir de la observación del gráfico comparar la posición y la dispersión de las dos distribuciones de frecuencias.

II III IV V

Comunidad Vegetal

0,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

% C

Page 4: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

4

c. Representar la distribución de frecuencias de los pesos de Calomys laucha de cada lote con un diagrama de caja y bigotes y comparar las distribuciones sobre la base de los diagramas.

d. Calcular la media aritmética, la varianza y el desvío estándar de los pesos de Calomys laucha de cada lote.

e. Sobre la base de la descripción de las distribuciones de frecuencia realizada en los puntos a – d, discutir la posible influencia de la aplicación de Atrazina sobre los pesos de Calomys laucha de estos lotes de soja.

1.6 La Figura 1.12 representa las distribuciones de frecuencias de los totales de lluvia invernal (trimestre julio-septiembre) y estival (trimestre enero-marzo) registradas en el aeropuerto de Concordia, Entre Ríos, en el período 1981-2000.

Figura 1.12. Polígonos de

distribución de frecuencias relativas

acumuladas de registros de

precipitación trimestral en el

aeropuerto de Concordia, Entre Ríos

en el período 1981-2000. Línea negra,

trimestre enero-marzo. Línea gris,

trimestre julio-septiembre.

a. ¿En cuál de las dos estaciones llovió más? Justificar la respuesta con una medida de posición central extraída del gráfico.

b. ¿En cuál de las dos estaciones la lluvia total fue más variable entre años? Justificar la respuesta con medidas de dispersión extraídas del gráfico.

c. En el período 1981-2000, los registros del aeropuerto de Concordia de lluvia otoñal (trimestre abril-junio) tuvieron mínimo de 81 mm, primer cuartil de 266 mm, mediana de 319 mm, tercer cuartil de 442 mm y máximo de 555 mm, mientras los registros de lluvia primaveral (trimestre octubre-diciembre) tuvieron mínimo de 113 mm, primer cuartil de 276 mm, mediana de 336 mm, tercer cuartil de 450 mm y máximo de 848 mm. Construir gráficos de caja y bigotes para comparar las distribuciones de frecuencias de las lluvias de las cuatro estaciones y describir la estacionalidad de las lluvias registradas. ¿En cuál estación el total de lluvia fue menor en promedio y en cuál fue más variable? ¿En qué estaciones se registraron los valores extremos más altos y más bajos?

1.7 Con el propósito de evaluar la incidencia de la enfermedad conocida como pústula bacteriana (Xanthomonas axonopodis pv. glycinea) en un cultivo experimental de soja, una fitopatóloga observó 200 hojas de plantas de dicho cultivo y registró el número de lesiones que tenía cada una. La siguiente tabla presenta las frecuencias absolutas de hojas con cada número de lesiones registrado por esta profesional.

Lesiones por hoja 0 1 2 3 4 5 6 7 8 9 10

Frecuencia absoluta 64 4 10 12 22 32 26 18 8 3 1

Page 5: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

5

a. ¿De qué tipo es la variable registrada por la fitopatóloga?

b. Construir un gráfico de líneas para representar la distribución de frecuencias de los números de lesiones bacterianas por hoja.

c. Calcular y comparar los valores de la moda, la mediana y la media aritmética (notar que el valor de la media aritmética no necesariamente coincide con uno de los valores posibles de la variable registrada).

d. Construir un gráfico de caja y bigotes para representar esta distribución de frecuencias.

e. Calcular y comparar la amplitud total, la amplitud entre cuartiles y el desvío estándar de los números de lesiones por hoja. Especificar las unidades correspondientes.

f. Escribir un texto explicativo de los principales rasgos de la distribución de frecuencias de los números de lesiones por hoja.

1.8 Demostrar las siguientes propiedades de la media y de la varianza de funciones lineales.

a. La suma de los desvíos (𝑥𝑖 − �̅�) es nula (Ecuación 1.3).

b. La suma de los cuadrados de los desvíos (𝑥𝑖 − �̅�) es menor que la suma de los cuadrados de

las diferencias (𝑥𝑖 − 𝑐) para todo 𝑐 ≠ �̅� (Ecuación 1.4).

c. Si 𝑥 es una variable y 𝑎 es una constante y definimos 𝑢 = 𝑥 + 𝑎, entonces: �̅� = �̅� + 𝑎 y

𝑣𝑎𝑟(𝑢) = 𝑣𝑎𝑟(𝑥) (Ecuaciones 1.9 y 1.10).

d. Si 𝑥 es una variable y 𝑏 una constante y definimos 𝑣 = 𝑏 ∙ 𝑥, entonces: �̅� = 𝑏 ∙ �̅� y 𝑣𝑎𝑟(𝑣) =𝑏2 ∙ 𝑣𝑎𝑟(𝑥) (Ecuaciones 1.11 y 1.12).

e. Si 𝑥 e 𝑦 son dos variables y definimos 𝑤 = 𝑥 + 𝑦, entonces: �̅� = �̅� + �̅� y 𝑣𝑎𝑟(𝑤) = 𝑣𝑎𝑟(𝑥) +𝑣𝑎𝑟(𝑦) + 2 ∙ 𝑐𝑜𝑣𝑎(𝑥, 𝑦) (Ecuaciones 1.13 y 1.14).

1.9 En la siguiente tabla se presentan los registros de los números de tormentas eléctricas y de los totales de lluvia primaveral (trimestre octubre-diciembre) en el aeropuerto de Concordia, Entre Ríos, durante el período 1981−2000.

Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Tormentas eléctricas 15 22 22 14 24 21 19 18 23 27 Lluvia (mm) 295,3 455,8 199,1 311,5 282,6 414,6 236,8 226,6 509,2 475,0

Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Tormentas eléctricas 25 15 25 16 17 18 25 12 11 22 Lluvia (mm) 361,3 294,8 633,4 443,2 331,9 339,8 847,7 270,1 112,6 423,8

a. Calcular la varianza de los números de tormentas eléctricas primaverales en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades.

b. Calcular la varianza de los totales de lluvia primaveral registrados en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades.

c. Calcular la covarianza entre los números de tormentas eléctricas y los totales de lluvia primaverales en el aeropuerto de Concordia durante el período 1981−2000. Indicar las unidades.

d. ¿Qué indica el signo de la covarianza calculada acerca de la asociación entre el número de tormentas eléctricas y el total de lluvias primaverales en el aeropuerto de Concordia? ¿Cómo sería la asociación si la covarianza tuviera el signo opuesto?

1.10 Las arañas son animales depredadores que controlan en buena medida los insectos perjudiciales para los cultivos. Este servicio natural depende de que el paisaje agrícola contenga refugios que aseguren la persistencia de las poblaciones de arañas de un año al siguiente. En el marco de una investigación sobre la importancia de los bordes de lote agrícola con vegetación espontánea para mantener este servicio natural, se capturaron arañas en dos tipos de sitio, lote de cultivo de soja y borde de lote con vegetación espontánea, en dos períodos del año, verano (cultivo

Page 6: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

6

en crecimiento) e invierno (período de rastrojo). Cada individuo capturado fue clasificado en uno de cinco gremios diferentes (grupos de arañas con hábitos similares). Las frecuencias absolutas registradas son las que figuran en la siguiente tabla.

Números de arañas capturadas por gremio en dos sitios de un paisaje agrícola en dos períodos del año. I. Deambuladoras pequeñas (< 10 mm) diurnas que cazan sobre las plantas. II. Sedentarias medianas (10 a 15 mm) crepusculares o nocturnas que cazan con telas orbiculares tejidas sobre las plantas. III. Deambuladoras pequeñas (< 10 mm) diurnas o nocturnas que cazan sobre el suelo. IV. Deambuladoras grandes (> 15 mm) nocturnas que cazan sobre el suelo. V. Sedentarias pequeñas (< 12 mm) que cazan con telas irregulares en el suelo o en las bases de las plantas. Datos adaptados de Liljesthröm et al, Neotropical Entomology 31:197-210 (2002)

Gremio Lote (cultivo) Borde

Verano Invierno Verano Invierno

I 389 10 132 113 II 113 16 41 80 III 45 1 23 24 IV 59 14 4 4 V 21 231 19 31

a. Construir gráficos de barras para representar las distribuciones de frecuencias relativas de gremios de arañas en cada tipo de sitio en cada período del año.

b. Observar los gráficos, ¿en cuál de los dos tipos de sitio la distribución de frecuencias de los gremios de arañas fluctúa más fuertemente entre verano e invierno?

c. ¿Cuál es la clase (gremio) modal en cada tipo de sitio en cada período del año?

d. Calcular los índices N1 y N2 de diversidad de gremios de arañas correspondientes a cada tipo de sitio en cada período del año.

e. ¿En cuál de los dos tipos de sitio hay mayor diversidad de gremios de arañas durante el verano y durante el invierno?

f. ¿Cómo fluctúa la diversidad de gremios de arañas entre verano e invierno en cada tipo de sitio?

g. Según la descripción realizada ¿qué importancia aparente tienen los bordes de lote con vegetación espontánea para la persistencia de las poblaciones de arañas que controlan insectos perjudiciales en el cultivo de soja?

Page 7: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

7

Capítulo 2

PROBABILIDAD 2.1 Las monedas de 25 centavos tienen de un lado la imagen del cabildo de Buenos Aires (“cara”) y del otro el número que indica su valor (“ceca”). Todas son de igual tamaño y peso pero algunas son doradas y otras plateadas. Imaginemos el procedimiento que consiste en arrojar dos monedas de 25 centavos, una dorada y otra plateada, y registrar qué lado de cada una queda hacia arriba.

a. ¿Por qué el procedimiento descripto es un experimento aleatorio? ¿Cuál es el dispositivo experimental y cómo se lo acciona?

b. ¿Qué resultados elementales pertenecen al espacio muestral de este experimento aleatorio? Representar este espacio muestral con un diagrama de Venn.

c. Sobre el diagrama de Venn, señalar un evento compuesto, indicar qué resultados elementales pertenecen al mismo y cuál es su evento complementario.

d. Señalar el evento “que la moneda dorada quede con “cara” hacia arriba”. ¿Se trata de un evento simple o compuesto? ¿Por qué?

e. Señalar el evento “no quedan las dos monedas con “cara” hacia arriba”. ¿Se trata de un evento simple o compuesto? ¿Por qué?

f. Señalar el evento “una de las monedas queda con “cara” hacia arriba y la otra no”. ¿Se trata de un evento simple o compuesto? ¿Por qué?

g. Señalar dos eventos que no sean mutuamente excluyentes y el evento que constituye su intersección.

2.2 Consideremos nuevamente el experimento aleatorio que consiste en arrojar hacia arriba dos monedas de 25 centavos, una dorada y otra plateada, y registrar qué lado de cada una queda hacia arriba. Aceptemos que este experimento se realiza bajo condiciones que permiten asignar igual valor de probabilidad a todos los resultados elementales que puede producir.

a. Construir una tabla de doble entrada a partir de los valores de las probabilidades de los resultados elementales.

b. ¿Cuánto vale la probabilidad de que la moneda dorada quede con “cara” hacia arriba?

c. ¿Cuánto vale la probabilidad conjunta de que las dos monedas queden con “cara” hacia arriba?

d. ¿Cuánto vale la probabilidad condicional de que la moneda dorada quede con “cara” hacia arriba si la moneda plateada también queda con “cara” hacia arriba?

e. Comparar los valores de las probabilidades calculadas en los puntos b y d. ¿Qué indica la comparación?

f. ¿Cuánto vale la probabilidad de que una de las monedas quede con “cara” y la otra con “ceca” hacia arriba?

2.3 En una investigación sobre la diversificación de la producción agrícola en el distrito de Tiacalín, un estudiante graduado de la Facultad de Agronomía decide obtener una muestra aleatoria de 50 establecimientos rurales con superficies entre 25 y 500 ha y registrar qué cultivos realizaron en el último verano. Para ello, numerará los 2198 establecimientos del distrito cuya superficie está en el rango estipulado y elegirá por sorteo 50 para incluir en la muestra. Luego, pedirá a cada productor que complete una encuesta en la que deberá consignar cuáles de las siguientes especies fueron cultivadas en su establecimiento en el último verano: soja, girasol, maíz, sorgo, otro.

a. ¿Cuál es la población de referencia, cuáles son las unidades muestrales y cuál es la muestra?

Page 8: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

8

b. ¿Por qué es correcto decir que el procedimiento que consiste en elegir al azar un establecimiento de la población de referencia y registrar cuáles cultivos de la lista fueron realizados allí en el último verano es un experimento aleatorio?

c. Detallar las 32 listas de cultivos estivales que se pueden consignar en cada establecimiento. Se trata de los resultados que contiene el espacio muestral del experimento aleatorio.

d. ¿Qué resultados pertenecen a los siguientes eventos compuestos?

“en el establecimiento se cultivó soja”

“en el establecimiento se cultivó maíz y girasol”

“en el establecimiento se realizaron exactamente dos cultivos estivales diferentes”

“en el establecimiento se realizaron al menos dos cultivos estivales diferentes”

“en el establecimiento se realizaron más de dos cultivos estivales diferentes”

“en el establecimiento se realizaron menos de cuatro cultivos estivales diferentes”

e. ¿Cuál es el evento complementario del evento “en el establecimiento se realizó más de un cultivo estival”? ¿Qué eventos simples lo integran?

f. ¿Con qué propiedad de la población de referencia coincide el valor de la probabilidad de que un establecimiento a elegir al azar haya cultivado soja en el último verano?

g. ¿Con qué propiedad de la población de referencia coincide el valor de la probabilidad de que un establecimiento elegir al azar haya cultivado al menos dos cultivos estivales diferentes en el último verano?

2.4 Una vez obtenida la muestra aleatoria de 50 establecimientos agropecuarios con superficies entre 25 y 500 ha en el distrito de Tiacalin, el estudiante graduado encontró que en todos ellos se había realizado al menos un cultivo estival, que en 38 de ellos se había cultivado soja y que en 16 la soja era el único cultivo estival. Además, en 8 de los 12 establecimientos donde no se había cultivado soja se habían cultivado dos o más especies estivales diferentes.

a. Construir una tabla de doble entrada (llamada tabla de contingencia) con las frecuencias absolutas de establecimientos de la muestra que habían y que no habían cultivado soja y que habían cultivado una y más de una especie estival.

b. A partir de la tabla construida en a, confeccionar otra que muestre las correspondientes frecuencias relativas en la muestra.

Suponiendo que la información de la muestra reflejara fielmente las frecuencias relativas de establecimientos que han cultivado o no cultivado soja y que han realizado uno o más cultivos estivales en la población de referencia:

c. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de referencia haya cultivado soja en el último verano? ¿Qué posición ocupa el valor de esta probabilidad en la tabla construida en b?

d. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de referencia haya cultivado solamente soja en el último verano? ¿Se trata de una probabilidad conjunta o condicional?

e. ¿Cuál sería la probabilidad de que un establecimiento a elegir al azar de la población de referencia haya realizado un sólo cultivo estival si ha cultivado soja? ¿Se trata de una probabilidad conjunta o condicional?

f. ¿Los eventos “se ha cultivado soja” y “se ha realizado un único cultivo” serían estadísticamente independientes? ¿Qué interpretaciones admite la respuesta a esa pregunta?

2.5 En una investigación sobre la regeneración de la palmera yatay (Butia yatay) en el Parque Nacional El Palmar se marcaron 200 plántulas de palmera elegidas al azar en un área de 4 ha de sabana de palmeras. Entre las plántulas marcadas, 120 estaban ubicadas bajo la copa de una palmera adulta (a menos de 4 metros de su base) y 80 estaban ubicadas a más de 4 m de la palmera adulta más cercana. Al cabo de un año, se comprobó que habían muerto 40 de las plántulas ubicadas bajo la copa de una palmera adulta y 20 de las restantes. Definamos ahora el experimento aleatorio

Page 9: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

9

que consiste en elegir por sorteo una de las 200 plántulas y registrar si estaba o no bajo la copa de una palmera adulta y si sobrevivió o no.

a. ¿Qué resultados perteneces al espacio muestral de este experimento aleatorio?

b. Señalar dos eventos mutuamente excluyentes en dicho espacio muestral. ¿Cuál es la probabilidad de cada uno? ¿Cuál es la probabilidad de que ocurra uno o el otro?

c. Señalar dos eventos que no sean mutuamente excluyentes. ¿Cuál es la probabilidad de cada uno? ¿Cuál es su probabilidad conjunta?

d. ¿Cuál es la probabilidad de que la plántula a elegir al azar resulte ser una que estaba bajo la copa de una palmera adulta?

e. ¿Cuál es la probabilidad que la plántula a elegir al azar haya sobrevivido?

f. ¿Cuál es la probabilidad que la plántula a elegir al azar haya sobrevivido, si estaba a más de 4 m de distancia de la palmera adulta más cercana?

Suponiendo que las probabilidades calculadas a partir de estas 200 plántulas constituyen buenas aproximaciones a las probabilidades que tienen las plántulas de Butia yatay del Parque Nacional El Palmar de establecerse y de sobrevivir a diferentes distancias de las palmeras adultas

g. ¿La supervivencia de las plántulas de Butia yatay es estadísticamente independiente de su ubicación respecto de las palmeras adultas? Justificar la respuesta usando probabilidades condicionales y discutir su interpretación.

2.6 Se prepara un dispositivo experimental con dos bolilleros bien construidos y una cantidad de bolillas blancas o rojas, todas esféricas, de igual diámetro, peso y rugosidad. En el primer bolillero se colocan 96 bolillas blancas y 32 rojas y en el segundo 8 blancas y 56 rojas. Ambos bolilleros girarán cerrados durante 1 minuto para mezclar bien las bolillas y luego girarán una vez más para sacar una bolilla de cada uno. Llamaremos A al evento que ocurre cuando “del primer bolillero sale una bolilla roja” y B al que ocurre cuando “del segundo bolillero sale una bolilla roja”. El dispositivo y el procedimiento descriptos permiten razonablemente aceptar que los eventos A y B son estadísticamente independientes.

a. ¿Cuál es el evento 𝐴𝑐? ¿Cuál es el valor de su probabilidad?

b. ¿Cuál es el evento 𝐴 ∩ 𝐴𝑐? ¿Cuál es su probabilidad?

c. ¿Cuál es el evento 𝐴 ∪ 𝐴𝑐? ¿Cuál es su probabilidad?

d. ¿A qué intersección corresponde el evento “de ambos bolilleros sale una bolilla roja”? ¿Cuál es su probabilidad?

e. ¿Cuál es el evento 𝐴𝑐 ∩ 𝐵? ¿Cuál es su probabilidad?

f. ¿A qué intersección corresponde el evento “del primer bolillero sale una bolilla roja y del segundo sale una bolilla blanca”? ¿Cuál es su probabilidad?

g. ¿A qué unión de eventos corresponde el evento “de un bolillero sale una bolilla blanca y del otro una bolilla roja? ¿Cuál es su probabilidad?

h. ¿Cuál es el evento (𝐴 ∪ 𝐵)𝑐? ¿Cuál es su probabilidad?

2.7 En un bosque subtropical, la probabilidad de que un árbol cualquiera sea derribado por una tormenta muy fuerte (velocidad del viento >150km /h) es de 0,75 si está colonizado por lianas que agregan peso y volumen a su copa y de 0,30 si está libre de lianas. Además, la probabilidad de que un árbol a tomar al azar de este bosque esté colonizado por lianas es de 0,40.

a. ¿Cuánto vale la probabilidad de que un árbol a tomar al azar de este bosque esté colonizado por lianas y además sea derribado por una tormenta fuerte? ¿Se trata de una probabilidad conjunta o condicional?

b. ¿Cuánto vale la probabilidad de que un árbol a tomar al azar de este bosque sea derribado por una tormenta fuerte?

c. ¿Cómo se interpretan los valores calculados en los ítems a y b en términos del criterio presentado en la ecuación 2.9?

Page 10: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

10

d. ¿La caída de un árbol de este bosque por acción una tormenta fuerte es estadísticamente independiente de la presencia de lianas en su copa? Justificar la respuesta con un cálculo apropiado y discutir su interpretación.

2.8 Consideremos un árbol cuyas semillas caen todas bajo su copa. Estas semillas tienen una probabilidad de morir por acción de organismos patógenos o depredadores igual a 0,6, una probabilidad de ser enterradas y germinar in situ igual a 0,1 y una probabilidad de ser transportadas por animales a sitios alejados del árbol igual a 0,3. Si llegan a los sitios alejados, las semillas tienen una probabilidad igual a 0,4 de ser enterradas y germinar.

a. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar no sea transportada a un sitio alejado del mismo?

b. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar germine en un sitio alejado del mismo? ¿y en un sitio ubicado bajo la copa del árbol?

c. ¿Cuánto vale la probabilidad de que una semilla de este árbol a tomar al azar llegue a germinar? ¿Cómo se interpreta este valor en términos del criterio presentado en la ecuación 2.9?

d. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar ambas lleguen a germinar?

e. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar la primera llegue a germinar y la segunda no?

f. ¿Cuánto vale la probabilidad de que entre dos semillas de este árbol a tomar al azar una cualquiera de las dos llegue a germinar y otra no?

g. ¿Cuánto vale la probabilidad de que entre tres semillas de este árbol a tomar al azar una cualquiera llegue a germinar y dos no? ¿Cómo se interpreta este valor en términos del criterio presentado en la ecuación 2.9?

2.9 En un censo rural realizado en 2010 en el distrito de Tiacalín se registró la superficie de tierra y la forma de gestión de cada establecimiento. Con esta información se clasificaron todos los establecimientos en tres categorías de superficie (<50 ha, 50 a 500 ha y >500 ha) y en tres modelos de gestión (explotación directa por el propietario, explotación mediante contratos anuales de siembra y arrendamiento por más de 3 años). Las frecuencias relativas encontradas de cada clase de establecimiento son las que se presentan en la siguiente tabla de doble entrada.

Frecuencias relativas de establecimientos rurales clasificados por superficie y modelo de gestión en el distrito de Tiacalín (Censo rural 2010).

Superficie

<50 ha 50 -500 ha ≥500 ha

Gestión

Propietario 0,04 0,29 0,07 0,40

Contrato anual 0,13 0,27 0,02 0,42

Arrendamiento 0,01 0,14 0,03 0,18

0,18 0,70 0,12 1,00

Con el propósito de evaluar los posibles cambios recientes en la distribución de los establecimientos del distrito entre estas clases de superficie y modelo de gestión, un ingeniero agrónomo obtendrá una muestra aleatoria de establecimientos del distrito y registrará la superficie de tierra y la forma de gestión de cada establecimiento a elegir al azar.

Si cuando el ingeniero obtenga la muestra las frecuencias relativas de establecimientos en diferentes clases de superficie y modelo de gestión son iguales a las registradas en 2010:

a. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar sea gestionado directamente por el propietario?

b. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie ≥500 ha y <50 ha?

c. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie <50 ha si es <500ha?

Page 11: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

11

d. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie <50 ha y sea gestionado directamente por el propietario?

e. ¿El evento “el establecimiento tiene una superficie <50 ha” es estadísticamente independiente del evento “el establecimiento es gestionado directamente por el propietario? Justificar con un cálculo apropiado e interpretar en términos de las frecuencias relativas de diferentes clases de establecimiento en el distrito.

f. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar tenga una superficie ≥50 ha y sea gestionado mediante contratos anuales de siembra?

g. ¿Cuánto vale la probabilidad de que un establecimiento a elegir al azar sea gestionado mediante contratos anuales de siembra si tiene una superficie ≥50 ha?

h. ¿El evento “el establecimiento tiene una superficie ≥50 ha” es estadísticamente independiente del evento “el establecimiento es gestionado mediante contratos anuales de siembra”? Justificar con un cálculo apropiado e interpretar en términos de las frecuencias relativas de diferentes clases de establecimiento en el distrito.

2.10 Muchas malezas de los lotes agrícolas provienen de semillas enterradas en el suelo antes de la siembra del cultivo. En el suelo, las semillas vivas pueden encontrarse en dos estados fisiológicos, “despiertas”, si germinan cuando la temperatura y la humedad son apropiadas, o “dormidas” si no germinan a menos que reciban algún estímulo específico como luz o frio. Para analizar la infestación con la maleza Commelina erecta L. en un lote agrícola del distrito de Tiacalín, una investigadora tomó una muestra aleatoria de 2000 semillas y las clasificó según su estado fisiológico y la profundidad a la que estaban enterradas. Llamaremos A al evento “una semilla de Commelina erecta L. tomada al azar de este lote está despierta” y B al evento “una semilla tomada al azar de Commelina erecta L. de este lote está a una profundidad < 2cm”.

a. Identificar la población de referencia, las unidades muestrales y las variables de interés.

Entre las 2000 semillas de la muestra, la investigadora encontró 1739 semillas a menos de 2 cm de profundidad, entre las cuales 1165 estaban despiertas. Además encontró 89 semillas despiertas enterradas a profundidad ≥ 2 cm. A partir de esta información:

b. ¿Qué valor corresponde asignar a la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté enterrada a menos de 2 cm de profundidad?

c. ¿Qué valor corresponde asignar a la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté despierta?

d. ¿Qué valor corresponde asignar a la probabilidad condicional de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté despierta si está enterrada a una profundidad ≥ 2cm?

e. A partir de los resultados obtenidos en b, c y d, utilizar la Regla de Bayes para asignar el valor a la probabilidad condicional de que una semilla de Commelina erecta L. a tomar al azar de este lote agrícola esté enterrada a una profundidad ≥ 2cm si está despierta. Comprobar que el valor obtenido coincide con el cociente

𝑃[𝐴 ∩ 𝐵𝑐]

𝑃[𝐴]

f. ¿Cuál es el evento 𝐴𝑐 ∪ 𝐵𝑐?

g. ¿Qué valor corresponde asignar a 𝑃[𝐴𝑐 ∪ 𝐵𝑐]?

h. Si el estado fisiológico y la profundidad en el suelo de una semilla de Commelina erecta L. a tomar al azar de este lote agrícola fuesen estadísticamente independientes, ¿cuál sería el valor de la probabilidad de que una semilla de Commelina erecta L. a tomar al azar de este lote estuviera enterrada a menos de 2 cm de profundidad y además esté despierta?

i. Comparar las respuestas a los ítems g y h. ¿Qué indica el resultado de esta comparación?

Page 12: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

12

Capítulo 3

VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 3.1 Un Ingeniero Agrónomo se dispone a evaluar la densidad y la uniformidad de siembra logradas en un lote de girasol de 25 ha. El objetivo de la siembra era producir un cultivo con densidad uniforme de 5 plantas por m2 dispuestas en surcos trazados cada 0,7 m. Para realizar su evaluación, el ingeniero seleccionará al azar tramos de surco de 1 m de longitud y contará las plantas que contengan.

En el lote hay aproximadamente 357.000 m de surco. Como cada tramo de 1 m de surco será elegido al azar, el número de plantas que contenga es una variable aleatoria que denominaremos X cuya distribución de probabilidad refleja las frecuencias relativas de los diferentes números de plantas en todos los tramos de 1 m de surco que se pueden elegir en el lote.

Si el objetivo de la siembra fue perfectamente logrado, el número promedio de plantas por m de surco debe ser,

5 planta/m2  0,7 m = 3,5 planta/m

Dependiendo de dónde comiencen, la mitad de los tramos de 1 m deben contener 3 y la otra mitad 4 plantas. Es decir que los tramos con 3 o 4 plantas tienen densidad de siembra correcta, los tramos con más de 4 plantas tienen densidad excesiva y los tramos con menos de 3 plantas tienen densidad deficiente.

a. ¿Por qué el procedimiento que seguirá el ingeniero es un experimento aleatorio? ¿Cómo se lo lleva a cabo?

b. ¿Cuáles son los resultados pertenecientes al espacio muestral de este experimento aleatorio? Representar este espacio muestral con un diagrama de Venn.

c. ¿De qué tipo es la variable aleatoria X?

d. ¿Qué distribución de probabilidad debería tener X si el objetivo de la siembra hubiese sido perfectamente logrado?

e. ¿Cuánto deberían valer la varianza y el desvío estándar de X?

Ahora supongamos que aunque el ingeniero no lo sabe, la verdadera distribución de probabilidad de X es la siguiente:

x 0 1 2 3 4 5 6 ≥ 7

P[X = x] 0,02 0,04 0,16 0,34 0,36 0,06 0,02 0

f. Comprobar que la distribución de probabilidad de X cumple las condiciones 3.1 y 3.2.

g. Graficar y comparar las distribuciones de probabilidad de X deseada y verdadera.

h. Calcular los valores de la probabilidad de que un tramo de 1 m de surco a tomar al azar corresponda a tramos con densidad correcta, excesiva y deficiente. ¿Cómo se interpretan estos valores en términos de frecuencias relativas en la población y de las correspondientes superficies de cultivo?

i. Calcular la esperanza y la varianza de X. ¿Cómo se interpretan estos valores en términos características de la población de referencia? ¿Cómo se comparan con los de la distribución deseada?

3.2 La chilca negra (Acanthostyles buniifolius) es una especie de arbusto de la familia Asteraceae nativo de la Región Chaco-Pampeana que invade los campos de pastoreo. Estos arbustos producen capítulos (cabezuelas) con 5 a 8 flores cada uno que son visitados por insectos polinizadores especializados. Si su óvulo es polinizado, cada flor produce un fruto seco con una sola

Page 13: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

13

semilla (aquenio). En consecuencia, el número de semillas en un capítulo de Acanthostyles buniifolius a tomar al azar es una variable aleatoria discreta que toma valores entre 0 y 8. Denominemos U al número de semillas en un capítulo a tomar al azar en un sitio recientemente incendiado donde presumiblemente los insectos polinizadores son escasos y V al número de semillas en uno a tomar al azar en un sitio no incendiado por mucho tiempo donde éstos serían abundantes. Las distribuciones de probabilidad de U y V son las siguientes:

Sitio recientemente incendiado Sitio no incendiado por 35 años

u P(U = u) v P(V = v)

0 0,083 0 0

1 0,005 1 0,005

2 0,005 2 0,005

3 0,120 3 0,019

4 0,342 4 0,189

5 0,402 5 0,570

6 0,033 6 0,152

7 0,010 7 0,050

8 0 8 0,010

a. Graficar las dos distribuciones de probabilidad. ¿Qué diferencias se visualizan?

b. Calcular P[U > 3] y P[V > 3] ¿Cómo se interpretan los valores obtenidos en relación con la comparación entre las dos poblaciones de capítulos?

c. Calcular los valores de la esperanza y de la varianza de los números de semillas en un capítulo a tomar al azar en cada sitio. ¿Qué características de las poblaciones de capítulos reflejan los valores calculados?

d. ¿En cuál sitio el número de semillas por capítulo es en promedio mayor y en cuál es más variable? Explicar sobre la base de la correspondencia entre probabilidades y frecuencias relativas.

e. Calcular E[U−V] y Var[U−V], la esperanza y la varianza de la diferencia entre los números de semillas en un capítulo a tomar al azar en el sitio recientemente quemado y en uno a tomar al azar en el sitio no quemado por mucho tiempo.

3.3 Se denomina poder germinativo a la proporción de las semillas de un lote que germinan cuando se las coloca en condiciones apropiadas de humedad y temperatura. La etiqueta de una bolsa de semillas dice que su poder germinativo es de 98%. Para evaluar esta especificación tomaremos de la bolsa 10 semillas al azar y las mantendremos por separado en condiciones apropiadas para la germinación. Al cabo de 7 días contaremos y registraremos el número de semillas que hayan germinado. Denominamos X al número a registrar.

a. ¿Por qué X es una variable aleatoria? ¿Qué valores puede tomar?

b. ¿Qué modelo de distribución de probabilidad corresponde a la variable aleatoria X?

Si la información de la etiqueta es correcta:

c. ¿Qué valores deben tener los parámetros de la distribución de probabilidad de X?

d. ¿Qué valores deben tener la esperanza y la varianza de X? ¿Cómo se interpretan estos valores en relación con una secuencia larga de repeticiones del experimento propuesto?

e. ¿Qué valor debe tener la probabilidad de que germinen todas las semillas?

f. ¿Qué valor debe tener la probabilidad de que quede una semilla sin germinar?

g. ¿Qué valor debe tener la probabilidad de que queden dos semillas sin germinar?

h. ¿Qué valor debe tener la probabilidad de que germinen más de 7 semillas?

Page 14: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

14

i. Sobre la base del cálculo realizado en h, ¿qué opinión merecerá la información escrita en la etiqueta de la bolsa si luego de realizado el experimento encontramos que germinaron 7 semillas o menos?

3.4 Existen muchos insectos que son considerados útiles para la agricultura porque se alimentan de otros insectos que dañan a los cultivos. Entre estos depredadores de plagas están la vaquita colorada (Cycloneda sanguínea), la juanita (Calosoma argentinensis), el tatadiós (Mantis religiosa), la chinche escudo (Podisus nigrispinus), la crisopa (Chrysopa lanata), etc. El número de presas que un individuo de una de estas especies captura en un día es una variable aleatoria X cuya distribución de probabilidad depende de la probabilidad que estos insectos tienen de concretar una captura cada vez que encuentran una presa potencial y del número de éstas que encuentran. Supongamos que cada vez que un individuo de una estas especies de depredadores de plagas encuentra una presa potencial tiene una probabilidad constante de capturarla igual a 0,25.

a. ¿Cuántas presas potenciales debe encontrar en un día para que la probabilidad de capturar al menos una sea mayor o igual que 0,8?

b. Graficar la distribución de probabilidad del número de presas que este insecto depredador captura en un día en que encuentra el número de presas potenciales calculado en el punto a.

c. ¿Cuál sería el número más probable de capturas en un día como ese? ¿Cómo se interpreta el valor de probabilidad correspondiente?

d. Calcular la esperanza del número de presas capturadas en un día en que el insecto depredador encuentra el número de potenciales presas calculado en a.

e. Calcular la varianza del número de presas capturadas en un día en que el insecto depredador encuentra el número de potenciales presas calculado en a.

f. ¿Cómo se interpretan los valores de la esperanza y de la varianza calculados en d y e?

3.5 Sea U una variable aleatoria continua con la siguiente función de densidad de probabilidad,

𝑓(𝑢) = {6 ∙ 𝑢 ∙ (1 − 𝑢)

0

, para 0 ≤ u ≤  1

, para cualquier otro valor de u

a. Construir el gráfico de f(u).

b. Comprobar que la distribución de probabilidad de U cumple con las condiciones 3.14 y 3.15.

c. Sobre el gráfico identificar el valor de la mediana u0,5. Confirmarlo mediante el cálculo de la probabilidad correspondiente.

d. ¿Qué valor tiene P [U =  u0,5]?

e. Calcular la esperanza, la varianza y el desvío estándar de U.

f. Calcular la probabilidad de que U tome un valor entre 0,25 y 0,75.

g. Calcular la siguiente probabilidad condicional: P [U < 0,25 | U < 0,40].

3.6 Bromus catharticus Vahl es una especie de pasto nativo del Cono Sur valorado tanto por la producción de forraje como por su carácter autóctono. En comparación con otros pastos nativos, las matas de B. catharticus tienen vida relativamente corta, por lo que la persistencia de esta especie en los pastizales depende de que la producción, dispersión y germinación de semillas sea frecuente. Como la longevidad de las matas de B. catharticus varía con las condiciones climáticas, esta dependencia de la reproducción se vuelve crítica bajo condiciones desfavorables para la supervivencia. Supongamos que en una región donde los veranos son frescos y húmedos, la duración total de la vida de una mata de B. catharticus a tomar al azar es una variable aleatoria continua X que toma valores entre 0 y 2 años y cuya función de densidad de probabilidad es:

𝑓(𝑥) = {1 − 0,5 ∙ 𝑥

0

, para 0 ≤ x ≤ 2 años

, para cualquier otro valor de x

Page 15: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

15

Supongamos además que en una región donde los veranos son cálidos y secos, la duración total de la vida de una mata de B. catharticus a tomar al azar es una variable aleatoria continua Y que también toma valores entre 0 y 2 años pero cuya función de densidad de probabilidad es:

𝑔(𝑦) = {1,5 − 1,5 ∙ 𝑦 + 0,375 ∙ 𝑦2

0

, para 0 ≤ y ≤ 2 años

, para cualquier otro valor de y

a. Graficar las funciones de densidad f(x) y g(y) y comparar los gráficos obtenidos. ¿Qué se observa?

b. Calcular la probabilidad de que una mata de B. catharticus a tomar al azar en el momento de la germinación en una región con veranos son frescos y húmedos viva en total menos que medio año. Representarla en el gráfico correspondiente.

c. Calcular la probabilidad de que una mata de B. catharticus a tomar al azar en el momento de la germinación en una región donde los veranos son cálidos y secos viva en total menos que medio año. Representarla en el gráfico correspondiente.

d. Comparar las probabilidades calculadas en los puntos b y c. ¿Cómo se interpretan en términos de frecuencias relativas en las poblaciones correspondientes?

e. Calcular los valores de la esperanza de X y de la esperanza de Y. ¿Cómo se interpretan en términos de las poblaciones de matas de B. catharticus de una región con veranos húmedos y frescos y de una región con veranos calurosos y secos?

f. Calcular los valores de la varianza de X y de la varianza de Y. ¿Cómo se interpretan en términos de las poblaciones de matas de B. catharticus de una región con veranos húmedos y frescos y de una región con veranos calurosos y secos?

g. Considerar la variable aleatoria X−Y. ¿En qué consiste el experimento aleatorio que la genera? Calcular E[X−Y] y Var[X−Y].

h. Calcular la probabilidad de que una mata de B. catharticus a elegir al azar en una región donde los veranos son frescos y húmedos cuando ya alcanzó medio año de edad viva en total más de un año.

i. Calcular la probabilidad de que una mata de B. catharticus a elegir al azar en una región donde los veranos son cálidos y secos cuando ya alcanzó medio año de edad viva en total más que un año.

j. Comparar las probabilidades calculadas en los puntos h y i. ¿Cómo se interpretan en términos de frecuencias relativas en las poblaciones correspondientes?

3.7 Examinar la curva de la distribución Normal Estándar en la Figura 3.10. Notar que la curva es simétrica a ambos lados de la línea correspondiente a z = 0. A partir de esa observación contestar sin usar la tabla.

a. ¿Cuál es el valor de P [Z < 0]?

b. ¿Cuál es el valor de P [Z > 0]?

c. ¿Qué signo tiene z si P [Z < z] = 0,38?

d. ¿Qué signo tiene z si P [Z < z] =0,51?

e. ¿Qué signo tiene z si P [Z > z] = 0,76?

f. ¿Qué signo tiene z si P [Z > z] =0,05?

g. Si z ≤ 0, ¿cuál es el valor máximo que puede tener P [Z < z]?

h. Si z ≥ 0, ¿cuál es el valor mínimo que puede tener P [Z < z]?

3.8 El rótulo de un gran embarque de manzanas Red Delicious para exportación dice que las manzanas tienen peso medio de 250 g y desvío estándar de 20 g. Si lo que dice el rótulo es cierto y además el peso de una manzana a tomar al azar de este embarque es una variable aleatoria con distribución Normal:

Page 16: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

16

a. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese menos de 190 g?

b. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese más de 245 g?

c. ¿Cuál es la probabilidad de que una manzana a tomar al azar de este embarque pese más de 220 g y menos de 280 g?

d. ¿Qué valores tienen la esperanza y la varianza del peso de una manzana a tomar al azar de este embarque? ¿Cómo se interpretan estos valores en relación con una serie suficientemente larga de extracciones aleatorias de una manzana de este embarque?

e. Si se separan las manzanas más livianas del embarque hasta descartar el 10% ¿cuál es el peso máximo de las manzanas separadas?

f. ¿Cuál es la probabilidad de que entre 10 manzanas a tomar al azar de este embarque por lo menos 8 pesen entre 220 y 280 g?

g. ¿Cuál es la probabilidad de que entre 10 manzanas a tomar al azar de este embarque por lo menos una pese menos que 220 g o más que 280 g?

3.9 En un área del oeste de la Región Pampeana, se ha determinado que la sequía es el principal factor limitante del rendimiento de los cultivos de cereales de invierno como el trigo y el centeno. Se ha observado que si durante el período inverno-primaveral llueve menos que 250 mm disminuye fuertemente el rendimiento del cultivo de trigo. En cambio el rendimiento del centeno, un cultivo más resistente a la sequía, se compromete si en dicho período llueve menos que 200 mm. En esta área, el total de lluvias inverno-primaverales (mm) en un año a tomar al azar es una variable aleatoria con distribución aproximadamente Normal con μ = 300 y σ = 100.

a. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite el rendimiento del cultivo de trigo en esta área?

b. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite el rendimiento del cultivo de centeno en esta área?

c. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía limite el rendimiento del cultivo de trigo pero no el del cultivo de centeno en esta área?

d. ¿Cuánto vale la probabilidad de que en un año a tomar al azar la sequía no limite los rendimientos de ninguno de los dos cultivos en esta área?

e. ¿Cuánto vale la probabilidad de que la sequía limite el rendimiento del cultivo de trigo pero no el del de centeno en esta área en un año a tomar al azar entre aquellos con lluvias inverno-primaverales inferiores al promedio?

f. ¿Cuánto vale la probabilidad de que en un año a tomar al azar entre aquellos en que la sequía limita el rendimiento del trigo también el rendimiento del centeno sea limitado por la sequía?

3.10 En una región semiárida, el total de lluvia (mm) que cae en un año a tomar al azar es una variable aleatoria L con distribución aproximadamente Normal con μ = 400 y σ = 100. Además, la

productividad primaria neta anual de un lote de pastizal (g/m2año) en un año a tomar al azar se

puede calcular aproximadamente como X = 56 + 0,13  L.

a. ¿Por qué X es una variable aleatoria?

b. ¿Cuál es la distribución de probabilidad aproximada de X?

c. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada

de este lote de pastizal sea menor que 90 g/m2año?

d. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada

de este lote de pastizal sea mayor que 130 g/m2año?

e. ¿Cuál es la probabilidad de que en un año a tomar al azar la productividad primaria aproximada

de este lote de pastizal sea mayor que 100 g/m2año y menor que 120 g/m2año?

f. ¿Cuál es el valor de x0,90, el cuantil 0,90 de la distribución de probabilidad de X?

Page 17: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

17

g. ¿Cuál es la probabilidad de que en un año con lluvia mayor que 500 mm a tomar al azar, la

productividad primaria aproximada de este lote de pastizal sea mayor que 135 g/m2año?

3.11 Consideremos el experimento aleatorio que consiste en tomar al azar un fruto de Butia yatay del Parque Nacional El Palmar y contar las semillas viables que contenga. Denominemos X1 a la variable aleatoria resultante. Como el número de frutos de B. yatay en el P.N. El Palmar es por lo menos del orden de 1010, es razonable dar por cierto que la extracción de un fruto no modifica substancialmente las frecuencias relativas de frutos con diferentes números de semillas en dicha población.

Consideremos ahora el experimento aleatorio que consiste en tomar al azar otro fruto de B. yatay del Parque Nacional El Palmar y contar las semillas viables que contenga. Denominemos X2 a la variable aleatoria resultante. X1 y X2 son variables aleatorias independientes con idéntica distribución de probabilidad. Esta distribución de probabilidad es la que aparece en el Cuadro 3.1.

a. Si como resultado de la primera extracción obtenemos x1 = 2, ¿cuál es la probabilidad de encontrar un fruto con dos semillas viables en la segunda extracción? Es decir, ¿cuál es el valor de P [X2 = 2 | X1 = 2]?

b. ¿Cuál es la probabilidad de encontrar frutos con dos semillas viables en ambas extracciones? Es decir ¿cuál es el valor de P [X2 = X1 = 2]?

La media aritmética de los números de semillas viables a encontrar en las dos extracciones es

�̅� =0,5  X1 + 0,5  X2.

c. ¿Por qué esta media aritmética es una variable aleatoria? ¿Qué valores puede tomar?

d. ¿Cuál es el valor de la esperanza de esta media aritmética? Compararlo con el valor de la esperanza de X1 y de X2.

e. ¿Cuál es el valor de la varianza de esta media aritmética? Compararlo con el valor de la varianza de X1 y de X2.

f. ¿Cuál es el valor del desvío estándar de esta media aritmética? Compararlo con el valor del desvío estándar de X1 y de X2.

3.12 Consideremos la variable aleatoria X1 que resulta de instalar una plántula de Allophylus edulis cerca de una palmera a elegir al azar en el Parque Nacional El Palmar y medir cuánto crece en altura durante un año (cm). Consideremos además la variable aleatoria X2 que resulta de instalar otra plántula de Allophylus edulis cerca de otra palmera al elegir al azar y medir cuánto crece en altura durante un año (cm). Dadas las características de este experimento, es razonable dar por cierto que las variables aleatorias X1 y X2 son independientes y tienen idéntica distribución de probabilidad. Supongamos que dicha distribución común a X1 y X2 es la distribución Normal con μ = 8 y σ = 2,5. Es decir que damos por supuesto que,

X1, X2 ~ N (μ = 8, σ = 2,5) independientes

a. ¿Cuánto vale la probabilidad de que la primera plántula crezca más que 6 y menos que 10 cm?

b. ¿Cuánto vale la probabilidad de que la segunda plántula crezca más que 6 y menos que 10 cm si la primera crece más que 6 y menos que 10 cm? ¿y si la primera crece menos que 6 cm?

c. ¿Cuánto vale la probabilidad de que ambas plántulas crezcan más que 6 y menos que 10 cm?

La media aritmética de los crecimientos en altura de dos plántulas a instalar cerca de sendas

palmeras a tomar al azar es �̅� =0,5  X1 + 0,5  X2.

d. ¿Por qué dicha media aritmética es una variable aleatoria? ¿En qué consiste el experimento aleatorio que la produce?

e. ¿Cuál es la distribución de probabilidad de la media aritmética mencionada?

f. ¿Cuánto vale la probabilidad de que dicha media aritmética tome un valor mayor que 6 y menor que 10 cm? Comparar con la respuesta del punto a.

g. ¿Cómo se interpreta el valor calculado en el punto f en relación con una serie de repeticiones del experimento aleatorio que produce la media aritmética?

Page 18: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

18

Capítulo 4

MUESTRAS ALEATORIAS Y MEDIAS MUESTRALES

4.1 Un bolillero bien construido contiene 100 bolillas esféricas de igual diámetro, peso y rugosidad. Entre ellas, 20 llevan escrito el número 1, 40 el número 2, 30 el número 3 y 10 el número 4. De este bolillero se tomará una muestra aleatoria de tamaño n = 2 según el siguiente procedimiento: luego de girar el bolillero 10 veces se extraerá una bolilla y se registrará el número que tiene escrito, se volverá a colocar la bolilla en el bolillero, se volverá a girar 10 veces, se extraerá una bolilla y se registrará qué número lleva escrito. Denominemos 𝑋1 y 𝑋2 a los números a registrar

en cada extracción sucesiva y �̅� a la media a aritmética de ambos.

a. Explicar por qué 𝑋1 y 𝑋2 son variables aleatorias independientes con idéntica distribución de probabilidad. Representar la distribución de probabilidad común a 𝑋1 y 𝑋2 en una tabla y en un gráfico de líneas verticales.

b. Calcular los valores de la esperanza y de la varianza de 𝑋1 y 𝑋2. ¿Qué relación tienen estos valores con los de la media y la varianza de los números de todas las bolillas del bolillero (la media poblacional y la varianza poblacional).

c. Detallar las 16 diferentes composiciones posibles de las muestras aleatorias de tamaño n = 2 que se pueden obtener mediante el procedimiento detallado.

d. Para cada una calcular la su probabilidad y el valor de la media muestral �̅�.

e. Con los resultados obtenidos en d, calcular la distribución de probabilidad de �̅� Representarla en una tabla y en un gráfico de líneas verticales y compararla con la distribución de probabilidad

de 𝑋1 y 𝑋2.

f. Calcular los valores de la esperanza y de la varianza de �̅� a partir de su distribución de probabilidad.

g. Con los resultados obtenidos en f, verificar las relaciones que existen entre la esperanza de �̅� y

la de 𝑋1 y 𝑋2 y entre la varianza �̅� y la de 𝑋1 y 𝑋2.

4.2 La tabla muestra los diámetros [mm] de las 100 manzanas de un envío procedente del Alto Valle del Río Negro.

80,1 81,0 76,1 77,9 73,3 70,5 81,4 76,9 72,1 78,0

72,9 81,2 82,5 71,4 71,8 73,5 76,7 78,8 79,2 77,4

74,6 79,3 76,2 79,5 78,2 73,9 84,6 75,3 82,2 72,4

77,6 79,7 78,7 84,2 85,5 79,4 79,1 77,1 82,7 74,0

78,4 77,0 76,4 80,2 68,7 76,5 81,1 74,5 73,7 75,0

79,8 81,7 81,8 83,1 75,6 75,8 76,6 78,5 74,2 75,2

75,7 85,0 83,6 86,2 76,8 75,9 83,4 80,6 77,8 80,0

77,5 78,9 87,3 75,4 77,7 76,0 69,8 80,7 81,5 78,1

82,3 78,3 77,2 79,9 73,1 77,3 74,9 83,9 74,3 79,0

74,8 78,6 72,6 80,8 80,5 80,3 82,0 71,0 82,9 81,7

a. Verificar que la distribución de probabilidad del diámetro de una de estas manzanas a tomar al

azar se ajusta muy bien a la distribución Normal con μ=78 mm y σ=4 mm. (Ayuda: contar los

números de manzanas cuyos diámetros son menores que μ2 σ=70mm, μσ=74mm,

μ =78mm, etc. y determinar si las frecuencias relativas correspondientes son cercanas a las

probabilidades establecidas por la distribución Normal).

b. Extraer de la tabla 20 muestras aleatorias independientes, cada una compuesta por n =5 manzanas y calcular los 20 valores correspondientes de la media muestral.

Page 19: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

19

c. Calcular el promedio y el desvío estándar de los 20 valores de la media muestral y compararlos

con los valores de μ y σ. Discutir el resultado de esta comparación.

d. ¿Cuál es distribución de probabilidad de la media muestral que se calcula en el punto c? Determinar si los valores calculados se ajustan razonablemente a esa distribución (Ayuda: usar la aproximación aplicada en el punto a).

4.3 Los barros cloacales se utilizan para mejorar la productividad de forraje en algunas pasturas. Sin embargo, estos barros contienen metales pesados tóxicos como el plomo que es absorbido por las plantas y se acumularse en la carne de los animales que las comen. Con fines bromatológicos, la carne se clasifica en las siguientes tres categorías según su contenido de plomo en partes por millón [ppm = mg / kg] :

Inofensiva Levemente Tóxica Tóxica

Concentración de Pb (ppm) < 0,1 [0,1; 0,5) ≥ 0,5

Suponiendo que la concentración de plomo en la carne de un ternero proveniente de pastura tratada con barros cloacales a tomar al azar es una variable aleatoria con distribución Normal con

parámetros μ = 0,2 y σ² = 0.02,

a. ¿Cuál es la probabilidad de que la carne de un ternero proveniente de pastura tratada con barros cloacales a tomar al azar resulte clasificada como Levemente Tóxica o Tóxica?

b. ¿Cuál es la probabilidad de que la carne de 5 o más entre 10 terneros provenientes de pastura tratada con barros cloacales a tomar al azar al azar resulte clasificada como Levemente Tóxica o Tóxica?

c. ¿Cuál es la probabilidad de que la media aritmética de las concentraciones de plomo en la carne de 10 terneros provenientes de pastura tratada con barros cloacales a tomar al azar corresponda a las categorías Levemente Tóxica o Tóxica?

4.4 Si se puede dar por cierto que el peso de un novillo de raza Aberdeen Angus de 36 meses de edad que a tomar al azar a la entrada del mercado de Liniers [kg] es una variable aleatoria con distribución Normal con parámetros μ = 420 y σ2 = 64:

a. ¿Cuánto valen la media y el desvío estándar de los pesos de todos los novillos de raza Aberdeen Angus de 36 meses de edad que entran en el mercado de Liniers?

b. ¿Cuál es la probabilidad de que un novillo de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers pese a lo sumo 425 kg?

c. ¿Cuál es la probabilidad de que un novillo de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers pese exactamente 425 kg?

d. ¿Qué distribución de probabilidad tiene la media aritmética de los pesos de n novillos de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers?

e. Calcular la probabilidad de que la media de los pesos de 4 novillos de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers tome un valor entre 415 y 425 kg.

f. Calcular la probabilidad de que la media de los pesos de 9 novillos de 36 meses de edad a tomar al azar a la entrada del mercado de Liniers tome un valor entre 415 y 425 kg. ¿Qué propiedad general de la media muestral se evidencia cuando se compara esta probabilidad con la calculada en e.?

4.5 En una región semiárida donde llueven 400 mm/año es razonable suponer que la media

poblacional de la productividad primaria neta aérea (PPNA) de los pastizales es μ = 206 g/m²año y

que su desvío estándar poblacional es σ = 36 g/m²año. Consideremos una muestra cualquiera de 36

sitios de pastizal a tomar al azar dentro de dicha región, denotemos 𝑋𝑖 a sus valores de PPNA

(i=1,…,36) y �̅� a la media de dichos valores.

a. Identificar la población de referencia y las unidades muestrales involucradas.

Page 20: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

20

b. ¿En qué sentido decimos que �̅� es un estadístico? ¿Por qué es una variable aleatoria? ¿A qué corresponden los diferentes valores que puede tomar?

c. ¿Cuál es la distribución de probabilidad aproximada de �̅�? ¿Por qué razón tomamos el recaudo de decir que la distribución es aproximada?

d. ¿Cuál es el valor aproximado de la probabilidad de que �̅� tome un valor mayor que 210

g/m²año?

4.6 El rendimiento promedio de los cultivos de un híbrido de maíz en la región de la Pampa Ondulada es de 10 t/ha y el desvío estándar es de 1,5 t/ha. Supongamos que se tomarán de la región 25 cultivos de dicho híbrido elegidos al azar y se calculará la media aritmética de sus rendimientos (media muestral):

a. Identificar la población de referencia, la muestra y las variables aleatorias a las que se hace referencia.

b. Explicar por qué la media muestral es una variable aleatoria.

c. ¿Qué distribución de probabilidad aproximada tiene la media muestral en cuestión?

d. ¿Cuál es la probabilidad aproximada de que la media muestral tome un valor que se aparte de 10 t/ha en más que 500 kg /ha?

e. ¿Cuál es la probabilidad aproximada de que, entre 3 muestras aleatorias como la referida, la media muestral de al menos una tome un valor que se aparte de 10 t/ha en más que 500 kg/ha?

4.7 En la Pampa Ondulada, el agua subterránea contiene concentraciones variables de sales que pueden limitar su aptitud para el riego complementario de los cultivos. Para evaluar este problema, un grupo de investigadoras de la FAUBA planea obtener una muestra aleatoria de 25 pozos en el partido de Pergamino, provincia de Buenos Aires, extraer agua de cada pozo y evaluar su salinidad mediante la conductividad eléctrica [dS /m = 10−1 Siemens/metro]. Con los datos a generar calcularán la media muestral.

a. ¿En qué consiste el procedimiento que las investigadoras deberán aplicar para obtener la muestra aleatoria?

b. ¿Qué variables aleatorias registrarán? ¿Por qué razón estas variables aleatorias son independientes y tienen idéntica distribución de probabilidad?

c. Explicar por qué la media muestral de las conductividades eléctricas del agua de los 25 pozos a incluir en la muestra es una variable aleatoria. ¿A qué corresponden los diferentes valores que puede tomar?

Si en verdad los contenidos de la conductividad eléctrica del agua de todos los pozos del Partido de Pergamino tienen media µ = 1,3 dS /m y desvío estándar σ = 0,75 dS /m,

d. ¿Qué valor tiene la esperanza de la media muestral a obtener?

e. ¿Qué valor tiene la varianza de la media muestral a obtener?

f. ¿De qué depende la probabilidad de que la media muestral a obtener tome un valor cercano al de la media poblacional que se planea estimar?

g. ¿Cuál es el valor aproximado de la probabilidad de que la media muestral que obtendrán las investigadoras tome un valor que se aparte del promedio del partido en menos que 0,25 dS /m?

h. ¿De qué tamaño debe ser de muestra para que la probabilidad de que la media muestral tome un valor que se aparte de la media poblacional en menos que 0,25 dS /m sea a lo sumo de 0,90?

4.8 La productividad de los pastizales tiene importancia tanto para la producción de alimento para los animales domésticos como para cuestiones ambientales tales como la conservación del suelo y de la fauna autóctona o el control del contenido de dióxido de carbono en el aire. En una región con clima fuertemente estacional se mide la productividad anual de un pastizal sometido a un manejo experimental como la cantidad de biomasa de pasto que se acumula durante la estación de crecimiento. Se sabe que el año pasado la cantidad de biomasa acumulada en este pastizal tuvo un

promedio poblacional de 350 g /m2año y un desvío estándar de 100 g /m2año. Con las mediciones

Page 21: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

21

de este año se intenta determinar si estos valores han cambiado. En relación con este problema se formulan los siguientes interrogantes:

a. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la

biomasa de 16 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año?

b. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la

biomasa de 25 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año?

c. ¿Aproximadamente qué probabilidad existía el año pasado de que la media muestral de la

biomasa de 36 parches de 1 m2 a seleccionar al azar tomara un valor entre 300 y 400 g /m2año?

d. Con los resultados de los puntos a – d, graficar la probabilidad que había el año pasado de que

la media muestral tomara un valor entre 300 y 400 g /m2año y el tamaño de la muestra. Comparar el gráfico con el de la figura 4.2.

e. Observando el gráfico del punto e, discutir qué concluir si este año tomamos al azar 30 parches de 1 m2, cortamos y pesamos con extremo cuidado el pasto que hay en cada parche y

encontramos que la media muestral de la biomasa es de 299 g /m2año? ¿Por qué?

4.9 Una compañía envasadora de harina afirma que los paquetes que produce tienen un peso promedio de 1000 g y que la varianza de los pesos es de 25 g2. Si la afirmación que hace la compañía fuera cierta:

a. ¿Cuál sería la distribución de probabilidad aproximada de la media aritmética de los pesos de 36 paquetes a tomar al azar?

b. ¿Cuál sería la probabilidad aproximada de que la media aritmética de los pesos de 36 paquetes a tomar al azar estuviese comprendida entre 998 y 1002 g?

c. Teniendo en cuenta las respuestas anteriores, discutir la afirmación de la compañía sabiendo que en una muestra aleatoria de compuesta por 36 paquetes se encontró que la media aritmética de los pesos era de 998 g.

4.10 Estudios de la productividad de los pastizales americanos han demostrado que la media poblacional de la cantidad de pasto producido por unidad de superficie y por año, denominado productividad primaria neta aérea (PPNA), es mayor cuanto mayor es la lluvia que reciben. Estos estudios muestran también que es razonable suponer que en el continente americano la varianza de la PPNA entre sitios de pastizal que reciben la misma cantidad de lluvia es aproximadamente 1600

(g /m2año)². En una región con clima homogéneo se proyecta estimar la media poblacional de la PPNA a partir de datos de una muestra de sitios de pastizal a tomar al azar:

a. Identificar la población, las unidades muestrales, las variables aleatorias y la media poblacional involucradas en este caso.

b. Si la muestra incluirá 25 sitios de pastizal ¿cuál es el valor de la esperanza del cuadrado de la diferencia entre la media muestral y la media poblacional de la PPNA?

c. Si la muestra incluirá 25 sitios de pastizal ¿aproximadamente qué probabilidad existe de que la

media muestral a obtener tome un valor en el intervalo con radio 10 g /m2año centrado en el valor de la media poblacional?

d. ¿Qué tamaño de muestra es necesario para que la probabilidad de que la media muestral tome

un valor que no se aparte más que 10 g /m2año del valor de la media poblacional sea de al menos 0,99?

e. Si la muestra incluirá 25 sitios de pastizal ¿qué radio tiene el intervalo centrado en el valor de la media poblacional dentro del cual la probabilidad de que la media muestral tome un valor es de aproximadamente 0,99?

Page 22: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

22

Capítulo 5

ESTIMACIÓN DE LA MEDIA Y DE LA VARIANZA POBLACIONALES

5.1 En cada uno de los gráficos que se presentan a continuación, se esquematizan las funciones de densidad de probabilidad de dos estadísticos alternativos A y B propuestos como estimadores del

parámetro .

I II III

a. En cada gráfico, comparar el sesgo de los estimadores.

b. En cada gráfico, comparar la varianza de los estimadores.

c. En cada gráfico, identificar el estimador que tiene la distribución de probabilidad más

concentrada alrededor del valor del parámetro .

d. ¿Cuál es el mejor estimador puntual en cada gráfico? Justificar.

5.2 En las regiones agrícolas, el exceso de fertilización nitrogenada puede contaminar el agua freática con nitratos hasta niveles tóxicos. Con el fin de evaluar los contenidos de nitratos en el agua de los pozos en un partido de la Pampa Ondulada, un técnico planea obtener una muestra aleatoria de 30 pozos dentro del partido, extraer agua de cada uno y medir su contenido de nitratos 𝑋1, . . . , 𝑋30

[ppm]. Con los datos a generar, el técnico calculará los estadísticos �̅� y 𝑆2.

a. Identificar las unidades muestrales, la muestra, la población de referencia y la variable de interés involucradas en esta evaluación.

b. ¿Cómo debe proceder el técnico para que 𝑋1, . . . , 𝑋30 sean variables aleatorias independientes con idéntica distribución de probabilidad?

c. ¿Con qué características de la población coinciden en valor numérico la esperanza y la varianza

de las variables aleatorias 𝑋1, . . . , 𝑋30?

d. ¿Cómo se define el estadístico �̅�? ¿Qué significa que �̅� es un estimador insesgado, eficiente y consistente de la media poblacional de los contenidos de nitratos en el agua de los pozos del partido?

Si en verdad la varianza de los contenidos de nitratos en el agua de los pozos del partido es σ2 = 64 ppm2,

e. ¿Cuánto vale el desvío estándar de �̅�? ¿Qué mide ese valor?

f. ¿Cuánto vale aproximadamente la probabilidad de que el error de estimación de la media

poblacional de los contenidos de nitratos en el agua de los pozos del partido mediante �̅� resulte mayor que 2 ppm en valor absoluto?

g. ¿Cómo se define el estadístico 𝑆2? ¿Qué parámetro estima? ¿Cuánto vale su esperanza?

5.3 Sea X una variable de interés cuya distribución de frecuencias en la población de referencia se ajusta a la distribución Normal con parámetros μ = 17 y σ = 2. Alguien que no conoce los valores de estos parámetros planea estimarlos a partir de una muestra aleatoria de 9 unidades a tomar en

Page 23: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

23

la población de referencia, en cada una de las cuales registrará el correspondiente valor de X. Este procedimiento generará las variables aleatorias 𝑋1, . . . , 𝑋9 a partir de las cuales se definen los

estadísticos �̅� y 𝑆2.

a. ¿Cómo se definen las variables aleatorias 𝑋1, . . . , 𝑋9? ¿Por qué tienen idéntica distribución de probabilidad? ¿Cuál es esa distribución?

b. ¿Por qué los estadísticos �̅� y 𝑆2 son variables aleatorias? ¿A qué corresponden los diferentes valores que cada uno puede tomar?

c. ¿Qué distribución de probabilidad tiene el estadístico �̅�?

d. ¿Qué distribución de probabilidad tiene el estadístico (�̅� − 17) ÷ (2 √9⁄ )? ¿En qué se diferencia

de la distribución de probabilidad de �̅�? ¿Por qué razón?

e. ¿Qué distribución de probabilidad tiene el estadístico (�̅� − 17) ÷ (𝑆 √9⁄ )? ¿En qué se diferencia

de la del estadístico propuesto en d? ¿Por qué razón?

f. ¿Cuánto vale 𝑃[−3,355 < [(�̅� − 17) ÷ (𝑆 √9⁄ )] < 3,355]?

g. ¿Cuál es la forma genérica de un intervalo de confianza para μ?

5.4 Un fitotecnista se dispone a ensayar un nuevo híbrido de girasol para decidir si conviene introducirlo el norte de Santa Fe. Para ello seleccionará una muestra aleatoria de 20 lotes agrícolas dentro de la región, en cada uno cultivará el híbrido en cuestión y registrará el rendimiento que se

obtenga [t/ ha]. Con los datos a generar, calculará los estadísticos �̅� y 𝑆2 y los límites de un intervalo de 95% de confianza para la media de los rendimientos del nuevo híbrido en los lotes agrícolas del norte de Santa Fe.

a. Identificar las unidades muestrales, la muestra, la población y las variables aleatorias involucradas en esta investigación. Nombrar dos posibles causas de la varianza de las variables aleatorias.

b. ¿De qué factores depende la probabilidad de que �̅� tome un valor cercano al de la media poblacional?

c. ¿En cuánto fijará el fitotecnista la probabilidad de que el intervalo a construir resulte en una estimación errada? ¿Cómo hace?

Una vez cosechados los 20 lotes, el fitotecnista encuentra que la media aritmética de sus rendimientos ha sido �̅� = 2,9 t/ ha y que el estimador insesgado de la varianza de los rendimientos ha resultado s² = 0,36 (t/ ha)².

d. Dando por cierto que el rendimiento de este híbrido en un lote a tomar al azar en el norte de Santa Fe es una variable aleatoria con distribución Normal, construir el intervalo de 95% de confianza para la media poblacional de los rendimientos que este híbrido tendría en los lotes el sur de Santa Fe. Expresar la estimación realizada en una oración referida al fenómeno de interés.

e. Calcular un tamaño de muestra probablemente suficiente para construir un intervalo de 95% de confianza para la media poblacional con precisión de ± 200 kg/ ha.

5.5 La producción ganadera constituye un problema para la conservación de la fauna natural de los ojos de agua (lagunas pequeñas) en el oeste de Chubut. Las deyecciones de las ovejas enriquecen el agua en nutrientes y esto causa a su vez una proliferación de algas que afecta seriamente a los peces y anfibios de las lagunas. Este proceso se denomina eutrofización; una medida de su gravedad es la concentración de clorofila en el agua. Para evaluar este problema, se midió la concentración de clorofila en el agua de 20 lagunas tomadas al azar en los establecimientos de cría ovina del oeste de Chubut. Los datos obtenidos son los siguientes:

Concentración de clorofila [microgramo/litro]

342 - 388 - 348 - 296 - 371 - 304 - 368 - 301 - 392 - 331 - 364 - 276 - 312 - 294 - 373 - 380 - 347 - 319 - 371 - 330

Page 24: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

24

a. Identificar la variable de interés y la población de referencia involucradas en esta evaluación.

b. Utilizar los datos generados para calcular la correspondiente realización de la media muestral de las concentraciones de clorofila. ¿Qué característica de la población se estima con el valor obtenido?

c. Explicar por qué el valor calculado en el punto b no sirve como estimador insesgado del promedio de las concentraciones de clorofila de las lagunas del este de Chubut.

d. Utilizar los datos generados para estimar la varianza de concentración de clorofila de las lagunas de los establecimientos de cría ovina del oeste de Chubut.

e. Utilizar los datos generados para construir un intervalo de 95% de confianza para concentración media de clorofila en las lagunas de los establecimientos de cría ovina del oeste de Chubut (dar por cierto que el contenido de clorofila de una laguna a tomar al azar de esta población es una variable aleatoria con distribución Normal). Expresar la estimación realizada en una oración referida al fenómeno de interés.

En relación con la precisión del intervalo de 95% construido,

f. ¿Cómo será la precisión de un intervalo de 99% de confianza calculado con los mismos datos?

g. ¿Cómo será la precisión de un intervalo de 95% de confianza construido con datos provenientes

de una muestra con tamaño n > 20?

h. ¿Cómo será la precisión de un intervalo de 95% de confianza construido con datos provenientes de una muestra que, por error, incluya algunas lagunas ubicadas en establecimientos sin ovejas?

5.6 La siguiente planilla muestra las alturas [centímetros] de una población de 100 personas. La variable sigue una distribución aproximadamente Normal.

persona altura persona altura persona altura persona altura persona altura

1 186 21 168 41 140 61 176 81 165

2 177 22 146 42 179 62 179 82 179

3 197 23 171 43 173 63 171 83 171

4 183 24 171 44 164 64 179 84 176

5 178 25 181 45 173 65 170 85 178

6 175 26 177 46 153 66 169 86 164

7 163 27 183 47 167 67 167 87 188

8 165 28 177 48 160 68 172 88 170

9 176 29 184 49 174 69 170 89 145

10 181 30 167 50 161 70 175 90 176

11 166 31 170 51 173 71 170 91 173

12 149 32 167 52 158 72 153 92 153

13 175 33 178 53 173 73 152 93 164

14 190 34 171 54 169 74 178 94 153

15 161 35 167 55 168 75 165 95 163

16 181 36 158 56 163 76 173 96 169

17 168 37 184 57 174 77 161 97 160

18 164 38 169 58 171 78 162 98 172

19 164 39 168 59 189 79 178 99 172

20 163 40 180 60 146 80 171 100 166

a. Calcular la altura media de todas las personas de esta población.

b. Tomar una muestra aleatoria de n = 3 personas de esta población y construir un intervalo de 90% de confianza. ¿El intervalo construido contiene el valor de la media poblacional?

c. Repetir 10 veces el ejercicio realizado en el punto b y computar la frecuencia relativa con que intervalos que contienen el valor de la media poblacional.

d. Repetir los puntos b y c con muestras de tamaño n = 6.

Page 25: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

25

5.7 En cada uno de los gráficos que se presentan a continuación, se esquematizan diferentes intervalos de confianza para la media poblacional calculados a partir de muestras de tamaño n = 9 obtenidas de una población que en realidad tiene media poblacional μ = 7,0 y un desvío estándar poblacional σ = 1,0. Uno de los gráficos presenta intervalos de 95% y el otro intervalos de 99% de confianza.

I II

a. Explicar por qué razón los intervalos contenidos en un mismo gráfico son diferentes entre sí.

b. ¿Cuál de los gráficos presenta intervalos de 95 y cuál de 99 % de confianza? Justificar la respuesta.

c. Identificar los intervalos que constituyen estimaciones erradas.

5.8 Para evaluar el peso total de forraje presente en una pastura de 10 ha se distribuyeron en ella 25 marcos de 1 m² ubicados al azar. Todo el forraje presente dentro de cada marco fue cortado, secado y pesado. Con los datos generados, se calculó la media aritmética (�̅� = 412 g) y el estimador

del desvío estándar (𝑠 = 96 g) de los pesos.

a. Identificar a la población, las unidades muestrales, la muestra, y las variables aleatorias consideradas en este caso.

b. ¿Cómo se interpreta el estadístico 𝑠? ¿Qué causas podría tener la dispersión que mide?

c. Dando por cierto que el peso del forraje en un marco de 1 m2 a tomar al azar de esta pastura es una variable aleatoria con distribución Normal, utilizar los valores �̅� y 𝑠 para construir el correspondiente intervalo de 95% de confianza para el peso total de forraje de la pastura [t]. Expresar la estimación realizada en una oración referida a la evaluación propuesta.

d. Explicar por qué es incorrecto afirmar que la probabilidad de que el intervalo construido en c contenga el valor del peso total de forraje de la pastura es 0,95.

e. Calcular un tamaño de muestra probablemente suficiente para estimar el peso total de forraje de la pastura con confianza 95% y precisión ± 1000 kg.

5.9 La desnitrificación es un proceso microbiano de transformación de nitratos disueltos en el agua del suelo en óxido nítrico volátil que pasa a la atmósfera y contribuye a la formación de lluvia ácida. Para evaluar el ritmo de desnitrificación estival en el suelo de la estepa patagónica, una investigadora de la FAUBA extrae en verano 12 cilindros de suelo de puntos distribuidos al azar dentro de una parcela de 2500 m2 ubicada en el campo experimental del INTA en Río Mayo, Provincia de Chubut. Luego incuba cada cilindro en un envase hermético y mide el flujo de óxido nítrico del suelo al aire [microgramo N/g suelo.día].

a. Identificar la población de referencia y las variables aleatorias que genera este experimento.

b. Explicar qué son la esperanza y la varianza de las variables aleatorias. ¿Con qué características de la población de referencia coinciden en valor numérico?

Con los datos generados, la investigadora calcula �̅� = 2.10-3 microgramo N/ g suelodía, 𝑠 = 2.10-3

microgramo N/ g suelodía y 𝑠 √12 =⁄ 0,577.10-3 microgramo N/ g suelodía.

5 6 7 8 9 10 5 6 7 8 9 10

Page 26: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

26

c. ¿Qué se estima con �̅�, con 𝑠 y con 𝑠 √12⁄ ?

d. A partir de los estadísticos calculados, construir un intervalo del 99% de confianza para el ritmo de desnitrificación promedio en el suelo de la parcela estudiada (dar por cierto que las variables registradas en las unidades muestrales tienen idéntica distribución Normal). Expresar en la estimación realizada en términos del fenómeno de interés.

5.10 Diez años atrás, en una estancia de Chubut se puso en marcha un plan de mejoramiento de la calidad de lana basado en la incorporación de carners de pedigrí. En aquel momento, un censo de la población de ovejas del establecimiento mostró que la media de la longitud de la lana de vellón era de 93,7 mm. El encargado del establecimiento decide estimar el cambio ocurrido en la longitud promedio de la lana de las ovejas del establecimiento. Para ello, en el momento de esquila seleccionará una muestra aleatoria de 20 ovejas y les medirá la lana del vellón. Con los datos a generar construirá un intervalo de 95% de confianza para el cambio ocurrido en la longitud promedio dando por cierto que la longitud de la lana de vellón una oveja a tomar al azar es una variable aleatoria con distribución Normal.

a. ¿Qué resultado de su estimación permitirá al encargado concluir que la longitud promedio de la lana de las ovejas del establecimiento aumentó en los 10 años transcurridos?

Una vez completado el muestreo, los datos generados son los siguientes.

Longitud de lana de vellón [mm]

98,2 - 96,5 - 97,4 - 98,6 - 99,8 - 96,6 - 97,4 - 97,7 - 98,0 - 97,4 - 95,7 - 96,3 - 96,8 - 97,6 - 96,3 - 98,3 - 99,0 - 98,2 - 95,2 - 99,4

b. Utilizar los datos para calcular el intervalo de 95 % de confianza para el cambio ocurrido en la longitud promedio de la lana de las ovejas desde el inicio del plan de mejoramiento.

c. ¿A qué población de referencia se extiende la inferencia realizada?

d. ¿El intervalo de confianza construido justifica concluir que el plan de mejoramiento resultó en un incremento de la longitud promedio de la lana de las ovejas? Justificar.

Page 27: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

27

Capítulo 6

PRUEBAS DE HIPÓTESIS ACERCA DE LA MEDIA POBLACIONAL

6.1 Un fabricante de cigarrillos sostiene que el contenido promedio de nicotina de su producto es menor que 0,7 miligramos por cigarrillo y solicita autorización para incluir esta afirmación en su publicidad. Para decidir si autorizarlo o no, es necesario establecer si es razonable dar por cierta dicha afirmación mediante una prueba de hipótesis. Para ello, se decide obtener una muestra aleatoria de 30 cigarrillos de la marca en cuestión y determinar el contenido de nicotina de cada uno.

a. Formular las hipótesis estadísticas apropiadas para la prueba requerida.

b. Elegir un nivel de significación para esta prueba.

Una vez obtenida la muestra, los contenidos de nicotina observados son los siguientes (mg/cigarrillo):

Contenido de nicotina [mg /cigarrillo]

0,71 0,75 0,67 0,68 0,72 0,58 0,69 0,71 0,61 0,67 0,75 0,72 0,61 0,63 0,75

0,73 0,59 0,60 0,64 0,60 0,68 0,69 0,78 0,80 0,65 0,62 0,64 0,79 0,76 0,76

c. Dando por supuesto que los datos registrados son realizaciones de variables aleatorias con distribución Normal, calcular el valor p a partir de los datos disponibles.

d. Concluir e interpretar aclarando el alcance de la inferencia realizada.

6.2 Una compañía productora de automotores asegura que los autos del modelo que ofrece para ser equipado como taxi cumplen en promedio con la norma de la Agencia de Protección Ambiental de los Estados Unidos que establece que estos vehículos deben emitir menos de 2,5 gramos de monóxido de carbono por kilómetro. Para decidir si dar por cierta esta afirmación se decide obtener una muestra aleatoria de 25 de estos vehículos matriculados como taxis en la ciudad de San Francisco y medir el nivel de emisión de monóxido de carbono de cada uno.

a. Formular hipótesis estadísticas apropiadas para tomar la decisión en cuestión. Enunciar el significado de cada hipótesis en términos del fenómeno de interés.

b. Seleccionar un nivel de significación apropiado. ¿Qué implica el valor elegido?

c. ¿En qué consiste el procedimiento para obtener los datos necesarios para poner a prueba las hipótesis propuestas?

Con los datos obtenidos se calcula la media muestral (2,44 g/km) y el estimador insesgado de la varianza (0,021 g²/km²).

d. Dando por cierto que los niveles de emisión registrados son realizaciones de variables aleatorias con distribución Normal, calcular el valor p. ¿Qué probabilidad representa?

e. Concluir y explicar la conclusión en términos del fenómeno de interés.

f. ¿A qué población se extiende la inferencia realizada?

6.3 Una empresa productora de semillas ofrece un nuevo híbrido de maíz que ha sido puesto a prueba en 12 lotes tomados al azar dentro del partido de Pergamino. Los rendimientos obtenidos en cada lote fueron los siguientes:

Rendimiento [t/ha]

7,2 - 10,0 - 8,5 - 8,4 - 8,0 - 7,5 - 9,0 - 9,0 - 8,0 - 7,0 - 6,1 - 8,0

a. Identificar la poblacion, la muestra y las variables aleatorias consideradas.

b. Construir un diagrama de caja y bigotes para los datos de rendimiento de los lotes.

Page 28: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

28

En Pergamino el costo de producción de una hectárea de maíz híbrido es de U$S 325 y el ingreso por cada tonelada vendida es U$S 50.

c. Poner a prueba la hipótesis nula que dice que el margen bruto (la diferencia entre el ingreso y el costo) correspondiente a la media poblacional de los rendimientos que este nuevo híbrido produciría en los lotes del partido de Pergamino no supera los U$S 50 por hectarea. (Mostrar el desarrollo del análisis)

d. ¿Qué supuesto se dio por cierto para el análisis realizado en c?

e. Sobre la base del resultado obtenido, discutir la conveniencia de adoptar este nuevo híbrido en el partido de Pergamino.

6.4 En un establecimiento lechero se proyecta utilizar el pasto presente en una pastura de 20 ha para hacer una reserva de fardos de heno con la cual alimentar a las vacas lecheras durante el invierno. Por ello interesa determinar si los fardos a producir alcanzarán para cubrir la necesidad de 90 t de forraje para dicho período. Para concluir al respecto, se decide tomar una muestra de 20 marcos de 1 m2 elegidos al azar dentro de la pastura. En cada marco, se cortará todo el forraje y se lo pesará luego de dejarlo secar al aire del mismo modo que se hace para elaborar los fardos.

a. Identificar las unidades muestrales, la muestra y la población.

b. Formular hipótesis apropiadas para la evaluación propuesta.

Una vez realizadas las mediciones, se encuentra que el promedio de los pesos obtenidos es de 510 gramos/m2 y el estimador del desvío estándar es de 100 g/m2.

c. Dando por cierto que el peso del forraje en un marco de 1 m2 a elegir al azar en la pastura de 20 ha es una variable aleatoria con distribución Normal, calcular el valor p y concluir con un nivel de significación α = 0,01.

d. Explicar la conclusión en términos de este problema.

e. Explicar el tipo de error que se puede haber cometido en este análisis y cuáles serían sus implicancias.

6.5 Para evaluar la exactitud de una nueva técnica de titulación para evaluar el contenido de

arsénico en el agua, una laboratorista prepara una solución acuosa que contiene exactamente 5010-

3 mg de arsénico por litro. Luego, toma al azar 30 alícuotas de la solución y en cada una evalúa el contenido de arsénico con la técnica propuesta. Con los datos que obtiene calcula la media muestral

(52,1810-3 mg / l) y el estimador del desvío estándar (2,5910-3 mg / l).

a. Bajo el supuesto de distribución Normal de las titulaciones ¿los datos permiten concluir, con α = 0,05, que la esperanza de las titulaciones difiere del contenido de arsénico de la solución?

b. Explicar qué es el nivel de significación α = 0,05 en términos de este problema.

c. Identificar la población de referencia y las variables aleatorias en este experimento.¿Qué limitación importante tiene el procedimiento experimental seguido?

d. Construir e interpretar un intervalo de confianza 0,95 para la esperanza de las titulaciones.

6.6 En una investigación sobre la susceptibilidad de plántulas de duraznero a dos cepas diferentes de un virus, se tomaron de un vivero 15 plántulas al azar; en cada plántula se seleccionaron 2 hojas y cada una fue inoculada con una de las dos cepas virales. Al cabo de una semana, se midió en cada hoja el tamaño de la lesión producida por el virus (en mm²). Los datos obtenidos figuran en la tabla:

Tamaño de lesión [mm2]

Planta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Cepa viral A 31 20 18 8 25 14 17 12 21 30 17 9 13 10 24

Cepa viral B 18 17 14 7 21 13 22 11 22 15 11 10 13 5 25

Page 29: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

29

a. Estimar el promedio y la varianza de las diferencias entre los tamaños de las lesiones producidas por las dos cepas virales estudiadas.

b. Elegir un nivel de significación α y poner a prueba la siguiente hipótesis nula: Las lesiones que producen las dos cepas virales tienen en promedio el mismo tamaño.

c. Construir e interpretar un intervalo de confianza 1−α para la esperanza de la diferencia entre los tamaños de las lesiones producidas por las dos cepas virales.

d. ¿Qué supuesto condiciona la validez de la inferencia realizada en b y c?

e. Explicar qué representa el valor de α elegido en términos del problema.

6.7 Un consorcio de productores agrícolas (CREA) lleva adelante una comparación de los rendimientos de maíz obtenidos con dos métodos de cultivo diferentes, labranza mecánica y labranza química. Para ello, cada socio del CREA elige al azar un lote que ha sido cultivado como una unidad al menos en los últimos 5 años, lo divide en dos y cultiva maíz aplicando uno de los dos tipos de labranza en cada mitad. Al final de la campaña, los productores reúnen el siguiente conjunto de datos de los rendimientos obtenidos:

Rendimiento de maíz [t/ha]

Productor 1 2 3 4 5 6 7 8 9 10

Labranza mecánica 8,9 7,8 10,1 9,7 9,2 9,1 9,9 8,4 9,0 7,2

Labranza química 8,8 6,8 12,9 11,9 8,0 12,2 9,1 11,2 10,5 10,1

a. Estimar el promedio y la varianza de las diferencias de rendimiento entre métodos de cultivo

b. Nombrar posibles causas de la varianza de las diferencias de rendimiento entre métodos de cultivo.

c. Formular hipótesis para evaluar si los dos métodos de cultivo producen en promedio igual rendimiento.

Dando por cierto que la diferencia de rendimientos en un lote a tomar al azar es una variables aleatoria con distribución Normal:

d. Calcular el valor p, concluir con un nivel de significación α = 0,05 y explicar la conclusión en términos del objetivo del estudio propuesto por el CREA.

e. onstruir e interpretar un intervalo de confianza 0,95 para la media poblacional de las diferencias entre los renidmientos obtenidos con los dos tipos de labranza en los lotes de los productores del CREA.

6.8 Durante la última década, una importante superficie de los pastizales de la Región Pampeana ha sido reemplazada por forestaciones. Este cambio en el uso de la tierra puede producir consecuencias ambientales debidas a modificaciones de la hidrología local, como cambios en el caudal de los arroyos, en el contenido de sales del suelo o en la profundidad de la napa freática (agua subterránea). En un estudio orientado a evaluar el impacto de las forestaciones sobre el ciclo hidrológico, se seleccionaron al azar 10 forestaciones en el partido de Zárate y, en cada una ellas, se midió la profundidad de la napa freática (en metros) en el centro de la plantación y en el pastizal vecino a la misma. Los datos obtenidos figuran en la tabla:

Profundidad de napa [m]

Forestación 1 2 3 4 5 6 7 8 9 10

Centro plantación 2,0 2,3 2,2 2,0 2,3 2,5 2,0 2,3 2,4 2,0

Pastizal vecino 1,5 1,6 1,6 1,5 1,8 1,8 1,5 1,6 1,7 1,4

a. Identificar la población, la muestra y las unidades muestrales y las variables aleatorias involucradas en este estudio.

b. Estimar la media y la varianza poblacionales de las diferencias en la profundidad de napa entre pastizales y forestaciones.

Page 30: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

30

c. Dando por cierto que el desnivel de napa freática entre el centro de una forestación a elegir al azar en el partido de Zárate y su pastizal vecino es una variable aleatoria con distribución Normal, poner a prueba la hipótesis que dice que, en Zárate, las forestaciones han determinado un aumento en la profundidad promedio de la napa freática.

d. ¿Qué tipo de error se puede haber cometido en la prueba de hipótesis anterior? Explicar su significado en términos del problema.

6.9 El asesor de una empresa agrícola del Oeste de la provincia de Buenos Aires necesita recomendar acerca de la posible conveniencia de cambiar la variedad de girasol utilizada en los últimos años (Contiflor) por una alternativa (Paraiso). Para ello cuenta con un conjunto de datos de los rendimientos de dichas variedades en 5 establecimientos tomados al azar en la zona.

Rendimientos de girasol (kg/ha)

Variedad

Establecimiento

Don Juan Alborada Tobiano El Lucero La Martita

Paraiso 1805 2200 1545 1875 1430

Contiflor 1724 1950 1325 1685 1148

a. Identificar la población, la muestra y las variables aleatorias involucradas en este problema.

b. ¿Qué experimento aleatorio produce las variables aleatorias en cuestión?

c. Seleccionar una prueba de hipótesis para fundamentar la recomendación acerca de la posible conveniencia de cambiar la variedad de girasol. Justificar la selección.

d. Formular y poner a prueba la hipótesis para un nivel de significación apropiado. Concluir y emitir una recomendación.

e. ¿Qué supuesto debería verificarse para que la inferencia realizada en d sea válida?

6.10 La vegetación característica del Parque Nacional El Palmar es una sabana con palmeras altas dispersas en una matriz de vegetación herbácea y arbustiva baja. Esta sabana es progresivamente invadida por árboles de especies que antes estaban restringidas a los bosquecitos que rodean a los ríos y arroyos. Un estudiante de la Escuela para Graduados Alberto Soriano de la Facultad de Agronomía proyecta un experimento para determinar si el crecimiento promedio de las plántulas de Allophylus edulis (chal-chal), una de estas especies de árboles, difiere entre plántulas que están ubicadas bajo la copa de alguna palmera y plántulas que están ubicadas lejos de cualquier palmera. Para ello, seleccionará al azar 20 plántulas de Allophylus edulis establecidas bajo la copa de alguna palmera y 20 establecidas a más de 5 m de la palmera más cercana. Luego registrará el crecimiento de cada plántula durante un año, medido como la suma del crecimiento de todas sus ramas [cm].

a. Identificar las poblaciones, las muestras, las unidades muestrales y las variables aleatorias involucradas en esta investigación.

b. Explicar qué son los valores de crecimiento promedio que se intenta comparar.

c. Proponer dos causas posibles de la varianza de las variables aleatorias a registrar.

Luego de realizar el experimento propuesto, el estudiante registra los datos que figuran en siguiente la tabla:

Crecimiento total por plántula [cm]

Bajo copa de palmera 15,1 - 16,0 - 17,0 - 17,6 - 16,3 - 14,4 - 14,6 - 16,4 - 17,5 - 19,6 - 15,4 - 18,0 - 14,2 - 15,8 - 15,0 - 17,7 - 19,1 - 15,7 - 18,4 - 18,3

Lejos de palmera 18,2 - 19,5 - 21,1 - 16,1 - 16,0 - 16,4 - 18,6 - 16,9 - 16,6 - 15,5 - 18,5 - 13,2 - 18,3 - 18,1 - 20,3 - 14,8 - 20,5 - 14,8 - 15,9 - 16,9

Page 31: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

31

d. A partir de los datos obtenidos, producir estimaciones puntales e intervalos de 95% de confianza para los valores de las medias poblacionales de los crecimientos de las plántulas de Allophylus edulis ubicadas debajo de la copa de una palmera y de las ubicadas a más de 5 m de cualquier palmera. Presentar las estimaciones en un gráfico de barras.

e. Formular y poner a prueba hipótesis apropiadas para realizar la evaluación propuesta.

f. ¿Qué supuestos involucra la inferencia realizada en e?

g. Interpretar los resultados de la inferencia en términos del problema particular.

h. Explicar qué error se puede haber cometido. ¿Qué se hubiera podido hacer para disminuir la probabilidad de este tipo de error?

6.11 Un técnico del INTA condujo un experimento para evaluar el efecto de la aplicación de cobre inyectable sobre la ganancia diaria de peso de terneros. Para ello, en un establecimiento de cría vacuna en el este del Chaco, tomó dos muestras aleatorias de terneros de un mes y medio de edad y dos muestras aleatorias de terneros de dos meses y medio de edad hijos de vacas cebú inseminadas con semen de toros Polled Hereford, A fin de octubre pesó a todos los terneros seleccionados y luego sometió a los terneros y a las madres de una de las muestras de cada edad a un tratamiento de inyecciones de cobre y dejó a los restantes como controles sin tratar. Todos los terneros pastorearon con sus madres en campo natural hasta el destete cuatro meses después, momento en que se los volvió a pesar para calcular su ganancia de peso diario. A continuación se presenta un resumen de los datos generados en el experimento.

Ganancia de peso de los terneros [g/día]

Edad inicial: un mes y medio

Edad inicial: dos meses y medio

n �̅� s n �̅� s

Tratados con Cu 16 807,03 74,37 16 768,00 63,44

Control 14 684,38 81,56 18 736,72 78,55

a. Identificar las poblaciones, las unidades muestrales, las muestras y los tratamientos.

b. Formular y poner a prueba hipótesis para establecer si la aplicación de cobre resulta en mayor

ganancia de peso diario promedio de los terneros con edad inicial de un mes y medio ( = 0,01).

c. Formular y poner a prueba hipótesis para establecer si la aplicación de cobre resulta en mayor ganancia de peso diario promedio de los terneros con edad inicial de dos meses y medio

( = 0,01).

d. ¿Qué error podría haber cometido en cada una de las dos pruebas realizadas? Describirlo en términos de este problema.

e. ¿Bajo qué supuestos son válidas las inferencia realizadas en b y c?

6.12 La aptitud de la harina de trigo para panificación depende principalmente de su contenido de un complejo proteico denominado gluten. Para evaluar la posible influencia del sistema de secado del grano sobre su contenido de gluten, se seleccionaron al azar dentro de la provincia de Buenos Aires 12 plantas de acopio que utilizan un sistema de secado prolongado a baja temperatura y 15 plantas de acopio que utilizan un sistema de secado rápido con alta temperatura y se determinó el contenido de gluten del trigo [g /100 g] procesado en cada una. Los datos obtenidos son los siguientes:

Contenido de gluten [g /100 g]

Baja temperatura 25,9 – 25,3 – 25,1 – 26,6 – 25,5 – 24,7 – 24,6 – 27,0 – 25,2 – 25,2 – 25,0 – 28,6

Alta temperatura 27,7 – 22,2 – 22,9 – 24,2 – 22,8 – 23,8 – 24,8 – 26,3 – 23,3 – 24,4 – 24,9 – 21,5 – 26,3 – 24,6 – 25,6

a. Identificar las unidades muestrales, las muestras y las poblaciones.

Page 32: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

32

b. Formular hipótesis apropiadas para evaluar si contenido promedio de gluten es afectado por el sistema de secado.

Dando por cierto que los datos obtenidos son realizaciones de variables aleatorias con distribución Normal con idéntica varianza.

c. Poner a prueba la hipótesis nula con un nivel de significación α = 0,05.

d. Construir un intervalo de confianza 0,95 para la diferencia entre los promedios de contenido de gluten de trigo procesado con baja y con alta temperatura (Ayuda: el estimador puntual de esa diferencia es la diferencia entre las medias muestrales y el error estándar de la diferencia entre dos medias muestrales independientes está en la ecuación 6.15).

e. Explicar qué conclusión debería extraerse en relación con este fenómeno de interés y enunciar el supuesto bajo el cual dicha conclusión sería válida.

Page 33: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

33

Capítulo 7

PRUEBAS DE HIPÓTESIS ACERCA DE VARIABLES CATEGÓRICAS

7.1 Para decidir si un dado está bien balanceado se decide arrojarlo 60 veces y registrar las frecuencias con que cada una de las caras queda hacia arriba.

a. ¿Qué tipo de prueba de hipótesis corresponde realizar en este caso?

b. Formular las hipótesis nula (el dado está bien balanceado) y alternativa (el dado está “cargado”) en términos de la distribución de probabilidad que corresponda.

Una vez completado el experimento descripto, se han registrado las siguientes frecuencias absolutas:

Cara 1 2 3 4 5 6

Frecuencia 12 5 4 15 13 11

c. A partir de los datos obtenidos, poner a prueba las hipótesis ( = 0,05) y concluir en términos del problema.

d. ¿Qué error puede estar asociado con la conclusión obtenida? ¿Qué modificación se podría hacer al procedimiento experimental para disminuir la probabilidad de este tipo de error?

7.2 El rótulo de una bolsa dice que poder germinativo de la semilla que contiene es 0,95. Para evaluar la veracidad de esta afirmación se decide obtener una muestra aleatoria de 100 semillas de la bolsa, ponerlas en condiciones de humedad y temperatura apropiadas para la germinación y, luego de 4 días, registrar las frecuencias absolutas de semillas germinadas y de semillas no germinadas.

a. ¿Cuántas poblaciones, cuántas muestras y cuántas unidades muestrales están involucradas en este ensayo?

b. ¿Qué distribución de probabilidad tiene la frecuencia absoluta de semillas germinadas a registrar en este ensayo si el poder germinativo es el consignado en el rótulo de la bolsa?

c. Formular hipótesis estadísticas apropiadas para decidir si el poder germinativo de la semilla difiere del consignado en el rótulo de la bolsa.

d. ¿Qué tipo de prueba corresponde realizar?

Una vez completado el ensayo, 89 semillas han germinado y 11 no han germinado.

e. Estimar el poder germinativo de la semilla sobre la base de los datos obtenidos.

f. Completar la prueba de hipótesis y decidir si con nivel de significación α = 0,01 el poder germinativo estimado es significativamente diferente del declarado en el rótulo de la bolsa.

7.3 Se realiza una investigación para evaluar si los criterios para la habilitación de automotores son homogéneos entre un centro de inspección en la ciudad de Buenos Aires y otro en el Gran Buenos Aires. Para ello, se seleccionan al azar 100 vehículos con 10 años de antigüedad inspeccionados en el centro de inspección en la ciudad de Buenos Aires y otros 100 de igual antigüedad inspeccionados en el del Gran Buenos Aires. Se encuentra que 80 de los 100 vehículos inspeccionados en Buenos Aires y 95 de los 100 inspeccionados en el Gran Buenos Aires 80 han sido autorizados a circular.

a. Identificar a las unidades muestrales, las muestras, las poblaciones y las variables aleatorias involucrados en esta investigación.

b. ¿A qué tipo de prueba corresponde la hipótesis nula: “no hay diferencia entre las frecuencias relativas de vehículos autorizados a circular en los dos centros de inspección”?

Page 34: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

34

c. Poner a prueba esta hipótesis con un nivel de significación α = 0,05.

d. ¿Qué representa en este caso particular el nivel de significación α?

e. ¿Qué conclusión queda habilitada por el resultado de esta prueba?

7.4 Un fitotecnista compara la incidencia del gusano barrenador del tallo en las plantas de dos cultivares de maíz híbrido A y B bajo condiciones de cultivo comercial. Para ello, elige 100 plantas al azar en un lote cultivado con el híbrido A y 100 en otro lote cultivado con el híbrido B. Encuentra que 25 de las 100 plantas del cultivar A y 39 de las 100 plantas del cultivar B están afectadas por el gusano barrenador

a. ¿Cuántas muestras y cuántas unidades muestrales fueron involucradas en esta investigación?

b. ¿Cuáles son las variables aleatorias categóricas cuyas distribuciones de probabilidad compara el fitotecnista?

c. Los números observados de plantas del cultivar A y del cultivar B afectadas por el gusano barrenador son realizaciones de dos variables aleatorias. ¿Qué tipo de distribución de probabilidad siguen esas variables?

d. ¿En cuánto debería estimar el fitotecnista la incidencia del gusano barrenador en cada uno de los híbridos? ¿Por qué existe incertidumbre respecto de estas estimaciones?

e. Desarrollar la prueba de hipótesis necesaria para establecer si el fitotecnista puede concluir, con nivel de significación α = 0,05, que la incidencia del gusano barrenador difiere entre los dos híbridos.

f. ¿A qué poblaciones se extiende la inferencia realizada?

g. Explicar qué error se puede haber cometido y qué consecuencia tendría en este caso.

7.5 Para evaluar la efectividad de un producto fungicida recomendado para controlar un hongo patógeno que afecta al trigo, técnicos del INTA cultivan 100 plantas de trigo y las infectan con el hongo. Luego, seleccionan al azar 50 de estas plantas y las tratan con el producto en cuestión. Cuando las plantas comienzan a alargar los entrenudos (encañazón) registran que entre las 50 plantas tratadas con el funguicida, 18 están en buen estado, 17 están levemente afectadas y 15 están en muy mal estado. Entre las plantas no tratadas con el funguicida, 5 están en buen estado, 19 están levemente afectadas y 26 están en muy mal estado.

a. ¿Qué tipo de prueba corresponde realizar para decidir si las distribuciones de frecuencias de estados (bueno, levemente afectado y malo) difieren entre plantas de trigo tratadas y no tratadas con el fungicida?

b. Desarrollar la prueba paso a paso con nivel de significación α = 0,05.

c. Comunicar el resultado en términos de la evaluación de la efectividad del producto fungicida.

d. Explicar qué error se puede haber cometido en este análisis.

7.6 Una denuncia contra una planta industrial ubicada en una zona urbana sostiene que libera cantidades de dióxido de azufre nocivas para las vías respiratorias. Como parte de la investigación judicial subsiguiente, se realiza una encuesta entre pobladores domiciliados a menos de 300 m de dicha planta industrial. Se entrevistan 90 residentes de la zona localizada a sotavento de la planta industrial y 85 residentes de la ubicada a barlovento. En cada caso, se registra cuántos residentes encuestados presentan alguna patología respiratoria. Los datos generados figuran en la tabla:

Patología respiratoria

Si No

Zona Sotavento 64 26

Barlovento 47 38

a. ¿Cuántas poblaciones, cuántas muestras y cuántas unidades muestrales se examinaron en esta investigación?

Page 35: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

35

b. Estimar la proporción de pobladores que presenta patologías en cada zona. ¿Por qué existe incertidumbre respecto de estas estimaciones?

c. Formular y poner a prueba hipótesis estadísticas apropiadas para decidir si la incidencia de patologías respiratorias difiere entre las dos zonas.

d. ¿Qué conclusión queda habilitada por el resultado de esta prueba de hipótesis? ¿Qué error podría implicar?

7.7 En el marco de una investigación de campo dirigida a comparar los resultados del control de malezas por métodos mecánicos y químicos, un técnico decide tomar dos muestras aleatorias de 50 lotes agrícolas en un partido de la Pampa Ondulada. En todos los lotes seleccionados se cultivará maíz; en los de la primera muestra se aplicará control mecánico de malezas y en los de la segunda se aplicará control químico. A los 45 días de la emergencia de las plantas de maíz, el técnico registrará en cada lote el grado de infestación con malezas como Severo, Moderado o Leve.

a. Identificar la población de referencia, las unidades muestrales, las muestras, los tratamientos y las variables aleatorias categóricas consideradas en esta investigación.

b. ¿A qué tipo de prueba corresponde la hipótesis nula: “no hay diferencia entre los dos métodos de control de malezas en la distribución de frecuencias relativas de del grado de infestación con malezas?

Una vez completado el ensayo, se han encontrado las frecuencias absolutas consignadas en la siguiente tabla de contingencia:

Grado de infestación

Severo Moderado Leve

Método de control

Químico 6 10 34

Mecánico 9 15 26

c. Completar la prueba de hipótesis con nivel de significación = 0,05 y concluir en términos del objetivo del ensayo.

d. Explicar qué error se puede haber cometido en este análisis.

7.8 La siguiente tabla muestra los datos obtenidos en una investigación médica para el cual se examinó una muestra aleatoria de 120 partos ocurridos en 2005 en hospitales públicos de la ciudad de Buenos Aires y se registró si las madres eran o no fumadoras y si su bebé tenía peso normal o peso bajo (menor que 2,5 kg).

Peso del hijo

Normal Bajo

Madre Fumadora 4 13

No Fumadora 57 46

a. ¿Cuántas unidades muestrales, cuántas muestras y cuántas poblaciones fueron consideradas?

b. Estimar P[B|A] y P[B|AC], donde A es el evento “madre fumadora” y B el evento “bebé con peso normal”.

c. Explicar por qué existe incertidumbre respecto de las estimaciones anteriores.

d. Formular y poner a prueba la hipótesis nula: “La deficiencia de peso de los bebes al nacer es estadísticamente independiente del hábito de fumar de las madres”.

e. ¿Qué representa en este caso particular el nivel de significación elegido?

f. ¿A qué población se extiende la inferencia realizada?

7.9 Una investigadora de la FAUBA que evalúa indicios de interacciones entre plantas en los cultivos se propone establecer si es razonable aceptar que los sentidos de inclinación de plantas vecinas no son estadísticamente independientes. Para ello, selecciona al azar 60 plantas en un

Page 36: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

36

cultivo denso de girasol (14 plantas/m2) sembrado en surcos orientados de N a S. Para cada planta registra su sentido de inclinación (E, O, Ninguno) y el sentido de inclinación de la planta inmediatamente vecina hacia el S.

a. Identificar las unidades muestrales, la muestra y las variables aleatorias categóricas involucradas en esta investigación.

b. Formular las hipótesis estadísticas apropiadas para cumplir con el objetivo de la investigadora.

c. ¿Cuál es el estadístico de prueba apropiado? ¿Qué distribución de probabilidad tiene en caso de ser cierta la hipótesis nula?

Una vez realizado el muestreo, la investigadora ha obtenido los siguientes registros:

Inclinación planta sorteada

Este Oeste Ninguno

Inclinación planta vecina

Este 1 15 2

Oeste 16 0 4

Ninguno 3 2 17

d. Completar la prueba hipótesis con nivel de significación α = 0,01 y concluir en términos del objetivo de la investigadora.

e. ¿A qué población se extiende la inferencia realizada?

7.10 En el marco de una investigación sobre la regeneración de la palmera Butia yatay, una estudiante de la FAUBA evalúa la incidencia de distintos agentes que dañan las semillas. Para tal fin decide tomar al azar 500 carozos depositados en el suelo de un palmar, inspeccionar cada uno y registrar primero si conserva o no pulpa adherida (indicando si fue o no producido en el último año) y segundo si se encuentra sano o si ha sido dañado por insectos (Bruchidae), por roedores o por microbios (hongos y/bacterias).

a. Identificar las unidades muestrales, la muestra y la población involucradas en este muestreo.

b. ¿Qué variables aleatorias categóricas registrará la estudiante?

Una vez realizado el muestreo, la estudiante ha obtenido los siguientes registros:

Estado

Sano Daño por Bruchidae

Daño por Roedores

Daño por Microbios

Antigüedad Reciente (con pulpa) 39 5 1 17

Viejo (sin pulpa) 46 38 133 221

c. Estimar las probabilidades de registrar los diferentes tipos de daño en los carozos con diferente antigüedad.

d. Completar una prueba hipótesis apropiada para establecer si la incidencia de diferentes agentes que dañan las semillas de Butia yatay depende del tiempo que los carozos han permanecido en el suelo (con α = 0,01).

e. Escribir la conclusión de la prueba de hipótesis en términos del problema.

f. Explicar qué error se puede haber cometido e indicar cómo se hubiera podido disminuir el riesgo de cometerlo.

Page 37: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

37

Capítulo 8

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

8.1 En el marco de una investigación sobre la fertilidad del suelo, se realizó un experimento para evaluar los efectos de la aplicación de fertilizantes orgánicos. Para ello, dentro de un campo experimental se seleccionaron 4 muestras aleatorias de 3 parcelas de 400m² cada una y a las parcelas de cada muestra se les aplicaron dosis de compost de 0, 6, 12 y 18 ton/ha respectivamente. Al cabo de un año, en cada parcela se midió el contenido de nitrógeno inorgánico [kg de N/ha] en los primeros 20 cm del suelo. Los datos generados se presentan en el siguiente cuadro.

Parcela 1 2 3 4 5 6 7 8 9 10 11 12

Compost [t/ha] 0 0 0 6 6 6 12 12 12 18 18 18

N inorg. [kg/ha] 173 166 155 164 188 177 170 185 198 200 192 206

a. Esquematizar un mapa con una posible distribución del experimento en el campo. ¿Cómo se procedió para asignar la dosis de compost a cada parcela?

b. Identificar la variable independiente y la variable respuesta. Confeccionar el diagrama de dispersión y describir la aparente relación estadística entre las variables. ¿Por qué se trata de una relación estadística y no funcional?

c. Formular el modelo de regresión lineal correspondiente, identificar el dominio e interpretar cada parámetro en términos del fenómeno de interés.

d. Calcular la recta de regresión estimada y graficarla sobre el diagrama de dispersión.

e. Estimar la varianza del contenido de N inorgánico de los suelos tratados con una misma dosis de compost. ¿Qué unidad tiene?

f. Llevar a cabo la prueba de utilidad del modelo (=0,05). Interpretar la conclusión en términos del fenómeno de interés.

g. Construir un intervalo de 0,95 de confianza para 1. Enunciar la estimación correspondiente con una oración completa. Controlar que la estimación concuerde con el resultado de la prueba de utilidad.

h. Construir un intervalo de 0,95 de confianza para 0. Enunciar la estimación correspondiente con una oración completa.

i. Calcular y graficar la banda de 0,95 de confianza para la recta de regresión.

j. Calcular e interpretar el coeficiente de determinación.

k. ¿A qué población se extiende la inferencia realizada?

8.2 El girasol (Helianthus annuus L.) es una planta de polinización entomófila. Esto significa que para producir semilla requiere de insectos que transportan el polen de las anteras a los estigmas. Por eso, el rendimiento de este cultivo depende de la actividad de los insectos polinizadores. Como es común que los insectos silvestres no alcancen a polinizar todas las flores, el rendimiento de los cultivos frecuentemente se puede aumentar instalando colmenas de abejas. Los productores de una cooperativa de Venado Tuerto (Santa Fe) condujeron un experimento para evaluar la relación estadística entre densidad de colmenas x y el rendimiento de sus cultivos de girasol Y. Para ello, seleccionaron 6 muestras aleatorias de 10 lotes sembrados con girasol dentro de su área de influencia y las distribuyeron en 6 tratamientos: 0, 2, 4, 6, 8 y 10 colmenas /ha. A la cosecha, registraron el rendimiento obtenido en cada lote y con los datos generados realizaron un análisis de regresión lineal simple. A continuación se presentan el gráfico de dispersión y algunos resultados parciales del análisis.

Page 38: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

38

𝑛 = 60

�̅� = 5 [colmena

ha]

�̅� = 2,383126 t

ha

𝑆𝐶𝑥 = ∑(𝑥𝑖 − �̅�)2

60

𝑖=1

= 700 [(colmena

ha)

2

]

𝑆𝐶𝑦 = ∑(𝑦𝑖 − �̅�)2

60

𝑖=1

= 3,169598 [(t

ha)

2

]

𝑆𝐶𝑑 = ∑(𝑦𝑖 − 𝑚𝑌.𝑥𝑖)2

60

𝑖=1

= 1,103770 [(t

ha)

2

]

∑(𝑥𝑖 − �̅�). (𝑦𝑖 − �̅�)

60

𝑖=1

= 38,846876 [colmena

ha∙

t

ha]

a. Identificar la población de referencia, las unidades muestrales y los tratamientos involucrados en este experimento.

b. Formular el modelo de regresión lineal e interpretar todos sus términos en relación con fenómeno de interés evaluado en este experimento.

c. Estimar la ordenada al origen y la pendiente de la recta de regresión. Dibujar la recta de regresión estimada sobre el diagrama de dispersión.

d. Estimar la varianza de los rendimientos de lotes con igual densidad de colmenas. ¿A qué causas podría deberse la dispersión que mide este parámetro?

e. Poner a prueba, con nivel de significación =0,01, la siguiente hipótesis nula: En el área de influencia de la cooperativa de Venado Tuerto, el rendimiento promedio de los lotes de girasol no varía con la densidad de colmenas que se instalen en ellos. ¿Bajo qué condiciones el riesgo de rechazar equivocadamente esta hipótesis es exactamente 0,01?

f. Construir intervalos de 0,99 de confianza para los promedios de rendimiento de los lotes con 4 y con 10 colmenas por ha. Explicar por qué esos dos intervalos tienen diferente precisión.

g. Calcular el coeficiente de determinación e interpretarlo en términos del fenómeno de interés.

h. ¿Por qué este análisis no permite estimar el rendimiento promedio de los lotes de girasol con 15 colmenas por ha con riesgo de error conocido?

8.3 La sabana de palmeras del Parque Nacional El Palmar está invadida por árboles de especies que antes estaban restringidas a los bosquecitos riparios. Como parte de una evaluación de la invasión, una estudiante de FAUBA proyecta elegir al azar 20 sitios de sabana a distancias del bosque preestablecidas en aproximadamente 200, 450, 800, 1200 y 1600 m (4 sitios por distancia aproximada). En cada sitio elegido, establecerá una parcela de 400 m2 y dentro de ella contará todos los arboles de especies riparias presentes. Con los datos que genere llevará a cabo un análisis de regresión lineal simple para evaluar la relación estadística entre el logaritmo natural de la densidad de árboles riparios [árbol /400 m2] y la distancia al bosque más cercano [m].

a. Identificar las poblaciones de referencia, las unidades muestrales, la variable independiente y la variable respuesta involucradas en esta investigación.

b. Formular el modelo de regresión lineal simple e interpretar sus parámetros en relación con el fenómeno de interés evaluado en esta investigación.

Una vez ejecutado el muestreo, la estudiante analiza sus datos. Parte de su trabajo se transcribe a continuación:

Page 39: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

39

𝑛 = 20

�̅� = 847,6

�̅� = 5,0084

𝑏1 = −0,0011

𝑏0 = 5,9401

𝑠�̂�1= 0,0003

𝑠�̂�0= 0,2420

𝑆𝐶𝑥 = 4755030,8

𝑆𝐶𝑦 = 10,9882

𝑆𝐶𝑀 = 5,7461

𝑆𝐶𝑑 = 5,2421

c. Llevar a cabo la prueba de utilidad del modelo (=0,01). Interpretar la conclusión y explicar el error que puede involucrar en términos del fenómeno de interés.

d. Sobre el diagrama de dispersión graficar la recta de regresión estimada con una banda de 0,99 de confianza.

e. Calcular el coeficiente de determinación e interpretarlo en relación con el fenómeno de interés.

f. Sobre la base de los resultados del análisis, describir del modo más completo posible la relación estadística entre la densidad de árboles riparios y la distancia al bosque más cercano.

g. ¿Por qué razón en este caso los niveles de significación y los niveles de confianza elegidos para la inferencia son sólo aproximados?

8.4 Una alternativa para controlar los nematodos que dañan a las raíces de las plantas de tomate es establecer un cultivo acompañante de plantas que producen sustancias que repelen los nematodos (Tagetes sp.). Para evaluar esta alternativa, en un establecimiento hortícola con alto grado de infestación con nematodos se decide tomar 4 muestras aleatorias formadas por 6 parcelas de 10 m² cada una. En las parcelas de cada muestra se cultivará tomate junto con una densidad preestablecida de Tagetes sp. (0, 9, 15 o 25 plantas por m²) y se registrará el rendimiento del cultivo de tomate [kg/m²]. Con los datos a generar con este experimento se realizará un análisis de regresión lineal simple basado en el siguiente modelo,

{𝜇𝑌.𝑥𝑖 = 𝛽0 + 𝛽1 ∙ 𝑥𝑖 , para 0 ≤ 𝑥𝑖 ≤ 25 planta/m2

𝑌𝑖~𝑁(𝜇𝑌.𝑥𝑖 , 𝜎) independientes , 𝑖 = 1, … ,24

a. Explicar el significado que tiene en este caso cada término del modelo e indicar en qué unidad de mide

Una vez ejecutado el experimento, el análisis de los datos generados produce las siguientes estimaciones:

𝑏0 = 12,95 [

kg

m2] 𝑠�̂�0

= 1,75 [kg

m2] 𝑅2 = 0,54

𝑏1 = 0,58 [

kg

m2/

planta

m2] 𝑠�̂�1

= 0,13 [kg

m2/

planta

m2]

b. Poner a prueba la hipótesis nula H0) β1 = 0 (prueba de utilidad del modelo) con nivel de

significación =0,01. ¿Qué inferencias quedan habilitadas por el resultado de esta prueba de hipótesis?

Page 40: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

40

c. Construir un intervalo de 0,99 de confianza para la pendiente de la recta de regresión. Controlar que concuerde con el resultado de la prueba de hipótesis realizada en b. Escribir la estimación en una oración útil para el productor hortícola.

d. Considerar el intervalo de confianza calculado en c. ¿En qué sentido sería esperable que cambiara su precisión si el experimento incluyera 10 parcelas por grupo en lugar de 6? ¿Por qué razón no hay certeza de que esto ocurra? Justificar sobre la base de las fórmulas para el cálculo.

e. Interpretar el coeficiente de determinación R2. ¿A qué puede deberse que tenga un valor tan bajo?

f. Construir un intervalo de 0,99 de confianza para 0 ¿Cómo se interpreta ese intervalo en este caso?

g. ¿Por qué no es válido usar este análisis para estimar el rendimiento promedio en parcelas con 50 plantas del cultivo acompañante por m2?

h. ¿A qué población se extiende la inferencia estadística realizada?

8.5 En el marco de una investigación sobre la dinámica poblacional de Fagus grandifolia Ehrh., un árbol nativo de los bosques templados y subtropicales de América del Norte, un ecólogo evalúa la relación estadística entre el crecimiento anual y el tamaño de los individuos de esta especie. En un bosque cercano al Golfo de México, toma muestras aleatorias de 10 individuos de F. grandifolia de cada uno de los siguientes intervalos de diámetro del tronco a 1,5 m de altura: (8, 16 cm], (16, 32 cm], (32, 48 cm], (48, 64 cm] y (64, 84 cm). Luego, identifica cada individuo seleccionado con un número y registra su diámetro de tronco a 1,5 m de altura [cm]. Al cabo de 6 años vuelve a medir el diámetro del tronco de cada árbol y calcula su crecimiento anual [mm/año]. Con los datos generados, lleva a cabo un análisis de regresión lineal simple con los siguientes resultados:

𝑛 = 50

𝑏1 = 0,0500 [

mmaño

cm⁄ ]

𝑏0 = 0,9859 [mm

año]

𝑠𝑒 = 1,5129 [mm

año]

𝑠�̂�1= 0,0101 [

mmaño

cm⁄ ]

𝑠�̂�0= 0,4620 [

mm

año]

𝑅2 = 0,3381

a. Sobre el gráfico, identificar la variable independiente y la variable respuesta, la recta de regresión estimada y la banda de confianza. ¿Qué indica cada punto?

b. ¿Cuáles son los parámetros del modelo de regresión utilizado? Explicar el significado de cada uno en relación con el fenómeno de interés.

c. Explicar cómo de interpretan las estimaciones b1 y 𝑠𝑒 y el estadístico 𝑅2 en este caso particular. ¿Qué limitación hay en este caso para interpretar la estimación b0?

d. ¿Qué delimita la banda de 0,95 de confianza?

e. Sobre la base de los resultados del análisis, describir del modo más completo posible la relación estadística examinada entre el crecimiento anual y el diámetro de los individuos de Fagus grandifolia Ehrh.

Page 41: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

41

f. Explicar qué dispersión es la que se estima con 𝑠�̂�1. ¿A qué se debe?

g. ¿Cómo aborda el ecólogo el problema que genera no cumplir estrictamente con el requisito de estipular valores fijos de la variable independiente?

Page 42: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

42

Algunos resultados

Capítulo 1

1.4 b. Comunidad IV: 𝑀𝑎𝑥 ≈ 6,5%, 𝑀𝑖𝑛 ≈ 3,9%, 𝑞1 ≈ 4,2%, 𝑞2 ≈ 5%, 𝑞3 ≈ 5,4%,

Comunidad V: 𝑀𝑎𝑥 ≈ 1,8%, 𝑀𝑖𝑛 ≈ 0,4%, 𝑞1 ≈ 0,8%, 𝑞2 ≈ 1%, 𝑞3 ≈ 1,4%

c. Comunidad IV: 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 2,6%, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 1,2% Comunidad V: 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 1,4%, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 0,6%

1.6 a. Julio − sept. : 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 ≈ 200 mm. Enero − marzo: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 ≈ 390 mm

b. Julio − sept. : 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 210 mm, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 100 mm Enero − marzo: 𝐴𝑚𝑝 𝑡𝑜𝑡𝑎𝑙 ≈ 960 mm, 𝐴𝑚𝑝 𝑒𝑛𝑡𝑟𝑒 𝑐𝑢𝑎𝑟𝑡𝑖𝑙𝑒𝑠 ≈ 200 mm

1.9 𝑥 = número de tormentas, 𝑣 = lluvia

a. 𝑣𝑎𝑟[𝑥] = 21,15 [tormenta2]

b. 𝑣𝑎𝑟[𝑣] = 25.692,65 [mm2]

c. 𝑐𝑜𝑣𝑎[𝑥, 𝑣] = 449,72 [tormenta ∙ mm]

Capítulo 2

2.2 a. Plateada

Cara Ceca

Dorada

Cara 0,25 0,25 0,50

Ceca 0,25 0,25 0,50

0,50 0,50 1,00

b. 𝑃[𝐷𝑐𝑎𝑟𝑎 ∩ 𝑃𝑐𝑎𝑟𝑎] = 0,25

c. 𝑃[𝐷𝑐𝑎𝑟𝑎] = 0,50

d. 𝑃[𝐷𝑐𝑎𝑟𝑎 | 𝑃𝑐𝑎𝑟𝑎] = 𝑃[𝐷𝑐𝑎𝑟𝑎 ∩ 𝑃𝑐𝑎𝑟𝑎] ÷ 𝑃[𝑃𝑐𝑎𝑟𝑎] = 0,50

f. 𝑃[(𝐷𝑐𝑎𝑟𝑎 ∩ 𝑃𝑐𝑒𝑐𝑎) ∪ (𝐷𝑐𝑒𝑐𝑎 ∩ 𝑃𝑐𝑎𝑟𝑎)] = 0,50

2.6 a. 𝑃[𝐴𝑐] = 1 − 𝑃[𝐴] = 0,75

b. 𝑃[𝐴 ∩ 𝐴𝑐] = 0

c. 𝑃[𝐴 ∪ 𝐴𝑐] = 1

d. 𝑃[𝐴 ∩ 𝐵] = 0,21875

e. 𝑃[𝐴𝑐 ∩ 𝐵] = 0,65625

f. 𝑃[𝐴 ∩ 𝐵𝑐] = 0,03125

g. 𝑃[(𝐴 ∩ 𝐵𝑐) ∪ (𝐴𝑐 ∩ 𝐵)] = 0,6875

h. 𝑃[𝐴𝑐 ∩ 𝐵𝑐] = 0,09375

2.8 𝐵𝐶 = Bajo Copa, 𝐺 = Germinar, 1𝑟𝑎𝐺 = Primera semilla germinar, etc.

a. 𝑃[𝐵𝐶] = 0,7

b. 𝑃[𝐵𝐶𝑐 ∩ 𝐺] = 0,12, 𝑃[𝐵𝐶 ∩ 𝐺] = 0,1

c. 𝑃[𝐺] = 0,22

d. 𝑃[1°𝐺 ∩ 2°𝐺] = 0,0484

e. 𝑃[1°𝐺 ∩ 2°𝐺𝑐] = 0,1716

Page 43: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

43

f. 𝑃[(1°𝐺 ∩ 2°𝐺𝑐) ∪ (1°𝐺𝑐 ∩ 2°𝐺)] = 0,3432

g. 𝑃[(1°𝐺 ∩ 2°𝐺𝑐 ∩ 3°𝐺𝑐) ∪ (1° 𝐺𝑐 ∩ 2°𝐺 ∩ 3°𝐺𝑐) ∪ (1° 𝐺𝑐 ∩ 2°𝐺𝑐 ∩ 3°𝑎𝐺)] = 0,4015

Capítulo 3

3.2 b. 𝑃[𝑈 > 3] = 0,787, 𝑃[𝑉 > 3] = 0,971

c. 𝐸[𝑈] = 4,021, 𝑉𝑎𝑟[𝑈] = 2,1366, 𝐸[𝑉] = 5,020, 𝑉𝑎𝑟[𝑉] = 0,8316

e. 𝐸[𝑈 − 𝑉] = −0,999, 𝑉𝑎𝑟[𝑈 − 𝑉] = 2,9682

3.3 a. 𝑥 = 0, 𝑥 = 1, 𝑥 = 2, … , 𝑥 = 10

b. 𝑋~Binomial(𝑛, 𝜋)

c. 𝑛 = 10, 𝜋 = 0,98

d. 𝐸[𝑋] = 9,8, 𝑉𝑎𝑟[𝑋] = 0,196

e. 𝑃[𝑋 = 10] = 0,8171

f. 𝑃[𝑋 = 9] = 0,1668

g. 𝑃[𝑋 = 8] = 0,0153

h. 𝑃[𝑋 ≥ 8] = 0,9992

3.5 c. 𝑢0,50 = 0,50

d. 𝑃[𝑈 = 0,50] = 0

e. 𝐸[𝑈] = 0,50, 𝑉𝑎𝑟[𝑈] = 0,050, 𝐷𝑒[𝑈] = 0,2236

f. 𝑃[0,25 < 𝑈 < 0,75] = 0,6875

g. 𝑃[𝑈 < 0,25 | 𝑈 < 40] = 𝑃[𝑈 < 0,25] ÷ 𝑃[𝑈 < 0,40] = 0,4439

3.8 a. 𝑃[𝑋 < 190] = 𝑃[𝑍 < (190 − 250) 20⁄ ] = 0,0013

b. 𝑃[𝑋 > 245] = 𝑃[𝑍 > (245 − 250) 20⁄ ] = 05987

c. [220 < 𝑋 < 280] = 𝑃[(220 − 250) 20⁄ < 𝑍 < (280 − 250) 20⁄ ] = 0,8664

d. 𝐸[𝑋] = 250 g, 𝑉𝑎𝑟[𝑋] = 400 g2

e. 𝑥0,10 = 224,3689 g

f. Con 𝑊~Binomial(𝑛 = 10, 𝜋 = 0,8664), 𝑃[𝑊 ≥ 8] = 0,8609

g. Con 𝑈~Binomial(𝑛 = 10, 𝜋 = 0,1336), 𝑃[𝑈 ≥ 1] = 0,7618

3.11 a. 𝑃[𝑋2 = 2 |𝑋1 = 2] = 𝑃[𝑋2 = 2] = 0,12

b. 𝑃[𝑋2 = 2 ∩ 𝑋1 = 2] = 𝑃[𝑋2 = 2] ∙ 𝑃[𝑋2 = 2] = 0,12 ∙ 0,12 = 0,0144

c. �̅� = 0, �̅� = 0,5, �̅� = 1,0, �̅� = 1,5, �̅� = 2,0, �̅� = 2,5, �̅� = 3,0

d. 𝐸[�̅�] = 0,78

e. 𝑉𝑎𝑟[�̅�] = 0,2658 semilla2

f. 𝐷𝑒[�̅�] = 0,5156 semilla

Capítulo 4

4.3 a. 𝑃[𝑋 > 0,1; 𝜇 = 0,2 𝜎 = √0,02] = 𝑃[𝑍 > −0,7071] = 0,7603

Page 44: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

44

b. Con 𝑈~𝐵𝑖(10, 0,7603), 𝑃[𝑈 ≥ 5] = 0,9840

c. 𝑃 [�̅� > 0,1; 𝜇 = 0,2 𝜎 √𝑛⁄ = √0,02 10⁄ ] = 𝑃[𝑍 > −2,2361] = 0,9873

4.4 a. 𝜇 = 420 kg, 𝜎 = 8 kg

b. 𝑃[𝑋 < 425; 𝜇 = 420 𝜎 = 8] = 𝑃[𝑍 < 0,625] = 0,7340

c. 𝑃[𝑋 = 425; 𝜇 = 420 𝜎 = 8] = 0

d. 𝑋~𝑁(𝜇 = 420, 𝜎 √𝑛 = 8 √𝑛⁄⁄ )

e. 𝑃[415 < �̅�4 < 425] = 𝑃[(415 − 420) 4⁄ < 𝑍 < (425 − 420) 4⁄ ] = 0,7887

e. 𝑃[415 < �̅�9 < 425] = 𝑃[−1,875 < 𝑍 < 1,875] = 0,9392

4.10 b. 𝐸[(�̅�25 − 𝜇)2] = 1600 25⁄ = 64 [g m2 ∙ año⁄ ]

c. 𝑃[−10 < �̅�25 − 𝜇 < 10] = 𝑃[− 10 √64⁄ < 𝑍 < 10 √64⁄ ] = 0,7887

d. 𝑃[−10 < �̅�𝑛 − 𝜇 < 10] ≥ 0.99 ⇒ 10 √1600 𝑛⁄⁄ ≥ 𝑧0,995 ∴ 𝑛 ≥ 107

e. 𝑃[−𝑎 < �̅�25 − 𝜇 < 𝑎] = 0,99 ⇒ 𝑎 √64⁄ = 𝑧0,995 ∴ 𝑎 = 20,6068

Capítulo 5

5.4 b. σ y n

c. 𝛼 = 0,05

d. 2,9 ± 2,064 ∙ √0,36 25⁄ [t ha⁄ ]

e. 𝑛 = 35

5.5 b. �̅� = 340,3500 [microgramo l⁄ ]

d. 𝑠2 = 1234,9763 [microgramo l⁄ ]2

e. 340,3500 ± 2,0930 ∙ √1234,9763 20⁄ [microgramo l⁄ ]

Capítulo 6

6.1 a. H0) 𝜇 ≥ 0,7, H1) 𝜇 < 0,7

c. 𝑝 = 𝑃[𝑇29 < −0,3013] = 0,3827

6.4 a. H0) 𝜇 ≤ 450, H1) 𝜇 > 450

c. 𝑝 = 𝑃[𝑇24 > 3,00] = 0,0031 < 0,01

6.7 a. �̅� = −1,22 t/ha, 𝑠2 = 3,2218 (t/ha)2

c. H0) 𝜇𝐷 = 0, H1) 𝜇𝐷 ≠ 0

d. 𝑝 = 2. 𝑃 [𝑇9 > |−1,22 − 0| √3,2218 10⁄⁄ ] = 0,0601 > 0,05

6.12 b. H0) 𝜇BT = 𝜇AT, H1) 𝜇BT ≠ 𝜇AT

c. 𝑝 = 2. 𝑃 [𝑇25 > |25,7250 − 24,3533| √1,4743 ∙ (1 12 + 1 15⁄⁄ )⁄ ] = 0,024 < 0,05

d. (25,7250 − 24,3533) ± 2,0595. √1,4743 ∙ (1 12 + 1 15⁄⁄ ) [g /100 g]

Page 45: Capítulo 1 DISTRIBUCIONES DE FRECUENCIAS - … · Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista 3 Figura 1.11. Distribuciones de frecuencias de los

Ejercicios de Introducción a la Inferencia Estadística Aplicada W.B. Batista

45

Capítulo 7

7.1 b. H0) 𝜋1 = 𝜋2 = ⋯ = 𝜋6 = 1 6⁄

c. 𝑝 = 𝑃[𝑋52 > 10,0] = 0,0752 > 0,05

7.3 c. H0) 𝜋𝑖1 = 𝜋𝑖2 (𝑖 = 1, 2), 𝑝 = 𝑃[𝑋12 > 10,2857] = 0,0013 < 0,05

7.8 b. 𝑃[𝐵|𝐴]̂ = 0,2353, 𝑃[𝐵|𝐴𝑐]̂ = 0,5534

d. 𝑝 = 𝑃[𝑋12 > 5,9078] = 0,0151

Capítulo 8

8.1 d. 𝑚𝑌.𝑥𝑖 = 164,3667 + 1,8667 ∙ 𝑥𝑖 [kg de N/ha]

e. 𝑠𝑒2 = 97,0067 [kg de N/ha]2

f. 𝑝 = 2𝑃[𝑇10 > 4,4042] = 0,0013

g. 1,8667 ± 0,9444 [(kg de N/ha) ÷ (t de compost ha⁄ )]

h. 164,3667 ± 10,6006 [kg de N/ha]

i. (164,3667 + 1,8667 ∙ 𝑥𝑖) ± (2,2281 ∙ √97,0067 ∙ (1 12⁄ + (𝑥𝑖 − 9)2 540⁄ ))

j. 𝑅2 = 0,6598

8.2 c. 𝑚𝑌.𝑥𝑖 = 2,1056 + 0,0555 ∙ 𝑥𝑖 [t ha]⁄

d. 𝑠𝑒2 = 0,0175 [t ha]⁄ 2

e. 𝑝 = 2 ∙ 𝑃[𝑇58 > 11,1058] < 0,0001

f. 2,3276 ± 0,0474 [t ha]⁄ y 2,6606 ± 0,0806 [t ha]⁄

g. 𝑅2 = 0,6802