Trabajo de Estadística y Probabilidades

24
TRABAJO DE ESTADÍSTICA Y PROBABILIDADES ESTADÍSTICA DESCRIPTIVA, GRÁFICOS, PROBABILIDADES Y ANÁLISIS DE DATOS INTEGRANTES: Carolina Ramírez Gaviria CC. 1152462421 Daniela Franco Vanegas CC. 1018376321 Profesor(a): Luz Marcela Restrepo Asignatura: Estadística y Probabilidades UNIVERSIDAD DE MEDELLÍN FACULTAD DE INGENIERÍA INGENIERÍA AMBIENTAL MEDELLÍN 2015-2

description

Estadística descriptiva

Transcript of Trabajo de Estadística y Probabilidades

Page 1: Trabajo de Estadística y Probabilidades

TRABAJO DE ESTADÍSTICA Y PROBABILIDADES

ESTADÍSTICA DESCRIPTIVA, GRÁFICOS, PROBABILIDADES Y ANÁLISIS DE

DATOS

INTEGRANTES:

Carolina Ramírez Gaviria CC. 1152462421

Daniela Franco Vanegas CC. 1018376321

Profesor(a): Luz Marcela Restrepo

Asignatura: Estadística y Probabilidades

UNIVERSIDAD DE MEDELLÍN

FACULTAD DE INGENIERÍA

INGENIERÍA AMBIENTAL

MEDELLÍN 2015-2

Page 2: Trabajo de Estadística y Probabilidades

Objetivos:

1. Identificar tipos de variables aleatorias y su tratamiento estadístico.

2. Analizar descriptivamente la base de datos entregada.

3. Afianzar el uso del software estadístico R.

Adjunto a este archivo, encontrará una base de datos asociada a 5 marcas

diferentes de bebidas energéticas. Seleccione 2 marcas de las 5 y desarrolle cada

uno de los siguientes puntos:

1. Enuncie e identifique el tipo de variables que tiene la base de datos.

La base de datos está dada en un archivo en Excel, bajo la extensión xlsx. Para

cargarla al área de trabajo de R se ha optado por guardarla bajo una extensión

csv, de manera que se puedan usar funciones para lectura de tablas, tales como

read.csv(), sin necesidad de cargar paquetes adicionales para ello. De las 5

marcas posibles, se seleccionan la 2 y la 5.

Aunque el archivo posee 6 columnas (entre A y F), solamente 5 de ellas son

variables de interés. La primera columna sólo nos indica el orden de las muestras.

La variable Marca representa una variable cualitativa, ya que asocia las bebidas

como una categoría. Así, por ejemplo, en vez de llamar una bebida Marca 1 o

Marca 3, se pueden haber llamado Marca A y Marca C; por lo tanto es una

característica que no proviene de una medición como tal. Las demás variables se

pueden considerar cuantitativas, donde el contenido de taurina y cafeína

provienen de una medición continua, mientras que el precio y el rango de tiempo

faltante para vencimiento se toman como mediciones discretas.

Por facilidad, la variable rango de tiempo faltante para vencimiento (RTFV) se

trabaja de manera discreta en 6 niveles, correspondientes a la siguiente tabla.

Entre 0 y 1 mes 1

Entre 1 y 2 meses 2

Entre 2 y 3 meses 3

Entre 3 y 4 meses 4

Entre 4 y 5 meses 5

Más de 5 meses 6

El procedimiento siguiente es calcular cada vector de medidas (media, mediana,

desviación estándar…) para la base de datos truncada (es decir, tomando en

Page 3: Trabajo de Estadística y Probabilidades

cuenta sólo las dos marcas seleccionadas). De igual manera se calculan los

estadísticos considerando los conjuntos de datos de cada marca por separado.

2. Calcule medidas de tendencia central: media, mediana, moda.

Con la ayuda del programa R se obtiene un vector de medias y medianas. Para la

moda, es necesario instalar el paquete modeest, ya que dentro de las funciones

con las que viene el programa no aparece una forma compacta de calcularla.

Estas medidas determinan la posición que toma la muestra, y en general la mayor

concentración de los datos. Algunas de ellas analizan la tendencia hacia la

posición central, mientras que los cuantiles por ejemplo, determinan posiciones no

centrales. Se definen las siguientes:

Moda

Representada como 𝑀𝑜 representa el dato (o datos) con mayor frecuencia

absoluta. Para datos agrupados, de manera similar, representa el intervalo (o

intervalos) que presentan la mayor frecuencia. No tiene que ser única, y se calcula

para variables cualitativas y cuantitativas.

Mediana

Denotada por 𝑀𝑒 es el valor que tiene la propiedad de dejar a su izquierda el 50%

de las observaciones y a su derecha el 50% restante, siempre y cuando los datos

sean ordenados. Tiene como propiedad que no es tan sensible a los datos

atípicos.

Si la cantidad de datos es impar, la mediana se obtiene de manera fácil, pero

cuando los datos son pares, ésta se determina como

𝑀𝑒 =𝑎 + 𝑏

2

Donde 𝑎 y 𝑏 son los dos valores centrales. Para datos agrupados, el intervalo

mediano o que contiene la mediana con frecuencia 𝑓𝑖, es el primer intervalo cuya

frecuencia absoluta acumulada 𝐹𝑖 es igual o mayor que 𝑛 2⁄

𝑀𝑒 = 𝑙𝑖 +

𝑛2 − 𝐹𝑖−1

𝑓𝑖

(𝑙𝑖+1 − 𝑙𝑖)

Page 4: Trabajo de Estadística y Probabilidades

Para las demás medidas de tendencia central (medias), conviene conocer lo que

es la media generalizada (también conocida como Medias de Hölder) las cuales se

agrupan como

�̅�(𝑚) = (1

𝑛∑ 𝑥𝑖

𝑚

𝑛

𝑖=1

)

1𝑚⁄

Desafortunadamente las medias, dado que consideran todos los datos de la

muestra, son vulnerables a errores por parte de los datos atípicos o anómalos.

Media aritmética

Cuando 𝑚 = 1 se tiene la media aritmética (también conocida como ‘promedio’).

Se define como

�̅� =1

𝑛∑ 𝑥𝑖

𝑛

𝑖=1

Como propiedades se tiene que el promedio representa el centro de gravedad de

los datos, de modo que si 𝑦𝑖 = 𝑥𝑖 − �̅�, entonces �̅� = 0. También aplica que para

transformaciones lineales, si 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 entonces �̅� = 𝑎 + 𝑏�̅�.

Para el análisis multivariado, sean 𝑋1, 𝑋2, … 𝑋𝑁 las diferentes variables en estudio,

y 𝑗 el número de variables. La matriz de datos tendrá dimensiones 𝑛 × 𝑘,

representándose como

𝑿 = [

𝑥11

𝑥21

⋮𝑥𝑛1

𝑥12

𝑥22

⋮𝑥𝑛2

……⋱…

𝑥1𝑘

𝑥2𝑘

⋮𝑥𝑛𝑘

] = [𝑥1 … 𝑥𝑘]

Se define el vector de medias aritméticas como

�̅� = [

𝑥1̅̅̅⋮

𝑥�̅�

] =1

𝑛𝑿′𝟏

Con la ayuda del programa R se obtienen las medidas de tendencia central.

Page 5: Trabajo de Estadística y Probabilidades
Page 6: Trabajo de Estadística y Probabilidades

3. Calcule medidas de dispersión: rango, varianza, desviación.

Las medidas de dispersión se utilizan para describir la variabilidad o esparcimiento

de los datos de la muestra respecto a la posición central. Entre ellos se

encuentran:

Page 7: Trabajo de Estadística y Probabilidades

Recorrido o rango

Denotada por 𝑅 es una medida de dispersión global definida como la diferencia

entre el mayor y el menor valor

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Es una medida bastante susceptible a los datos atípicos. Si el recorrido es

pequeño entonces los datos están poco dispersos.

Cuasivarianza

También conocida como varianza insesgada o varianza corregida, se define como

𝑆𝑥2 =

∑ (𝑥𝑖 − �̅�)2𝑓𝑖𝑘𝑖=1

𝑛 − 1=

(∑ 𝑥𝑖2𝑓𝑖

𝑘𝑖=1 ) − 𝑛�̅�2

𝑛 − 1

La varianza y la cuasivarianza se relacionan como

(𝑛 − 1)𝑆𝑥2 = 𝑛𝑠𝑥

2

Cuasidesviación típica

Es la raíz cuadrada de la cuasivarianza

𝑆𝑥 = √∑ (𝑥𝑖 − �̅�)2𝑓𝑖

𝑘𝑖=1

𝑛 − 1= √

(∑ 𝑥𝑖2𝑓𝑖

𝑘𝑖=1 ) − 𝑛�̅�2

𝑛 − 1

Las medidas de dispersión calculadas con R para las marcas seleccionadas se

muestran a continuación.

Page 8: Trabajo de Estadística y Probabilidades

4. Calcule cuartiles y deciles.

Se define el cuantil 𝑝 como el número que deja a su izquierda una frecuencia

relativa 𝑝. Esto es equivalente a decir que la frecuencia relativa acumulada hasta 𝑝

es 𝑝. Cuando los datos están ordenados y agrupados por clases, el cuantil 𝑝 (𝐶𝑝)

se calcula como

𝐶𝑝 = 𝑙𝑖 +𝑛𝑝 − 𝐹𝑖−1

𝑓𝑖

(𝑙𝑖+1 − 𝑙𝑖)

Como casos particulares de los cuantiles están los cuartiles (cuartiles de orden

0.25, 0.5, 0.75), los deciles (cuartiles de orden 01… 0.9) y los percentiles (cuartiles

de orden 0.01, 0.02, 0.03… 0.99)

A continuación se muestran los cuartiles y deciles para la base de datos truncada,

así como para marca de manera independiente. Cabe resaltar que 𝑄2 = 𝐷5 y este

valor corresponde a la mediana.

Page 9: Trabajo de Estadística y Probabilidades

5. Calcule medidas de forma: asimetría y curtosis.

Las medidas de forma tratan de medir el grado de simetría y apuntamiento de los

datos. Cuando la distribución presenta una asimetría positiva o por la derecha, los

valores en su polígono de frecuencias tienden a ser menores a cero, de igual

manera si se presenta asimetría negativa, la mayoría de los valores tienden a ser

mayores a cero. También se da el caso que la distribución se asemeje a una

distribución Normal o Gaussiana, es decir, que sea simétrica. La siguiente figura

ilustra la situación.

Page 10: Trabajo de Estadística y Probabilidades

Figura 1. Asimetrías de las distribuciones

Coeficiente de asimetría

Para distribuciones unimodales, se suele establecer el coeficiente de simetría de

Pearson, el cual se define como

𝐶𝐴 =�̅� − 𝑀𝑜

𝑠𝑥

Se distinguen los siguientes casos

Si 𝐶𝐴 = 0 la distribución es simétrica

Si 𝐶𝐴 < 0 la distribución es asimétrica por la izquierda

Si 𝐶𝐴 > 0 la distribución es asimétrica por la derecha

También se suele emplear el coeficiente de asimetría de Fisher (cuando la

distribución no es unimodal), el cual se define como

𝑔1 =𝑚3

𝑠𝑥3 =

∑ (𝑥𝑖 − �̅�)3𝑛𝑖=1

𝑛𝑠𝑥3

A 𝑚3 se le conoce como el tercer momento estadístico respecto a la media. De

manera similar se establecen los casos

Si 𝑔1 = 0 la distribución es simétrica

Si 𝑔1 < 0 la distribución es asimétrica por la izquierda

Si 𝑔1 > 0 la distribución es asimétrica por la derecha

Apuntamiento o Coeficiente de curtosis

Mide el grado de concentración de una variable respecto a su medida de

centralización usual (generalmente el promedio). Si el polígono de frecuencias es

análogo a la curva Normal, se dice que la distribución es mesocúrtica. Si es más

Page 11: Trabajo de Estadística y Probabilidades

elevado y estrecho que la curva normal, se le llama distribución leptocúrtica. Y si

es menos elevado y más ancho que la curva normal, se le denomina platicúrtica.

La siguiente gráfica ilustra éstos casos.

Figura 2. Apuntamiento de las distribuciones

Como medida de apuntamiento se define el coeficiente de curtosis, dado por:

𝑔2 =𝑚4

𝑠𝑥4

− 3 =∑ (𝑥𝑖 − �̅�)4𝑛

𝑖=1

𝑛𝑠𝑥4

Se conoce a 𝑚4 como el cuarto momento estadístico respecto a la media. Como el

apuntamiento de la distribución Normal es 3, se toma éste como valor de

referencia. Aquí los casos que se presentan son

Si 𝑔2 = 0 distribución mesocúrtica

Si 𝑔2 < 0 distribución platicúrtica

Si 𝑔2 > 0 distribución leptocúrtica

Las medidas de forma obtenidas en R para la base de datos truncada y las

respectivas marcas se muestran a continuación.

Page 12: Trabajo de Estadística y Probabilidades

6. Analice la variable “Rango de tiempo faltante para vencimiento”;

realice todas las gráficas respectivas. Interprete.

Se define el tamaño de muestra 𝑛 como el número de elementos o individuos de la

muestra. Para la elaboración de histogramas y tablas de frecuencias es necesario

agrupar los datos en clases, de modo que faciliten su comprensión sin tener una

perdida excesiva de la información que aporta la muestra. Para ello se debe

establecer el número de intervalos de clase en los cuales se sitúan los diferentes

datos. Para el análisis univariado y dado que el número de elementos en cada

variable es el mismo, podemos manejar el mismo número de intervalos.

Para determinar la cantidad de intervalos existen dos fórmulas sugeridas (en

muchos casos depende de la naturaleza de los datos, y no es absolutamente

necesario seguir dichas fórmulas): Una siguiendo la parte entera del raíz cuadrada

de la cantidad de datos, esto es

𝑘 = ⌊√𝑛⌋

La otra fórmula es la conocida regla de Sturges, propuesta por Herber Sturges en

1926, indica que el número 𝑘 de intervalos está dado por

𝑘 = 1 + 3,322 log10 𝑛

Por lo general ambos valores coinciden, y son útiles para muestras con más de 20

datos; con una cantidad menor a éste valor se sugiere un diagrama de puntos.

Page 13: Trabajo de Estadística y Probabilidades

Ahora es necesario conocer la amplitud de cada intervalo, y definir la marca de

clase que no es más que un valor que representa el intervalo.

La amplitud del intervalo de clase (𝑙𝑖, 𝑙𝑖+1) se calcula como

𝑑 = 𝑙𝑖+1 − 𝑙𝑖

Y la marca de clase del intervalo

𝑥𝑖 =𝑙𝑖 + 𝑙𝑖+1

2

Si los intervalos han de tener la misma amplitud, se considera el recorrido de las

observaciones

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

De modo que la amplitud de cada intervalo será la relación entre el recorrido y el

número de intervalos

𝑑 =𝑅

𝑘

Por lo general dicha amplitud es necesario ajustarla, de modo que la diferencia se

reparte en el intervalo inferior, el superior, o en ambos

𝑅′ = 𝑘𝑑′ = 𝑑 ± 𝑤

De modo que las observaciones mínima y máxima serán

𝑥𝑚𝑖𝑛′ = 𝑥𝑚𝑖𝑛 ∓

𝑤

2 𝑥𝑚𝑎𝑥

′ = 𝑥𝑚𝑎𝑥 ±𝑤

2

Con base en lo anterior, se calculan las tablas de frecuencias tanto absolutas

como acumuladas, así como la relativa, de la variable RTFV, mostrándose en la

siguiente figura.

Page 14: Trabajo de Estadística y Probabilidades

Para el caso de esta variable se realiza un gráfico de barras, para facilidad de

visualización al ser una variable cuantitativa discreta. El diagrama de barras y el

diagrama de cajas y bigotes se muestran en la siguiente figura.

Algo que se nota desde el diagrama de barras, es que la mayoría de las bebidas

expiran en un período de tiempo mayor a 5 meses, y en los demás, el tiempo

faltante antes de vencer se distribuye casi equitativamente para los demás

períodos de meses. Según el diagrama de cajas y bigotes no se presentan datos

atípicos, y la media, al igual que el rango intercuartílico es el mismo para cada

marca, al igual que para la base de datos truncada.

7. Para la variable “Contenido de Taurina”, elabore una tabla de

distribución de frecuencias, un histograma de frecuencias absolutas y

un histograma de frecuencias absolutas acumuladas. Interprete.

Page 15: Trabajo de Estadística y Probabilidades

Al determinar el número de intervalos por la regla de Sturges, se obtienen 12

intervalos, de modo que las tablas de frecuencias (absolutas y relativas) se

muestran a continuación.

En dichas tablas se observa que prácticamente todas las muestras pertenecientes

a la marca A (2) se encuentran a partir del cuarto intervalo, y de hecho, hasta ese

mismo intervalo están las correspondientes a la marca B. Esto inmediatamente

hace pensar que la concentración de taurina en la marca A es más elevada que en

la marca B, y se corrobora con los valores para las medias, calculadas

anteriormente.

En la figura siguiente se muestran los diferentes histogramas para la variable

Taurina, y en el primero de ellos se muestra una comparación de la densidad de la

distribución (marcada en rojo) para compararla con una distribución normal

(marcada en azul).

Page 16: Trabajo de Estadística y Probabilidades

8. Para la variable “Contenido de Cafeína”, elabore una tabla de

distribución de frecuencias, un histograma de frecuencias absolutas y

un histograma de frecuencias absolutas acumuladas. Interprete.

Similar al numera anterior, por medio de la regla de Sturges se calculan 12

intervalos. En ellos se observa, a diferencia de la concentración de taurina, que

existen algunos intervalos donde ambas muestras se solapan, pero en general, los

valores de cantidad de cafeína en la marca A tienden a ser más bajos que los de

la marca B. y de hecho en la marca B, no se encuentran valores de cafeína por

debajo de 66.2 mg. En la figura siguiente se observan tales tablas.

En la figura siguiente se muestran los diferentes histogramas para la variable

Cafeína, y en el primero de ellos se muestra una comparación de la densidad de la

distribución (marcada en rojo) para compararla con una distribución normal

(marcada en azul).

Page 17: Trabajo de Estadística y Probabilidades

9. Realice un estudio de dispersión de los precios de las bebidas de las

dos marcas. Analice curtosis y elabore diagramas de cajas y bigotes

para comparar.

Para realizar un estudio de la dispersión de los precios en ambas marcas, nos

remitimos a los valores obtenidos por las medidas de dispersión. Si se comparan

inicialmente los rangos, no se nota una variación significativa de precios entre las

marcas, ya que es la misma para ambas. Pero en las cuasi-desviaciones estándar

se observa que respecto a la base de datos truncada, la marca A (2) presenta

precios más elevados que la marca B (5), y según la cuasi-desviación estándar,

éstos últimos varían mucho más que los de la marca A (una variación de alrededor

de $590 en la marca B comparado con $561 de la marca A).

De hecho, esto es algo que se puede observar en el diagrama de cajas y bigotes,

donde se relaciona la mediana y el rango intercuartílico, ya que la variación en A

es menor que en B. En la gráfica siguiente se observa el diagrama de cajas y

bigotes para la variable Precio.

Page 18: Trabajo de Estadística y Probabilidades

En la tabla siguiente se muestran los coeficientes de curtosis comparativos para

ambas marcas. Se observa que todos ellos son negativos, lo que indica que

presentan un apuntalamiento platicúrtica respecto a una curva normal. Ello indica

que la distribución es más “achatada” si se le compara con una curva con

distribución normal.

Curtosis de la BD -1.218

Curtosis de la marca A (2) -1.161

Curtosis de la marca B (5) -1.257

10. Determine si la distribución del precio de las bebidas de aproxima a

una curva simétrica.

Sabemos que uno de los criterios para verificar si hay simetría en la distribución es

determinar qué tan próximos se encuentran la media, la mediana y la moda. De

los datos antes obtenidos, sólo la media y la mediana presentan valores algo

similares, pero la moda es significativamente distinta para ésta variable. Sin

Page 19: Trabajo de Estadística y Probabilidades

embargo entre los descriptores obtenidos, el que determina mejor el nivel de

simetría de la distribución respecto a una curva normal es el coeficiente de

simetría.

Para este caso, los valores obtenidos son los siguientes.

Asimetría de la BD -0-037

Asimetría de la marca A (2) -0.03

Asimetría de la marca B (5) 0.03

Efectivamente, estos valores son muy cercanos a 0, lo que indica que el precio

presenta cierta simetría. De hecho las dos primeras (la base de datos truncada y

la marca A) presentan asimetría por la izquierda, y la marca B, por la derecha.

11. Realice un estudio de dispersión del contenido de cafeína de las

bebidas de las dos marcas. Analice curtosis y elabore diagramas de

cajas y bigotes para comparar.

Para el estudio de la dispersión de la cafeína en ambas marcas, nos remitimos a

los valores obtenidos por las medidas de dispersión. El rango en ambas se

mantiene igual, aunque varía un poco cuando se toma en cuenta la base de datos

truncada. Incluso en las cuasi-desviaciones estándar, la concentración de valores

de cafeína en ambos es muy similar.

De hecho, en el diagrama de cajas y bigotes que se muestra a continuación, se

observa que la mediana de la marca A está más próxima a la de la base de datos

truncada que la de la marca B (y se ratifica también en los valores de la media). Y

además se puede apreciar que el rango intercuartílico para ambas marcas es muy

similar.

La tabla siguiente muestra los coeficientes de apuntalamiento, y en todos ellos se

obtienen valores negativos, lo que indica que las distribuciones son más

aplanadas que las de una distribución normal. Además, la marca B tiene una

distribución más aplanada que la marca A.

Curtosis de la BD -0.826

Curtosis de la marca A (2) -1.236

Curtosis de la marca B (5) -1.174

Page 20: Trabajo de Estadística y Probabilidades

12. Determine si la distribución del contenido de cafeína de las bebidas se

aproxima a una curva simétrica.

Para este caso, los valores obtenidos del coeficiente de asimetría para la variable

Cafeína son los siguientes.

Asimetría de la BD 0.0027

Asimetría de la marca A (2) 0.073

Asimetría de la marca B (5) -0.046

Esto muestra que las distribuciones tienden a presentar cierta simetría cuando se

comparan con una curva normal. Solo la marca B presenta cierta asimetría por la

izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la

marca A) presentan asimetría por la derecha.

Page 21: Trabajo de Estadística y Probabilidades

13. Realice un estudio de dispersión del contenido de taurina de las

bebidas de las dos marcas. Analice curtosis y elabore diagramas de

cajas y bigotes para comparar.

Para el estudio de la dispersión de la taurina en ambas marcas, nos remitimos a

los valores obtenidos por las medidas de dispersión. Es notoria la variación en el

rango de ambas marcas (para la marca A es el doble que para la marca B), y de

hecho difieren respecto a la base de datos truncada. Además, en las cuasi-

desviaciones estándar, la concentración de valores de taurina es mucho mayor en

la marca B (5), ya que éste estadístico es mucho menor que el presentado en la

marca A (2). Por lo tanto, la variación de concentración de cafeína para la marca

B, que es de alrededor de 59.5 mg, frente a los 118.9 mg de la marca A, indica

una tendencia mayor a mantener un valor de taurina más estable.

De hecho, en el diagrama de cajas y bigotes que se muestra a continuación, se

observa que la mediana de la marca A está más próxima a la de la base de datos

truncada que la de la marca B (y se ratifica también en los valores de la media).

Además se puede apreciar que el rango intercuartílico en la marca B es menor

que en A.

Page 22: Trabajo de Estadística y Probabilidades

La tabla siguiente muestra los valores obtenidos para el coeficiente de curtosis. En

ella se ve que todos los valores son negativos, es decir, las distribuciones son más

aplanadas que la de una normal. Sin embargo, se observa que para ésta variable,

Taurina, ambas marcas tienden a ser igual de “achatadas”, ya que tienen valores

de apuntalamiento muy cercanos.

Curtosis de la BD -1.122

Curtosis de la marca A (2) -1.247

Curtosis de la marca B (5) -1.275

14. Determine si la distribución del contenido de taurina de las bebidas se

aproxima a una curva simétrica.

Para este caso, los valores del coeficiente de asimetría en la Taurina son los

siguientes

Asimetría de la BD 0.412

Asimetría de la marca A (2) -0.036

Asimetría de la marca B (5) 0.058

Esto muestra que las distribuciones tienden a presentar cierta simetría cuando se

comparan con una curva normal. Solo la marca B presenta cierta asimetría por la

izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la

marca A) presentan asimetría por la derecha.

15. ¿Cuál es la probabilidad de que una bebida tenga menos de 68 mg de

cafeína?

Para calcular este valor, nos remitimos a la gráfica de frecuencias absolutas

relativas, donde la probabilidad equivale al área bajo su curva. Esto es lo mismo

que tomar la gráfica de frecuencias relativas acumuladas y ubicar el valor de 68

allí. Como valor tentativo aparece que es cercano a 0.5 (se encuentra casi en la

mitad del rango de la distribución). Como se está tomando la variable agrupada, el

cálculo se realizará tomando los valores medios de los intervalos, a fin de

aproximar el más cercano al valor pedido.

Para el intervalo 7, se tiene que éste se define por los límites (67.5, 68.8], lo que

da un valor medio de intervalo para la cantidad de cafeína de 68,15 (muy cercano

Page 23: Trabajo de Estadística y Probabilidades

al valor pedido). Basándonos en ello y usando el programa R se obtiene lo

siguiente.

De manera que tomando el séptimo intervalo, la probabilidad pedida es de 0.585,

o lo que es lo mismo, del 58,5%.

16. ¿Cuál es la probabilidad de que una bebida tenga menos de 70 mg de

cafeína dado que es de la primera marca seleccionada?

El procedimiento es similar al numeral anterior, sólo que ésta vez hay que

considerar solamente la marca A. Hay dos intervalos tentativos para tomar el valor

medio de intervalo (dado que se trabaja con valores agrupados). Éstos intervalos

son el 8 (68.8, 70.1] y el 9 (70.1, 71.4]. Sin embargo al comparar ambos, es más

conveniente tomar el intervalo 8 (la distancia al valor pedido con el punto medio

del intervalo 8 es más cercana, 69,5 frente a 70,75 del intervalo 9).

De nuevo, usando el programa R se obtiene que la probabilidad de que una

bebida tenga menos de 70mg de cafeína dado que es de la marca A, es de

0.50270, o lo que es lo mismo, del 50,27%.

17. Redacte las conclusiones que puede tomar a partir del análisis general

de las dos marcas de bebidas energizantes que ha estudiado. ¿Para

qué le puede servir esta información?

Realizando un análisis general de ambas marcas, la marca A (2) es mucho más

económica que la marca B (5), posiblemente debido a una menor cantidad de

taurina y poco control sobre la cafeína. En ambas muestras se presenta una cierta

simetría respecto a una curva normal, algo que es importante cuando se habla de

control de calidad de un producto (ya que se habla de que una variable sea

consecuente a un valor esperado para cierto producto).

Este tipo de información y de análisis ayuda a determinar aspectos importantes al

comparar productos por ejemplo. Si los valores son representativamente cercanos

Page 24: Trabajo de Estadística y Probabilidades

al valor esperado (medidas de dispersión), comparación de características

(medidas de tendencia central), y su respectiva observación gráfica, la cual

muestra información que se puede analizar de manera más simple y de fácil

abstracción.

Todo ello se enfoca en tomar la mayor información posible que describa una

muestra, la cual se espera sea representativa de una población. A partir de allí, es

posible tomar decisiones a partir de las características observadas, como por

ejemplo en éste caso, cual puede ser más dañina para la salud en términos de

cafeína, cual marca es más barata, que se puede esperar de los productos

ofrecidos en el mercado, entre otros aspectos.