Estadística Descriptiva - Indicadores Estadísticos...Moda Como sólo se dispone de la función de...

Post on 23-May-2020

10 views 0 download

Transcript of Estadística Descriptiva - Indicadores Estadísticos...Moda Como sólo se dispone de la función de...

Estadística DescriptivaIndicadores Estadísticos

Álvaro José Flórez

1Escuela de Ingeniería Industrial y EstadísticaFacultad de Ingenierías

Febrero - Junio 2012

Estadística Descriptiva

Hasta ahora se ha tratado de organizar la información, resumiéndolaa través de los cuadros de frecuencias y de la representación gráfica,no obstante en ocasiones se requiere de algunas medidas que enforma muy directa puedan indicar rasgos importantes de la muestra,como su magnitud, su homogeneidad, su simetría, etc. Al proceso deresumir los datos por medio de indicadores, se denomina reducciónde datos (Behar and Yepes, 1996).

• Tendencia central• Indicadores de posición• variabilidad• Simetría

Indicadores de tendencia central

La media aritmética (X) de un conjunto de datos: x1, x2, . . . , xn sedefine como:

X =

n∑i=1

xin

Si los datos corresponden a una variable discreta que está organizadaen una tabla de frecuencias, entonces:

X =

m∑i=1

nixin

=

m∑i=1

fixi

Media aritmética

En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:

xi ni fi Ni Fi

0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1

¿Cuál es la mediaaritmética?

Media aritmética

En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:

xi ni fi Ni Fi

0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1

X = 2,02

En promedio unafamilia presenta 2.02personas menores de12 años

Propiedades de la media aritmética

• La suma de las desviaciones de los datos con respecto a la media escero.

n∑i=1

(xi − X) = 0

• La suma de los cuadrados de las desviaciones de los datos conrespecto a un valor a es mínimo, cuando a es igual al promedio.

f(a) =

n∑i=1

(xi − a)2 tiene su mínimo en a = X

• Si todos los datos son iguales a k, entonces el promedio es k

Si xi = k, i = 1, . . . , n entonces X = k

Propiedades de la media aritmética

• Si todos los datos de una muestra se multiplican por unaconstante, el promedio de dicha muestra resulta multiplicandopor la misma constante

Si yi = axi, i = 1, . . . , n entonces Y = aX

• Si Zi = axi + byi, i = 1, . . . , n, donde a y b son constantes,entonces:

Z = aX + bY

Esta propiedad puede generalizarse a la combinación lineal dek variables y puede resumirse diciendo que la media es unoperador lineal

Propiedades de la media aritmética

• Si una muestra de n elementos, se divide en k muestrasexcluyentes y exhaustivas, que tienen n1, n2, . . . , nk

elementos, con promedios x1, x2, . . . , xk respectivamente,entonces el promedio global estará dado por:

X =n1x1 + n2x2 + . . . + nkxk

n=

k∑i=1

nixin

Media aritmética para datos agrupados

Debido a que hay perdida de individualidad de la información alagrupar datos, el calculo de la media se hace de forma aproximada.Para ello se hace el siguiente supuesto :

Los datos en cada intervalo están uniformemente distribuidos. Si estoes cierto, entonces:

Xi = (Li−1 + Li)/2

se puede considerar la muestra total, dividida en m submuestrasconstituidas por los datos que pertenecen a cada uno de los intervalos(propiedad 6)

Media aritmética

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

¿Cuál es el promediodel conjunto dedatos?

Media aritmética

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

En promedio loscilindros de pruebatuvieron unaresistencia de 254.36kg/cm2

Mediana

La mediana tiene el objetivo de dividir el conjunto de datos en dospartes iguales, el 50% de los datos son inferiores a la mediana y el50% superiores.

Si X[1], . . . , X[n] corresponde a un conjunto de datos ordenados demanera no descendente de una variable X, entonces la medianapuede ser calculada como:

Me =

{X[(n+1)/2] Si n es imparX[n/2]+X[(n+1)/2]

2 Si n es par

Mediana

Si los datos están agrupados en m intervalos, la mediana es el puntocuya frecuencia absoluta acumulada es n/2 o la relativa acumuladaes 0.5, es decir la mediana es el valor x tal que F (x) = 0,5.

Una vez localizado el intervalo que contiene la mediana y utilizando lafunción de distribución empírica se puede calcular la mediana como:

Me = Li−1 +0,5 − F (Li−1)

fCi

Mediana

Si los datos están agrupados en m intervalos, la mediana es el puntocuya frecuencia absoluta acumulada es n/2 o la relativa acumuladaes 0.5, es decir la mediana es el valor x tal que F (x) = 0,5.

Una vez localizado el intervalo que contiene la mediana y utilizando lafunción de distribución empírica se puede calcular la mediana como:

Me = Li−1 +0,5 − F (Li−1)

fCi

Mediana

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

¿Cuál es la medianadel conjunto dedatos?

Mediana

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

El 50% de loscilindros de probadostuvo una resistenciaigual o inferior a252.71kg/cm2

Moda

Cuando la variable de interés, es de naturaleza discreta, la moda Mocorresponde al dato de la muestra que tiene mayor frecuencia.

Cuando se trata de una variable de naturaleza continua, la modacorresponde al(os) valor(es) alrededor del(os) cual(es) se produceuna mayor concentración de datos, es decir a los puntos de mayordensidad de frecuencia.

A diferencia de los otros indicadores este es el único que puede sercalculado cuando observamos variables cualitativas.

Moda

En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:

xi ni fi Ni Fi

0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1

¿Cuál es la moda?

Moda

En una población del Cauca se tomó una muestra de 50 familias paraobservar el número de personas menores de 12 años con el propósito deestimar algunos indicadores sobre demanda potencial de educación escolar.Esta arrojó los siguientes resultados:

xi ni fi Ni Fi

0 9 0.18 9 0.181 11 0.22 20 0.42 12 0.24 32 0.643 10 0.2 42 0.844 4 0.08 46 0.925 4 0.08 50 1

Mo = 2

El número depersonas menores de12 por familia quemás frecuenciaobtuvo en la muestrafue 2

Moda

Como sólo se dispone de la función de densidad empírica que seconstruyó a partir de la muestra, se puede definir un procedimientoque permita acercarse a la determinación de los mencionadosmáximos.

Fig: Histograma de frecuenciasabsolutas para la resistencia de cilindrosde concreto

Resistencia

Den

sida

d

200 220 240 260 280 300 320 340

0.00

00.

002

0.00

40.

006

0.00

80.

010

0.01

2

• La moda se encuentra en el intervalode mayor frecuencia.

• Si las dos clases adyacentes, tienenigual densidad de frecuencia, se puedesuponer que Mo se encuentra en elpunto medio de la clase que lacontiene.En caso contrario, Mo estarádesplazada un poco hacia la claseadyacente de mayor densidad defrecuencia

Moda

Cuando se tiene datos agrupados para una variable continua, la modapuede ser calculada, primero ubicando el intervalo que tenga la mayorfrecuencia y luego aplicando la siguiente formula:

Mo = Li−1 +fi/Ci − fi−1/Ci−1

2(fi/Ci) − (fi−1/Ci−1) − fi+1/Ci+1Ci

Si los intervalos son de igual longitud:

Mo = Li−1 +fi − fi−1

2fi − fi−1 − fi+1C

Moda

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

¿Cuál es la moda delconjunto de datos?

Moda

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

El mayor número deresistencias de loscilindros se encuentraalrededor de251kg/cm2

Algunas consideraciones

La sensibilidad es una cualidad de un indicador que permite detectarcambios producidos en la muestra. Mucha sensibilidad en un indicadorpuede ser contraproducente, puesto que cambios irrelevantes (valoresextremos) en la muestra pueden producir grandes cambios en el indicador,lo cual puede prestarse para interpretaciones equivocadas.

Ejemplo:Suponga que se está interesado en los gastos de los estudiantes en launiversidad y se observó lo siguiente:

Gasto(xi) 1.700 3.000 5.000 6.500 70.000% de personas (fi) 0.1 0.15 0.4 0.3 0.05

¿Que indicador de centralidad representa mejor al conjunto dedatos?

Cuartiles de una distribución

Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada encuatro partes que contienen aproximadamente el mismo número dedatos. Es decir que el 20% de los datos son menores que Q1, el 50%de los datos son menores que Q2 (es igual a la mediana) y el 75%de los datos son menores que Q3.

Para calcular Q1 se identifica primero el intervalo donde se acumulamás del 25% y se aplica la siguiente formula:

Q1 = Li−1 +0,25 − F (Li−1)

fiCi

Q3 se calcula de la misma forma pero ubicándose donde se acumulamás del 75%.

Cuartiles de una distribución

Son tres valores Q1, Q2, Q3 que dividen la muestra ordenada encuatro partes que contienen aproximadamente el mismo número dedatos. Es decir que el 20% de los datos son menores que Q1, el 50%de los datos son menores que Q2 (es igual a la mediana) y el 75%de los datos son menores que Q3.

Para calcular Q1 se identifica primero el intervalo donde se acumulamás del 25% y se aplica la siguiente formula:

Q1 = Li−1 +0,25 − F (Li−1)

fiCi

Q3 se calcula de la misma forma pero ubicándose donde se acumulamás del 75%.

Cuartiles de la distribución

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

¿Cuales son loscuartiles del conjuntode datos?

Diagrama de cajas y alambresEste diagrama constituye una síntesis muy buena de la distribución defrecuencias y su sencillez la hace más útil, sobre todo en situacionesdonde se hace necesario comparar dos o más distribuciones.

Fig: Diagrama de cajas y alambres

158

227

251

272

341

Q3

Q2

Q1

Q1−1.5RIC

Q3+1.5RIC

Para su calculo se utilizan:Para la caja: Q1, Q2, Q3

Cerco superior Q3 + 1,5RIC, Cercoinferior Q1 − 1,5RICdonde: RIC = Q3 −Q1

Diagrama de cajas y alambresEste diagrama constituye una síntesis muy buena de la distribución defrecuencias y su sencillez la hace más útil, sobre todo en situacionesdonde se hace necesario comparar dos o más distribuciones.

Fig: Diagrama de cajas y alambres

158

227

251

272

341

Q3

Q2

Q1

Q1−1.5RIC

Q3+1.5RIC

Los alambres se gráfican con eldata más próximo al cercos sinsuperarlos

En caso de que algún dato seencuentra fuera de los cercos segrafican como puntos y seconsideran atípicos

Diagrama de cajas y alambres

Un diagrama de cajas y alambres es útil para los siguientes propósitos:

1 Para identificar la localización de los datos alrededor de lamediana.

2 Para hacerse una buena idea de la dispersión de los datos,basándose en la longitud de la caja. Además se aprecia elrango de los datos.

3 Permite observar el grado de asimetría de una distribución,comparando las proporciones de la caja que queda a los ladosde la mediana.

4 Útil para identificar posibles valores atípicos (fuera de loscercos)

EjemploPermite observar el grado de asimetría de una distribución,comparando las proporciones de la caja que queda a los lados dela mediana.

Fig: Diagrama de cajas y alambres

●● ●●●

●● ● ●● ●● ● ●●● ●● ●● ●●● ● ●● ● ●●

−2 0 2 4 6

x

EjemploPermite observar el grado de asimetría de una distribución,comparando las proporciones de la caja que queda a los lados dela mediana.

Fig: Diagrama de cajas y alambres de la concentración de CO por hora

●●● ●●●

●●●●●●●●● ●●●●

●●●●●

●●●●

●●●●

●●●●

●●

●●●

●●

●●●

●●●●●●●

●●

●●●

0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23

02

46

810

Hora

Con

cent

raci

ón d

e C

O (

ppm

)

Indicadores de dispersión

El nivel de representatividad de los indicadores de tendencia centraldependen del grado de homogeneidad o de dispersión de los datosobservados, lo que hace necesario algunos indicadores de dispersión.

Uno de estos indicadores puede ser el rango:

r = max(x1) − mın(xi)

El rango es sencillo de calcular y de muy fácil interpretación, perotiene la gran desventaja que es demasiado sensible a valores extremos

Indicadores de dispersión

El nivel de representatividad de los indicadores de tendencia centraldependen del grado de homogeneidad o de dispersión de los datosobservados, lo que hace necesario algunos indicadores de dispersión.

Uno de estos indicadores puede ser el rango:

r = max(x1) − mın(xi)

El rango es sencillo de calcular y de muy fácil interpretación, perotiene la gran desventaja que es demasiado sensible a valores extremos

Varianza

El indicador de dispersión más usado en estadística es la varianza y estádefinido como.

S2 =1

n

n∑i=1

(xi − x)2

Si los datos están agrupados en intervalos de clase:

S2 =1

n

n∑i=1

ni(xi − x)2 =

n∑i=1

fi(xi − x)2

Una desventaja de la varianza es que sus unidades no coinciden con lasunidades de la variable de estudio. Para remediar esta desventaja, se utilizasu raíz cuadrada (desviación estándar)

Varianza

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

¿Cuál es la desviaciónestándar de losdatos?

Varianza

Una compañía constructora resuelve estudiar la resistencia a la compresiónde una mezcla de concreto, con el objetivo de hacer control de calidad. Paraello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas.Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curadose encuentran a continuación:

Intervalo x′i ni fi Ni Fi

[191 - 215] 203 6 0.12 6 0.12(215 - 239] 227 11 0.22 17 0.34(239 - 263] 251 14 0.28 31 0.62(263 - 287] 275 11 0.22 42 0.84(287 - 311] 299 5 0.10 47 0.94(311 - 335] 323 3 0.06 50 1

En promedio lasresistencias de loscilindros de prueba seencuentran alejadasde la media32.55kg/cm2

Propiedades de la varianza

• La varianza también puede ser calculada como:S2 =

∑ni x2

in − (x)2

• La varianza es siempre no negativa.• La varianza de una constante siempre es igual cero: si xi = Centonces S2 = 0

• Si yi = kxi entonces S2y = k2S2

x

• Si yi = xi + C entonces S2y = S2

x

Coeficiente de variación

Por la estructura de la varianza se sabe que cuando aumenta ladispersión el valor de la varianza aumenta, al igual que la desviaciónestándar.

pero, qué se respondería a la pregunta:

¿Una desviación estándar de $100.000 me indica que hay poca omucha dispersión ?

Depende de las magnitudes de los datos.

Coeficiente de variación

El coeficiente de variación (CV) es un indicador de dispersión queinvolucra la magnitud (media aritmética) de los datos que se estudian

CV =S

x100 %

• Se usa para comparar la variabilidad relativa de unacaracterística, en poblaciones que tiene diferente media.

• No hay un valor definido que permita valorar el C.V. comogrande o pequeño (depende del problema)

Bibliografía

Behar, R. and Yepes, M. (1996). Estadística, un enfoque descriptivo.Oficina de publicaciones de la Facultad de Ingeniería de laUniversidad del Valle, Cali, Colombia, vol. 2 edition.