Estadistica General

download Estadistica General

of 43

description

Estadistica

Transcript of Estadistica General

1

131PAGE 145Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Captulo 3.

ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS.3.1. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION.

En el capitulo anterior estudiamos de que manera los datos podran ser presentados en forma compacta, comprensible mediante tablas y grficos. Sin embargo, con frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de la informacin. Cuando la variable en estudio es cuantitativa, podemos estar interesados en encontrar un solo valor, que pueda caracterizar ms ntidamente la naturaleza de los datos que se estn midiendo.

Un valor que refleje la tendencia de los datos puede darse mediante las medidas de tendencia central o de posicin. Estas medidas aplicadas a las caractersticas de las unidades en una muestra se les denomina estimadores o estadgrafos. En cambio aplicado a las caractersticas de los elementos de una poblacin se les conoce como parmetros o valores estadsticos de la poblacin.

Las medidas de tendencia central o de posicin ms importantes y muy usadas son: la media aritmtica o media, la mediana, la media geomtrica y la media armnica. Tambin podemos mencionar a la moda, los cuartiles, los percentiles, etc. Estas medidas o estadgrafos son considerados como medidas de localizacin, puesto que sealan la localizacin de los valores ms frecuentes o de valores extremos.

3.1.1. La media aritmtica.

La media aritmtica o simplemente media, es la medida de tendencia central ms utilizada, la ms conocida y sencilla de calcular, de gran estabilidad en el muestreo y sus frmulas admiten tratamientos algebraicos. a) Clculo de la media aritmtica para datos no agrupados.

Sea x1, x2,..., xn valores de la variable X. La media aritmtica simple de X representada por (lase X barra) es dado por:

donde n = es el tamao de la muestra.

(1)En la poblacin se utiliza la letra griega para representar la media, la cual se determina mediante la formula:

, N = es el tamao de la poblacin.

(2)

b) Clculo de la media aritmtica para datos agrupados.

Sean x1, x2,, xk valores de la variable X ponderada por sus respectivas frecuencias absolutas: n1, n2,, nk. La media aritmtica ponderada de la variable X es dado por:

, donde .(3)Ejemplo 3.1. Diez observaciones del tiempo de servicio efectivo en minutos de bateras usadas en una computadora personal porttil son las siguientes:

176 191 214 220 205 192 201 190 183 185

Calcular el tiempo medio de servicio de las bateras.

Solucin. En este caso n = 10, x1 = 176, x2 = 191, x3 = 214,., x9 = 183 y x10 = 185.La media o promedio del tiempo de servicio ser:

minutos por bateras.

Ejemplo 3.2. Considerando la informacin contenida en la tabla 2.8 (ver pagina 90), correspondiente a una muestra de 100 alumnos, en la cual se estudia la variable estatura. Se pide determinar la estatura media de alumnos. Tabla 2.8. Distribucin de frecuencias de 100 alumnos de la UNP, segn su estatura (en cm.).

YiniYini

150 - 155152.5 4 610.0

155 - 160157.5 5 787.5

160 - 165162.512 1950.0

165 - 170167.533 5527.5

170 - 175172.517 2932.5

175 - 180177.516 2840.0

180 - 185182.5 9 1642.5

185 - 190187.5 4 750.0

Total10017040.0

Luego la media aritmtica de estos datos ser:

centmetros.Ejemplo 3.3. Si los porcentajes de mujeres en 3 secciones diferentes escogidas de las escuelas profesionales de la facultad de ciencias, en el presente semestre son:Escuela profesionalN de alumnos% de Mujeres

Biologa

Estadstica

Matemticas

4025207050

40

Hallar el porcentaje global de mujeres en las tres secciones escogidas.

Solucin.

Aplicando la formula de promedio ponderado tenemos:

Luego, el porcentaje global de mujeres en las tres secciones es de 57%. Ventajas de la media aritmtica.La media aritmtica, como un solo nmero que representa todo un conjunto de datos, tiene ventajas importantes:

1. Es un concepto familiar a la mayora de las personas e intuitivamente claro.

2. Es una medida que puede ser calculada y es nica. Ya que cada conjunto de datos tiene una y slo una media.

3. En el clculo de la media, es tomada en cuenta cada observacin del conjunto de datos.

4. La media es una medida digna de confianza, por que se determina con mayor certeza que otras caractersticas de un conjunto de datos.

Desventajas de la media aritmtica.

Como cualquier medida estadstica, la media aritmtica tiene sus desventajas de las cuales se debe estar consciente.

1. La media aritmtica puede verse afectado por los valores extremos que no son representativos del resto de las observaciones. Por ello, cuando se sta utilizando esta medida en un anlisis, vale la pena advertir la representatividad de los valores extremos y la influencia que estos tiene sobre el resultado.

2. No se puede calcular la media aritmtica en las distribuciones que tienen intervalos de clase abierto en los extremos, es decir de extremos abiertos en la primera y en la ltima clase.

3.1.2. La Mediana.

La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual nmero de observaciones. La notacin que vamos a emplear ser:

Clculo de la mediana

a) Datos no agrupados.

Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendr en cuenta el siguiente procedimiento:

1) Se ordenan los datos en forma ascendente o descendente.2) Si n es impar, el valor de la mediana es el valor del centro, es decir,

(7)donde es la posicin que ocupa la mediana.

3) Si n es par, el valor de la mediana va a estar dado por:

(8)Esto quiere decir, que el valor de la mediana es igual al promedio aritmtico de los valores centrales cuya posicin son: n/2 y (n/2+1).

Ejemplo 3.4. Las siguientes cifras son los importes del consumo (en soles) de 13 personas en un restaurante: 13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.

Determinar la mediana de estos importes.

Solucin. Ordenando la informacin en forma ascendente, tenemos:

13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.Como el nmero de datos es impar (n = 13), se tiene que la posicin de la mediana es: , luego la mediana de los importes es: soles.Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe menor o igual que 30 soles y el 50% restante de las personas tienen un importe mayor que 30 soles.Ejemplo 3.5. El riesgo de manifestar deficiencia de hierro en algn momento es alto, en particular durante el embarazo. El problema con la deteccin de esta deficiencia, es que algunos mtodos para cuantificar el hierro se ven afectados por el estado de embarazo. Considere los siguientes datos en relacin con la concentracin del receptor de transferan para una muestra de mujeres con pruebas de laboratorio de anemia explcita por deficiencia de hierro (Serum Transferrin receptor for the Detection of Iron Deficiency in Pregnancy, Amer. J. of Clinical Nutrition, 1991: pg. 1077-1081):

15.2 9.3 7.6 11.9 10.4 9.7 20.4 9.4 11.5 16.2 9.4 8.3

Determine la mediana para este grupo de valores.

Solucin.

Ordenando los valores resulta:

7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4

En este caso, n =12 es par, por consiguiente la mediana se localiza entre los valores centrales X6 y X7 , es decir, entre los valores 9.7 y 10.4. Por tanto, el valor mediano es:

Estas frmulas y procedimientos son muy objetivas y de fcil aplicacin, pero no siempre se utilizan; generalmente se apela a una distribucin de frecuencias, cuando es grande la cantidad de datos disponibles.

b) Datos agrupados.Consideremos dos casos para datos agrupados en tablas sin intervalos y otros en tablas por intervalos.

Para tablas sin intervalos.

Caso 1. Cuando , (9)Caso 2. Cuando , (10)Para tablas con intervalos.

Consideremos una distribucin de datos agrupados en intervalos cuyo polgono de frecuencias acumuladas se puede visualizar en uno de los tipos de grficos, analizados en la primera parte del captulo:

(11)Donde:

= lmite inferior de la clase que contiene a la mediana.

n = tamao de la muestra.

c = amplitud de la clase que contiene a la mediana.

Nj = frecuencia acumulada de la clase que contiene a la mediana.

Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a la mediana.

En este caso el problema consiste en determinar un punto dentro del intervalo en que est comprendida la mediana.

Procedimiento:

1. Calcular la posicin de orden .

2. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la clase para el cual se cumple:

,

Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada Ni.

3. Utilizar la formula:

Ejemplo 3.6. Dada la siguiente distribucin, se pide determinar su valor mediano:X in iN i

0

1

2

3

42

3

6

5

4 2

5 N j -1 11 N j16

20

20

Solucin.

Como o sea 5 < 10

Se tiene que aplicar la siguiente formula:

Ejemplo 3.7. A partir de la distribucin de frecuencia de los 100 alumnos de la UNP, segn su estatura (ver tabla 2.8, captulo 2), se pide determinar el valor mediano de las estaturas.

Solucin.

YiniNi

150 - 155152.5 4 4

155 - 160157.5 5 9

160 - 165162.512 21

165 - 170167.533 54

170 - 175172.517 71

175 - 180177.516 87

180 - 185182.5 9 96

185 - 190187.5 4100

Total100

1. posicin

2. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto es, a travs de la desigualdad:

En este caso, la clase que contiene a la mediana es el cuarto.

3. Reemplazar los datos en la formula obtenemos:

Centmetros.

Interpretacin.- Este valor mediano significa, que el 50% de los alumnos tienen una estatura menor o igual que 169.4 cm., en tanto que el otro 50% tienen una estatura mayor que 169.4 cm.3.1.3. Los Cuartiles.

Son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en cuatro partes iguales (Figura 3.6). 0% 25% 50% 75% 100%

Q1 Q2 Q3

Figura 3.6Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a l y el 75% superiores a l.Q2 = 2do cuartil, coincide con la mediana.Q3 = 3er cuartil, deja 75% de las observaciones inferiores o iguales a l y el 25% de stas superiores a l.

Es importante notar que entre dos cuartiles consecutivos se halla el 25% del nmero de valores.

Determinacin de Q r (r=1, 2, 3)a) Para datos no agrupados o no tabulados. Sea x1, x2, , xn un conjunto de observaciones de una variable o caracterstica X. Entonces:

1. Se ordenan los datos en forma ascendente: x (1), x (2), , x (n) 2. Se localiza el punto de posicin del valor correspondiente a la r(n+1)/4 observacin ordenada.

i. Si es un entero, entonces

Qr = a la observacin particular correspondiente al punto de posicin de r(n+1)/4 = .

ii. Si no es un entero, hacemos una interpolacin lineal entre los datos correspondientes a las dos observaciones entre las cuales se encuentra la fraccin.

Ejemplo 3.8. Al examinar los registros de facturacin mensual de una empresa editora con ventas a crdito, el auditor toma una muestra de 11 de las facturas no pagadas. Las sumas que se adeudan a la compaa en miles de soles son: 4, 18, 11, 7,7, 10, 21, 5, 33, 9 y 12. Determine Q1 y Q3.Solucin.Clculo de Q11. Los datos ordenados en forma ascendente son: 4, 5, 7, 7, 9, 10, 11, 12, 18, 21, 332. Como n =11, es un entero, entonces, Q1 es la tercera observacin ordenada.

Interpretacin. Este valor de significa que el 25% de las facturas no pagadas tienen una deuda menor o igual a 7000 soles, en tanto que, las 75% de las facturas no pagadas restantes tiene una deuda mayor a 7000 soles.Clculo de Q3

Como n =11, , entonces, Q3 es la novena observacin ordenada, es decir,

b) Para datos agrupados o tabulados.

Las formulas para calcular los cuartiles se derivan de la formula utilizada para calcular la mediana y los pasos para el clculo son los mismos:

Procedimiento.

1. Se calcula , para r = 1, 2, 3.2. Se identifica la clase que contiene a Qr por medio de las frecuencias acumuladas, esto es, por la desigualdad:

3. Se aplica la frmula:

r = 1, 2, 3.

(13)Dnde: = lmite inferior de la clase que contiene al cuartil Qr.

n = tamao de la muestra.

c = amplitud de la clase que contiene a Qr.

Nj = frecuencia acumulada de la clase que contiene a Qr.

Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a Qr.

Ejemplo 3.9. Dada la siguiente distribucin, determinar los cuartiles Q1 y Q3.

Yini Ni

150 - 155152.5 4 4

155 - 160157.5 5 9

160 - 165162.512 21

165 - 170167.533 54

170 - 175172.517 71

175 - 180177.516 87

180 - 185182.5 9 96

185 - 190187.5 4100

Total100

Solucin.

1. ;

2. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.

Como , entonces el intervalo de clases que contiene a Q1 es (165 - 170].

Por otro lado, como , entonces el intervalo de clases que contiene a Q3 es (175 - 180].3. Usando las formulas dada para calcular Q1 y Q3 tenemos:

centmetros.

centmetros.De acuerdo a estos resultados, podemos afirmar que, en est distribucin tenemos:

25% 25% 25% 25%

150 Q1 = 165.61 Q2 = 169.40 Q3 = 176.25 1903.1.4. Deciles.

Los deciles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en 10 partes iguales (Fig. 3.7). 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

D1 D2 D3 D4 D5 D6 D7 D8 D9

Figura 3.7D1 = 1er decil, deja 10% de las observaciones menores o iguales a l.

D2 = 2do decil, deja 20% de las observaciones menores o iguales a l.

.

.

.

D9 = 9no decil, deja 90% de las observaciones inferiores o iguales a l y el 10% de stas superiores a l.

Para determinar los deciles se aplica la siguiente formula:

r = 1, 2,, 9 (14)Donde:

= lmite inferior de la clase que contiene a Dr , r = 1, 2, ..., 9.

n = tamao de la muestra.

c = amplitud de la clase que contiene a Dr.

Nj = frecuencia acumulada de la clase que contiene al r-simo decil, Dr.

Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Dr.

3.1.5. Percentiles.

Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales. 0% 1% 2% 50% 98% 99% 100%

P1 P2 P50 P98 P99

Figura 3.8P1 = 1er percentil, deja 1% de las observaciones menores o iguales a l y el 99% superiores a l.

.

..P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a l y el 1% superiores a l.

La formula para determinar los percentiles, son parecidos a los cuartiles y deciles, as:

r = 1, 2, ... , 99(15)Donde:

= lmite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.

n = tamao de la muestra.

c = amplitud de la clase que contiene a Pr.

Nj = frecuencia acumulada de la clase que contiene a Pr.

Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.

Ejercicio. Determinar el 4to decil y el 72vo percentil de la siguiente distribucin de frecuencias.

Yini Ni

150 - 155152.5 4 4

155 - 160157.5 5 9

160 - 165162.512 21

165 - 170167.533 54

170 - 175172.517 71

175 - 180177.516 87

180 - 185182.5 9 96

185 - 190187.5 4100

Total100

3.1.6. La Moda.La moda denotada por , es un valor de la variable X que tiene la ms alta frecuencia, esto es, es el valor ms se repite en un conjunto de datos. La moda puede no existe, incluso si existe puede no ser nica.

Ejemplo 3.9. En mes, 8 vendedores de artculos electrnicos vendieron los siguientes nmeros de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes como a la poblacin estadstica que interesa, el nmero modal de unidades vendidas es: .......

Ejemplo 3.10. Considere la distribucin de los pesos (en kilos) de 15 adultos: 63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.La moda de estas observaciones es:

kilos y kilos

En este caso la distribucin se llamar bimodal.Ejemplo 3.18. Las notas promocinales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11.

Estos datos No tienen moda. Las distribuciones de este tipo se llaman uniforme.

En general, se tiene lo siguiente:

i) La distribucin que tiene una sola moda se llama unimodal.

ii) La distribucin que tiene dos modas se llama bimodal.

iii) La distribucin que tiene ms de dos modas se llama multimodal.

3.1.6.1. Clculo de la Moda para datos agrupados.Cuando los datos estn tabulados: La clase que contiene mayor frecuencia ser la que contiene a la moda, y se llama clase modal.

a) Tablas sin intervalos. En este caso la moda se determina fijndose en el valor de la variable que ms se repite.Ejemplo 3.11. Determine la moda de la distribucin siguiente:

N de hijos por familia

Y iN de familias

n i

0

1

2

3

4

5

6 a ms60

120

210

360

160

50

30

Total990

Solucin.

1. La frecuencia absoluta mxima es n 4 = 360.2. Luego, la moda es el valor de la variable que corresponde a la frecuencia n 4 = 360, M 0 = 3 hijos.

b) Tablas con intervalos.

Para un conjunto de datos tabulados con intervalos de clases de igual amplitud (c i = c), la estimacin de la moda se calcula por la frmula obtenida grficamente como sigue:

si hacemos: ,

Por tanto, se tiene la siguiente expresin conocida como la frmula de Czuber:

(17)

Donde:

= lmite inferior de la clase modal.

= frecuencia absoluta de la clase modal.

= frecuencia absoluta de la clase inmediatamente anterior a la clase modal. = frecuencia absoluta de la clase inmediatamente posterior a la clase modal.

c = amplitud de la clase modal

Para datos agrupados en intervalos de clase, aplicaremos el siguiente procedimiento para el clculo de la moda.

1. Se identifica la clase modal (la clase con mayor frecuencia).2. Se aplica la formula para la moda.Ejemplo 3.12. Determinar la moda para la siguiente distribucin.

Y in i

150 - 155152.5 4

155 - 160157.5 5

160 - 165162.512

165 - 170167.533

170 - 175172.517

175 - 180177.516

180 - 185182.5 9

185 - 190187.5 4

Total100

Solucin. 1. El intervalo de clase de mayor frecuencia absoluta () es el cuarto intervalo:

c = 5.

2. Aplicando la formula tenemos:

centmetros.

Este valor modal significa que: la estatura ms frecuente en los alumnos es de 167.84 cm.; o tambin que la mayora de los alumnos tienen una estatura igual a 167.84 cm.Observacin. La moda tiene una caracterstica especial, pues es la nica medida de posicin que se puede utilizar sin restricciones a datos cualitativos.3.1.6.2. Ventajas de la Moda.1. La moda se puede usar como una localizacin tanto para datos cualitativos como cuantitativos.

2. La moda no est indebidamente afectada por valores extremos. An si los valores altos son muy altos y los valores pequeos muy pequeos, se escoge el valor ms frecuente del conjunto de datos como el valor modal.

3. La moda se puede calcular an cuando una ms de las clases sean abiertas en los extremos.

4. Es el valor tpico, y por ello el promedio ms descriptivo. Esto ocurre cuando la distribucin es asimtrica; y cuando el valor de la moda y del promedio es diferente, es preferible usar la moda.

3.1.6.3. Desventajas de la Moda.1. Muy a menudo, no hay un valor modal, por que el conjunto de datos no contiene valores que se repitan ms de una vez. Otras veces, cada valor es la moda, por que cada uno aparece el mismo nmero de veces. Claramente, la moda no es una medida til en estos casos.

2. Cuando el conjunto de observaciones contiene dos, tres o ms modas. stas son difciles de interpretar y comparar.

3. La moda no se presta a manipulaciones algebraicas posteriores.

3.1.7. Relacin entre la Media, Mediana y Moda.a) Distribuciones simtricas.

Se dice que una distribucin de frecuencia es simtrica cuando valores de la variable equidistantes de un valor central tienen las mismas frecuencias. Es importante destacar en este caso que:

n i

Figura 3.10b) Si la distribucin es moderadamente asimtrica y unimodal, se cumple aproximadamente la relacin:

Ejercicio. Considerando la distribucin de frecuencias sobre la estatura de los alumnos (ver tabla 2.8, pagina 90), se pide analizar la asimetra de la distribucin.

3.1.7. 1. Escogimiento entre la Media, la Mediana y la Moda.De las tres medidas de posicin central, la media aritmtica suele ser ms frecuentemente utilizada, quiz por la facilidad de su clculo a pesar de que muchas ocasiones la mediana o la moda resultan de mayor inters.

a) La media aritmtica como medida de resumen tiene la ventaja de tomar en cuenta la totalidad de los valores del conjunto de datos, aumentando o disminuyendo de acuerdo con ellos, pero a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por regla general, sin embrago, puede decirse que cuando la serie o conjunto de datos es ms o menos simtrica, el promedio debe ser preferido a cualquier otra medida de resumn.

b) La mediana por su parte debe ser utilizada cuando entre los valores que se estudian, hay alguno muy diferente de los otros. Adems hay ocasiones en que debe usarse la mediana por no ser el calculo del promedio. Tal caso sucede en aquellas distribuciones en las cuales la primera o la ltima clase no tienen lmites precisos.

c) La moda no es una medida de tendencia central muy usual, pero se emplea cuando el inters se centra en conocer el valor que se presenta ms frecuentemente. Por ejemplo en los negocios, sirve para determinar qu tamao del producto es el de mayor demanda. Similarmente para programar la produccin de un medicamento el fabricante estar interesado en cual es la dosis ms comnmente recetada por los mdicos?

3.1.8. La media Geomtrica. 3.1.8.1. Media geomtrica para datos no agrupados.La media geomtrica simple M g de n observaciones x 1, x 2,, x n positivas, esta dada por la raz ensima del producto de los n valores observados, es decir

(18)Ejemplo 3.20. Hallar la media geomtrica de los nmeros 3, 5, 8, 3, 5, 2.Solucin. En este caso la media geomtrica es:

En la prctica, el clculo de la media geomtrica se hace ms rpido tomando logaritmo y luego el antilogaritmo de ste como sigue:

Ahora basta calcular el antilogaritmo de la expresin anterior para tener:

(19)Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema de logaritmo.En cuanto a la denominacin media geomtrica proviene del hecho de que es el trmino central de una progresin geomtrica de un nmero impar de observaciones. Es decir, de una sucesin de nmeros positivos, tales que la relacin de cada una con el precedente es una constante. Por ejemplo, en las progresiones geomtricas:

1. 2 4 8

2. 2 6 18 54 162En la primera serie, el trmino central 4 es la media geomtrica.

En efecto: En la segunda progresin geomtrica, el trmino central 18 es la media geomtrica.

En efecto:

3.1.8.2. Media geomtrica para datos agrupados.Si los datos estn agrupados en clases, la media geomtrica ponderada, es la raz ensima del producto de las marcas de clases elevadas a sus respectivas frecuencias, es decir:

(20)Donde , y i = marca de clase, i = 1, 2,, k, k=nmero de clases.Aplicando logaritmo a ambos miembros de la expresin anterior se tiene:

Luego,

(21)Ejemplo 3.13. Hallar la media geomtrica de la siguiente distribucin de frecuencias:

Marca de clase9293949596

frecuencia41121104

Solucin. Las operaciones pueden verse en la siguiente tabla:y in ilog y in i log y i

9293

94

95

96411

21

10

41.96378781.9689829

1.9731278

1.9777236

1.98227127.855151321.653312

41.435684

19.777236

7.929084

Totales5098.650469

Luego,

3.1.8.3. Ventajas y desventajas de la Media Geomtrica.

Ventajas.1. Se utiliza cuando se quiere dar importancia a valores pequeos de la variable.

2. Su valor no es muy influenciable por los datos extremos, como sucede con los otros promedios.

3. Se debe utilizar cuando lo que se va a promediar son tasas de cambio o proporciones.

4. Es indispensable cuando se desea sacar el promedio de una serie de valores que estn dados en progresin geomtrica o aproximadamente geomtrica.

Desventajas.1. Su clculo es muy engorroso.2. Est limitado para valores positivos para que pueda ser interpretado.

3. Si algn valor de la variable es cero, la media geomtrica ser cero.

4. Si aparece algn valor negativo, el estadgrafo toma un valor negativo o imaginario y cuando el nmero de datos es par, tericamente tiene dos valores: uno positivo y otro negativo.3.1.9. La media Armnica. 3.1.9.1. Media Armnica de datos no agrupados. La media armnica Mh de n trminos no nulos x1, x2,, xn es el recproco de la media aritmtica de los recprocos de esos trminos. Es decir

(22)Ejemplo 3.14. La media armnica de los nmeros 3, 4, 6 y 8 es:

Observemos que la aritmtica y la media geomtrica con los mismos datos son respectivamente:

y

3.1.9.2. Media Armnica de datos agrupados. La media armnica para datos tabulados (media armnica ponderada) se define por:

(23)donde k = nmero de clases, yi = marca de clase, ni = frecuencia de clase con i=1, 2,, kEjemplo 3.14. Con los datos de la siguiente tabla de frecuencias, correspondiente a una distribucin continua, calcular la media armnica.yi-1 yin iy in i /y i

2.0 - 6.0 6.0 - 10.0

10.0 - 14.0

14.0 - 18.0

18.0 - 22.037

12

16

20 4 8

12

16

200.7500.875

1.000

1.0001.000

58-4.625

3.1.9.3. Ventajas y desventajas de la Media Armnica.Ventajas.

1. Se usa preferentemente para calcular la velocidad media.2. De gran utilidad cuando la variable est dada en forma de tasa, costo medio de bienes comprados con una cantidad fija. Desventajas1. La media armnica se basa en todas las observaciones por lo que est afectado por los valores extremos. 2. La media armnica no esta definido, si alguno de los valores es cero.

3.2. Medidas de dispersin.

Todos los valores representativos discutidos en las secciones precedentes han sido una especie de promedio o medida de posicin. Sin embargo, el uso de un solo valor para describir una distribucin oculta muchos fenmenos importantes. Por ejemplo, dos grupos separados de datos pueden contener la misma media, pero un grupo puede estar ms disperso o esparcido alrededor del valor promedio que el otro.

Por lo que es necesario una medida de la dispersin, esparcimiento o variacin para ayudar ms completamente la distribucin. Mientras menor es la dispersin, ms tpico es el valor de la media para toda la distribucin.Las medidas de dispersin que se utilizan con mayor frecuencia son: la varianza, la desviacin estndar y el coeficiente de variacin.

A fin de obtener una primera impresin, rpida aunque no muy precisa, de la dispersin que existe en una masa de datos (o en una tabla estadstica en estudio), se emplean dos tipos de recorridos. El ms sencillo, es el que hemos definido en acpites anteriores como recorrido de la variable o rango, el recorrido intercuartil, recorrido interdecil, etc.

3.2.1. El recorrido de la variable. El recorrido R de la variable, es la diferencia entre los dos valores extremos. Es decir:

(24)Si el recorrido de la variable es mayor en un conjunto de observaciones que en otro, debe esperarse, en principio que la dispersin de datos sea superior tambin en uno que en el otro, como puede verse en los ejemplos (a) y (b).a. 9, 10, 11, 12, 13, 14, 15

b. 6, 8, 10, 12, 14, 16, 18

Sin embargo, en ciertas ocasiones el recorrido ofrece una medida errnea de la dispersin, debido a que slo se emplean para calcularlo los valores extremos. Por tanto, ignora la naturaleza de la variacin entre todas las dems observaciones y est altamente influenciado por los valores extremos. As en los ejemplos siguientes:

1. 2, 2, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 14

2. 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14

en ambos casos el recorrido es R = 14 2 = 12 , y sin embargo, la dispersin de los datos en la segunda serie es significativamente mayor. Este inconveniente se subsana, al menos en parte, utilizando el recorrido intercuartilico.3.2.2. El recorrido intercuartilico. Se define como la diferencia entre el tercer y primer cuartil (o tambin la diferencia entre los percentiles 75 avo y 25 avo ). Es decir

O (25)El diagrama siguiente muestra esquemticamente el recorrido intercuartil.Recorrido intercuartilico

X(1) de elementos de elementos X(n)

observacin 1er. Cuartil 2do. Cuartil 3er. Cuartil observacin menor mayor Q1 = P25 Q2 = P50 Q3 = P75

Figura 3.13Esta medida de dispersin es, evidentemente, ms exacta que el simple recorrido de la variable, ya que evita el inconveniente de valores extremos anormales, tomando aquellos dos valores que dejan entre s el 50% de los valores (los ms centrales) de la variable. As, para los dos ejemplos, tenemos:

n =13, y . Entonces

para el ejemplo 1, es

Q1= X(3) + (X(4) X(3)) (0.5) = 7 + (7 7)(0.5) = 7Q3= X(10) + (X(11) X(10)) (0.5) = 9 + (9 9)(0.5) = 9para el ejemplo 2, es

Q1= X(3) + (X(4) X(3)) (0.5) = 4 + (5 - 4)(0.5) = 4.5

Q3= X(10) + (X(11) X(10)) (0.5) = 11 + (12 11)(0.5) = 11.5

Es decir:

1. 2, 2, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 14

2. 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14

Q1 Q3 Por lo tanto, aunque el recorrido de la variable es igual en ambos casos, el recorrido intercuartilico toma los valores:

marcando claramente la mayor dispersin que existe en el segundo caso.

3.2.4. Desviacin Media Absoluta.Definicin. Sea x1, x2,, xn una muestra de tamao n. La desviacin media absoluta o simplemente desviacin media DM es la media aritmtica de los valores absolutos de las desviaciones de los valores observados respecto de la media aritmtica de stas. Es decir:

, si los datos no estn tabulados (27)

, si los datos estn tabulados. (28)donde :

k = nmero de clasesni = frecuencia absoluta de la clase i,

yi = marca de clase o punto medio de la clase i.

La desviacin media se puede utilizar como medida de dispersin en todas aquellas distribuciones en las que la medida de tendencia central ms significativa haya sido la media. Pero, para las mismas distribuciones es mucho ms significativa la desviacin estndar, que se ver despus.Ejemplo 3.15. Los pesos respectivos de ocho nios (en kilogramos) son:

15, 12, 10, 18, 14, 22, 17, 20

Determine la desviacin media absoluta.Solucin. La tabla siguiente muestra el procedimiento a seguir para calcular la desviacin media absoluta.

Observacin

x iDesviacin

Desviacin absoluta

10

12

14

15

17

18

20

22-6

-4

-2

-1

1

2

4

66

4

2

1

1

2

4

6

12826

kg.

kg.

3.2.5. Desviacin Mediana Absoluta.Definicin. La desviacin mediana DMe es el promedio de los valores absolutos de las diferencias entre cada observacin y la mediana de stas. Es decir:

, si los datos no estn tabulados (29)

, si los datos estn (30)Ejemplo 3.16. Hallar la desviacin mediana de los pesos de los nios del ejemplo 3.30.

Solucin.

En primer se determina la mediana de los datos:

Las observaciones escritas en forma ascendente son:

10, 12, 14, 15, 17, 18, 20, 22

n = 8, es par, entonces la mediana es la semisuma de los valores centrales

El derecho del procedimiento restante para el clculo de la desviacin mediana, se resume en la tabla adjunta.

Observacin

x iDesviacin

Desviacin absoluta

10

12

14

15

17

18

20

22-6

-4

-2

-1

1

2

4

66

4

2

1

1

2

4

6

12826

kg

3.2.6. La varianza. Esta medida al igual que la desviacin estndar son las utilizadas en el estudio de la dispersin. La varianza mide la dispersin de los datos con respecto a la media aritmtica. Daremos primero la definicin de varianza poblacional.

Definicin 1. Varianza Poblacional. La varianza o variancia de una poblacin finita de N elementos x1, x2,, xN, se define como la media aritmtica del cuadrado de las desviaciones de los elementos con respecto a su media , y se denota por . Es decir:

(31)Definicin 2. Varianza de una muestra. La varianza o variancia de una muestra x1, x2,..., xn de la variable o caracterstica X (que abreviadamente escribiremos V(X) ), se define como la media aritmtica del cuadrado de las desviaciones con respecto de la media aritmtica de esos datos. Si se denota S2 a la varianza de la caracterstica x, entonces

para datos no tabulados (32)

para datos tabulados o agrupados (33)Donde : n i = frecuencia absoluta de la clase i.

y i = marca de clase o punto medio de la clase i.

Si conocemos el valor de la media aritmtica poblacional , la mejor estimacin de la varianza poblacional a partir de una muestra sera:

Sin embargo, rara vez, si es que ello es posible, conocemos el valor de , de modo que en el numerador de la expresin anterior se sustituye por su estimado . Ahora bien , vara de muestra a muestra y rara vez es exactamente igual a .

Por otro lado sabemos por la propiedad 3.6 que es mnimo, es decir es menor que la suma de cuadrados de las desviaciones de las observaciones respecto de cualquier otro valor diferente de .

Por tanto, si no es exactamente igual a , < .

Si dividimos ambos miembros de la desigualdad por n tendramos:

Esto significa que dar una estimacin demasiado pequeo de . De ah resulta que la correccin apropiada puede ser hecho mediante la utilizacin en el denominador de n - 1 en vez de n. Es decir, se tendra:

La diferencia entre y es grande para muestras pequeas, y es mnima para muestras grandes, prcticamente son iguales. Entonces, para muestras grandes n 60, puede usarse cualquiera de las frmulas. Para muestras pequeas se usa , lo cual es llamada varianza muestral o tambin varianza corregida, y se acostumbra denotarla por o simplemente S2 si no hay confusin. Es decir, la varianza muestral estar definida por

para datos no tabulados (34)

para datos tabulados (35)Note que .Entonces para datos tabulados

El factor se conoce como la correccin de Bessel.

Nota. En inferencia estadstica se ver otras razones por el cual se usa n - 1 en vez de n en la definicin de la varianza muestral.

Ejemplo 3.17. Las frecuencias cardiacas de 5 nios son: 130, 132, 127, 129, 132 pulsaciones por minuto.

Determinar la varianza de la frecuencia cardiaca de la muestra.Solucin. Primero debemos determinar la media muestral , en efecto tenemos,

pulsaciones por minuto.

Por tanto:

Se puede observar que es claramente menor que S2, debido a que la muestra es pequea.Ejemplo 3.18. El siguiente cuadro muestra la distribucin de acuerdo a su estatura en centmetros de 100 estudiantes de la UNP.

Estatura

Y iNmero de alumnos, n i

150 - 155152.5 4

155 - 160157.5 5

160 - 165162.512

165 - 170167.533

170 - 175172.517

175 - 180177.516

180 - 185182.5 9

185 - 190187.5 4

Total100

Hallar la varianza de la muestra.Solucin. En el siguiente cuadro se resume el procedimiento para el clculo de la varianza.Estatura

Y iNmero de alumnos, n i

150 - 155152.5 4320.411281.64

155 - 160157.5 5166.41 832.05

160 - 165162.512 62.41 748.92

165 - 170167.533 8.41 277.53

170 - 175172.517 4.41 74.97

175 - 180177.516 50.41 806.56

180 - 185182.5 9146.411317.69

185 - 190187.5 4292.411169.64

Total100 1055.286509.00

Se sabe que: centmetros.Luego,

centmetros al cuadrado.

centmetros al cuadrado.Note la diferencia entre las varianzas calculadas usando y S2.3.2.6.1. Formulas de trabajo para el clculo de la varianza.Otra forma de expresar las frmulas de la definicin de la varianza que facilite los clculos de sta se desarrolla a continuacin:1. Desarrollemos la suma de los cuadrados de las desviaciones:

2. Sustituyendo este resultado en la definicin de la varianza, denotado por:

(36)3. Y sustituyendo, en la definicin de S2 se tiene:

(37)

Las formulas (36) y (37) para datos tabulados se escribe:

(38)

(39)Ejemplo 3.19. Usando las formulas de trabajo, determinar la varianza para las frecuencias cardiacas de los 5 nios del ejemplo 3.31.

Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las (36) y (37).

x i

127

129

130

132

13216129

16641

19900

17424

17424

65084518

Clculo de : primero se halla

Luego, aplicamos la frmula:

Clculo de : primero calculamos

Luego, se aplica la frmula:

Ejemplo 3.35. Usando las formulas de trabajo, determinar la varianza de la distribucin de acuerdo a su estatura de 100 estudiantes de la UNP (ver ejemplo 3.33).Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las (38) y (39).

y in i

150 - 155152.5 4 610.023256.2593025.0

155 - 160157.5 5 787.524806.25124031.25

160 - 165162.5121950.026406.25 316875.0

165 - 170167.533

170 - 175172.517

175 - 180177.516

180 - 185182.5 9

185 - 190187.5 4

Total10017040.0232250.0 2910124.9

Luego,

y

3.2.7. La Desviacin Estndar o Desviacin Tpica.

Si bien ya sabemos como expresar cuantitativamente la dispersin de un conjunto de observaciones, ocurre un inconveniente en cuanto a la interpretacin de esta cantidad, ya que ella est dada en el cuadrado de la dimensin en que se expresa la caracterstica, y en ocasiones trae confusin. Es conveniente, entonces contar con otro estadgrafo que basado en el valor de la varianza, sirva para dar una medida de la dispersin en la misma dimensin e que estan los datos. Esta medida es la desviacin estndar o desviacin tpica.Definicin. La desviacin estndar o desviacin tpica de las observaciones x1, x2,..., xn de la variable X, se define como la raz cuadrada positiva de la varianza, y se denota por S. Es decir

(44) El valor numrico de S cuantifica el grado de dispersin de los valores de una variable con respecto a su media. Mientras mayor es la dispersin de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por ende, ms alto el valor numrico de la desviacin estndar.

Ejemplo 3.20. Se determino los pesos de una muestra de cartas procesadas en una oficina postal, pesadas hasta el gramo ms prximo, son: 21, 18, 30, 12, 14, 17, 28, 10, 16 y 25.

Determine la desviacin estndar.

Solucin.

Aplicando formula de trabajo para el clculo de la varianza, tenemos:

y

Luego:

Por tanto, la desviacin estndar ser la raz cuadrada del valor obtenido en la varianza, es decir: gramos.

Ejemplo 3.21. Con relacin al ejemplo 3.33, referida a la informacin de la distribucin de 100 alumnos de la UNP, de acuerdo a su estatura en centmetros. Se pide determinar la desviacin tpica de la distribucin.

Solucin.

Se sabe que la varianza toma el valor de 65.746 centmetros al cuadrado.

Por tanto la desviacin estndar es: S = 8.1085 centmetros.Si la dispersin absoluta es la desviacin estndar S, la dispersin relativa recibe el nombre de coeficiente de variacin. Es decir.

Coeficiente de variacin = (51)El coeficiente de variacin, significa, por tanto, el nmero de veces (o tanto por uno, ya que habitualmente el cociente ser inferior a la unidad) que supone la desviacin estndar respecto a la media.

Generalmente el coeficiente de variacin se expresa en porcentaje. El C.V es un nmero puro independiente de la unidad de medicin.

Observacin.-

Si el C.V es menor del 10% se dice que hay poca dispersin;

Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;

Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;

Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.

Ejemplo 3.45. Calcular la dispersin relativa para los datos de la ejemplo 3.33.

Solucin. Se sabe que: centmetros y S = 8.1085 centmetros, entonces el C.V es:

Como el valor de C.V = 4.76% es menor que el 10% y 33%, indica que existe poca dispersin (baja dispersin).

Ejemplo 3.46. Para 2 acciones comunes de empresas de la industria electrnica, el precio promedio de cierre en el mercado de valores durante un mes fue, para la accin A, de $1500, con una desviacin estndar de $500. Para la accin B, el precio promedio fue de $5000, con una desviacin estndar de $300.

a) Efectuar Hacer una comparacin de la variabilidad absoluta de las acciones.

b) Realizar una comparacin de la variabilidad con respecto al nivel medio de los precios.

Solucin.

a) Al hacer una comparacin absoluta, result ser superior la variabilidad en el precio de la accin A debido a que muestra una mayor desviacin estndar. b) Con respecto a la variabilidad relativa, deben compararse los respectivos coeficientes de variacin:

y

Por ello, puede concluirse que el precio de la accin A ha sido casi 5 veces ms variable que el precio de la accin B (con respecto al precio promedio para cada una de las dos).

Ejemplo 3.22. Las notas del curso A tuvieron una media aritmtica de 75 puntos y una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una varianza de 196. Si en ambos cursos las notas se aumentaron en 10%, cul de los dos cursos tienen un coeficiente de variacin mayor despus de arreglar las notas?

Solucin. Sea xA la variable que representa las notas del curso A. Por tanto, las notas aumentadas en 10% sern:

Entonces,

y

Luego, (20%)

Similarmente, sea xB la variable que representa las notas del curso B. Entonces, las notas aumentadas en 10% sern:

Luego. (20%)

Las notas de ambos cursos tienen igual coeficiente de variacin.

3.3.1. Medidas de Asimetra.

Las medidas de asimetra indican la deformacin horizontal de las distribuciones de frecuencias. Una distribucin es simtrica, como sabemos, cuando su curva (o polgono) de frecuencias es simtrica respecto al eje vertical.

En el caso de polgonos de frecuencias unimodales simtricas, como sabemos, la media aritmtica, la mediana y moda coinciden (ver fig.3.15).

Cuando la curva de frecuencias est inclinada o alargada hacia derecha o hacia valores grandes de la variable (ver fig. 3.16), se dir que la distribucin de frecuencia unimodal presenta asimetra positiva o a la derecha, y si esta alargada o inclinada hacia el lado izquierdo o hacia valores pequeos de la variable (ver fig. 3.17), se dir que la distribucin de frecuencia unimodal presenta asimetra negativa o a la izquierda. n i n i

Figura 3.15. Distribucin simtrica Figura 3.16. Asimtrica positiva

n i

Figura 3.17. Asimtrica negativa3.3.1.1. Diagrama de caja.La representacin del histograma proporciona impresiones visuales generales acerca de un conjunto de datos, en tanto que las cantidades numricas tales como o S proporcionan informacin acerca de una caracterstica particular de los datos. El diagrama de caja es una representacin que describe simultneamente varias caractersticas importantes de un conjunto de datos, como el centro, la dispersin, desviacin de la asimetra y la identificacin de observaciones que caen inusualmente lejos del grueso de los datos (a estas observaciones se les llama puntos atpicos).

El diagrama de caja resulta bastante til cuando el tamao de la muestra no es muy grande y los histogramas no muestran bien su forma.

El bigote se extiende desde el primer El bigote se extiende desde el tercer

cuartil hasta el punto del dato menor cuartil hasta el punto del dato mayordentro de 1.5 rangos intercuartlicos. dentro de 1.5 rangos intercuartlicos L I L S Primer cuartil Segundo cuartil Tercer cuartil

Puntos atpicos Puntos atpicos Punto atpico extremoFigura 3.18. Descripcin de un diagrama de caja.En este tipo de grfica se representan los tres cuartiles y los datos mnimo y mximo en una caja rectangular alineada en sentido horizontal o vertical. La caja abarca el recorrido intercuartilico, con el borde izquierdo (o el inferior) en el primer cuartil, Q1, y el borde derecho (o el superior) en el tercer cuartil, Q3. Se traza una lnea a travs de la caja en el segundo cuartil (que es el precentil 50 o la mediana), Q2 = . Una lnea, o bigote, se extiende desde cada extremo de la caja. El bigote bajo o izquierdo es una lnea que va del primer cuartil al punto correspondiente al menor de los datos dentro de 1.5 rangos intercuartlicos a partir del primer cuartil. El bigote superior o derecho es una lnea que va del tercer cuartil al punto correspondiente al mayor de los datos dentro de 1.5 rangos intercuartlicos a partir del tercer cuartil. Los datos que se encuentran alejados de la caja ms all de los bigotes se grafican como puntos individuales. A un punto situado despus de un bigote, pero a menos de 3 rangos intercuartlicos del borde de la caja, se le llama punto atpico. A un punto situado a ms de 3 rangos o a menos de 3 rangos intercuartlicos del borde de la caja, se le llama punto atpico extremo (vease la figura 3.18). Ocasionalmente se usan smbolos diferentes, tales como crculos vacos o rellenos, para identificar las dos clases de puntos atpicos. En ocasiones los diagramas de cajas reciben el nombre de diagramas de cajas y bigotes.

En la figura 3.18 se muestra el diagrama de caja e indica que la distribucin no es simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y derecho como las longitudes de las cajas izquierda y derecha alrededor de la mediana son desiguales. Es decir que la distribucin tiene una asimetra positiva. Hay tambin dos puntos ligeramente atpicos en cada extremo de los datos.

Construccin de un diagrama de caja.

1. Se ordenan los datos de la muestra, identificando el valor mnimo y el mximo. Luego obtener Recorrido = x mx. x min. y los tres cuartiles Q 1, Q 2 y Q 3.

2. Se dibuja un rectngulo cuyos extremos son Q 1 y Q 3, e indicar la posicin de la mediana (Q 2) mediante un segmento de recta vertical. As, dentro de la caja queda representado el 50% central de la informacin contenida en los datos.

3. Se calculan los lmites admisibles superior e inferior que sirven para identificar los valores atpicos, como sigue:

Recorrido intercuartlico = RI = Q3 Q1Longitud del bigote bajo o izquierdo = LI = Q1 1.5 RI = Q1 1.5 (Q3 Q1)

Longitud del bigote superior o derecho = LS = Q3 1.5 RIQ = Q3 + 1.5 (Q3 Q1)

4. Dibujar un segmento de lnea recta que vaya desde cada extremo del rectngulo central hasta los lmites admisibles LI y LS.

5. Identificar todos los datos que estn fuera del intervalo [LI ; LS], marcndolos como atpicos.

L I L S Valores atpicos Valores atpicos

1.5 (Q3 - Q1) 1.5 (Q3 - Q1)

RI 1.5 RI

x mn. Q 1 Me = Q 2 Q 3 x mx. Con este diagrama se puede visualizar la simetra o asimetra de la distribucin.

As mirando la caja:

Si la lnea trazada en la mediana est en el centro de la caja, la distribucin de los datos tiende a ser simtrica.

Si la lnea de la mediana se acerca al lmite inferior de la caja, hay indicios de asimetra positiva o a la derecha.

Si la lnea de la mediana se acerca al lmite superior de la caja, es una indicacin de asimetra negativa o a la izquierda.

Mirando las lneas, su longitud relativa puede usarse tambin como indicacin de asimetra. As:

Si la lnea que se extiende desde el lmite superior de la caja al mximo valor de la variable es ms larga, los datos presentan asimetra a la derecha.

Si es ms larga la lnea que va desde el lmite inferior de la caja hasta el mnimo valor de la variable, hay indicios de asimetra a la izquierda.

Ejemplo 3.23. Cada da de la primera quincena de enero atracan en un puerto pesquero el siguiente nmero de lanchas pesqueras:95 89 77 87 81 89 92 103 87 82 80 100 79 74 83Dibuje un diagrama de caja para estudiar la forma de la distribucin de los datos.Solucin. Primero se ordenan los datos de menor a mayor.

74 77 79 80 81 82 83 87 87 89 89 92 95 100 103donde Xmn.= X(1) = 74 y Xmx.= X(15) = 103El recorrido de la variable es Re = 103 74 = 29El cuartil inferior Q1 es el valor que ocupa el lugar

As,

El segundo cuartil Q2 es el valor que ocupa el lugar , con lo que

El cuartil superior Q3 es el valor que ocupa el lugar , entonces Los lmites admisibles son:LI = Q1 1.5 (Q3 Q1) = 80 1.5 (92 80) = 80 18 = 62LS = Q3 + 1.5 (Q3 Q1) = 92 + 1.5 (92 80) = 92 + 18 = 110El diagrama de caja es:

L I= 62 L S = 110

x mn. Q 1 Q 2 Q 3 x mx

. 74 80 87 92 103Se puede concluir al observar el diagrama de caja, que hay indicios de asimetra negativa para este conjunto de datos.Ejemplo 3.24. Para la informacin contenida en el ejemplo 3.33, referente a los 100 alumnos de la UNP, segn su estatura, se pide construir el Diagrama de caja y bigotes. Interprete el tipo de asimetra de la distribucin.

Solucin. Se tiene la siguiente informacin estadstica: ymn. = 150, ymx = 190, , ,

Los lmites admisibles son:

LI = Q1 1.5 (Q3 Q1) = 165.61 1.5 (176.25 165.61) = 149.65LS = Q3 + 1.5 (Q3 Q1) = 176.25 + 1.5 (176.25 165.61) = 192.21El diagrama de caja es:

L I= 149.65 LS = 192.21

x mn. Q 1 Q 2 Q 3 x mx

150 165.61 169.4 176.25 190Se puede observar en el diagrama de caja, de que hay indicacin de una asimetra positiva o a la derecha.3.3.1.2. Coeficientes de AsimetraCoeficiente de Pearson.Teniendo en cuenta que la media aritmtica y la moda coinciden en una distribucin simtrica, Pearson propuso un coeficiente relativo de asimetra para curvas de frecuencias unimodales:

(59)Si , la distribucin es simtrica.

Si , la distribucin tiene asimetra positiva o sesgada hacia la derecha.Si , la distribucin tiene asimetra negativa o sesgada hacia la izquierda.Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones unimodales.

Sin embargo, es conocido que la moda de una distribucin no es fcil de calcular y para muchas distribuciones solo es una aproximacin. Entonces, podemos expresar el numerador de la expresin anterior en funcin de la mediana. Considerando la relacin emprica entre la media, la mediana y moda (ver 3.7.1) para distribuciones de frecuencias unimodales y moderadamente asimtricas.

El coeficiente de asimetra anterior propuesto por Pearson se expresa como:

(60)

Los coeficientes de asimetra anteriores se llaman, respectivamente primero y segundo coeficientes de Pearson.

Coeficiente de Asimetra en funcin de los momentos.

Veamos cmo se puede obtener otro coeficiente de asimetra que prescinda de la moda y mediana.

El tercer momento respecto a la media es:

, para datos no tabulados. r = 1, 2, 3,...

, para datos no tabulados.

La unidad de medida de M3, no es la misma que la unidad de las observaciones, es decir, tiene dimensin 3 respecto a la magnitud del fenmeno. Por ello para tener un coeficiente de asimetra, no slo adimensional (puro), sino tambin invariante, dividimos, M3 por el cubo de la desviacin tpica (S3 >0), resultando el llamado coeficiente de asimetra de Fisher:

, para datos no agrupados. (61)

, para datos agrupados. (62) Pero

Luego, el coeficiente de asimetra en funcin de los momentos se escribe:

(63)La interpretacin de este coeficiente es semejante a los otros.

3.3.1.3. ndice de Asimetra.

Una medida clsica de la asimetra esta basado sobre el tercer momento con respecto a la media, . Este momento es dividido por , donde es la desviacin estndar. Este cociente resultante

(66)es usado comnmente como un ndice de asimetra poblacional. Valores negativo grande de nos indican que existe asimetra negativa, mientras que valores positivos relativamente grande sugieren asimetra positiva.

ndice de asimetra muestral.Para distribuciones muestrales el ndice de asimetra es estimado usando los momentos muestrales y . El estimador del ndice , es el ndice muestral de asimetra:

(67)donde es la desviacin estndar muestral.

Valores negativos de g indicaran una asimetra hacia la izquierda, mientras que valores positivos de g indicaran una asimetra hacia a la derecha. Para muestras grandes (n>30), el ndice muestral g se distribuye como una normal con media 0 y varianza aproximada de 6/n.Ejemplo 3.25. Para nuestro ilustrativo sobre la estatura de los 100 alumnos de la UNP, se pide analizar la asimetra de la distribucin.

Solucin. Estatura

Y in i

150 - 155152.5 4320.411281.64-22941.356410650.27

155 - 160157.5 5166.41 832.05-10733.445138461.44

160 - 165162.512 62.41 748.92 -5916.46846740.097

165 - 170167.533 8.41 277.53 -804.8372334.0273

170 - 175172.517 4.41 74.97 157.437 330.6177

175 - 180177.516 50.41 806.56 5726.57640658.689

180 - 185182.5 9146.411317.69 15944.049192922.99

185 - 190187.5 4292.411169.64 20000.844342014.43

Total100 1055.286509.00 1433.2671137519.50

A partir de la tabla de distribucin anterior se obtiene la siguiente informacin:

, , , S = 8.1085 y

Consideremos a manera de ilustracin, el clculo de los coeficientes de asimetra de Pearson y el coeficiente de asimetra en funcin de los momentos.

Coeficientes de Pearson

1er Coeficiente de Pearson:

> 02er Coeficiente de Pearson:

> 0.El coeficiente en funcin de los momentos

> 0Como vemos, todos los coeficientes indican una distribucin de la estatura ligeramente sesgada a la derecha (asimetra positiva). El ms fiable de todos es el coeficiente de asimetra en funcin de los momentos.

Ejercicio. Para la tabla de distribucin de frecuencias siguiente, se pide calcular e interpretar:Intervalon i

60 66

66 72

72 78

78 84

84 90

90 964

6

7

11

8

4

a) Los coeficientes de asimetra de Pearson.b) El coeficiente de asimetra por la formula de los momentos.

c) Los coeficientes por el mtodo de los cuantiles.

3.3.2. Medidas de Curtosis o Apuntamiento.Definicin. Se entiende por kurtosis el grado de deformacin vertical de una distribucin de frecuencias, es decir la medida de apuntamiento o achatamiento de una distribucin.

ni

Leptocrtica

Mesocrtica

Platicrtica

x

Figura 3.19La idea de apuntamiento de una distribucin surgi de la comparacin de la frecuencia de los valores centrales de una distribucin con la frecuencia de dichos valores en la distribucin normal que le corresponde. Entonces, el apuntamiento de distribucin de frecuencias indica la mayor o menor altura del mximo central, con respecto a la altura de la curva normal con media y desviacin estndar igual que la distribucin que se estudia. Con relacin al grado de apuntamiento (ver figura 3.19), podemos tener curvas Leptocrtica, Mesocrtica y Platicrtica.3.3.2.1. Forma de medir la curtosis.

El grado de curtosis o apuntamiento puede medirse en funcin de momentos o de cuantiles.Curtosis en funcin de Momentos.El grado de curtosis o apuntamiento est dado por:

(68)

donde: M4 = cuarto momento respecto a la media. S = desviacin estndarComo se observa K1 es positivo (K1 > 0) y se define de sta forma porque en una distribucin normal, este coeficiente toma el valor 3, es decir se tiene que:

y al tomarla como referencia, K1 se interpreta como sigue:

Si K1 > 3, la distribucin de frecuencias es ms apuntada que la curva normal y recibe el nombre de Leptocrtica.Si K1 = 3, la distribucin es moderadamente apuntada, con igual apuntamiento que la curva normal o campana de Gauss y se llama Mesocrtica.Si K1 < 3, la distribucin es menos apuntada que la curva normal o sea achatada y recibe el nombre de Platicrtica.Curtosis en funcin de cuantiles.Otro coeficiente de apuntamiento, usado con menos frecuencias y vlido slo para distribuciones campaniforme y moderadamente asimtricas, es el coeficiente de curtosis de Kelley est dado por:

(69)Este coeficiente es llamado tambin coeficiente de apuntamiento percentlico.

Si K2 > 0.263, indica que la distribucin de frecuencia es Platicrtica (el recorrido semiintercuartlico es mayor que el de la normal y, por tanto, es ms aplanada que sta).

Si K2 < 0.263, expresa que la distribucin de frecuencia es Leptocrtica. Si K2 = 0.263, la distribucin de frecuencias es Mesocrtica.

El valor de 0.263, resulta de calcular K2 para la distribucin normal.De los dos coeficientes de curtosis, el ms fiable es el dado en funcin de los momentos (expresin, 68), puesto que incluye en l no slo los datos en cuanto al orden, sino el valor de cada uno de los datos.

Nota 2. Al igual que el caso de los coeficientes de asimetra de una distribucin, los que representan a curtosis o apuntamiento se utiliza para ayudar a describir las caractersticas de una distribucin y no precisamente como medidas, ya que a veces el valor de la curtosis se contradice con la realidad por estar relacionado con la distribucin normal.

3.3.2.2. ndice de Curtosis.El momento central de cuarto orden constituye una medida de la curtosis de las distribuciones, pues acenta las desviaciones a la media de los valores situados a la derecha y a la izquierda de ella. Suele dividirse dicho momento por la cuarta potencia de la desviacin estndar para conseguir una medida adimensional, esto es, independiente de las unidades de medida de las observaciones.

La curtosis de la curva de frecuencias de una distribucin campaniforme y simtrica, o con moderada asimetra, se mide respecto a la normal de igual media y varianza. Puesto que el apuntamiento de la normal, medido por cociente , tiene valor de 3, este ndice mide la curtosis respecto a una distribucin normal. Por tanto, en este tipo de distribuciones, una medida de la curtosis viene dada por el siguiente ndice de curtosis poblacional:

(70)

Llamado ndice de curtosis de Fisher. Este ndice mide el apuntamiento o exceso en la parte central de la distribucin de frecuencia.

Cuando > 0, la distribucin la distribucin es referida como Leptocrtica; si < 0, es Platicrtica, y si = 0, es Mesocrtica. ndice de curtosis muestral.

Para distribuciones muestrales el ndice de curtosis es estimado por:

(71)Bajo la suposicin de normalidad para el estadstico muestral d, para muestras grandes (n >30) tiene una distribucin normal con media cero y varianza 24/n.

Si d > 0 , la distribucin es referida como Leptocrtica.

Si d < 0 , la distribucin es llamada Platicrtica.

Si d = 0 , la distribucin es llamada Mesocrtica (normal).

Ejemplo. 3.52. Para el ejemplo 3.51, sobre la estatura de los 100 alumnos de la UNP, se pide calcular el coeficiente de curtosis por momentos y percentlico.

Solucin. Se tiene la siguiente informacin estadstica:Q1 = 165.61 , Q3 = 176.25 , P10 = 160.417 , P90 = 181.67 , S = 8.1085

1. Coeficiente de curtosis en funcin de los momentos:

< 3.Este coeficiente nos indica que la distribucin es un poco menos apuntada que la distribucin normal, es decir que tiene una deformacin vertical ligeramente Platicrtica.2. Coeficiente de curtosis percentlico.

< 0.263Comparando con el valor 0.263 de la normal, ndica que la distribucin de frecuencias es ligeramente Leptocrtica.

Esta discrepancia con el valor encontrado para K1 (coeficiente en funcin de los momentos) pone de manifiesto la reserva con que hay que aplicar este coeficiente en las distribuciones asimtricas.

PAGE

_1263673807.unknown

_1264425483.unknown

_1264447778.unknown

_1264788255.unknown

_1264873423.unknown

_1264971020.unknown

_1265433467.unknown

_1460266061.unknown

_1462805653.unknown

_1442145003.unknown

_1265058401.unknown

_1264971752.unknown

_1264972540.unknown

_1264971101.unknown

_1264884846.unknown

_1264966925.unknown

_1264970029.unknown

_1264970312.unknown

_1264968375.unknown

_1264885972.unknown

_1264886303.unknown

_1264876655.unknown

_1264877333.unknown

_1264879265.unknown

_1264876694.unknown

_1264873561.unknown

_1264793882.unknown

_1264872402.unknown

_1264872893.unknown

_1264873263.unknown

_1264872431.unknown

_1264872502.unknown

_1264795510.unknown

_1264871432.unknown

_1264871618.unknown

_1264871814.unknown

_1264795696.unknown

_1264795772.unknown

_1264795873.unknown

_1264795539.unknown

_1264794494.unknown

_1264794693.unknown

_1264794166.unknown

_1264791569.unknown

_1264792316.unknown

_1264793819.unknown

_1264792312.unknown

_1264791551.unknown

_1264791563.unknown

_1264791441.unknown

_1264784105.unknown

_1264784454.unknown

_1264788234.unknown

_1264788242.unknown

_1264786407.unknown

_1264784277.unknown

_1264784408.unknown

_1264784157.unknown

_1264746722.unknown

_1264746736.unknown

_1264775342.unknown

_1264746729.unknown

_1264746689.unknown

_1264746706.unknown

_1264746714.unknown

_1264746697.unknown

_1264697995.unknown

_1264698332.unknown

_1264746681.unknown

_1264674104.unknown

_1264441395.unknown

_1264441772.unknown

_1264442789.unknown

_1264444290.unknown

_1264447438.unknown

_1264442726.unknown

_1264442727.unknown

_1264441926.unknown

_1264441673.unknown

_1264441738.unknown

_1264441564.unknown

_1264433301.unknown

_1264441218.unknown

_1264441342.unknown

_1264441124.unknown

_1264432603.unknown

_1264433011.unknown

_1264433095.unknown

_1264432605.unknown

_1264429346.unknown

_1264358835.unknown

_1264363245.unknown

_1264364084.unknown

_1264365910.unknown

_1264366670.unknown

_1264364947.unknown

_1264364981.unknown

_1264365041.unknown

_1264364479.unknown

_1264363663.unknown

_1264363773.unknown

_1264363951.unknown

_1264363690.unknown

_1264363478.unknown

_1264363595.unknown

_1264363280.unknown

_1264360989.unknown

_1264362219.unknown

_1264362883.unknown

_1264363074.unknown

_1264362778.unknown

_1264361732.unknown

_1264362015.unknown

_1264361518.unknown

_1264361702.unknown

_1264360247.unknown

_1264360258.unknown

_1264359741.unknown

_1264359934.unknown

_1264359597.unknown

_1264269054.unknown

_1264357798.unknown

_1264358573.unknown

_1264358587.unknown

_1264358594.unknown

_1264357830.unknown

_1264270458.unknown

_1264356584.unknown

_1264357772.unknown

_1264357787.unknown

_1264356539.unknown

_1264270442.unknown

_1264265967.unknown

_1264267766.unknown

_1264269024.unknown

_1264267729.unknown

_1263675255.unknown

_1263675283.unknown

_1263674407.unknown

_1263674752.unknown

_1261925365.unknown

_1262488854.unknown

_1262541107.unknown

_1262541165.unknown

_1262542447.unknown

_1263673420.unknown

_1262541196.unknown

_1262541130.unknown

_1262541155.unknown

_1262541122.unknown

_1262531666.unknown

_1262533831.unknown

_1262539889.unknown

_1262540572.unknown

_1262541101.unknown

_1262540041.unknown

_1262538699.unknown

_1262533527.unknown

_1262488959.unknown

_1262489031.unknown

_1262488906.unknown

_1262483824.unknown

_1262485711.unknown

_1262486050.unknown

_1262488831.unknown

_1262486041.unknown

_1262485623.unknown

_1262485699.unknown

_1262484004.unknown

_1261926538.unknown

_1262018078.unknown

_1262022833.unknown

_1262022886.unknown

_1262255674.unknown

_1262022853.unknown

_1262018148.unknown

_1262016821.unknown

_1262016988.unknown

_1261926758.unknown

_1261946504.unknown

_1261926559.unknown

_1261925552.unknown

_1261926409.unknown

_1261925399.unknown

_1261657687.unknown

_1261803180.unknown

_1261924875.unknown

_1261925131.unknown

_1261925245.unknown

_1261924894.unknown

_1261859948.unknown

_1261860031.unknown

_1261859909.unknown

_1261802817.unknown

_1261803130.unknown

_1261803157.unknown

_1261803026.unknown

_1261801101.unknown

_1261802766.unknown

_1261657694.unknown

_994589073.unknown

_1259605319.unknown

_1261653305.unknown

_1261657659.unknown

_1261657668.unknown

_1261656010.unknown

_1259605971.unknown

_1259608398.unknown

_1259605412.unknown

_1106060211.unknown

_1111949870.unknown

_1243622928.unknown

_1256904390.unknown

_1243621003.unknown

_1106317122.unknown

_994594465.unknown

_994601785.unknown

_1106060200.unknown

_994598899.unknown

_994420412.unknown

_994483367.unknown

_994518838.unknown

_994519079.unknown

_994588688.unknown

_994518916.unknown

_994490131.unknown

_994424567.unknown

_994424848.unknown

_994483270.unknown

_994427903.unknown

_994424777.unknown

_994424222.unknown

_994320424.unknown

_994356323.unknown

_994359864.unknown

_994352998.unknown

_994318823.unknown

_994318915.unknown

_994317945.unknown

_981131988.unknown