Estadistica Descriptiva

26
1 Breve repaso de Estad´ ıstica Descriptiva P rof esor : Ren´ e Iral Palomino Oficina : 43 - 320 Correo : riral @unal.edu.co ¿Por qu´ e estudiar Estad´ ıstica? El estudio de la Estad´ ıstica permite, entre otras cosas Aprender las reglas y m´ etodos usados en el tratamiento de informaci´ on Evaluar y cuantificar la importancia de los resultados es- tad´ ısticos obtenidos Entender mejor algunos fen´omenos de inter´ es (Sociales, Econ´ omi- cos, Biol´ogicos, Educacionales, etc.) Dar una visi´ on m´ as clara acerca de la informaci´ on prove- niente de diversas fuentes. Algunos aspectos estad´ ısticos manejados en la informaci´ on ob- tenida de la radio, la televisi´on u otro medio, influencian fuerte- mente a gran cantidad de personas pero a veces no proporcionan una descripci´on cabal de lo que pretenden mostrar.

description

Analisis de datos estadisticos mediante la descripcion que brinda los datos.

Transcript of Estadistica Descriptiva

1

Breve repaso de EstadısticaDescriptiva

Profesor : Rene Iral Palomino

Oficina : 43− 320

Correo : [email protected]

¿Por que estudiar Estadıstica?

El estudio de la Estadıstica permite, entre otras cosas

Aprender las reglas y metodos usados en el tratamiento deinformacion

Evaluar y cuantificar la importancia de los resultados es-tadısticos obtenidos

Entender mejor algunos fenomenos de interes (Sociales, Economi-cos, Biologicos, Educacionales, etc.)

Dar una vision mas clara acerca de la informacion prove-niente de diversas fuentes.

Algunos aspectos estadısticos manejados en la informacion ob-tenida de la radio, la television u otro medio, influencian fuerte-mente a gran cantidad de personas pero a veces no proporcionanuna descripcion cabal de lo que pretenden mostrar.

2

Como una de las tareas de la Estadıstica es el estudio de fenome-nos aleatorios, esto hace muy pertinente el tratar de explicar lamanera como se comportan (Variabilidad).

Entre otras cosas la Estadıstica se ocupa del manejo de la infor-macion que pueda ser cuantificada. Implica esto la descripcionde conjuntos de datos y la inferencia a partir de la informacionrecolectada de un fenomeno de interes. La funcion principal dela estadıstica abarca:

Resumir Simplificar Comparar Relacionar Proyectar.

Entre las tareas que debe enfrentar un estudio estadıstico estan:

Delimitar con precision la poblacion de referencia o el con-junto de datos en estudio, las unidades que deben ser ob-servadas, las caracterısticas o variables que seran medidasu observadas.

Estrategias de Observacion: Censo, Muestreo, Diseno deExperimental.

Recoleccion y Registro de la informacion.

Depuracion de la informacion.

Produccion de resumenes estadısticos (graficos y/o numeri-cos).

Interpretacion de los resultados.

Algunos topicos fundamentales de la Estadıstica se presentanbrevemente, los cuales se usan frecuentemente en investigacion.Durante el transcurso del curso se estudiaran algunos de ellos.

3

Diseno de experimentos. Esta relacionado con la etapa deobtencion de informacion. Permite la determinacion del ti-po de datos a incluir en el estudio, la cantidad de datos.La determinacion de cuantas unidades se deben incluir enel estudio es crucial ya que con esto se ahorra tiempo ydinero.

Estadıstica descriptiva. Permite obtener un resumen de lainformacion contenida en los datos por medio de funcio-nes especıcas llamadas estadısticos muestrales las cuales sir-ven para obtener valores numericos que representan carac-terısticas sobresalientes que pudieran estar presentes. Tam-bien permite la construccion de graficos que permiten miraren conjunto la totalidad de los datos y detectar comporta-mientos interesantes de ellos.

Inferencia estadıstica. Permite evaluar la informacion demanera que se puedan obtener conclusiones generales delfenomeno bajo estudio.

Estadıstica no parametrica. Permite realizar pruebas es-tadısticas e implementar modelos donde no es posible asu-mir algunos supuestos previos.

Elementos de regresion. Sirven para explorar la posible re-lacion entre variables de respuesta y variables explicativas.

Niveles de medicion y tipos de variables

Los siguientes ejemplos serviran para introducir algunas definio-nes importantes.

4

Un investigador esta interesado en determinar el caudalpromedio de un rıo; para esto decide medir y registar talcaudal durante 30 dıas.

Un investigador esta interesado en determinar la propor-cion de personas que estan a favor de una cierta ley deimpuestos; para esto decide elaborar un cuestionario, se-lecciona adecuadamente una muestra al azar y registra larespuesta de los individuos que puede ser SI, NO, No sabeNo responde (NS/NR), las cuales pueden ser codificadasası: SI=1, NO=2, NS/NR=3.

Un ingeniero esta interesado en determinar el numero pro-medio de artıculos defectuosos de una linea de produccion;para esto decide contar y registrar diariamente y durante30 dıas el numero de defectuosos.

Los tres experimentos expuestos tiene en comun tres carac-terısticas:

1. Cada uno de ellos generan datos.

2. Cada uno de ellos tiene un factor de incertidumbre, pues enel momento de realizar cualquiera de ellos el investigadorno sabe que resultado va a obtener.

3. Cada uno de ellos tiene un factor de variabilidad ya que enrepeticiones sucesivas del experimento se pueden presentarresultados diferentes.

De los tres experimentos se puede observar que el primero deellos (el de la medicion de caudales) genera datos que son pro-ducto de mediciones. El segundo de ellos (el de la ley de impues-tos) genera datos que representan categorıas de respuesta y el

5

tercero (el de la lınea de produccion) genera datos que son pro-ducto de conteos. Con lo anterior, podemos ahora dar algunasdeficiones.

Variable. Es una caracterıstica que varıa de un objeto o indi-viduo a otro (por ejemplo la estatura, la dureza o el tiempo deduracion de un componente) o en el mismo individuo (por ejem-plo, la presion sanguinea). En estadıstica, los tipos mas comunesde variables son Continuas, Discretas y Categoricas.

Variables continuas. Son aquellas que provienen de pro-cesos que involucran mediciones. Por ejemplo las estaturasde los estudiantes de primer ano en una universidad.

Variables discretas. Son aquellas que provienen de pro-cesos que involucran conteos. Por ejemplo el numero devehıculos que llegan a un semaforo en un intervalo de tiem-po.

Variables categoricas. Son aquellas que provienen de pro-cesos que involucran clasifiaciones. Por ejemplo la variablesexo o estrato socioeconomico.

Observe que la variable que se genera en un experimento demedicion de presion sanguinea es de naturaleza diferente a la declasificar personas por su sexo. La primera se registra en milıme-tros de mercurio y ademas valores grandes dan la idea de mayorpresion sangunıea mientra que la segunda se mide por mediode valores que representan la pertenencia a una categorıa, porejemplo 1=Masculino, 2=femenino, pero el 2 no indica una ca-tegorıa mayor a la que representa el 1.

6

La diferencia en la informacion obtenida permite identificar cua-tro niveles basicos de medicion que son:

1. Nominal. Este nivel se utiliza cuando los valores en losque se mide la variable son codigos que representan la per-tenencia a una categorıa. Por ejemplo, en un estudio de unacierta enfermedad, el 1 puede representar su presencia y el0 su ausencia. Otro ejemplo puede ser estado civil, 1=Ca-sado, 2=Soltero, 3=Union libre. Observe que no se puededecir que 3 ¿2. Las variables de tipo nominal no admitenmedidas basicas de resumen.

2. Ordinal. Se usa cuando los valores de una variable infor-man acerca de un orden o jerarquıa. Por ejemplo, se puedenusar los valores 1, 2 y 3 para representar distintas quema-duras, es decir, 1=leve, 2=severa, 3=muy severa. Con estetipo de variables ya tiene sentido establecer una relacion deorden y afirmar que 3 > 2 > 1.

3. Intervalo. Se usa para mediciones de naturaleza cuanti-tativa que se hacen con escalas que tienen como base unvalor de cero arbitrario. Por ejemplo un registro de 0 ± Cno indica la ausencia de temperatura.

4. Razon. Se usa para mediciones de naturaleza cuantitativaque se hacen con escalas que tienen como base un valorde cero absoluto. Por ejemplo, longitud del brazo, estatura,tiempo de duracion, numero de artıculos defectuosos en unalinea de produccion, presion sanguınea.

7

Conceptos basicos

Un aspecto importante en Estadıstica esta relacionado con amanera como la informacion es presentada y analizada. De esteanalisis previo pueden desprenderse diferentes formas de abor-dar la solucion a determinada pregunta de investigacion. Unaprimera parte consiste en realizar un adecuado resumen de lainformacion disponible y presentarla en terminos de algunas me-didas puntuales o de graficos.

Aspectos principales a tener en cuenta en la descripcionde un conjunto de datos

a) Resumen y descripcion de diferentes patrones en los datospor medio de:

• Presentacion de tablas y graficos.

• Examinar de todas las formas posibles los graficos enbusca de caracterısticas de interes.

• Buscar en los datos graficados observaciones inusuales,que se alejan del grueso de observaciones graficadas.

b) Calculo de medidas numericas.

• Valores tıpicos o representativos que den idea de cen-tralidad o localizacion.

• La variabilidad presente en los datos.

8

Descripcion de Datos por tablas o graficos

Distribuciones de frecuencia

Cuando se tiene un numero considerable de datos, una manerade representarlos es a traves de un agrupamiento en clases. Silos datos son de tipo discreto o categorico, las clases estaran de-terminadas por las escalas de medicion de la variable de interes.Sinembargo, si el numero de valores que asume la variable es muygrande, es necesario agrupar dichos valores en clases. En el casode variables continuas, es imperativo realizar un agrupamien-to de los datos, considerando observaciones cercanas, en claseso intervalos. El resultado de este agrupamiento es resumido enuna tabla, que usualmente se denomina Tabla de Frecuencias.El procedimiento a seguir para este proceso es como sigue:

a) Encuentre el mınimo y maximo de los valores registrados.

b) Escoja un numero de subintervalos o clases de igual longi-tud, de manera que cubran el rango de los datos, sin tras-laparsen (aunque es posible construir clases o intervalos delongitudes variables). Estos intervalos son llamados Inter-valos de Clase.

c) Cuente cuantas observaciones estan en cada subintervalo.Este conteo es llamado Frecuencia de Clase.

d) Calcule, para cada clase, la frecuencia relativa. Esta se cal-cula como:

FR =Frecuencia de clase

Numero total de observaciones.

9

La eleccion del numero de clases o intervalos, constituye un pro-ceso de ensayo y error. Algunas propuestas empıricas se hanplanteado, buscando una seleccion mas o menos adecuada delnumero de clases. No se puede establecer que una es superior aotra, solo pueden utilizarse como puntos de referencia.

Sturges (1926), establece que el numero de clases es K pue-de obtenerse como K = 1+3.33 log10(n), siendo n el numerode datos. Esta propuesta subestima el numero de intervalos.

Velleman (1976), K = 2√n, recomendada cuando n es pe-

queno (n ≤ 50)

Dixon y Kronmal (1965), K = 10log10(n), para n grande(n > 50).

En general, se sugiere que entre 5 y 25 clases es un numero ade-cuado para agrupar los datos. Sinembargo, debe tenerse especialcuidado en esta seleccion. Es importante anotar que al agruparlos datos en clases, se sacrifica la informacion relacionada concomo se distribuyen los datos en cada clase, y se reemplaza porla frecuencia en dicha clase. Si se tienen pocas clases, la perdidade informacion es muy grande. Si se tienen pocos datos y mu-chas clases, no se evidenciara ningun tipo de comportamientode interes en los datos.

Cuando se tiene un numero considerable de datos, es importanteestablecer algun tipo de tecnica para identificar datos en cadaclase (una puede ser organizando los datos de menor a mayor).Los avances computacionales han permitido obviar este aspecto.

10

EjemploSe tiene informacion de un grupo de estudiantes de un cursode primer semestre, donde se registraron, para cada sujeto, laEstatura(en cms), Masa(en Kg), Edad (en anos), Estrato socio-economico, Horas dedicadas semanalmente a estudiar (sin incluirhoras de clase), Gasto semanal(en pesos), Genero (HOMBRE oMUJER), Tipo de colegio del cual se graduo. Los datos se mues-tran a continuacion:

ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE ESTATURA MASA EDAD ESTRATO HORAS GASTO GENERO TIP_COLE

148 65 24 1 20 20000 MUJER PUBLICO 169 62 17 2 5 8000 HOMBRE PUBLICO

154 49 22 3 40 25000 MUJER PUBLICO 170 53 26 3 12 30000 MUJER PUBLICO

157 63 18 4 15 24000 HOMBRE PRIVADO 170 58 18 2 20 50000 HOMBRE PUBLICO

158 57 18 4 30 50000 MUJER PRIVADO 170 69 24 4 32 70000 HOMBRE PUBLICO

158 67 17 3 10 17000 MUJER PRIVADO 170 86 28 1 20 10000 HOMBRE PUBLICO

159 51 20 2 15 10000 MUJER PUBLICO 171 95 25 3 30 20000 HOMBRE PUBLICO

160 53 17 3 20 70000 MUJER PRIVADO 172 56 17 2 28 70000 HOMBRE PUBLICO

160 50 18 1 16 10000 MUJER PUBLICO 172 65 20 2 12 40000 HOMBRE PUBLICO

160 54 18 3 10 40000 MUJER PRIVADO 172 58 17 4 20 25000 HOMBRE PRIVADO

161 54 21 2 8 36000 MUJER PUBLICO 172 63 19 2 18 25000 HOMBRE PUBLICO

162 56 21 2 38 50000 MUJER PUBLICO 172 90 24 3 16 50000 HOMBRE PUBLICO

162 67 18 2 21 40000 MUJER PUBLICO 173 66 21 3 14 25000 HOMBRE PRIVADO

162 48 21 3 19 50000 HOMBRE PRIVADO 174 81 27 3 8 40000 HOMBRE PRIVADO

162 44 21 2 7 50000 MUJER PUBLICO 175 82 19 4 10 70000 HOMBRE PUBLICO

163 55 17 2 25 48000 HOMBRE PUBLICO 177 58 18 4 24 12500 HOMBRE PUBLICO

164 55 20 2 25 40000 HOMBRE PUBLICO 178 95 19 4 15 50000 HOMBRE PRIVADO

164 54 17 3 15 20000 MUJER PUBLICO 180 79 19 2 8 50000 HOMBRE PRIVADO

164 54 17 2 18 54000 HOMBRE PUBLICO 180 85 22 3 48 60000 HOMBRE PUBLICO

165 56 19 3 10 75000 MUJER PUBLICO 181 71 18 4 16 23000 HOMBRE PRIVADO

165 52 17 2 12 30000 MUJER PUBLICO 181 64 17 3 20 40000 HOMBRE PUBLICO

165 58 33 2 20 40000 HOMBRE PRIVADO 182 70 20 3 14 40000 HOMBRE PRIVADO

166 52 17 3 20 50000 MUJER PRIVADO 182 86 22 3 15 30000 HOMBRE PRIVADO

168 64 17 3 40 20000 HOMBRE PRIVADO

Para la variable Sexo. Se elabora una tabla de frecuencias, indicando el nume-ro de hombres y mujeres y el porcentaje que representa cada categorıa.

GENERO Frecuencia Porcentaje

_______________________________

HOMBRE 28 62.22

MUJER 17 37.78

Para la variable Edad. Observe que esta variable aparece en una escala derazon, pero con valores enteros. Sin agrupar la informacion se tienen lossiguientes graficos en SAS y R:

11

Fig. 1: Diagrama de Barras para Edad

Otra manera de visualizar estos datos es agrupando en clases o intervalosdisjuntos. Se porponen varias formas de agrupar los valores de esta variable.1. Se agrupa la informacion por rangos (7 clases).

Edad Frecuencia F. Relativa17 4 0.267

18-20 5 0.37821-23 5 0.17824-26 4 0.11127-29 3 0.04430-32 1 0.00033 1 0.022

Fig. 2: Diagrama de Barras para Edad

12

2. Se agrupa la informacion por rangos con una regla especıfica.

Para la variable estatura. Usando la regla de Sturges se obtiene

K = 1 + 3.33 log10(n) = 1 + 3.33 ∗ log10(45) = 6.505 ≈ 7 .

Ası, se consideran 7 clases o intervalos. La mınima Edad es de 17 anos y lamaxima es de 33. El rango de las estaturas es R = 16. Si se asumen intervaloso clases de igual longitud, la amplitud para cada intervalo estara dada por:

A =Rango

K=

16

7= 2.286 .

Para efectos de manejar un valor mas simple como amplitud esta es redon-deada a 2.4. Con esto se tiene que el rango a sido ampliado en 0.8 anos.(NRango :7 ×2.4 = 16.8). La pregunta es como repartir este excedente. Lamayorıa de usuarios propone que se haga de manera equitativa, es decir,restar al mınimo la misma cantidad que se le suma al maximo. La figura 3ilustra lo que se propone.

Fig. 3: Rango Ampliado para Edad

Los intervalos de clase que se conforman son:

(16.6, 19], (19, 21.4], (21.4, 23.8], (23.8, 26.2], (26.2, 28.6], (28.6, 31], (31, 33.4] .

La respectiva tabla de frecuencias esta dada por:

Edad Frecuencia F. Relativa Marca(16.6, 19] 20 0.444 17.8(19, 21.4] 14 0.311 20.2(21.4, 23.8] 3 0.067 22.6(23.8, 26.2] 5 0.111 25(26.2, 28.6] 2 0.044 27.4(28.6, 31] 0 0.000 29.8(31, 33.4] 1 0.022 32.2

13

El grafico resultante se conoce como Histograma de Frecuencias. Este seilustra en la figura 4. Los valores en medio de cada barra son los puntosmedios de cada intervalo de clase o Marcas de Clase.

Fig. 4: Histograma para Edad

Cuando solo se desea tener una idea grafica del comportamiento de una va-riable, a veces no es tan necesario intervenir tanto en la construccion de unhistograma. La mayorıa de software estadıstico, tienen reglas muy similarespara la eleccion del numero de clases o intervalos. Usando el paquete R semuestra un diagrama de barras para la variable Estrato e histogramas paralas variables Estatura, Masa y Gasto.Dichos graficos se muestran en la figura 5.

Aunque no es una regla general una tabla de frecuencias deberia poseer lassiguientes caracteristicas:

1. UNIFORMIDAD: Clases de igual amplitud o de amplitud variableque dependen del tipo de datos.

2. UNICIDAD: Clases no traslapadas.

3. COMPLETEZ: Cada dato pertenece a una y solo una clase.

14

Fig. 5: Diagrama de Barras e Histogramas

Box-Plot o Diagrama de Cajas y Bigotes

Los diagramas de caja y bigotes son herramientas graficas muy utiles paradescribir caracterısticas importantes en un conjunto de datos, como son cen-tro, simetrıa o asimetrıa, valores atıpicos(raros), etc. La construccion de estediagrama emplea medidas descriptivas que son poco sensibles a datos extre-mos y por lo tanto presentan una descripcion mas clara de la informacion.Basicamente empleamos para su construccion los tres cuarteles, los valoresmınimos y maximos y la media Muestral solo como medida de localizacion enel grafico. Una observacion se dice Atıpica o Inusual si esta a mas de 1.5 vecesel rango intercualtil de alguno de los cuarteles Q1 o Q3. Una observacion sedice Atıpica Extrema si esta a mas de 3 veces el rango Intercuartil de algunode los cuartiles Q1 o Q3. El diagrama esta conformado por una caja la cual seconstruye con ayuda del primer y tercer cuartil. La mediana es dibujada enel interior de la caja al igual que la media muestral. Los bigotes se extiendendesde los cuartiles a la derecha y a la izquierda. Su longitud depende de si

15

hay o no datos atıpicos. En la figura 6, se muestran dos tipos de boxplot.

Fig. 6: Construccion de un Box-Plot

Los Box-plot, para las variables Estatura, Masa, Edad y Gasto, se muestranen la figura 7.

Fig. 6: Box-Plot para Estatura, Masa, Edad y Gasto

16

Analisis descriptivo de un conjunto de n datos

Suponga que se tienen n datos recopilados sobre una variable y que puedenrepresentar los tiempos de duracion de una baterıa para vehıculo. Estos datospueden ser los que aparecen a continuacion:

2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.7 3.2 4.5 3.3 3.6 4.4 2.63.2 3.8 2.9 3.2 3.9 3.7 3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1 3.4 3.5

Este conjunto de datos por si solo no muestra ninguna faceta interesante.A simple vista se puede apreciar un valor mınimo y un valor maximo y quehay algunos valores que se repiten. Por lo tanto es supremamente difıcil tra-tar de determinar alguna caracterıstica de interes de la poblacion de la cualprovienen; si el numero de datos aumenta es todavıa mas difıcil detectar ca-racterısticas importantes. Existen tecnicas estadısticas que permiten extraerinformacion que puede resultar de algun modo importante para tomar deci-siones en un determinado momento.Hay dos maneras de analizar estos datos:

1. Datos agrupados: Consiste basicamente en la conformacion de clasesde una cierta longitud donde la pertenencia de un dato a cada clase es-tara determinada por su valor. Con esta tecnica es posible experimentarperdida de informacion.

2. Datos sin agrupar: Consiste en manipular los datos tal y como fue-ron recopilados.

Medidas numericas en datos agrupados

Las medidas numericas descriptivas se dividen en dos: Medidas de locali-zacion y Medidas de dispersion. En las medidas de localizacion se cir-cunscriben las medidas de tendencia central.

Medidas de localizacion y de tendencia central

Estas medidas permiten cuantificar numericamente, caracterısticas de la po-blacion de la cual fueron tomados los datos. Entre las mas comunes se en-cuentran:

17

La media muestral para datos agrupados

Es un valor que trata de representar el comportamiento promedio del con-junto de datos. Corresponde a una estimacion de la media poblacional. Enel caso de datos agrupados se define como:

XAgrup =

k∑i=1

mi fi

n=

#celdas∑i=1

marca de clase × Frecuencia de clase

Total Frecuencias.

Como ejemplo, considere los datos de las Estaturas de los estudiantes delcurso de primer semestre. Con base en la tabla de frecuencias se tiene que:

Esta Frec F. Rel Frec Acu F R Acum Marca

(150, 155] 1 0.0208 1 0.0208 152.5(155, 160] 3 0.0625 4 0.0833 157.5(160, 165] 6 0.125 10 0.2083 162.5(165, 170] 10 0.2083 20 0.4166 167.5(170, 175] 11 0.2292 31 0.6458 172.5(175, 180] 12 0.25 43 0.8958 177.5(180, 185] 5 0.1042 48 1 182.5

XAgrup =

7∑i=1

mi fi

n

=(152.5 × 1) + (157.5 × 3) + (162.5 × 6) + (167.5 × 10) + (172.5 × 11) + (177.5 × 12) + (182.5 × 5)

48= 171.15 .

La moda muestral para datos agrupados

Es el valor que que presenta mayor frecuencia. Se define como la marca declase del intervalo con mayor frecuencia absoluta. En el ejemplo anterior, setiene que, moda = 177.5 cms.

Percentiles muestrales para datos agrupados

Los percentiles son aquellos valores abajo y arriba de los cuales se encuentrauna cierta proporcion de datos del conjunto. Por ejemplo, el percentil 10

18

es aquel valor tal que al menos el 10 % de los datos son inferiores a el yal menos el 90 % de los datos son superiores a el. Si la caracterıstica deinteres esta asociada a una variable X, el percentil 100p%, para 0 < p < 1,suele denotarse por xp. Otra manera de denotar un percentil, es a traves delporcentaje que representa. Por ejemplo, el percentil 25, suele denotarse comoP25.

Para calcularlo se requiere la columna de frecuencias relativas acumuladas,que se obtiene de la tabla de frecuencias, usando la siguiente formula:

xp = L +(p− a)× h

f,

donde:

L: Lımite inferior de la clase que contiene el percentil.

n: Numero de datos.

f : Frecuencia relativa de la clase que contiene el percentil.

a: Frecuencia relativa acumulada del intervalo anterior al del percentil.

h: Longitud de la clase del percentil.

Para identificar la clase del percentil se identifica cual clase tiene una fre-cuencia relativa acumulada igual o superior a p.

EjemploUsando los datos de estaturas calcule el P50.Se observa que en la columna de frecuencias relativas acumuladas el intervalode clase donde esta frecuencia supera a 0.5 es el quinto intervalo, donde lafrecuencia acumulada es 0.6458, la cual excede a 0.5. Por lo tanto la clase delpercentil sera (170, 175]. Usando este intervalo se tiene que: L = 170, n =40, f = 0.2292, a = 0.4166, p = 0.5, h = 5 . Ası:

P50 = 170 +(0.5− 0.4166)× 5

0.2292= 171.82 .

El 50 % de los estudiantes del curso tienen estaturas inferiores o iguales a171.8 cms.

19

Los percentiles P25, P50 y P75, dividen los datos en cuatro partes porcentual-mente iguales. Estos percentiles son llamados Cuartiles y se denotan Q1, Q2

y Q3, respectivamente.

Fig. 18: Cuartiles

La mediana

Corresponde al percentil 50. Es usualmente denotada X. Su calculo se realizacon el mismo procedimiento utilizado en la obtencion de los percentiles.

Medidas de dispersion

Estas medidas permiten cuantificar numericamente, que tan dispersos se en-cuentran los datos ya sea con respecto a la media o con respecto a las unidadesde medicion. Entre las mas comunes se encuentran:

La varianza muestral para datos agrupados

Esta medida indica que tanto se alejan los datos respecto de la media mues-tral. Se denota S2

agrup. Se calcula por medio de la siguiente formula:

S2agrup =

∑ki=1

(mi −Xagrup

)2 × fi

n.

Rango intercuartil

Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quieredecir que el 50 % de los datos mas centrales se encuentran muy dispersos.

QRANGE = Q3 −Q1 = P75 − P25

20

Donde Q1 = P25 se denomina Primer cuartil y Q3 = P75 se denomina Tercercuartil. El nombre de cuartil proviene del hecho de que la unidad se divideen cuatro partes iguales y el de percentil proviene del hecho de que la unidadse divide en cien partes iguales.

Para los datos de estaturas se tiene: S2agrup = 54, 937 , los percentiles 25

y 75 son P25 = 166, P75 = 177.08. El rango intercuartil es QRANGE =177.08− 166 = 11.08 .

Calculo de medidas numericas para datos no

agrupados

Para el calculo de estas medidas se consideran todos y cada uno de los da-tos, por lo cual la perdida de informacion contenida en la muestra se reduce.Tambien se dividen en dos: Medidas de localizacion y Medidas de dis-persion. En las medidas de localizacion se circunscriben las medidas detendencia central.

Medidas de localizacion y de tendencia central

Media muestral

Se define como la suma de todos los elementos de la muestra dividido por eltamano de la muestra. Cuando la distribucion de la cual provienen los datoses simetrica y no hay presencia de valores extremos, la media muestral es unbuen representante del conjunto de datos. La media no necesariamente es unvalor del conjunto de observaciones. Se denota con el sımbolo X. Se calculacon la siguiente formula,

X =

∑ni=1 Xi

n, i = 1, 2, · · · , n

La media representa el punto de equilibrio de los datos.

Ejemplo(La media es sensible a valores extremos). Considere los ingresos mensualesen pesos de 8 empleados publicos:

21

500000, 750000, 600000, 550000, 700000, 550000, 550000, 600000.Calcule el ingreso mensual medio.Solucion

x =500000 + · · ·+ 550000 + 600000

8= 600000 .

El ingreso de los empleados muestreados esta alredeedor de los 600000 pesos.Suponga que un nuevo empleado es adiccionado a la lista y su ingreso es de2000000. El ingreso promedio sera X = 755555.6 . Observe que este valor essuperior a la mayorıa de las cifras del conjunto de datos. Esto se debe a queuno de los ingresos es muy grande en comparacion con los otros ingresos.Este valor no representa en gran medida al grueso de los ingresos.

EjemploSe registra el numero de tasas de cafe consumidas por un empleado de oficinaen un perıodo de 20 dias:

4 5 3 6 7 1 2 3 0 5 6 5 8 4 0 2 3 7 5 6

Calcule el numero promedio de tasas de cafe.SolucionX = 82

20= 4.1 . Un empleado consume en promedio alrededor de 4 tazas por

dia.

EjemploSe registran las edades de 15 personas en un grupo. Estas son:18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en anos). Calcule la edadpromedio de las 15 personas.SolucionLa edad promedio de este grupo es : X = 313

15= 20.86 ≈ 20.9 . Si resumimos

esta informacion en una tabla de frecuencia

Edad 18 19 20 21 22 23 24frecuencia 1 3 3 3 2 1 2

La edad promedio se puede calcular como:

X =1

n

n∑i = 1

fi Xi .

22

Es un calculo similar al caso de datos agrupados. Usando esta tabla se ob-tiene:

X =18(1) + 19(3) + 20(3) + 21(3) + 22(2) + 23(1) + 24(2)

15

X =313

15= 20.9

X =

∑xifi

15=

∑xifi∑fi

En el ejemplo anterior, suponga que otra persona adicional tiene una edadde 35 anos. El calculo de la edad promedio es: X = 313+35

16= 348

16= 21.8 .

Si la edad adiccional fuera 45 anos, entonces X = 313+4516

= 22.4 .

Si la edad fuera 55 anos, entonces X = 313+5516

= 23 .

Observe que la media muestral tiende a acercarse al valor extremo.

La moda en datos sin agrupar

Se define como el dato que presenta mayor frecuencia en la muestra. Paracalcularla se recomienda ordenar las observaciones de menor a mayor. Es po-sible que un conjunto de datos no tenga moda o que tenga varias modas.

EjemploConsidere los siguientes datos ordenados de menor a mayor:500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Para esta muestra calcule la mo-da.SolucionSe puede observar que el conjunto de datos tiene dos modas que son respec-tivamente: 550 y 750.

23

Percentiles para datos sin agrupar

Una aproximacion a los valores de los percentiles se puede obtener por mediodel siguiente algoritmo que muestra como se calcula el percentil de orden p,con 0 < p < 1 .

1. Ordene la muestra de menor a mayor

2. Calcule el percentil 100p%, xp como

xp =

X(n p)+X(n p+1)

2Si n p es un natural

X([[n p]]+1) Si n p no es un natural

,

El sımbolo [[ ]] representa la funcion Mayor Entero.

La mediana en datos sin agrupar

Es un valor arriba del cual se encuentra el 50 % de los datos y abajo del cualse encuentra el otro 50 %. No es tan sensible como X a valores extremos.Se denota X. Para hallarla se deben ordenar los datos de menor a mayor.Suponga que se tiene el siguiente conjunto de datos X1, X2, . . . , Xn, si se or-denan de menor a mayor se obtiene la siguiente sucesion X(1), X(2), . . . , X(n).

X se calcula por medio de,

X =

X(n+1

2 ) Si n es impar

X(n2 )+X(n

2 +1)

2Si n es par

.

EjemploConsidere los ingresos mensuales en dolares de 8 empleados publicos, 500,750, 600, 550, 700, 2000, 550, 550. La muestra ordenada es 500, 550, 550,550, 600, 700, 750, 2000. Calcule la mediana.SolucionComo n es par

X =X(n

2 ) + X(n2

+1)

2=

X(4) + X(5)

2=

550 + 600

2= 575 .

24

Este valor de la mediana es una medida mas representativa que X. El 50 %de los ingresos de los empleados son inferiores o iguales a 575 dolares.

EjemploConsidere los siguientes datos ordenados de menor a mayor:500, 550, 550, 600, 700, 750, 750, 800, 900, 950 . Halle el percentil 76 usando elmetodo expuesto arriba.SolucionLa muestra ya esta ordenada, entonces usando el metodo anterior n (0.76) =7.6 por lo tanto, P76 = X(8) = 800 . El 76 % de los empleados tienen ingresosinferiores o iguales a 800 dolares.

Para el ejemplo anterior, de las edades, calcular la mediana.SolucionLa mediana se calcula como: X = X( 15

2+1) = X(8). Ahora, como

18 19 19 19 20 20 20 21 21 21 22 22 23 24 24X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 ,

entonces: X8 = 21, es decir, X = 21 . El 50 % de las personas encuestadastienen edades inferiores o iguales a 21 anos.

Se encuesta a otra persona y su edad resulta ser 30 anos, la mediana en este

caso es X =X(8) + X(9)

2= 21 + 21

2= 21 .

Si la edad de esa nueva persona es 50 anos, se tiene que

X =X(8) + X(9)

2= 21 + 21

2= 21 . Es decir, la mediana no se ve afectada por

datos muy extremos o atıpicos.

Al igual que para datos agrupados, se pueden calcular los Cuartiles Q1, Q2, Q3

y los percentiles.

EjemploPara los datos de edades, calcule el primer cuartil y el percentil 60.SolucionEl primer cuartil es el percentil 25. Ahora 0.25 (15) = 3.75 . El primer cuartil

25

Q1, debe dejar al menos 4 valores en o por debajo de el y 12 valores en o porencima de el. Ası Q1 = X(4) = 19 . El 25 % de las personas tienen edadesinferiores o iguales a 19 anos.El percentil 60 . (0.6) (15) = 9 . Al menos 9 valores en o por debajo de el y6 valores en o por encima de el. En este caso dicho percentil corresponderıa

a P60 =X(9)+X(10)

2= 21 . El 60 % de las personas tienen edades inferiores o

iguales a 21 anos.

Medidas de dispersion

La varianza

La varianza muestral mide que tanto se alejan los datos de la media. Valoresgrandes de la varianza indican una gran dispersion. Se denota por S2. Secalcula con la siguiente formula,

S2 =

∑ni=1

(Xi −X

)2

n− 1.

Interpretar la varianza puede resultar un poco complicado ya que esta expre-sada en unidades cuadradas; por ejemplo, la varianza podrıa estar en minutoscuadrados o en kilogramos cuadrados. Por esta razon se acostumbra reportarla raız cuadrada de la varianza, que recibe el nombre de Desviacion estandar.Si por ejemplo un investigador toma mediciones de temperatura en una re-gion durante cierto tiempo y al final reporta: ‘Se observo una temperaturapromedio de 28oC con una desviacion estandar de 1oC ’quiere decir que al-gunas veces la temperatura puede bajar hasta 27oC y algunas veces puedesubir hasta 29oC.

EjemploPara los datos de las edades, se tiene que:

S2 =∑

(Xi − 20.9)2

15 − 1= 3.4095 ≈ 3.41 y S = 1.8466 ≈ 1.85

Lo cual significa que la desviacion promedio en cuanto a la media es de 1.85anos. En otras palabras, la mayorıa de los estudiantes del curso tienen edadesentre 19 y 23 anos.

26

El rango intercuartil

Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tandisperso esta el 50 % de los datos mas centrales. Se calcula ası

RANGO INTERCUARTIL = Qrange = Q3−Q1 = P75 − P25 .

Coeficiente de variacion

El coeficiente de variacion que se define como : C.V = SX

.Es una fraccion de la media muestral. Se usa para comparar la variabilidadde dos o mas conjuntos de datos.EjemploConsidere las siguientes medidas que se tomaron a dos poblaciones, una dehombres de 25 anos y otra de ninos de 11 anos. Tales medidas son,

Xadultos = 66 kgs

Sadultos = 4.5 kgs

Xninos = 36 kgs

Sninos = 4.5 kgs

Calcule el coeficiente de variacion para los adultos y para los ninos. Con losdatos anteriores se puede observar que

C.Vadultos =4.5

66= 0.0682

C.Vninos =4.5

36= 0.125

Se puede concluir que los pesos de los ninos son mas variables que los de losadultos.