Estadística Descriptiva
description
Transcript of Estadística Descriptiva
Estadística Descriptiva
• Definición:
– Procedimientos que permiten organizar, resumir y presentar la información contenida en un conjunto de datos de una variable de interés.
• Métodos:
– Cálculo y análisis de medidas descriptivas de los datos
– Elaboración de tablas, diagramas y gráficos
• Las variables de interés para un investigador pueden ser de dos tipos: Cualitativas o Cuantitativas
– Cualitativas: expresan categorías o atributos (profesión, sexo, procedencia)
– Cuantitativas: se expresan numéricamente (edad, peso, sueldo)
Medidas Descriptivas (para datos cuantitativos x1, . . . xn )
• Tendencia Central
– media aritmética
– mediana
– media truncada
– media geométrica
– otras
• Dispersión:
– rango,
– desviación estandar,
– rango intercuartílico,
– desviación mediana,
– otras
• Otras medidas:
• curtosis,
• coeficiente de asimetría
• coeficiente de variación
• otras
Algunas medidas de tendencia central
• Media Aritmética:
• Mediana: valor tal que “el 50% de los datos está por encima y el otro 50% está por debajo”.(atención: con esta definición puede haber más de una mediana para un
conjunto de datos)
• Media Truncada: media aritmética después de “eliminar” un % de los datos.(atención: debe ser pequeño, como mucho 10)
• Media Geométrica: (para datos que toman valores mayores que cero)
n
xxx n
...1
nngeo xxx ...1
Algunas medidas de dispersión
• Rango: xmax – xmin
• Desviación estándar:
• Desviación mediana: mediana de “las desviaciones de los datos de la mediana”.
• Rango intercuartílico: rango, luego de “eliminar el 25% superior y el 25% inferior”. Si denotamos por q1 al primer cuartil (valor tal que el 25% está por
debajo y el 75% por arriba) y q3 al tercer cuartil (valor tal que el 75% está por
debajo y el 75% está por arriba) entonces el rango intercuartílico (ri) es Q3-Q1
1
)(...)( 221
n
xxxxs n
Ejemplo
• Consideremos los siguientes datos, que corresponden a los salarios mensuales (miles de bolívares fuertes) de ingenieros e ingenieras con dos años de experiencia (Datos A corresponde a hombres y Datos B a mujeres):
Datos A: 1,51 2,25 1,65 1,15 1,85 1,80 4,75 1,25 2,00 1,50 1,80
Datos B: 1.05 1.42 1.81 1.89 2.09 1.52 1.98 1,61
Datos A Datos B
número de datos 11 8
media aritmética 1.96 1,67
mediana 1.80 1,71
media truncada (*) 1.66 1,61
media geométrica 1,81 1,64
rango 3.6 1,04
desviación estándar 0.98 0,34
desviación mediana 0.29 0,23
rango intercuartílico 0.5 0,51
Diagrama de cajas
• Representación gráfica de los cuartiles, que permite distinguir aspectos de la distribución de los datos, así como la presencia de valores extremos.
• Para el caso de los datos del ejemplo anterior se tiene:
mujereshombres
5
4
3
2
1
sexo
sala
rio
Datos Agrupados
• Tabla de Frecuencias: resultado de agrupar los datos en intervalos disjuntos (numéricos) o categorías diferentes (categóricos) con el propósito de observar como están distribuidos.
• Se elaborarán tablas de frecuencias con base en una matriz de datos (ver al lado) que se construyó a partir de la información recogida en una encuesta realizada a un grupo de 39 estudiantes. Los datos completos están en una de las hojas del archivo excel denominado DATOS VARIOS
n° edad sexon° de
Créditos aprobados
dominio del idioma inglés
1 22,46 m 82 bajo
2 24,99 f 159 alto
3 25,65 m n.s alto
4 23,16 m n.s bajo
. . . . .
. . . . .
. . . . .
38 22,76 m 108 alto
39 22,08 f 115 regular
Datos Agrupados
Categoría Frecuencia absoluta
Frecuencia relativa
alto 18 0,462
regular 12 0,308
bajo 9 0,231
Tabla de frecuencia para el dominio del idioma inglés (variable cualitativa)
Intervalo de clase
Frec. absoluta
Frec. relativa
Frec. absoluta acumulada
Frec. relativa acumulada
[19 - 21] 12 0,308 12 0,308
(21 - 23] 13 0,333 25 0,641
(23 - 25] 9 0,231 34 0,872
(25 - 27] 5 0,128 39 1
Tabla de frecuencia para la edad (variable cuantitativa)
El 46,2% de los encuestados manifestó tener un domino alto del idioma inglés
El 12,8% de los encuestados tiene edad superior a los 25 años, mientras que el 64,1% tiene, como máximo, 23 años
¿Que porcentaje (aprox.) de los estudiantes tendrán edades entre 20,5 años y 24,3 años? ¿Que valor (aprox) tiene la mediana?
Graficando datos categóricos agrupados
18; 46%
9; 23%
12; 31%
Alto
Regular
bajo
18
12 9
0
2
4
6
8
10
12
14
16
18
20
Alto Regular bajo
Gráfico de torta para los datos de la variable domino del idioma inglés
Gráfico de barras para los datos de la variable domino del idioma inglés
Graficando datos numéricos agrupados
0
2
4
6
8
10
12
14
o a b c d e f g17 19 21 23 25 27 290
5
10
15
20
25
30
35
40
45
o a b c d e f17 19 21 23 25 27 29
Histograma y polígono de frecuencia para los datos de la variable edad (frecuencia absoluta)
Polígono de frecuencia acumulada para los datos de la variable edad (frecuencia absoluta)
Atención:
1. De manera análoga se construyen el histograma, el polígono de frecuencia y el polígono de frecuencia acumulada a partir de las frecuencias relativas.
2. A partir de los datos agrupados es posible obtener buenas aproximaciones de la media, mediana, desviación estándar, etc, de los datos originales.