Post on 11-Apr-2015
Unidad 4Unidad 4
Medidas de DispersiónMedidas de Dispersión
Estadística E.S.O.Estadística E.S.O.
Objetivos
◊ Saber analizar el grado de variabilidad (dispersión) existente entre los valores de una variable estadística (varianza de un conjunto de datos).
◊ Saber interpretar y utilizar los valores obtenidos de las medidas de dispersión para evaluar la “representatividad” de los diferentes promedios.
◊ Utilizar las medidas adecuadas para comparar la dispersión presente en dos o más variables (o una variable observada en distintas poblaciones). Estudios de homogeneidad.
1.- Introducción
2.- Medidas de Dispersión Absolutas
3.- Medidas de Dispersión Relativas
4.- Tipificación de Variables
Índice
1.- Introducción
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información.
Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.
Se distinguen las medidas de dispersión:
absolutas, que no son comparables entre diferentes muestras y
relativas que permiten comparar varias muestras
1.- Introducción
Imaginemos un gran número de valores observados distintos,
a. ¿Alrededor de qué valor se agrupan los datos?
b. Supuesto que se agrupan alrededor de un número, ¿cómo lo
hacen? ¿muy concentrados? ¿muy dispersos?
1.- Introducción
Imaginemos un gran número de valores observados distintos,
a. ¿Alrededor de qué valor se agrupan los datos?
medidas de centralización
b. Supuesto que se agrupan alrededor de un número, ¿cómo lo
hacen? ¿muy concentrados? ¿muy dispersos?
medidas de dispersión
1.- Introducción
“Si el valor de estas medidas de dispersión es pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces la media se considera representativa de los datos, la Media es un promedio confiable.
Inversamente, una medida de dispersión grande indica que la Media no es confiable, no es representativa de los datos”
Imaginar que tenemos dos muestras de tamaño tres: 10, 20 y 60 ; 28,29 y 33 media igual a 30 pero…
… en la primera los datos están más dispersos.
Diagrama de cajas de Tukey: Resumen en 5 números
Velocidad (Km/h) de 200 vehículos en ciudad
de
nsi
da
d
40 45 50 55 60 65
0.0
00
.02
0.0
40
.06
0.0
8
40 45 50 55 60 65
Mín. P25 P50 P75 Máx.
Visualmente, ¿qué distribución presenta mayor variabilidad?
1.- Introducción
Diagrama de cajas de Tukey: Resumen en 5 números
Velocidad (Km/h) de 200 vehículos en autovía
de
nsi
da
d
80 90 100 110 120 130 140
0.0
00
.01
0.0
20
.03
0.0
4
80 90 100 110 120 130 140
Mín. P25 P50 P75 Máx.
Clasificación de las Medidas de Dispersión:
MEDIDAS DE DISPERSIÓN ABSOLUTA
No hacen referencia a ningún promedio: Recorridos.
Hacen referencia a algún promedio:Desviación Absoluta Media respecto a un promedio. Desviación Cuadrática Media respecto a un promedio:
Varianza, Desviación Típica.
MEDIDAS DE DISPERSION RELATIVA
No hacen referencia a ningún promedio: Coeficiente de Apertura, Recorrido relativo, Recorrido Semi-intercuartílico
Hacen referencia a algún promedio: Coeficiente de Variación,
1.- Introducción
Recorrido o rango: Re = x(k) - x(1)
(En el ejemplo anterior 60 – 10 = 50 y 33 – 28 = 5 respectivamente, la 1ª más dispersa)
Recorrido Intercuartílico: RI = C3 - C1
Longitud del intervalo que recoge el 50% de las observaciones centrales
Recorrido Décil: RD = D9 - D1
Recorrido Percentil: RP = P99 - P1
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
2.2.1- Medidas de Dispersión Absolutas. Recorridos
Sea X una variable estadística:
La Desviación Absoluta Media respecto a un Promedio P consiste en promediar la distancia -valor absoluto- de cada dato al promedio P.
P = Me, Mo y
k
iiiP nPx
ND
1
1
x
, ; 1,...,k
i=1
=i i ix n i k N n
2.2.1- Desviación Absoluta Media respecto de un Promedio
Sea X una variable estadística:
La Desviación Cuadrática Media respecto a un Promedio P es la media aritmética de la distancia -en términos cuadráticos- de cada dato respecto del promedio P
P = Me, Mo y
, ; 1,...,k
i=1
=i i ix n i k N n
k
iiiP nPx
ND
1
22 1
x
2.2.2- Desviación Cuadrática Media respecto de un Promedio
Varianza:
Desviación Típica: Raíz cuadrada de la varianza
k
iiiX nxx
NS
1
22 1
2XX SS
2.2.2- Desviación Cuadrática Media respecto de un Promedio
Interés: Van a permitir comparar la variabilidad existente en dos distribuciones de frecuencias.
Para ello, las diferentes medidas se construyen eliminando la influencia en el computo de la dispersión de:
(i) el número de observaciones (ii) el valor de la medida de posición(iii) las unidades de medida adoptadas
Al comparar este tipo de medidas es posible establecer qué población es más “similar”.
Diremos que un conjunto de datos es más homogéneo que un segundo, si su dispersión relativa es menor.
Recorridos Relativos / Índices de Dispersión / Coeficiente de Variación
3.- Medidas de Dispersión Relativas
Coeficiente de Apertura
Recorrido Relativo
Recorrido Semi-Intercuartílico
.
13
13
13
IR
CC
CC
CCRs
)(
)1()(
)( k
k
kr x
xx
x
ReR
)1(
)(
x
xA kp
3.3.1.- Recorridos Relativos
Los Índices de Dispersión respecto de un promedio P, se construyen como el cociente entre la medida de dispersión absoluta respecto del promedio P, y el propio promedio.
Índice de Dispersión respecto de la Mediana:
Índice de Dispersión respecto a la Moda:
MeN
nMex
MeV
k
iii
Me
1MeD
MoN
nMox
MoV
k
iii
Mo
1MoD
3.3.2.- Índices de Dispersión
Cuando el promedio P es la media aritmética, el cálculo de la dispersión relativa es diferente ya que, en este caso, se utiliza la desviación cuadrática.
El Índice de dispersión se denomina el Coeficiente de Variación.
Coeficiente de Variación ( de Pearson): Es la razón entre la desviación típica y la media.
Mide la desviación típica en forma de “que tamaño tiene con respecto a la media” También se le denomina variabilidad relativa.
Es una magnitud adimensional interesante para comparar la variabilidad de diferentes variables. Es frecuente mostrarlo en porcentaje.
Si la media es 80 y la desviación típica 20 el valor CV = 20/80 = 0,25 = 25%
xV XS
3.3.3.- Coeficiente de Variación
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.
No debe usarse cuando la variable presente una media próxima a 0.
3.3.3.- Coeficiente de Variación
Calcular y comparar (hombres/mujeres):
Coeficiente de Apertura, Recorrido Relativo y Recorrido Semi-Intercuartílico
Coeficiente de Variación
¿Qué salario es más homogéneo, el de hombres o el de mujeres?
Solución
0,37373,655
5,244
215,0)51,502777(
49,274
88,0875.1
650.1
33,8225
875.1
V
R
R
pA
s
r
Hombres
0,43251,556
55,240V
0,293)13,38138,696(
25,315
88,0875.1
650.1
33,8225
875.1
s
r
R
R
pA
Mujeres
MÁS HOMOGÉNEO
Para poder comparar -respecto de sus propias distribuciones- valores concretos de
dos o más variables (datos), éstas deben trasladarse a un origen y escala
comunes (hay que hacer un cambio de origen y escala).
Presentamos las definiciones y conceptos básicos para el proceso:
Variable Estándar: Diremos que Z es una variable típica o estándar si su media
aritmética es 0 y su varianza 1.
Tipificación: Proceso de transformación de una variable estadística X, en una
variable tipificada.
Resultado y procedimiento para “Tipificar”:
Si X es una variable estadística con media aritmética y con varianza
Definimos la variable típica o estándar Z:
XS
xXZ
4.- Tipificación de Variables
2xSx
Medidas de Dispersión Absolutas
Recorrido Muestral, Intercuartílico, Decil y Percentil.
Desviación Absoluta Media respecto de un Promedio.
Desviación Cuadrática Media respecto de un Promedio: Varianza y
Desviación Típica
Medidas de Dispersión Relativas
Recorridos Relativos
Índice de Dispersión
Coeficiente de Variación
Tipificación de Variables
¿Qué hemos visto?