TEMA 4
DESCRIPCIÓN NÚMERICA
4.1 INTRODUCCIÓN
El objetivo de este tema es resumir las propiedades o características de una
variable estadística mediante un conjunto de medidas o valores. La tabla de frecuencias
nos ofrece toda la información posible pero es imposible, en numerosos casos,
interpretar toda esa extensa información. Por lo tanto, nos vemos obligados a resumirla
en una serie de medidas que nos permita entender de forma rápida su contenido. Este
proceso de síntesis puede tener distintos objetivos de comprensión de la información,
así pues hablamos de medidas de posición, dispersión y forma.
Las medidas de posición nos permiten tener una idea clara de la situación de la
variable en su escala de medida. Las medidas de dispersión tienen un doble fin, por un
lado nos permiten averiguar si las medidas de posición son representativas de la
distribución y, por otro lado, nos dan una clara idea de la separación, variabilidad o
dispersión de los distintos valores que toma la variable estadística. Las medidas de
forma nos permiten conocer otras características más generales de la distribución y que
están estrechamente ligadas a la forma que tendría la distribución si realizáramos una
representación gráfica. Así pues, intentaremos conocer la posible simetría o asimetría de
la distribución y su apuntamiento con respecto a un modelo de referencia. Dicha forma
también se puede analizar, de forma gráfica, mediante los diagramas de caja que nos
permiten, además, comparar distribuciones de frecuencias diferentes.
Finalmente se analiza, de forma breve, el problema de la desigualdad en el
reparto de la riqueza. Dicho análisis se lleva a cabo, de forma gráfica, mediante las
curvas de Lorenz, y de forma numérica mediante el índice de Gini. Utilizando estos
instrumentos se puede calibrar si la distribución de reparto de la riqueza está más cerca
de la situación de máxima desigualdad (toda la riqueza en manos de uno solo) o de la de
equidistribución (toda la riqueza igualmente repartida). Además, dado el carácter
adimensional de estas medidas, es posible comparar el reparto de riqueza en
poblaciones diferentes.
1
4.2 MEDIDAS DE POSICIÓN Las medidas de posición indican un valor de la variable en torno al cual se sitúa
un grupo de observaciones o datos. Sirven para estudiar las características de los valores
que indican la posición en la que se sitúa un grupo de valores. Su objetivo es describir y
sintetizar la información contenida en un conjunto de datos, usualmente con el propósito
de compararlos con respecto de otros. Pueden clasificarse en las llamadas medidas de
posición de tendencia central y las medidas de tendencia no central. Una medida de
tendencia central trata de ubicar el centro de la distribución que se puede considerar
como representativo de la misma, mientras que una medida de tendencia no central
permite conocer otros puntos característicos de la distribución que no son los valores
centrales.
4.2.1 Medidas de tendencia central
Una descripción básica de la localización de un conjunto de datos puede
realizarse determinando su “centro”. Entre este tipo de medidas se encuentran los
promedios (la media aritmética y geométrica, ponderados y sin ponderar), la mediana y
la moda.
Media aritmética
Una vez que los datos se han tabulado disponemos de la distribución de frecuencias:
k,...,1i; )n;x( ii =
Definición:
La media aritmética se define como la suma de todos los valores de la
distribución dividida por el número total de observaciones. Se denota por x
∑∑
=
= ==k
1iii
k
1iii
fxN
nxx
Observaciones:
1. En datos agrupados por intervalos se adoptan como modalidades, a modo de
aproximación, las marcas de clase o representantes de cada uno de los intervalos.
2. La media aritmética puede utilizarse si los datos con los que se trabaja son de
naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el
total de la población. Variables aditivas son, por ejemplo, el número de
2
empleados, la renta, el salario, etc. Por el contrario, son variables no aditivas:
los tipos de interés y la rentabilidad.
Ventajas de la media aritmética:
Entre las principales ventajas que presenta la media se pueden destacar las siguientes:
- Se puede calcular en todo tipo de datos (lógicamente siempre que sean de
tipo cuantitativo).
- Su cálculo es sencillo y en él intervienen todos los valores de la distribución.
- La media aritmética es el centro de gravedad de la distribución, es decir,
es el punto que establece la posición respecto de la cual los datos que se
encontrarán por encima y por debajo de la media, compensan sus distancias
(con signo) respecto de ésta.
- Es una medida única y definida de forma objetiva en cada distribución de
frecuencias.
Inconvenientes:
En cuanto a los inconvenientes, tal vez el más importante sea que la media aritmética de
la distribución puede no llegar a ser muy representativa del conjunto de los valores
observados si existe mucha dispersión en los datos. Se trata, además de una medida que
es muy sensible a los valores extremos. Es en este sentido, en el que decimos que la
media aritmética no es un estadístico robusto.
Con todo, la media aritmética es la medida de posición central más utilizada, de
la que cabe destacar las siguientes propiedades:
Propiedades
1. La suma de las desviaciones de todos los valores de la variable respecto a su
media es cero (propiedad de centro de gravedad). Formalmente: ( ) 0nxx i
k
1ii =−∑
=
2. La media aritmética de todo un conjunto de datos se puede calcular promediando
las medias aritméticas de los diferentes subconjuntos que constituyen una
partición. Formalmente, para dos subconjuntos de tamaños AN y BN –aunque se
generaliza fácilmente a cualquier otro número- se expresa:
BA
BBAAT NN
xNxNx++
=
3
3. Le afectan los cambios de origen y los cambios de escala. Sin embargo, preserva
el cambio lineal. Formalmente, se cumple que: xbaybXaY +=⇒+=
4. La media aritmética minimiza la desviación cuadrática media de los datos. Es
decir, cualquier conjunto de datos se disponen respecto de la media a la distancia
menor posible. Formalmente:
( ) xc)c(fMin que cumple se ncxN1)c(f Sea
ci
k
1i
2i =⇒−= ∑
=
Media geométrica La media geométrica se utiliza cuando las variables son de naturaleza
multiplicativa (por ejemplo, el incremento salarial se efectúa sobre el anterior y no sobre
uno fijo).
Definición: Se denota por G y se define como la raíz N-ésima del producto de los N
valores de la distribución:
N nk
n2
n1N
k
1i
ni
k21i x....xxxG == ∏=
Como en el caso de la media aritmética, en la media geométrica intervienen
todos los valores de la distribución. Esta característica que, por un lado, supone una
ventaja, por otra parte da lugar a que en algunos casos el promedio no resulte
representativo. Así, por ejemplo, puede observarse que cualquier variable que tome el
valor cero tendrá una media geométrica nula, independientemente del resto de valores
de la distribución. Además, no siempre es posible determinar la media geométrica –
ante un número impar de valores negativos de un total de observaciones que sea par, no
será factible su cálculo.
Finalmente, como propiedad destacar que, utilizando propiedades del logaritmo,
se comprueba que el logaritmo de la media geométrica es la media aritmética de los
logaritmos de los valores de la variable, siendo ésta una vía alternativa para su cálculo.
Se cumple:
∑=
=k
1iii n)xlog(
N1Glog
4
Medias ponderadas
Se dan situaciones en las que a la hora de obtener la posición central de un
conjunto de observaciones, no todas ellas tienen la misma importancia o peso. Para
recoger la importancia específica de cada dato se requiere una ponderación o peso. Se
denota por iw
Definición: Sean { }kiwi ,...,1; = una colección de pesos que recogen la importancia
específica de cada dato. Así , por ejemplo, la media aritmética ponderada wx se define
como:
∑
∑
=
== k
1ii
k
1iii
w
w
wxx
y la media geométrica ponderada Gw, se define como:
∑= =
k
1ii
k1w
wk
w1w x...xG
Mediana
En el caso de variables cuantitativas, la mediana se presenta como una forma
alternativa de obtener numéricamente un centro representativo de la distribución. Las
medidas de tendencia central anteriores son promedios que se basan en todas las
observaciones y, sin embargo, en la mediana subyace la idea de ordenación de los datos.
La mediana es el valor de la distribución, supuesta ordenada de menor a mayor,
que deja a su izquierda y a su derecha el mismo número de datos, es decir, es el valor
que ocupa el lugar central, supuesto un número impar de observaciones. En otras
palabras la mediana divide a la distribución de frecuencias en dos partes con la misma
frecuencia de datos por encima y por debajo de la mediana. Por ello, también puede
definirse como el valor de la distribución cuya frecuencia acumulada es N/2 ó
alternativamente, cuya frecuencia relativa acumulada es 50%.
5
50% 50%
M
50% 50%
M Cálculo:
• En datos no agrupados – repetidos ó no – se ordenan de forma creciente, para
posteriormente, identificar el valor o dato que ocupa la posición central. Así,
formalmente si m/Nm ≤<− 21 entonces la mediana corresponde con el dato mx
Si el número de datos fuese par, puede observarse que hay dos valores centrales, xm y
xm+1, y por convenio, se tomará como mediana la media aritmética de ambos, 2
1++ mm xx ,
si la variable es cuantitativa. En otro caso se sigue la regla anterior.
• Para datos agrupados por intervalos nos encontramos con un intervalo, en lugar de
un valor mediano y al que denominamos intervalo de clase mediano. En él es donde se
encontrará el valor que ocupa la posición N/2. El valor concreto se puede determinar
dentro de dicho intervalo por interpolación lineal, aunque no lo veremos en esta
asignatura y nos conformaremos con determinar exclusivamente el intervalo mediano.
Propiedades
1. La Mediana presenta la propiedad de ser el valor más próximo en promedio a
todos los datos, cuando la distancia se cuantifica mediante la desviación absoluta media.
2. Como ya se ha comentado la media aritmética presenta una gran sensibilidad a la
presencia de observaciones anómalas o atípicas. En este sentido la Mediana, que no
utiliza toda la información, no se ve influida por valores atípicos porque, al ordenar los
valores de la variable, éstos quedan al principio y/o al final. Por este motivo, se dice que
la Mediana es una medida robusta.
3. Le afectan los cambios de origen y de escala, pero preserva la forma del cambio.
En concreto se demuestra que si XY bMeaMebXaY +=⇒+=
Moda
6
La Moda se define como el valor más frecuente en el conjunto de datos o,
equivalentemente, aquel que se repite un mayor número de veces. Evidentemente, la
moda puede no ser única, en cuyo caso la distribución se dice bimodal o quizá incluso
multimodal. En caso de no ser única, la Moda pierde representatividad. La presencia de
dos o más modas se debe, generalmente, a una mezcla de dos o más grupos
heterogéneos de modo que, siempre que sea posible, conviene estudiar todos los grupos
por separado.
En datos agrupados en intervalos, nos encontramos con un intervalo modal que
es aquél que presenta una densidad de frecuencia mayor. Como ya hemos comentado en
el apartado del histograma, la densidad de frecuencia de un intervalo viene dada como
el cociente entre su frecuencia absoluta y su amplitud: i
ii a
nd =
Con el objeto de fijar la moda en un único valor se pueden utilizar diferentes
criterios. Aquí vamos a optar por quedarnos con la marca de clase del intervalo modal.
Por lo tanto, en estos casos nos quedaremos con:
21 mm LLMo +
= −
Como ventajas de la moda podemos destacar su cálculo sencillo y su clara
interpretación, así como que no se ve afectada por valores extremos ya que en su
obtención no interviene directamente toda la distribución.
Al igual que algunas de las anteriores medidas, la moda esta afectada por los
cambios de origen y de escala que, potencialmente, puedan realizarse en los datos. Sin
embargo, preserva la forma del cambio, y se comprueba que se cumple:
XY bMoaMobXaY +=⇒+=
7
4.2.2 Medidas de tendencia no central
Las medidas de tendencia no central, denominadas cuantiles, son medidas que
no van a reflejar ninguna tendencia de tipo central del conjunto de los datos. Por el
contrario, y extendiendo al concepto de la mediana, las medidas de tendencia no central
buscan poner de manifiesto otros aspectos relativos a la distribución de las frecuencias
de cada intervalo. Se trata de magnitudes o valores caracterizados por dividir a la
distribución de frecuencias en varias partes, todas ellas con idéntica frecuencia; es decir
dividen a la distribución en diversos intervalos que contienen todos ello un mismo
número de datos. Entre los cuantiles destacan, por ser de uso más frecuente, los
llamados cuartiles, los deciles y los percentiles.
Cuartiles
Valores que dividen a la distribución de frecuencias en cuatro partes con idéntica
frecuencia; es decir, en cuatro intervalos dentro de cada cual están incluidos la cuarta
parte de los datos - el 25% de los valores-. Los cuartiles son tres, y los denotamos por
321 ,, CCC
25% 25% 25% 25%
C2C1 C3
25% 25% 25% 25%
C2C1 C3 Su identificación o cálculo, que difiere en función del tipo de datos, es
esencialmente similar al caso de la mediana y lo recogemos a continuación.
Cálculo:
• En datos discretos – repetidos ó no – se ordenan de forma creciente, para
posteriormente, identificar el valor o dato que ocupa la posición correspondiente al
cuartil. Así, para el primer cuartil si mNm ≤<− 4/1 entonces mxC =1 si mN<
4 y C1
= 2
1++ mm xx si mN=
4. Para el segundo cuartil MeC =2 . Finalmente, para el tercer
8
cuartil, identificamos mNm ≤<− 4/31 y entonces mxC =3 si mN<
43 y C3 =
21++ mm xx si mN
=4
3
• Para datos agrupados por intervalos nos encontramos con un intervalo de clase
para cada cuartil. Con el objeto de fijar el cuartil en un valor, se puede emplear una
aproximación similar a la de la mediana, pero de igual que pasó con ella, no vamos a
hacer uso de dicha aproximación en este curso, limitándonos a encontrar el intervalo
correspondiente.
Deciles
Valores que dividen a la distribución de frecuencias en diez partes iguales, es
decir, en diez intervalos dentro de cada uno de los cuales están incluidos el 10% de los
de los datos o frecuencias. Son 9 los denotamos por }9,...,1;{ =iDi
10% 10% 10% 10% 10% 10% 10% 10% 10%
20%
D1 D2 D3 D4 D5 D6 D7 D8 D9
10%10% 10% 10% 10% 10% 10% 10% 10% 10%
20%
D1 D2 D3 D4 D5 D6 D7 D8 D9
10%
Cálculo:
• En datos discretos, se ordenan de forma creciente, para posteriormente, identificar
el valor o dato que ocupa la posición correspondiente al decil. Así, en general, para el
decil iD se identifica la posición m tal que mNim ≤<−10
1 de modo que mi xD = si
mNi<
10 y Di =
21++ mm xx si mNi
=10
.
• Para datos agrupados por intervalos simplemente encontraremos un intervalo de
clase para cada decil.
Percentiles
Son los valores de la distribución que la dividen en cien partes iguales, es decir,
en cien intervalos dentro de cada cual están incluidos el 1% de los valores de la
distribución. Los percentiles ( iP =1,...,99) son 99 valores que dividen la distribución en
100 partes iguales.
9
Cálculo:
• En datos discretos, se ordenan de forma creciente, para posteriormente, identificar
el valor o dato que ocupa la posición correspondiente al percentil. Así, en general para
el percentil 99,...,1; =iPi identificaremos mNim ≤<−100
1 de modo que mi xP = si
mNi<
100 y Pi =
21++ mm xx si mNi
=100
• Para datos agrupados por intervalos simplemente encontraremos el
correspondiente intervalo de clase para cada percentil.
4.3 MEDIDAS DE DISPERSIÓN
En la sección anterior se han definido medidas de tendencia central, cuyo
objetivo consiste en sintetizar la información disponible; pero su utilización como
parámetros representativos de la distribución de los datos depende de su
representatividad. Ésta es entendida en términos de la “proximidad” o “cercanía” de los
datos respecto de la correspondiente medida de posición, habitualmente central. Por esta
razón, se plantea la necesidad de completar la información sobre la posición global de
los datos mediante medidas que recojan la “proximidad” o “alejamiento” de los datos a
las que denominamos medidas de dispersión; en definitiva, se van a presentar medidas
objetivas que cuantifican lo separados que están los valores, bien entre sí, bien con
respecto del valor central que los representa.
Las Medidas de Dispersión evalúan la mayor o menor variabilidad existente en
un conjunto de datos. En este sentido, no sólo sirven para establecer la dispersión de los
valores de una variable o para comparar la que existe en dos poblaciones diferentes,
sino que a la vez, permiten valorar el grado de representatividad de una medida de
posición a tenor de la magnitud de la dispersión.
Recorridos
La forma más sencilla de tener una idea inicial de la dispersión entre los datos es
calculando la diferencia entre el valor máximo y el mínimo: el Rango o Recorrido. Al
utilizar sólo los dos datos extremos, esta medida se ve muy afectada por observaciones
anómalas o atípicas y su valor puede distorsionar la magnitud de la dispersión entre el
grueso de los datos. Para obtener una medida más fiable y menos sensible a datos
atípicos, se calcula, en su lugar la diferencia entre el tercer y primer cuartil: el
10
Recorrido Intercuartílico – recordar que en éste, estarán comprendidos el 50% de las
datos centrales. Éste, a su vez puede generalizarse, para abarcar un mayor porcentaje de
datos, dando lugar a diversos recorridos deciles y también percentiles.
La sencillez de cálculo de los diferentes recorridos explica su uso generalizado.
Sin embargo, tienen el inconveniente o limitación de no reflejar la “separación” de los
datos referida al “centro” de la distribución. En consecuencia y para lograr este
propósito que a su vez establecerá el grado de representatividad de una medida de
posición, se introducen otras medidas de dispersión relativas a los promedios.
Desviaciones Cuadráticas Medias
Éstas medidas se construyen adoptando el cuadrado de la desviación. A partir de
éstos se obtiene la distancia promedio de los datos respecto de la medida de posición.
Así, para un promedio P la desviación cuadrática media respecto del promedio se
calcula como:
( )∑=
−=k
1ii
2i
2P nPx
N1D
Y para MoMexP ,,= se obtienen las correspondientes expresiones.
No obstante, y debido a su importancia, cuando el promedio es la media
aritmética, la desviación cuadrática respecto de la media se denomina varianza, y es la
más habitual e importante de las medidas de dispersión.
Varianza
Se denota por S2 y su expresión, como caso particular, viene dada por:
( )∑=
−=k
1ii
2i
2 nxxN1S
La varianza, al igual que las demás, es un valor no negativo y es cero en el caso
extremo de que todos los valores de la distribución coinciden. Este hecho nos da la
pauta para su interpretación: cuanto más próxima sea a 0, tanto menor será la dispersión
de los datos respecto de la media aritmética, otorgando a esta última, una mayor
representatividad. Por el contrario, un valor elevado de la varianza refleja un
alejamiento considerable de los datos respecto de la media aritmética, lo cual limita el
carácter representativo de la media aritmética.
11
En la práctica, para calcular la varianza se utiliza una expresión alternativa
equivalente denominada formula abreviada de la varianza:
2k
1ii
2i
2 xnxN1S −= ∑
=
Entre sus propiedades, comentar que la varianza no se ve afectada por cambios
de origen, pero sí por cambios de escala.
El inconveniente de la varianza es que viene expresada en unidades cuadráticas,
motivo por el cual se introduce la desviación típica que no es sino su raíz cuadrada, esto
es: 2SS +=
En ocasiones, se requiere comparar la dispersión o variabilidad existente entre
dos o más distribuciones. Éstas pueden corresponder a datos de diferente índole, además
de poder estar expresadas en distintas unidades, o aún expresadas en las mismas
unidades, su posición es diversa. Este tipo de situaciones requieren utilizar algún tipo de
coeficientes que cuantifiquen la dispersión pero en términos relativos. Introducimos a
continuación la versión relativa de las medidas de dispersión.
Medidas de Dispersión Relativas
La comparación de la variabilidad que existe entre dos o más conjuntos de datos
concluye sobre carácter de homogeneidad, mayor o menor, de los datos en las
distribuciones comparadas.
La obtención de una medida que capture la dispersión, eliminado la influencia de
las unidades, de los datos y de la propia medida de posición, se canaliza por medio de
un Índice o coeficiente adimensional que habitualmente se construye como cociente
entre la medida de dispersión respecto de un promedio y el propio promedio.
Con esta idea, para el caso de la media aritmética, se construye el más
importante de los coeficientes de dispersión, denominado coeficiente de variación.
Coeficiente de Variación
Se basa en la varianza como medida de dispersión y se construye como cociente
entre la desviación típica y la media aritmética. Esto es:
xSVC =.
12
Expresa, por tanto, el número de veces que la desviación típica contiene a la
media aritmética. Si toma un valor inferior a 0.2 (20%) se admite, como regla
aproximada, que la media aritmética es representativa del conjunto de datos. Cuanto
más próximo es a 0, menor dispersión relativa o mayor homogeneidad presenta la
correspondiente distribución y cuando se anula es cuando la media aritmética alcanza su
máxima representatividad. Sin embargo, cuando la media aritmética es cero no debe
utilizarse.
Tipificación de una variable
La tipificación de una variable consiste en transformarla linealmente restándole
su media y dividiéndola por su desviación típica. Si X es una variable con media x y
desviación típica S , los valores de la variable tipificada Z se obtienen mediante:
Sxx
z ii
−=
La media de una variable tipificada vale cero y su desviación típica uno. Cada
valor de la variable tipificada iz corresponde al número de “desviaciones” en que el
valor está separado respecto de la media aritmética. Los valores tipificados pueden
compararse directamente al estar situados en una escala común.
Existe un resultado que ayuda a calibrar el carácter atípico de una observación
respecto a su distribución de frecuencias, a partir de su puntuación tipificada. Este
resultado es la llamada desigualdad de Chebishev y dice lo siguiente:
∀K≥1 el porcentaje de observaciones que verifica que |Z|>K es a lo más de un
100
2K1 independientemente de la forma de la distribución de frecuencias. Por tanto
los porcentajes de observaciones con puntuaciones tipificadas superiores, en valor
absoluto, a 2, 3 o 4 serán a lo más de un 25%, 11.11% y 6.25%, respectivamente. Por
dicha razón, si una observación tiene una puntuación tipificada superior a 2, 3 o 4 se
consideran atípicos muy débiles, débiles o fuertes, respectivamente.
4.4 MEDIDAS DE FORMA
En los dos apartados anteriores se han utilizado las medidas de posición y las de
dispersión para sintetizar la información de una variable. Pero, es lógico, que analizar
datos o distribuciones de frecuencias no se limita a calcular una media y una varianza,
necesitamos conocer otros aspectos acerca de cómo está distribuida la frecuencia. Ello
13
queda perfectamente reflejado en la forma o apariencia gráfica que adopta la
distribución de frecuencias.
Las Medidas de Forma, como su nombre indica, son unas magnitudes que
evaluar numéricamente el perfil de la distribución sin necesidad de realizar su
representación gráfica. Las más importantes son las de asimetría y las de apuntamiento
o curtosis.
4.4.1 Medidas de Asimetría
La forma más intuitiva de definir la simetría es a partir de su representación
gráfica ya que puede trazarse una línea vertical y comprobar si al doblar por ella la
figura, ambas partes coinciden exactamente. Cuando esto no ocurre, la distribución es
asimétrica.
Una distribución es simétrica respecto de un promedio, si ocurre que hay un
mismo número de datos equidistantes y con idéntica frecuencia a ambos lados del eje de
simetría. Una distribución es asimétrica a la derecha cuando las frecuencias
descienden más lentamente por la derecha que por la izquierda. Una distribución es
asimétrica a la izquierda cuando las frecuencias descienden más lentamente por la
izquierda que por la derecha.
Coeficiente de Asimetría de Fisher
Basado en la idea de establecer la asimetría respecto de la situación de asimetría
perfecta y teniendo en cuenta que la asimetría dependerá también de la dispersión
existente en la distribución, el Coeficiente de Asimetría de Fisher viene dado por:
i
k
i X
i nS
xxN
CAF ⋅
−= ∑
=1
31 = ∑
=
k
iii zn
N 1
31 donde zi = s
xx i − para i=1,…,k
Se considera que un coeficiente de asimetría superior, en valor absoluto, a N62
es significativo.
14
Observaciones:
• Este coeficiente es adimensional al aparecer en las mismas unidades los
términos del numerado y denominador.
• El signo depende del de su numerador
• Si su valor es 0 la distribución es perfectamente simétrica
• Si su valor es positivo la distribución presenta asimetría a derecha
• Si su valor es negativo la distribución presenta asimetría a izquierda
4.4.2 Medidas de Curtosis o Apuntamiento
Estas medidas tratan de valorar el perfil más o menos puntiagudo de la
distribución, por ello estudian las distribuciones de frecuencia fundamentalmente en su
“zona centro”. Así, la mayor o menor concentración de frecuencias alrededor de la
media y en la zona central de la distribución dará lugar a una distribución más o menos
apuntada.
Las medidas de apuntamiento o curtosis se calculan únicamente en
distribuciones campaniformes, es decir, unimodales y simétricas o con ligera asimetría.
El coeficiente de apuntamiento más importante debido a Fisher se calcula como:
( )34
1
4
−−
=∑=
NS
nxxCK
n
iii
= 311
4 −∑=
k
iii zn
N donde zi =
sxx i − para i=1,…,k
Este coeficiente recoge la dispersión, se define en términos relativos y se calcula
tomando como referencia el correspondiente a la curva normal que es el modelo
matemático de referencia, de gran aplicabilidad y con buenas propiedades, y para el cual
el coeficiente vale 0.
• Si 0=CK el apuntamiento es similar al de la normal (distribución mesocúrtica)
15
• Si 0>CK el apuntamiento es superior al de la normal (distribución
Leptocúrtica)
• Si 0<CK el apuntamiento es inferior al de la normal (distribución Platicúrtica)
Se considera que si |CK| > N242 es significativo estadísticamente.
Finalizamos indicando que todos los coeficientes tanto de asimetría como de
apuntamiento, al ser medidas relativas, son invariantes frente a cambios de origen y
escala.
4.5 DIAGRAMAS DE CAJA
Es un gráfico con una caja central indicando el rango en el que se concentra el
50% central de los datos. Sus extremos son, por lo tanto, el primer y tercer cuartil de la
distribución. En el interior de la caja se representa la posición de la Mediana mediante
una línea. Las líneas que salen de los bordes de la caja son los llamados bigotes y llegan
hasta los valores mínimo y máximo una vez han sido eliminados los datos atípicos.
Los valores atípicos (outliers) o extremos se indican puntualmente utilizando
símbolos especiales más allá de los bigotes. Se considera que un dato (o varios) son
atípicos “débiles” si su valor se encuentra a una distancia mayor de 1,5 veces y menor
de 3 veces el recorrido intercuartílico respecto al borde de la caja donde el recorrido
intercurartílico es la distancia entre el primer y el tercer cuartil (RI = C3 – C1). Un dato
Atípico fuerte
Atípico débil Máximo
Mínimo
Mediana C3
C1
0
*
16
se considera extremo “fuerte” si su valor dista de la caja más de 3 veces el recorrido
intercuartílico. Notar que los datos atipicos, por supuesto, pueden aparecer tanto por
debajo del bigote inferior como por encima del superior.
A la vista de la apariencia del Box-Plot pueden concluirse además algunos
aspectos relativos a la descripción numérica de la distribución tales como por ejemplo
el grado de dispersión, en base a la magnitud del rango o recorrido y del recorrido
intercuartílico, y la asimetría en base la posición de la Mediana respecto de los bordes
correspondientes a los cuartiles.
4.6. MEDIDAS DE DESIGUALDAD
En Economía es frecuente el estudio de magnitudes cuyo valor global se
distribuye entre el total de componentes de una población Este sería el caso de la masa
salarial percibida por el conjunto de asalariados de cierto sector, o de los dividendos que
percibirán una serie de accionistas, o simplemente de los presupuestos generales del
Estado, que se distribuirán entre distintos epígrafes presupuestarios. En casos como
éstos, puede resultar interesante conocer cómo se distribuye entre los perceptores la
variable económica considerada. Utilizaremos para ello Medidas de Desigualdad o
Concentración las cuales nos indican si la magnitud total se encuentra repartida
equitativamente o por el contrario existen desequilibrios en su reparto. Por lo tanto las
Medidas o Índices de Desigualdad tienen como objetivo fundamental cuantificar el
grado de desigualdad en el reparto o distribución de una magnitud económica (rentas,
negocio, beneficios, etc...), entre un número determinado de “unidades” (individuos,
familias, empresas, etc...).
Consideremos la distribución de frecuencias (xi, ni); i=1, 2, ..., k, donde los
valores xi están ordenados de menor a mayor, y siendo xi ≥ 0. Notar que si la distribución
es agrupada xi representa la marca de clase del intervalo i-ésimo. El grado de desigualdad
de una distribución se encuentra entre las dos situaciones extremas:
1.- Desigualdad máxima, cuando un único individuo percibe el total y el resto no
percibe nada, en este caso, nos encontramos ante un reparto no equitativo:
x1 = x2 = x3 = ………… = xk-1 = 0 y xk ≠ 0
2.- Desigualdad mínima, cuando todos los individuos perciben el mismo valor de
la variable, en este caso diremos que estamos ante un reparto equitativo
x1 = x2 = x3 = ………… = xk-1 = xk
17
El grado de desigualdad puede ser estudiado gráficamente o a través de algún
índice numérico. Entre diversas Medidas de Desigualdad en esta sección presentamos
dos: el índice de Gini y la curva de Lorenz.
4.6.1 Indice de Gini
El Índice de Gini es una medida de la desigualdad ideada por el estadístico
italiano Corrado Gini (1912). Normalmente se utiliza para medir la desigualdad en los
ingresos, pero puede utilizarse para medir cualquier forma de distribución desigual. Se
puede demostrar que la expresión para este índice viene dada por:
( )
∑
∑−
=
−
=
−= 1k
1ii
1k
1iii
G
p
qpI (1)
Para elaborar el índice de Gini y aplicar la formula (1) hemos de seguir algunas
pautas:
1. Calcular las frecuencias absolutas acumuladas Ni
2. Calcular la masa parcial correspondiente a un valor xi de una variable X, es
decir, multiplicar el valor de la variable por su frecuencia absoluta: xini.
3. Obtener la masa parcial acumulada ui, es decir,
nx = u jj
i
1j=i ∑
Asi: u1=x1n1; u2=x1n1+x2n2; ... .......uk= x1n1+x2n2+…+xknk
4 Calcular las frecuencias relativas acumuladas en porcentaje que denotaremos
por pi, es decir,
100NN = p i
i
5 Obtener las masas parciales acumuladas en porcentaje que denotaremos por qi,
es decir,
100uu = q
k
ii
18
En la tabla siguiente se resumen los cálculos necesarios.
Si analizamos las dos situaciones límites de desigualdad tenemos lo siguiente:
- En el caso de desigualdad mínima, pi = qi y, por tanto, IG = 0.
- En el caso de desigualdad máxima, qi = 0 para i =1,..,k-1, por tanto, IG = 1.
- Para los casos intermedios el Indice de Gini está acotado entre 0 y 1; de
forma que valores próximos a cero indican un reparto equitativo, mientras
que valores cercanos a uno indican elevada desigualdad.
Algunas de las propiedades del Índice de Gini son:
Se trata de un valor que no viene expresado en unidad de medida alguna, es
adimensional.
El límite inferior con valor cero (IG=0) se obtiene cuando a todos los
integrantes del conjunto preceptor se le asigna la misma cantidad en el
reparto del monto total. Este es el caso de mínima desigualdad o máxima
igualdad (equidistribución).
El límite superior con valor uno (IG =1) se obtiene cuando un único
preceptor o un solo grupo recibe la suma total. Este es el caso de máxima
desigualdad o mínima igualdad.
Es invariante en la escala por lo que si multiplicamos todas los valores por
un factor α el valor del IG no varía
Elaboración del Índice de Gini
xi ni xini Ni ∑=
=i
jjji nxu
1
100∗=r
ii u
uq 100∗=
NN
p ii
x1
x2
.
.
. xi . . .
xr
.
.
n1
n2
.
.
. ni
.
.
.
Nnr
x1 n1
x2 n2
.
.
. xi ni
.
.
.
∑=
n
iii
rr
nx
nx
1
N1
N2
.
.
. Ni
.
.
. N
111 nxu =
22112 nxnxu += . . .
ii
i
ii nxu ∑
=
=1
.
.
rr
r
jr nxu ∑
=
=1
10011 ∗=
ruu
q
1002 ∗=r
i
uu
q
.
.
.
100∗=r
ii u
uq
.
. 100
10011 ∗=
NN
p
10022 ∗=
NN
p
.
.
.
100∗=NN
p ii
.
. 100
19
Es variante cuando se traslada (cambio en origen) por lo que si sumamos
o restamos la misma cantidad a todos los individuos o grupos preceptores, el
valor del IG varía.
4.6.2 Curva de Lorenz
La curva de Lorenz (Lorenz, 1905) o curva de desigualdad se deduce a partir de
la información suministrada para el cálculo del índice de Gini y que, por tanto, refleja la
mayor o menor desigualdad en la distribución de una magnitud (variable). Es una forma
gráfica de mostrar el reparto de la variable (producción, renta, salario, etc.) entre los
individuos de una población (Fig. 1). En ella se relacionan los porcentajes acumulados de
individuos ( ip ) con porcentajes acumulados de la variable que estos individuos reciben
( iq ).En el eje de las X, se representan los valores pi y en el de las Y los valores qi.
Figura 1.
Al ser porcentajes, la gráfica será una curva por debajo de la diagonal de un
cuadrado de lado 100 con vértices (0,0), (100,0), (100,100) y (0,100). La curva será
creciente ya que se consideran porcentajes obtenidos de totales acumulados y además será
convexa.
Como expondremos a continuación (Fig.2), existe una relación directa entre el
índice de Gini y la forma de la curva de Lorenz, suponiendo ésta última una
información adicional muy interesante sobre la forma en que se ha llevado a cabo el
reparto de la cuantía total.
20
Figura 2
El índice de Gini (IG) se define como el cociente entre el área encerrada entre la
curva de Lorenz con la diagonal del cuadrado y el área del triángulo rectángulo que
la contiene. Otra posible forma de definir este índice es como el doble del área
comprendida entre la diagonal y la curva de Lorenz.
Los casos de la desigualdad máxima y mínima se pueden observar de forma
individual en la Fig. 3. En el primero, la curva de Lorenz está formada por la base del
cuadrado y el lado contiguo derecho ya que se verifica que qi = 0 para 0 ≤ pi <100 y
qi = 100 para pi =100. En el segundo caso el reparto es uniforme y se verifica que pi
= qi para cada i, por tanto, la curva de Lorenz se reduce a la diagonal principal del
cuadrado.
Figura 3
(0,0) (100,0)
(100,100)(0,100)
pi
qi
(0,0) (100,0)
(100,100)(0,100)
pi
qi
(0,0) (100,0)
(100,100)(0,100)
pi
qi
(0,0) (100,0)
(100,100)(0,100)
pi
qi
(0,0) (100,0)
(100,100)(0,100)
pi
qi
(0,0) (100,0)
(100,100)(0,100)
pi
qi
Por tanto, la manera de interpretar la curva de Lorenz será que cuanto más cerca se
sitúe esta curva de la diagonal, menor desigualdad habrá, o más uniformidad en el
21
reparto. Cuanto más se acerque a la parte inferior derecha del cuadrado, mayor
desigualdad.
Alguna de las propiedades de la Curva de Lorenz son:
Siempre se encuentra situada por debajo de la diagonal principal.Es creciente
(pi y qi son valores acumulados).
Cuanto más cercana esté la curva a la línea de equidistribución, menor será
la desigualdad y, cuanto más alejada, mayor será.
Una curva de Lorenz domina a otra cuando para cualquier proporción de
población p se encuentra por encima. La distribución dominante es más
igualitaria. Cuando las curvas de Lorenz se intersectan, no podemos concluir
nada sobre su comparación.
22
Top Related