Download - TEMA 4 DESCRIPCIÓN NÚMERICA Tema 4.pdfTEMA 4 . DESCRIPCIÓN NÚMERICA. 4.1 INTRODUCCIÓN . El objetivo de este tema es resumir las propiedades o características de una variable

TEMA 4

DESCRIPCIÓN NÚMERICA

4.1 INTRODUCCIÓN

El objetivo de este tema es resumir las propiedades o características de una

variable estadística mediante un conjunto de medidas o valores. La tabla de frecuencias

nos ofrece toda la información posible pero es imposible, en numerosos casos,

interpretar toda esa extensa información. Por lo tanto, nos vemos obligados a resumirla

en una serie de medidas que nos permita entender de forma rápida su contenido. Este

proceso de síntesis puede tener distintos objetivos de comprensión de la información,

así pues hablamos de medidas de posición, dispersión y forma.

Las medidas de posición nos permiten tener una idea clara de la situación de la

variable en su escala de medida. Las medidas de dispersión tienen un doble fin, por un

lado nos permiten averiguar si las medidas de posición son representativas de la

distribución y, por otro lado, nos dan una clara idea de la separación, variabilidad o

dispersión de los distintos valores que toma la variable estadística. Las medidas de

forma nos permiten conocer otras características más generales de la distribución y que

están estrechamente ligadas a la forma que tendría la distribución si realizáramos una

representación gráfica. Así pues, intentaremos conocer la posible simetría o asimetría de

la distribución y su apuntamiento con respecto a un modelo de referencia. Dicha forma

también se puede analizar, de forma gráfica, mediante los diagramas de caja que nos

permiten, además, comparar distribuciones de frecuencias diferentes.

Finalmente se analiza, de forma breve, el problema de la desigualdad en el

reparto de la riqueza. Dicho análisis se lleva a cabo, de forma gráfica, mediante las

curvas de Lorenz, y de forma numérica mediante el índice de Gini. Utilizando estos

instrumentos se puede calibrar si la distribución de reparto de la riqueza está más cerca

de la situación de máxima desigualdad (toda la riqueza en manos de uno solo) o de la de

equidistribución (toda la riqueza igualmente repartida). Además, dado el carácter

adimensional de estas medidas, es posible comparar el reparto de riqueza en

poblaciones diferentes.

1

4.2 MEDIDAS DE POSICIÓN Las medidas de posición indican un valor de la variable en torno al cual se sitúa

un grupo de observaciones o datos. Sirven para estudiar las características de los valores

que indican la posición en la que se sitúa un grupo de valores. Su objetivo es describir y

sintetizar la información contenida en un conjunto de datos, usualmente con el propósito

de compararlos con respecto de otros. Pueden clasificarse en las llamadas medidas de

posición de tendencia central y las medidas de tendencia no central. Una medida de

tendencia central trata de ubicar el centro de la distribución que se puede considerar

como representativo de la misma, mientras que una medida de tendencia no central

permite conocer otros puntos característicos de la distribución que no son los valores

centrales.

4.2.1 Medidas de tendencia central

Una descripción básica de la localización de un conjunto de datos puede

realizarse determinando su “centro”. Entre este tipo de medidas se encuentran los

promedios (la media aritmética y geométrica, ponderados y sin ponderar), la mediana y

la moda.

Media aritmética

Una vez que los datos se han tabulado disponemos de la distribución de frecuencias:

k,...,1i; )n;x( ii =

Definición:

La media aritmética se define como la suma de todos los valores de la

distribución dividida por el número total de observaciones. Se denota por x

∑∑

=

= ==k

1iii

k

1iii

fxN

nxx

Observaciones:

1. En datos agrupados por intervalos se adoptan como modalidades, a modo de

aproximación, las marcas de clase o representantes de cada uno de los intervalos.

2. La media aritmética puede utilizarse si los datos con los que se trabaja son de

naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el

total de la población. Variables aditivas son, por ejemplo, el número de

2

empleados, la renta, el salario, etc. Por el contrario, son variables no aditivas:

los tipos de interés y la rentabilidad.

Ventajas de la media aritmética:

Entre las principales ventajas que presenta la media se pueden destacar las siguientes:

- Se puede calcular en todo tipo de datos (lógicamente siempre que sean de

tipo cuantitativo).

- Su cálculo es sencillo y en él intervienen todos los valores de la distribución.

- La media aritmética es el centro de gravedad de la distribución, es decir,

es el punto que establece la posición respecto de la cual los datos que se

encontrarán por encima y por debajo de la media, compensan sus distancias

(con signo) respecto de ésta.

- Es una medida única y definida de forma objetiva en cada distribución de

frecuencias.

Inconvenientes:

En cuanto a los inconvenientes, tal vez el más importante sea que la media aritmética de

la distribución puede no llegar a ser muy representativa del conjunto de los valores

observados si existe mucha dispersión en los datos. Se trata, además de una medida que

es muy sensible a los valores extremos. Es en este sentido, en el que decimos que la

media aritmética no es un estadístico robusto.

Con todo, la media aritmética es la medida de posición central más utilizada, de

la que cabe destacar las siguientes propiedades:

Propiedades

1. La suma de las desviaciones de todos los valores de la variable respecto a su

media es cero (propiedad de centro de gravedad). Formalmente: ( ) 0nxx i

k

1ii =−∑

=

2. La media aritmética de todo un conjunto de datos se puede calcular promediando

las medias aritméticas de los diferentes subconjuntos que constituyen una

partición. Formalmente, para dos subconjuntos de tamaños AN y BN –aunque se

generaliza fácilmente a cualquier otro número- se expresa:

BA

BBAAT NN

xNxNx++

=

3

3. Le afectan los cambios de origen y los cambios de escala. Sin embargo, preserva

el cambio lineal. Formalmente, se cumple que: xbaybXaY +=⇒+=

4. La media aritmética minimiza la desviación cuadrática media de los datos. Es

decir, cualquier conjunto de datos se disponen respecto de la media a la distancia

menor posible. Formalmente:

( ) xc)c(fMin que cumple se ncxN1)c(f Sea

ci

k

1i

2i =⇒−= ∑

=

Media geométrica La media geométrica se utiliza cuando las variables son de naturaleza

multiplicativa (por ejemplo, el incremento salarial se efectúa sobre el anterior y no sobre

uno fijo).

Definición: Se denota por G y se define como la raíz N-ésima del producto de los N

valores de la distribución:

N nk

n2

n1N

k

1i

ni

k21i x....xxxG == ∏=

Como en el caso de la media aritmética, en la media geométrica intervienen

todos los valores de la distribución. Esta característica que, por un lado, supone una

ventaja, por otra parte da lugar a que en algunos casos el promedio no resulte

representativo. Así, por ejemplo, puede observarse que cualquier variable que tome el

valor cero tendrá una media geométrica nula, independientemente del resto de valores

de la distribución. Además, no siempre es posible determinar la media geométrica –

ante un número impar de valores negativos de un total de observaciones que sea par, no

será factible su cálculo.

Finalmente, como propiedad destacar que, utilizando propiedades del logaritmo,

se comprueba que el logaritmo de la media geométrica es la media aritmética de los

logaritmos de los valores de la variable, siendo ésta una vía alternativa para su cálculo.

Se cumple:

∑=

=k

1iii n)xlog(

N1Glog

4

Medias ponderadas

Se dan situaciones en las que a la hora de obtener la posición central de un

conjunto de observaciones, no todas ellas tienen la misma importancia o peso. Para

recoger la importancia específica de cada dato se requiere una ponderación o peso. Se

denota por iw

Definición: Sean { }kiwi ,...,1; = una colección de pesos que recogen la importancia

específica de cada dato. Así , por ejemplo, la media aritmética ponderada wx se define

como:

∑

∑

=

== k

1ii

k

1iii

w

w

wxx

y la media geométrica ponderada Gw, se define como:

∑= =

k

1ii

k1w

wk

w1w x...xG

Mediana

En el caso de variables cuantitativas, la mediana se presenta como una forma

alternativa de obtener numéricamente un centro representativo de la distribución. Las

medidas de tendencia central anteriores son promedios que se basan en todas las

observaciones y, sin embargo, en la mediana subyace la idea de ordenación de los datos.

La mediana es el valor de la distribución, supuesta ordenada de menor a mayor,

que deja a su izquierda y a su derecha el mismo número de datos, es decir, es el valor

que ocupa el lugar central, supuesto un número impar de observaciones. En otras

palabras la mediana divide a la distribución de frecuencias en dos partes con la misma

frecuencia de datos por encima y por debajo de la mediana. Por ello, también puede

definirse como el valor de la distribución cuya frecuencia acumulada es N/2 ó

alternativamente, cuya frecuencia relativa acumulada es 50%.

5

50% 50%

M

50% 50%

M Cálculo:

• En datos no agrupados – repetidos ó no – se ordenan de forma creciente, para

posteriormente, identificar el valor o dato que ocupa la posición central. Así,

formalmente si m/Nm ≤<− 21 entonces la mediana corresponde con el dato mx

Si el número de datos fuese par, puede observarse que hay dos valores centrales, xm y

xm+1, y por convenio, se tomará como mediana la media aritmética de ambos, 2

1++ mm xx ,

si la variable es cuantitativa. En otro caso se sigue la regla anterior.

• Para datos agrupados por intervalos nos encontramos con un intervalo, en lugar de

un valor mediano y al que denominamos intervalo de clase mediano. En él es donde se

encontrará el valor que ocupa la posición N/2. El valor concreto se puede determinar

dentro de dicho intervalo por interpolación lineal, aunque no lo veremos en esta

asignatura y nos conformaremos con determinar exclusivamente el intervalo mediano.

Propiedades

1. La Mediana presenta la propiedad de ser el valor más próximo en promedio a

todos los datos, cuando la distancia se cuantifica mediante la desviación absoluta media.

2. Como ya se ha comentado la media aritmética presenta una gran sensibilidad a la

presencia de observaciones anómalas o atípicas. En este sentido la Mediana, que no

utiliza toda la información, no se ve influida por valores atípicos porque, al ordenar los

valores de la variable, éstos quedan al principio y/o al final. Por este motivo, se dice que

la Mediana es una medida robusta.

3. Le afectan los cambios de origen y de escala, pero preserva la forma del cambio.

En concreto se demuestra que si XY bMeaMebXaY +=⇒+=

Moda

6

La Moda se define como el valor más frecuente en el conjunto de datos o,

equivalentemente, aquel que se repite un mayor número de veces. Evidentemente, la

moda puede no ser única, en cuyo caso la distribución se dice bimodal o quizá incluso

multimodal. En caso de no ser única, la Moda pierde representatividad. La presencia de

dos o más modas se debe, generalmente, a una mezcla de dos o más grupos

heterogéneos de modo que, siempre que sea posible, conviene estudiar todos los grupos

por separado.

En datos agrupados en intervalos, nos encontramos con un intervalo modal que

es aquél que presenta una densidad de frecuencia mayor. Como ya hemos comentado en

el apartado del histograma, la densidad de frecuencia de un intervalo viene dada como

el cociente entre su frecuencia absoluta y su amplitud: i

ii a

nd =

Con el objeto de fijar la moda en un único valor se pueden utilizar diferentes

criterios. Aquí vamos a optar por quedarnos con la marca de clase del intervalo modal.

Por lo tanto, en estos casos nos quedaremos con:

21 mm LLMo +

= −

Como ventajas de la moda podemos destacar su cálculo sencillo y su clara

interpretación, así como que no se ve afectada por valores extremos ya que en su

obtención no interviene directamente toda la distribución.

Al igual que algunas de las anteriores medidas, la moda esta afectada por los

cambios de origen y de escala que, potencialmente, puedan realizarse en los datos. Sin

embargo, preserva la forma del cambio, y se comprueba que se cumple:

XY bMoaMobXaY +=⇒+=

7

4.2.2 Medidas de tendencia no central

Las medidas de tendencia no central, denominadas cuantiles, son medidas que

no van a reflejar ninguna tendencia de tipo central del conjunto de los datos. Por el

contrario, y extendiendo al concepto de la mediana, las medidas de tendencia no central

buscan poner de manifiesto otros aspectos relativos a la distribución de las frecuencias

de cada intervalo. Se trata de magnitudes o valores caracterizados por dividir a la

distribución de frecuencias en varias partes, todas ellas con idéntica frecuencia; es decir

dividen a la distribución en diversos intervalos que contienen todos ello un mismo

número de datos. Entre los cuantiles destacan, por ser de uso más frecuente, los

llamados cuartiles, los deciles y los percentiles.

Cuartiles

Valores que dividen a la distribución de frecuencias en cuatro partes con idéntica

frecuencia; es decir, en cuatro intervalos dentro de cada cual están incluidos la cuarta

parte de los datos - el 25% de los valores-. Los cuartiles son tres, y los denotamos por

321 ,, CCC

25% 25% 25% 25%

C2C1 C3

25% 25% 25% 25%

C2C1 C3 Su identificación o cálculo, que difiere en función del tipo de datos, es

esencialmente similar al caso de la mediana y lo recogemos a continuación.

Cálculo:

• En datos discretos – repetidos ó no – se ordenan de forma creciente, para

posteriormente, identificar el valor o dato que ocupa la posición correspondiente al

cuartil. Así, para el primer cuartil si mNm ≤<− 4/1 entonces mxC =1 si mN<

4 y C1

= 2

1++ mm xx si mN=

4. Para el segundo cuartil MeC =2 . Finalmente, para el tercer

8

cuartil, identificamos mNm ≤<− 4/31 y entonces mxC =3 si mN<

43 y C3 =

21++ mm xx si mN

=4

3

• Para datos agrupados por intervalos nos encontramos con un intervalo de clase

para cada cuartil. Con el objeto de fijar el cuartil en un valor, se puede emplear una

aproximación similar a la de la mediana, pero de igual que pasó con ella, no vamos a

hacer uso de dicha aproximación en este curso, limitándonos a encontrar el intervalo

correspondiente.

Deciles

Valores que dividen a la distribución de frecuencias en diez partes iguales, es

decir, en diez intervalos dentro de cada uno de los cuales están incluidos el 10% de los

de los datos o frecuencias. Son 9 los denotamos por }9,...,1;{ =iDi

10% 10% 10% 10% 10% 10% 10% 10% 10%

20%

D1 D2 D3 D4 D5 D6 D7 D8 D9

10%10% 10% 10% 10% 10% 10% 10% 10% 10%

20%

D1 D2 D3 D4 D5 D6 D7 D8 D9

10%

Cálculo:

• En datos discretos, se ordenan de forma creciente, para posteriormente, identificar

el valor o dato que ocupa la posición correspondiente al decil. Así, en general, para el

decil iD se identifica la posición m tal que mNim ≤<−10

1 de modo que mi xD = si

mNi<

10 y Di =

21++ mm xx si mNi

=10

.

• Para datos agrupados por intervalos simplemente encontraremos un intervalo de

clase para cada decil.

Percentiles

Son los valores de la distribución que la dividen en cien partes iguales, es decir,

en cien intervalos dentro de cada cual están incluidos el 1% de los valores de la

distribución. Los percentiles ( iP =1,...,99) son 99 valores que dividen la distribución en

100 partes iguales.

9

Cálculo:

• En datos discretos, se ordenan de forma creciente, para posteriormente, identificar

el valor o dato que ocupa la posición correspondiente al percentil. Así, en general para

el percentil 99,...,1; =iPi identificaremos mNim ≤<−100

1 de modo que mi xP = si

mNi<

100 y Pi =

21++ mm xx si mNi

=100

• Para datos agrupados por intervalos simplemente encontraremos el

correspondiente intervalo de clase para cada percentil.

4.3 MEDIDAS DE DISPERSIÓN

En la sección anterior se han definido medidas de tendencia central, cuyo

objetivo consiste en sintetizar la información disponible; pero su utilización como

parámetros representativos de la distribución de los datos depende de su

representatividad. Ésta es entendida en términos de la “proximidad” o “cercanía” de los

datos respecto de la correspondiente medida de posición, habitualmente central. Por esta

razón, se plantea la necesidad de completar la información sobre la posición global de

los datos mediante medidas que recojan la “proximidad” o “alejamiento” de los datos a

las que denominamos medidas de dispersión; en definitiva, se van a presentar medidas

objetivas que cuantifican lo separados que están los valores, bien entre sí, bien con

respecto del valor central que los representa.

Las Medidas de Dispersión evalúan la mayor o menor variabilidad existente en

un conjunto de datos. En este sentido, no sólo sirven para establecer la dispersión de los

valores de una variable o para comparar la que existe en dos poblaciones diferentes,

sino que a la vez, permiten valorar el grado de representatividad de una medida de

posición a tenor de la magnitud de la dispersión.

Recorridos

La forma más sencilla de tener una idea inicial de la dispersión entre los datos es

calculando la diferencia entre el valor máximo y el mínimo: el Rango o Recorrido. Al

utilizar sólo los dos datos extremos, esta medida se ve muy afectada por observaciones

anómalas o atípicas y su valor puede distorsionar la magnitud de la dispersión entre el

grueso de los datos. Para obtener una medida más fiable y menos sensible a datos

atípicos, se calcula, en su lugar la diferencia entre el tercer y primer cuartil: el

10

Recorrido Intercuartílico – recordar que en éste, estarán comprendidos el 50% de las

datos centrales. Éste, a su vez puede generalizarse, para abarcar un mayor porcentaje de

datos, dando lugar a diversos recorridos deciles y también percentiles.

La sencillez de cálculo de los diferentes recorridos explica su uso generalizado.

Sin embargo, tienen el inconveniente o limitación de no reflejar la “separación” de los

datos referida al “centro” de la distribución. En consecuencia y para lograr este

propósito que a su vez establecerá el grado de representatividad de una medida de

posición, se introducen otras medidas de dispersión relativas a los promedios.

Desviaciones Cuadráticas Medias

Éstas medidas se construyen adoptando el cuadrado de la desviación. A partir de

éstos se obtiene la distancia promedio de los datos respecto de la medida de posición.

Así, para un promedio P la desviación cuadrática media respecto del promedio se

calcula como:

( )∑=

−=k

1ii

2i

2P nPx

N1D

Y para MoMexP ,,= se obtienen las correspondientes expresiones.

No obstante, y debido a su importancia, cuando el promedio es la media

aritmética, la desviación cuadrática respecto de la media se denomina varianza, y es la

más habitual e importante de las medidas de dispersión.

Varianza

Se denota por S2 y su expresión, como caso particular, viene dada por:

( )∑=

−=k

1ii

2i

2 nxxN1S

La varianza, al igual que las demás, es un valor no negativo y es cero en el caso

extremo de que todos los valores de la distribución coinciden. Este hecho nos da la

pauta para su interpretación: cuanto más próxima sea a 0, tanto menor será la dispersión

de los datos respecto de la media aritmética, otorgando a esta última, una mayor

representatividad. Por el contrario, un valor elevado de la varianza refleja un

alejamiento considerable de los datos respecto de la media aritmética, lo cual limita el

carácter representativo de la media aritmética.

11

En la práctica, para calcular la varianza se utiliza una expresión alternativa

equivalente denominada formula abreviada de la varianza:

2k

1ii

2i

2 xnxN1S −= ∑

=

Entre sus propiedades, comentar que la varianza no se ve afectada por cambios

de origen, pero sí por cambios de escala.

El inconveniente de la varianza es que viene expresada en unidades cuadráticas,

motivo por el cual se introduce la desviación típica que no es sino su raíz cuadrada, esto

es: 2SS +=

En ocasiones, se requiere comparar la dispersión o variabilidad existente entre

dos o más distribuciones. Éstas pueden corresponder a datos de diferente índole, además

de poder estar expresadas en distintas unidades, o aún expresadas en las mismas

unidades, su posición es diversa. Este tipo de situaciones requieren utilizar algún tipo de

coeficientes que cuantifiquen la dispersión pero en términos relativos. Introducimos a

continuación la versión relativa de las medidas de dispersión.

Medidas de Dispersión Relativas

La comparación de la variabilidad que existe entre dos o más conjuntos de datos

concluye sobre carácter de homogeneidad, mayor o menor, de los datos en las

distribuciones comparadas.

La obtención de una medida que capture la dispersión, eliminado la influencia de

las unidades, de los datos y de la propia medida de posición, se canaliza por medio de

un Índice o coeficiente adimensional que habitualmente se construye como cociente

entre la medida de dispersión respecto de un promedio y el propio promedio.

Con esta idea, para el caso de la media aritmética, se construye el más

importante de los coeficientes de dispersión, denominado coeficiente de variación.

Coeficiente de Variación

Se basa en la varianza como medida de dispersión y se construye como cociente

entre la desviación típica y la media aritmética. Esto es:

xSVC =.

12

Expresa, por tanto, el número de veces que la desviación típica contiene a la

media aritmética. Si toma un valor inferior a 0.2 (20%) se admite, como regla

aproximada, que la media aritmética es representativa del conjunto de datos. Cuanto

más próximo es a 0, menor dispersión relativa o mayor homogeneidad presenta la

correspondiente distribución y cuando se anula es cuando la media aritmética alcanza su

máxima representatividad. Sin embargo, cuando la media aritmética es cero no debe

utilizarse.

Tipificación de una variable

La tipificación de una variable consiste en transformarla linealmente restándole

su media y dividiéndola por su desviación típica. Si X es una variable con media x y

desviación típica S , los valores de la variable tipificada Z se obtienen mediante:

Sxx

z ii

−=

La media de una variable tipificada vale cero y su desviación típica uno. Cada

valor de la variable tipificada iz corresponde al número de “desviaciones” en que el

valor está separado respecto de la media aritmética. Los valores tipificados pueden

compararse directamente al estar situados en una escala común.

Existe un resultado que ayuda a calibrar el carácter atípico de una observación

respecto a su distribución de frecuencias, a partir de su puntuación tipificada. Este

resultado es la llamada desigualdad de Chebishev y dice lo siguiente:

∀K≥1 el porcentaje de observaciones que verifica que |Z|>K es a lo más de un

100

2K1 independientemente de la forma de la distribución de frecuencias. Por tanto

los porcentajes de observaciones con puntuaciones tipificadas superiores, en valor

absoluto, a 2, 3 o 4 serán a lo más de un 25%, 11.11% y 6.25%, respectivamente. Por

dicha razón, si una observación tiene una puntuación tipificada superior a 2, 3 o 4 se

consideran atípicos muy débiles, débiles o fuertes, respectivamente.

4.4 MEDIDAS DE FORMA

En los dos apartados anteriores se han utilizado las medidas de posición y las de

dispersión para sintetizar la información de una variable. Pero, es lógico, que analizar

datos o distribuciones de frecuencias no se limita a calcular una media y una varianza,

necesitamos conocer otros aspectos acerca de cómo está distribuida la frecuencia. Ello

13

queda perfectamente reflejado en la forma o apariencia gráfica que adopta la

distribución de frecuencias.

Las Medidas de Forma, como su nombre indica, son unas magnitudes que

evaluar numéricamente el perfil de la distribución sin necesidad de realizar su

representación gráfica. Las más importantes son las de asimetría y las de apuntamiento

o curtosis.

4.4.1 Medidas de Asimetría

La forma más intuitiva de definir la simetría es a partir de su representación

gráfica ya que puede trazarse una línea vertical y comprobar si al doblar por ella la

figura, ambas partes coinciden exactamente. Cuando esto no ocurre, la distribución es

asimétrica.

Una distribución es simétrica respecto de un promedio, si ocurre que hay un

mismo número de datos equidistantes y con idéntica frecuencia a ambos lados del eje de

simetría. Una distribución es asimétrica a la derecha cuando las frecuencias

descienden más lentamente por la derecha que por la izquierda. Una distribución es

asimétrica a la izquierda cuando las frecuencias descienden más lentamente por la

izquierda que por la derecha.

Coeficiente de Asimetría de Fisher

Basado en la idea de establecer la asimetría respecto de la situación de asimetría

perfecta y teniendo en cuenta que la asimetría dependerá también de la dispersión

existente en la distribución, el Coeficiente de Asimetría de Fisher viene dado por:

i

k

i X

i nS

xxN

CAF ⋅

−= ∑

=1

31 = ∑

=

k

iii zn

N 1

31 donde zi = s

xx i − para i=1,…,k

Se considera que un coeficiente de asimetría superior, en valor absoluto, a N62

es significativo.

14

Observaciones:

• Este coeficiente es adimensional al aparecer en las mismas unidades los

términos del numerado y denominador.

• El signo depende del de su numerador

• Si su valor es 0 la distribución es perfectamente simétrica

• Si su valor es positivo la distribución presenta asimetría a derecha

• Si su valor es negativo la distribución presenta asimetría a izquierda

4.4.2 Medidas de Curtosis o Apuntamiento

Estas medidas tratan de valorar el perfil más o menos puntiagudo de la

distribución, por ello estudian las distribuciones de frecuencia fundamentalmente en su

“zona centro”. Así, la mayor o menor concentración de frecuencias alrededor de la

media y en la zona central de la distribución dará lugar a una distribución más o menos

apuntada.

Las medidas de apuntamiento o curtosis se calculan únicamente en

distribuciones campaniformes, es decir, unimodales y simétricas o con ligera asimetría.

El coeficiente de apuntamiento más importante debido a Fisher se calcula como:

( )34

1

4

−−

=∑=

NS

nxxCK

n

iii

= 311

4 −∑=

k

iii zn

N donde zi =

sxx i − para i=1,…,k

Este coeficiente recoge la dispersión, se define en términos relativos y se calcula

tomando como referencia el correspondiente a la curva normal que es el modelo

matemático de referencia, de gran aplicabilidad y con buenas propiedades, y para el cual

el coeficiente vale 0.

• Si 0=CK el apuntamiento es similar al de la normal (distribución mesocúrtica)

15

• Si 0>CK el apuntamiento es superior al de la normal (distribución

Leptocúrtica)

• Si 0<CK el apuntamiento es inferior al de la normal (distribución Platicúrtica)

Se considera que si |CK| > N242 es significativo estadísticamente.

Finalizamos indicando que todos los coeficientes tanto de asimetría como de

apuntamiento, al ser medidas relativas, son invariantes frente a cambios de origen y

escala.

4.5 DIAGRAMAS DE CAJA

Es un gráfico con una caja central indicando el rango en el que se concentra el

50% central de los datos. Sus extremos son, por lo tanto, el primer y tercer cuartil de la

distribución. En el interior de la caja se representa la posición de la Mediana mediante

una línea. Las líneas que salen de los bordes de la caja son los llamados bigotes y llegan

hasta los valores mínimo y máximo una vez han sido eliminados los datos atípicos.

Los valores atípicos (outliers) o extremos se indican puntualmente utilizando

símbolos especiales más allá de los bigotes. Se considera que un dato (o varios) son

atípicos “débiles” si su valor se encuentra a una distancia mayor de 1,5 veces y menor

de 3 veces el recorrido intercuartílico respecto al borde de la caja donde el recorrido

intercurartílico es la distancia entre el primer y el tercer cuartil (RI = C3 – C1). Un dato

Atípico fuerte

Atípico débil Máximo

Mínimo

Mediana C3

C1

0

*

16

se considera extremo “fuerte” si su valor dista de la caja más de 3 veces el recorrido

intercuartílico. Notar que los datos atipicos, por supuesto, pueden aparecer tanto por

debajo del bigote inferior como por encima del superior.

A la vista de la apariencia del Box-Plot pueden concluirse además algunos

aspectos relativos a la descripción numérica de la distribución tales como por ejemplo

el grado de dispersión, en base a la magnitud del rango o recorrido y del recorrido

intercuartílico, y la asimetría en base la posición de la Mediana respecto de los bordes

correspondientes a los cuartiles.

4.6. MEDIDAS DE DESIGUALDAD

En Economía es frecuente el estudio de magnitudes cuyo valor global se

distribuye entre el total de componentes de una población Este sería el caso de la masa

salarial percibida por el conjunto de asalariados de cierto sector, o de los dividendos que

percibirán una serie de accionistas, o simplemente de los presupuestos generales del

Estado, que se distribuirán entre distintos epígrafes presupuestarios. En casos como

éstos, puede resultar interesante conocer cómo se distribuye entre los perceptores la

variable económica considerada. Utilizaremos para ello Medidas de Desigualdad o

Concentración las cuales nos indican si la magnitud total se encuentra repartida

equitativamente o por el contrario existen desequilibrios en su reparto. Por lo tanto las

Medidas o Índices de Desigualdad tienen como objetivo fundamental cuantificar el

grado de desigualdad en el reparto o distribución de una magnitud económica (rentas,

negocio, beneficios, etc...), entre un número determinado de “unidades” (individuos,

familias, empresas, etc...).

Consideremos la distribución de frecuencias (xi, ni); i=1, 2, ..., k, donde los

valores xi están ordenados de menor a mayor, y siendo xi ≥ 0. Notar que si la distribución

es agrupada xi representa la marca de clase del intervalo i-ésimo. El grado de desigualdad

de una distribución se encuentra entre las dos situaciones extremas:

1.- Desigualdad máxima, cuando un único individuo percibe el total y el resto no

percibe nada, en este caso, nos encontramos ante un reparto no equitativo:

x1 = x2 = x3 = ………… = xk-1 = 0 y xk ≠ 0

2.- Desigualdad mínima, cuando todos los individuos perciben el mismo valor de

la variable, en este caso diremos que estamos ante un reparto equitativo

x1 = x2 = x3 = ………… = xk-1 = xk

17

El grado de desigualdad puede ser estudiado gráficamente o a través de algún

índice numérico. Entre diversas Medidas de Desigualdad en esta sección presentamos

dos: el índice de Gini y la curva de Lorenz.

4.6.1 Indice de Gini

El Índice de Gini es una medida de la desigualdad ideada por el estadístico

italiano Corrado Gini (1912). Normalmente se utiliza para medir la desigualdad en los

ingresos, pero puede utilizarse para medir cualquier forma de distribución desigual. Se

puede demostrar que la expresión para este índice viene dada por:

( )

∑

∑−

=

−

=

−= 1k

1ii

1k

1iii

G

p

qpI (1)

Para elaborar el índice de Gini y aplicar la formula (1) hemos de seguir algunas

pautas:

1. Calcular las frecuencias absolutas acumuladas Ni

2. Calcular la masa parcial correspondiente a un valor xi de una variable X, es

decir, multiplicar el valor de la variable por su frecuencia absoluta: xini.

3. Obtener la masa parcial acumulada ui, es decir,

nx = u jj

i

1j=i ∑

Asi: u1=x1n1; u2=x1n1+x2n2; ... .......uk= x1n1+x2n2+…+xknk

4 Calcular las frecuencias relativas acumuladas en porcentaje que denotaremos

por pi, es decir,

100NN = p i

i

5 Obtener las masas parciales acumuladas en porcentaje que denotaremos por qi,

es decir,

100uu = q

k

ii

18

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Italia

En la tabla siguiente se resumen los cálculos necesarios.

Si analizamos las dos situaciones límites de desigualdad tenemos lo siguiente:

- En el caso de desigualdad mínima, pi = qi y, por tanto, IG = 0.

- En el caso de desigualdad máxima, qi = 0 para i =1,..,k-1, por tanto, IG = 1.

- Para los casos intermedios el Indice de Gini está acotado entre 0 y 1; de

forma que valores próximos a cero indican un reparto equitativo, mientras

que valores cercanos a uno indican elevada desigualdad.

Algunas de las propiedades del Índice de Gini son:

Se trata de un valor que no viene expresado en unidad de medida alguna, es

adimensional.

El límite inferior con valor cero (IG=0) se obtiene cuando a todos los

integrantes del conjunto preceptor se le asigna la misma cantidad en el

reparto del monto total. Este es el caso de mínima desigualdad o máxima

igualdad (equidistribución).

El límite superior con valor uno (IG =1) se obtiene cuando un único

preceptor o un solo grupo recibe la suma total. Este es el caso de máxima

desigualdad o mínima igualdad.

Es invariante en la escala por lo que si multiplicamos todas los valores por

un factor α el valor del IG no varía

Elaboración del Índice de Gini

xi ni xini Ni ∑=

=i

jjji nxu

1

100∗=r

ii u

uq 100∗=

NN

p ii

x1

x2

.

.

. xi . . .

xr

.

.

n1

n2

.

.

. ni

.

.

.

Nnr

x1 n1

x2 n2

.

.

. xi ni

.

.

.

∑=

n

iii

rr

nx

nx

1

N1

N2

.

.

. Ni

.

.

. N

111 nxu =

22112 nxnxu += . . .

ii

i

ii nxu ∑

=

=1

.

.

rr

r

jr nxu ∑

=

=1

10011 ∗=

ruu

q

1002 ∗=r

i

uu

q

.

.

.

100∗=r

ii u

uq

.

. 100

10011 ∗=

NN

p

10022 ∗=

NN

p

.

.

.

100∗=NN

p ii

.

. 100

19

Es variante cuando se traslada (cambio en origen) por lo que si sumamos

o restamos la misma cantidad a todos los individuos o grupos preceptores, el

valor del IG varía.

4.6.2 Curva de Lorenz

La curva de Lorenz (Lorenz, 1905) o curva de desigualdad se deduce a partir de

la información suministrada para el cálculo del índice de Gini y que, por tanto, refleja la

mayor o menor desigualdad en la distribución de una magnitud (variable). Es una forma

gráfica de mostrar el reparto de la variable (producción, renta, salario, etc.) entre los

individuos de una población (Fig. 1). En ella se relacionan los porcentajes acumulados de

individuos ( ip ) con porcentajes acumulados de la variable que estos individuos reciben

( iq ).En el eje de las X, se representan los valores pi y en el de las Y los valores qi.

Figura 1.

Al ser porcentajes, la gráfica será una curva por debajo de la diagonal de un

cuadrado de lado 100 con vértices (0,0), (100,0), (100,100) y (0,100). La curva será

creciente ya que se consideran porcentajes obtenidos de totales acumulados y además será

convexa.

Como expondremos a continuación (Fig.2), existe una relación directa entre el

índice de Gini y la forma de la curva de Lorenz, suponiendo ésta última una

información adicional muy interesante sobre la forma en que se ha llevado a cabo el

reparto de la cuantía total.

20

Figura 2

El índice de Gini (IG) se define como el cociente entre el área encerrada entre la

curva de Lorenz con la diagonal del cuadrado y el área del triángulo rectángulo que

la contiene. Otra posible forma de definir este índice es como el doble del área

comprendida entre la diagonal y la curva de Lorenz.

Los casos de la desigualdad máxima y mínima se pueden observar de forma

individual en la Fig. 3. En el primero, la curva de Lorenz está formada por la base del

cuadrado y el lado contiguo derecho ya que se verifica que qi = 0 para 0 ≤ pi <100 y

qi = 100 para pi =100. En el segundo caso el reparto es uniforme y se verifica que pi

= qi para cada i, por tanto, la curva de Lorenz se reduce a la diagonal principal del

cuadrado.

Figura 3

(0,0) (100,0)

(100,100)(0,100)

pi

qi

(0,0) (100,0)

(100,100)(0,100)

pi

qi

(0,0) (100,0)

(100,100)(0,100)

pi

qi

(0,0) (100,0)

(100,100)(0,100)

pi

qi

(0,0) (100,0)

(100,100)(0,100)

pi

qi

(0,0) (100,0)

(100,100)(0,100)

pi

qi

Por tanto, la manera de interpretar la curva de Lorenz será que cuanto más cerca se

sitúe esta curva de la diagonal, menor desigualdad habrá, o más uniformidad en el

21

reparto. Cuanto más se acerque a la parte inferior derecha del cuadrado, mayor

desigualdad.

Alguna de las propiedades de la Curva de Lorenz son:

Siempre se encuentra situada por debajo de la diagonal principal.Es creciente

(pi y qi son valores acumulados).

Cuanto más cercana esté la curva a la línea de equidistribución, menor será

la desigualdad y, cuanto más alejada, mayor será.

Una curva de Lorenz domina a otra cuando para cualquier proporción de

población p se encuentra por encima. La distribución dominante es más

igualitaria. Cuando las curvas de Lorenz se intersectan, no podemos concluir

nada sobre su comparación.

22