Introducción a La Estadística Descriptiva Para Economistas

8/20/2019 Introducción a La Estadística Descriptiva Para Economistas

1/245

Universitat de les Illes Balears

Col.lecció Materials Didàctics

INTRODUCCIÓN A LA ESTADÍSTICADESCRIPTIVA PARA ECONOMISTAS

Joaquín Alegre MartínMagdalena Cladera Munar

Palma, 2002


2/245

ÍNDICE

1 INTRODUCCIÓN: ¿Qué es...?

1 ¿Qué es una variable?2 ¿Qué es la estadística descriptiva? ¿Cuál es el ámbito de la estadística

descriptiva en el análisis económico?2 ¿Qué son la población y la muestra?4 ¿Qué es un parámetro? ¿Qué es un estadístico?

4 ¿Qué es una muestra aleatoria?6 Estructura del libro.

7 CAPÍTULO I. Descripción de Variables Cualitativas.

7 Variables cualitativas nominales y ordinales.8 Distribución de frecuencias. Frecuencia relativa y frecuencia relativa

acumulada.11 Diagrama de barras.

12 Moda.14 Mediana.15 Pictograma.16 Diagrama de Pareto.

19 CAPÍTULO II. Distribución de Frecuencias e Histograma.

19 Escala de intervalo y de cociente.19 Variables discretas y continuas.

19 Distribución de frecuencias. Diagrama de barras.23 Histograma.26 Cómo trabajar con los histogramas.

35 CAPÍTULO III. Estadísticos Descriptivos de una Variable Cuantitativa.

35 Medidas de posición central.35 Moda y mediana.


3/245

36 Media aritmética.38 Propiedades de la media.38 Media ponderada.40 Media ponderada y muestreos complejos.

43 Representatividad de la media.43 Media cortada (tr immed mean ).45 Media geométrica.48 Utilización de la media, moda y mediana para detectar la

asimetría de una distribución.51 Cuartiles, deciles y percentiles.57 Medidas de dispersión: rango, rango intercuartílico, varianza,

desviación estándar, coeficiente de variación.58 Discusión y propiedades de la varianza, desviación estándar y

coeficiente de variación.

76 Relación entre la media y la desviación estándar: Desigualdad deChebychev.79 El Diagrama de caja.81 Diagrama de caja. Ayudas para su interpretación.89 Medidas de asimetría y curtosis.89 Medida de asimetría de Fisher.91 Medida de asimetría de Pearson.91 Medida de apuntamiento o curtosis.

101 CAPÍTULO IV. Análisis Bivariante de Variables Cualitativas.101 Distribución conjunta de variables. Tabla de contingencia.108 Chi-cuadrado y C de contingencia.113 Lambda.119 Gamma, Tau-b y Tau-c.

133 CAPÍTULO V. El Coeficiente de Correlación.

133 Asociación lineal entre dos variables.134 Asociación lineal positiva o negativa.137 Estadístico de covarianza.144 Propiedades de la covarianza.145 Coeficiente de correlación lineal.148 Propiedades del coeficiente de correlación.148 Matriz de correlaciones.149 Algunos errores en la interpretación del coeficiente de correlación.153 El coeficiente de correlación de rangos de Spearman.


4/245

177 CAPÍTULO VI. Ajuste de una Recta.

179 De la propuesta de causalidad a la recta de regresión.182 Obtención de a y b por mínimos cuadrados ordinarios.

186 Derivación de las expresiones de mco para a y b .189 Ejemplos de cálculo de la recta de regresión.195 Ajustes no lineales.196 ¿Siempre es posible un buen ajuste?198 Algunas propiedades del error del ajuste.198 Medida de bondad del ajuste: Coeficiente de determinación R 2.201 Límites del coeficiente de determinación.204 Análisis gráfico de los errores del ajuste.205 ¿Existe alguna relación entre el coeficiente de correlación y el

coeficiente de determinación?

205 Dos ejemplos numéricos sobre el coeficiente de determinación.

231 BIBLIOGRAFÍA.


5/245

INTRODUCCIÓN: ¿Qué es...?

¿Qué es una variable?

En estadística, como en matemáticas o economía, se emplea el conceptode variable para referirnos a cualquier característica, que toma valoresdiferentes en un conjunto de observaciones. En economía, por ejemplo,definimos la renta como una variable. Al hacerlo podemos estar pensando en losingresos anuales de las familias de una región, en la que cada familia tendrá un

volumen de ingresos distinto. También podemos pensar en los ingresosagregados de la región, medidos a lo largo del tiempo (cada trimestre o cadaaño), y considerar que la región es el individuo sobre el que se mide la variable.Las dos interpretaciones del concepto de renta que apuntamos son correctas,utilizándose en ámbitos distintos. Lo que es esencial en su definición es la posibilidad de medir el nivel de ingresos de una manera sistemática (sea para unconjunto de familias en un momento del tiempo, sea para un único individuo,familia o región a lo largo de un periodo), obteniendo observaciones de unacantidad variable.

En el caso de la renta estamos considerando una variable de tipocuantitativo. Hablamos de una vari able cuantitativa cuando la característicaque se mide toma valores numéricos. Muchas de las variables económicas sonde este tipo, pero también hay variables económicas de tipo cualitativo.Entendemos por var iable cuali tativa aquella que toma valores no numéricos.La característica que se mide en el individuo sería, en este caso, unacualidad (un atributo) del mismo. Por ejemplo, la distinción de losconsumidores por sexo, el tipo de familia (su composición), el nivel de estudios ola categoría profesional son variables de tipo cualitativo que forman parte de losanálisis de los patrones de consumo. La pertenencia a un sector industrial

concreto, el tipo de mercado (nacional o internacional) en el que se opera, laexistencia de barreras de entrada son características que se estudian en economíaindustrial.

La distinción entre variables cuantitativas y cualitativas es importantedesde el punto de vista estadístico porque las técnicas que pueden emplearse enuno u otro caso son diferentes.


6/245

¿Qué es la estadística descriptiva? ¿Cuál es el ámbito de laestadística descriptiva en el análisis económico?

La estadística descr ipti va es un conjunto de métodos cuyo objetivo esordenar las observaciones, resumir la información disponible y obtener lasmedidas cuantitativas que describen sus características. La descripción escuantitativa y pretende ser lo más sintética posible.

La teoría económica se suele interesar por variables económicas en unnivel alto de abstracción. Los campos de la macroeconomía y microeconomía, laeconomía del consumo y economía de la producción, la economía financiera, etc.toman como referencia agentes económicos, sobre los que se definen modelos decomportamiento. Estos agentes, definidos como referencias abstractas tienen, sinembargo, su conexión con la realidad económica. El ámbito de la estadística seaplica a esos individuos reales, estudiando variables como el gasto familiar, los beneficios empresariales o el índice de paro de un país.

Las técnicas estadísticas también se aplican al control de calidad de la producción, a la gestión de carteras de acciones, etc., campos de menorabstracción, en los que las variables a estudiar pueden ser tan concretas como la producción diaria de una máquina o el precio de una acción. En cualquiera de loscampos en los que se aplique, la estadística descriptiva pretende ayudar a plantear y resolver los problemas de la economía.

¿Qué son la población y la muestra?

Al conjunto de individuos objetivo del análisis se le denomina población. Una muestra es una parte de la población. Cuando se trabaja con una muestralas conclusiones que se obtienen deben restringirse, inicialmente, a ésta. Extraerconclusiones más generales, aplicables a toda la población, sólo puede hacerse deuna manera limitada, siendo necesario entre otras cosas que la muestra searepresentativa y que la generalización de las conclusiones se haga de una forma prudente y rigurosa. Las técnicas de la estadística in ferencial facilitan esa generalización desde la muestra a la población.

Las técnicas descriptivas se pueden aplicar a toda la población, si esta seconoce, o a una muestra. En el caso de disponer únicamente de informaciónmuestral se deberán aplicar las técnicas de la estadística inferencial si se quierengeneralizar las conclusiones obtenidas.


7/245

El trabajo con muestras es usual es economía. Uno de los ejemplos másconocidos para justificar el uso de las muestras se encuentra en el terreno delcontrol de calidad. Una empresa dedicada a la producción de bombillas, las habrádiseñado garantizando un tiempo de vida determinado. Antes de servir su

producto la empresa deseará comprobar la fiabilidad real de su oferta realizandoalgún tipo de prueba, pero obviamente esto no lo podrá hacer con toda la producción, puesto que la destruiría. Una muestra representativa permitirá a laempresa comprobar el tiempo de duración real de sus bombillas. Ejemplos desituaciones similares no son difíciles de encontrar. Piense, por ejemplo, en lasempresas de auditoría contable cuando acceden a la información de una empresa.Si la empresa auditora se viera obligada a seguir cada una de los procesos de laempresa (desde el primer movimiento contable al archivo de la última factura) severía metida en una labor inabordable. La selección, al azar, de una muestra dealgunos movimientos contables puede ser suficiente para verificar la corrección

de la toda la gestión.

La necesidad de trabajar con muestras responde en muchas ocasiones aun ahorro en los costes de obtención de la información. Si puede obtenerseinformación esencial y generalizable a partir de una muestra no será precisoacceder a toda la población.

En ocasiones, el recurrir a las muestras no obedece a una cuestión de

costes, sino a la imposibilidad de acceder a todas las observaciones. Estasituación es frecuente en economía cuando se recoge la evolución temporal delvalor de una variable. Algunos modelos económicos consideran que, en unmomento del tiempo, la población de interés son todos los valores posibles que puede tomar una observación. Por ejemplo, imagine que está siguiendo laevolución diaria del precio de una acción en un mercado bursátil a lo largo de unaño. Cada día usted observará el precio de la acción a la hora del cierre de lasesión de bolsa, de manera que si el mercado abre durante doscientos días,dispondrá de doscientos precios. Respecto al año, ese conjunto de doscientasobservaciones, ¿se considera una población o una muestra del precio de la

acción? Se dispone de todos los precios de cierre observados a lo largo del año, pero no de todos los precios que ha tomado la acción. En un día concreto, el precio de la acción puede tomar distintos valores y es hasta cierto punto unacuestión de azar el que a la hora del cierre se observe un precio determinado. Lasdoscientas observaciones pueden entenderse como una muestra de todos los precios que puede haber tomado la acción (que definirían la población). En estecaso, los posibles valores de una variable en un momento del tiempo definirían la población, el valor observado se consideraría una realización muestral.


8/245

El empleo de información muestral obedece a veces a la imposibilidad deobservar toda la población.

¿Qué es un parámetro? ¿Qué es un estadístico?

Cuando queremos entender lo que ocurre con unos datos, lo másadecuado es resumir los valores individuales. Estaremos interesados en conocercuál es el valor representativo de un grupo o hasta qué punto las observaciones sealejan de ese valor. Cuando se está estudiando una población, estas medidas quedescriben las características de los datos se denominan parámetrospoblacionales . El valor medio de una variable en una población sería un parámetro, también lo es la proporción de individuos de la población que tienenuna característica. La discusión de algunos de estos parámetros es parte de laestadística.

En general, daremos el nombre de estadístico a cualquier fórmulaaplicada en la información muestral. Muchos de los estadísticos que se utilizan pretenden ser estimaciones de los parámetros de la población. Si sólo disponemosde una muestra, podemos calcular el valor medio de las observaciones y suponerque esa media muestral puede ser una buena aproximación al valor del

parámetro, la media poblacional . La relación entre el parámetro y su estimaciónen la muestra es parte esencial de la estadística inferencial. No obstante, lostérminos parámetro y estadístico son palabras de uso frecuente también en laestadística descriptiva.

¿Qué es una muestra aleatoria?

Para que las muestras sean útiles deben ser representativas de la población. Una manera de garantizar la representatividad de una muestra consiste en obtenerla mediante procedimientos aleatorios . Los muestreosaleatorios garantizan la representatividad de la muestra al basarse en el azar . Sise desea extraer una muestra de cien observaciones de una población de milindividuos, parece razonable seleccionar aleatoriamente los cien individuos entretoda la población. La selección aleatoria más sencilla es el muestreo aleatoriosimple (m.a.s.) En su diseño ideal, el m.a.s. consistiría en asignar un número acada uno de los elementos de la población y seleccionar al azar (con igual probabilidad para cada número) el conjunto de individuos que formarán parte de


9/245

la muestra. Puede imaginar que este diseño “ideal”, para ser operativo necesita enocasiones de otros criterios que lo complementen (qué ocurre cuando la población no puede numerarse, por ejemplo), pero queremos destacar ahora laidea de que mediante diseños muestrales aleatorios se pretende conseguir

muestras lo más representativas posibles de la población.

Los diseños de obtención de las muestras son a veces más complejos queel muestreo aleatorio simple. Si sabemos que una población se distribuyeaproximadamente igual entre los dos sexos, podría interesarnos que ese porcentaje se mantuviera en la muestra. Por azar, sería posible obtener unamuestra en la que la mayoría de los individuos perteneciera a uno de los dossexos. Un diseño muestral más rico podría dividir la población en dos (según susexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al

azar la mitad de la muestra entre la población masculina y la otra mitad entre la población femenina. El diseño ya no es puro azar, puesto que éste se sacrifica parcialmente para garantizar la máxima representatividad. La complejidadestadística del diseño muestral puede aumentar rápidamente, cuando se imponenmás criterios. Lo que resulta esencial es que bajo diseños más o menoscomplejos, siempre aparece finalmente un procedimiento de selección basado enel azar.

El estudio y diseño de los diferentes tipos de muestreo es una parte de la

estadística inferencial y no se discuten en este libro. Sólo en un punto del análisisdescriptivo se produce un cruce con la idea de población y es cuando a cadaindividuo de la muestra se le asocia un factor de elevación poblacional . El factorde elevación poblacional indica el número de individuos de la población a losque representa cada uno de los individuos de la muestra. Imaginemos una población con 1000 individuos, de la cual se quiere extraer una muestra de diezobservaciones. ¿A cuántos individuos de la población representa cada uno de losindividuos de la muestra? Si se trata de un m.a.s., cada uno de los individuos dela muestra ha tenido igual oportunidad de ser elegido y cada individuorepresentará a 1000/10=100 individuos en la población. El factor de elevación decada elemento de la muestra será igual a 100. El Instituto Nacional deEstadística, por ejemplo, realiza gran parte de su trabajo basándose en muestras,aunque ofrece sus resultados al nivel de la población. Para ello utiliza los factoresde elevación calculados previamente (en función del particular diseño muestral).Si se quiere “describir la población” empleando la muestra, puede resultar útilemplear estos factores.


10/245

Estructura del libro

El libro se estructura en seis capítulos. Los tres primeros tratan el análisisdescriptivo de una única variable (análisis descriptivo univariante): se dedica uncorto capítulo al tratamiento de variables cualitativas y dos capítulos a lasvariables de tipo cuantitativo. Los capítulos siguientes se centran en el análisis delas relaciones entre dos variables (relaciones bivariantes). En el capítulo cuartose estudian las relaciones bivariantes entre variables cualitativas, mientras que elquinto y sexto están dedicados a las relaciones bivariantes entre variablescuantitativas. En cada capítulo los conceptos teóricos están acompañados de unnúmero amplio de ejemplos.


11/245

CAPÍTULO I. Descripción de VARIABLES CUALITATIVAS

En este capítulo se exponen las técnicas más sencillas que se utilizan paradescribir una variable cualitativa. Definiremos las variables cualitativasnominales y ordinales, los conceptos asociados a la distribución de frecuencia ylos limitados estadísticos que pueden emplearse en la descripción. El capítulo secierra con algunos de los procedimientos gráficos empleados para representar lasdistribuciones de estas variables.

Variables cualitativas nominales y ordinales. En una encuesta sobre el gastoturístico se pregunta a los visitantes de una autonomía cuál es la impresión que

han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes:

⇒ La impresión que ha tenido de su viaje ha sido:• Muy buena.• Buena.• Normal.• Mala.

También se pregunta cuál es la categoría socio-profesional en la que sesitúa el encuestado:

⇒ Su profesión es:• Profesional liberal.• Directivo o empresario.• Administrativo.• Trabajador manual.• Trabajador Autónomo.• Funcionario.• Jubilado.

• Estudiante• Otras.

Las anteriores variables son de tipo cualitativo, calificándose como detipo ordinal (la primera) y nominal (la segunda). La distinción entre ellas esclara. En la pregunta sobre la impresión del viaje, la respuesta “muy buena”indica un nivel de satisfacción mayor que “buena”, ésta última respuesta estaría asu vez por encima de “normal ” y “mala” señalaría en nivel mínimo desatisfacción. Las respuestas pueden, en algún sentido, ordenarse de menos a más.


12/245

En cambio, no es posible ordenar de menos a más las respuestas de una variablecomo la categoría profesional.

Las variables cualitativas nominales únicamente ponen nombre a una

característica, las variables ordinales llevan asociadas un orden en las respuestas.

Las categorías de una variable nominal, al contrario de las de una variableordinal, no pueden ordenarse de menos a más.

Distribución de frecuencias. Frecuencia relativa y frecuencia relativaacumulada. La principal herramienta de análisis de una variable de tipocualitativo es el simple recuento del número de los casos dentro de cadacategoría. Además de referirnos a las categorías de una variable, emplearemos

también el término “valores” de la variable.

Supongamos que tenemos una variable A, que puede tomar las categoríasA1 , A2 ,…, A I . El primer objetivo es conocer cuántos individuos tienen cadacaracterística.

La principal herramienta de análisis de una variable de tipo cualitativo es elsimple recuento del número de los casos dentro de cada categoría.

En estadística, el número de veces que se repite una de las categorías ovalores de la variable se denomina frecuencia o, de manera más precisa,frecuencia absoluta (que denotaremos ni). Por distribución de frecuencias seentiende el registro de todos las posibles categorías o valores de la variable, junto con sus frecuencias asociadas. Además de las frecuencias absolutas sesuelen presentar las frecuencias relativas de cada categoría. La frecuenciarelativa se define como la frecuencia absoluta dividida por el total deobservaciones:

f n

ni I i

i= =, , ,1 K

Cuando se trabaja con una variable de tipo ordinal (cuyas categorías se pueden ordenar de menor a mayor) se pueden calcular las frecuenciasacumuladas . La idea de acumulación facilita conocer rápidamente el número deobservaciones que están por debajo de un determinado valor o categoría. Sedistingue entre frecuencias acumuladas absolutas y relativas . La frecuenciaabsoluta acumulada se define como:


13/245

N n i I i j j

i

= ==

∑1

1, ,K .

Y la frecuencia relativa acumulada como:

I in

N

n

n

F i

i

j j

i ,,1,1

K===∑

=

Recuerde que tiene sentido hablar de valores acumulados cuando lasrespuestas de la variable se han ordenado de menor a mayor, lo que sólo es posible si la variable cualitativa es de tipo ordinal.

La imagen estándar de una distribución de frecuencias es tan sencillacomo la que se muestra en el cuadro 1. En la misma aparecerían, para el total den observaciones, los I distintos atributos de la variable, sus frecuencias absolutas,las frecuencias relativas y las frecuencias relativas acumuladas.

Cuadro 1Distr ibución de frecuencias

Categorías FrecuenciasAbsolutas FrecuenciasRelativas FrecuenciasRelativas acumuladas

A1 n1 n1 /n n1 /nA2 n2 n2 /n (n1+n2 ) /n… … … …A I n I n I /n (n1+…+n I ) /n

Ejemplo 1. Régimen de propiedad de la vivienda. El régimen depropiedad de la vivienda familiar puede considerarse como una variable

cualitativa, distinguiendo tres posibles categorías: la vivienda está en alquiler, lavivienda es de propiedad con la hipoteca pendiente o la vivienda es depropiedad sin hipoteca. Ante una muestra concreta de familias, podemosdescribir de una manera cuantitativa su relación con la propiedad de su vivienda.

En el cuadro 2 se muestra la distribución de frecuencias de una muestrade 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele sercómodo, cuando se graban los datos, convertir las categorías en etiquetasnuméricas. En nuestro ejemplo se ha definido una variable denominada“vivienda” que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1


14/245

cuando la vivienda es de propiedad pero tiene la hipoteca aún vigente y valor 2,si la vivienda es de propiedad y sin hipoteca.

Cuadro 2VI VI ENDA POSESI ÓN VI VI ENDA HABI TUAL( 0, 1, 2)

Cum Val ue Label Val ue Fr equency Per cent Per cent

Al qui l er 0 1764 36, 8 36, 8Hi pot eca vi gente 1 960 20, 0 56, 9Pr opi edad 2 2067 43, 1 100, 0

- - - - - - - - - - - - - - Tot al 4791 100, 0

Val i d cases 4791 Mi ssi ng cases 0

En el cuadro 2 aparecen los siguientes conceptos:

• Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y2 reflejan las categorías de alquiler, vivienda con hipoteca vigente y viviendade propiedad (en la columna Value Label se muestran las “etiquetas” de la

variable).

• La Frecuencia absoluta (Frequency ). El número de individuos que tiene cadauna de las categorías.

• La frecuencia relativa (Percent ) . Definida como el cociente entre lafrecuencia absoluta y el número total de observaciones.

• La frecuencia relativa acumulada (Cum Percent ). La frecuencia relativaacumulada se define como la suma acumulada de los porcentajes relativosde las categorías anteriores y hasta la propia categoría.

La vivienda en propiedad y ya pagada, con un 43.1% de los declarantestiene el mayor porcentaje de individuos. La segunda es la categoría de viviendaen alquiler, con un 36.8% de declarantes. Finalmente, la categoría con menosindividuos corresponde a la de declarantes que viven en vivienda de propiedad,aún no pagada. La importancia de cada una de las categorías es fácil de percibircuando el número de categorías de la variable es muy pequeño.


15/245

Los porcentajes acumulados no tienen una interpretación “inocente”cuando se tratan variables de tipo cualitativo. La información de que el 56.9% delos individuos viven en régimen de alquiler o en vivienda propia con hipotecapuede ser una información sin sentido.

• La frecuencia relativa se define como la frecuencia en cada clase dividida por el total de observaciones:

f n

nii=

• La frecuencia relativa acumulada en cada clase se define, una vezordenadas las respuestas desde la categoría inferior a la superior, como:

n

N

n

n

F i

i

j j

i ==∑

=1

• En variables de tipo cualitativo nominal el porcentaje acumulado defrecuencias no debe leerse de manera automática, puesto que al no existir unorden en las categorías, el sentido de la acumulación puede ser confuso.

Diagrama de barras. Los resultados de la distribución de frecuencias se pueden acompañar de ayudas gráficas que facilitan la lectura de la información.El diagrama de barras representa, para cada una de las categorías de la variable(indicada en uno de los ejes de la gráfica), su frecuencia absoluta o relativa (quese muestra en un segundo eje). Su objetivo es disponer de una visualización claray rápida de la importancia de cada una de las categorías de la variable. En lagráfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.

El diagrama de barras representa gráficamente las frecuencias (absolutas orelativas) de la variable.


16/245

Gráfica 1

Gráfica de barras

POSESIÓN VIVIENDA (0=Alquiler,1=Hipoteca,2=Propiedad)

210 F r e c u e n c i a

2200

2000

1800

1600

1400

1200

1000

800

Moda. En el Ejemplo 1 sobre el régimen de propiedad de la vivienda uno de losresultados obtenidos era que la categoría con un porcentaje mayor de individuosera la 2 (vivienda en propiedad sin hipoteca). Esta percepción puntual puedeconvertirse en el primer estadístico de resumen, ya que saber cuál es la categoríamás frecuente de una variable dice algo del comportamiento general del grupo de

individuos. Conocer el valor con mayor frecuencia permite disponer de unamedida sintética de cuál es la tendencia general de las observaciones. A estevalor se le denomina moda de la distribución.

La moda de una distribución es el valor de la variable conmayor frecuencia.

En ocasiones, las distribuciones de frecuencias se pueden caracterizar enfunción de la moda, distinguiendo entre distribuciones con una única moda (distribuciones unimodales ) y distribuciones en las que son dos o más de dos losvalores que alcanzan la máxima frecuencia (distribuciones bimodales omultimodales , respectivamente).

Es difícil encontrar distribuciones empíricas que sean multimodales en elsentido estricto en que aquí se han definido, es decir, que de manera exacta variosvalores tengan la misma frecuencia. Sin embargo, resulta interesante detectardistribuciones en las que dos o más valores tienen frecuencias más altas que los


17/245

demás. En la práctica estas distribuciones se denominan también multimodales.La explicación de esta flexibilidad puede encontrarla en la comparación de lasgráficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable quetomaría ocho categorías. En la primera distribución se observa una doble moda,

con las categorías A3 y A7 con superior e igual frecuencias absolutas. En lasegunda distribución la moda se encuentra en la categoría A3 , pero resulta obvioque cualquier comentario sobre la distribución que ignorase la categoría A7 “falsearía” la imagen de conjunto que se desea transmitir. Hablar de unadistribución bimodal , con una primera moda situada en la categoría A3 y unasegunda moda en la categoría A7 resultaría ser un retrato más fiel de lasobservaciones.

Gráfica 2

Variable Cualitativa

A8 A7 A6 A5 A4 A3 A2 A1 F r e c u e n c i a s

120

100

80

60

40

20

0

Gráfica 3

Variable Cualitativa

A8 A7 A6 A5 A4 A3 A2 A1 F r e c u e n c i a s

120

100

80

60

40

20

0


18/245

Mediana. En el caso de variables cualitativas ordinales la moda no es el únicoestadístico con significado. Puesto que en las variables ordinales existe unsentido de orden en sus categorías, si éstas se ordenan de “menos” a “más”, ladistribución de frecuencias acumuladas tendrá una interpretación. La mediana es

aquella característica de la distribución que ocupa la posición central de lamisma. Ordenados los valores de la variable (de menor a mayor), la medianadefine aquel punto que deja por debajo de sí mismo el 50% de la distribución.

Ordenados los valores de la variable (de menor a mayor) la mediana es aquelvalor de la distribución que ocupa el valor central de la misma.

Ejemplo 2. Investigación comercial de un nuevo producto. Lasempresas, antes de lanzar un producto nuevo, realizan pruebas para medir suaceptación. Una práctica habitual es ofrecer una muestra del producto a algunosconsumidores potenciales. Una encuesta posterior permitirá conocer el nivel desatisfacción del consumidor y las modificaciones que podrían resultaradecuadas. Supongamos que una empresa productora de un abrillantador demuebles reparte de manera aleatoria 236 unidades de un nuevo producto entreun número igual de posibles consumidores, realizando después una encuestasobre el nivel de satisfacción respecto al producto. En el cuadro 3 sereproducirían los resultados obtenidos.

Cuadro 3

Val i d Cum Val ue Label Val ue Fr equency Per cent Per cent Per cent

Nada sat i sf act or i o 1 6 2, 5 2, 7 2, 7Poco sat i sf act ori o 2 31 13, 1 13, 9 16, 6Bastant e sat i sf act ori o 3 96 40, 7 43, 0 59, 6Muy sat i sf act ori o 4 90 38, 1 40, 4 100, 0No l o ha probado 5 13 5, 5 Mi ss i ng

- - - - - - - - - - - - - - - - - - - - - Tot al 236 100, 0 100, 0

La variable cualitativa presenta cuatro posibles respuestas, indicandocada una de ellas el nivel de satisfacción del consumidor. Existe una quintaopción que recoge la categoría de aquellas personas que finalmente no hanempleado el producto y que, en este ocasión, se han definido como “valoresperdidos” (missing ). En los resultados del programa aparecen dos columnas deporcentajes. En la primera, el total de observaciones (hayan empleado o no elproducto) se recoge como referencia para calcular las frecuencias. En la


19/245

segunda columna (valid percent ) se calculan lo que se denominan “porcentajesválidos”, calculándose las frecuencias con referencia al número de individuosque han empleado el producto.

Las características más relevantes de la distribución serían una modapara la categoría de “bastante satisfactorio” (43% de las respuestas válidas) y unvalor mediano en la misma categoría, al acumularse dentro de ella el 50% deconsumidores. Además, en los porcentajes acumulados puede leerse que sólo el16,6% de los consumidores consideran el producto “nada” o “ poco” satisfactorio.El diagrama de barras de la distribución se representa en la gráfica 4,apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de losresultados anteriores el hecho de que la lectura de los porcentajes acumulados(y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativade tipo ordinal.

Gráfica 4

Gráfica de barras

Satisfacción con respecto al producto

Nada satisf actorioPoco satisf actorioBastante satisfact.Muy satisf actorio P o r c e n t a j e

50

40

30

20

10

0

Pictograma. Junto a los diagramas en barra es posible representar la importanciade cada una de las categorías usando otro tipo de gráficas. El pictograma no esmás que un círculo en el que se representan las categorías de la variableproporcionalmente a su frecuencia. La regla de proporcionalidad se consiguedefiniendo los ángulos proporcionalmente a las frecuencias. Así, una categoríacon una frecuencia relativa del 40.4% debería cubrir un ángulo igual a

0 404 360 145 440 0. .⋅ = . En la gráfica 5 se representan las frecuencias relativasdel ejemplo anterior por medio de un pictograma.


20/245

Gráfica 5

Frecuencias relativas

2,7%

13,9%

43,0%

40,4%

Nada satisf echo

Poco satisf echo

Bastante satisf echo

Muy satisf echo

Diagrama de Pareto. Si se quiere resaltar la distribución de frecuenciasacumuladas puede emplearse el denominado diagrama de Pareto . Éste no es másque un diagrama en barras en el que las categorías se ordenan de mayor a menorfrecuencia, dibujando sobre las barras una línea indicativa de la frecuenciaacumulada hasta esa categoría. La gráfica se puede realizar tanto sobre variablesnominales como ordinales.

El diagrama de Pareto es un diagrama de barras en el que las categorías seordenan de mayor a menor frecuencia, dibujando una línea indicativa de lafrecuencia acumulada hasta esa categoría.

Ejemplo 3. Control de producción. Una empresa sufre continuas paradasen su cadena de producción. Dada la importancia de las consecuenciaseconómicas de estas paradas se decide controlar durante un mes cuáles son lasrazones que las ocasionan. Para ello se solicita de los operarios que anoten eltipo de percance y el tiempo que tarda en arreglarse, desde que se detectahasta que se soluciona el problema. Las causas detectadas (seis causasparticulares a este proceso de producción) así como su frecuencia y el tiempo deparada se reproducen en el cuadro 4.


21/245

Cuadro 4Causa Frecuencia Tiempo de parada

(en minutos)1 Rotura de tornillos 10 70

2 Rotura de arandelas 10 103 Rotura o bloqueo de cintas 4 414 Rotura de aros de sujeción 2 205 Rotura de otras piezas 2 106 Desajustes de temperatura 11 53

En total, como consecuencia de 39 paradas, se han perdido 204 minutosen un mes de trabajo. El tiempo de parada y el número de paradas se puedenanalizar a partir de los correspondientes diagramas de Pareto. En la gráfica 6 se

observa que las tres causas más frecuentes de parada son la sexta, primera ysegunda, por este orden. Estas tres primeras causas, tal como se observa en lalínea continua del diagrama, representan un porcentaje alto del total de paradas,en concreto un 79,5% de éstas, (11+10+10)/39. En la gráfica 7 se puedeobservar, sin embargo, que no todas las paradas tienen igual importancia encuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta ytercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el interésde la empresa se encuentra en reducir al máximo el tiempo de parada (y notanto el número de veces en que la producción se detiene) debería centrarse enlos determinantes de la rotura de tornillos, los desajustes de temperatura y larotura o bloqueo de cintas.

Gráfica 6

Causa de la parada

5,004,003,002,001,006,00 N ú m e r o d e p a r a d a s

50

40

30

20

10

0

P or c en t a j e

100

50

04

101011


22/245

Gráfica 7

Causa de la parada

5,002,004,003,006,001,00 T i e m p o d e p a r a

d a

300

200

100

0

P or c en t a j e

100

50

020

4153

70


23/245

CAPÍTULO II. Distribución de frecuencias e histograma

Las variables de tipo cuantitativo son aquellas que toman, en lugar decategorías, valores numéricos. Las categorías de las variables cualitativas puedenrelacionarse con valores numéricos, pero eso no las convierte en cuantitativas, puesto que el número, en su caso, no es más que una “etiqueta”, careciendo desentido operar matemáticamente con ellos.

Escala de intervalo y escala de cociente. Desde un punto de vista teórico sedistingue entre variables cuantitativas medidas en escala de intervalo y en escalade cociente . Las variables cuantitativas tienen una escala de intervalo si se

pueden ordenar sus valores y, además, se pueden realizar con ellos lasoperaciones de suma y resta. La primera característica la comparte con lasvariables cualitativas ordinales, pero al contrario que en aquéllas, en la escala deintervalo puede medirse la distancia entre distintas observaciones. Permiteafirmar, por ejemplo, que un individuo tiene un valor que supera en diezunidades al que toma otro individuo, o que entre dos individuos hay unadiferencia de veinte unidades. Las variables con escala de cociente añaden aestas características la de incorporar un origen no arbitrario. La diferenciaesencial es que este segundo tipo de variable admite un cero verdadero (toneladas consumidas o número de empleados, por ejemplo, donde el cero seentiende como inexistencia) y permite el cálculo de proporciones entre losdistintos valores (una observación toma un valor que es el doble que el de otra). Normalmente, desde el punto de vista práctico, no siempre se realiza unadistinción entre ellas.

Variables discretas y continuas. También se suele distinguir en la estadísticadescriptiva entre variables de tipo discreto (si la variable toma un número finitoo infinito numerable de observaciones) y de tipo continuo (infinito nonumerable). De nuevo, desde el punto de vista práctico esta distinción no esimportante en muchas ocasiones.

Distribución de frecuencias. Diagrama de barras. La idea de recuento, esdecir, la idea de crear una distribución de frecuencias debe ser, como en el casode las variables cualitativas, el primer paso del análisis. Observar los distintosvalores que toma una variable, ordenarlos de menor a mayor y contar el númerode veces que aparece cada valor nos dará una idea de su comportamiento. Elúnico problema que se plantea con una variable de tipo cuantitativo es que sueletomar un número de valores mucho mayor que las posibles categorías de una


24/245

variable cualitativa. La imagen general que se pretende dar con la distribución defrecuencias puede ser entonces poco útil, porque la información está pocoresumida. El trabajo con intervalos de la variable, en lugar de con cada uno desus posibles valores, es el procedimiento normal para conseguir una imagen

sintética de la distribución.

Ejemplo 1. Distribución de frecuencias del número de hijos. En esteprimer ejemplo vamos a obtener la distribución de frecuencias y eldiagrama de barras del número de hijos de una muestra de familiasespañolas. La muestra de 1254 familias está formada por una selecciónaleatoria de declarantes del IRPF que ya hemos analizado anteriormente.La distribución de frecuencias para una muestra de esta variable Númerode hijos del hogar aparece en el cuadro 1 y su representación en undiagrama en barras en la gráfica 1.

Cuadro 1

Número de hi j os del hogarCumul at i ve Cumul at i ve

Ni ños Fr equency Percent Fr equency Percent

0 562 44. 8 562 44. 81 307 24. 5 869 69. 32 301 24. 0 1170 93. 33 59 4. 7 1229 98. 04 23 1. 8 1252 99. 85 2 0. 2 1254 100. 0

Gráfica 1


25/245

Número de hijos del hogar

543210 F r e c u e n c i a s a b s o l u t a s

600

500

400

300

200

100

059

301307

562

El primer resultado interesante de la distribución es el disponer de

los valores que toma la variable, información que a priori no conocíamos.El número de hijos en la muestra toma únicamente valores 0, 1, 2, 3, 4,5. Se trata de una variable de tipo cuantitativo discreta. Como en el casode una variable cualitativa podríamos detectar la moda y mediana de ladistribución. La moda corresponde al valor 0, ya que el 44.8% de lasfamilias no tienen ningún hijo en el hogar. La mediana de la distribuciónes el hijo único, ya que es en el valor 1 en donde se acumulan el 50% de

las observaciones. Se puede resaltar, además, la importancia de los tresprimeros valores para describir el comportamiento de la muestra: el93.3% de las familias tendría un número igual o inferior a dos hijos.

Un problema diferente se enfrenta cuando la variable toma diversosvalores numéricos, pero con un número mayor de posibilidades. Pensemos en ladistribución de la edad del perceptor principal de rentas de una familia(sustentador principal) en la misma muestra de declarantes. En concreto, sisolicitásemos la distribución de frecuencias en una muestra de 1460 familias,

para la variable Edad del sustentador principal , nos encontraríamos ahora con ladistribución del cuadro nº 2.

Cuadro 2

EDAD del sust ent ador pr i nci palVal i d Cum

Val ue Fr equency Per cent Per cent Per cent16, 00 1 , 1 , 1 , 117, 00 4 , 3 , 3 , 3

18,00 13 ,9 ,9 1,2


26/245

19, 00 9 , 6 , 6 1, 820, 00 20 1, 4 1, 4 3, 221, 00 18 1, 2 1, 2 4, 522, 00 33 2, 3 2, 3 6, 723, 00 34 2, 3 2, 3 9, 0

24, 00 37 2, 5 2, 5 11, 625, 00 36 2, 5 2, 5 14, 026, 00 42 2, 9 2, 9 16, 927, 00 33 2, 3 2, 3 19, 228, 00 31 2, 1 2, 1 21, 329, 00 33 2, 3 2, 3 23, 630, 00 32 2, 2 2, 2 25, 831, 00 27 1, 8 1, 8 27, 632, 00 34 2, 3 2, 3 29, 933, 00 45 3, 1 3, 1 33, 034, 00 31 2, 1 2, 1 35, 135, 00 32 2, 2 2, 2 37, 336, 00 31 2, 1 2, 1 39, 5

37, 00 26 1, 8 1, 8 41, 238, 00 31 2, 1 2, 1 43, 439, 00 31 2, 1 2, 1 45, 540, 00 25 1, 7 1, 7 47, 2

( Cont i nuaci ón Cuadr o 2)

41, 00 34 2, 3 2, 3 49, 542, 00 27 1, 8 1, 8 51, 443, 00 34 2, 3 2, 3 53, 744, 00 31 2, 1 2, 1 55, 845, 00 40 2, 7 2, 7 58, 646, 00 32 2, 2 2, 2 60, 8

47, 00 35 2, 4 2, 4 63, 248, 00 23 1, 6 1, 6 64, 749, 00 20 1, 4 1, 4 66, 150, 00 28 1, 9 1, 9 68, 0

51,00 11 ,8 ,8 68,852, 00 34 2, 3 2, 3 71, 153, 00 32 2, 2 2, 2 73, 354, 00 28 1, 9 1, 9 75, 255, 00 21 1, 4 1, 4 76, 656, 00 25 1, 7 1, 7 78, 457, 00 30 2, 1 2, 1 80, 458, 00 38 2, 6 2, 6 83, 0

59, 00 25 1, 7 1, 7 84, 760, 00 15 1, 0 1, 0 85, 861, 00 15 1, 0 1, 0 86, 862, 00 12 , 8 , 8 87, 663, 00 18 1, 2 1, 2 88, 864, 00 11 , 8 , 8 89, 665, 00 17 1, 2 1, 2 90, 866, 00 14 1, 0 1, 0 91, 767, 00 12 , 8 , 8 92, 568, 00 20 1, 4 1, 4 93, 969, 00 10 , 7 , 7 94, 670, 00 9 , 6 , 6 95, 2


27/245

71, 00 6 , 4 , 4 95, 672, 00 8 , 5 , 5 96, 273, 00 5 , 3 , 3 96, 574, 00 7 , 5 , 5 97, 075, 00 8 , 5 , 5 97, 5

76, 00 4 , 3 , 3 97, 877, 00 1 , 1 , 1 97, 978, 00 5 , 3 , 3 98, 279, 00 5 , 3 , 3 98, 680, 00 5 , 3 , 3 98, 981, 00 5 , 3 , 3 99, 282, 00 5 , 3 , 3 99, 683, 00 1 , 1 , 1 99, 784, 00 1 , 1 , 1 99, 785, 00 1 , 1 , 1 99, 886, 00 1 , 1 , 1 99, 987, 00 1 , 1 , 1 99, 988, 00 1 , 1 , 1 100, 0

- - - - - - - - - - - - - - - - - - - - Tot al 1460 100, 0 100, 0

Gráfica 2

EDAD del sustentador principal

8886

8482

8078

7674

7270

6866

6462

6058

5654

5250

4846

4442

4038

3634

3230

2826

2422

2018

16 F r e c u e n c i a s a b s o l u t a s

50

40

30

20

10

0

La lectura de esta distribución ya no resulta tan cómoda como cuando lavariable toma un número escaso de valores. La creación de la tabla sigue siendouna ayuda para comprender el comportamiento de la variable (moda, mediana, porcentajes acumulados hasta un determinado valor), pero resulta algo más difícilhacerse una idea general de la distribución. La representación gráfica deldiagrama en barras (gráfica 2) nos ayuda a simplificar la imagen, pero también presenta un exceso de información. Uno de los principales objetivos de las


28/245

técnicas estadísticas es facilitar la comprensión de la información numérica,sacrificando volumen de información (menor precisión) por una mejorcomprensión de la misma (mayor eficiencia).

Histograma. Para tratar variables que toman gran cantidad de valores el procedimiento usual es el de agrupar los valores en intervalos. Tomemos lavariable edad del sustentador principal con la que hemos trabajado en elapartado anterior. De una manera arbitraria, podemos pensar en crear intervalosde edad de 8 años: de los 16 a los 24 años, de los 24 a los 32, etc. En el cuadro 3se recoge el resultado de esta agrupación de la variable y en la gráfica 3, larepresentación correspondiente de las frecuencias relativas de cada intervalo.

Aunque ahora no dispone de información sobre el número de individuosde la muestra que tienen una edad concreta, los rasgos generales de ladistribución de la edad es más clara.

Cuadro 3

Val i d Cum

EDAD Frequency Percent Percent Percent

16 a 24 169 11, 6 11, 6 11, 624 a 32 268 18, 4 18, 4 29, 9

32 a 40 252 17, 3 17, 3 47, 240 a 48 256 17, 5 17, 5 64, 748 a 56 199 13, 6 13, 6 78, 456 a 64 164 11, 2 11, 2 89, 664 a 72 96 6, 6 6, 6 96, 272 a 80 40 2, 7 2, 7 98, 980 a 88 16 1, 1 1, 1 100, 0

- - - - - - - - - - - - - - - - - - - - - Tot al 1460 100, 0 100, 0


29/245

Gráfica 3

EDAD del sustentador principal

80 - 8872 - 8064 - 7256 - 6448 - 5640 - 4832 - 4024 - 3216 - 24

300

200

100

0

La representación realizada para la variable “Edad del sustentador principal” se denomina histograma . Aunque se parece al diagrama de barras,se diferencian en que en el diagrama, la altura de la barra es proporcional a lafrecuencia, mientras que en el histograma es el área del rectángulo la que es

proporcional a la frecuencia. Formalmente pueden establecerse otrasdiferencias entre el diagrama en barras y el histograma. En el diagrama, cada barra representa la frecuencia de un atributo de la variable, mientras que en unhistograma, cada uno de los rectángulos representa las frecuencias dediversos valores de la variable (intervalos de valores). Además, debe tenerseen cuenta que en los histogramas, cuando aparece un intervalo con frecuenciacero, no se omite por ello su representación, mientras que en un diagrama de barras no se incluye ningún espacio para aquellos valores con frecuencia nula.

En el histograma se representan las frecuencias de la variable definida enintervalos. El área del rectángulo es proporcional a la frecuencia en el intervalo.

El histograma se construye de manera que el área correspondiente alrectángulo que se dibuja sobre el intervalo sea proporcional a su frecuencia.Carecería de sentido proceder como en el diagrama de barras. Puesto que losintervalos en los que se puede dividir cualquier variable continua son de una


30/245

amplitud y número arbitrario, si dibujásemos barras con alturas proporcionales alas frecuencias para cada intervalo, los resultados serían absurdos.

Haciendo el área proporcional a la frecuencia relativa para el intervalo i-

ésimo se tendrá:

Area base alturan

ni i ii= =*

donde la base es la amplitud del intervalo y, por tanto, la altura del rectángulo esigual a:

alturan

n baseii

i

=1

Si un intervalo tiene una gran amplitud tenderá en principio a ofrecer unmayor número de frecuencias, no obstante en el histograma se seguirámanteniendo un área total proporcional. La altura del rectángulo, de acuerdo consu definición, se conoce como densidad de frecuencia .

Para identificar cada intervalo se emplea en ocasiones sus puntos medios,denominados marcas de clase :

2

intervalodel inferior Límiteintervalodel superior Límite

clasedemarca

+

=

En muchos histogramas es la marca de clase el valor que identifica losintervalos.

En general, se emplea el histograma: (i) cuando se trata de variablesque contienen muchos valores diferentes; (ii) cuando tiene sentido construirintervalos, agrupando valores adyacentes.

Cómo trabajar con los histogramas. El histograma pretende facilitar lacomprensión de la forma de la distribución de la variable.

Al estudiar un histograma se debe estar dispuesto a descubrir cuáles sonlos valores más frecuentes, los valores que ocurren con poca frecuencia, lasimetría o asimetría de la distribución, su dispersión y forma.

La moda y la mediana que utilizábamos para describir una variablecualitativa pueden usarse con la misma definición sobre las variables


31/245

cuantitativas. La moda es el valor con mayor frecuencia. La mediana es aquelvalor que (ordenada la variable de menor a mayor) deja por debajo de sí mismoel 50% de las observaciones. Estos estadísticos pueden calcularse sobre ladistribución original de la variable, aunque puede ser recomendable obtener la

moda y la mediana en los intervalos de la variable. Existen fórmulas para obtenerla moda y la mediana a partir de la información agregada en intervalos, pero estambién correcto detectar la moda y mediana en el propio intervalo y hablar, porejemplo, del intervalo modal cuando en una distribución se detecta un intervalocon un área (una frecuencia) mayor que los restantes.

Uno de los problemas de los histogramas es decidir con cuántosintervalos construirlos y si los intervalos deben ser todos de la misma amplitud. Normalmente los histogramas se construyen con intervalos de igual amplitud,de manera que o bien se define el número de intervalos y de ahí se deduce (a

partir del rango de la variable) la amplitud de cada intervalo, o bien se decidearbitrariamente la amplitud del intervalo y luego se deduce el número deintervalos. Estas decisiones están sujetas a una cierta arbitrariedad. Una reglafrecuentemente utilizada es la de definir intervalos de la misma amplitud, en

un número igual al entero más próximo a n .

Es normal definir intervalos de diferente amplitud en las colas de ladistribución (valores superiores e inferiores de la distribución), en donde ademásse suelen emplear intervalos abiertos. El intervalo inferior se define tomando losvalores por debajo de una cantidad (menos de __ ) y el intervalo superior, por

encima de una cantidad (más de __ ). El propósito de estos intervalos abiertos esevitar histogramas en los que “pesen” demasiado la representación de los valoresextremos, que pueden estar muy alejados del comportamiento común.

Ejemplo 2. Efecto del número de intervalos en la construcción delhistograma. La decisión sobre el número de intervalos que deben tomarsepara construir un histograma puede ser decisiva para la comprensión dela distribución. Como ejemplo se ofrecen en los gráficos 4 a 7 cuatrohistogramas de la variable ingresos familiares de una muestra de familias

de la Encuesta de Presupuestos Familiares (EPF-90). En la gráfica 4 seofrece un histograma basado en 27 intervalos (número seleccionadosegún criterios formales por un programa informático de estadística),siendo la amplitud de cada intervalo de 20000 ptas. La gráfica 5 se basaen 10 intervalos (amplitud 54000), la gráfica 6 en 25 intervalos (amplitud21600) y, finalmente, la gráfica 7 con 50 intervalos de amplitud igual a10800, cada uno de ellos.


32/245

Gráfica 4 Gráfica 5

Ingresos percibidos. Muestra EPF

54000005000000

46000004200000

38000003400000

30000002600000

22000001800000

14000001000000

600000200000

400000

300000

200000

100000

0

Ingresos percibidos. Muestra EPF5230000

46900004150000

36100003070000

25300001990000

1450000910000

370000

600000

500000

400000

300000

200000

100000

0

Gráfica 6 Gráfica 7

Ingresos percibidos. Muestra EPF

53920004744000

40960003448000

28000002152000

1504000856000

208000

300000

200000

100000

0

Ingresos percibidos. Muestra EPF5014000

44740003934000

33940002854000

23140001774000

1234000694000

154000

200000

100000

0

Observe que ni siquiera las gráficas 4 y 6 (con 27 y 25 intervalos)proporcionan una imagen idéntica, detectándose una moda más señalada en elprimer histograma. En la gráfica 5 (con 10 intervalos) se recoge la imagen básicade la distribución, siendo incluso suficiente para captar las grandes líneas de lamisma, caracterizada por ser una distribución asimétrica hacia la derecha. Sinembargo, si uno está interesado en detectar posibles modas y submodas (omodas relativas) parecería más adecuado el histograma basado en 50intervalos.

Cuando se trabaja con histogramas, resulta recomendable experimentarcon el número de intervalos.

Ejemplo 3. Distribución de los porcentajes de gasto en alimentación yvestido. En este ejemplo se consideran dos partidas del gasto enconsumo de una muestra de familias españolas. Se van a analizar loshistogramas y las distribuciones de frecuencias de las proporciones degasto del consumo en alimentos y en vestido y calzado. Cada uno deestos agregados tienen características distintas, que se reflejan en lasformas de sus distribuciones.


33/245

La muestra que seleccionamos corresponde a 271 hogares,provenientes de la Encuesta Continua de Presupuestos familiares(ECPF). La ECPF es una encuesta realizada por el INE desde el primertrimestre de 1985, efectuándose cada trimestre desde ese año. La

encuesta recoge el origen y cuantía de las rentas familiares y suconcreción en gastos de consumo (gastos trimestrales de más de 200bienes). La unidad básica de la encuesta son los hogares, de los que seseleccionan alrededor de 3200 de manera aleatoria, renovándose cadatrimestre el 12.5% de la muestra (como consecuencia de ello, un hogarpermanece en la encuesta como máximo ocho trimestres). Las 271familias de nuestro ejemplo son las que cumplen su último trimestre en laencuesta en el cuarto trimestre de 1991.

Las variables son proporciones de gasto (en alimentación, y en vestido y

calzado). Estas se han calculado, para cada bien y en cada familia como:

100⋅=hogar del total consumo

ibienel enhogar del gasto ibienel en gastodel proporción

En las gráficas 8 y 9 (alimentación y vestido y calzado,respectivamente) aparecen conjuntamente las distribuciones de las

proporciones de gasto y sus histogramas. Estos resultados se hanobtenido utilizando un programa informático de estadística y el número

de intervalos en los que debían dividirse las variables ha sido calculadopor el propio programa. En los resultados se ofrecen el histograma (conlas frecuencias relativas en el eje horizontal) y la distribución defrecuencias: FREQ. es la frecuencia absoluta, CUM. FREQ. la frecuenciaabsoluta acumulada, PCT. la frecuencia relativa y CUM. PCT. lafrecuencia relativa acumulada. Los intervalos se definen por medio de sumarca de clase; recuerde que la marca de clase de un intervalo es supunto medio, de manera que un valor de 4 al lado de uno de losrectángulos del histograma indica que el intervalo correspondiente estáentre 0 y 8.

La primera impresión que se obtiene de los dos histogramas es lade su diferente forma. Ambas son distribuciones unimodales (con unintervalo definiendo la máxima frecuencia), aunque la distribucióncorrespondiente a alimentación presenta esa moda en el centro de losvalores que toma la variable, mientras que vestido y calzado tiene lamoda bastante desplazada del centro de la variable, muy cerca de sus


34/245

valores mínimos. Las distintas formas de las distribuciones sonimportantes cuando se trata de describir el comportamiento de unavariable. Aunque más adelante volveremos sobre ello, puede ya retenerque un tipo de distribución como la de alimentos se conoce en estadística

como distribución simétrica, mientras que la de vestido y calzado seconoce como distribución asimétrica por la derecha, al tener muchos másvalores alejados de la moda por la parte superior de la variable (unadistribución asimétrica por la izquierda tendría la imagen contraria).

¿Qué nos aporta la información de las distribuciones?Centrémonos en el gasto en alimentación. El intervalo mínimo de lavariable tiene una marca de clase del 4% y el intervalo más alto es igualal 84%. El intervalo más frecuente, que definiría la moda, se sitúa en el

28% del gasto, cifra que identificaría el 23.99% de las familias de lamuestra. Al tratarse del consumo de alimentos, parece que sería lógicoesperar que el porcentaje de gasto que éstos representan en un hogar nofuera muy elevado. La moda, con un valor alrededor del 28%, nos ofreceuna buena referencia de cuál puede ser la proporción esperada. Sinembargo, en la distribución destacan las observaciones que se sitúan enla parte superior de la variable. El porcentaje de familias que dedicanalgo más del 50% de su presupuesto a la alimentación resultasignificativo. En concreto, por encima del intervalo cuya marca de clasees 44 (40% a 48%) se sitúa el 100-90.04=9.96%, es decir que alrededor

de un 10% de las familias, consumen más del 48% de su gasto total enalimentación. La mayoría de hogares, sin embargo, limitan esteporcentaje, destacando que el 60.52% de los hogares tiene un porcentajede gasto inferior al 32%.

La descripción de la segunda variable puede hacerse en términosparecidos. La moda, con un valor del 5%, nos define el valor másfrecuente. La distribución de este tipo de gasto es diferente a la dealimentación. El recorrido de la variable es bastante menor, situándoseteóricamente entre el 0 y el 47.5% (valores inferior y superior del primer yúltimo intervalo, respectivamente). El intervalo inferior tiene como puntomedio 0, y debe interpretarse como definido entre 0 y 2.5%, al no serposible definir un porcentaje de gasto negativo (intervalo entre –2.5 y2.5). En este intervalo se sitúa el 22.88% de los hogares, de manera quedestaca de la distribución el que el 50.18% de los hogares gasten menosdel 7.5% de su consumo trimestral en vestido y calzado. Los valoressuperiores de la variable, sin embargo, no muestran frecuencias tanaltas. Por encima del 25% del gasto (y hasta un máximo del 47.5%) seencontrarían nada más que alrededor del 7% de los hogares.


35/245

Gráfica 8

ECP F. I V t r i me s t r e 1 9 9 1

FREQ.CUM.

FREQ. PCT.CUM.PCT.

1 2 1 2 4 . 4 3 4 . 4 3

3 1 4 3 1 1 . 4 4 1 5 . 8 7

5 6 9 9 2 0 . 6 6 3 6 . 5 3

6 5 1 6 4 2 3 . 9 9 6 0 . 5 2

5 1 2 1 5 1 8 . 8 2 7 9 . 3 4

2 9 2 4 4 1 0 . 7 0 9 0 . 0 4

1 3 2 5 7 4 . 8 0 9 4 . 8 3

8 2 6 5 2 . 9 5 9 7 . 7 9

1 2 6 6 0 . 3 7 9 8 . 1 5

2 2 6 8 0 . 7 4 9 8 . 8 9

3 2 7 1 1 . 1 1 1 0 0 . 0 0 8 4

7 6

6 8

6 0

5 2

4 4

3 6

2 8

2 0

1 2

4

0 1 0 2 0 3 0

Pr o p o r c i ó n de g a s t o e n a l i me n t a c i ó n

Fr e c u e nc i a s r e l a t i v a s

Gráfica 9

ECP F . I V t r i me s t r e 1 99 1

FREQ.CUM.

FREQ. PCT.CUM.PCT.

6 2 6 2 2 2 . 8 8 2 2 . 8 8

7 4 1 3 6 2 7 . 3 1 5 0 . 1 8

5 2 1 8 8 1 9 . 1 9 6 9 . 3 7

3 7 2 2 5 1 3 . 6 5 8 3 . 0 3

1 4 2 3 9 5 . 1 7 8 8 . 1 9

1 2 2 5 1 4 . 4 3 9 2 . 6 2

1 4 2 6 5 5 . 1 7 9 7 . 7 9

1 2 6 6 0 . 3 7 9 8 . 1 5

4 2 7 0 1 . 4 8 9 9 . 6 3

1 2 7 1 0 . 3 7 1 0 0 . 0 0 4 5

4 0

3 5

3 0

2 5

2 0

1 5

1 0

5

0

0 1 0 2 0 3 0

Pr o p o r c i ó n g a s t o e n v e s t i d o y c a l z a do

Fr e c u e n c i a s r e l a t i v a s

Ejemplo 4. La influencia del salario mínimo en la desigualdadsalarial . El impacto que tiene el salario mínimo sobre la distribución delos salarios ha sido analizado con datos de la economía portuguesa porRute (1997). La legislación sobre salario mínimo impone un efecto de tipoigualitario en la estructura de salarios, al imponer restricciones en los


36/245

salarios pagados por los empleadores. En su trabajo discute diversoshistogramas que muestran la distribución de los salarios en distintosaños. El análisis de los mismos se dirige especialmente a la detección delos picos (modas o submodas) del salario mínimo, clarificando además la

estructura de salarios que quiere describirse. En todos los histogramasse señala la posición de los salarios mínimos correspondientes a laagricultura y al conjunto de actividades económicas, excluyendo en estecaso la agricultura y el trabajo doméstico (estas posiciones se identificanen el eje horizontal con las letras A y M, respectivamente).

En la gráfica 18 se muestra el histograma de los salarios del año1983. En el mismo puede detectarse una moda en el salario mínimoagrícola y una moda, más importante, en el salario mínimo del resto de laeconomía. Hasta 1986 (gráfica 19), las relaciones económicas se

endurecieron, contrayéndose el nivel de empleo y aumentando el cierrede empresas. La legislación sobre salario mínimo hizo que éste fueramayor en relación al salario medio en la economía. Esto tuvo un efectoigualitario sobre la distribución, al acercar los salarios más bajos a los delresto de trabajadores. Este efecto se dio también sobre los salariosinferiores al mínimo legal, que se vieron arrastrados por el aumento delsalario mínimo. El histograma de los salarios del año 1992 se muestra enla gráfica 20. En ese año no se permitieron salarios legales por debajodel mínimo, el pico correspondiente todavía se detecta, pero laconcentración por encima del mínimo aumenta.

Los picos detectados en las distribuciones ilustran la importanciade la legislación sobre salario mínimo y, en consecuencia, la importanciade los factores institucionales en la distribución de los salarios.

Gráfica 18


37/245

Fraction

salarios base 19833000 39990

0

.078947

3000 A M

Gráfica 19

Fraction

salarios base 19864000 68992

0

.102424

4000 A M


38/245

Gráfica 20

Fraction

salarios base 1992117000 176900

0

.101049

A=M

Las variables de tipo cuantitativo permiten un tratamiento más completo

que el visto para las variables cualitativas. Además de las distribuciones defrecuencias, sus representaciones gráficas y estadísticos como la moda y lamediana, es posible calcular otras medidas numéricas que de manera sencilla ysintética faciliten información de la distribución de la variable. En el siguientecapítulo se van a discutir algunos de estos estadísticos.


39/245

CAPÍTULO III. ESTADÍSTICOS DESCRIPTIVOS de una VARIABLECUANTITATIVA

De manera tradicional se distingue entre los estadísticos básicos queintentan describir la posición de la variable y los que miden su dispersión.También se presentan en un grupo diferenciado los estadísticos de forma, quedescriben la asimetría o apuntamiento de la distribución. Mantendremos aquí estadistinción.

Denotaremos la variable a describir como X y a las observaciones de lamisma, desde i igual a 1 hasta n, como X i .

Medidas de posición central

Moda y Mediana. Entre las medidas básicas de posición central se encuentran lamoda y la mediana, que ya han sido utilizadas en el anterior capítulo.

La moda es aquel valor que presenta una frecuencia mayor. La mediana es aquel valor que se sitúa en el punto medio de la distribución, cuando los

valores están ordenados de menor a mayor.

Supongamos que disponemos de los días de vacaciones que handisfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular lamediana de estas observaciones, primero deben ordenarse los valores de menor amayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse elvalor que se sitúa en el centro de la distribución, que en este caso sería el valor17, que deja cuatro observaciones por debajo de él y cuatro observaciones porencima. Si n, el número de observaciones, es impar, como en este ejemplo,siempre será inmediato detectar el valor de la mediana; bastará con localizar el

valor situado en el lugar ( ) 21+n .

En el ejemplo anterior, con nueve observaciones, la mediana es el valorsituado en el quinto lugar. Si el número de observaciones es par esta reglanecesita modificarse. Supongamos que tenemos diez observaciones: 13, 14, 15,16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centrode la distribución. El valor 17 deja por debajo cuatro observaciones y por encimacinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En elcaso de tener un número n de observaciones par, se puede considerar que la


40/245

mediana es el promedio de estos dos valores: ( ) 2122517 =+ . Una posibleregla, cuando el número de observaciones es par es promediar los valoressituados en las posiciones 2n y ( ) 12 +n . No obstante, existen también otras

formas de determinar el valor concreto de la mediana.Otras medidas de uso común son la media (aritmética y geométrica) y los

cuartiles y percentiles (éstos últimos como medidas generales de posición).

Media Aritmética: Como estadístico de posición central se distingue de lamediana en que utiliza en su cálculo todas las observaciones de la muestra. Sufórmula para una variable X es la siguiente:

x

X

nii

n

= =∑1

Es decir, la suma de los valores de todas las observaciones de la variabledividida por el número total de observaciones.

La fórmula de la media se modifica si de trabaja con datos agrupados,que provienen de una distribución de frecuencias. Entonces se tienen los distintosvalores que toma la variable y la frecuencia con la que lo hacen:

X 1 n1 X 2 n2 X 3 n3

M M X p n p

En estas circunstancias, la media se expresa (para p valores diferentes)como:

xn X

n

i ii

p

= =∑1

Las dos expresiones de la media son equivalentes, puesto que en amboscasos en el numerador aparece la suma de todos los valores de la variable.


41/245

Ejemplo 1. A una muestra de 100 turistas de una zona se lespregunta cuántas veces la han visitado. La distribución de la variable semuestra en el siguiente cuadro. Se desea calcular el valor medio y lamediana de la distribución.

El valor medio será:

87,1304153048

635044315230148=

+++++⋅+⋅+⋅+⋅+⋅+⋅

= x

Dado que hay 100 observaciones (número par), la mediana seráel promedio de los valores en las posiciones 50 y 51. En la distribuciónde frecuencias acumuladas las dos posiciones corresponden a 2 visitas,que será por tanto la mediana de la distribución.

Ejemplo 2. En ocasiones la información disponible de una variableestá únicamente en intervalos. Por ejemplo, la información sobre elnúmero de días de estancia en el lugar de vacaciones puede presentarse

agrupada en intervalos:

Si se desea conocer los días medios de estancia, se calcula la mediatomando como valores de la variable las marcas de clase (los puntos medios delos límites de cada intervalo: 4, 11, 18 y 26):

3,8

2417224221991

26241817211242241991=

+++

⋅+⋅+⋅+⋅= x

También para la mediana debe aplicarse alguna regla especial. Lamediana debe estar en el intervalo 8-14. Si se quiere dar un valor concreto seaplica la siguiente fórmula:

amplitud n

N n

L Medianaintervalo

inferior

inferior ⋅−

+= 2

Número visitas 1 2 3 4 5 6Frecuencia absoluta 48 30 15 4 0 3Frecuenciaacumulada

48 78 93 97 97 100

Días de estancia 1-7 8-14 15-21 22-30Frecuencia absoluta 1991 2422 172 24


42/245

donde:=inferior L límite inferior del intervalo que acumula el 50% de

observaciones.

=inferior N frecuencia acumulada hasta el intervalo anterior al que contienela mediana.=intervalon frecuencia absoluta del intervalo que contiene la mediana.

=amplitud amplitud del intervalo que contiene la mediana.

En nuestro ejemplo:

8,862422

19912

4609

8 =⋅−

+= Mediana

Propiedades de la media

(1) Como estadístico de posición central la media tiene como principalcaracterística la siguiente:

( ) X xii

n

− ==∑ 0

1

Es decir, la suma de las desviaciones de los valores con respecto a la

media es igual a cero.

(2) Si a los valores de la variable se les suma una constante ( )c X i+ , lamedia de los valores transformados se incrementa en esa cantidad:

x

c X

n

c X

n

nc X

nc

X

nc xc X

ii

n

i

n

ii

n

ii

n

ii

n

+= = = = ==

+=

+=

+= + = +

∑ ∑ ∑ ∑ ∑( )1 1 1 1 1

(3) Si los valores de la variable se multiplican por una constante( )c X i ,

la media de los valores transformados es la media de la variableoriginal multiplicada por la misma constante:

x

c X

n

c X

nc xcX

ii

n

ii

n

= = == =∑ ∑

1 1.


43/245

Media ponderada. Es frecuente trabajar también con la media ponderada, en laque los valores promediados son ponderados mediante un peso determinado. Sitenemos p valores distintos de la variable X i y a cada uno de ellos se le da un peso wi, la media ponderada se define como:

∑

∑

=

== p

ii

p

iii

w

w

X w x

1

1

Si, por ejemplo, las observaciones de una variable se ponderan por susfrecuencias relativas: nnw ii = , es decir, por la importancia relativa de cada

valor en la distribución, se tendría (suponiendo p valores distintos):

n

X n

n

X n

n

n

X n

n

x

p

iii

p

ii

p

iii

p

i

i

p

ii

i

w

∑

∑

∑

∑

∑=

=

=

=

= === 1

1

1

1

1

que es la fórmula que hemos empleado para la media en el caso de datosagrupados.

En ocasiones, la ponderación tiene que ver con el peso en la población delas distintas observaciones. Suponga, por ejemplo, que dispone de la rentafamiliar per capita mensual de tres familias pertenecientes cada una de ellas auno de los tres municipios de una región. Las rentas son de 2000, 2000 y 1000euros y los tamaños de los municipios son: 10000, 20000 y 1000000 habitantes,respectivamente. Si se le pidiese estimar la renta familiar per capita media paratoda la región una opción directa sería la siguiente:

67,16663

100020002000=

++= x

El inconveniente de este cálculo es que no tiene en cuenta que cadafamilia representa un municipio de diferente tamaño. Resultaría lógico utilizaruna media ponderada, donde la renta de cada familia fuera representativa detodas las familias de su municipio:

13,102910000002000010000

10000001000200002000100002000=

++⋅+⋅+⋅

= x


44/245

Tiene sentido ponderar, porque cada observación es representativa de unnúmero de familias distinto.

Imagine, por ejemplo, que la información censal le permite conocer la

distribución de una población en zonas rurales y urbanas (60% y 40%). Elresultado de una muestra aleatoria simple no tiene por qué respetar estadistribución, especialmente si el tamaño muestral no es muy elevado. Unaalternativa podría ser seleccionar una m.a.s. y ponderar las observaciones según provengan de una zona rural o urbana. Lo normal, en este caso, sería calcular dosmedias, una con las rural n observaciones rurales y otra con las urbanan observaciones urbanas, calculando la media global como:

urbanarural x x x 40,060,0 +=

Esto sería lo mismo que ponderar las observaciones de manera diferente,según sea su origen rural ( rural n ) o urbano ( urbanan ), empleando como

ponderaciones de la zona rural rural n/60,0 y de las urbanas urbanan/40,0 :

( ) ( )=

+

+++++++=

urbanaurbana

rural rural

urbananurbanaurbanaurbana

rural nrural rural rural

w

nn

nn

x x xn

x x xn

x40,060,0

40,060,0,,2,1,,2,1 KK

( ) ( )=+++++++= urbananurbanaurbanaurbana

rural nrural rural rural

x x xn

x x xn ,,2,1,,2,1

40,060,0KK

=

++++

+++=

urbana

urbananurbanaurbana

rural

rural nrural rural

n

x x x

n

x x x ,,2,1,,2,1 40,060,0 KK

urbanarural x x 40,060,0 +=

Media ponderada y muestreos complejos. Comentaremos a continuación elempleo de la media ponderada cuando se dispone de información proveniente demuestreos complejos. Cuando se trabaja con información muestral se dispone, por ejemplo para una variable, de los valores de n individuos. Si el muestreorealizado es del tipo denominado muestreo aleatorio simple (m.a.s.) cada uno delos individuos de la población ha tenido igual probabilidad de ser seleccionado para formar parte de la muestra. Supongamos que el tamaño de la población es de


45/245

N = 100 y se toma una muestra aleatoria simple de 20 observaciones. La probabilidad de aparecer en la muestra es la misma para todos los individuos eigual a 20/100. Otra manera de expresar esta información es decir que cadaindividuo de la muestra, al ser seleccionado, representa a cinco individuos de la

población (100/20, ya que cada uno de los 20 elementos de la muestra representa por igual a 5 individuos de la población). Si queremos calcular la media de lavariable podríamos plantearnos ponderar cada observación por el número deelementos a los que representa en la población:

20

...

520

5...555 2032120321

1

1 X X X X X X X X

w

X w

x p

ii

p

iii

w

++++=

⋅++++

==

∑

∑

=

=

El resultado, como puede comprobarse, no modifica el que se obtendríasi empleáramos la fórmula de x , sin ponderar las observaciones, ya que al ser las ponderaciones iguales las fórmulas son equivalentes.

Sin embargo muchas muestras se elaboran de manera que cada elementorepresenta un número distinto de individuos en la población. Para mejorar larepresentatividad de la muestra y también para reducir los costes, muchasencuestas modifican el esquema de m.a.s. de manera que los individuos de la población ya no tienen la misma probabilidad de ser seleccionados. La existencia

de diversas categorías (conglomerados o estratos) en la población, se sueleaprovechar para seleccionar las muestras con el mínimo número de individuos yla máxima representatividad. Es normal que las grandes encuestas ofrezcan juntoa la información de interés de los individuo un factor de elevación poblacional ,que indica a cuántos elementos representa ese individuo a nivel de la población.

El factor de elevación poblacional indica a cuántos individuos de la poblaciónrepresenta cada uno de los individuos de la muestra.

El factor de elevación poblacional se calcula como la inversa de la probabilidadde ser seleccionado en la muestra y debería utilizarse como peso del individuo alcalcular los estadísticos representativos de la población.

Si se trabaja con un muestreo aleatorio simple, para una población de N individuos y una muestra de tamaño n, cada uno de los elementos muestrales serárepresentativo de N/n individuos en la población. Por tanto, cada individuomuestral tendría el mismo factor de elevación poblacional. Si el diseño muestral


46/245

es más complejo, cada uno de los individuos tendrá un factor de elevación poblacional distinto.

Suponga, por ejemplo, que debe extraer una muestra de tamaño 10 deuna población dividida en dos clases, la primera consta de 100 individuos y lasegunda de 40. Rechaza hacer un m.a.s. puesto que en ese caso podría ocurrir quelas diez observaciones correspondieran a individuos de la primera clase, perdiéndose con ello la información del segundo grupo. Decide hacer dosselecciones aleatorias, una en cada grupo. Por cuestiones de coste se seleccionan6 elementos en la primera subpoblación y 4 en la segunda. Supongamos que losresultados son los que aparecen en el cuadro 1. En la primera fila aparece la clasea la que pertenecen las observaciones, en la segunda los valores que ha tomado lavariable.

Cuadro 1

Muestra: Clase 1 Clase 2

Variable: 110 120 130 140 150 160 70 80 90 95

Si calculase la media únicamente a partir de los valores muestrales, elresultado es el siguiente:

5,11410

95901301201101 =++++==∑= Kn X x

n

i i

La alternativa es ponderar las observaciones teniendo en cuenta la probabilidad de selección. Cada uno de los elementos del primer grupo tenía una probabilidad igual a 6/100 de ser seleccionado, mientras que los del segundogrupo tenían una probabilidad de 4/40. La propuesta es multiplicar cada valor porla inversa de esa probabilidad (16,67 y 10, respectivamente), con el siguienteresultado:

( ) ( )36,120

140

9580701016012011067,16

1

1 =+++⋅++++⋅

==

∑∑

=

= KK

n

ii

n

iii

w

w

X w x

Cuando se pondera una observación por la inversa de la probabilidad deselección, se está multiplicando esa observación por lo que representa al nivel dela población.


47/245

Ejemplo 3. Los resultados que se obtienen según se utilicen o nolos factores de elevación pueden implicar una diferencia relevante.

Basándonos en información de 21155 familias de la EPF-90 se hacalculado la media del gasto familiar, empleando y sin emplear losfactores de ponderación que elabora el INE y que acompañan a losresultados de la encuesta. En el primer caso, la media es igual a2527105, mientras que sin ponderar las observaciones, la media es de2419553. Si al analizar una encuesta no dispone de los factores deelevación o desconoce las probabilidades de selección de los individuos,puede calcular la media no ponderada. No obstante, si su análisis queríareferirse a toda la población, sus conclusiones pueden verse limitadas.

Representatividad de la media. La media es muy sensible a la presencia en lamuestra de observaciones extremas. Cuando existen observaciones extremas(también llamadas atípicas), la mediana o la moda son buenas alternativas alempleo de la media, al tratarse de estadísticos que no son tan sensibles a la presencia de valores en los límites de la distribución.

La siguiente representación ejemplifica de una manera visual y clara elimpacto de una sola observación extrema sobre la media.

__ X 1 ____ X 2 __ X 3 _____ X 4 _ x ______ X 5 ___ X 6 _________ X 7 __________________ _↑

__ X 1 ____ X 2 __ X 3 _____ X 4 _________ X 5 _ x X 6 _______________________ X 7 ____ _

↑

La media es el centro de gravedad del conjunto de valores, por lo que eldesplazamiento de una única observación hacia la derecha arrastra el valor medio

en esa dirección. Sin embargo, la mediana de la distribución no se alterará. Enambos casos X 4 sería la mediana, el valor que deja por debajo igual número deobservaciones que por encima de él.

La media es un estadístico muy sensible a la existencia de valores extremos. Lamoda y la mediana son una buena alternativa cuando existen observacionesatípicas, al verse menos afectadas por su presencia.


48/245

Media cortada (Trimmed Mean). Algunos programas estadísticos incorporanun cálculo de la media menos sensible a las observaciones extremas. La mediacortada es un cálculo más “robusto” de la posición central de las observaciones.El calificativo de “robusto” debe entenderse en este caso como una menor

sensibilidad, como medida de posición, a los valores atípicos. La media cortada se calcula según la expresión conocida de la media, pero suprimiendo un número previo de observaciones en las colas superior e inferior de la variable. Puedensuprimirse bien un número concreto de observaciones (1, 2, 3, …, en cada unade las colas) o bien un porcentaje del tamaño de la muestra (0,5%, 1%, …, encada cola). Si existen observaciones atípicas que “corrompen” el cálculo de lamedia, el empleo de la media recortada puede ser una solución.

Ejemplo 4. Gasto familiar medio en energía eléctrica. Una muestra del

impacto que tienen las observaciones extremas nos lo ofrece el análisisde una variable que puede obtenerse de la EPF-90. Se ha construido unavariable que pone el gasto en energía eléctrica en relación al gastofamiliar total. La variable, que denominaremos intensidad del consumoeléctrico (ice) se calcula como:

iceGasto familiar en electricidad

Gasto familiar total = ⋅100

La variable se ha construido como un porcentaje, multiplicando elcociente de ambas cantidades por 100. En la gráfica 1, además delhistograma aparecen las frecuencias, frecuencias acumuladas,frecuencias relativas y frecuencias relativas acumuladas. La mayor partede la distribución se acumula en los intervalos con puntos medios de 1.25y 3.75, presentándose en ellos prácticamente el 90% de lasobservaciones. El histograma queda sin embargo distorsionado por lanecesidad de representar valores extremos, del orden del 20% hasta el46% de gasto.

Gráfica 1


49/245


50/245

Media Geométrica. La media geométrica de n observaciones se define como:

g X X X nn= 1 2 ...

Si se emplea la notación para valores agrupados según su frecuencia, lamedia geométrica se define como:

g X X X n n pnn p= 1 21 2 ...

La media geométrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interés, números índices, etc., es decir valores querepresentan variaciones acumulativas, de un período respecto al anterior.

Como medida de posición central, la media geométrica es más representativaque la media aritmética cuando la variable se define como variacionesacumulativas.

Introducción a La Estadística Descriptiva Para Economistas

Documents

Transcript of Introducción a La Estadística Descriptiva Para Economistas