Libro Est Descriptiva

106
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO INSTITUTO DE CIENCIAS SOCIALES Y HUMANIDADES Área Académica de Sociología y Demografía Centro de Estudios de Población ESTADISTICA DESCRIPTIVA PARA CIENCIAS SOCIALES ANGÉLICA E. REYNA BERNAL

Transcript of Libro Est Descriptiva

Page 1: Libro Est Descriptiva

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO

INSTITUTO DE CIENCIAS SOCIALES Y HUMANIDADES

Área Académica de Sociología y Demografía Centro de Estudios de Población

ESTADISTICA DESCRIPTIVA PARA

CIENCIAS SOCIALES

ANGÉLICA E. REYNA BERNAL

Page 2: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

1

ESTADISTICA DESCRIPTIVA PARA

CIENCIAS SOCIALES

Angélica Elizabeth Reyna Bernal

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO

INSTITUTO DE CIENCIAS SOCIALES Y HUMANIDADES Pachuca de Soto, Hidalgo, 2010

Page 3: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

2

Primera edición: 2010 © Angélica Elizabeth Reyna Bernal UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO Instituto de Ciencias Sociales y Humanidades Abasolo 600, Centro, Pachuca, Hidalgo, México. CP 42000 Correo electrónico: [email protected] Prohibida la reproducción parcial o total de esta obra sin consentimiento escrito ISBN: EN TRÁMITE

Impreso y hecho en México

Page 4: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

3

Universidad Autónoma del Estado de Hidalgo

Luis Gil Borja Rector

Humberto A. Veras Godoy

Secretario General

Evaristo Luvián Torres Subsecretario General Administrativo

Marco Antonio Alfaro Morales

Coordinador de la División de Extensión de la Cultura y los Servicios

Otilio A. Acevedo Sandoval Coordinador de la División de Investigación y Posgrado

Adolfo Pontigo Loyola

Director del Instituto de Ciencias Sociales y Humanidades

Tomás Serrano Avilés Jefe del Área Académica de Sociología y Demografía

Horacio Romero

Director de Ediciones y Publicaciones

Page 5: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

4

AGRADECIMIENTOS

Se agradece el apoyo brindado para la realización de esta publicación al Programa

de Mejoramiento del Profesorado de la Secretaría de Educación Pública (PROMEP -

SEP).

Asimismo agradecemos el apoyo que nos brindó la Dirección de Ediciones y

Publicaciones, especialmente el Lic. Horacio Romero.

Page 6: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

5

INDICE

1. INVESTIGACIÓN, METODOLOGÍA Y TÉCNICAS ESTADÍSTICAS EN LAS CIENCIAS SOCIALES ......................................................................................................

1.1 El método científico y la metodología de las Ciencias Sociales .................................... 1.2 El papel de las técnicas en la investigación .................................................................. 1.3 Las técnicas estadísticas .............................................................................................

2. ANÁLISIS DE DATOS: LA ESTADÍSTICA .........................................................................

2.1 Antecedentes históricos de la Estadística ..................................................................... Cronología .................................................................................................................... 2.2 Definición de Estadística .............................................................................................. Objetivo de la Estadística ............................................................................................. 2.3 Estadística Descriptiva ................................................................................................. 2.4 Estadística Inferencial: Probabilidad y muestreo .......................................................... 2.5 Conceptos básicos de la Estadística ............................................................................

3. FUENTES DE INFORMACIÓN Y NIVELES DE MEDICIÓN ................................................

3.1 Fuentes de información y tipos de datos .................................................................... 3.2 Clasificación, jerarquización y medición ......................................................................... 3.3 Niveles de medición: nominal, ordinal, intervalar, cocientes o razones, porcentajes,

proporciones, coeficientes, incrementos, tasas ............................................................. 3.4 Estructuración de bases de datos .................................................................................

4. DISTRIBUCIÓN DE FRECUENCIAS ..................................................................................

4.1 Distribución de frecuencias unidimensionales simples y acumuladas, absolutas y relativas. Manejo de los datos obtenidos en la observación

........................... 4.2 Representaciones gráficas ............................................................................................. 4.3 Medidas de distribución

..................................................................................................... 4.3.1 Medidas de tendencia central: moda, mediana, media aritmética, media aritmética ponderada, cuantiles ................................................................... 4.3.2 Medidas de dispersión: desviación media, desviación típica, varianza .................. 4.3.3 Medidas de forma: Asimetría y curtosis por contraste al patrón de la Curva Normal ...................................................................................................... 4.3.4 Medidas de concentración: Curva de Lorenz, Índice de Gini, medial o mediala ...............................................................................................................

5. NÚMEROS ÍNDICE .......................................................................................................... 5.1 Números índice simples: Relativos en cadena y eslabonados ................................... 5.2 Números índice complejos: No ponderados y ponderados ......................................... 5.3 Índices de precios de Laspeyres, Pashe, y Fisher ..................................................... 5.4 Deflación de series estadísticas, poder de compra, cambio de periodo base, empalme de índices con bases diferentes ................................................................

Pp.

7 7 10 11 11 11 12 13 14 15 15 17 20 20 23 24 27 28 28 30 35 35 38 45 54 58 59 64 68 72

Page 7: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

6

6. MODELOS Y MÉTODOS BÁSICOS DE ANÁLISIS: RELACIONES ENTRE VARIABLES ........................................................................................................................

6.1 Distribuciones bidimensionales y gráficos de dispersión ................................................. 6.2 Relación entre variables .................................................................................................. 6.3 Asociación de variables entre frecuencias observadas: Análisis de tablas de contingencia y correlación, Coeficientes de asociación Fi, Q de Yule y coeficiente de Pearson, X2 .............................................................................................. 6.4 Métodos de ajuste. Regresión lineal simple ....................................................................

Bibliografía ...............................................................................................................................

74 74 85 87 96 103

Page 8: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

7

ESTADISTICA DESCRIPTIVA PARA CIENCIAS SOCIALES

1. INVESTIGACIÓN, METODOLOGÍA Y TÉCNICAS ESTADÍSTICAS EN LAS CIENCIAS

SOCIALES

1.1 El método científico y la metodología de las Ciencias Sociales

El conocimiento científico es una forma de saberes que establece relaciones entre lo

conceptual y lo empírico como resultado de la verificación. Su acumulación al momento

actual se ha conformado con los hallazgos, resultantes de la verificación en un campo de la

realidad. La ciencia comprende básicamente dos grandes categorías: a) el conocimiento

científico formal (como la matemática y la lógica, que se ocupan de objetos ideales); y b) el

conocimiento científico fáctico, que se basa en los hechos y experiencias del mundo que

nos rodea, hallazgos producto de la experiencia. Su objeto de estudio es observable,

medible, ponderable. El conocimiento científico es el cúmulo de conocimientos que el

hombre ha adquirido basado en razonamientos y comprobaciones de los fenómenos a su

alrededor, que buscan establecer causas y principios que permitan prever cómo y cuándo

estos fenómenos volverán a ocurrir.

El conocimiento científico fáctico incluye las ciencias de la naturaleza, como son la

física, química o biología, y las ciencias sociales o de lo humano, como son la antropología,

la sociología, la historia, la psicología, la pedagogía, la economía, la lingüística, entre otras.

Las ciencias sociales estudian procesos y sucesos en los que interviene el quehacer del

hombre, estudian la conducta del hombre y la sociedad humana, así como su desarrollo y

evolución.

Las disciplinas científicas han establecido una serie de procedimientos o métodos

que las llevan a establecer hallazgos reconocidos como aportes científicos. En general, esa

serie de procedimientos es conocido con el nombre de método científico. El método

científico es un procedimiento para descubrir las condiciones en que se presentan sucesos

específicos, caracterizado generalmente por ser tentativo, verificable, de razonamiento

riguroso y observación empírica.

Pardinas nos dice que el: “Método de trabajo científico es la sucesión de pasos que

debemos dar para descubrir nuevos conocimientos o, en otras palabras, para comprobar o

Page 9: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

8

disprobar hipótesis que implican o predican conductas de fenómenos, desconocidos hasta

el momento”.

El Método Científico es una serie de etapas ordenadas, en forma razonada, por

medio de las cuales los científicos realizan la investigación de los fenómenos que ocurren

en nuestro entorno, con la finalidad de demostrar nuevos principios y leyes del

conocimiento.

El método científico consiste fundamentalmente en establecer unas reglas o

procedimientos generales que aseguren una investigación científicamente significativa.

Estos pasos operativos pueden resumirse en el siguiente proceso:

• Formular correctamente un problema; descomponer el problema • Proponer una tentativa de explicación verosímil y contrastable con la experiencia • Derivar consecuencias de estas suposiciones • Elegir los instrumentos metodológicos para realizar la investigación • Someter a prueba los instrumentos elegidos • Obtención de los datos que se buscan mediante la contrastación empírica • Analizar e interpretar los datos recogidos • Estimar la validez de los resultados obtenidos y determinar su ámbito de validez

Las etapas del método científico varían según el área de conocimiento en que se

use. En general, se parte de la observación, que permite la definición de un problema;

basados en los conocimiento existentes se plantean hipótesis plausibles sobre el problema

a investigar; a partir de aquí se procede a la experimentación, contrastación empírica y/o a

la reflexión, a través de las cuales se pretende la comprobación y el establecimiento de

resultados que apuntan a la conformación de principios y leyes.

En las Ciencias Sociales, el método científico adopta algunas particularidades que lo

distinguen del método de las Ciencias Naturales y que provienen de las características de

sus objetos de estudio.

Estas particularidades se refieren básicamente a la etapa de contrastación empírica.

Mientras en las Ciencias Naturales es factible la experimentación en laboratorio, en las

Ciencias Sociales existen límites éticos a la experimentación, ya que involucraría a seres

humanos y podría violar sus derechos esenciales. De ahí que en Ciencias Sociales la

contrastación empírica implique más frecuentemente la documentación de las situaciones.

Como se muestra en el esquema previo desarrollado por científicos sociales y

presentado por Bunge (1989), en el caso de las Ciencias Sociales, el proceso de

investigación estrictamente dicho parte del cúmulo de conocimientos disponibles, que

hacen que el investigador observe o detecte problemáticas o lagunas de conocimiento.

Page 10: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

9

ESQUEMA DEL PROCESO DE INVESTIGACIÓN SOCIAL

TEORÍA SOCIOLÓGICA RECOPILACIÓN ELABORACIÓN ANÁLISIS LOGROS DE DATOS E DE (CUERPO DE DATOS INTERPRETACIÓN INVESTIGACIÓN CONOCIMIENTOS DISPONIBLES) MARCO TEÓRICO DISEÑO FASE PROBLEMA DE EMPÍ- INVESTIGACIÓN RICA FENÓMENOS SOCIALES CONCRETOS Bunge, 1989.

Page 11: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

10

A partir de la definición de un marco teórico acotado es factible delimitar el problema

de investigación. Como siguiente etapa se puede identificar la elaboración de un diseño o

proyecto de investigación donde se compendie la problemática a investigar y la estrategia

metodológica y técnica, así como la planeación ejecutiva de la investigación

Un adecuado proyecto de investigación permite proceder a la fase empírica, en la

cual se entra en contacto con los fenómenos sociales concretos y de los cuales se recopila

información de diversa índole.

Las siguientes etapas de la investigación se refieren a la elaboración de dicha

información, su análisis e interpretación y el reporte de los logros de la investigación.

1.2 El papel de las técnicas en la investigación

La investigación científica, como se ha dicho, se realiza de manera sistemática. Para ello se

apoya en el desarrollo de un diseño de investigación, también llamado proyecto de

investigación, en el cual se plasma de la manera más específica posible la problemática a

estudiar y la estrategia a seguir para conocer y contrastar las hipótesis postuladas con la

realidad.

Como se señala en el siguiente esquema, propuesto por Jiménez (2001), existen

elementos básicos que conforman un proyecto o diseño de investigación:

DISEÑO DEL PROYECTO

Page 12: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

11

El proyecto o diseño de investigación considera la selección del tema, la delimitación

del tópico y su justificación, respondiendo a las preguntas qué, cuánto, cuándo, dónde y por

qué. Considerando el objeto de estudio y las condiciones para realizar la investigación se

establecen los objetivos y alcances de la investigación (para qué y hasta dónde).

Los siguientes elementos que conforman el proyecto o diseño de la investigación

son la selección de métodos y técnicas; y la descripción de procedimientos, costos y

tiempo. Por una parte, la selección de métodos y técnicas responde al cómo o con qué

herramientas se abordará el objeto de estudio; mientras que con la descripción de

procedimientos, costos y tiempo, se especifica la manera de aplicación de los métodos y

técnicas, así como la estrategia operativa de la investigación (qué recursos, cuánto,

cuándo).

1.3 Las técnicas estadísticas

La estadística, en su forma de rama de las matemáticas aplicadas no es una ciencia, es un

conjunto de técnicas que a lo sumo pueden constituir un método de estudio. Estas técnicas

tienen aplicación en las más diversas disciplinas científicas, por lo que su aplicación a cada

una de éstas requiere, de parte del estadístico, un cierto conocimiento de la disciplina a la

que sirve, una cierta asimilación al científico que la practica. Según sea el campo en el que

se aplique, la Estadística pondrá mayor o menor énfasis en el empleo de determinado

herramental o recursos técnicos.

La estadística proporciona los elementos básicos para fundamentar:

a) Cómo planear la obtención de los datos para que de ellos se puedan extraer

conclusiones confiables;

b) Cómo analizar estos datos;

c) Qué tipo de conclusiones pueden obtenerse con los datos disponibles;

d) Cuál es la confianza que nos merecen los datos.

2. ANÁLISIS DE DATOS: LA ESTADÍSTICA

2.1 Antecedentes Históricos de la Estadística

Cuando las sociedades primitivas se organizaron y superaron el ámbito local, se vieron en

la necesidad de tener que tomar decisiones que exigían un conocimiento numérico de los

Page 13: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

12

recursos disponibles. Esta necesidad dio lugar al uso y desarrollo de las primeras técnicas

estadísticas basadas, exclusivamente, en el recuento y presentación de datos.

La Historia nos muestra que las primeras estadísticas fueron realizadas, con efectos

recaudatorios en la mayoría de los casos, por los gobernantes de las grandes civilizaciones

antiguas, para conseguir conocer el número de bienes que poseía el Estado y cómo

estaban repartidos entre la población. Del uso exclusivo de estas técnicas por el Estado

deriva el término Estadística.

Cronología

Siguiendo a Olguín Quiñónez, se pueden señalar como eventos estadísticos relevantes:

3050 a.C. Herodoto señala la realización de un recuento de las riquezas y población de

Egipto, para conocer los recursos humanos y económicos disponibles para construir las

pirámides.

2238 a.C. Chu King en el libro de Confucio señala la realización de una estadística

industrial y comercial por el emperador Yao de China.

1400 a.C. Ramsés II realizó un censo de las tierras de Egipto a fin de efectuar un nuevo

reparto.

1490 a.C. según aparece en el Pentateuco, Moisés levantó un censo para conocer el

número de guerreros que disponían las tribus de Israel.

1080 a.C. David, según aparece en el Libro de Los Reyes, vuelve a levantar un censo para

conocer qué número de guerreros disponían las tribus de Israel.

Los griegos realizaron diversos censos con fines tributarios, reparto de tierras, así como

disponibilidad de recursos y guerreros para sus campañas.

Durante la época romana se contabilizan, al menos, la realización de 69 censos con

diversos fines: tributarios, número de hombres con derecho al voto y posibilidades para

la realización de sus campañas militares.

758 Pipino el Breve realiza recopilaciones estadísticas.

762 Carlomagno recoge información estadística sobre las tierras propiedad de la Iglesia.

Siglo IX En Francia se realizan recuentos parciales de siervos.

1060 En Inglaterra, Guillermo el Conquistador hace recuentos parciales de siervos.

Siglo XIV En Inglaterra, Eduardo II hace recuentos de siervos.

Page 14: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

13

Con el nacimiento de las Naciones, la Estadística adquiere rigor científico en las técnicas de

recogida y presentación de datos que van a facilitar el análisis de las conclusiones y, por

tanto, la toma de decisiones.

1540 Sebastián Münster realizó una recopilación estadística de los recursos nacionales

alemanes, en la que se incluía la organización política de la nación alemana, así como

sus instituciones sociales, su comercio y su potencia militar. Estudios parecidos fueron

realizados durante el siglo XVI en Italia y Francia.

Siglo XVII La estadística demográfica tiene un gran auge, a fin de saber si la población se

modificaba aumentando o disminuyendo o si éste era un parámetro estático. Estos

estudios dieron lugar a la creación de los índices de natalidad y mortalidad y al posterior

desarrollo del estudio de la dinámica de la población por la Demografía.

Siglo XVII y principios del XVIII Se desarrolla la Teoría de las Probabilidades, teoría que

proporciona a la Estadística métodos de investigación que le permiten alcanzar la

categoría de ciencia. El primer tratado sobre esta teoría fue escrito por Bernouilli, en el

que dice que la regularidad que aparece en el orden social se debe a la probabilidad

más que al designio sobrenatural.

Siglo XVII Son conocidos los trabajos realizados por Pascal y Farmat sobre problemas de

juegos de azar, que tuvieron sus antecedentes en algunos matemáticos del siglo XV

como Paccioli, Cardano, Tartaglia, Kepler y Galileo.

1796-1874 Quételet aplicó la teoría de las probabilidades a las ciencias sociales,

elaborando una teoría determinista en la que las características de un hombre quedarían

determinadas por su entorno social, con lo que se podrían aplicar el principio de los

promedios, pudiéndose hablar de un hombre medio.

Siglo XIX A principios de este siglo se desarrollan dos nuevas teorías matemáticas de gran

influencia en la teoría estadística que son: la teoría de los errores de observación de

Laplace y Gauss y la teoría de los mínimos cuadrados desarrollada por los dos

anteriores y Legendre.

Siglo XIX Es a fines de este siglo cuando Sir Francis Galton desarrolla el método de la

correlación, que tiene por objeto medir la influencia relativa de los factores sobre las

variables. De este método partió el método de correlación creado por Karl Pearson.

Los progresos más recientes en el campo de la estadística se refieren al cálculo de

probabilidades basado en el principio del indeterminismo, que supone que la uniformidad

de la naturaleza debe considerarse como una serie de posibles resultados procedentes

Page 15: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

14

de cualquier causa o causas dadas, más que de un único resultado exacto y preciso en

cada caso.

2.2 Definición de Estadística

El diccionario presenta tres acepciones de la palabra Estadística:

1ª. “Censo o recuento de la población, de los recursos naturales e industriales, del tráfico o

de cualquier otra manifestación de un Estado, provincia, pueblo, clase, etc.”

2ª. “Estudio de los hechos morales o físicos del mundo que se presentan a numeración o

recuento y a comparación de las cifras a ellos referentes”.

3ª. “Ciencia que utiliza un conjunto de datos numéricos para obtener, a partir de ellos,

inferencias (deducciones) basadas en el cálculo de probabilidades”.

Estas tres acepciones de la palabra Estadística no son independientes entre sí, sino

más bien determinan tres momentos de su evolución histórica, por lo que pueden

considerarse complementarias.

La primera acepción es la concepción más antigua y la más vulgarmente conocida.

Está ligada a una necesidad, prácticamente exclusiva, de la Administración del Estado y en

su utilización ya lleva implícito, que los censos o recuentos deben ser conjuntos coherentes

de datos numéricos y que deben presentarse de una forma ordenada y sistemática.

La segunda acepción amplía el campo de la Estadística, incluyendo un estudio de

los datos obtenidos, que proporciona una medidas que permiten identificar y comparar las

diferentes estadísticas.

La tercera acepción la asociada al cálculo de probabilidades, confiriéndole el rango

de ciencia. Está asociación permite a la Estadística, crear unos modelos de estudio

capaces de obtener una predicción de comportamientos de los hechos sometidos a su

estudio.

También se le ha entendido como: El conjunto de métodos científicos, o bien,

técnicas, que facilitan el análisis e interpretación de la información obtenida en un censo o

recuento.

Objetivo de la Estadística

Los datos estadísticos se obtienen de observaciones numéricas de conjuntos que se

caracterizan por la variación que muestran sus componentes. Estos datos nos permiten el

Page 16: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

15

estudio de fenómenos que se distinguen por su variación. Es conveniente aclarar que la

estadística no comprende el estudio de toda clase de datos numéricos.

La estadística permite resumir los datos más destacados de los elementos que

componen un conjunto, logrando así aprehender más fácilmente su contenido. La

información sobre un conjunto puede ser sumamente extensa y compleja, por lo que es

conveniente sumarizar la información, reducirla, hasta que la masa caótica y desordenada

de los datos tome forma mediante la obtención de medidas estadísticas. Esto nos permite

describir sus características más sobresalientes y poner de relieve las relaciones existentes

entre sus componentes en un momento dado o en su evolución. Sin embargo, como la

información obtenida de los conjuntos es una reducción, un resumen, es posible obtener

resultados engañosos si no se les interpreta con la precaución necesaria o si no se

comprende con claridad el significado de las medidas estadísticas con sus limitaciones y

alcances.

Las medidas estadísticas nos proporcionan información sumaria de la característica

o características de un conjunto de unidades, pero no sobre una unidad del conjunto.

La estadística ha establecido que del total de nacimientos aproximadamente la mitad

son hombres, pero no podemos afirmar que en una familia debe de haber esta misma

relación que se observa para el total de nacimientos de una población.

2.3 Estadística Descriptiva

La estadística descriptiva es una de las ramas de la Estadística dedicada a analizar los

valores obtenidos en las características observadas, en cada uno de todos los elementos

de la población.

Si se ha realizado una observación exhaustiva, sin errores, conoceremos las

regularidades del comportamiento de la población, pero si no es exhaustiva, las

regularidades que conoceremos serán las de la muestra observada.

En la Estadística Descriptiva, los datos son ordenados, resumidos y clasificados

para tener una visión precisa y conjunta de las observaciones. Esto permite explorar

posibles relaciones entre las características de los elementos estudiados, viendo cuales

toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de

posible interés, etc.

Para hacer un análisis de estadística descriptiva se aplican mediciones que

describan sintéticamente el comportamiento de las características de todos los elementos

Page 17: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

16

de una población, como son las medidas de tendencia central, dispersión, forma y

concentración, o bien la distribuciones de frecuencias, entre otros.

2.4 Estadística inferencial: Probabilidad y muestreo

La estadística inferencial también conocida como inductiva, tiene como función, partiendo

de los datos obtenidos de una muestra, estimar las regularidades de comportamiento de la

población. Esta rama de la Estadística comprende métodos y procedimientos para inferir a

partir de una muestra características generalizables a una población. Estos procedimientos

se basan en la predicción mediante el cálculo de probabilidades.

La estadística descriptiva y la estadística inferencial se emplean indistintamente en

estudios descriptivos y explicativos. Que un estudio se realice por censo o por muestreo no

es condición para que sea de tipo descriptivo o explicativo.

Las encuestas para estimar el número y características de los votantes son

generalmente de tipo descriptivo, no obstante que se emplean muestras y que los datos se

elaboran con base en la teoría y en las técnicas de la estadística inferencial.

No deben confundirse los términos encuesta descriptiva y estadística descriptiva.

Una encuesta puede ser de tipo descriptivo sea por muestreo o por censo y tiene por objeto

la mera descripción de un fenómeno a diferencia de las encuestas explicativas por

muestreo o por censos que tienen por objeto determinar en qué medida una serie de

factores contribuyen a configurar un fenómeno.

Es común que los cuestionarios aplicados al total de la población se llamen “censo”

y que los cuestionarios aplicados a una muestra se denominen “encuesta”.

En la estadística inferencial o matemática se distinguen dos partes fundamentales:

la teoría de la estimación y la teoría de la decisión. Todas las medidas descriptivas (por

ejemplo, media, desviación típica, coeficiente r de Pearson, coeficiene b de regresión, etc.),

constituyen cuando se calculan con datos obtenidos mediante muestras, simples

estimaciones, de aquí el nombre de teoría de estimación, de la media, la desviación típica,

el coeficiente de asociación r de Pearson, etc. de la población, con las cuales pueden o no

coincidir y que normalmente coincidirán exactamente sólo en muy pocos casos. Al estar

afectadas estas estimaciones por el error derivado de la fluctuación de las muestras en

relación a la verdadera medida de la población, no coincidirán con dicha medida verdadera

de la población, aunque no se puede descartar la posibilidad de que en algún caso raro

particular puedan ser iguales.

Page 18: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

17

La estadística no nos puede proporcionar una medida exacta de la desviación o

error que represente la medida obtenida de la muestra en relación a la medida verdadera

de la población total, porque el único medio para obtener esta medida exacta sería realizar

la encuesta a la población total con lo cual la muestra pierde todo su sentido.

Sin embargo, la Estadística sí puede proporcionar, y esto es lo que hace, un error

típico, genérico, válido para todas las muestras distintas del mismo tamaño que se podrían

obtener de la población total en relación a las medidas básicas referidas, promedios,

índices de dispersión, coeficientes de asociación y de regresión, cada una de las cuales

tiene su error distinto. Asimismo, la estadística, sirviéndose de este error muestral, faculta

para determinar, dada una medida concreta obtenida de una muestra, su intervalo de

confianza. Por éste se entiende el espacio cuantitativo formado por la medida de que se

trate, media, desviación típica, varianza, coeficientes, obtenida de una muestra, más y

menos su error muestral respectivo multiplicado por el nivel de confianza elegido, dentro del

cual debe encontrarse el verdadero valor de la población total, no con exactitud sino con el

nivel de confianza o grado de probabilidad con que se haya trabajado.

Finalmente, también podemos plantearnos los problemas de determinar, a) si un

medida estadística de las indicadas obtenida de una muestra difiere o no significativamente

en la población de un valor determinado fijado previamente, y b) si las diferencias

observadas en los valores de las medidas, medias, varianzas, etc., procedentes de dos o

más muestras representan diferencias significativas en las poblaciones de las que proceden

las muestras. Esta cuestión da lugar a la teoría de la decisión porque en ella de lo que se

trata es de decidir, mediante la aplicación de los tests de hipótesis, si se puede o no

rechazar la hipótesis nula, que niega que las diferencias observadas en las muestras

respecto a valores dados o en comparación de unas con otras, sean significativas en

relación a las poblaciones totales al ser explicables simplemente por el error o la fluctuación

de las muestras. La teoría de la decisión considera el error muestral, evaluando si el error

de la(s) muestra(s) es(son) de tal magnitud que absorbe(n) y en consecuencia anula las

diferencias observadas. Las pruebas de Hipótesis pueden ser paramétricas (referidas a

variables cuantitativas) o no paramétricas (referidas a variables cualitativas).

2.5 Conceptos básicos de la Estadística

1. Población.- Es cualquier conjunto de personas, objetos, ideas o acontecimientos,

sometido a una observación estadística. También, se conoce a este conjunto como

Page 19: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

18

Colectivo o Universo. El significado que se da en Estadística a la palabra Población es más

amplio que el usado habitualmente, referido exclusivamente a un conjunto de personas.

2. Elementos o individuos de una población.-Es cada uno de los componentes de

la población. = Unidad de análisis

3. Tamaño de la población.- Es el número de elementos de una población. Puede

ser finito o infinito.

4. Carácter (característica).- Es cada una de las propiedades, rasgos o cualidades

que poseen los elementos de una población. Los caracteres pueden ser cuantitativos o

variables y cualitativos o atributos.

5. Variable.- Es cualquier característica de una población. Para algunos, el término

variable es genérico de característica. Si es susceptible de tomar valores numéricos y

expresa magnitudes se le denomina “variable cuantitativa”. La variable aún siendo la

misma para toda la población no tiene por qué presentarse con la misma intensidad en

cada elemento. Las diversas intensidades son números que corresponden a los diferentes

valores de la variable. Si la característica no es susceptible de reflejar magnitudes

numéricas, sino sólo modalidades se le denomina “variable cualitativa”.

Las variables se clasifican en continuas o discretas según que admitan o no

valores intermedios entre dos valores consecutivos. En la práctica, la distinción entre

variable discreta y continua no es fácil, ya que todas las variables pueden ser consideradas

discretas al no permitir los instrumentos de medida pasar de un cierto límite de precisión.

6. Recorrido.-El recorrido de una variable queda determinado por la diferencia de

sus valores extremos, máximo y mínimo. También se le llama rango.

7. Dominio.- Conjunto de todos los valores posibles o todas las modalidades

posibles que puede tomar una variable.

8. Atributo.- Algunos autores usan el término para referirse a las “variables

cualitativas”. Es la característica de una población no susceptible de ser medido

numéricamente, por lo que no se expresa en magnitudes.

9. Modalidades.-Son las diferentes formas en que puede presentarse un atributo o

variable cualitativa.

10. Observación de la población.- Una vez determinada una población, no se

realiza, habitualmente, un estudio de todos los caracteres de la misma, sino que se

seleccionan los que van a ser objeto de observación. La observación de los caracteres

Page 20: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

19

implica, conocer en cada elemento, el valor que toma cada variable o la modalidad que

presenta cada atributo o variable cualitativa.

10.1. Estos datos observados, valores y modalidades, se podrán clasificar

dependiendo del tipo de medidas que se utilice para su presentación.

a) Medida nominal.- Cuando los datos obtenidos se clasifican sin que exista ninguna

relación de orden o distancia entre los mismos.

b) Medida ordinal o jerárquico.- Cuando solo es posible establecer una relación de

orden, bien de mayor a menor o viceversa.

c) Medida de intervalo.- Cuando los datos pueden clasificarse ordenándolos y, al

mismo tiempo, es posible medir una distancia entre dos medidas cualesquiera.

d) Medida de razón.- Cuando los datos se relacionan con otros usando escalas.

La observación, en el caso de una variable cuantitativa, supone obtener un valor

numérico para cada elemento. Existen varios sistemas diferentes para obtener estos

valores numéricos:

a) Aplicando una unidad de medida normalizada (litro, metro, etc.).

b) Empleando un sistema de puntuaciones, cuando no existe unidad de medida

normalizada (notas de clase).

c) Asignando un rango a cada elemento de la población (número de orden de peor a

mejor).

Los dos últimos modos de observación b) y c) son subjetivos y, por tanto, pueden

dar resultados diferentes dependiendo de la persona que realice la valoración.

10.2. Clasificación de las observaciones en función del tiempo

Observaciones transversales: Son observaciones que se realizan en un instante

determinado (o intervalo de tiempo). Observaciones temporales o longitudinales: Son las

diferentes observaciones que se realizan a lo largo del tiempo (o de intervalos de tiempo).

10.3. Clasificación de las observaciones en función de los elementos

observados

Observación exhaustiva: Cuando se hace una observación de todos los elementos

de la población. Esta observación se conoce como CENSO.

Observación parcial: Sólo se puede observar una parte de los elementos de la

población. A esta parte de la población se le denomina, dependiendo del método de

selección, Subpoblación o Muestra. Se utilizan observaciones parciales cuando los

Page 21: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

20

elementos de la población son infinitos o, en el caso de ser finitos, cuando no pueda

observarse exhaustivamente, como en los siguientes casos:

-La población es excesivamente grande. -El tiempo que se emplearía es más largo que el disponible o el deseado. -El costo de la observación total es superior a los recursos disponibles. -La observación implica la destrucción de los elementos (ensayos destructivos). a) Subpoblación: Los elementos que integran la parte seleccionada reúnen una o

más características especiales que no se presentan en los restantes elementos.

Se utiliza cuando sólo interesan los elementos de la población con una o más

características particulares.

b) Muestra: Es la parte seleccionada de una población, en la que los elementos que

la componen no tienen ninguna característica esencial que los distinga de los restantes. Se

utiliza cuando es necesario disponer de una parte representativa de la población. Una

muestra puede elegirse inspirándose en el azar, muestreo aleatorio, o realizando una

selección de acuerdo con ciertas reglas fijadas con anterioridad, muestreo no aleatorio.

Observación mixta: Unos caracteres se estudian de forma exhaustiva y otros de

forma parcial.

3. FUENTES DE INFORMACIÓN Y NIVELES DE MEDICIÓN 3.1 Fuentes de información

Las fuentes de datos estadísticos son el producto de la aplicación de diversos instrumentos

de captación de información referentes a la población de interés: personas, viviendas,

industrias, comercios, empresas, consumidores, prestadores de servicios, productos,

recursos, etc.

Las fuentes de datos pueden clasificarse de diferentes formas según el criterio

considerado. A partir de la población de referencia, las fuentes de información pueden

clasificarse en censos, si a través de un cuestionario o algún otro instrumento se recaba

información sobre el conjunto total de la población o universo; encuestas, si el cuestionario

o instrumento recaba información aplicándose a una muestra estadística o subconjunto

poblacional seleccionado aleatoriamente; y registros, si el cuestionario capta información

de un subconjunto no aleatorio de la población

Otras formas de clasificación de las fuentes de información pueden considerarse

según el momento de levantamiento del dato, la referencia temporal de la información, por

Page 22: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

21

la relación entre el generador y usuario de la fuente, por el tipo de dato que maneja, por la

materia que aborda o por la accesibilidad de la información.

TIPOS DE FUENTES DE DATOS

CRITERIO TIPO DEFINICIÓN POBLACIÓN DE REFERENCIA

CENSOS

ENCUESTAS REGISTROS

Cuestionario aplicado al conjunto total de la población o universo. Cuestionario aplicado a un subconjunto de la población o universo seleccionado aleatoriamente. Cuestionario que responde un subconjunto no aleatorio de la población que reporta voluntariamente o en cumplimiento de una obligación específica la ocurrencia y características de un evento de interés.

MOMENTO DE LEVANTAMIENTO DEL DATO

PUNTUAL

CONTINUA

Se recoge el dato en un momento o periodo corto y definido. CENSOS Y ENCUESTAS. Existe la infraestructura para recoger el dato conforme ocurran los eventos en el tiempo. REGISTROS CONTINUOS.

POR LA REFERENCIA TEMPORAL DE LA INFORMACIÓN

STOCK FLUJO

Hace referencia a la situación en un momento en el tiempo (también se llama transversal). CENSOS Y ENCUESTAS. Hace referencia a la situación a lo largo del tiempo, en periodos (también se llama longitudinal). REGISTROS CONTINUOS Y ENCUESTAS.

POR LA RELACIÓN ENTRE GENERADOR Y USUARIO DE LA FUENTE

PRIMARIA

SECUNDARIA

Usada y generada por el mismo individuo o institución. Usada por individuos o instituciones que no la generaron.

POR EL TIPO DE DATO QUE MANEJAN

CUANTITATIVA

CUALITATIVA

Refleja el volumen o frecuencia del evento numéricamente. Describe las características y calidad del evento.

Page 23: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

22

CRITERIO TIPO DEFINICIÓN POR LA MATERIA QUE ABORDAN

ECONÓMICAS FINANCIERAS MERCANTILES DEMOGRÁFICAS DE RECURSOS ECOLÓGICAS

Descripción de los objetos / sujetos de cada disciplina o campo semántico

POR EL ACCESO

PÚBLICA RESTRINGIDA PRIVADA

Si el acceso es general. Si el acceso se permite sólo a ciertas personas o dependencias Si la información es propiedad de una persona o institución privada.

Fuente: Elaborado a partir de fuentes múltiples.

Los datos contenidos en dichas fuentes pueden presentar diversas características.

Considerando quién produce y usa el dato, éstos pueden clasificarse en primarios y

secundarios. Si el dato es captado por la observación del elemento a describir o si lo

proporciona un tercero o incluso es una estimación, los datos pueden ser directos o

indirectos. Y dependiendo del grado de corrección o procesamiento de la información, los

datos pueden ser bruto, corregidos o refinados.

TIPOS DE DATOS CRITERIO TIPO DEFINICIÓN

SEGÚN QUIEN PRODUCE Y USA EL DATO

PRIMARIO

SECUNDARIO

Si el usuario es el mismo que las genera adhoc a su investigación Si el usuario no las generó

SEGÚN SI ES CAPTADO POR OBSERVACIÓN DEL ELEMENTO A DESCRIBIR O SI LO PROPORCIONA UN TERCERO O ES UNA ESTIMACIÓN

DIRECTOS (OBSERVADOS) INDIRECTOS (ESTIMADOS)

Datos que se consiguen de manera simple y sin mayores supuestos, o que representan series de números absolutos. Son tratados o indirectos los obtenidos luego de operaciones de cálculo cuya aplicación requiere de supuestos.

Page 24: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

23

CRITERIO TIPO DEFINICIÓN

SEGÚN EL GRADO DE CORRECCIÓN O PROCESAMIENTO

BRUTOS (OBSERVADOS, ORIGINALES) CORREGIDOS REFINADOS

Se denominan datos brutos a los que se presentan sin desagregaciones, suavizamientos, ajustes o correcciones. Datos corregidos son aquellos que han sido sometidos a técnicas de suavizamiento, de ajuste, de corrección o de tipificación. Son refinados los datos que se presentan en una forma más detallada y precisa, con la intención de proporcionar una idea más exacta de lo que se pretende analizar.

Fuente: Elaborado a partir de fuentes múltiples.

Al igual que las fuentes de información bibliográficas, las fuentes estadísticas de

información deben citarse indicando el autor o institución que genera la fuente de

información, el nombre de la fuente o instrumento, el período de referencia y lugar de

aplicación del instrumento, el formato de presentación (medio electrónico o impreso), lugar y

fecha de difusión o publicación.

Por ejemplo, el último censo de población levantado en México debe citarse como

sigue: INEGI. XII Censo General de Población y Vivienda, 2000. Estados Unidos

Mexicanos, Tabulados Estatales (impreso), México, 2001.

3.2 Clasificación, jerarquización y medición Al hacer elaboraciones estadísticas respecto a las unidades y sus características es

necesario clasificarlas, jerarquizarlas, medirlas. Dentro de las características señaladas,

sólo es posible clasificar algunas; es decir, agruparlas de acuerdo a subclases o

subconjuntos. Por ejemplo, en relación a la característica sexo podemos determinar cuántos

son hombres y cuántas son mujeres, clasificando el conjunto, personas, en dos

subconjuntos, hombres y mujeres.

En otros casos podemos jerarquizar las unidades; es decir, clasificarlas en un orden

decreciente, o creciente; por ejemplo en las características coeficiente de inteligencia y

estrato social al que pertenecen.

Page 25: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

24

Por último algunas características pueden ser medidas en un sentido estricto, por

ejemplo: ingreso, estatura, edad, peso tiempo diario de trabajo, etcétera. Esto lo ponemos

de manifiesto para que sea claro el hecho de que los datos numéricos pueden diferir en

cuanto al tipo de “medición” que es factible aplicarles, según sea una u otra medición la que

admitan los datos; también será diferente el tipo de manipulación matemática a la que

podemos sujetarlos.

NOMINAL: nombres, etiquetas, identificadores ORDINAL: implica que el identificador permite dar orden NIVELES DE o jerarquía MEDICIÓN INTERVALAR: refiere a rangos, intervalos COCIENTES O RAZONES: implica el uso de parámetros de medición

La ignorancia de ello conduce a serios errores en la aplicación de los resultados

estadísticos. Por lo general se acepta la existencia de cuatro niveles de medición: nominal o

clasificatorio, ordinal, de intervalo y de cocientes o razón.

3.3 Niveles de medición: nominal, ordinal, intervalar, cocientes o razones, porcentajes, proporciones, coeficientes, incrementos, tasas

Nivel nominal o clasificatorio

En este nivel de medición las unidades (personas, objetos, etc.) únicamente se clasifican de

acuerdo a la característica o características que se pretendan analizar. Para distinguir los

agrupamientos de unidades empleamos símbolos, letras o números. Cuando se emplean

números para distinguir los conjuntos, dichos números sólo tienen un valor simbólico y no

numérico. Ejemplos de este nivel de medición son:

Hombres: H, A, X, ♂, 1

Mujeres: M, B, Z, ♀, 2

Page 26: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

25

Nivel ordinal

En este nivel las unidades de las subclases guardan una cierta relación entre sí, esto se

pone de manifiesto cuando estamos en posibilidad de establecer la relación mayor que (>)

o menor que (<) respecto a las características de las unidades escaladas. Por ejemplo

cuando clasificamos a los miembros de una comunidad en estratos alto, medio y bajo, se

puede establecer que: alto > medio >bajo; o a la inversa: bajo < medio < alto. Si en un

concurso de oratoria se debe jerarquizar a los participantes de acuerdo con las

calificaciones de los jueces, pueden ser ordenados a partir del más al menos apto y estos

constituye una escala ordinal.

Las medidas estadísticas más comúnmente empleadas en este nivel son: mediana,

cuantilas, coeficiente ρ (rho) de Spearman, τ (tau) de Kendall, ω de Kendall.

En el nivel ordinal la distancia entre dos unidades no es conocida Por ejemplo no se

determina qué distancia existe entre un miembro del estrato medio respecto a otro del

estrato alto, pero sí se conoce su relación en cuanto al rango o jerarquía.

En el nivel ordinal los números que se asignan a las características permiten

determinar el orden o la posición jerárquica en una escala, pero no tienen significado en lo

referente a ¿cuánto? O ¿cuántas veces?, porque son cualidades no aditivas.

Nivel de intervalo

El nivel de intervalo tiene, además de las propiedades de la escala ordinal, la propiedad de

que la distancia entre dos valores es de una magnitud conocida, lo cual da a esta escala un

mayor grado de perfección. En la escala de intervalo el punto cero y la unidad de medición

son arbitrarios. La razón entre dos intervalos es siempre independiente del punto cero y de

la unidad que se emplee en la medición.

Un ejemplo ilustrativo y sencillo de escalas de intervalo lo constituyen las escalas

empleadas en la medición de la temperatura: grados centígrado, Fahrenheit y Kelvin, esta

última empleada en la ciencia física. Nos referimos a las dos primeras escalas por ser más

comunes.

Temperaturas equivalente en las dos escalas:

Grados Fahrenheit 32 50 68 86 104 122 176 212

Grados centígrados 0 10 20 30 40 50 80 100

Page 27: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

26

Las unidades de medición –grados- están determinadas por el sistema empleado

para fijar los valores de 0 y 100. Sin embargo ambas escalas contienen la misma cantidad y

el mismo tipo de información.

La razón de las diferencias entre dos intervalos son independientes de las unidades

empleadas y del punto cero, por ejemplo:

40 – 30 = 1 104 – 86 = 1 30 – 20 86 - 68

La razón entre iguales diferencias de temperatura es la misma. Las dos escalas

proporcionan la misma cantidad de información numérica, esto es así porque están

relacionadas linealmente. Esto es porque el recorrido de los intervalos en cada escala es de

la misma dimensión

Nivel de razón

Se caracteriza porque tiene un punto cero verdadero, es decir absoluto, además de poseer

las características de la escala de intervalo; esto es, las distancias entre dos valores de la

escala son conocidas en el sentido cuantitativo y su “razón” es independiente de las

unidades empleadas; en las escalas empleadas en la medición de longitudes, pesos y

masas, el punto cero es absoluto, real; por ejemplo en las unidades metro, yarda,

kilogramo, libra, metros cúbicos, puesto que un 2valor cero indica ausencia de medición;

esto es, inexistencia. En la escala de intervalo no podemos afirmar, verbigracia, que 0

grados centígrados indique ausencia de temperatura.

En la escala de razón se da una razón igual entre dos valores de escalas diferentes,

por ejemplo kilogramos y libras; la razón entre 40 y 25 kilogramos es igual a la razón entre

40 y 25 libras. Esto es, mantienen la proporcionalidad.

La escala de razón reúne todas las propiedades de las escalas nominal, ordinal y de

intervalo, además de poseer un cero absoluto; es decir, equivalencia, mayor o menor que,

razón conocida entre dos intervalos y entre dos valores de escala.

El nivel de razón, se denomina así, porque se utilizan parámetros estándares, donde

lo observado es calibrado o medido en razón del parámetro o unidad de medida.

Page 28: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

27

Rango entre los niveles de medición

Entre los cuatro niveles de medición puede establecerse un ordenamiento jerárquico de

perfección: la escala de razón posee todas las propiedades de las escalas de intervalo,

ordinal y nominal. La escala de intervalo posee las propiedades de la escala ordinal y

nominal, y la ordinal, además de su propiedad, posee la de la nominal.

El nivel nominal sólo permite identificar los objetos de acuerdo a la categoría o clase

que pertenecen. El nivel ordinal permite comparar variables en el sentido de más grandes o

menores. El nivel de intervalo y el de razón permite establecer qué tanto más grande o más

pequeña es una medición comparada con otra.

La escala de razón puede transformarse para ser manipulada por los procedimientos

empleados por las otras escalas. Por ejemplo, las estaturas es factible arreglarlas en un

orden jerárquico de mayor a menor (nivel ordinal), asimismo podríamos clasificar el conjunto

en dos, tres o más subclases, por ejemplo de estatura baja, media, alta (nivel nominal).

El proceso inverso no es factible; es decir, transformar datos de un nivel de medición

más bajo a otro mayor, cuando sólo reúne las propiedades de bajos niveles.

Es más frecuente el empleo del nivel de razón, sobre todo en aquellos que

intervengan valores monetarios, de volúmenes, de peso, longitud, edad.

Las técnicas estadísticas a emplear en el análisis y las conclusiones que puedan

obtenerse dependen en mucho del nivel de medición que sea apropiado a los datos, por

tanto antes de cualquier manipulación estadística, es conveniente dejar bien claro el nivel

de medición apropiado para efectuar los cálculos.

Razones, porcentajes, proporciones, coeficientes, incrementos, tasas RAZÓN: Relación entre dos subconjuntos o dos conjuntos. Hombres 600 600 Mujeres 200 600:200 = ------ = 3:1 = 3 a 1 = 300 a 100 200 COEFIENCIENTES = TASAS E INDICES TASAS= EVENTOS OBSERVADOS (100) POBLACIÓN QUE PUEDE VIVIRLOS INCREMENTOS % = F - I (100) I

Page 29: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

28

INDICE DE EFICIENCIA = %F - % I (100) 100 - %I

3.4. Estructuración de bases de datos

Los datos obtenidos de la observación de uno o más caracteres de los elementos de una

población son, generalmente, un conjunto de datos sin orden y de volumen elevado. Para

su análisis se les debe dar un tratamiento previo, que exige una ordenación de los datos

obtenidos para cada carácter y una presentación adecuada que permita el análisis de sus

variaciones. Para que la presentación de los datos obtenidos de la observación sea

adecuada se usan tablas y gráficas estadísticas. La tabla estadística es una agrupación de

datos ordenados con arreglo a un criterio lógico; este proceso se llama tabulación.

Hay que tener en cuenta que todo proceso de reducción, y por tanto de tabulación,

implica la pérdida de parte de la información, lo cual origina un error en los cálculos que se

realicen. La existencia de este error es inevitable si se quiere disponer de una presentación

de datos manejable, pero siempre debe mantenerse dentro de márgenes controlados.

La distribución de frecuencias es una estadística basada en la reducción de datos,

mediante agrupación de los mismos considerando su repetición o frecuencia. En este tipo

de estadísticas los elementos pierden su individualidad, en beneficio de un mejor

conocimiento del comportamiento general.

Registro de datos No caso Edad Sexo (Hombre

o Mujer) Lugar de

nacimiento Lugar de residencia

actual 1 2 3 4 5 6 7 8 9 Total

Page 30: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

29

4. DISTRIBUCIÓN DE FRECUENCIAS

4.1 Distribución de frecuencias unidimensionales simples y acumuladas, absolutas y relativas

Manejo de los datos obtenidos en la observación 1. Ordenación. Se trabaja característica por característica. Los casos se ordenan según el

valor de su característica de mayor a menor magnitud o de menor a mayor magnitud.

Donde:

Cuadro 1. Cuadro 2. No. caso Edad No. caso Sexo

Valor mínimo (min): es el valor de menor magnitud en el conjunto.

Valor máximo (max): es el valor de mayor magnitud en el conjunto.

Esta identificación sólo es válida para el conjunto que se analiza, pues en otro

conjunto estos valores pueden no ser ni mínimo ni máximo.

2. Agrupación de los valores que se repiten, frecuencias.

a) Frecuencia absoluta.- Es el número de veces que se presenta el dato de una

característica. Se representa por ni. Es el número de veces que se repite un

determinado valor de la variable o una determinada modalidad del atributo, y por tanto

representa el número de elementos de la población que tienen ese valor o modalidad.

La suma total de todas las frecuencias absolutas es el tamaño de la población de

elementos observados y se representa por N.

b) Frecuencia relativa.- Es la proporción o porcentaje que representan los casos que

tiene el mismo valor o modalidad de una variable respecto al total de elementos de la

población. La frecuencia relativa se obtiene como proporción dividiendo la frecuencia

Page 31: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

30

absoluta de un determinado dato entre la suma de las frecuencias absolutas de todos

los datos observados, o sea entre el tamaño de la población. Como porcentaje se

obtiene multiplicando por cien esa proporción. Se representa por fi.

c) Frecuencia absoluta acumulada.- Es igual a la frecuencia absoluta de un dato

determinado más la suma de las frecuencias absolutas de los datos anteriores. Se

representa por Ni. Esta frecuencia representa, cuando existe una relación de orden, el

número de elementos de la población que quedan por encima o por debajo del

elemento cuyo valor o modalidad se observa.

d) Frecuencia relativa acumulada.- La frecuencia relativa acumulada de un dato

determinado, es igual a la suma de las frecuencias relativas de todos los datos menores

o iguales a dicho valor. Se representa por Fi. Igual que las frecuencias relativas simples

se suelen presentar en porcentajes % Fi.

3. Obtención de la tabla de frecuencias de cada variable.

Edad

Frecuencia Absoluta

Simple (ni)

Frecuencia Absoluta

Acumulada (Ni)

Frecuencia Relativa Simple

en % (%fi)

Frecuencia Relativa Acumulada en %

(%Fi)

Particularidades del atributo o variable cualitativa.

Las variaciones de los atributos o variables cualitativas se denominan modalidades. Para

obtener frecuencias de variables cualitativas, los elementos de la población se agrupan por

modalidades.

Reglas para definir modalidades: 1. Las modalidades deben definirse con precisión, haciendo explícitos las definiciones y

criterios de clasificación.

Page 32: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

31

2. Las modalidades deben ser exhaustivas, debiéndose establecer todas las modalidades

posibles.

3. Las modalidades deben ser mutuamente excluyentes: cada caso debe pertenecer a

una sola modalidad y nada más que a una.

Cuando una variable cualitativa o atributo tiene solo dos modalidades se le llama

atributo dicotómico. Cuando tiene más de dos modalidades se le llama atributo múltiple.

Sexo Frecuencia Absoluta Simple

(ni)

Frecuencia Absoluta Acumulada (Ni)

Frecuencia Relativa Simple en

% (%fi)

Frecuencia Relativa Acumulada en %

(%Fi) Hombres Mujeres

4.2 Representaciones gráficas Gráficos de frecuencias simples (absolutas o relativas) Normalmente, se representan en el eje de abscisas los distintos valores observados de la

variable (X) y en el eje de ordenadas las frecuencias absolutas o relativas (n i ó f i).

a. En el diagrama de barras se indica mediante una línea gruesa vertical (barra) la

frecuencia correspondiente a cada valor de la variable.

b. En el polígono de frecuencias o diagrama lineal se representa por un punto cada par

de valores (Xi, ni) ó (Xi, fi) uniéndose mediante rectas cada dos puntos consecutivos.

Valores ordenados de edades de niños: 3, 4, 5, 5, 5, 6, 6, 7, 8, 9

Diagrama de Barras Polígono de frecuencias

Niños según su edad

0

1

2

3

4

1 2 3 4 5 6 7 8 9

Edades

Frecuencia(Niños)

Niños según edades

0

1

2

3

4

1 2 3 4 5 6 7 8 9

Edades

Frecuencia (Niños)

Page 33: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

32

Gráficos de frecuencias acumuladas (absolutas o relativas)

En el eje de las abscisas se colocan los distintos valores observados de la variable (X) y en

el eje de las ordenas se presenta la frecuencia acumulada hasta cada uno de los valores de

la variable.

a) En el diagrama de frecuencias acumuladas se indica con barras la frecuencia

acumulada correspondiente a cada valor de la variable, por lo que conforme se

incrementa el valor de la variable X, la barra será mayor a la de su izquierda,

generando una forma de escalera ascendente.

b) En el polígono de frecuencias acumuladas (o diagrama acumulado de frecuencias o

polígono acumulativo de frecuencias) se conforma una línea curva creciente.

Diagrama de frecuencias acumuladas Polígono de frecuencias acumuladas

Si los elementos observados y los valores o modalidades de las variables también

son muchos, es adecuado agrupar los datos obtenidos para su representación gráfica,

usando clases e intervalos.

Clase.- Es el grupo donde se reúnen varios valores distintos de una variable. La

frecuencia de casos en la clase será la suma de las frecuencias de cada uno de los valores

incluidos en la clase.

Intervalo.- Cada clase tiene un intervalo definido por sus límites inferior y superior,

conocidos como límites de clase (Li-n = límite inferior y Li =límite superior), donde n indica la

longitud de los intervalos.

Los intervalos, frecuentemente, acaban en un número (límite superior) que es el

mismo con el que empieza el intervalo siguiente (límite inferior). Por convenio, las

observaciones que tengan este valor se anotan en el primer intervalo.

Niños según edades en frecuencia acumulada

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9

Edades

Frecuencia acumulada

(Niños)

Niños según edades en frecuencia acumulada

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9

Edades

Frecuencia acumulada (Niños)

Page 34: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

33

Valores ordenados: 1, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9

Intervalos Frecuencia de Valores incluidos De 0 a 3 = 1, 3 De 3 a 6 = 4, 5, 5, 6, 6 De 6 a 9 = 7, 8, 8, 9

Amplitud de intervalo: Es la diferencia entre el límite superior y e inferior de la clase. Li Li-n Límite ___ Límite = amplitud de intervalo Superior inferior 3 – 0 = 3 6 – 3 = 3 9 – 6 = 3

La amplitud de los intervalos puede ser constante o no, e incluso carecer de límite

superior o inferior, en este caso se le conoce como intervalos de clase abierta. Cuando

ambos límites son cerrados se representan entre paréntesis ( , ). Cuando ambos son

abiertos se representan entre corchetes [ , ]. Si un límite es abierto y otro cerrado se usará (

, ] ó [ , ).

Si los intervalos son de amplitud constante, su valor se puede obtener dividiendo el

recorrido de la variable entre el número de clases con las que se quiere presentar la

distribución.

Marca de clase.- Para poder operar matemáticamente con estas distribuciones es

preciso considerar un valor concreto de la variable en cada clase que sea representativo,

este valor se conoce como marca de clase. Normalmente se toma el valor central del

intervalo que se calcula sumando los dos límites del intervalo y dividiéndolo entre dos.

Li-n Li xi Intervalos Límite + Límite / 2 = Marca de clase Inferior Superior De 0 a 3 ( 0 + 3 ) / 2 = 1.5 De 3 a 6 ( 3 + 6 ) / 2 = 4.5 De 6 a 9 ( 6 + 9 ) / 2 = 7.5

Error de agrupamiento.- La pérdida de información que se produce al agrupar los

valores de la variable y tomar como valor representativo la marca de clase, da lugar a unos

Page 35: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

34

valores distintos a los que se obtendrían si no se realizase el agrupamiento. La diferencia

entre ambos valores se denomina “error de agrupamiento”.

Valores ordenados: 1, 3, 4, 5, 5, 6, 6, 7, 8, 8, 9 Suma acumulada: 1 + 3 + 4 + 5 + 5 + 6 + 6 + 7 + 8 + 8 + 9 = 62 Li-n –Li ni xi Intervalos Frecuencia x Marca de clase De 0 a 3 = 2 x 1.5 = 3.0 De 3 a 6 = 5 x 4.5 = 22.5 De 6 a 9 = 4 x 7.5 = 30.0 55.5 Error de agrupamiento: 62 – 55.5 = 6.5 Li-n –Li ni xi Intervalos Aporte Frecuencia x Marca de Aporte Clase estimado Error De 0 a 3 = 4 2 x 1.5 = 3.0 1.0 De 3 a 6 = 26 5 x 4.5 = 22.5 3.5 De 6 a 9 = 32 4 x 7.5 = 30.0 2.0 55.5 6.5 Gráficos de frecuencias simples (absoluta y relativa) o Histogramas de clases

Se constituyen por tantos rectángulos como clases se consideran en una distribución.

Cuando se desea expresar la magnitud del rango de las clases, la base de cada rectángulo

será la amplitud correspondiente a cada clase. Cuando solo se busque señalar las clases,

las bases de los rectángulos pueden tener la misma dimensión. El área de cada rectángulo

debe ser igual o proporcional a la frecuencia simple del correspondiente intervalo.

Gráficos de frecuencias acumuladas (absoluta y relativa) o Polígonos acumulativos de frecuencias de clases. Este se obtiene uniendo mediante rectas cada par consecutivo de valores (frecuencia

absoluta-intervalo), formando una curva ascendente.

Para el diseño de los gráficos existe la “Regla de los tres cuartos de altura”: “En la

representación gráfica de las frecuencia el eje vertical debe hacerse de tal modo que la

altura del punto máximo sea aproximadamente igual a tres cuartos de la longitud del eje

horizontal.”

Page 36: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

35

Gráficas de atributos

a. Diagrama de rectángulos: Los atributos no se expresan numéricamente sino por sus

modalidades. Para su representación gráfica se puede utilizar el mismo método que para

las variables, situando en abscisas las modalidades y en ordenadas las frecuencias. Como

las modalidades carecen de amplitud numérica, se representarán cada una de ellas por un

segmento de amplitud constante, por lo que la altura de los rectángulos corresponderá con

su frecuencia. Los rectángulos no suelen presentarse unidos, para evitar dar una idea de

continuidad en las modalidades del atributo.

b. Diagrama de sectores: se representa un círculo dividido en tantos sectores como

modalidades o valores presenta la variable. La amplitud de estos sectores es proporcional

al valor de la frecuencia correspondiente.

c. Pictogramas: Se basan en la repetición de una figura que representa la unidad de

frecuencia.

d. Cartogramas: Se usan para representar estadísticas geográficas o espaciales,

identificando color o marca con cada modalidad.

e. Diagrama de puntos: Se usa sólo el punto extremo del diagrama de barras.

México. Población 2005 por tamaño de localidad

0

10

20

30

40

50

60

70

1-2,499 2,500-4,999 5,000-9,999 10,000-14,999 15,000 y más

Rango-tamaño de localidad

Millones México. Población acumulada por tamaño de localidad, 2005.

0

20

40

60

80

100

120

1-2,499 2,500-4,999 5,000-9,999 10,000-14,999 15,000 y más

Rango-tamaño de localidad

Millones

Page 37: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

36

Diagrama de rectángulos Cartograma 4.3 Medidas de una distribución Son medidas que, resumiendo las tablas estadísticas, permiten diferenciar una distribución

de otra, lográndose la comparación entre distribuciones de frecuencias correspondientes a

poblaciones diferentes. Estas medidas cumplen la propiedad de proporcionar una única

solución para cada distribución de frecuencias.

Medidas de posición o tendencia central

Tipos de medidas Medidas de dispersión

de una distribución Medidas de concentración

Medidas de forma

4.3.1 Medidas de tendencia central: media aritmética, mediana y moda Permiten identificar una distribución midiendo distintas posiciones de la misma. Las

medidas que obtienen un valor medio de las observaciones se les llama medias o

promedios. Si identifican la observación que ocupa la posición central se le llama mediana.

A las medias y a la mediana que obtienen posiciones centrales se les denomina de

tendencia central, ya que suministran un valor central representativo de toda la distribución.

Entre estas medidas se suele incluir la moda que realmente busca la posición que tiene

mayor frecuencia. Otras medidas presentan posiciones intermedias como son los cuantiles.

México. Distribución porcentual de la población rural por entidad federativa, 2030.

0.0

2.0

4.0

6.0

8.0

10.0

12.0

Verac

ruz

Chiapa

s

Oaxac

a

Puebla

Guana

juato

Guerre

ro

Hidalgo

Taba

sco

Jalis

co

Sinaloa

Zaca

tecas

Chihua

hua

Duran

go

Sonor

a

Tamau

lipas

Nayar

it

Baja C

aliforn

ia

Coahu

ila

Campec

he

Mor

elos

Quintan

a Roo

Aguasc

alien

tes

Tlax

cala

Baja C

aliforn

ia Sur

Colima

Distrito

Fed

eral

Porcentaje %

Page 38: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

37

Moda (Mo): Es el valor más frecuente, el más común, el que se repite más veces. Si

existen varios valores de la variable con idéntica frecuencia y éstas, además, son las

mayores, se dirá que la distribución es plurimodal.

Las edades de 9 niños son: 0, 9, 3, 2, 5, 6, 8, 6, 4. ¿Cuál es la moda?

Mediana (Md): Si se ordenan todos los valores de la variable en sentido creciente o

decreciente, la mediana es el valor que ocupa el lugar central, con l que deja a cada uno de

sus lados el mismo número de observaciones. Se representa por Md. Si la serie de

números ordenados es impar será el valor que ocupa la posición central y si es par será la

media de los dos valores centrales.

Ejemplo:

Las edades de 9 niños son: 0, 9, 3, 2, 5, 6, 8, 6, 4. ¿Cuál es la mediana?

Las edades ordenadas son: 0, 2, 3, 4, 5, 6, 6, 8, 9

El valor que ocupa la posición central es el 5. Cuatro edades son inferiores y otras 4

son superiores; luego la mediana es igual a 5.

Ejemplo:

Las ventas efectuadas por los vendedores de una empresa han sido, en millones de

pesos, las siguientes: 45, 54, 62, 39, 73, 48, 53, 70, 49, 56. ¿cuál es la mediana? ¿qué

significa?

Los valores ordenados: 39, 45, 48, 49, 53, 54, 56, 62, 70, 73.

Los valores centrales son 53 y 54, entonces la mediana se encuentra entre ambos,

obteniendo por la media o promedio aritmético:

Me = 53 + 54 = 53.5 2

Media aritmética simple (X): Razón entre la suma de todos los valores de los casos

y el número de elementos del conjunto. La media aritmética indica el valor que

correspondería a cada caso si el valor total de la variable aportado por cada uno de ellos se

distribuyera equitativamente entre todos los casos. (Promedio aritmético simple)

_ X = x1 +x2+...+xn = Σ xi

N N

Ejemplo: Hallar la media aritmética de los valores 25, 15, 35, 20, 5

Media aritmética ponderada (X): Ponderar significa determinar el peso de cada

cosa. Algunas veces interesa conocer el peso o importancia que tiene cada uno de los

Page 39: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

38

valores de una variable o la marca de clase. Para ello se multiplica cada valor de la variable

o la marca de clase por su frecuencia. La media aritmética ponderada es el promedio de los

valores ponderados. La media aritmética ponderada indica el valor que correspondería a

cada caso si el valor total de la variable aportado por cada uno de ellos según su peso

específico (ponderado) se distribuyera equitativamente entre todos los casos. (Promedio

aritmético ponderado)

_ X = n1x1 +n2x2+...+nkxk = Σ n i x i = Σ n i x i

n1 + n2 +... + nk Σn i N Ejemplo: Hallar la media aritmética de los valores ponderados por su frecuencia :

Valores (xi) Frecuencia Valor ponderado (xi ni)

5 3 15 15 5 75 20 7 140 25 4 100 35 1 35 Totales 20 365 Media 365/20=18.25

Cuantil (Qn): Son aquellos valores de la variable que dividen a la distribución en

intervalos iguales, de forma que cada uno de ellos tenga el mismo número de

observaciones. La mediana es un cuantil que divide al número de observaciones de la

distribución en dos partes iguales.

Según el número de partes en que se quiere dividir la distribución, los valores que

establecen el corte toman un nombre diferente. Los cuantiles o cuantilas más utilizados

son:

Cuartiles: dividen en cuatro partes iguales el número de casos. Indica que bajo el

valor Q1 se ubica una primera cuarta parte de los casos ó que una cuarta parte tiene

menos de ese valor. Q2 indica que entre Q1 y Q2 se ubica una segunda cuarta parte de los

casos, Q3 indica que entre Q2 y Q3 se ubica una tercera cuarta parte de los casos, y que

sobre Q3 se ubica la última cuarta parte de los casos. Con los cuartiles se pueden

identificar los valores normales, excedentes y deficientes.

Page 40: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

39

Md Q1 Q2 Q3

Deficientes Normales Excedentes

Quintiles: dividen en cinco partes iguales.

Deciles: dividen en diez partes iguales.

Percentiles: dividen en cien partes iguales.

Los cuantiles se pueden presentar en porcentaje, por ejemplo: los cuartiles serían

los porcentajes 25%, 50% y 75%, que dividen el total de los casos en cuatro partes. Los

percentiles serían los valores enteros del 1 al 100.

4.3.2 Medidas de dispersión: desviación media, desviación típica, varianza

Si los valores observados de la variable están muy concentrados alrededor de un promedio,

este es muy representativo; pero si aquellos valores están muy dispersos con relación a un

promedio éste es muy poco representativo.

En consecuencia, el concepto de promedio no siempre es suficiente y en numerosos

casos es necesaria otra medida que nos proporcione el grado de dispersión de los datos de

la distribución.

Medidas de dispersión absolutas (dan magnitudes en poblaciones específicas, por lo

tanto no son comparables de una población a otra).

Valor mínimo y Valor máximo

Rango

Recorrido intercuartílico

Promedio de desviaciones o Desviación media

Varianza

Desviación típica o Desviación estándar

Page 41: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

40

Medias de dispersión relativas (Se obtienen por cocientes o razones entre magnitudes de

la misma dimensión, por lo que siendo adimensionales permiten comparaciones entre

distribuciones).

Coeficiente de apertura Recorrido relativo Desviación cuartílica Coeficiente de variación Valor mínimo (min): es el valor de menor magnitud en el conjunto.

Valor máximo (max): es el valor de mayor magnitud en el conjunto.

Esta identificación sólo es válida para el conjunto que se analiza, pues en otro

conjunto estos valores pueden no ser ni mínimo ni máximo.

Rango o recorrido: Es la diferencia entre dos valores extremos de la variable, expresada

en las mismas unidades de la variables:

Max - min Edades: 5, 5, 6, 7, 8, 8, 9, 10, 11, 11 Rango= 11 – 5 = 6 años

Recorrido intercuartílico: Es la diferencia entre el tercer y el primer cuartil. Esta medida, al

eliminar los valores extremos de la distribución da idea de la dispersión en el conjunto más

homogéneo de la distribución:

R1 = Q3 – Q1

Ejemplo: 3, 5, 6, 7, 10, 12, 15, 18

Q1 = 5 +6 / 2 = 5.5

Q2 = Mediana = 7+10 / 2 =8.5

Q3= 15 + 12 / 2 = 13.5

R1 = 13.5 – 5.5 = 8

Promedio de desviaciones o desviación media: La media aritmética tiene algunos

inconvenientes para describir una distribución de frecuencias, ya que no da idea de cómo

varían los datos y se ve muy afectada por los valores extremos (muy bajos o muy altos). Si

calculamos la media de dos poblaciones puede apreciarse lo anterior:

Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 13, 13, 14, 14 años _ Media = X = Σ x = 143 = 8.94 N 16

Page 42: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

41

Población B. Edades 3, 35, 1, 2, 3.7 años _ Media = X = Σ x = 44.7 = 8.94 N 5

El promedio aritmético es igual en A y en B, 8.94 años, y sin embargo el primer

conjunto tiene edades más homogéneas que el segundo, donde la persona con 35 años

influye de manera decisiva en el promedio resultante. Dada esta sensibilidad a los valores

extremos, se requieren otras medidas que permitan determinar la magnitud de las

variaciones o diferencias de los datos con relación a la media aritmética. Podemos definir

entonces el promedio de desviaciones como la diferencia o distancia absoluta promedio

entre los valores observados y la media aritmética.

_ PD = Σ | xi X | N

La fórmula nos señala que deben obtenerse las diferencias existentes entre cada

dato y la media aritmética del conjunto, sumar todas las diferencias y dividir dicha suma

entre el número de elementos que componen el conjunto. Como algunas diferencias

respecto a la media son positivas y otras negativas, si las sumamos el resultado será cero.

Por lo tanto, la fórmula indica con las dos barras | | que las diferencias sean absolutas,

todas positivas.

Ejemplo:

Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 12, 13, 14, 14 años

Casos según edad

__ X- X

__ | X- X |

5 5 – 8.94 = -3.94 3.94

5 5 – 8.94 = -3.94 3.94

5 5 – 8.94 = -3.94 3.94

5 5 – 8.94 = -3.94 3.94

6 6 – 8.94 = -2.94 2.94

7 7 – 8.94 = -1.94 1.94

8 8 – 8.94 = -0.94 0.94

8 8 – 8.94 = -0.94 0.94

9 9 – 8.94 = 0.06 0.06

10 10 – 8.94 = 1.06 1.06

Page 43: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

42

11 11 – 8.94 = 2.06 2.06

11 11 – 8.94 = 2.06 2.06

13 12 – 8.94 = 3.06 3.06

13 13 – 8.94 = 4.06 4.06

14 14 – 8.94 = 5.06 5.06

14 14 – 8.94 = 5.06 5.06

0 45.00

_ PD = Σ | x- x | = 45.0 = 2.81 N 16 Población B. Edades 3, 35, 1, 2, 3.7 años

Casos

__

X- X __

| X- X |

1 1 – 8.94 = -7.94 7.94

2 2 – 8.94 = -6.94 6.94

3 3 – 8.94 = -5.94 5.94

3.7 3.7 – 8.94 = -5.24 5.24

35 35 – 8.94 = 26.06 26.06

0 52.12

_ PD = Σ | xi- X | = 52.12 = 10.42 N 5

Si comparamos los promedios de desviaciones con la media aritmética podemos

decir que si bien las dos poblaciones tienen igual promedio de edades, la última es

considerablemente más heterogénea que la primera.

Varianza

Si en lugar de utilizar valores absolutos para eliminar el problema del signo de las

desviaciones, se elevan éstas al cuadrado se obtiene una nueva medida de dispersión

conocida como varianza. Si se obtiene de los valores muestrales se expresa como S2, y por

la letra griega sigma al cuadrado σ 2 si lo es de los valores de la población.

La varianza se puede definir como la media aritmética de las desviaciones de los

valores obtenidos de la variable con respecto a su media aritmética elevadas al cuadrado.

_ σ 2 = Σ ( xi - X ) 2 N

Page 44: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

43

Desviación estándar o típica

No obstante que el promedio de desviaciones es una medida fácil de obtener y de sencilla

interpretación, tiene el inconveniente de que no se presta a la manipulación algebraica.

Por su parte, la varianza tiene el problema que utiliza las unidades de los valores de

la variable elevados al cuadrado, lo que hace que su interpretación sea difícil. Para evitar

este problema se utiliza la desviación típica o desviación estándar.

Es más común, aunque un poco más complejo, el empleo de la desviación

estándar que se simboliza con la letra griega sigma minúscula ( σ ). Como el promedio de

desviaciones, la desviación estándar también es un promedio pero no aritmético, sino un

promedio cuadrático. Su fórmula es:

____________ ___

σ = Σ (X – X ) 2 N

Aquí también se obtienen las diferencias de cada uno de los valores con respecto a su

promedio aritmético. Para evitar que la suma de estas diferencias resulte en cero, se elevan

al cuadrado, por lo que siempre serán positivas.

Población A. Edades 5, 5, 5, 5, 6, 7, 8, 8, 9, 10, 11, 11, 12, 13, 14, 14 años

Casos

___

X- X __

( X- X ) 2

5 5 – 8.94 = -3.94 15.52

5 5 – 8.94 = -3.94 15.52

5 5 – 8.94 = -3.94 15.52

5 5 – 8.94 = -3.94 15.52

6 6 – 8.94 = -2.94 8.64

7 7 – 8.94 = -1.94 3.76

8 8 – 8.94 = -0.94 0.88

8 8 – 8.94 = -0.94 0.88

9 9 – 8.94 = 0.06 0.004

10 10 – 8.94 = 1.06 1.12

11 11 – 8.94 = 2.06 4.24

11 11 – 8.94 = 2.06 4.24

13 12 – 8.94 = 3.06 9.36

13 13 – 8.94 = 4.06 16.48

14 14 – 8.94 = 5.06 25.60

14 14 – 8.94 = 5.06 25.60

0 162.884

Page 45: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

44

Varianza: _ σ 2 = Σ ( xi- X ) 2 = 162.884 = 10.18 años N 16 Desviación estándar: __________ ________ _____ ___

σ = Σ (X – X ) 2 = 162.884 = 10.18 = 3.19 años N 16 Promedio de desviaciones _ PD = Σ | x- X | = 45.0 = 2.81 años N 16 Población B. Edades 3, 35, 1, 2, 3.7 años

Casos

__ X- X

__ ( X- X ) 2

1 1 – 8.94 = -7.94 63.04

2 2 – 8.94 = -6.94 48.16

3 3 – 8.94 = -5.94 35.28

3.7 3.7 – 8.94 = -5.24 27.46

35 35 – 8.94 = 26.06 679.12

0 853.06 Varianza: __ σ 2 = Σ ( xi- X ) 2 = 853.06 = 170.61 años N 5 Desviación estándar: __________ ________ _____ ___

σ = Σ (X – X ) 2 = 853.06 = 170.61 = 13.06 años N 5 Promedio de desviaciones: __ PD = Σ | xi- X | = 52.12 = 10.42 N 5

Page 46: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

45

Medidas relativas de dispersión 1.- Coeficiente de apertura. Algunos autores le llaman coeficiente de disparidad. Se define

por el cociente entre los valores extremos. Representa el número de veces que el máximo

valor es mayor que el mínimo.

CA = Xn X1

Ejemplo: Con los valores 12, 6, 7, 10, 18, 4, 3, 9, calcular el coeficiente de apertura.

CA = 18 = 6 3

2.- Recorrido relativo. Es el cociente entre el recorrido y la media aritmética. Representa el

número de veces que el recorrido contiene a la media aritmética.

RR = R

X Ejemplo: Con los valores 12, 6, 7, 10, 18, 4, 2, 9, y la media aritmética = 8.6, calcular el

recorrido relativo. RR = 15/ 8.6 = 1.74

3.- Recorrido semi-intercuartílico. Se le llama también desviación cuartílica. Expresa la

diferencia promedio entre los valores intercuartílicos 1 y 3. Hay dos formas de calcularla:

a) RSI = Q3 - Q1 b) Q = Q3 – Q1 Q3 + Q1 2

Ejemplo: Con los datos 3, 5, 6, 7, 10, 12, 15, 18, y Q1 = 5.5 y Q3 = 13.5, calcular el recorrido

semi-intercuartílico.

a) RSI = 13.5 – 5.5 = 0.42 b) 13.5 – 5.5 = 4 13.5 + 5.5 2

4.- Coeficiente de variación de Pearson. Es el cociente entre la desviación típica y la

media. También se le conoce como coeficiente de dispersión. Cuando se comparan dos

distribuciones, sus dispersiones se pueden calcular mediante la desviación típica si sus

medias aritméticas son iguales o muy próximas. En caso contrario, se utiliza el coeficiente

de variación. A menor coeficiente de variación mayor será la representatividad de la media

Page 47: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

46

aritmética. El coeficiente de variación mide la dispersión relativa, como cociente entre la

dispersión absoluta (desviación típica) y el promedio (media aritmética). No es lo mismo una

dispersión de milímetros en mediciones de metros, que esa misma dispersión en medidas

de centímetros. Para evitar este efecto se utiliza el coeficiente de variación como medida

relativa. El coeficiente de variación se puede presentar en porcentaje, multiplicándolo por

100.

CV = S

X Ejemplo: Con los valores 21, 35, 36, 38, 45, cuya media aritmética es 35 y su desviación

típica 7.823, calcular el coeficiente de variación.

Cv= 7.823 100 = 22.35 % 35 2º. Ejemplo: Se han estudiado tres distribuciones obteniéndose las siguientes medidas:

1ª. X1 = 20; S1 = 6 2ª. X2 = 20; S2 = 10 3ª. X3 = 30; S3 = 15 Se requiere conocer cuál de las medias aritméticas es más representativa. Las distribuciones 1ª y 2ª tienen la misma media aritmética, por lo que la más representativa

es la 1ª en tanto su dispersión es menor (S1 = 6). Su coeficientes de variación respectivos

serán:

CV1 = 6 / 20 = 0.3 CV2 = 10 / 20 = 0.5 La representatividad es mayor cuanto menor sea el coeficiente de variación. El Coeficiente

de variación de la 3ª distribución será:

CV3 = 15 / 30 = 0.5, que es igual a la 2ª. Por lo tanto, la representatividad de la media de las

distribuciones 2ª y 3ª es la misma, pero menor que la de la 1ª.

4.3.3 Medidas de forma: Asimetría y curtosis por contraste al patrón de la Curva

Normal

Una medida de posición proporciona un valor que representa al conjunto de todos los

valores observados y el grado de representatividad de este valor se obtiene mediante una

medida de dispersión. Al reducir los valores observados a estos valores representativos, se

pierde la individualidad de los diferentes valores de la distribución. Para evitar este

Page 48: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

47

problema, se puede estudiar el número de observaciones suficientes para poder deducir la

regularidad o forma general del comportamiento de dichas observaciones.

La forma de la distribución se aprecia mejor mediante su presentación gráfica. El

diagrama de barras y el histograma permiten describir fácilmente la forma, pudiéndose ver:

si las observaciones están o no muy concentradas en pocos valores de la variable, si la

concentración se presenta en el centro o en un de sus extremos, etc. El histograma se

suele sustituir por una línea curva que ajustándose a los escalones del histograma suaviza

su forma. El área comprendida entre la curva y el eje de abscisas debe ser igual a la suma

de las áreas de todos los rectángulos del histograma, que a su vez es igual al número total

de observaciones.

Las distribuciones en forma de campana, campaniformes, son las más habituales en

la estadística práctica. Estas distribuciones se caracterizan porque el mayor número de

observaciones se agrupan en valores de la variable más o menos centrales, siendo raros

los valores extremos. Las distribuciones campaniformes pueden tener diversas formas:

Simétrica: la figura puede doblarse por su eje vertical y ambas ramas o colas de la curva

coincidirán. Si la distribución es campaniforme, simétrica y las dos colas son asíntotas del

eje de abscisas se le denomina Distribución de Gauss o de Laplace-Gauss. Esta

distribución es la más importante en Estadística y se le conoce como Distribución Normal.

Page 49: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

48

Asimétrica a la derecha o a la izquierda: según en qué lado este la cola más larga de la

curva. La asimetría a la derecha se llama positiva y a la izquierda es negativa.

Moderadamente o significativamente asimétricas: Dependiendo de la magnitud de la

asimetría, a mayor asimetría se le considera significativa.

Existen otros tipos de distribuciones menos frecuentes, como son:

Distribuciones en forma de L.

Distribuciones en forma de J.

Distribuciones en forma de U.

Multimodal: tiene varios valores con alta frecuencia o modas. Si tiene dos máximos de

concentración se le conoce como bimodal.

Distribución Normal. La curva normal tiene las siguientes características: Su

representación gráfica tiene forma de campana y es simétrica. La curva se extiende en

ambas direcciones y a medida que se acerca a los extremos tiende a unirse con el eje

horizontal (abscisa) sin llegar a tocarlo, en otras palabras es asintótica.

Los valores correspondientes a la media aritmética, mediana y modo son iguales:

(X = Md = Mo). Estos valores constituyen el punto central o de equilibrio de la curva normal.

Page 50: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

49

La curva normal es cóncava hacia abajo entre –1 y +1. Es cóncava hacia arriba a la

derecha de +1 y a la izquierda de –1.

El área total bajo la curva es igual a 1. El área a la derecha de la media es igual a

0.5 y, por simetría, a su izquierda es también de 0.5 .

La distribución de algunas características que podemos observar en la práctica, es

parecida o aproximada a una curva normal sobre todo en poblaciones no muy

heterogéneas, por ejemplo las medidas antropométricas como estatura, peso, longitud de

brazos, diámetro cefálico, torácico, etc. También puede observarse en algunas

distribuciones como promedios de calificaciones, gastos personales, coeficientes de

inteligencia. Sin embargo muchas distribuciones, sobre todo las que son propias de las

ciencias sociales, son asimétricas; cuando se observa que ciertas características se

distribuyen de acuerdo a una curva normal debe entenderse en el sentido que se asemeja o

es aproximadamente cercana a la curva normal, ya que en la práctica ninguna distribución

obedece de manera absoluta a su modelo teórico o matemático.

Las curvas aproximadamente normales de las distribuciones reales o empíricas

pueden ser de diversa magnitud o tamaño, muy grandes o muy pequeñas, más cerradas o

más abiertas, dependiendo de su promedio aritmético y de su desviación estándar.

Si representamos en una misma escala la distribución de estaturas con X= 1.67m y la

distribución de los ingresos anuales de una población homogénea con X= $ 4,500.00, la

primera curva sería bastante más pequeña que la segunda y tendríamos serias dificultades

para compararlas.

Page 51: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

50

a) Puntajes estándar

Es necesario entonces estandarizar las distribuciones normales reduciéndolas a un patrón

único, a una nueva escala comparable, transformando los datos originales a una nueva

variable conocida con el nombre de puntaje o puntuación estándar y que se simboliza con

la letra zeta minúscula, empleando la siguiente fórmula:

_ z = X – X

σ

Con ello se puede transformar cualquier valor X de la distribución en su

correspondiente puntaje zeta. Para toda distribución normal: el número de casos de la serie

se transforma a uno (N= 1), la media aritmética a cero (X = 0) y la desviación estándar a

uno (σ =1).

b) Áreas bajo la curva normal

El área total bajo la curva es igual a 1 o 100%.

La media aritmética divide en dos partes iguales o áreas iguales (0.5 o 50%) a la

distribución normal y por tanto al área bajo la curva.

El intervalo que resulta de sumar y restar una desviación estándar a la media

aritmética da 0.6826 ó 68.26% de la superficie bajo la curva, indicando el número de casos

comprendidos entre los valores resultantes; si se le suma o restan 2 veces la desviación

estándar se tiene un intervalo de 0.9544 ó 95.44% de superficie bajo la curva; y si se le

suma o restan 3 veces la desviación estándar a la media se tiene un intervalo de 0.9974 ó

99.74%, es decir:

__ __ __ X ± 1σ = 0.6826 X ± 2 σ = 0.9544 X ± 3 σ = 0.9974

Entonces, cuando una variable en una población tiene una distribución cercana a la

normal es posible determinar con cierta aproximación la proporción, el porcentaje o el

número de casos comprendidos entre dos valores especificados. Con la tabla de áreas bajo

la curva normal que indica el área de la media aritmética o z = 0 al valor z calculado, se

puede a través de una simple resta obtener cualquier área. En las gráficas se señalan

algunas áreas:

Page 52: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

51

Page 53: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

52

Momentos

Los momentos permiten obtener medidas sumarias de conjuntos de datos que por contener

información variable resulta difícil de captar en su características esenciales. Los momentos

potenciales son utilizados para el cálculo de indicadores referentes a la forma de las

distribuciones.

Momentos Naturales. Entre los momentos potenciales se encuentran los Momentos

Naturales, que se refieren de manera directa a la variable, es decir, son momentos respecto

al origen de la distribución. Si X1, X2, ..., Xn, son los valores que toma la variable X, el

momento a la potencia r de la variable se indica como:

___

Xr = Xr1 + Xr

2 + Xr3 + ... + Xr

n = ΣXr N N

Momentos centrados. Cuando se toma como origen de los momentos un valor de

la distribución, se les conoce como momentos centrados: si se toma como origen a la media

aritmética, obtenemos los momentos respecto al promedio aritmético de la distribución, que

son los más empleados en estadística. El momento r respecto a la media aritmética en una

serie simple se puede indicar como:

____

m r = Σ (X – X) r __________________________

N

Si r = 1, entonces m1 = 0, ya que se anulan entre sí las diferencias respecto a la

media de uno y otro signo. Cuando r = 2, entonces:

____

m 2 = Σ (X – X) 2 = σ2 _________________________

N

En datos agrupados en frecuencias, los momentos centrados se obtienen:

____

m r = Σf (X – X) r __________________________

Σf donde Σf = número de casos

Ejemplos: Calcular en la siguiente distribución, los 5 primeros momentos centrados.

Page 54: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

53

EDADES DE 75 NIÑOS X f fX

___

(X-X) ___

(X-X)2 ___

f(X-X)2 ___

f(X-X)3 ___

f(X-X)4 1 2 2 -2 4 8 -16 32 2 5 10 -1 1 5 - 5 5 3 11 33 0 0 0 0 0 4 5 20 1 1 5 5 5 5 2 10 2 4 8 16 32

Suma 25 75 26 0 74 ___

X = ΣfX = 75 = 3 ___________ _______

Σf 25 ___

m0 = Σf (X –X) 0 = Σf = 1 ___________________________ _______

Σf Σf ___

m1 = Σf (X –X) 1 = 0 = 0 __________________________ _______

Σf Σf ___

m2 = Σf (X –X) 2 = 26 = 1.04 = σ2 _________________________ ______

Σf 25 Ya que en todos los casos: m0 = 1 y m1 = 0 no se requiere calcularlos. ___

m3 = Σf (X –X) 3 = 0 = 0 (no en todos los casos) _________________________ _______

Σf 25 ____

m4 = Σf (X –X) 4 = 74 = 2.96 ___________________________ _______

Σf 25

En series de clases y frecuencias el valor de X se sustituye por el valor del punto

medio en cada clase, empleándose la siguiente fórmula:

___

m r = Σf (Pm –X) r ______________________________

Σf

Page 55: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

54

Medida de asimetría

Con las medidas de asimetría se intenta medir si las observaciones están dispuestas

simétrica o asimétricamente respecto a un valor central, generalmente la media aritmética, y

cuál es el grado de esta asimetría. La asimetría mide, interesando el signo de la asimetría

para poder identificar hacia qué extremo se prolongan los casos, estimando las

desviaciones respecto a la media usando la potencia de grado tres, que permite conservar

el signo de la desviación.

_ _ m3 = Σ (xi – X)3 ni ó m3 = Σ f (X – X)3 N Σ f

Expresión en la que se deduce fácilmente que si:

m3 = 0, la forma de la distribución es simétrica.

m3 > 0, es asimétrica a la derecha o con sesgo positivo.

m3 < 0, es asimétrica a la izquierda o con sesgo negativo.

Este coeficiente m3 se le conoce como momento de tercer orden con respecto a la media.

Medida de apuntamiento o curtosis

Las medidas de apuntamiento o curtosis son aplicables a distribuciones campaniformes,

unimodales simétricas (no en U) o con una ligera asimetría. La curtosis indica la distribución

de frecuencias en la zona central, sin necesidad de dibujar la curva, midiendo la mayor o

menor concentración de la frecuencia alrededor de la media, o sea su nivel de

apuntamiento. Se toma como distribución tipo la distribución normal. Según su curtosis, las

distribuciones campaniformes pueden adoptar las siguientes configuraciones y nombres:

La distribución normal tiene la particularidad de cumplir que:

_ m4 = 3 S4 ; s =1 ; X = 0

Page 56: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

55

en donde, m4 es el cuarto momento con respecto a la media y S la desviación típica.

El coeficiente de curtosis se define por la expresión:

b2 = m4 ___________

S4

Siendo S = desviación típica; m4 = cuarto momento respecto a la media aritmética o

momento central.

Como b2 para una distribución normal es igual 3 se suele utilizar un coeficiente de

apuntamiento o curtosis corregido, también conocido como coeficiente de exceso, que

viene dado por la expresión:

g 2 = m4 - 3 ___________

S4

En estos coeficientes si:

g2 = 0, ó b2 = 3 La distribución es mesocúrtica, sin exceso respecto a la normal, es normal.

g2 > 0, ó b2 > 3 La distribución es leptocúrtica, con exceso respecto a la normal, es

puntigaguda.

g2 < 0, ó b2 < 3 La distribución es platicúrtica, con menor concentración en torno a la media

que la normal, es aplanada.

4.3.4 Medidas de concentración: Curva de Lorenz, Índice de Gini, medial o mediala

Σ xi ni representa la suma de los valores de la variable de todos los elementos

observados, es una frecuencia ponderada.

Las medidas de concentración proporcionan con qué grado de uniformidad se

reparte el valor Σ xi ni entre los elementos de la población. Se utilizan fundamentalmente

para variables con sentido socio-económico, como pueden ser rentas, salarios, distribución

de habitantes, etc.

Mientras las medidas de dispersión nos permiten conocer qué promedio es más

representativo, una medida de concentración nos permite conocer cómo se distribuye el

valor total obtenido Σ xi ni entre los individuos de la población.

Page 57: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

56

Curva de Lorenz

La curva de Lorenz se utiliza para conocer la concentración de la distribución mediante

porcentajes de frecuencias relativas acumuladas. Fue creada para estudiar la distribución

de la renta, pero actualmente se utiliza para medir otras variables.

La curva de Lorenz describe la relación entre la frecuencia relativa acumulada de

casos por categoría (Pi) y la frecuencia ponderada por el valor de la variable acumulada

relativa (Qi), que expresa el volumen acumulado de la variable en cada categoría en

porcentaje.

En el eje de las abscisas (X) corren los valores de la frecuencia acumulada relativa

de los casos por categoría (Pi), en tanto en el eje de las ordenadas (Y) corren los valores de

la frecuencia ponderada por el valor de la variable relativa acumulada (Qi).

Ambos valores (Pi y Qi) son porcentajes acumulados, por lo que sus valores

correspondientes a la última categoría o clase serán siempre 100, por lo que la curva estará

dentro de un cuadrado de 100 por 100.

Si cada pareja de porcentajes acumulados de Pi y Qi fuera igual mantendrían una

relación 1 a 1, definiendo una línea recta en diagonal dentro del cuadrado. En tanto las

frecuencias acumuladas de casos (Pi) y de valores (frecuencia ponderada Qi) no presentan

la misma distribución la línea que se trace estará separada de la diagonal. Si la separación

de la curva de Lorenz es poca, indicará que la concentración es mínima; en la medida que

la curva de Lorenz se separe de la diagonal expresa el incremento de la concentración.

Ejemplo:

Número de trabajadores Nómina xini Salarios

Pesos por día xi

Frecuencia simple

absoluta ni

Frecuencia acumulada absoluta Ni

Frecuencia acumulada

relativa % Pi

Frecuencia ponderada

simple absoluta xini

Frecuencia ponderada acumulada absoluta Ni

Frecuencia ponderada acumulada

relativa % Qi 0-260 100 22,000 22,000 6.1

260-340 400 120,000 142,000

340-420 300 114,000 256,000

420-500 100 46,000 302,000

500-580 50 27,000 329,000

580-680 50 100 31,500 360,500 100.0

Total 1,000 360,500

Page 58: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

57

Índice de Gini

La curva de Lorenz es muy ilustrativa para representar la concentración existente, pero en

muchas ocasiones también es conveniente disponer de un valor numérico que represente la

concentración a fin de facilitar la comparación con otras distribuciones. Este valor numérico

nos lo proporciona el índice de Gini que se obtiene dividiendo el área de la superficie

limitada por la diagonal del cuadrado y la curva de concentración, entre el área del triángulo

formado por la diagonal y los ejes. Se debe tener en cuenta que pueden existir dos

distribuciones con el mismo índice de Gini y con una forma de concentración muy diferente.

El valor del índice de Gini se puede obtener por dos métodos aproximados:

a)

n-1

IG = Σ (Pi - Qi ) i =1 ____________________

n-1

Σ Pi i =1

Siendo n el número de clases o el número de distintos valores que toma la variable,

ordenados de menor a mayor. En este caso el valor del índice de Gini no puede ser

negativo y oscila entre 0 y 1. Será 0 cuando Pi = Qi, el valor total está repartido por igual.

Page 59: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

58

Será 1 cuando cualquier Qi es igual 0 a excepción del último individuo que recibirá el valor

total, concentración máxima.

Número de trabajadores Nómina xini I Gini Salarios Pesos

por día xi

Frecuen-cia simple absoluta

ni

Frecuen-cia

acumulada absoluta

Ni

Frecuencia acumulada relativa %

Pi

Frecuencia ponderada

simple absoluta

xini

Frecuencia ponderada acumulada absoluta Ni

Frecuencia ponderada acumulada relativa %

Qi

Pi – Qi

0-260 100 10 22,000 22,000 3.9 260-340 400 120,000 340-420 300 114,000 420-500 100 46,000 500-580 50 27,000 580-680 50 31,500 100.0 Σ=

Total 1,000

n-1 Σ Pi= 325 i=1

360,500 IG=

b) IG= Σ Pi Qi+1 - Σ Pi+1 Qi En este caso Pi y Qi deben presentarse en proporción a 1, y no en porcentaje.

Trabajadores Frecuencia

Nómina Frecuencia ponderada xini

I Gini

Salario

s Pesos por día

xi

Simple absoluta

ni

Acumula-da

relativa Pi

Ponderada simple

absoluta xini

Ponderada acumulada relativa Qi

PiQi+1

Pi+1Qi

0-260 100 0.10 22,000 0.061 0.1 x 0.394=0.0394 0.5 x 0.061=0.0305 260-340 400 120,000 0.5 x 0.710= 0.8 x 0.394= 340-420 300 114,000 0.8 x 0.838= 0.9 x 0.710= 420-500 100 46,000 0.9 x 0.913= .95 x 0.838= 500-580 50 27,000 0.95 x 1.00= 1.0 x 0.913= 580-680 50 1.00 31,500 1.000 Σ = Σ =

Total 1,000 360,500 IG =

Medial o mediala

Recordando que la mediana es el valor de la variable que deja a su derecha el mismo

número de frecuencias que a su izquierda, de forma similar definiremos al medial, pero en

lugar de tratar frecuencias se tratará del producto del valor de variable por su frecuencia o

el volumen de la frecuencia ponderada.

Page 60: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

59

En el caso estudiado anteriormente de la masa salarial diremos que la medial es el

valor de la variable que deja el 50% de la masa salarial a la izquierda y a la derecha. Para

el cálculo de la medial se siguen las mismas reglas que se usaron para la mediana,

teniendo en cuenta que es en Qi (% acumulado de xi ni) donde debe buscarse la posición

del 50%.

ML = Li-1 + 50 – Qi-1 ci ni

donde Li-1 es el límite inferior del rango en que se encuentra el 50% de la frecuencia

ponderada acumulada, Qi-1 es la frecuencia ponderada acumulada del rango anterior y ni =

% xi ni sin acumular del rango donde se ubica el 50% de la frecuencia ponderada, y ci es la

amplitud del rango.

ML = 340 + 50 – 39.4 * 80 = 366.82 pesos 31.62

5. NÚMEROS ÍNDICE

Los números índice son medidas estadísticas que se emplean frecuentemente para mostrar

los cambios que se dan en una variable, en un componente o grupos de componentes

relacionados entre sí. Como es un indicador que se desarrolló por economistas, es común

su aplicación para conocer los cambios en el costo de vida al consumidor, salarios, costo de

la alimentación, precios y cantidades de materias primas, de productos. Actualmente

también se aplica para conocer los cambios o variaciones en fenómenos sociales. Los

procedimientos que se emplean en la obtención de los números índice se basan en la

aplicación de porcentajes. Los números índice calculan las variaciones relativas de los

valores de una variable o de un grupo de variables, obtenidos en diferentes situaciones

en el espacio o en el tiempo, con respecto a uno de referencia. Estos valores relativos

permiten la comparación y, por tanto, facilitan la predicción de su evolución.

La magnitud analizada puede presentarse de una forma simple, como es el precio

de una mercancía o de una forma compleja como pueden ser los precios de un grupo de

mercancías diferentes. En función del tipo de magnitud los números índice se clasifican en

Simples y Complejos. Los números índice siempre se dan en porcentaje, por lo que

Page 61: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

60

aunque las fórmulas de los números índice suelen aparecer sin el factor 100, en general

aquí se señalará.

5.1 Números índice simples: Relativos en cadena y eslabonados

Los números índices simples o elementales nos permiten conocer los cambios que presenta

una variable, con el tiempo o en el espacio, con respecto a uno de sus valores que se toma

como término de comparación o base de referencia.

Un índice simple es el resultante de dividir el precio, cantidad o valor de un artículo,

en un periodo determinado de tiempo, entre el precio, cantidad o valor de ese mismo

artículo, en un periodo considerado como base.

It0 = Xt (100) ________

X0 Donde

It0 = indice del periodo t con respecto al periodo 0 ó base.

Xt = Valor de la magnitud en el periodo t.

X0 = Valor de la magnitud en el periodo base.

La utilización de este cociente presenta la ventaja de poder estudiar las variaciones

de la variable con independencia de la unidad utilizada, lo cual facilita la comparación entre

series con unidades distintas.

Precios relativos. Este es un ejemplo sencillo de número índice. Es el porcentaje

resultante de dividir el precio de un artículo o mercancía, en un tiempo dado, entre el precio

en otro tiempo llamado base y de multiplicar este cociente por cien.

Por ejemplo:

Precio del kg Precio relativo = de miel en 2002 (100) = 50 (100) = 142.86 % Precio del kg 35 de miel en 1999

Page 62: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

61

El índice 142.8% indica que el precio de la miel se incrementó en 42.8% de 1999 a

2002. También puede interpretarse así: el precio de la miel en 2002 es de 142.8 si lo

comparamos con el año de 1999 que fue igual a 100; o bien el precio de la miel en 2002 es

1.428 veces el precio que tuvo en 1999.

Simbólicamente:

Pa o Pb el precio del periodo dado o de comparación

P0 o Pa el precio del periodo base

Precio relativo = Pn = Pb P0 Pa

Pa y Pb indican el precio de un determinado periodo que puede ser el promedio de

un año, de varios años, de un mes, de una semana, etcétera, de acuerdo con la naturaleza

del índice. En los índices de tipo económico generalmente se refiere al promedio de un año,

a fin de suavizar las variaciones en el periodo. Los números índice simples se denominan

así por estar referidos a una sola variable, en el ejemplo era el precio de un solo producto,

la miel.

En el caso de que sean varias unidades de tiempo (años) las que se consideren

como periodo base, se suman los valores correspondientes de dichas unidades y se divide

entre el número de unidades de tiempo, con lo cual se obtiene el promedio. Por ejemplo:

PRECIO PROMEDIO ANUAL POR KILOGRAMO DE CEBOLLA AL PRODUCTOR 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 1.64 1.65 2.02 1.90 1.73 1.75 2.70 2.30 2.57 2.53

Calcular los índices de precios

a) En 2001 con base en 1992,

b) En 2001 con base en 1994,

c) En 2001 con base en 1995, 1996 y 1997.

a) Indice 2001 = P 2001 (100) = 2.53 (100) = 154.27 _______________ _____________

(1992 = 100) P 1992 1.64 b) Indice 2001 = P 2001 (100) = 2.53 (100) = 125.25 _______________ _____________

(1994 = 100) P 1994 2.02

Page 63: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

62

c) Indice 2001 = P 2001 (100) = 2.53 (100) = 2.53 (100) = 141.34 _______________ __________________________________________ ____________

(1995, 1996 y 1997) P1995,6,7 (1.9+1.73+1.75)/3 1.79

Las diferencias, algunas considerables, que se observan en los índices anteriores se

explican por la elección del año base; cuando el precio es alto en el periodo base, el índice

resultará pequeño; cuando es bajo en la base, el índice resultará elevado. Por ello la

selección del periodo base es una cuestión de gran importancia. En su elección deberán

considerarse:

a) Deberá tomarse como base un periodo “normal”, en este caso un año donde los

precios no sean “excesivamente altos o bajos”;

b) Un periodo base no muy alejado del periodo de comparación. Por ejemplo, resultaría

absurdo tomar como base el año de 1780.

Los números índice pueden tener como periodo base un tiempo posterior al del periodo

de comparación. Por ejemplo:

Indice 1992 = P 1992 (100) = 1.64 (100) = 64.82 ________________ _____________

(2001 = 100) P 2001 2.53

El índice anterior indica que el precio en 1992 de la miel fue de 64.8% respecto al año

base 2001 = 100; es decir, 35.2% menor que en 2001 (100 – 64.8 = 35.2).

Números índice simples de cantidad o volumen

Es posible comparar los cambios de volúmenes y cantidades de uno a otro período.

Convencionalmente se emplea:

Qa cantidad del periodo base

Qb cantidad del periodo de comparación

Indice = Qb (100) Qa

El periodo base también puede consistir en un promedio de varias unidades de tiempo. Por ejemplo:

Page 64: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

63

MÉXICO. PRODUCCIÓN DE FRIJOL (MILES DE TONELADAS) 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 857 593 1287 1379 719 1288 1364 1271 1349 1508 Miles de toneladas Indice = producidas en 1997 (100) = 1508 (100) = 117.17 % Miles de toneladas 1287 producidas en 1990 Indice 1997 = P 2001 (100) = 1508 (100) = 1508 (100) = 133.65 % ______________ __________________________________________ _________________

(1990, 1991 y 1992) P1990,1,2 (1287+1379+719)/3 1128.3

Propiedades de los precios y cantidades relativos simples

Los números índice simples, referidos a magnitudes de una sola variable, cumplen las

siguientes propiedades.

Si Pa, Pb, Pc, .... y Qa, Qb, Qc, ...., indican los precios y cantidades relativos en los

periodos a, b, c, ...., los precios y cantidades relativos pueden indicarse de las dos maneras

siguientes:

Pb = Pa/b Qb = Qa/b Pa Qa

Donde b indica el periodo de comparación y a el periodo considerado como base.

Las características de los números índice son:

1) Existencia. Todo número índice debe existir y ha de tener un valor finito distinto de cero.

2) Identidad. Los relativos de los precios y cantidades con relación a un mismo periodo son

siempre igual a uno. Esto es, el índice de una variable en un período con respecto a la

misma variable en el mismo periodo es igual a 1 o 100%:

Pa/a = 1 y Qa/a = 1

3) Proporcionalidad. Si todos los valores de una magnitud varían entre períodos en la

misma proporción, el índice correspondiente también deberá variar en dicha proporción. Por

ejemplo, si en un periodo dado tenemos una magnitud de una sola variable cuyo valor es xi,

el índice con respecto al periodo base será:

I = Xi X0

Si al valor del periodo dado le aumentamos en una porción k, el valor que toma la

variable será xi (1 + k), con lo que el nuevo índice será:

Page 65: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

64

I’ = Xi (1 +k) ; o lo que es lo mismo : I’ = I (1 + k) X0 4) Compatibilidad o reversibilidad de factores. Un índice de precios por un índice de

cantidad debe ser igual a un índice de valor. Para un índice simple es fácilmente

demostrable:

Si pi x qi = vi ; Ipi x Iqi = Ivi Por ser Ipi

0 = pi ; Iqi0 = qi ; Iv

i0 = vi

______ ______ _______

p0 q0 v0 5) Inversión, tiempo inverso o reversión temporal. Indica que si dos periodos se

intercambian, los precios, las cantidades y los valores relativos son recíprocos el uno al

otro. Así, el producto de los índices de un año a con respecto a otro b, por el año b con

respecto al año a es igual a la unidad.

Pa/b Pb/a = Pb Pa = 1 ó también Pa/b = 1 . Pa Pb Pb/a Qa/b Qb/a = Qb Qa = 1 ó también Qa/b = 1 . Qa Qb Qb/a

6) Circular. Es una generalización de la propiedad de inversión. Indica que si tres o más

periodos sucesivos se relacionan, comparando el último período con el primero, los precios,

cantidades y valores relativos serán igual a uno.

Pa/b Pb/c Pc/a = 1 Qa/b Qb/c Qc/a = 1 7) Cíclica o circular modificada. De las propiedades reversible y circular de los relativos se

infiere que:

Pa/b Pb/c = Pb x Pc = Pc = Pa/c Pa Pb Pa

Relativos en cadena y eslabonados

En algunos casos interesa conocer el índice de cada año con respecto al anterior, a fin de

ver la variación relativa año a año. De esta forma, en vez de tener una base fija, se tiene

una base móvil. A estos números índices de base móvil (cálculo respecto al periodo

anterior) se les llama índices en cadena.

Page 66: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

65

Si Pa, Pb, Pc, representan los precios en intervalos sucesivos de tiempo, entonces

se pueden representar los precios relativos de cada intervalo de tiempo con respecto al que

le antecede:

Pa/b, Pb/c, Pc/d = Pb , Pc , Pd Pa Pb Pc

Los relativos en cadena serán:

Pb (100) Pc (100) Pd (100) Pe (100) Pa Pb Pc Pd

Los números índices en cadena nos permite conocer las variaciones relativas

interanuales (interperiodos) de los valores que ha adoptado la variable.

En virtud de la propiedad circular de los relativos, los precios relativos de un periodo

de comparación respecto a otro tomado como base, pueden expresarse en términos de

relativos o cadenas.

Pe = Pe Pd Pc Pb Pa Pa Pb Pc Pd

Las propiedades anteriores resultan útiles cuando se desea conocer la precisión y

utilidad de un índice. Si bien los índices simples reúnen las cuatro propiedades enunciadas,

los complejos tienen una o dos propiedades a los sumo. Cuanto mayor número de

propiedades reúne un índice, resultará más indicado su empleo.

Problemas de los números índice simples

Los índices simples, que se refieren a un solo componente, aunque cumplen las

propiedades matemáticas señaladas, presentan dos problemas que deberán considerarse

en su construcción y manejo:

a) El cambio del periodo base de un índice lo modifica sustancialmente, sobre todo

cuando las magnitudes de los datos muestran cambios bruscos de uno a otro periodo. Por

tal motivo es conveniente evitar la selección de un periodo base en que los precios o

volúmenes de producción sean excesivamente altos o bajos; esto es, deberá seleccionarse

un periodo de “normalidad”. En los índices de precios es común seleccionar el promedio

anual y en ocasiones el promedio de dos o más años.

Page 67: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

66

b) El periodo base no debe estar muy distante del periodo de comparación. En los

índices de precios es común tomar un año como base y éste se utiliza en ocasiones hasta

por 20 o más años; sin embargo llega un momento en que la lejanía de los dos periodos es

tal que la comparación no resulta clara ni útil, por lo que se hace necesario el cambio del

periodo base por otro más reciente.

5.2 Números índices complejos: No ponderados y ponderados

Cuando se quiere comparar magnitudes complejas, definidas por un conjunto de variables

relacionadas entre sí, se utilizan los números índices complejos o compuesto. Los números

índice más empleados en la práctica no constituyen, como en los casos anteriores,

comparaciones de precios, cantidades o valores de un solo artículo, mercancía o bien. Por

lo general se elaboran con objeto de comparar grupos o conjuntos de artículos.

Por ejemplo, comparar producciones de cítricos en dos años diferentes: la

producción de cítricos es una magnitud compleja por estar formada por las producciones de

diversos cítricos o variables: naranjas, limones, toronjas, etc. Otro ejemplo es la

construcción de un índice del costo de vida, que requiere tomar en consideración los

precios y cantidades consumidos en el año base y en el año de comparación de un

numeroso grupo de artículos de primera necesidad: azúcar, leche, frijol, arroz, maíz, pan,

carne, jabón, zapatos, camisas, telas, gas, electricidad, transporte, alquiler de viviendas,

etc.

Cuando una magnitud está formada por varias variables, es cuando el número

índice tiene una utilidad manifiesta, no compartida con otros conceptos, por proporcionar un

valor único que aglutina todos los valores de estas variables en un tiempo o espacio

determinado, permitiendo la comparación entre diferentes magnitudes.

La construcción de un índice compuesto presenta algunos problemas de no fácil

solución y entre los más importantes, además de la selección del periodo base, están los

siguientes:

a) Definir con claridad cuál es el objeto del índice. Si se trata de un índice del costo de

la vida obrera, índice del costo de alimentación, índice del costo de la construcción,

de precios al mayoreo de artículos de primera necesidad, etc.

b) Seleccionar los componentes (artículos, mercancías) del índice. Debemos decir

cuántos y cuáles deberán se los componentes del número índice, lo cual constituye

Page 68: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

67

uno de los aspectos más importantes y por lo mismo deberá procederse con el

mayor cuidado. Lo ideal es seleccionar una cantidad suficientemente grande de

componentes, pero se debe tomar en consideración los costos de recolección y

cálculo. Por lo general deberán incluirse a los componentes más esenciales del

concepto que se pretende medir. Los artículos componentes del índice

generalmente se obtienen de muestras, por lo que se hace necesario que éstas

tengan la mayor eficacia posible.

c) Determinación de los promedios. La construcción de un índice compuesto requiere

promediar los valores del año base y del año de comparación; es decir, lo que se

compara son los promedios y no los precios, cantidades o valores solos. Una vez

que se han seleccionado los componentes debidamente, debemos considerar la

importancia que tiene cada uno de ellos en el índice.

Métodos empleados en la obtención de números índice complejos.

Se ha tratado de obtener desarrollos para índices compuestos que reúnen las propiedades

de los números índice simples, pero ninguno de los índices conocidos los satisface

plenamente, a lo más se aproximan. En la práctica dichas aproximaciones son suficientes.

Se distinguen dos tipos de índices complejos: los no ponderados, en los que no influye en

su cálculo la ponderación propia de cada variable en cada período; y los ponderados, que

están influenciados por el peso o aporte propio de cada variable en cada período.

A) Índices complejos no ponderados

Indice agregativo o aditivo. Es el más sencillo de calcular y se obtiene por:

Indice agregativo = ΣPb (100) = p1b +p2b + p3b + ...+ pnb (100) (de precios) ΣPa p1a +p2a + p3a + ...+ pna donde

ΣPa = suma de los precios de los artículos en el año base

ΣPb = suma de los precios de los artículos en el año de comparación.

También se le llama índice de la media agregativa simple, puesto que puede calcularse

usando la media aritmética de cada período, ya que el número de agregados debe ser igual

en ambos períodos.

Page 69: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

68

Ejemplo: Una industria ferretera comercializa tres productos, cuyos precios de venta

en 1990 y 19995 son:

PRODUCTO PRECIO 1990 PRECIO 1995

A $ 1,250 pesos/kg $ 2,025 pesos/kg

B $ 5,832 pesos/m2 $ 7,650 pesos/m2

C $ 3,600 pesos/docena $ 5,427 pesos/docena

Con el índice agregativo, calcular la variación conjunta de los precios de 1990 a 1995 de la industria ferretera.

I A = ΣPb (100) = ΣP95 (100) = 2025 +7650 + 5427 (100) = 15102 (100)= 141.38 % ΣPa ΣP90 1250 + 5832 + 3600 10682

O bien

I A = = ΣP95 (100) = ( 2025 +7650 + 5427)/3 (100) = 5034 (100)= 141.38 % ΣP90 (1250 + 5832 + 3600)/3 3560.7

El conjunto de precios de 1990 tuvo una variación conjunta positiva a 1995,

representando 141.38% veces el precio de 1990.

El índice agregativo o aditivo tiene dos serios inconvenientes:

a) No considera la importancia relativa de los artículos que componen el índice,

dándoles igual importancia.

b) Además no considera el tipo de unidades empleadas en la medición del artículo,

tales como litros, kilogramos, piezas, etcétera. Es sensible al cambio de unidad

empleada. Esto se debe a que se suman los precios como si fueran homogéneos,

cuando en realidad no lo son, ya que están referidos a mercancías diferentes.

En el caso de la industria ferretera, al expresar el producto C en unidades:

I A = ΣPb (100) = ΣP95 (100) = 2025 +7650 + 452.25 (100) = 10127.25 (100)= 137.19 % ΣPa ΣP90 1250 + 5832 + 300 7382 Método del promedio simple de los relativos

Para calcular un número índice por este método se obtienen los relativos de cada

componente, se suman y se dividen entre el número de componentes (N).

Pb1 + Pb2 + Pb3 + .... + Pbn Pa1 Pa2 Pa3 Pan (100) N O bien, Σ Pb

Page 70: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

69

Pa (100) N

Ejemplo: Con los datos del ejemplo anterior sobre la industria ferretera, se puede

calcular el índice de los precios:

PRODUCTO PRECIO 1990 PRECIO 1995

A $ 1,250 pesos/kg $ 2,025 pesos/kg

B $ 5,832 pesos/m2 $ 7,650 pesos/m2

C $ 3,600 pesos/docena $ 5,427 pesos/docena

2025 + 7650 + 5427 1250 5832 3600 (100) = 1.62 + 1.31 + 1.51 (100) = 148% 3 3

Con la obtención de promedios en el método anterior, se emplea, además de la

media aritmética, la media geométrica, mediana, etc. Este método, a diferencia del anterior,

sí considera el tipo de unidades empleadas en las mediciones de artículos o mercancías;

sin embargo no toma en cuenta la importancia relativa de los mismos. En el ejemplo tienen

igual importancia los tres productos.

B) Índices complejos ponderados

A fin de incluir en la medición de los números índice la importancia diferencial de los

componentes se han desarrollados índices complejos ponderados, que consideran la

importancia relativa de cada uno de los productos dentro del conjunto, tanto en el periodo

base como en el de comparación. En economía, los números índice proporcionan los datos

numéricos de evolución de las magnitudes de precio, cantidad y valor, y permiten analizar,

sobre todo, las diversas fases del proceso de comercialización de los diferentes bienes y

servicios. Existen múltiples formas de índices, pero los más comunes son los calculados por

los procedimientos de Laspeyres, Paasche y Fisher.

5.3 Índices de precios: Índice de Laspeyres, .Paasche, y Fisher

Método de los agregados ponderados

En los índices de precios al consumidor se puede tomar como base de las ponderaciones

las cantidades de los elementos que componen el consumo.

Page 71: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

70

Índice de Laspeyres o método del año base

Es el índice más ampliamente utilizado. Para calcular el índice de Laspeyres, se usa la

siguiente fórmula:

Índice de Laspeyres = Σ Pb Qa (100) Σ Pa Qa Donde

Pb = precio del periodo dado o de comparación

Pa = precio del periodo base

Qa = cantidad del periodo base

Σ Pa Qa representa el valor total del conjunto de componentes del índice (artículos,

mercancías, servicios, etcétera) en el periodo base; Σ Pb Qa representa el valor total de los

componentes en el año de comparación con las mismas cantidades que en el año base. A

la Σ Pa Qa se le denomina “canasta de mercado” o “canasta básica” en virtud de que, en

los índices de precios al consumidor, los componentes del índice están constituidos por la

cantidad de satisfactores de primera necesidad que requiere una familia “típica” y los

precios correspondientes.

Por tanto, el índice de Laspeyres, puede indicarse:

Valor total de los componentes en el periodo o año de Índice de Laspeyres = comparación en las cantidades en el periodo o año base_ Valor total de los componentes en el periodo o año base en las cantidades fijadas en el periodo o año base

También puede definirse como la media ponderada de los índices simples de

precios en la que se utiliza como ponderación la cantidad del producto en el año base.

El índice de Laspeyres mide el costo que una “canasta de mercado” tiene en el

periodo de comparación, si ésta hubiera sido comprada en el periodo base. Considera las

mismas cantidades en el año o periodo de comparación y en el periodo base, por lo que

mide el cambio de precios sin modificar las cantidades o volúmenes del año base.

Page 72: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

71

Una variación al índice de Laspeyres es el método del año típico, que calcula la

razón entre los precios de los dos periodos, ponderados con las cantidades en un año

típico, que se elige por alguna especial significación.

Las desventajas del índice son las siguientes:

a) No toma en consideración que ciertos componentes (mercancías, artículos) cambian

su importancia –por ejemplo en el consumo- con el transcurso del tiempo.

b) Tiende a sobrestimar los cambios de precio, ya que de acuerdo a la ley de oferta y

demanda las personas tienen a comprar menos cuando los precios son altos y más

cuando los precios son bajos, especialmente tratándose de artículos que no son

absolutamente esenciales (elasticidad de la demanda), por lo que Σ Pb Qa (el costo

de las mercancías en el año de comparación) será por lo general más alto, pues las

personas comprarán mayores cantidades de las mercancías a menores precios y a

la inversa. Por esto el costo total deberá ser menor que el indicado por PbQa, ya

que la composición de la canasta cambia con el cambio de precios.

Índice de Paasche o método del año de comparación

Este índice calcula la razón entre los precios de los dos periodos, ponderados ambos con

las cantidades del año de comparación. Se calcula por:

Índice de Paasche = Σ Pb Qb (100) Σ Pa Qb

Donde

Σ Pa Qb = valor total de los componentes en el periodo de comparación a los precios del periodo base.

Σ Pb Qb = valor total de los componentes (mercancías) en el periodo de comparación a los precios de este periodo.

A diferencia del índice de Laspeyres, las cantidades que se consideran en el índice

son las del año de comparación y no las del año base, por lo que el índice de Paasche mide

el costo de una “canasta de mercado” o “canasta básica” o un conjunto de artículos en el

tiempo de comparación (generalmente el actual) respecto a lo que la “canasta” actual

costara si la obtuviésemos a los precios del periodo base, lo cual equivaldría a transportar

un conjunto de mercancías actuales al pasado para valorar su precio de entonces.

Page 73: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

72

Costo total de un conjunto actual Índice de Paasche = de mercancías a los precios de hoy Costo total del mismo conjunto (iguales cantidades) a los precios del año base

De acuerdo con la ley de la oferta y la demanda, el índice de Paasche tiende a ser más

bajo de lo que debiera ser. El índice de Laspeyres es considerablemente más sencillo de

calcular que el de Paasche, ya que éste requiere del empleo de nuevos factores de

ponderación en cada año que se añade y además se requiere recalcular los índices en los

años anteriores. Esto es, cuando comparamos varios años con el periodo base, las

ponderaciones del índice de Paasche son variables a lo largo del tiempo, por lo que para su

elaboración es necesario obtener información de cada periodo sobre precios y cantidades,

a diferencia del de Laspeyres que sólo necesita la información del año base y el precio del

año en estudio.

Índice ideal de Fisher

El índice ideal de Fisher da un valor intermedio entre los índices de Laspeyres y Paasche.

Como ya se indicó, el índice de Laspeyres tiende a sobrestimar el valor del índice y

el de Paasche a subestimarlo; por tal razón el índice de Fisher constituye una mejor

aproximación del verdadero índice, aunque su construcción es más compleja. Este índice

es la media geométrica de los índices de Laspeyres y de Paasche:

IF = Σ Pb Qa x Σ Pb Qb Σ Pa Qa Σ Pa Qb

Es necesario tener en consideración que la elección de los elementos componentes y la

precisión de las observaciones son más importantes que la elección de la fórmula.

Menos frecuente, pero también alternativo a los índices de Laspeyres y Paasche, es

el índice de Marshall-Edgeworth. Este índice calcula la razón entre los precios de los dos

periodos, ponderados con la media aritmética de las cantidades del año base y del año

dado.

Índice de Marshall-Edgeworth = Σ Pb (Qa + Qb) (100) Σ Pa (Qa + Qb)

Page 74: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

73

Índices de cantidad (índices compuestos)

Se obtienen intercambiando las cantidades Q, en lugar de los precios P, en las fórmulas de

los índices de precios. Permiten medir los cambios de cantidades tales como producción,

exportaciones, importaciones, etcétera.

En el caso de los índices de precios, los factores de ponderación son las cantidades

o volúmenes. En el caso de los índices de cantidades, los factores de ponderación son los

precios. Dado que las cantidades pueden estar indicadas en diferente tipo de unidades:

kilogramos, libras, piezas, metros lineales, metros cúbicos, metros cuadrados, etc., se

requiere del empleo de un factor de ponderación.

Índice de cantidad de Laspeyres = QL = Σ Qb Pa Σ Qa Pa Índice de cantidad de Paasche = QP = Σ Qb Pb Σ Qa Pb Índice de cantidad de Edgeworth = QE = Σ Qb (Pa + Pb) Σ Qa (Pa + Pb) Índice de cantidad de Fisher = QF = Σ Qb Pa x Σ Qb Pb Σ Qa Pa Σ Qa Pb

Índice de valor

El índice de valor de un conjunto de productos en dos periodos de tiempo viene dado por:

Índice de valor = IV = Σ Qb Pb (100) Σ Qa Pa 5.4 Deflación de series estadísticas, poder de compra, cambio de periodo base, empalme de índices con bases diferentes

Deflación

En el caso de los ingresos, por ejemplo, es común referirse a ingresos reales y a ingresos

nominales. Debido al incremento del costo de vida o inflación, el poder de compra de la

moneda decrece. El problema consiste en precisar cuál es el ingreso real a pesar de que

Page 75: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

74

los ingresos nominales o aparentes sean mayores o menores; es decir, deflacionar o

deflactar los ingresos. En economía, el concepto de precios corrientes se refiere a series

numéricas expresadas en dinero, cuyos valores no se han corregido con las variaciones de

los precios, es decir, no son valores con un poder adquisitivo comparable. El concepto

precios constantes o valores reales se refiere a las cifras monetarias corregidas con los

movimientos de los precios mediante el empleo del índice de precios. Cuando se hacen

estos ajustes se habla de salarios reales, inversión real, etc., o bien a precios

constantes al año que sirvió de base.

Los valores reales o precios constantes se obtienen dividiendo la cantidad monetaria

nominal o a precios corrientes entre el índice de precios correspondiente y multiplicando el

cociente por 100.

Cantidad monetaria a precios constantes = pesos corrientes del año (100) del año Índice de precios del año

Este método para deflactar es adecuado si los números índices satisfacen la

propiedad de reversibilidad. El índice más apropiado es el ideal de Fisher.

Poder de compra

Para determinar el poder de compra de la unidad monetaria, en México el peso, a lo largo

de varios periodos, se divide $1 entre el índice de precios del año, y se multiplica por 100.

En este sentido se tendría que en el año base, donde el índice de precios es igual a 100, el

poder adquisitivo de $1 es igual a $1; conforme el índice de precios sea mayor a 100, el

poder adquisitivo del peso será menor y se expresará en fracciones de peso (p.e., $0.5,

$0.10)

Poder de compra = 1 . Número índice

Cambio de periodo base

Antes se señaló la conveniencia de que el periodo base de los números índice no esté muy

alejado del de comparación. Por ello resulta necesario cambiar el periodo base en algún

momento dado, cuando se trata de series prolongadas.

Page 76: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

75

El cambio de base puede efectuarse recalculando los números índice, pero este

procedimiento es por lo general difícil de realizar. Un método más sencillo consiste en dividir

los números índices obtenidos con base en el antiguo periodo, entre el número índice del

nuevo periodo base, siendo 100 el número índice para el nuevo periodo base.

Nuevo índice = índice antiguo del año (100) Con cambio Índice del año con nueva base De base Empalme de índices con bases diferentes

Los períodos empalmados no son totalmente comparables entre sí porque sus índices se

han obtenido con diferentes variables y diferentes ponderaciones, pero no existe otro

recurso para dar continuidad al índice complejo. En consecuencia, en la utilización de los

números índice debe tenerse siempre presente que un índice no debe tomarse como una

medida exacta, sino como un indicador de la evolución de un fenómeno.

Para facilitar algunas comparaciones y realizar ciertos cálculos conviene a veces

modificar o cambiar la base de algunos índices ya calculados. En tal caso basta

simplemente con hacer igual a 100 la cifra correspondiente al tiempo que se desea tomar

como nueva base y transformar proporcionalmente la serie, a través de una regla de tres.

Entonces, debe multiplicarse la serie antigua por el factor

Índice base del nuevo año base = 100 . Índice antiguo del nuevo año base índice antiguo del mismo año

6. MODELOS Y MÉTODOS DE ANÁLISIS MULTIVARIANTE: RELACIONES ENTRE

VARIABLES

6.1 Distribuciones bidimensionales y gráficos de dispersión

En el estudio simultáneo de dos caracteres de una población implica el uso de

distribuciones bidimensionales. Las distribuciones estadísticas bidimensionales son las que

resultan de la observación de dos caracteres cuantitativos o cualitativos de una población.

Page 77: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

76

Como en el caso de las estadísticas unidimensionales, se centra el estudio en las

variables que se representan por el par (x,y), donde x es una variable unidimensional que

toma los posibles valores x1, x2, x3, ..., xh; y donde y es otra variable que toma los posibles

valores y1, y2, y3, ..., yk. Por tanto se pueden expresar de la siguiente forma:

(xi, yj), (1 ≤ i ≤ h ), (1 ≤ j ≤ k)

Las frecuencias bidimensionales pueden ser:

- Frecuencia absoluta bidimensional (nij) : número de veces que se presenta el par de

valores (xi,yj).

- Frecuencia relativa bidimensional (fij): cociente entre la frecuencia absoluta y la

suma (N) de las frecuencias absolutas:

fij= nij = f (xi,yi) N

Tablas bidimensionales de frecuencias

Tablas simples: cuando en columnas sucesivas van ordenados los valores de la variable x,

de la variable y, y las frecuencias absolutas, relativas y/o ponderadas, correspondientes a

los pares de valores (x,y).

Xh yk nh. X1 y1 n11 X1 y2 n12 ... ... ... X1 yn n1n X2 y1 n21 X2 y2 n22 .... ... ... Xh yk nhk

Ejemplo: Escriba las frecuencias absolutas y relativas bidimensionales de la siguiente

distribución de 20 hogares, donde X = salario (bajo=1, medio=2 y alto=3) y Y= gasto

Page 78: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

77

(bajo=1, medio=2 y alto=3) : (2,1), (3,2), (1,2), (2,1), (2,2), (2,3), (3,1), (3,3), (2,3), (1,1),

(3,1), (2,2), (1,2), (2,3), (3,3), (2,1), (2,3), (1,2), (1,3), (2,2).

xi yi ni fi N=20 1

Establecer como tabla simple, agrupando en los intervalos apropiados, los siguientes pares

de valores de variables bidimensionales observados en 40 microempresas, donde x =

número de empleados en la empresa, y Y= días en que saldaron microcréditos sin intereses

:

(15,65) (18,94) (22,70) (28,105) (21,130) (32,84) (35,96) (39,142) (47,86) (11,73) (15,100)

(24,62) (25,90) (26,121) (30,60) (33,99) (38,126) (10,80) (29,69) (26,116) (22,122) (35,74)

(37,97) (30,140) (21,81) (25,125) (27,147) (38,88) (39,119) (22,102) (28,148) (35,79)

(21,121) (24,144) (30,71) (31,72) (32,73) (33,74) (35,75) (37,77)

xi yi ni 10-20 60-90 10-20 90-120 10-20 120-150 20-30 60-90 20-30 90-120 20-30 120-150 30-40 60-90 30-40 90-120 30-40 120-150 40-50 60-90

N=

Page 79: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

78

Contando con una tercera variable se puede establecer una tabla tridimensional, o

bien, si sólo se presentan dos variables se vuelve a una tabla bidimensional. El siguiente

problema se puede resolver usando una tercera variable para obtener frecuencias

ponderadas.

Si sabemos que a las empresas de 10-20 empleados les prestaron $1,000 ; a las de

20-30 empleados les prestaron $1,500 ; a las de 30-40 les prestaron $2,000 ; y a las de 40-

50 les prestaron $2,500 ¿en qué tiempos se recuperarán los créditos y cuál será el plazo

máximo de recuperación?

xi yi ni w nw 10-20 60-90 $1,000 10-20 90-120 $1,000 10-20 120-150 $1,000 20-30 60-90 $1,500 20-30 90-120 $1,500 20-30 120-150 $1,500 30-40 60-90 $2,000 30-40 90-120 $2,000 30-40 120-150 $2,000 40-50 60-90 $2,500

N= Σ= yi ni nw F% nw 60-90 90-120 120-150 N

Tablas de doble entrada: En las tablas de correlación los valores x1, x2, ..., xh

corresponden a todos y cada uno de los valores observados en la población o en la

muestra para la variable x, o en su caso, a las distintas marcas de clase en que se ha

dividido el recorrido de la variable; otro tanto puede decirse respecto a la variable y, y a sus

valores y1, y2, ..., yk. En las tablas de doble entrada se coloca en la primera fila los valores

de la variable x y e la primera columna por la izquierda los valores de la variable y.

Page 80: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

79

Yj

xi

y.1 y.2 ... y.k ni.

x1. n11 n12 ... n1k n1. x2. n21 n22 ... n2k n2. ... ... ... ... ... ... xh. nh1 nh2 … nhk nh. n.j n.1 n.2 … n.k N

En esta tabla nij determina la frecuencia conjunta del par de valores (xj, yj) y ni. Y n.j

denominan las frecuencias marginales de las variables y, x.

Tablas de contingencia: Las tablas de doble entrada se denominan tablas de contingencia

cuando la clasificación se hace atendiendo a las modalidades de dos atributos o variables

cualitativas. Ejemplo: Clasificar mediante una tabla de contingencia los centros de

enseñanza media según la modalidad de comedor (SI, NO), y de financiamiento (Privada,

concertada, pública) para los datos de la siguiente distribución:

1. Privada-comedor: 110 2. privada-no comedor : 70 3. Concertada-comedor : 15 4. concertada-no comedor : 5 5. Pública-comedor: 10 6. Pública-no comedor: 90

Comedor\Financ

. PRIVADA CONCERTADA PÚBLICA TOTAL

SI NO

TOTAL Tablas de correlación: Las tablas de doble se denominan tablas de correlación, cuando la

clasificación se realiza atendiendo a los valores de dos variables estadísticas (cuantitativas).

Ejercicio: pasar la siguiente tabla simple a tabla de doble entrada, donde Xi = temperatura

máxima y Yi = temperatura mínima de una ciudad inglesa durante 40 días:

Page 81: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

80

xi 3 4 5 6 6 7 7 8 10

yj 2 5 5 6 7 6 7 9 10

ni 4 6 12 4 5 4 2 1 2

Y X

2 5 6 7 9 10 ni.

3 4 5 6 7 8

10 n.j

Pasar la siguiente tabla de doble entrada a tabla simple

Y X

20 30 40

3 - - 1 8 3 6 3

13 7 2 2 18 1 - -

xi yi ni

Page 82: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

81

Distribuciones marginales: vienen definidas por los valores que toma la variable y las

frecuencias de los mismos, con independencia de los valores que tome la otra variable.

Son, por tanto, distribuciones de frecuencias ordinarias de x o de y. En una tabla de doble

entrada corresponden a la última columna y al último renglón.

y.j y.1 y.2 ... y.k n.j n.1 n.2 ... n.k

xi. x1. x2. ... xh. ni. n1. n2. ... nh.

Distribuciones condicionadas: Cuando se consideran en la tabla de correlación las

distribuciones de frecuencias determinadas por la variable xi, y cada una de las h columnas

de frecuencias encabezadas por un valor de yj, se obtienen las distribuciones de la variable

y condicionadas a cada uno de los valores de x1, x2, ..., xh.

De la misma manera se definen las distribuciones de x condicionadas a cada uno de

los valores que puede tomar la variable y.

Las distribuciones condicionadas de x a un valor cualquiera de y son de la forma:

xi/yj x1. x2. ... xh. nij n1j n2j ... nhj = n.j

De la misma manera las distribuciones condicionadas de y para cualquier valor de x

son de la forma:

yj/xi y.1 y.2 ... x.k nij ni1 ni2 ... njk = ni.

Ejemplo: De la siguiente distribución escribir la distribución condicionada de x para y

= 5, y la distribución condicionada de y para x = 7.

xi 3 4 5 6 6 7 7 8 10

yj 2 5 5 6 7 6 7 9 10

ni 4 6 12 4 5 4 2 1 2

Page 83: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

82

Y = 5 X1 nj 4 6 5 12 n.j = 18

X = 7 Yj nj

6 4 7 2 ni. = 6

Diagramas de dispersión

Los valores de una distribución estadística bidimensional son pares de números reales de la

forma (xi,yi). Si representamos estos pares en un sistema de ejes cartesianos se obtiene un

conjunto de puntos sobre el plano. A este conjunto de puntos se le llama diagrama de

dispersión o nube de puntos.

Cuando un par de valores está repetido se anota junto al punto el valor de la

frecuencia, o si ésta es pequeña se anotan tantos puntos como señala el valor de la

frecuencia.

Ejercicio: Representar mediante un diagrama de dispersión las temperaturas máximas y

mínimas de una ciudad inglesa durante cuarenta días, presentadas en la siguiente tabla:

Máx. (x) 3 4 5 6 6 7 7 8 10 Mín (y) 2 5 5 6 7 6 7 9 10

No. Días 4 6 12 4 5 4 2 1 2

Page 84: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

83

Se pueden también usar sistemas tridimensionales (x, y, z) poniendo los valores de

una variable en el eje de las x, los de la otra en el eje de las y, y las frecuencias en el eje z.

Represente la nube de puntos de la siguiente distribución, donde X representa la

edad, mientras que Y representa la valoración de un test de personalidad de 44 personas:

Y puntos X Edad

25-30 30-35 35-40 40-45 45-50 Total

5-7 4 2 1 - - 7 7-9 3 7 1 2 - 13

9-11 - 2 11 - - 13 11-13 1 - 1 6 3 11 Total 8 11 14 8 3 44

Page 85: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

84

Cálculo de parámetros estadísticos Medias marginales y medias condicionadas La media marginal de x viene dada por la expresión:

x = x1.n1. + x2.n2. + ... + xh.nh. = Σ xi.ni. N N La media marginal de y será:

y = y.1n.1 + y.2n.2 + ... + y.kn.k = Σ y.j n.j N N La media de la variable y condicionada al valor xi viene dada por:

yxi = 1 Σ y.j nij = Σ y.j nij ni. ni. La media de la variable x condicionada al valor yi será:

xyj = 1 Σ xi. nij = Σ xi. nij n.j n.j

Varianzas marginales de x e y

La varianza marginal de x viene dada por la expresión:

h _ h _

sx2 = Σ ni. (xi-x)2 = Σ xi

2 ni. – x2 i =1 i =1 _

n n La varianza marginal de y viene dada por la expresión:

k _ k _

sy2 = Σ n.j (yj-y)2 = Σ yj

2 n.j – y2 j =1 j =1 _

n n

A la raíz cuadrada positiva de las varianzas marginales se le denomina desviación

típica marginal de x e y, y se representa por sx y sy.

Page 86: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

85

Covarianza o varianza conjunta de x e y

Es la media aritmética de los productos de las desviaciones de cada una de las variables

respecto a sus medias correspondientes.

h k _ _ h k _ _

Sxy = Σ Σ (xi – x) (yj – y) nij = Σ Σ nij xi yj - x y i = 1 j = 1 i = 1 j = 1 _

n n

Si la covarianza es positiva indica que hay una dependencia directa entre ambas

variables. Por ejemplo: al disminuir o aumentar los valores de x, disminuyen o aumentan los

de la variable y.

Si la covarianza es nula indica que no hay dependencia entre las variables.

Si la covarianza es negativa indica que la dependencia es inversa. Por ejemplo: al

crecer los valores de x, disminuyen los de y.

Para el cálculo de los parámetros estadísticos anteriores se puede utilizar la tabla de

doble entrada o disponer los datos mediante una tabla simple.

Momentos

a) Momentos respecto al origen: el momento de orden r, s respecto al origen, para

una distribución bidimensional se define como:

h k

ars = Σ Σ xir yj

s nij / n i = 1 j= 1 Los momentos de primer orden a10, y a01 serán: h k h _

a10 = Σ Σ xi1 yj

0 nij / n = Σ xini. / n = x i = 1 j =1 i = 1

h k k _

a01 = Σ Σ xi0 yj

1 nij / n = Σ yjn.j / n = x i = 1 j = 1 j = 1

Los momentos de segundo orden a20 y a02 serán: h k h

a20 = Σ Σ xi2 yj

0 nij / n = Σ xi2ni. / n

i = 1 j = 1 i = 1

Page 87: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

86

h k k

a02 = Σ Σ xi0 yj

2 nij / n = Σ yj2n.j / n

i = 1 j = 1 j = 1

El momento propiamente bidimensional más importante es: h k

a11 = Σ Σ xi yj nij / n i = 1 j = 1

b) Momentos respecto a las medias: El momento de orden r, s respecto a las medias se define como:

h k _ _

mrs = Σ Σ (xi – x)r (yj – y)s nij / n i = 1 j = 1

Los momentos de primer orden serán:

h k _ _

m10 = Σ Σ (xi – x)1 (yj – y)0 nij / n = 0 i = 1 j = 1 de modo análogo : m01 = 0.

Los momentos de segundo orden serán:

h k _ _ h _

m20 = Σ Σ (xi – x)2 (yj – y)0 nij / n = Σ (xi – x)2 ni./n = sx2

i = 1 j = 1 i = 1 h k _ _ k _

m02 = Σ Σ (xi – x)0 (yj – y)2 nij / n = Σ (yi – y)2 n.j/n = sy2

i = 1 j = 1 j = 1

El momento m11 se llama covarianza y vale:

h k _ _

m11 = Σ Σ (xi – x) (yj – y) nij / n = sxy i = 1 j = 1

Relación entre los momentos:

m20 = a20 – a102

Page 88: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

87

m02 = a02 – a012

m11 = a11 – a10 a01

6.2 Relación entre las variables

Las relaciones entre las variables pueden observarse estadísticamente en un rango que va

desde la dependencia hasta la independencia, es decir, la ausencia de relación entre las

variables.

La relación más simple es aquella que se da entre dos variables. Los diferentes casos

de relación que puede haber entre dos variables son los siguientes:

a) Dependencia causal unilateral: una variable influye en la otra, pero no al contrario.

La variable que influye en la otra se llama independiente. La otra variable

dependiente. Este tipo de dependencia se expresa por la función:

y = f (x)

b) Interdependencia: La influencia entre las dos variables es recíproca. Se dice que

hay dependencia causal bilateral. Se expresa matemáticamente por:

f (x,y) = 0

Así, por ejemplo, los precios y cantidades de una cierta sustancia están en relación

directa.

c) Dependencia indirecta: Dos variables pueden mostrar una dependencia a través de

una tercera que influye sobre ellas. Por ejemplo la tasa de natalidad y el consumo

de ciertos alimentos están en relación. Pero ello no indica que ambas dependan

entre sí sino que dependen de otra tercera como es el nivel de vida.

d) Concordancia: Dos variables pueden ser independientes entre sí, pero existir entre

ellas una cierta concordancia. Un ejemplo de ello es la designación de valoraciones

en un concurso. Las designaciones hechas por una serie de personas que son entre

sí independientes, pero puede haber cierta concordancia entre las designaciones.

e) Dependencia casual: En algunos casos en que no hay vínculo entre dos variables,

hay una dependencia debida al azar que carece de significado desde el punto de

vista estadístico.

Page 89: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

88

f) Independencia estadística: Dos variables son independientes cuando no tienen

ninguna relación entre sí, es decir, los valores que tome una no influye en los que

toma la otra. Se puede expresar de la forma siguiente:

f (xi, yi) = f (xi) . f (yi)

Por tanto, la frecuencia relativa conjunta es igual al producto de las frecuencias

relativas marginales. Y las frecuencias relativas condicionadas son iguales a sus

correspondientes frecuencias relativas marginales.

En caso de independencia estadística se cumple además:

1) Las medias de y condicionadas a distintos valores de x coinciden entre sí, y a su vez

con la media marginal de y. Análogamente para las medias condicionadas de x.

2) En general, todos los momentos con respecto al origen, o a la media de y

condicionados a distintos valores de x, coinciden entre sí y con los momentos

marginales de y.

3) La covarianza es igual a cero.

Estas tres propiedades se cumplen cuando x e y tienen distribuciones

independientes, pero no implican necesariamente la recíproca.

6.3 Asociación de variables entre frecuencias observadas: X2. Análisis de tablas de contingencia y correlación

Las tablas de frecuencias bidimensionales presentan las siguientes frecuencias absolutas y

relativas: marginales y conjuntas.

Y \ X X1 X2 Total

Y1 n11 n12 N1.

Y2 n21 n22 N2.

Total N.1 N.2 N

Nota: En el óvalo están las frecuencias conjuntas, mientras en los rectángulos las frecuencias marginales.

Page 90: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

89

La intersección de características (intersección de modalidades de varias variables)

que definen un subconjunto poblacional (celda de una tabla), puede reflejar empíricamente

un concepto. Entonces, las demás celdas de la tabla también reflejan conceptos afines o

relacionados. Asimismo, la concentración de las frecuencias en sólo algunas casillas de la

tabla también puede reflejar empíricamente la interrelación de conceptos (o gradación, o

modalidades dentro del concepto y de su concepto opuesto).

Cuando se analiza la relación entre dos variables asumiendo cierta influencia de una

sobre la otra, es una convención ampliamente aceptada que los porcentajes se calculen

sobre las frecuencias marginales de la variable independiente. Si los porcentajes por

columna son iguales en el mismo renglón, entonces la modalidad de Y se estará

comportando igual aunque X adopte diferentes valores. Esto es, aunque X varía (pasando

de X1 a X2) Y no cambia, reflejando independencia estadística. Así, la independencia

estadística se cumple si:

Y1 ∩ X1 = Y1 ∩ X2 _____________________ _____________________

X1 X2

Frecuencias observadas y teóricas

Como ya se ha visto muchas veces, los resultados obtenidos de muestras no siempre

concuerdan exactamente con los resultados teóricos esperados, según las reglas de

probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50

águilas y 50 soles cuando se lanza 100 veces una moneda bien hecha, es raro que se

obtengan exactamente estos resultados.

Supóngase que en una determinada muestra se observan una serie de posibles

sucesos E1, E2, E3, ...; Ek que ocurren con frecuencias n1, n2, n3, ..., nk, llamadas

frecuencias observadas y que, según las reglas de probabilidad, se espera que ocurran

con frecuencias e1, e2, e3, ..., ek llamadas frecuencias teóricas o esperadas. Las

frecuencias observadas empíricamente las nombramos aquí como n, en tanto las

frecuencias esperadas como e. Tanto en la frecuencia observada como en la esperada N

(total de casos) como las frecuencias marginales son iguales.

Page 91: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

90

Y \ X X1 X2 Total

Y1 e(Y1∩X1) e(Y1∩X2) eY1

Y2 e(Y2∩X1) e(Y2∩X2) eY2

Total eX1 eX2 N

e(Y1∩X1) = (nY1) (nX1) N e(Y1∩X2) = (nY1) (nX2) N e(Y2∩X1) = (nY2) (nX1) N e(Y2∩X2) = (nY2) (nX2) N

Para saber si dos variables dicotómicas son o no estadísticamente independientes

se puede recurrir a dos procedimientos. El primero consiste en comparar los porcentajes de

la tabla de contingencia, y en casi de que su diferencia sea pequeña o nula se dice que las

variables son estadísticamente independientes. El segundo procedimiento consiste en

examinar las discrepancias entre las frecuencias observadas y esperadas; en caso de que

coincidan o difieran poco se dice que no hay asociación entre X y Y.

Medición de la asociación

En el caso de que las diferencias entre los porcentajes o entre las frecuencias observadas y

esperadas fuese notoria, estaríamos frente a 2 variables que se encuentran relacionadas o

asociadas. Aquí, la asociación de variables se da si las frecuencias de la intersección de

sus modalidades (Y1X1) aparece en un número mayor de casos que el esperado si fuesen

independientes estadísticamente.

Para una asociación que comporte la propuesta teórica de concentración sobre la

diagonal principal, es útil la simple diferencia de porcentajes, donde la máxima asociación

estará dada por 100% y valores nulos (cero) en las casillas de la diagonal secundaria.

Page 92: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

91

Y \ X X1 X2 Total Y1 100 0 Y2 0 100 Total 100 100 100

La diferencia o discrepancia D entre las dos celdas del primer renglón Y1X1 vs Y1X2,

basta para detectar la ausencia de independencia estadística (ya que el 2º renglón es

complementario al primero, basta ver el primer renglón de la tabla).

D = (Y1X1) - (Y1X2) ________________ ________________

X1 X2

Si la distribución fuera sobre la diagonal secundaria también la discrepancia sería

100%

Y \ X X1 X2 Total Y1 0 100 Y2 100 0 Total 100 100 100

En una relación directa (concentración de los casos en la diagonal principal), la

fuerza máxima de asociación será + 100%; en una relación inversa (concentración de los

casos sobre la diagonal secundaria) la fuerza máxima será – 100%. La discrepancia D

puede asumir valores entre 100% y – 100%, con los siguientes significados:

D = + 100 : máxima relación positiva

D = 0: independencia estadística

D = - 100 : máxima relación negativa

Sin embargo, D no permite medir claramente otro tipo de relaciones entre variables

donde sólo se acepte, por ejemplo, la relación directa en una categoría y la independencia

entre las otras categorías. Esta limitación persiste aún si se estima como una frecuencia

pondera, llamada determinante. De tal manera, D y el determinante ∆ resultarían con

límites indeterminados, es decir, el rango en que corre el indicador variaría de distribución a

distribución. D sirve para identificar la ausencia de independencia estadística, es decir,

detectar la asociación entre variables, pero no permite determinar el grado de asociación

entre ellas.

Page 93: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

92

Otra forma de medición de la asociación entre variables es a partir del contraste

entre frecuencias observadas y esperadas.

Coeficiente Fi ( Φ )

Este coeficiente cierra el recorrido del determinante al intervalo ± 1, normalizándolo por la

raíz cuadrada del producto de las frecuencias marginales:

diagonal principal diagonal secundaria Φ = n(Y1 ∩ X1) · n(Y2 ∩ X2) - n(Y1 ∩ X2) · n(Y2 ∩ X1)

n(Y1) · n(Y2) · n(X1) · n(X2)

Cuando X y Y son estadísticamente independientes, el producto de las frecuencias

conjuntas sobre la diagonal principal es igual al de la diagonal secundaria; por tanto su

discrepancia o diferencia o determinante es igual a cero, resultando Φ =0.

El recorrido de fi es: -1 ≤ Φ ≤ 1 Si Φ = 1 Valor máximo de asociación directa o positiva. Todas las observaciones se encuentran en la diagonal principal. Valida proposiciones donde las variables están asociadas de la forma: Si X1 � Y1 y si X2 � Y2 Si Φ = 0 No hay asociación, hay independencia estadística. Si Φ = -1 Valor máximo de asociación indirecta o negativa. Todas las observaciones se encuentran en la diagonal secundaria. Valida proposiciones donde las variables están asociadas de la forma: Si X1 � Y2 y si X2 � Y1

Coeficiente Q de Yule

Este coeficiente de asociación aplicable a tablas de dos por dos proviene de otra opción

para cerrar el recorrido del determinante al intervalo ± 1, usando la suma del producto de la

diagonal principal más el producto de la diagonal secundaria. Si el denominador es cero

Page 94: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

93

implica que las variables son independientes, y el resultado de la división, es decir, Q será

igual a cero.

diagonal principal diagonal secundaria Q = n(Y1 ∩ X1) · n(Y2 ∩ X2) - n(Y1 ∩ X2) · n(Y2 ∩ X1)

n(Y1 ∩ X1) · n(Y2 ∩ X2) + n(Y1 ∩ X2) · n(Y2 ∩ X1) diagonal principal diagonal secundaria

Para que Q alcance el valor máximo basta con que una frecuencia de la diagonal

secundaria sea nula; también Q alcanza el valor mínimo de su recorrido cuando una

frecuencia de la diagonal principal es nula.

Si Q = 1 Valor máximo de asociación directa o positiva. Las observaciones se concentran en la diagonal principal y en parte de la secundaria. Valida proposiciones donde las variables están asociadas de la forma: Si X1 � Y1 y Si X2 � Y2 ó Y1 Si X2 � Y2 Si X1 � Y1 ó Y2 Si Q = 0 No hay asociación, hay independencia estadística. Si Q = -1 Valor máximo de asociación indirecta o negativa. Las observaciones se concentran en la diagonal secundaria y en parte de la principal. Valida proposiciones donde las variables están asociadas de la forma: Si X1 � Y2 y Si X2 � Y1 ó Y2 Si X2 � Y1 Si X1 � Y2 ó Y1

Medida chi-cuadrado (X 2)

A menudo se desea saber si las frecuencias observadas difieren significativamente de las

frecuencias esperadas. De manera general, suele usarse la medida chi-cuadrado (X 2),

dada por:

k

X 2 = (n1 – e1)2 + (n2 – e2)

2 + ... + (nk – ek)2 = Σ (nj – ej)

2 = Σ nj2 - N

____________ ___________ __________ j = 1 __________ _______

e1 e2 ek ej ej

Page 95: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

94

donde si el total de frecuencias es N, Σ nj = Σ ej = N

Si X 2 = 0, las frecuencias observadas y teóricas concuerdan exactamente; mientras que si

X 2 > 0, no coinciden exactamente. A valores mayor de X 2 , mayores son las discrepancias

entre las frecuencias observadas y esperadas.

Ensayos de significación

En la práctica, las frecuencias esperadas se calculan de acuerdo con una hipótesis nula H0.

Si bajo esta hipótesis el valor calculado de X 2 es mayor que algún valor crítico (tal como X 2

0.95 o X 2 0.99, que son los valores críticos a los niveles de significación de 0.05 y 0.01,

respectivamente), se deduce que las frecuencias observadas difieren significativamente de

las esperadas y se rechaza la hipótesis nula H0 al nivel de significación correspondiente: las

frecuencias ej =oj, no difieren significativamente. En caso contrario, se aceptará o al menos

no se rechazará. Este procedimiento se llama ensayo o prueba de chi-cuadrado de la

hipótesis.

Debe advertirse que en aquellas circunstancias en que X 2 esté muy próxima a cero

debe mirarse con cierto recelo, puesto que es raro que las frecuencias observadas

concuerden demasiado bien con las esperadas. Para examinar tales situaciones, se puede

determinar si el valor calculado de X 2 es menor que X 2 0.05 o X 2 0.01, en cuyos casos se

decide que la concordancia es bastante buena a los niveles de significación de 0.05 ó 0.01,

respectivamente.

La prueba Chi-cuadrado para la bondad del ajuste

La prueba chi-cuadrado puede ser empleada para determinar de qué forma distribuciones

teóricas tales como la normal, binomial, etc., se ajustan a distribuciones empíricas, es decir,

aquellas que se obtienen de los datos censales o muestrales.

Page 96: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

95

Tablas de contingencia

Suceso E1 E2 E3 ... Ek Frecuencia observada

n1 n2 n3 ... nk

Frecuencia esperada

e1 e2 e3 ... ek

La tabla anterior, en la que las frecuencias observadas ocupan una sola fila, es una

tabla de clasificación simple. Puesto que el número de columnas es k, también se llama

tabla 1 x k (léase “1 por k”). Extendiendo estas ideas se llaga a las tablas de clasificación

doble o tablas h x k, en las que las frecuencias observadas ocupan h filas y k columnas. En

otros textos de estadística también se les llama tablas r x c, es decir, tablas de frecuencias

observadas de r renglones y c columnas. Tales tablas se llaman a menudo tablas de

contingencia, de acuerdo al tipo de variable.

Correspondiéndose con cada frecuencia observada en una tabla de contingencia h x

k, hay una frecuencia teórica o esperada que se calcula bajo alguna hipótesis y según las

reglas de probabilidad, como se señaló arriba con el uso de las frecuencias marginales.

Estas frecuencias que ocupan las casillas de una tabla de contingencia se llaman también

frecuencias elementales.

Para estudiar la concordancia entre las frecuencias observadas y esperadas, se

calcula el estadístico X 2 :

X 2 = Σ (nj – ej)2

j _______

ej

donde la suma se extiende a todas las casillas de la tabla de contingencia, los símbolos nj y

ej representan, respectivamente, las frecuencias observadas y esperadas en la casilla j.

Esta suma contiene hk términos. La suma de todas las frecuencias observadas se denota

por N y es igual a la suma de todas las frecuencias esperadas.

Los ensayos o pruebas de significación para tablas h x k son análogos a los de las

tablas 1 x k. Las frecuencias esperadas son halladas bajo una determinada hipótesis Ho.

Una hipótesis normalmente supuesta es la de que las dos clasificaciones son

independientes entre sí. Las tablas de contingencia pueden extenderse a un número mayor

de dimensiones. Así, por ejemplo, se pueden tener tablas h x k x l donde estén presentes 3

clasificaciones.

Page 97: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

96

Fórmulas sencillas para el cálculo de X 2

Se puede obtener fórmulas sencillas para el cálculo de X 2 que se basen únicamente en las

frecuencias observadas. En tablas de 2 x 2 se calcula como:

I II Totales A a1 a2 NA B b1 b2 NB

Totales N1 N2 N

X 2 = N(a1b2 –a2b1)2 = N ∆2

(a1+b1) (a2+b2)(a1+a2)(b1+b2) N1N2NANB

donde ∆ =a1b2 –a2b1, N=a1+a2+b1+b2, N1=a1+b1, N2=a2+b2, NA=a1+a2, NB=b1+b2. En tablas de 2 x 3 (2 renglones por 3 columnas), el cálculo simple de X 2 estará dado por:

I II III Totales A a1 a2 a3 NA B b1 b2 b3 NB

Totales N1 N2 N3 N

X 2 = N a12 + a2

2 + a32 + N b1

2 + b22 + b3

2 - N ____ ____ _____ _____ ____ ____ ____ _____

NA N1 N2 N3 NB N1 N2 N3

Esta forma de estimación puede generalizarse para tablas de 2 x k, donde k > 3.

En esta fórmula se ha empleado el resultado general, válido para todas las tablas de

contingencia,

X 2 = Σ nj2 - N

ej

Page 98: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

97

Coeficiente de Contingencia

Una medida del grado de relación, asociación o dependencia de las clasificaciones en una

tabla de contingencia es dada por

C = X 2

X 2 + N

Que se llama coeficiente de contingencia. A mayor valor de C, mayor es el grado de

asociación. El número de filas y columnas de la tabla de contingencia determina el valor

máximo de C, que no es nunca superior a uno. Si el número de filas y columnas de una

tabla de contingencia es igual a k, el máximo valor de C viene dado por

(k –1) / k Correlación de atributos o variables cualitativas

Las clasificaciones de una tabla de contingencia describen a menudo características

cualitativas de individuos u objetos (atributos o variables cualitativas), en las que el grado

de dependencia, asociación o relación se llama correlación de atributos. Para tablas k x k

se define

r = X 2 __ N (k-1) como el coeficiente de correlación entre atributos o clasificaciones. Este coeficiente se

encuentra entre 0 y 1. Para tablas 2 x 2, en las que k = 2, la correlación se llama a menudo

correlación tetracórica.

6.4 Métodos de ajuste. Regresión simple

En este tema se estudia la regresión tratando de encontrar una función matemática que

relacione lo mejor posible las distintas variables de una función de manera que, conocidos

determinados valores de las variables, se puedan calcular otros con una gran aproximación.

Para realizar matemáticamente estos ajustes se requiere estudiar las distintas

posibilidades de ajuste de los valores de las variables para ver cuál es el más conveniente

Page 99: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

98

en cada caso. Existen diversos métodos de ajuste, pero los más comunes son los de

mínimos cuadrados y polinomios ortogonales.

La teoría de la correlación y regresión es muy reciente (1869) debiéndose su

descubrimiento al inglés Sir Francis Galton (1822-1917). Sus trabajos fueron posteriormente

desarrollados por el también inglés Karl Pearson (1857-1933).

Ajuste de curvas

En una distribución bidimensional (xi, yi, ni) en la que existe una relación causal entre las

variables X e Y, se procederá a estudiar dicha relación desde el punto de vista estadístico.

Esta relación causal se conoce también con el nombre de Modelo Teórico.

Para hacer dicho estudio se siguen los siguientes pasos:

1. Representamos gráficamente la distribución mediante una nube de puntos o

diagrama de dispersión.

2. Buscamos la curva que mejor se ajuste a la nube de puntos (curva

aproximante).

3. Calculamos el tipo de función matemática que determine la relación entre la

variable dependiente y la variable independiente (especificación del modelo).

4. Determinamos los parámetros que mejor identifican la función matemática de

ajuste.

Al proceso que seguimos a partir de la información obtenida en la distribución para

calcular la estructura que mejor determine la dependencia de una variable respecto de otra,

u otras, se denomina regresión.

A la ecuación de la curva buscada se la llama ecuación de regresión. Y a su

expresión gráfica se le llama curva de regresión.

Principales tipos de curvas aproximantes más utilizadas: Línea recta ........................................................ Y = a + bX Parábola o curva cuadrática .............................. Y = a + bX + cX2

Curva cúbica ...................................................... Y = a + bX + cX2 + dX3 Curva de grado n ............................................... Y = a + bX + cX2 + ... + nXn Hipérbola ........................................................... Y = (a + bX) -1 Curva exponencial ............................................. Y = a · bX

Page 100: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

99

Curva de Gompertz ............................................ Y = a · bX + g Curva logística ................................................... Y = (a · bX + g) -1 Curva geométrica ............................................... Y = a · Xb

En las ecuaciones anteriores X e Y son las variables dependiente e independiente y

las demás letras representan valores constantes o parámetros.

Y X

Relación Exponencial Relación lineal directa o positiva (recta)

Y X

Relación lineal inversa o negativa (recta) No existe relación

Curva cúbica o polinomial de 3er grado

Y X

Y X

Y X

Page 101: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

100

Métodos de ajuste

Existen varios métodos para determinar la función específica que determina la dependencia

o relación entre las dos variables que estamos buscando. La utilización de estos métodos

normalizados de aproximación permiten homogeneizar resultados, de forma que, una vez

definido un método se obtendría el mismo resultado, cualquiera que fuera la persona que lo

realizara evitando así un ajuste libre que daría diferentes curvas. Los principales métodos

de ajuste de curvas son:

1. Método de mínimos cuadrados:

- de una recta

- de una parábola

2. Método de polinomios ortogonales

3. Método de los momentos

Método de mínimos cuadrados

La curva o recta seleccionada no pasa necesariamente por todos los puntos de la

distribución. Las diferencias o distancias existentes a otros puntos de la distribución que se

estudia es debido a la existencia de otras variables de menor importancia, que no se

conocen ni se estudian en ese momento y que tienen cierta influencia sobre la variable

dependiente.

Fijándonos en el gráfico siguiente observamos que para cada valor de X (variable

independiente) hay dos valores de Y (variable dependiente) correspondientes uno al valor

real dado por la distribución observada y otro al valor que corresponde a la curva de ajuste

aproximante elegida.

La diferencia, ei, entre estos dos valores y e y’ se conoce con el nombre de

desviación, error o residuo.

De igual modo se puede considerar la Y como variable independiente, y entonces

aparecen dos valore de X que denominamos x y x’, y que corresponden al valor real de la

distribución y al valor de la curva o recta seleccionada para el ajuste.

Page 102: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

101

El método llamado de mínimos cuadrados trata inicialmente de calcular los

parámetros ai de la ecuación de la curva con la hipótesis de que la suma de los residuos o

errores sea mínima. Ello presenta dos inconvenientes:

1. Los residuos pueden tener signo positivo o negativo de modo que pueden anularse

entre sí, y esconder un error importante.

2. la determinación de los parámetros no sería única, ya que habría varios conjuntos

de valores que nos darían la misma suma mínima de los residuos.

Estos inconvenientes se pueden eliminar hallando el mínimo de la suma de los

cuadrados de los residuos lo que evita el problema del signo.

Este método puede calcularse genéricamente para una curva pero dada la

utilización más frecuente de la recta, aquí revisaremos por separado los procedimientos,

aunque ambos tienen la misma estructura y la misma base de cálculo.

Recta de mínimos cuadrados

Aquí tratamos de buscar la ecuación de una recta que represente la relación lineal entre las

dos variables X e Y. Dicha recta nos da el valor de la variable dependiente en función de la

Page 103: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

102

variable independiente con el menor error posible. Ello se consigue aplicando el método de

mínimos cuadrados.

Supongamos una de las dos posibilidades: X, como variable independiente, e Y

como variable dependiente.

La ecuación de la recta tendrá la forma:

Y* = a + b Xi

Siendo Y* el valor estimado para la variable Yi que obtenemos a partir de la recta, en

función del valor de la variable Xi.

Así, en cada uno de los valores hallados de Yi* se comete un error de estimación

cuyo valor es: ei = Yi – Yi* - (a + b Xi)

Si ponemos la condición de que la suma de los cuadrados de estos errores sea

mínima nos queda:

S = (Y1 – a – bX1)2 + (Y2 – a – bX2)

2 + ... + (Yn – a – bXn)2

Y derivando, respecto de ay de b, para que sea mínima, nos queda:

∂ S = 0 � 2 (Y1 –a bX1) (-1) + 2 (Y2 – a – bX2) (-1) + ... + 2 (Yn – a – bXn) ( –1) = 0 ∂ a

∂ S = 0 � 2 (Y1 –a bX1) (-X1) + 2 (Y2 – a – bX2) (-X2) + ... + 2 (Yn – a – bXn) ( –Xn) = 0 ∂ b

Una vez simplificadas, podemos escribir el sistema:

∑ Yi = a N + b ∑Xi

∑XiYi = a ∑Xi + b∑Xi2

Despejando podemos calcular los coeficientes de la recta:

a = (∑Y) (∑X2) – (∑X) (∑XY)

Page 104: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

103

N ∑X2 – (∑X)2

b = N ∑XY – (∑X) (∑Y) N ∑x2 – (∑X)2

Si hacemos el siguiente cambio de variable:

x = X-X, y= Y-Y

los parámetros a y b quedan de la forma siguiente:

b = ∑xy ; a = 0 ∑x2

Y si la primera de las ecuaciones del sistema la dividimos en ambos miembros por N,

se obtiene

∑ Y = a + b ∑X N N

Lo que equivale a :

Y = a + b X

_ _ Es decir, que la recta de regresión pasa por el punto (X, Y), punto definido por los

valores medios que satisface a la ecuación y pertenece a ella.

Coeficiente de determinación y correlación

Si se halla la proporción entre la variación explicada por la función de regresión y la

variación total, se obtiene el coeficiente de terminación:

R2 = SRy2

Sy2

Donde SRy2 es la varianza residual obtenida después de realizar el ajuste.

Page 105: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

104

El coeficiente de determinación, por ser un cociente entre un valor parcial y el

correspondiente valor total de la varianza, tiene valores que están en el intervalo cerrado de

0 y 1, es decir, 0 ≤ R2 ≤ 1

Los valores extremos del intervalo tienen la interpretación siguiente:

a) Cuando R2 = 1, significa que no hay errores o residuos y, por tanto, todas las variaciones

de Y vienen explicadas por X;

b) Si, por el contrario, R2 = 0, quiere decir que la función de regresión no explica ninguna de

las variaciones de Y, con lo que se entiende que dicha función de regresión no es

válida.

A la raíz cuadra de R2 se le denomina Coeficiente de correlación de Pearson. Se

designa con la letra r e indica el grado de variación conjunta de las dos variables, oscilando

de – 1 a +1, indicando el grado de asociación lineal entre las variables, la bondad o

fiabilidad de la predicción:

r = 1 - Sry Sy

2

Page 106: Libro Est Descriptiva

Estadística Descriptiva Angélica Reyna

105

Bibliografía

- Cortés, Fernando y Rosa María Rubalcava. Métodos estadísticos aplicados a la

investigación en ciencias sociales. Análisis de asociación. El Colegio de México,

México, 1987.

- Des Raj. Teoría del Muestreo. Fondo de Cultura Económica, México, 1984.

- Des Raj. La estructura de las encuestas por muestreo. Fondo de Cultura Económica,

México, 1979.

- Díez Medrano, Juan. Métodos de análisis causal. Col. Cuadernos Metodológicos No. 3,

Centro de Investigaciones Sociológicas. Madrid, España, 1992.

- Guillén, Mauro F. Análisis de regresión múltiple. Col. Cuadernos Metodológicos No. 4,

Centro de Investigaciones Sociológicas. Madrid, España, 1992.

- Hair, Joseph F. Jr., Rolph E. Anderson, Ronald L. Tatham, William C. Black. Análisis

multivariante, Madrid, España, 1999.

- Holguín Quiñónez, Fernando. Estadística descriptiva aplicada a las Ciencias Sociales.

UNAM, México.

- Neter, John, Michael H. Kutner, Christopher J. Nachtsheim, William Wasserman. Applied

Linear Statistical Models, Boston, Mass., USA, 1996.

- Spiegel, Murray R. Teoría y problemas de Estadística. McGraw-Hill, México.

- Spiegel, Murray R. Teoría y problemas de Probabilidad y Estadística. McGraw-Hill, México.

- Yamane, Taro. Estadística, Harla, México, 1979.

- Zeisel, Hans. Dígalo con números. Fondo de Cultura Económica, México.