Capítulo 1
TERMINOLOGIA BASICA
1.1. APLICACIÓN DE LA ESTADÍSTICA
En la vida diaria los diversos fenómenos de orden económico, social, político,
educacional, e incluso biológico, aparecen, se transforman y finalmente desaparecen.
Para tan abundante y complejo material, es preciso tener un registro ordenado y
continuo a fin de conseguir en un momento dado, los datos necesarios para el estudio
de lo que ha sucedido, sucede o puede suceder.
Para ello se requiere contar con un método, o conjunto de reglas o principios, que nos
permita la observación, el ordenamiento, la cuantificación y el análisis de dichos
fenómenos. Ese método se denomina Estadística.
La palabra estadística se refiere a un sistema o método usado en la recolección,
organización, análisis y descripción numérica de la información.
Hay dos fases en el campo de la Estadística. En primer lugar está la fase que sólo se
limita a la descripción de una serie de datos sin llegar a conclusiones o a generalizar
con respecto a un grupo mayor. Esta (fase) se conoce como Estadística deductiva o
descriptiva. En segundo lugar está la fase de análisis que trata de llegar a
conclusiones acerca de un grupo mayor basado en la información de un grupo menor
o muestra: es esta la Estadística inductiva o de inferencia.
En un principio se consideraba que la función de la estadística era la descripción de
las características de grupo, actividad que la hacia confundir con el papel que cumple
la historia de observar y describir el hecho. En su origen, las estadísticas eran
historias; hoy en día, la estadística, además de ser descriptiva, es analítica,
considerándose esta última como la función más importante que realiza, ya que
permite obtener conclusiones para un grupo mayor, denominado población,
partiendo de una investigación realizada en un grupo menor, conocido como
muestra, cuyo elementos, en la mayoría de casos, se seleccionan aleatoriamente o al
azar.
La estadística descriptiva o deductiva tiene como finalidad colocar en evidencia
aspectos característicos (promedios, variabilidad de los datos, etc.), que sirven para
efectuar comparaciones sin pretender sacar conclusiones de tipo más general.
Esta descripción se realiza a través de la elaboración de cuadros, gráficos, cálculo de
promedios, varianzas, proporciones de una o más variables, que deben estar
relacionadas.
La estadística inferencial o inductiva busca dar explicaciones al conjunto de
observaciones, probar la significación o validez de los resultados; intenta descubrir
las causas que lo originan, con gran aplicación en el campo del muestreo, lográndose
de esta manera, conclusiones que se extienden más allá de las estadísticas mismas.
Uno de los principales objetivos de la estadística es hacer inferencias acerca de los
valores estadísticos de la población, denominados parámetros, a través de la
información obtenida en una muestra, que permite el cálculo de estimadores.
La estadística descriptiva-inferencial, se define como un conjunto sistemático de
procedimientos para observar y describir numéricamente el fenómeno, y descubrir
las leyes que regulan la aparición, transformación y desaparición del mismo.
Planeamiento y diseño. • Representativa
Recopilación. • INFORMACION • Suficiente
Procesamiento • TOMA DECISIONES • Confiable
Análisis e indicadores • Oportuna
Generalmente se asocia la palabra Estadística con cifras sobre algún campo
particular. Podemos asociarla con cifras sobre el número de nacimientos,
defunciones, transacciones comerciales, valor de las acciones en el mercado de
valores, volumen físico y monetario de las importaciones y exportaciones, beneficio
y utilidad de las empresas, demanda presente o potencial de algún producto.
Estadísticas (en plural). Se refiere a un ordenamiento sistemático de datos
presentados en forma de cuadros y gráficos. En otras palabras, las estadísticas son
datos agrupados metódicamente y consignados en publicaciones, elaboradas por las
diversas empresas o entidades, buscando que sean conocidas por los interesados. Se
clasifican en:
Estadísticas o fuentes primarias. Son aquellos datos obtenidos ya sea por encuestas
directas, mediante la utilización de cuestionarios, o como resultados de la
observación directa; es una técnica muy utilizada en estudios de carácter científico o
en investigación de mercados. Se puede decir también que son datos publicados por
quien recoge directamente de la fuente de información primaria. Son fuentes
primarias: personales (entrevistas, correo, etc. y experimentos), unipersonales
(auditoria análisis de rastreo o de contenido, simulación); mixta (observaciones).
Estadísticas o fuentes secundarias. En estas, los datos se obtienen de publicaciones,
las cuales pueden ser reproducciones totales o parciales. Son valiosas para cualquier
ACTIVIDAD
ESTADISTICA
PRODUCTO CARACTERISTICA
La estadística, de acuerdo con todo lo anterior, se podría definir como la ciencia
mediante la cual se desarrolla y aplica técnicas específicas para recopilar,
consolidar y analizar información representativa, suficiente, confiable y
oportuna con el fin de evaluar la incertidumbre en el proceso de la toma de
decisiones.
tipo de investigación. Son fuentes secundarias: bibliotecas, centros de
documentación, folletos, revistas, archivos, etc.
Las estadísticas también se pueden clasificar como internas y externas. Las
estadísticas internas de una empresa se forman de los registros internos, tales como
producción, ventas, salarios y otros. Las estadísticas externas son registros originados
fuera de la empresa, por ejemplo: precios de la competencia, opinión de los
consumidores respecto al producto, etc.
Clases de estadísticas. Se clasifican de acuerdo con el tema o materia de estudio; así,
por ejemplo, se elaboran diversas clases de estadísticas: industriales, agropecuarias,
construcciones, transporte y comunicaciones, comercio interior, moneda y finanzas,
precios y salarios, comercio exterior, sector publico, empleo y laborales,
demográficas, salubridad, justicia y educación.
1.2. ALGUNOS TÉRMINOS Y CONCEPTOS QUE SE DEBEN CONOCER Y
MANEJAR.
A continuación se definen algunos términos que serán utilizados en el desarrollo de
los diferentes capítulos, en los cuales se ha dividido esta asignatura.
Es de suma importancia el conocimiento y el manejo de los términos que se
expondrán, ya que nos permitirá hablar un solo lenguaje, precisar lo que se va a hacer
y entender su uso en los diversos aspectos que conlleva el desarrollo de los temas de
la presente asignatura.
Universo. Se denomina universo, a un conjunto de elementos (que consiste de
personas, familias, establecimientos, animales, objetos, artículos producidos, etc.)
que contienen una o más características observables de naturaleza cualitativa o
cuantitativa que se pueden medir en ellos.
Elementos o unidades. Son los elementos o unidades que integran el universo.
Además el elemento puede ser una entidad simple (una persona) o una entidad
compleja (una familia), que se denomina unidad, la que a su vez, puede estar
compuesta de elementos o de unidades, que en algunos casos se les define como
conglomerados.
Por ejemplo, los empleados de una empresa en un día laborable, constituyen un
universo en la que cada empleado (elemento), tiene muchas características a ser
observadas, como por ejemplo: sexo, estado civil, lugar de procedencia, grado de
instrucción, etc. (característica cualitativa), o número de hijos, ingresos mensuales,
etc. (característica cuantitativas).
El resultado de medir una característica observable de una unidad o elemento, se
denomina dato estadístico o valor observado o simplemente observación.
Población. Por otra parte, el universo viene definido por la investigación estadística
a realizarse. Y como la medición de la característica especificada por la investigación
se hace a cada unidad elemental, se puede considerar a la población como el
conjunto de medidas o el recuento de todos los elementos que presentan una
característica común.
Según sea el número de elementos, la población puede considerarse como finita o
infinita. Es una población finita cuando el número de elementos que la compone es
limitado; infinita cuando consta de ilimitado número de elementos.
Marco muestral. Se denomina marco muestral o marco de referencia, a la lista,
mapa o cualquier otro material aceptable, que contenga todas las unidades o
elementos perfectamente identificadas y actualizadas, de la cual se selecciona la
muestra.
Características. Es importante resaltar el hecho de que a pesar de encontrarse un
universo constituida por un grupo de elementos o unidades, a la estadística no le
interesa el elemento o la unidad en sí, sino su característica.
Investigación total. Denominada también como censo o investigación exhaustiva, es
aquella en la cual se toma la totalidad de los elementos o unidades que conforman la
población objeto de estudio.
No siempre se puede realizar una investigación total, y debemos observar una parte
de ellas, debido a circunstancias como las que se detallan a continuación:
Muestra o investigación parcial. Se define como un conjunto de medidas o el
recuento de una parte de los elementos pertenecientes a la población, con el fin de
obtener información acerca de la población de la cual proviene.
El estudio de muestras es más sencillo que el estudio de la población completa;
cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una
población entera todavía permite la aceptación de elementos defectuosos, por tanto,
en algunos casos, el muestreo puede elevar el nivel de calidad.
Los expertos en estadística recogen datos de una muestra. Utilizan esta información
para hacer referencias sobre la población que está representada por la muestra. En
consecuencia muestra y población son conceptos relativos. Una población es un todo
y una muestra es una fracción o segmento de ese todo.
Parámetro. Es una medida utilizada para describir alguna característica de una
población, y para determinar su valor es necesario utilizar la información de la
población completa y por lo tanto, las decisiones se tomarán con certidumbre total.
Las más utilizadas son:
Media poblacional ( )
Varianza poblacional (2
)
Proporción poblacional (p)
También se le denomina valor verdadero, ya que una característica poblacional
tendrá un solo parámetro (media, varianza, etc.). Sin embargo, una población puede
tener varias características y, por tanto, varios parámetros. Algunos lo denominan
como valor estadístico de la población.
Estadística o estadígrafo: Es una medida utilizada para describir alguna
característica de la muestra y la toma de decisiones contiene un grado de
incertidumbre. Las más utilizadas son:
Media muestral ( X )
Varianza muestral (S 2 )
Proporción muestral ( p̂ )
De una población se pueden obtener M número de muestras posibles y en cada una
de ellas se puede cuantificar la característica, obteniéndose por lo general, valores
diferentes para cada muestra, a pesar de ser utilizado el mismo estadígrafo o medida.
También se le conoce como Estimador Puntual si se trata de un promedio, varianza,
proporción, etc. Como por lo general, existe una diferencia entre el estimador y el
parámetro, denominado error, es aconsejable utilizar el estimador por intervalos,
dentro del cual deberá estar contenido el parámetro con cierto margen de seguridad,
establecido por el investigador.
La diferencia entre el estimador y el parámetro, como ya se dijo, se le denomina
como error de muestreo, y lo fija el investigador para determinar el tamaño de la
muestra, con base en la experiencia y el conocimiento que tenga sobre el
comportamiento y, la variación que tenga la característica o características
principales relacionadas con el objetivo mismo de la investigación.
Muestreo: Esto no es más que el procedimiento empleado para obtener una o más
muestras de una población. Este se realiza una vez que se ha establecido un marco
muestral representativo de la población, se procede a la selección de los elementos de
la muestra aunque hay muchos diseños de la muestra.
Al tomar varias muestras de una población, las estadísticas que calculamos para cada
muestra no necesariamente serían iguales, y lo más probable es que variaran de una
muestra a otra.
Muestras posibles Prob. De Selección
Muestra Estimador Estimación
seleccionada (Fórmula) Número
Característica
a estimar de
la población.
Figura 1.2.
1.3. MEDICIÓN DE CARACTERES
Existen diversas definiciones del término "medición", pero estas dependen de los
diferentes puntos de vista que se puedan tener al abordar el problema de la
cuantificación y el proceso mismo de la construcción de una escala o instrumento de
medición.
En general, se entiende por medición la asignación de números a elementos u objetos
para representar o cuantificar una propiedad. El problema básico está dado por la
asignación de un numeral que represente la magnitud de la característica que
queremos medir y que dicho números pueden analizarse por manipulaciones de
acuerdo a ciertas reglas. Por medio de la medición, los atributos de nuestras
percepciones se transforman en cantidades conocidas y manejables llamadas
"números". Es evidente que el mundo resultaría caótico si no pudiéramos medir
nada. En este caso cabría preguntarse de que le serviría al físico saber que el hierro
tiene una alta temperatura de fusión.
1.4. VARIABLES ESTADÍSTICAS
La característica que se mida en las unidades elementales de una población definida
por la tarea estadística, tiene diversos valores de naturaleza cualitativa o cuantitativa.
Por ejemplo, la característica "género" tiene dos modalidades: hombre y mujer, la
característica "peso en kilogramos" tiene infinitos valores.
Definición: Se denomina variable estadística a una característica definida en la
población por la tarea o investigación estadística, que puede tomar dos o más valores
(cualidades o números) de un conjunto llamado dominio de la variable.
Se representa por una letra del alfabeto. Por ejemplo, en el universo constituida por
los trabajadores administrativos de la universidad Nacional de Piura, algunas
variables estadísticas definidas en ésta población son:
X: "Género". Valores: Masculino, Femenino
Y: "estado civil". Valores: Soltero, casado, viudo, divorciado
Z: "número de hijos", Valores: 0,1, 2, etc.
W: "ingresos mensuales", Valores: Números reales positivos.
Figura 2.3. Variable estadística
Si una variable se denota por X, entonces, sus valores observados en n unidades
estadísticas se denotan por n
xxx ,...,,21
, conforme al orden en que se han obtenido.
Este conjunto de n observaciones constituye una muestra de tamaño n obtenida de
una población.
1.5. Escalas o Niveles de medición
La asignación de valores a cada una de las unidades estadísticas mediante una
variable, se hace siguiendo determinadas escalas de medición.
Definición. Se denomina escala de medición a un instrumento de medida, con el que
se asigna valores (cualidades o números) a las unidades estadísticas para una variable
definida.
El conocimiento de las escalas de medición es muy importante, pues cada una de
ellas tiene métodos estadísticos específicos. Podemos distinguir las siguientes escalas
de medición: Nominal, Ordinal, De intervalos, y De razón.
Escala nominal
Definición: Se tiene una escala de medida nominal si dos o más valores de una
variable, sólo permiten percibir las diferencias o semejanzas de las unidades
estadísticas que se midan. Tales valores son como etiquetas que identifican a las
unidades estadísticas y las hacen iguales o diferentes entre si.
Si se asignan números a estos valores cualitativos (modalidades o categorías), sólo
sirven única y exclusivamente para identificar la modalidad y con estos no se pueden
realizar operaciones aritméticas. Sólo son válidas las relaciones de igualdad () y no
igualdad ().
Otro ejemplo, la variable "sexo" asigna a las personas dos valores: "masculino" y
"femenino" que son de escala nominal. Con los valores de esta variable las personas
están en una misma modalidad o en modalidades diferentes. Si se asigna un
"cero" al sexo "masculino" y un "uno" al sexo femenino, con estos números, no se
pueden realizar operaciones aritméticas. Sólo se puede decir que el símbolo 0 es
distinto al símbolo 1, pero no podemos decir que 1 es mayor que 0, o que 0 es menor
que 1. Las variables estadísticas: "estado civil", "ideas religiosas", “especialidades
que funcionan en la facultad de ciencias de la UNP”, entre otras, tienen
modalidades que son de escala nominal.
El método estadístico con datos obtenidos en escala nominal consiste básicamente en
obtener el número o porcentaje de casos en cada modalidad y obtener la moda (valor
de mayor frecuencia)
Escala ordinal
Definición: Una escala ordinal es una escala nominal donde los valores de la
variable se pueden ordenar en forma ascendente (o descendente).
En una escala ordinal los valores o modalidades reflejan el orden existente de las
unidades estadísticas. Si se asignan números a tales modalidades, con estos, no se
pueden realizar operaciones aritméticas. Sólo son válidas las relaciones de igualdad
(), de no igualdad () y de orden ().
Por ejemplo, la variable "estatus socioeconómico" con sus modalidades: clase baja,
media y alta se mide, en escala ordinal. La variable "orden de mérito" cuyas
modalidades son 1, 2, 3, etc. mide las calificaciones de las unidades estadísticas
en escala ordinal. Al asignar un número a los pacientes de una consulta médica,
según el orden de llegada, estamos llevando una escala ordinal, es decir que al
primero en llegar le asignamos el Nº 1, al siguiente el Nº 2 y así sucesivamente.
El método estadístico con datos obtenidos en escala ordinal consiste básicamente en
obtener el número o porcentaje de casos en cada modalidad y obtener la moda, la
mediana, los percentiles y el coeficiente de correlación por rangos.
Escala de intervalos
Definición: Una escala de intervalos es una escala ordinal con cuyos "valores" no
sólo se pueden verificar igualdad, no igualdad y orden, si no también, se puede elegir
una unidad de escala y comprobar cuántas veces la diferencia entre dos valores es
igual a la diferencia entre otros dos valores de la escala (es decir, podemos
comparar intervalos).
Esto es, si 321
y , xxx son tres valores en la escala de intervalo, se verifica, por
ejemplo, la relación:
)(1213
xxcxx o cxx
xx
12
13
donde c es una constante.
Escala de razón o cociente
Definición. La escala de razón es una escala de intervalo con cuyos valores además
podemos comprobar cuántas veces un valor de la escala es igual a otro valor de la
escala. Esto es, si 1
x y 2
x son dos valores en la escala de razón, se verifica la
relación:
12cxx o c
x
x
1
2 ,
donde c es una constante, y 01x .
La escala de razón tiene un cero absoluto (ausencia total de la característica que se
observa). Con los números de esta escala son válidas las relaciones de igualdad, de
no igualdad, de orden y todas las operaciones matemáticas. Los valores de esta escala
se obtienen en general, por mediciones tipo conteo (discretos) o por mediciones tales
como de longitud, peso, volumen, vida útil, etc. (continuos).
Por ejemplo, si la variable X, es la longitud (en metros) de un objeto, entonces, los
valores de esta variable son de escala de razón. En efecto, si tres objetos A, B, y C
miden 2, 4 y 16 metros, se pueden establecer las relaciones: 2 4 16, 2 4 16,
1627(42), además, 4/2 = 2, 16/2 = 8, y 16/4 = 4. Es decir, la longitud de B es el
doble que la de A, el de C es 8 veces que la de A y el de C es 4 veces que la de B.
Otro ejemplo: En una encuesta realizada en un barrio de esta localidad se observó
que hay familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble
de hijos que aquellas que tienen 3 hijos.
Propiedad: Una escala de razón x permanece invariante ante la transformación:
y ax
donde a es una constante arbitraria.
Por ejemplo, si la variable X: tiene valores 4 y 16 medidos en escala de razón,
entonces, la transformación (1/2)XY que produce los valores respectivos 2 y 8 es
la misma escala de razón. Es decir, estos dos juegos de valores 4, 16 y 2, 8, miden
la misma característica y verifican las mismas relaciones, en particular:
2
84
4
16
NOTA. La aplicación de métodos estadísticos cuantitativos requiere que la variable
se mida por lo menos en escala de intervalos.
Ejemplo: Las notas de un cierto curso se miden en una escala de intervalos de 0 a
20. Por razones prácticas se trata de expresar estas notas en la misma escala de
intervalos pero de tal manera que el 20 se transforme en 100 y el 15 se transforme en
80, ¿en cuánto debe transformarse el 0?
Solución
Sea el valor que corresponde al 0.Entonces, si 0, 15, 20 y , 80, 100 son dos juegos
de valores en la misma escala de intervalos, entonces,
2015
150
10080
80 ?
, de donde resulta .20?
1.6. Clasificación de variables.
Las variables se clasifican en dos grupos de acuerdo al nivel de medición utilizado
para su observación: clases cualitativas y cuantitativas.
Variable cualitativa o atributo, es la característica cuyos valores se expresan en
escala nominal u ordinal, por ejemplo, sexo, profesión, estado civil, orden de
méritos, etc.. Con sus valores, que son cualidades, no se pueden realizar operaciones
aritméticas.
Variable cuantitativa, es la característica cuyos valores se expresan en escalas de
intervalo o de razón, por ejemplo, temperatura, número de hijos, edad, ingresos
mensuales, tiempo de vida útil, etc.. Con sus valores, que son números, se pueden
realizar operaciones aritméticas.
Las variables cuantitativas, a su vez, se clasifican en: discretas, y continuas.
Variable cuantitativa discreta, es aquella variable cuantitativa que puede tomar
sólo un determinado número de valores y no admite ningún valor entre dos valores
consecutivos fijos. Generalmente, es una variable cuyos valores se obtienen por
conteo (números naturales). Por ejemplo, una familia puede tener 0, 1, 2,...hijos, pero
no algún valor intermedio.
Otro ejemplo, el número de estudiantes de una clase es una variable discreta ya que
solo tomará los valores 1, 2, 3, 4... Nótese que no encontramos valor como 1.5
estudiantes
Variable cuantitativa continua, es aquella variable cuantitativa que puede tomar
cualquier valor dentro de dos valores consecutivos. Por ejemplo, el salario, el peso, el
tiempo empleado para realizar un trabajo, la estatura, volumen, longitud, etc..
No obstante en muchos casos el tratamiento estadístico hace que las variables
discretas las trabajemos como si fuesen continuas y viceversa.
Una variable continua puede pues tomar infinitos valores intermedios en un intervalo
dado. Para fines prácticos los valores numéricos de las variables continuas siempre
son valores aproximados.
Ejercicio. Clasifique las variables e indique el tipo de escala en que están medidas
las siguientes características:
- Profesión - Año de nacimiento
- Nacionalidad - Edad
- Grado de instrucción - Estado civil
- Número de hermanos - Ingreso mensual familiar
- Número de teléfono - Documento único de identidad
- Dirección
1.7. Datos Estadísticos.
Los datos estadísticos no son otra cosa que el producto de las observaciones
efectuadas en las personas y objetos en los cuales se produce el fenómeno que
queremos estudiar. Dicho en otras palabras, son los antecedentes (en cifras)
necesarios para llegar al conocimiento de un hecho o para reducir las consecuencias
de este.
Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy
difícil en general, obtener conclusiones de los datos presentados de esta manera. Para
poder obtener una precisa y rápida información con propósitos de descripción o
análisis, estos deben organizarse de una manera sistemática; es decir, se requiere que
los datos sean clasificados. Esta clasificación u organización puede muy bien hacerse
antes de la recopilación de los datos.
Ejemplo 2.29. Si se quiere conocer las características de los estudiantes de la
Universidad Nacional de Piura, que solicitan préstamo a la biblioteca central de
dicha Universidad. La recolección de la información debe clasificar a cada
estudiante sobre la base de: Especialidad que estudia, edad, semestre de estudios, etc.
Vemos pues que la clasificación marca la pauta de la clase de datos que debe ser
obtenido.
1.8. Clasificación de los datos
Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos,
cronológicos y geográficos.
Datos Cualitativos: cuando los datos son cualitativos, la diferencia entre
ellos es de clase y no de cantidad.
Ejemplo: Si deseamos clasificar los estudiantes que cursan la asignatura de
Estadística Empresarial en la maestría de Administración por su estado civil,
observamos que pueden existir solteros, casados, divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes
magnitudes, decimos que son datos cuantitativos.
Ejemplo: Se clasifican los estudiantes de la facultad de Ciencias de la UNP de
acuerdo a sus notas, observamos que los valores (nota) representan diferentes
magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes
instantes o períodos de tiempo, los datos son reconocidos como cronológicos.
Ejemplo: Al registrar los promedios de notas de los Alumnos del alumnos de la
facultad de Ciencias de la UNP en los diferentes semestres.
Datos geográficos: cuando los datos están referidos a una localidad
geográfica se dicen que son datos geográficos.
Ejemplo: El número de estudiantes de educación superior en las distintas
regiones del país.
1.9. Fuentes de datos Estadísticos:
Los datos estadísticos necesarios para la comprensión de los hechos pueden
obtenerse a través de fuentes primarias y fuentes secundarias.
Fuentes de datos primarias: es la persona o institución que ha recolectado
directamente los datos.
Fuentes secundarias: son las publicaciones y trabajos hechos por personas o
entidades que no han recolectado directamente la información.
Las fuentes primarias más confiables, son las efectuadas por oficinas
gubernamentales encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y en última
instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con
este último tipo no debemos pasar por alto que la calidad de las conclusiones
estadísticas depende en grado sumo de la exactitud de los datos que se recaben.
De nada serviría usar técnicas estadísticas precisas y refinadas para llegar a
conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o
confiables.
Cuando un investigador quiere obtener datos estadísticos relativo a un estudio
que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una
secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en
último término podrá deberse bien a la inexistencia de los datos o bien a que
estos no se encuentran discriminados en la forma requerida.
Ejemplo: Si un investigador quiere conocer el número de alumnos repitentes en
educación secundaria, clasificados por grado académico, para los últimos diez
años, el investigador puede usar una fuente primaria, tal como la memoria con
que cuenta el Ministerio de Educación cada año.
1.10. Presentación de los datos.
Comprende a resúmenes y consolidaciones de informaciones dispersas que se
efectúan con fines de realizar una presentación ordenada y clasificada de resultados
de modo que se facilite su análisis e interpretación para la toma de decisiones. Las
tablas de información resultan de identificar las necesidades de información por tanto
es necesario que para su elaboración se consideren las características que puedan
cumplir su objetivo final: informar.
La información obtenida no sólo requiere ser organizada y presentada en tablas, sino
que también puede ser representada mediante gráficos estadísticos.
1.11. Distribución de frecuencias
La distribución de frecuencias es un método utilizado para organizar y resumir datos.
Bajo este método los datos que componen una serie se clasificaran en valores o en
intervalos, indicándose el número de veces que se repite.
La distribución de frecuencia nos permite manejar grandes cantidades de
información en espacios pequeños, ya sea a través de tablas o cuadros y por medio de
gráficos que lo complementan.
En el caso de una variable cuantitativa, si se tienen pocos datos, y estos son valores
discretos, entonces conviene presentar una tabla de distribución de frecuencias sin
intervalos; pero si se tiene valores continuos o muchos valores discretos, conviene
presentar una tabla de distribución de frecuencia por intervalos.
Aunque no se pueden fijar normas rígidas, en la presentación de los cuadros o tablas,
sin embargo, es posible dar una estructura general que debe seguir una tabla de
información estadística:
1. Número de tabla. Es un código de identificación que permite citarlo cuantas
veces sea necesario a lo largo de los comentarios de un informe.
2. Título. Corresponde a una descripción resumida de la información estadística
que contiene. En general debería responder a las clásicas preguntas: QUE,
DONDE, COMO y CUANDO.
Qué: ¿Qué información contiene la tabla o cuadro?
Dónde: ¿A dónde corresponde la información tabulada?
Cómo: ¿Cómo está arreglada o clasificada la información?
Cuándo: ¿A qué período de tiempo se refiere la información?
3. Encabezamiento. Es la descripción resumida sobre contenido de las filas y
columnas que contiene la tabla de información.
4. Cuerpo de la tabla. Comprende al contenido numérico de la información de
la tabla.
5. Notas de pié o llamadas. Anote las aclaraciones sobre términos, siglas,
abreviaturas usadas. También precisar las unidades de medida y
equivalencias que se están utilizando para expresar cantidades.
6. Fuente. Se debe anotar el nombre de la institución o de la investigación de
donde se han tomado los datos individuales.
7. Elaboración. Se anotará el nombre de la unidad responsable de la
formulación y presentación del tabulado de información estadística.
8. Fecha. Registre la fecha en que se realizó la tabla para dejar constancia del
evento y poder actualizar de ser pertinente.
Ejemplo. Según información preliminar de la oficina de Admisión del hotel
CONFORT, en el mes de febrero de 2007 el hotel atendió a los turistas extranjeros
siguientes:
Turista Nacionalidad Sexo
1 Argentina (*) Masculino
2 Argentina Masculino
3 Argentina Masculino
4 Argentina Femenino
5 Argentina Femenino
6 Argentina Femenino
7 Boliviana Masculino
8 Boliviana Masculino
9 Boliviana Femenino
10 Chilena Masculino
11 Chilena Femenino
(*) El cliente no acreditó su nacionalidad.
Elabore una tabla de resultados que consolide la información dispersa en esta base de
datos construida por la Oficina de Admisión del Hotel CONFORT.
Solución.
NUMERO Tabla Nº 1
TITULO
¿Qué? Número de turistas extranjeros que fueron atendidos.
¿Dónde? en el hotel CONFORT
¿Cómo? según nacionalidad por sexo (1)
¿Cuándo? (Periodo: Febrero 2007)
Nacionalidad
Número de Turistas
Extranjeros
Sexo
Masculino Femenino
Número
(n i )
%
(h i )
Número
(n i )
%
(h i )
Número
(n i )
%
(h i )
Argentina (2) 6 54.5 3 50.0 3 60.0
Boliviana 3 27.3 2 33.3 1 20.0
Chilena 2 18.2 1 16.7 1 20.0
Total General 11 100.0 6 100.0 5 100.0
NOTAS DE PIE (1) Cifras preliminares registradas al 01/ 03 / 2007.
(2) Comprende a ciudadanos con nacionalidad no acreditada
FUENTE Oficina de Admisión del hotel CONFORT
RESPONSABLE Elaborado por: Asesores y Consultores S.A.
FECHA 01/ 03 / 2007
1.12. Distribución de frecuencias sin intervalos:
La distribución de frecuencia sin intervalos o clases es recomendable utilizarse
cuando se tienen pocas observaciones y, por tanto, la variable estadística tome pocos
valores; o también cuando se han hecho muchas observaciones y, sin embargo, la
variable toma muy pocos valores distintos, incidiendo de una manera considerable el
estudio de las repeticiones de cada valor. Estos casos caerán dentro del estudio de
variable discreta.
Cuando se estudia una variable cuantitativa X de la población, el mayor interés es
conocer la distribución de esta variable a través de los posibles valores del mismo.
Suponga que se han recolectado n valores de alguna variable discreta X. El
procedimiento más simple de organizar estos n datos, consiste en ordenar estos
valores numéricos en forma ascendente.
Si algunos valores se repiten, y si al terminar el ordenamiento se obtienen k ( nk )
valores distintos de X, digamos, k
xxx ,...,,21
, con frecuencias absolutas respectivas
knnn ,...,,
21, la distribución de frecuencias de estos n datos se resume en la tabla 2.5
como sigue:
Encabezado
Cuerpo
Tabla 2.5. . Distribución de frecuencias de variable discreta
Valores de la
variable X
Frecuencias
absolutas n i
Frecuencias
relativas h i
Frecuencias
porcentajes p i
x 1
x 2
.
.
x k
n 1
n 2
.
.
n k
h 1
h 2
.
.
h k
p 1
p 2
.
.
p k
Total
k
1i
inn
k
1i
i1h
k
1i
i100p
Ejemplo. Supóngase que ante la pregunta del número de hijos por familia (variable
X) una muestra de 20 hogares, marcó las siguientes respuestas:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1,
2, 3, 4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de
frecuencias de X se da en la tabla 2.6.
Tabla 2.6. Distribución de frecuencias del número de hijos por familia.
Número de
hijos
Xi
Frecuencias
Absolutas
ni
Frecuencias
Relativas
hi
Frecuencias
Porcentajes
hi (%)
0
1
2
3
4
1
4
7
6
2
0.05
0.20
0.35
0.30
0.10
5
20
35
30
10
Total 20 1.00 100
Fuente.- Datos obtenidos de los formularios de la encuesta.
1.13. Distribución de frecuencias por intervalos. La distribución de frecuencia por intervalos o clases se usa cuando se han hecho
muchas observaciones y la variable estadística (continúa) toma muchos valores
distintos o cuando el número de valores distintos de una variable discreta es grande,
con lo que el campo de variabilidad es muy grande.
En este caso, trataremos de agrupar los valores de la variable en intervalos
adecuadamente elegidos para no perder mucha información.
Para esclarecer la construcción de la tabla de frecuencia para datos agrupados en
intervalos de clase, desarrollaremos un ejemplo.
Ejemplo 2.32. La siguiente información corresponde a las medidas de las alturas de
100 alumnos (dados en cm.) tomados en la oficina médica de Bienestar Universitario
de la UNP, durante la última semana de setiembre de 2007.
151 161 166 168 169 170 173 176 179 182 152 162 166 168 169 170
173 176 179 182 154 163 166 168 169 171 174 176 180 183 155 163
167 168 169 171 174 177 180 184 158 163 167 168 169 171 174 177
180 185 159 164 167 168 170 171 175 177 181 186 159 165 167 168
170 172 175 177 181 187 160 165 167 168 170 172 175 178 181 188
189 181 178 175 172 170 169 168 165 161 161 166 168 169 170 173
176 178 161 156
Se pide representar los datos en una tabla de frecuencias.
Solución.
1º. Debemos de determinar el rango ( R ) de variación de los datos que se define por:
R = X max - X min
En nuestro ejemplo, tenemos:
Valor mínimo X min = 151
Valor máximo X máx = 189
Luego el rango es R= 189 - 151= 38
2º. Tenemos que calcular ¿cuantas clases deben formarse?. Para eso se usa la fórmula
de Sturges:
n log 3.3221K
donde:
K = número de clases
n = número de elementos en la muestra (tamaño de la muestra).
Está formula es muy útil porque orienta al principiante. Sin embargo, es un poco
conservador y tiende a dar un número de clases un poco menor del que se utiliza en
la practica.
En nuestro ejemplo: K = ? , n = 100
Aplicando la fórmula tenemos:
7.644 100 log 3.3221K
redondeando al entero inmediato mayor por que, como ya se indico, la formula es un
poco conservadora, obtenemos:
K = 8.
Nota.- por razones extraídas de la práctica, se adoptan los siguientes límites para K.
15 K 5
3º. La idea es resumir los valores con el fin de percibir algunas características o
propiedades de los datos que no aparecen a simple vista. Para esto vamos a clasificar
los 100 alumnos en 8 clases, de acuerdo con la formula de Sturges.
La amplitud de cada intervalo de clase que representamos con la letra c, se obtiene
por medio de la formula:
K
Rc
Aplicando los datos a la fórmula anterior, se tiene:
75.48
38c
Redondeamos a 5.
Luego c = 5 y por tanto, el nuevo recorrido será:
0485KcR
4º. Teniendo en cuenta que este recorrido es mayor que el recorrido original,
buscaremos el exceso:
Exceso = 40 - 38= 2 cm.
Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada
lado, en este caso 1 a cada extremo.
Sumamos el número 1 al valor máximo: 189 + 1 = 190 y restamos el número 1 al
valor mínimo: 151 - 1 = 150.
A partir de este valor 150 agregamos sucesivamente la amplitud 5 y obtenemos los
puntos de división que determinan los 8 intervalos (ver figura 1.2).
150 155 160 165 170 175 180 185 190
Figura 2.4
Sin embargo una dificultad se presenta cuando algunos de los datos coincide con
cualquiera de los puntos de división: 150, 155, 160, 165, 170, 175, 180, 185 y 190.
5º. Supongamos que un dato es 155 ¿donde lo colocamos?- ¿en el primer intervalo
cuyos extremos son 150 y 155?- (ver Fig. 2.1) ó ¿en el segundo intervalo que tiene
por extremos 155 y 160?-
Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que no
incluye al valor 150 (límite inferior del intervalo) y cerrado por la derecha que
incluye al valor 155 (límite superior del intervalo). Este tipo de intervalo se
representa matemáticamente por: i1i
Y Y (
, donde 1i
Y representa el límite inferior
del intervalo y i
Y representa el límite superior.
Así, en nuestro ejemplo el primer intervalo lo escribiremos como 155 150 ( .
Por tanto los intervalos de clase quedan definidos como:
Intervalo
de clases
(150 - 155]
(155 - 160]
(160 - 165]
(165 - 170]
(170 - 175]
(170 - 180]
(180 - 185]
(185 - 190]
Nota.- También existen otros dos tipos de intervalos de clases, definidas como:
) Y Y (1i i
Intervalo abierto. Los límites son abiertos e indican que la clase
contiene valores superiores al límite inferior y valores inferiores al límite superior.
) Y Y [1i i
Intervalo semi-cerrado. Este intervalo es cerrado por la izquierda
(incluye al límite inferior del intervalo) y abierto por la derecha (no incluye al límite
superior del intervalo).
Y Y 1i
Intervalo cerrado. Este intervalo incluye a ambos límites del intervalo.
6º. Es conveniente que todos y cada uno de los datos que se hallen dentro de un
mismo intervalo, estén representados por un mismo valor. Este valor caracteriza a la
clase y por eso se llama marca de clase, se obtiene promediando los límites de cada
intervalo. Una formula para calcular la marca de clase o punto medio de un intervalo
es:
2
YYY
i1 i
i
7º. A continuación debemos realizar la clasificación y conteo de los datos (ver tabla
1.2), es decir, colocar cada uno de ellos dentro de su clase, todos representados por
un mismo signo: una tarja.
Tabla 2.7.
Intervalo de clase
i1i
Y Y (
Marca de clase
Yi
Conteo Frecuencia
ni
150 - 155 152.5
155 - 160 157.5
160 - 165 162.5
165 - 170 167.5
170 - 175 172.5
175 - 180 177.5
180 - 185 182.5
185 - 190 182.5
A continuación presentamos la tabla 2.8, conocida como tabla de distribución de
frecuencias absolutas.
Tabla. Distribución de frecuencias de 100 alumnos de la Universidad Nacional de
Piura, según su estatura (en cm.). Oficina de Bienestar Universitario.
Setiembre de 2007.
Intervalo de clase
i1i
Y Y (
Marca de clase
Yi
Frecuencia
ni
Frecuencia
relativa
Frecuencia
acumulada
Frecuencia
acumulada
150 - 155 152.5 4 0.04 4 0.04
155 - 160 157.5 5 0.05 9 0.09
160 - 165 162.5 12 0.12 21 0.21
165 - 170 167.5 33 0.33 54 0.54
170 - 175 172.5 17 0.17 71 0.71
175 - 180 177.5 16 0.16 87 0.87
180 - 185 182.5 9 0.09 96 0.96
185 - 190 187.5 4 0.04 100 1.00
Total 100 1.00
Fuente.- Registro de la atención medica de la Oficina de Bienestar Universitario de
la UNP. 24 de setiembre de 2007.
1. Frecuencia absoluta: (ni )
Llamaremos frecuencia absoluta de un valor xi de la variable estadística X, al
número de veces aparece repetido dicho valor en el conjunto de las observaciones
realizadas.
Propiedad.
k
1i
ik21nnn ···· n n
2. Frecuencia absoluta acumulada: (Ni )
La frecuencia absoluta de un valor xi de la variable X es igual a la suma de los
valores inferiores o iguales a dicho valor evidentemente. Así, la frecuencia
absoluta acumulada del ultimo valor será n (donde n = número de observaciones
realizadas).
i
1j
ji21inn ··· nn N
Propiedad.
i1iinNN
, de donde
1i1iNNn
3. Frecuencia relativa: (hi )
Llamaremos frecuencia relativa de un valor observado xi de la variable X, al
cociente entre su frecuencia absoluta y el número de observaciones realizadas
(n), y se denota por:
n
nh
i
i , 1 h 0
i , .k. ..., 2, 1,i
Propiedad.
k
1i
ik211hh ···· h h
4. Frecuencia relativa acumulada: (Hi )
Se llama frecuencia relativa acumulada de un valor xi de la variable X, al
cociente entre su frecuencia absoluta acumulada y el número de observaciones
realizadas (n), y se denota por:
i
1j
j
i
1j
j
i
1j
j
i
ih
n
n
n
n
n
N H
Propiedad. i1ii
hHH
Interpretación.
n2 = 5, significa que 5 alumnos tienen una estatura mayor de 155 cm. y menor o igual
a 160 cm.
N4 = 54, significa que 54 alumnos tienen una estatura mayor que 150 cm. y menor o
igual que 170 cm., o también significa que 54 alumnos tienen una estatura menor o
igual a que 170 cm.
h3 = 0.12, significa que el 12% de los alumnos tienen una estatura mayor de 160 cm.
y menor o igual a 165 cm.
H6 = 0.87, significa que el 87% de los alumnos tienen una estatura mayor que 150
cm. y menor o igual que 180 cm., o también significa que 87% de los alumnos tienen
una estatura menor o igual a que 180 cm.
N6 - N2 = 87 - 9 = 78 alumnos tienen una estatura mayor que 160 cm. Y menor o
igual que 180 cm.
Observación 1.
1. Cuando el tamaño de la muestra n < 25, el número de intervalos de clases a
considerar debe ser K=5; y nK , si n > 25.
2. Los limites reales de clase, se calculan dependiendo de si los límites de los
intervalos son abiertos o cerrados.
3. Si los intervalos son cerrados o abiertos en ambos límites, la marca de clase se
calcula como el promedio de los límites superior e inferior de cada intervalo. Si los
límites de clases son diferentes (inferior cerrado y superior abierto, o viceversa) la
marca de clase se obtiene promediando el límite inferior (o superior) con el mismo
limite que lo precede.
1.14. Distribución de frecuencias: Variable cualitativa
Supongamos que en una muestra de n unidades estadísticas se observan k categorías
o modalidades diferentes C1, C2,..., Ck, de alguna variable cualitativa X. Para
ilustrar la tabulación de la distribución de frecuencias por categorías, consideremos
el siguiente ejemplo.
Ejemplo. En una encuesta de opinión acerca de las preferencias de una marca de
bebidas gaseosas por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores
dieron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.
Construir la distribución de frecuencias.
Solución.
La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida
gaseosa, es la distribución de frecuencias de la tabla 2.9.
Tabla. Distribución de personas por su color preferido de la bebida gaseosa.
Color de
Bebida
Número de
Consumidores: ni
Frecuencias
relativas: hi
Frecuencias
Porcentajes: hi(%)
Blanco (B)
Negro (N)
Rojo (R)
8
9
3
0.40
0.45
0.15
40
45
15
Total 20 1.00 100 Fuente.- Datos obtenidos de la encuesta realizada.
1.15. Representación gráfica de las distribuciones de frecuencias.
La presentación de datos a través de tablas estadísticas es una actividad importante
dentro de los sistemas de información general, estas se fortalecen significativamente
cuando se la acompañan con gráficos descriptivos e ilustrativos. En el contexto de
los sistemas de información, en más de una oportunidad se encontrará que un buen
gráfico resume y expresa mucho más que párrafos completos de comentarios e
interpretaciones literales.
En general la representación gráfica de una tabla de frecuencias permite percibir con
mayor claridad algunas características de la masa de datos que se investiga. Por ello,
a través de gráficos, resulta bastante más fácil transmitir conclusiones a personas no
habituadas a la interpretación de tablas de frecuencias.
Gráfico de la distribución sin intervalos.
La representación gráfica más común para este tipo distribución de frecuencias es el
diagrama de barras que consiste en trazar en cada valor distinto de la variable,
segmentos de líneas proporcionales a su frecuencia.
Número de hijos por familia
Número de hijos
43210
Nú
me
ro d
e f
am
ilia
s
8
6
4
2
0
Figura 2.5. Diagrama de barras para los datos de la tabla 2.9.
Gráfico de la distribución por intervalos.
Los gráficos más usadas son: Histograma, Polígono de frecuencias y polígono de
frecuencias acumuladas u ojiva.
a) Histograma.
Es una representación gráfica de una distribución de frecuencias agrupadas en
intervalos de clase, mediante una serie de rectángulos contiguos que tienen:
Estatura de los alumnos de la UNP
Estatura en cm.
Núm
ero
de a
lum
nos
150 155 160 165 170 175 180 185 190
0
10
20
30
40
Figura 2.6. Histograma de frecuencias del alumnos según su estatura, ver tabla 2.8.
b) Polígono de frecuencias. Cuando la variable está agrupada en intervalo de clase, el polígono de frecuencia
se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo
en el histograma.
Estatura de los alumnos de la UNP
Estatura en cm.
Núm
ero
de a
lum
nos
147.5 152.5 157.5 162.5 167.5 172.5 177.5 182.5 187.5 192.5
0
10
20
30
40
Figura 2.7. Polígono de frecuencias de la estatura de los alumnos de la tabla 2.8.
c) Polígono de frecuencias acumuladas u ojivas.
Está representación es válida para variables estadísticas agrupadas en intervalos
de clase. En el eje de las abscisas representamos los distintos intervalos de clase
que han de estar naturalmente traslapados. En el extremo superior de cada
intervalo se levanta una vertical con altura igual a la frecuencia (absoluta o
relativa) acumulada, luego se unen los extremos superiores de las verticales con
segmentos rectilíneos. Así el polígono de frecuencias acumuladas absolutas
alcanzará su máxima altura en el último intervalo.
Estatura de los alumnos de la UNP
Estatura en cm.
Núm
ero
de a
lum
nos
150 155 160 165 170 175 180 185 190
0
20
40
60
80
100
Figura 2.8. Polígono de frecuencias acumuladas “Menor o igual que” para la estatura
de los alumnos de la tabla 2.8.
Gráfico para la distribución de frecuencia de variable cualitativa. Los gráficos más comunes para la distribución de frecuencias de variable cualitativa
son el de diagrama de rectángulos y el de sectores circulares.
En un Diagrama de rectángulos los datos de cada una de las modalidades
(caracteres cualitativos) se representa por un rectángulo vertical (u horizontal), cuya
altura (o largo) es proporcional a su frecuencia (absoluta o relativa). Los rectángulos
se dibujan dejando un espacio entre ellos.
Ejemplo 2.36. Abriendo la ventana Descripción, escogiendo Datos cualitativos
Tabulación y finalmente en el icono Opciones gráficas seleccionar Diagrama de
barras para obtener el diagrama de rectángulos para los datos de la tabla 2.9.
Diagrama de rectangulos para las bebidas gaseosas de acuerdo a su color.
Color de las bebidas gaseosas
Nú
me
ro d
e p
ers
on
as
0
2
4
6
8
10
Blanco Negro Rojo
Figura 2.9. Diagrama de rectángulos para los datos de la tabla 2.9.
En un gráfico circular, los datos de cada categoría se representan por un sector
circular. Es utilizado principalmente cuando se pretende comparar cada valor de la
variable con el total. Para construir se divide el circulo en sectores, cuyas áreas serán
proporcionales a los valores de la variable. Está división es obtenida a través de la
regla de 3 simples.
Total 360o
Parte xo
Ejemplo 2.37. Construir el diagrama de sectores para la información contenida en la
tabla 2.9. Abriendo la ventana descripción, escogiendo Datos cualitativos
Tabulación y finalmente en el icono Opciones gráficas seleccionar Diagrama de
sectores.
Tabla auxiliar.
Color de
Bebida
Número de
Consumidores: ni
Frecuencias
relativas: hi
Frecuencias
Porcentajes: hi(%)
Sector circular:
en grado
Blanco (B)
Negro (N)
Rojo (R)
8
9
3
0.40
0.45
0.15
40
45
15
144.0
162.0
54.0
Total 20 1.00 100 360.0
Diagrama de Sectores de para las gaseosas, según su color de preferencia.
Color de preferencias
Blanco
Negro
Rojo
40.00%
45.00%
15.00%
Figura 3.10. Diagrama de sectores circulares para los datos de la tabla 2.9.
Observación 2. (Intervalos de clases de tamaños desiguales). Es muy común el
uso de intervalos de clases con tamaños desiguales en el agrupamiento de los datos
en tablas de frecuencias. En estos casos se deberá tomar algunos cuidados especiales
en cuanto al análisis y construcción del histograma.
Un primer cuidado es construir una columna que indique las amplitudes c i de
cada clase.
Un segundo paso es la construcción de la columna de las densidades de
frecuencias en cada clase, que es obtenido dividiendo las frecuencias relativas
h i por las amplitudes c i. Esto es, una medida que indique cuál es la
concentración por unidad de variable.
Top Related