Download - Resumen de Estadistica

Capítulo 1

TERMINOLOGIA BASICA

1.1. APLICACIÓN DE LA ESTADÍSTICA

En la vida diaria los diversos fenómenos de orden económico, social, político,

educacional, e incluso biológico, aparecen, se transforman y finalmente desaparecen.

Para tan abundante y complejo material, es preciso tener un registro ordenado y

continuo a fin de conseguir en un momento dado, los datos necesarios para el estudio

de lo que ha sucedido, sucede o puede suceder.

Para ello se requiere contar con un método, o conjunto de reglas o principios, que nos

permita la observación, el ordenamiento, la cuantificación y el análisis de dichos

fenómenos. Ese método se denomina Estadística.

La palabra estadística se refiere a un sistema o método usado en la recolección,

organización, análisis y descripción numérica de la información.

Hay dos fases en el campo de la Estadística. En primer lugar está la fase que sólo se

limita a la descripción de una serie de datos sin llegar a conclusiones o a generalizar

con respecto a un grupo mayor. Esta (fase) se conoce como Estadística deductiva o

descriptiva. En segundo lugar está la fase de análisis que trata de llegar a

conclusiones acerca de un grupo mayor basado en la información de un grupo menor

o muestra: es esta la Estadística inductiva o de inferencia.

En un principio se consideraba que la función de la estadística era la descripción de

las características de grupo, actividad que la hacia confundir con el papel que cumple

la historia de observar y describir el hecho. En su origen, las estadísticas eran

historias; hoy en día, la estadística, además de ser descriptiva, es analítica,

considerándose esta última como la función más importante que realiza, ya que

permite obtener conclusiones para un grupo mayor, denominado población,

partiendo de una investigación realizada en un grupo menor, conocido como

muestra, cuyo elementos, en la mayoría de casos, se seleccionan aleatoriamente o al

azar.

La estadística descriptiva o deductiva tiene como finalidad colocar en evidencia

aspectos característicos (promedios, variabilidad de los datos, etc.), que sirven para

efectuar comparaciones sin pretender sacar conclusiones de tipo más general.

Esta descripción se realiza a través de la elaboración de cuadros, gráficos, cálculo de

promedios, varianzas, proporciones de una o más variables, que deben estar

relacionadas.

La estadística inferencial o inductiva busca dar explicaciones al conjunto de

observaciones, probar la significación o validez de los resultados; intenta descubrir

las causas que lo originan, con gran aplicación en el campo del muestreo, lográndose

de esta manera, conclusiones que se extienden más allá de las estadísticas mismas.

Uno de los principales objetivos de la estadística es hacer inferencias acerca de los

valores estadísticos de la población, denominados parámetros, a través de la

información obtenida en una muestra, que permite el cálculo de estimadores.

La estadística descriptiva-inferencial, se define como un conjunto sistemático de

procedimientos para observar y describir numéricamente el fenómeno, y descubrir

las leyes que regulan la aparición, transformación y desaparición del mismo.

Planeamiento y diseño. • Representativa

Recopilación. • INFORMACION • Suficiente

Procesamiento • TOMA DECISIONES • Confiable

Análisis e indicadores • Oportuna

Generalmente se asocia la palabra Estadística con cifras sobre algún campo

particular. Podemos asociarla con cifras sobre el número de nacimientos,

defunciones, transacciones comerciales, valor de las acciones en el mercado de

valores, volumen físico y monetario de las importaciones y exportaciones, beneficio

y utilidad de las empresas, demanda presente o potencial de algún producto.

Estadísticas (en plural). Se refiere a un ordenamiento sistemático de datos

presentados en forma de cuadros y gráficos. En otras palabras, las estadísticas son

datos agrupados metódicamente y consignados en publicaciones, elaboradas por las

diversas empresas o entidades, buscando que sean conocidas por los interesados. Se

clasifican en:

Estadísticas o fuentes primarias. Son aquellos datos obtenidos ya sea por encuestas

directas, mediante la utilización de cuestionarios, o como resultados de la

observación directa; es una técnica muy utilizada en estudios de carácter científico o

en investigación de mercados. Se puede decir también que son datos publicados por

quien recoge directamente de la fuente de información primaria. Son fuentes

primarias: personales (entrevistas, correo, etc. y experimentos), unipersonales

(auditoria análisis de rastreo o de contenido, simulación); mixta (observaciones).

Estadísticas o fuentes secundarias. En estas, los datos se obtienen de publicaciones,

las cuales pueden ser reproducciones totales o parciales. Son valiosas para cualquier

ACTIVIDAD

ESTADISTICA

PRODUCTO CARACTERISTICA

La estadística, de acuerdo con todo lo anterior, se podría definir como la ciencia

mediante la cual se desarrolla y aplica técnicas específicas para recopilar,

consolidar y analizar información representativa, suficiente, confiable y

oportuna con el fin de evaluar la incertidumbre en el proceso de la toma de

decisiones.

tipo de investigación. Son fuentes secundarias: bibliotecas, centros de

documentación, folletos, revistas, archivos, etc.

Las estadísticas también se pueden clasificar como internas y externas. Las

estadísticas internas de una empresa se forman de los registros internos, tales como

producción, ventas, salarios y otros. Las estadísticas externas son registros originados

fuera de la empresa, por ejemplo: precios de la competencia, opinión de los

consumidores respecto al producto, etc.

Clases de estadísticas. Se clasifican de acuerdo con el tema o materia de estudio; así,

por ejemplo, se elaboran diversas clases de estadísticas: industriales, agropecuarias,

construcciones, transporte y comunicaciones, comercio interior, moneda y finanzas,

precios y salarios, comercio exterior, sector publico, empleo y laborales,

demográficas, salubridad, justicia y educación.

1.2. ALGUNOS TÉRMINOS Y CONCEPTOS QUE SE DEBEN CONOCER Y

MANEJAR.

A continuación se definen algunos términos que serán utilizados en el desarrollo de

los diferentes capítulos, en los cuales se ha dividido esta asignatura.

Es de suma importancia el conocimiento y el manejo de los términos que se

expondrán, ya que nos permitirá hablar un solo lenguaje, precisar lo que se va a hacer

y entender su uso en los diversos aspectos que conlleva el desarrollo de los temas de

la presente asignatura.

Universo. Se denomina universo, a un conjunto de elementos (que consiste de

personas, familias, establecimientos, animales, objetos, artículos producidos, etc.)

que contienen una o más características observables de naturaleza cualitativa o

cuantitativa que se pueden medir en ellos.

Elementos o unidades. Son los elementos o unidades que integran el universo.

Además el elemento puede ser una entidad simple (una persona) o una entidad

compleja (una familia), que se denomina unidad, la que a su vez, puede estar

compuesta de elementos o de unidades, que en algunos casos se les define como

conglomerados.

Por ejemplo, los empleados de una empresa en un día laborable, constituyen un

universo en la que cada empleado (elemento), tiene muchas características a ser

observadas, como por ejemplo: sexo, estado civil, lugar de procedencia, grado de

instrucción, etc. (característica cualitativa), o número de hijos, ingresos mensuales,

etc. (característica cuantitativas).

El resultado de medir una característica observable de una unidad o elemento, se

denomina dato estadístico o valor observado o simplemente observación.

Población. Por otra parte, el universo viene definido por la investigación estadística

a realizarse. Y como la medición de la característica especificada por la investigación

se hace a cada unidad elemental, se puede considerar a la población como el

conjunto de medidas o el recuento de todos los elementos que presentan una

característica común.

Según sea el número de elementos, la población puede considerarse como finita o

infinita. Es una población finita cuando el número de elementos que la compone es

limitado; infinita cuando consta de ilimitado número de elementos.

Marco muestral. Se denomina marco muestral o marco de referencia, a la lista,

mapa o cualquier otro material aceptable, que contenga todas las unidades o

elementos perfectamente identificadas y actualizadas, de la cual se selecciona la

muestra.

Características. Es importante resaltar el hecho de que a pesar de encontrarse un

universo constituida por un grupo de elementos o unidades, a la estadística no le

interesa el elemento o la unidad en sí, sino su característica.

Investigación total. Denominada también como censo o investigación exhaustiva, es

aquella en la cual se toma la totalidad de los elementos o unidades que conforman la

población objeto de estudio.

No siempre se puede realizar una investigación total, y debemos observar una parte

de ellas, debido a circunstancias como las que se detallan a continuación:

Muestra o investigación parcial. Se define como un conjunto de medidas o el

recuento de una parte de los elementos pertenecientes a la población, con el fin de

obtener información acerca de la población de la cual proviene.

El estudio de muestras es más sencillo que el estudio de la población completa;

cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una

población entera todavía permite la aceptación de elementos defectuosos, por tanto,

en algunos casos, el muestreo puede elevar el nivel de calidad.

Los expertos en estadística recogen datos de una muestra. Utilizan esta información

para hacer referencias sobre la población que está representada por la muestra. En

consecuencia muestra y población son conceptos relativos. Una población es un todo

y una muestra es una fracción o segmento de ese todo.

Parámetro. Es una medida utilizada para describir alguna característica de una

población, y para determinar su valor es necesario utilizar la información de la

población completa y por lo tanto, las decisiones se tomarán con certidumbre total.

Las más utilizadas son:

Media poblacional ( )

Varianza poblacional (2

)

Proporción poblacional (p)

También se le denomina valor verdadero, ya que una característica poblacional

tendrá un solo parámetro (media, varianza, etc.). Sin embargo, una población puede

tener varias características y, por tanto, varios parámetros. Algunos lo denominan

como valor estadístico de la población.

Estadística o estadígrafo: Es una medida utilizada para describir alguna

característica de la muestra y la toma de decisiones contiene un grado de

incertidumbre. Las más utilizadas son:

http://www.monografias.com/cgi-bin/search.cgi?query=tiempo&?intersearch

http://www.monografias.com/cgi-bin/search.cgi?query=muestreo&?intersearch

http://www.monografias.com/cgi-bin/search.cgi?query=calidad&?intersearch

http://www.monografias.com/cgi-bin/search.cgi?query=información&?intersearch

Media muestral ( X )

Varianza muestral (S 2 )

Proporción muestral ( p̂ )

De una población se pueden obtener M número de muestras posibles y en cada una

de ellas se puede cuantificar la característica, obteniéndose por lo general, valores

diferentes para cada muestra, a pesar de ser utilizado el mismo estadígrafo o medida.

También se le conoce como Estimador Puntual si se trata de un promedio, varianza,

proporción, etc. Como por lo general, existe una diferencia entre el estimador y el

parámetro, denominado error, es aconsejable utilizar el estimador por intervalos,

dentro del cual deberá estar contenido el parámetro con cierto margen de seguridad,

establecido por el investigador.

La diferencia entre el estimador y el parámetro, como ya se dijo, se le denomina

como error de muestreo, y lo fija el investigador para determinar el tamaño de la

muestra, con base en la experiencia y el conocimiento que tenga sobre el

comportamiento y, la variación que tenga la característica o características

principales relacionadas con el objetivo mismo de la investigación.

Muestreo: Esto no es más que el procedimiento empleado para obtener una o más

muestras de una población. Este se realiza una vez que se ha establecido un marco

muestral representativo de la población, se procede a la selección de los elementos de

la muestra aunque hay muchos diseños de la muestra.

Al tomar varias muestras de una población, las estadísticas que calculamos para cada

muestra no necesariamente serían iguales, y lo más probable es que variaran de una

muestra a otra.

Muestras posibles Prob. De Selección

Muestra Estimador Estimación

seleccionada (Fórmula) Número

Característica

a estimar de

la población.

Figura 1.2.

http://www.monografias.com/cgi-bin/search.cgi?query=procedimiento&?intersearch

http://www.monografias.com/cgi-bin/search.cgi?query=selección&?intersearch

http://www.monografias.com/cgi-bin/search.cgi?query=estadísticas&?intersearch

1.3. MEDICIÓN DE CARACTERES

Existen diversas definiciones del término "medición", pero estas dependen de los

diferentes puntos de vista que se puedan tener al abordar el problema de la

cuantificación y el proceso mismo de la construcción de una escala o instrumento de

medición.

En general, se entiende por medición la asignación de números a elementos u objetos

para representar o cuantificar una propiedad. El problema básico está dado por la

asignación de un numeral que represente la magnitud de la característica que

queremos medir y que dicho números pueden analizarse por manipulaciones de

acuerdo a ciertas reglas. Por medio de la medición, los atributos de nuestras

percepciones se transforman en cantidades conocidas y manejables llamadas

"números". Es evidente que el mundo resultaría caótico si no pudiéramos medir

nada. En este caso cabría preguntarse de que le serviría al físico saber que el hierro

tiene una alta temperatura de fusión.

1.4. VARIABLES ESTADÍSTICAS

La característica que se mida en las unidades elementales de una población definida

por la tarea estadística, tiene diversos valores de naturaleza cualitativa o cuantitativa.

Por ejemplo, la característica "género" tiene dos modalidades: hombre y mujer, la

característica "peso en kilogramos" tiene infinitos valores.

Definición: Se denomina variable estadística a una característica definida en la

población por la tarea o investigación estadística, que puede tomar dos o más valores

(cualidades o números) de un conjunto llamado dominio de la variable.

Se representa por una letra del alfabeto. Por ejemplo, en el universo constituida por

los trabajadores administrativos de la universidad Nacional de Piura, algunas

variables estadísticas definidas en ésta población son:

X: "Género". Valores: Masculino, Femenino

Y: "estado civil". Valores: Soltero, casado, viudo, divorciado

Z: "número de hijos", Valores: 0,1, 2, etc.

W: "ingresos mensuales", Valores: Números reales positivos.

Figura 2.3. Variable estadística

Si una variable se denota por X, entonces, sus valores observados en n unidades

estadísticas se denotan por n

xxx ,...,,21

, conforme al orden en que se han obtenido.

Este conjunto de n observaciones constituye una muestra de tamaño n obtenida de

una población.

1.5. Escalas o Niveles de medición

La asignación de valores a cada una de las unidades estadísticas mediante una

variable, se hace siguiendo determinadas escalas de medición.

Definición. Se denomina escala de medición a un instrumento de medida, con el que

se asigna valores (cualidades o números) a las unidades estadísticas para una variable

definida.

El conocimiento de las escalas de medición es muy importante, pues cada una de

ellas tiene métodos estadísticos específicos. Podemos distinguir las siguientes escalas

de medición: Nominal, Ordinal, De intervalos, y De razón.

Escala nominal

Definición: Se tiene una escala de medida nominal si dos o más valores de una

variable, sólo permiten percibir las diferencias o semejanzas de las unidades

estadísticas que se midan. Tales valores son como etiquetas que identifican a las

unidades estadísticas y las hacen iguales o diferentes entre si.

Si se asignan números a estos valores cualitativos (modalidades o categorías), sólo

sirven única y exclusivamente para identificar la modalidad y con estos no se pueden

realizar operaciones aritméticas. Sólo son válidas las relaciones de igualdad () y no

igualdad ().

Otro ejemplo, la variable "sexo" asigna a las personas dos valores: "masculino" y

"femenino" que son de escala nominal. Con los valores de esta variable las personas

están en una misma modalidad o en modalidades diferentes. Si se asigna un

"cero" al sexo "masculino" y un "uno" al sexo femenino, con estos números, no se

pueden realizar operaciones aritméticas. Sólo se puede decir que el símbolo 0 es

distinto al símbolo 1, pero no podemos decir que 1 es mayor que 0, o que 0 es menor

que 1. Las variables estadísticas: "estado civil", "ideas religiosas", “especialidades

que funcionan en la facultad de ciencias de la UNP”, entre otras, tienen

modalidades que son de escala nominal.

El método estadístico con datos obtenidos en escala nominal consiste básicamente en

obtener el número o porcentaje de casos en cada modalidad y obtener la moda (valor

de mayor frecuencia)

Escala ordinal

Definición: Una escala ordinal es una escala nominal donde los valores de la

variable se pueden ordenar en forma ascendente (o descendente).

En una escala ordinal los valores o modalidades reflejan el orden existente de las

unidades estadísticas. Si se asignan números a tales modalidades, con estos, no se

pueden realizar operaciones aritméticas. Sólo son válidas las relaciones de igualdad

(), de no igualdad () y de orden ().

Por ejemplo, la variable "estatus socioeconómico" con sus modalidades: clase baja,

media y alta se mide, en escala ordinal. La variable "orden de mérito" cuyas

modalidades son 1, 2, 3, etc. mide las calificaciones de las unidades estadísticas

en escala ordinal. Al asignar un número a los pacientes de una consulta médica,

según el orden de llegada, estamos llevando una escala ordinal, es decir que al

primero en llegar le asignamos el Nº 1, al siguiente el Nº 2 y así sucesivamente.

El método estadístico con datos obtenidos en escala ordinal consiste básicamente en

obtener el número o porcentaje de casos en cada modalidad y obtener la moda, la

mediana, los percentiles y el coeficiente de correlación por rangos.

Escala de intervalos

Definición: Una escala de intervalos es una escala ordinal con cuyos "valores" no

sólo se pueden verificar igualdad, no igualdad y orden, si no también, se puede elegir

una unidad de escala y comprobar cuántas veces la diferencia entre dos valores es

igual a la diferencia entre otros dos valores de la escala (es decir, podemos

comparar intervalos).

Esto es, si 321

y , xxx son tres valores en la escala de intervalo, se verifica, por

ejemplo, la relación:

)(1213

xxcxx o cxx

xx

12

13

donde c es una constante.

Escala de razón o cociente

Definición. La escala de razón es una escala de intervalo con cuyos valores además

podemos comprobar cuántas veces un valor de la escala es igual a otro valor de la

escala. Esto es, si 1

x y 2

x son dos valores en la escala de razón, se verifica la

relación:

12cxx o c

x

x

1

2 ,

donde c es una constante, y 01x .

La escala de razón tiene un cero absoluto (ausencia total de la característica que se

observa). Con los números de esta escala son válidas las relaciones de igualdad, de

no igualdad, de orden y todas las operaciones matemáticas. Los valores de esta escala

se obtienen en general, por mediciones tipo conteo (discretos) o por mediciones tales

como de longitud, peso, volumen, vida útil, etc. (continuos).

Por ejemplo, si la variable X, es la longitud (en metros) de un objeto, entonces, los

valores de esta variable son de escala de razón. En efecto, si tres objetos A, B, y C

miden 2, 4 y 16 metros, se pueden establecer las relaciones: 2 4 16, 2 4 16,

1627(42), además, 4/2 = 2, 16/2 = 8, y 16/4 = 4. Es decir, la longitud de B es el

doble que la de A, el de C es 8 veces que la de A y el de C es 4 veces que la de B.

Otro ejemplo: En una encuesta realizada en un barrio de esta localidad se observó

que hay familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble

de hijos que aquellas que tienen 3 hijos.

Propiedad: Una escala de razón x permanece invariante ante la transformación:

y ax

donde a es una constante arbitraria.

Por ejemplo, si la variable X: tiene valores 4 y 16 medidos en escala de razón,

entonces, la transformación (1/2)XY que produce los valores respectivos 2 y 8 es

la misma escala de razón. Es decir, estos dos juegos de valores 4, 16 y 2, 8, miden

la misma característica y verifican las mismas relaciones, en particular:

2

84

4

16

NOTA. La aplicación de métodos estadísticos cuantitativos requiere que la variable

se mida por lo menos en escala de intervalos.

Ejemplo: Las notas de un cierto curso se miden en una escala de intervalos de 0 a

20. Por razones prácticas se trata de expresar estas notas en la misma escala de

intervalos pero de tal manera que el 20 se transforme en 100 y el 15 se transforme en

80, ¿en cuánto debe transformarse el 0?

Solución

Sea el valor que corresponde al 0.Entonces, si 0, 15, 20 y , 80, 100 son dos juegos

de valores en la misma escala de intervalos, entonces,

2015

150

10080

80 ?

, de donde resulta .20?

1.6. Clasificación de variables.

Las variables se clasifican en dos grupos de acuerdo al nivel de medición utilizado

para su observación: clases cualitativas y cuantitativas.

Variable cualitativa o atributo, es la característica cuyos valores se expresan en

escala nominal u ordinal, por ejemplo, sexo, profesión, estado civil, orden de

méritos, etc.. Con sus valores, que son cualidades, no se pueden realizar operaciones

aritméticas.

Variable cuantitativa, es la característica cuyos valores se expresan en escalas de

intervalo o de razón, por ejemplo, temperatura, número de hijos, edad, ingresos

mensuales, tiempo de vida útil, etc.. Con sus valores, que son números, se pueden

realizar operaciones aritméticas.

Las variables cuantitativas, a su vez, se clasifican en: discretas, y continuas.

Variable cuantitativa discreta, es aquella variable cuantitativa que puede tomar

sólo un determinado número de valores y no admite ningún valor entre dos valores

consecutivos fijos. Generalmente, es una variable cuyos valores se obtienen por

conteo (números naturales). Por ejemplo, una familia puede tener 0, 1, 2,...hijos, pero

no algún valor intermedio.

Otro ejemplo, el número de estudiantes de una clase es una variable discreta ya que

solo tomará los valores 1, 2, 3, 4... Nótese que no encontramos valor como 1.5

estudiantes

Variable cuantitativa continua, es aquella variable cuantitativa que puede tomar

cualquier valor dentro de dos valores consecutivos. Por ejemplo, el salario, el peso, el

tiempo empleado para realizar un trabajo, la estatura, volumen, longitud, etc..

No obstante en muchos casos el tratamiento estadístico hace que las variables

discretas las trabajemos como si fuesen continuas y viceversa.

Una variable continua puede pues tomar infinitos valores intermedios en un intervalo

dado. Para fines prácticos los valores numéricos de las variables continuas siempre

son valores aproximados.

Ejercicio. Clasifique las variables e indique el tipo de escala en que están medidas

las siguientes características:

- Profesión - Año de nacimiento

- Nacionalidad - Edad

- Grado de instrucción - Estado civil

- Número de hermanos - Ingreso mensual familiar

- Número de teléfono - Documento único de identidad

- Dirección

1.7. Datos Estadísticos.

Los datos estadísticos no son otra cosa que el producto de las observaciones

efectuadas en las personas y objetos en los cuales se produce el fenómeno que

queremos estudiar. Dicho en otras palabras, son los antecedentes (en cifras)

necesarios para llegar al conocimiento de un hecho o para reducir las consecuencias

de este.

Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy

difícil en general, obtener conclusiones de los datos presentados de esta manera. Para

poder obtener una precisa y rápida información con propósitos de descripción o

análisis, estos deben organizarse de una manera sistemática; es decir, se requiere que

los datos sean clasificados. Esta clasificación u organización puede muy bien hacerse

antes de la recopilación de los datos.

Ejemplo 2.29. Si se quiere conocer las características de los estudiantes de la

Universidad Nacional de Piura, que solicitan préstamo a la biblioteca central de

dicha Universidad. La recolección de la información debe clasificar a cada

estudiante sobre la base de: Especialidad que estudia, edad, semestre de estudios, etc.

Vemos pues que la clasificación marca la pauta de la clase de datos que debe ser

obtenido.

1.8. Clasificación de los datos

Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos,

cronológicos y geográficos.

Datos Cualitativos: cuando los datos son cualitativos, la diferencia entre

ellos es de clase y no de cantidad.

Ejemplo: Si deseamos clasificar los estudiantes que cursan la asignatura de

Estadística Empresarial en la maestría de Administración por su estado civil,

observamos que pueden existir solteros, casados, divorciados, viudos.

Datos cuantitativos: cuando los valores de los datos representan diferentes

magnitudes, decimos que son datos cuantitativos.

Ejemplo: Se clasifican los estudiantes de la facultad de Ciencias de la UNP de

acuerdo a sus notas, observamos que los valores (nota) representan diferentes

magnitudes.

Datos cronológicos: cuando los valores de los datos varían en diferentes

instantes o períodos de tiempo, los datos son reconocidos como cronológicos.

Ejemplo: Al registrar los promedios de notas de los Alumnos del alumnos de la

facultad de Ciencias de la UNP en los diferentes semestres.

Datos geográficos: cuando los datos están referidos a una localidad

geográfica se dicen que son datos geográficos.

Ejemplo: El número de estudiantes de educación superior en las distintas

regiones del país.

1.9. Fuentes de datos Estadísticos:

Los datos estadísticos necesarios para la comprensión de los hechos pueden

obtenerse a través de fuentes primarias y fuentes secundarias.

Fuentes de datos primarias: es la persona o institución que ha recolectado

directamente los datos.

Fuentes secundarias: son las publicaciones y trabajos hechos por personas o

entidades que no han recolectado directamente la información.

Las fuentes primarias más confiables, son las efectuadas por oficinas

gubernamentales encargadas de tal fin.

En la práctica, es aconsejable utilizar fuentes de datos primarias y en última

instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con

este último tipo no debemos pasar por alto que la calidad de las conclusiones

estadísticas depende en grado sumo de la exactitud de los datos que se recaben.

De nada serviría usar técnicas estadísticas precisas y refinadas para llegar a

conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o

confiables.

Cuando un investigador quiere obtener datos estadísticos relativo a un estudio

que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una

secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en

último término podrá deberse bien a la inexistencia de los datos o bien a que

estos no se encuentran discriminados en la forma requerida.

Ejemplo: Si un investigador quiere conocer el número de alumnos repitentes en

educación secundaria, clasificados por grado académico, para los últimos diez

años, el investigador puede usar una fuente primaria, tal como la memoria con

que cuenta el Ministerio de Educación cada año.

1.10. Presentación de los datos.

Comprende a resúmenes y consolidaciones de informaciones dispersas que se

efectúan con fines de realizar una presentación ordenada y clasificada de resultados

de modo que se facilite su análisis e interpretación para la toma de decisiones. Las

tablas de información resultan de identificar las necesidades de información por tanto

es necesario que para su elaboración se consideren las características que puedan

cumplir su objetivo final: informar.

La información obtenida no sólo requiere ser organizada y presentada en tablas, sino

que también puede ser representada mediante gráficos estadísticos.

1.11. Distribución de frecuencias

La distribución de frecuencias es un método utilizado para organizar y resumir datos.

Bajo este método los datos que componen una serie se clasificaran en valores o en

intervalos, indicándose el número de veces que se repite.

La distribución de frecuencia nos permite manejar grandes cantidades de

información en espacios pequeños, ya sea a través de tablas o cuadros y por medio de

gráficos que lo complementan.

En el caso de una variable cuantitativa, si se tienen pocos datos, y estos son valores

discretos, entonces conviene presentar una tabla de distribución de frecuencias sin

intervalos; pero si se tiene valores continuos o muchos valores discretos, conviene

presentar una tabla de distribución de frecuencia por intervalos.

Aunque no se pueden fijar normas rígidas, en la presentación de los cuadros o tablas,

sin embargo, es posible dar una estructura general que debe seguir una tabla de

información estadística:

1. Número de tabla. Es un código de identificación que permite citarlo cuantas

veces sea necesario a lo largo de los comentarios de un informe.

2. Título. Corresponde a una descripción resumida de la información estadística

que contiene. En general debería responder a las clásicas preguntas: QUE,

DONDE, COMO y CUANDO.

Qué: ¿Qué información contiene la tabla o cuadro?

Dónde: ¿A dónde corresponde la información tabulada?

Cómo: ¿Cómo está arreglada o clasificada la información?

Cuándo: ¿A qué período de tiempo se refiere la información?

3. Encabezamiento. Es la descripción resumida sobre contenido de las filas y

columnas que contiene la tabla de información.

4. Cuerpo de la tabla. Comprende al contenido numérico de la información de

la tabla.

5. Notas de pié o llamadas. Anote las aclaraciones sobre términos, siglas,

abreviaturas usadas. También precisar las unidades de medida y

equivalencias que se están utilizando para expresar cantidades.

6. Fuente. Se debe anotar el nombre de la institución o de la investigación de

donde se han tomado los datos individuales.

7. Elaboración. Se anotará el nombre de la unidad responsable de la

formulación y presentación del tabulado de información estadística.

8. Fecha. Registre la fecha en que se realizó la tabla para dejar constancia del

evento y poder actualizar de ser pertinente.

Ejemplo. Según información preliminar de la oficina de Admisión del hotel

CONFORT, en el mes de febrero de 2007 el hotel atendió a los turistas extranjeros

siguientes:

Turista Nacionalidad Sexo

1 Argentina (*) Masculino

2 Argentina Masculino

3 Argentina Masculino

4 Argentina Femenino



7 Boliviana Masculino

8 Boliviana Masculino

9 Boliviana Femenino

10 Chilena Masculino

11 Chilena Femenino

(*) El cliente no acreditó su nacionalidad.

Elabore una tabla de resultados que consolide la información dispersa en esta base de

datos construida por la Oficina de Admisión del Hotel CONFORT.

Solución.

NUMERO Tabla Nº 1

TITULO

¿Qué? Número de turistas extranjeros que fueron atendidos.

¿Dónde? en el hotel CONFORT

¿Cómo? según nacionalidad por sexo (1)

¿Cuándo? (Periodo: Febrero 2007)

Nacionalidad

Número de Turistas

Extranjeros

Sexo

Masculino Femenino

Número

(n i )

%

(h i )

Número

(n i )

%

(h i )

Número

(n i )

%

(h i )

Argentina (2) 6 54.5 3 50.0 3 60.0

Boliviana 3 27.3 2 33.3 1 20.0

Chilena 2 18.2 1 16.7 1 20.0

Total General 11 100.0 6 100.0 5 100.0

NOTAS DE PIE (1) Cifras preliminares registradas al 01/ 03 / 2007.

(2) Comprende a ciudadanos con nacionalidad no acreditada

FUENTE Oficina de Admisión del hotel CONFORT

RESPONSABLE Elaborado por: Asesores y Consultores S.A.

FECHA 01/ 03 / 2007

1.12. Distribución de frecuencias sin intervalos:

La distribución de frecuencia sin intervalos o clases es recomendable utilizarse

cuando se tienen pocas observaciones y, por tanto, la variable estadística tome pocos

valores; o también cuando se han hecho muchas observaciones y, sin embargo, la

variable toma muy pocos valores distintos, incidiendo de una manera considerable el

estudio de las repeticiones de cada valor. Estos casos caerán dentro del estudio de

variable discreta.

Cuando se estudia una variable cuantitativa X de la población, el mayor interés es

conocer la distribución de esta variable a través de los posibles valores del mismo.

Suponga que se han recolectado n valores de alguna variable discreta X. El

procedimiento más simple de organizar estos n datos, consiste en ordenar estos

valores numéricos en forma ascendente.

Si algunos valores se repiten, y si al terminar el ordenamiento se obtienen k ( nk )

valores distintos de X, digamos, k

xxx ,...,,21

, con frecuencias absolutas respectivas

knnn ,...,,

21, la distribución de frecuencias de estos n datos se resume en la tabla 2.5

como sigue:

Encabezado

Cuerpo

Tabla 2.5. . Distribución de frecuencias de variable discreta

Valores de la

variable X

Frecuencias

absolutas n i

Frecuencias

relativas h i

Frecuencias

porcentajes p i

x 1

x 2

.

.

x k

n 1

n 2

.

.

n k

h 1

h 2

.

.

h k

p 1

p 2

.

.

p k

Total

k

1i

inn

k

1i

i1h

k

1i

i100p

Ejemplo. Supóngase que ante la pregunta del número de hijos por familia (variable

X) una muestra de 20 hogares, marcó las siguientes respuestas:

2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.

Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1,

2, 3, 4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de

frecuencias de X se da en la tabla 2.6.

Tabla 2.6. Distribución de frecuencias del número de hijos por familia.

Número de

hijos

Xi

Frecuencias

Absolutas

ni

Frecuencias

Relativas

hi

Frecuencias

Porcentajes

hi (%)

0

1

2

3

4

1

4

7

6

2

0.05

0.20

0.35

0.30

0.10

5

20

35

30

10

Total 20 1.00 100

Fuente.- Datos obtenidos de los formularios de la encuesta.

1.13. Distribución de frecuencias por intervalos. La distribución de frecuencia por intervalos o clases se usa cuando se han hecho

muchas observaciones y la variable estadística (continúa) toma muchos valores

distintos o cuando el número de valores distintos de una variable discreta es grande,

con lo que el campo de variabilidad es muy grande.

En este caso, trataremos de agrupar los valores de la variable en intervalos

adecuadamente elegidos para no perder mucha información.

Para esclarecer la construcción de la tabla de frecuencia para datos agrupados en

intervalos de clase, desarrollaremos un ejemplo.

Ejemplo 2.32. La siguiente información corresponde a las medidas de las alturas de

100 alumnos (dados en cm.) tomados en la oficina médica de Bienestar Universitario

de la UNP, durante la última semana de setiembre de 2007.

151 161 166 168 169 170 173 176 179 182 152 162 166 168 169 170

173 176 179 182 154 163 166 168 169 171 174 176 180 183 155 163

167 168 169 171 174 177 180 184 158 163 167 168 169 171 174 177

180 185 159 164 167 168 170 171 175 177 181 186 159 165 167 168

170 172 175 177 181 187 160 165 167 168 170 172 175 178 181 188

189 181 178 175 172 170 169 168 165 161 161 166 168 169 170 173

176 178 161 156

Se pide representar los datos en una tabla de frecuencias.

Solución.

1º. Debemos de determinar el rango ( R ) de variación de los datos que se define por:

R = X max - X min

En nuestro ejemplo, tenemos:

Valor mínimo X min = 151

Valor máximo X máx = 189

Luego el rango es R= 189 - 151= 38

2º. Tenemos que calcular ¿cuantas clases deben formarse?. Para eso se usa la fórmula

de Sturges:

n log 3.3221K

donde:

K = número de clases

n = número de elementos en la muestra (tamaño de la muestra).

Está formula es muy útil porque orienta al principiante. Sin embargo, es un poco

conservador y tiende a dar un número de clases un poco menor del que se utiliza en

la practica.

En nuestro ejemplo: K = ? , n = 100

Aplicando la fórmula tenemos:

7.644 100 log 3.3221K

redondeando al entero inmediato mayor por que, como ya se indico, la formula es un

poco conservadora, obtenemos:

K = 8.

Nota.- por razones extraídas de la práctica, se adoptan los siguientes límites para K.

15 K 5

3º. La idea es resumir los valores con el fin de percibir algunas características o

propiedades de los datos que no aparecen a simple vista. Para esto vamos a clasificar

los 100 alumnos en 8 clases, de acuerdo con la formula de Sturges.

La amplitud de cada intervalo de clase que representamos con la letra c, se obtiene

por medio de la formula:

K

Rc

Aplicando los datos a la fórmula anterior, se tiene:

75.48

38c

Redondeamos a 5.

Luego c = 5 y por tanto, el nuevo recorrido será:

0485KcR

4º. Teniendo en cuenta que este recorrido es mayor que el recorrido original,

buscaremos el exceso:

Exceso = 40 - 38= 2 cm.

Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada

lado, en este caso 1 a cada extremo.

Sumamos el número 1 al valor máximo: 189 + 1 = 190 y restamos el número 1 al

valor mínimo: 151 - 1 = 150.

A partir de este valor 150 agregamos sucesivamente la amplitud 5 y obtenemos los

puntos de división que determinan los 8 intervalos (ver figura 1.2).

150 155 160 165 170 175 180 185 190

Figura 2.4

Sin embargo una dificultad se presenta cuando algunos de los datos coincide con

cualquiera de los puntos de división: 150, 155, 160, 165, 170, 175, 180, 185 y 190.

5º. Supongamos que un dato es 155 ¿donde lo colocamos?- ¿en el primer intervalo

cuyos extremos son 150 y 155?- (ver Fig. 2.1) ó ¿en el segundo intervalo que tiene

por extremos 155 y 160?-

Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que no

incluye al valor 150 (límite inferior del intervalo) y cerrado por la derecha que

incluye al valor 155 (límite superior del intervalo). Este tipo de intervalo se

representa matemáticamente por: i1i

Y Y (

, donde 1i

Y representa el límite inferior

del intervalo y i

Y representa el límite superior.

Así, en nuestro ejemplo el primer intervalo lo escribiremos como 155 150 ( .

Por tanto los intervalos de clase quedan definidos como:

Intervalo

de clases

(150 - 155]

(155 - 160]

(160 - 165]

(165 - 170]

(170 - 175]

(170 - 180]

(180 - 185]

(185 - 190]

Nota.- También existen otros dos tipos de intervalos de clases, definidas como:

) Y Y (1i i

Intervalo abierto. Los límites son abiertos e indican que la clase

contiene valores superiores al límite inferior y valores inferiores al límite superior.

) Y Y [1i i

Intervalo semi-cerrado. Este intervalo es cerrado por la izquierda

(incluye al límite inferior del intervalo) y abierto por la derecha (no incluye al límite

superior del intervalo).

Y Y 1i

Intervalo cerrado. Este intervalo incluye a ambos límites del intervalo.

6º. Es conveniente que todos y cada uno de los datos que se hallen dentro de un

mismo intervalo, estén representados por un mismo valor. Este valor caracteriza a la

clase y por eso se llama marca de clase, se obtiene promediando los límites de cada

intervalo. Una formula para calcular la marca de clase o punto medio de un intervalo

es:

2

YYY

i1 i

i

7º. A continuación debemos realizar la clasificación y conteo de los datos (ver tabla

1.2), es decir, colocar cada uno de ellos dentro de su clase, todos representados por

un mismo signo: una tarja.

Tabla 2.7.

Intervalo de clase

i1i

Y Y (

Marca de clase

Yi

Conteo Frecuencia

ni

150 - 155 152.5

155 - 160 157.5

160 - 165 162.5

165 - 170 167.5

170 - 175 172.5

175 - 180 177.5

180 - 185 182.5

185 - 190 182.5

A continuación presentamos la tabla 2.8, conocida como tabla de distribución de

frecuencias absolutas.

Tabla. Distribución de frecuencias de 100 alumnos de la Universidad Nacional de

Piura, según su estatura (en cm.). Oficina de Bienestar Universitario.

Setiembre de 2007.

Intervalo de clase

i1i

Y Y (

Marca de clase

Yi

Frecuencia

ni

Frecuencia

relativa

Frecuencia

acumulada

Frecuencia

acumulada

150 - 155 152.5 4 0.04 4 0.04

155 - 160 157.5 5 0.05 9 0.09

160 - 165 162.5 12 0.12 21 0.21

165 - 170 167.5 33 0.33 54 0.54

170 - 175 172.5 17 0.17 71 0.71

175 - 180 177.5 16 0.16 87 0.87

180 - 185 182.5 9 0.09 96 0.96

185 - 190 187.5 4 0.04 100 1.00

Total 100 1.00

Fuente.- Registro de la atención medica de la Oficina de Bienestar Universitario de

la UNP. 24 de setiembre de 2007.

1. Frecuencia absoluta: (ni )

Llamaremos frecuencia absoluta de un valor xi de la variable estadística X, al

número de veces aparece repetido dicho valor en el conjunto de las observaciones

realizadas.

Propiedad.

k

1i

ik21nnn ···· n n

2. Frecuencia absoluta acumulada: (Ni )

La frecuencia absoluta de un valor xi de la variable X es igual a la suma de los

valores inferiores o iguales a dicho valor evidentemente. Así, la frecuencia

absoluta acumulada del ultimo valor será n (donde n = número de observaciones

realizadas).

i

1j

ji21inn ··· nn N

Propiedad.

i1iinNN

, de donde

1i1iNNn

3. Frecuencia relativa: (hi )

Llamaremos frecuencia relativa de un valor observado xi de la variable X, al

cociente entre su frecuencia absoluta y el número de observaciones realizadas

(n), y se denota por:

n

nh

i

i , 1 h 0

i , .k. ..., 2, 1,i

Propiedad.

k

1i

ik211hh ···· h h

4. Frecuencia relativa acumulada: (Hi )

Se llama frecuencia relativa acumulada de un valor xi de la variable X, al

cociente entre su frecuencia absoluta acumulada y el número de observaciones

realizadas (n), y se denota por:

i

1j

j

i

1j

j

i

1j

j

i

ih

n

n

n

n

n

N H

Propiedad. i1ii

hHH

Interpretación.

n2 = 5, significa que 5 alumnos tienen una estatura mayor de 155 cm. y menor o igual

a 160 cm.

N4 = 54, significa que 54 alumnos tienen una estatura mayor que 150 cm. y menor o

igual que 170 cm., o también significa que 54 alumnos tienen una estatura menor o

igual a que 170 cm.

h3 = 0.12, significa que el 12% de los alumnos tienen una estatura mayor de 160 cm.

y menor o igual a 165 cm.

H6 = 0.87, significa que el 87% de los alumnos tienen una estatura mayor que 150

cm. y menor o igual que 180 cm., o también significa que 87% de los alumnos tienen

una estatura menor o igual a que 180 cm.

N6 - N2 = 87 - 9 = 78 alumnos tienen una estatura mayor que 160 cm. Y menor o

igual que 180 cm.

Observación 1.

1. Cuando el tamaño de la muestra n < 25, el número de intervalos de clases a

considerar debe ser K=5; y nK , si n > 25.

2. Los limites reales de clase, se calculan dependiendo de si los límites de los

intervalos son abiertos o cerrados.

3. Si los intervalos son cerrados o abiertos en ambos límites, la marca de clase se

calcula como el promedio de los límites superior e inferior de cada intervalo. Si los

límites de clases son diferentes (inferior cerrado y superior abierto, o viceversa) la

marca de clase se obtiene promediando el límite inferior (o superior) con el mismo

limite que lo precede.

1.14. Distribución de frecuencias: Variable cualitativa

Supongamos que en una muestra de n unidades estadísticas se observan k categorías

o modalidades diferentes C1, C2,..., Ck, de alguna variable cualitativa X. Para

ilustrar la tabulación de la distribución de frecuencias por categorías, consideremos

el siguiente ejemplo.

Ejemplo. En una encuesta de opinión acerca de las preferencias de una marca de

bebidas gaseosas por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores

dieron las siguientes respuestas:

B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.

Construir la distribución de frecuencias.

Solución.

La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida

gaseosa, es la distribución de frecuencias de la tabla 2.9.

Tabla. Distribución de personas por su color preferido de la bebida gaseosa.

Color de

Bebida

Número de

Consumidores: ni

Frecuencias

relativas: hi

Frecuencias

Porcentajes: hi(%)

Blanco (B)

Negro (N)

Rojo (R)

8

9

3

0.40

0.45

0.15

40

45

15

Total 20 1.00 100 Fuente.- Datos obtenidos de la encuesta realizada.

1.15. Representación gráfica de las distribuciones de frecuencias.

La presentación de datos a través de tablas estadísticas es una actividad importante

dentro de los sistemas de información general, estas se fortalecen significativamente

cuando se la acompañan con gráficos descriptivos e ilustrativos. En el contexto de

los sistemas de información, en más de una oportunidad se encontrará que un buen

gráfico resume y expresa mucho más que párrafos completos de comentarios e

interpretaciones literales.

En general la representación gráfica de una tabla de frecuencias permite percibir con

mayor claridad algunas características de la masa de datos que se investiga. Por ello,

a través de gráficos, resulta bastante más fácil transmitir conclusiones a personas no

habituadas a la interpretación de tablas de frecuencias.

Gráfico de la distribución sin intervalos.

La representación gráfica más común para este tipo distribución de frecuencias es el

diagrama de barras que consiste en trazar en cada valor distinto de la variable,

segmentos de líneas proporcionales a su frecuencia.

Número de hijos por familia

Número de hijos

43210

Nú

me

ro d

e f

am

ilia

s

8

6

4

2

0

Figura 2.5. Diagrama de barras para los datos de la tabla 2.9.

Gráfico de la distribución por intervalos.

Los gráficos más usadas son: Histograma, Polígono de frecuencias y polígono de

frecuencias acumuladas u ojiva.

a) Histograma.

Es una representación gráfica de una distribución de frecuencias agrupadas en

intervalos de clase, mediante una serie de rectángulos contiguos que tienen:

Estatura de los alumnos de la UNP

Estatura en cm.

Núm

ero

de a

lum

nos

150 155 160 165 170 175 180 185 190

0

10

20

30

40

Figura 2.6. Histograma de frecuencias del alumnos según su estatura, ver tabla 2.8.

b) Polígono de frecuencias. Cuando la variable está agrupada en intervalo de clase, el polígono de frecuencia

se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo

en el histograma.


Estatura en cm.

Núm

ero

de a

lum

nos

147.5 152.5 157.5 162.5 167.5 172.5 177.5 182.5 187.5 192.5

0

10

20

30

40

Figura 2.7. Polígono de frecuencias de la estatura de los alumnos de la tabla 2.8.

c) Polígono de frecuencias acumuladas u ojivas.

Está representación es válida para variables estadísticas agrupadas en intervalos

de clase. En el eje de las abscisas representamos los distintos intervalos de clase

que han de estar naturalmente traslapados. En el extremo superior de cada

intervalo se levanta una vertical con altura igual a la frecuencia (absoluta o

relativa) acumulada, luego se unen los extremos superiores de las verticales con

segmentos rectilíneos. Así el polígono de frecuencias acumuladas absolutas

alcanzará su máxima altura en el último intervalo.


Estatura en cm.

Núm

ero

de a

lum

nos

150 155 160 165 170 175 180 185 190

0

20

40

60

80

100

Figura 2.8. Polígono de frecuencias acumuladas “Menor o igual que” para la estatura

de los alumnos de la tabla 2.8.

Gráfico para la distribución de frecuencia de variable cualitativa. Los gráficos más comunes para la distribución de frecuencias de variable cualitativa

son el de diagrama de rectángulos y el de sectores circulares.

En un Diagrama de rectángulos los datos de cada una de las modalidades

(caracteres cualitativos) se representa por un rectángulo vertical (u horizontal), cuya

altura (o largo) es proporcional a su frecuencia (absoluta o relativa). Los rectángulos

se dibujan dejando un espacio entre ellos.

Ejemplo 2.36. Abriendo la ventana Descripción, escogiendo Datos cualitativos

Tabulación y finalmente en el icono Opciones gráficas seleccionar Diagrama de

barras para obtener el diagrama de rectángulos para los datos de la tabla 2.9.

Diagrama de rectangulos para las bebidas gaseosas de acuerdo a su color.

Color de las bebidas gaseosas

Nú

me

ro d

e p

ers

on

as

0

2

4

6

8

10

Blanco Negro Rojo

Figura 2.9. Diagrama de rectángulos para los datos de la tabla 2.9.

En un gráfico circular, los datos de cada categoría se representan por un sector

circular. Es utilizado principalmente cuando se pretende comparar cada valor de la

variable con el total. Para construir se divide el circulo en sectores, cuyas áreas serán

proporcionales a los valores de la variable. Está división es obtenida a través de la

regla de 3 simples.

Total 360o

Parte xo

Ejemplo 2.37. Construir el diagrama de sectores para la información contenida en la

tabla 2.9. Abriendo la ventana descripción, escogiendo Datos cualitativos

Tabulación y finalmente en el icono Opciones gráficas seleccionar Diagrama de

sectores.

Tabla auxiliar.

Color de

Bebida

Número de

Consumidores: ni

Frecuencias

relativas: hi

Frecuencias

Porcentajes: hi(%)

Sector circular:

en grado

Blanco (B)

Negro (N)

Rojo (R)

8

9

3

0.40

0.45

0.15

40

45

15

144.0

162.0

54.0

Total 20 1.00 100 360.0

Diagrama de Sectores de para las gaseosas, según su color de preferencia.

Color de preferencias

Blanco

Negro

Rojo

40.00%

45.00%

15.00%

Figura 3.10. Diagrama de sectores circulares para los datos de la tabla 2.9.

Observación 2. (Intervalos de clases de tamaños desiguales). Es muy común el

uso de intervalos de clases con tamaños desiguales en el agrupamiento de los datos

en tablas de frecuencias. En estos casos se deberá tomar algunos cuidados especiales

en cuanto al análisis y construcción del histograma.

Un primer cuidado es construir una columna que indique las amplitudes c i de

cada clase.

Un segundo paso es la construcción de la columna de las densidades de

frecuencias en cada clase, que es obtenido dividiendo las frecuencias relativas

h i por las amplitudes c i. Esto es, una medida que indique cuál es la

concentración por unidad de variable.