Estadística básica Apuntes

90

Click here to load reader

description

Apuntes basicos

Transcript of Estadística básica Apuntes

Page 1: Estadística básica Apuntes

Jesús Reynaga Obregón

El Método Estadístico El método estadístico consiste en una secuencia de procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. Dicho manejo de datos tiene por propósito la comprobación, en una parte de la realidad, de una o varias consecuencias verificables deducidas de la hipótesis general de la investigación. Las características que adoptan los procedimientos propios del método estadístico dependen del diseño de investigación seleccionado para la comprobación de la consecuencia verificable en cuestión. El método estadístico tiene las siguientes etapas:

1. Recolección (medición) 2. Recuento (cómputo) 3. Presentación 4. Síntesis 5. Análisis

Tales etapas siempre se encuentran en el orden descrito y cada una de ellas consiste, de manera resumida, en lo siguiente: 1. Recolección (medición)

En esta etapa se recoge la información cualitativa y cuantitativa señalada en el diseño de la investigación. En vista de que los datos recogidos suelen tener diferentes magnitudes o intensidades en cada elemento observado (por ejemplo el peso o la talla de un grupo de personas), a dicha información o datos también se les conoce como variables. Por lo anterior, puede decirse que esta etapa del método estadístico consiste en la medición de las variables. La recolección o medición puede realizarse de diferentes maneras; a veces ocurre por simple observación y en otras ocasiones se requiere de complejos procedimientos de medición; en algunas ocasiones basta con una sola medición y en otras se requiere una serie de ellas a lo largo de amplios períodos de tiempo. La calidad técnica de esta etapa es fundamental ya que de ella depende que se disponga de datos exactos y confiables en los cuales se fundamenten las conclusiones de toda la investigación. Es tan grande la importancia de esta etapa que algunas clasificaciones de las investigaciones se basan en la forma en que ocurre la medición; por ejemplo si la información es recogida en una sola ocasión suele decirse que la investigación es transversal; en cambio, si la información es recogida a lo largo del tiempo se denomina longitudinal a la investigación.

En ocasiones, la recolección de la información debe ocurrir en grupos tan grandes de individuos que se hace impráctico tratar de abarcar a todos ellos; entonces es cuando se ponen en práctica procedimientos de muestreo. Tales procedimientos de muestreo están

17

Page 2: Estadística básica Apuntes

Jesús Reynaga Obregón

subordinados a la consecuencia verificable que se desea comprobar y al diseño de investigación seleccionado.

2. Recuento (cómputo)

En esta etapa del método estadístico la información recogida es sometida a revisión, clasificación y cómputo numérico. A veces el recuento puede realizarse de manera muy simple, por ejemplo con rayas o palotes; en otras ocasiones se requiere el empleo de tarjetas con los datos y, en investigaciones con mucha información y muchos casos, puede requerirse el empleo de computadoras y programas especiales para el manejo de bases de datos. En términos generales puede decirse que el recuento consiste en la cuantificación de la frecuencia conque aparecen las diversas características medidas en los elementos en estudio; por ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o el número de niños con peso menor a 3 kilos y el número de niños con peso igual o mayor a dicha cifra.

3. Presentación

En esta etapa del método estadístico se elaboran los cuadros y los gráficos que permiten una inspección precisa y rápida de los datos. La elaboración de cuadros, que también suelen llamarse tablas, tiene por propósito acomodar los datos de manera que se pueda efectuar una revisión numérica precisa de los mismos. La elaboración de gráficos tiene por propósito facilitar la inspección visual rápida de la información. Casi siempre a cada cuadro con datos le puede corresponder una gráfica pertinente que represente la misma información. Presentar la misma información tanto en un cuadro como en su correspondiente gráfico permite obtener una clara idea de la distribución de las frecuencias de las características estudiadas.

4. Síntesis

En esta etapa la información es resumida en forma de medidas que permiten expresar de manera sintética las principales propiedades numéricas de grandes series o agrupamientos de datos. La condensación de la información, en forma de medidas llamadas de resumen, tiene por propósito facilitar la comprensión global de las características fundamentales de los agrupamientos de datos. Tales medidas de resumen, al ser comunicadas, permiten a los interlocutores evocar de una misma manera la esencia de los datos; por ejemplo, cuando alguien informa que el promedio de calificaciones de un grupo de alumnos es 9.6, en una escala que va del 0 al 10, la imagen que se transmite es la de un grupo con buen aprovechamiento escolar; igualmente, cuando se dice que el porcentaje de defunciones con una cierta técnica quirúrgica es de 80%, las personas que escuchan se imaginan que se trata de un procedimiento peligroso.

18

Page 3: Estadística básica Apuntes

Jesús Reynaga Obregón

La información cualitativa, como el sexo, la ocupación o los tipos de enfermedades, requiere ser condensada a través de medidas de resumen diferentes a la que se usan para sintetizar la información cuantitativa o numérica como el peso, la talla o la concentración de glucosa. Entre las principales medidas de resumen para sintetizar a los datos cualitativos se encuentran las razones, las proporciones y las tasas. Entre las principales medidas para sintetizar los datos cuantitativos se encuentra la moda y la amplitud, la mediana y los percentiles y el promedio y la desviación estándar.

5. Análisis

En esta etapa, mediante fórmulas estadísticas apropiadas y el uso de tablas específicamente diseñadas, se efectúa la comparación de las medidas de resumen previamente calculadas; por ejemplo, si antes se han calculado los promedios de peso de dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos consiste en la comparación de ambos promedios con el propósito de decidir si parece haber diferencias significativas entre tales promedios. Existen procedimientos bien establecidos para la comparación de las medidas de resumen que se hayan calculado en la etapa de descripción. Tales procedimientos, conocidos como pruebas de análisis estadístico cuentan con sus fórmulas y procedimientos propios. Cada prueba de análisis estadístico debe utilizarse siempre en función del tipo de diseño de investigación que se haya seleccionado para la comprobación de cada consecuencia verificable deducida a partir de la hipótesis general de investigación.

En los primeros párrafos se mencionó que el método estadístico es una secuencia ordenada de procedimientos para el manejo de los datos en las investigaciones. Luego de haber revisado las características y propósitos de las diversas etapas del método, parece quedar claro que tal secuencia guarda siempre el orden descrito. Es lógico efectuar el recuento de la información ( 2a. etapa, Recuento) solo hasta que previamente fue recogida ( 1a. etapa, Recolección o Medición). Antes de condensar la información en la etapa de síntesis ( 4a. etapa) siempre conviene haberla comprendido a través de la elaboración de cuadros y gráficos ( 3a. etapa Presentación). Desde luego es impensable efectuar análisis estadístico ( 5a. etapa, Análisis) para comparar medidas de resumen si antes estas no han sido calculadas ( 4a. etapa, Síntesis) Por lo anterior, puede considerarse a la estadística como una disciplina que posee su propio método. Tal disciplina emplea conocimientos de otras ciencias como la lógica y la matemática y por ello se dice que la estadística es una forma razonable de emplear el sentido común y la aritmética para el manejo de los datos en las investigaciones.

19

Page 4: Estadística básica Apuntes

Jesús Reynaga Obregón

En la siguiente ilustración se esquematiza la relación que existe entre la estadística y las etapas de la investigación científica:

Problema HipótesisConocimiento Conocimiento

Deducción de consecuencias

verificables

Diseño de investigación

Método Estadístico 2. Recolección 3. Recuento 4. Presentación 5. Síntesis 6. Análisis

Realidad

20

Page 5: Estadística básica Apuntes

Jesús Reynaga Obregón

Problema La mortalidad de los médicos por cáncer pulmonar

en relación con el hábito de fumar A manera de recordatorio, en el siguiente esquema, con los números 1. al 5. se muestran las etapas del Método Estadístico :

Problema HipótesisConocimiento Conocimiento

Deducción de consecuencias

verificables

Diseño de investigación

Método Estadístico 1. Recolección 2. Recuento 3. Presentación 4. Síntesis 5. Análisis

Realidad

Con el mismo sistema de enumeración empleado en el esquema anterior, identifique las etapas del Método Estadístico que se encuentren presentes en el siguiente relato y anote las letras correspondientes en los recuadros de los párrafos (algunos recuadros pueden quedar vacios):

Al revisar las estadísticas de enfermedades y defunciones por enfermedades pulmonares se encontró que casi todos los casos de enfisema pulmonar y varios de cáncer pulmonar tenían en muchas ocasiones el antecedente de tabaquismo crónico.

Sin saber el por qué de tal relación, en un estudio de numerosos casos de cáncer pulmonar se observó que alrededor del 70% de los enfermos eran antiguos fumadores.

Esto hizo pensar que el consumo de tabaco pudiera ser un factor favorecedor o causal del cáncer pulmonar.

Si lo anterior fuera cierto, podría inferirse lo siguiente: a) Un grupo de fumadores de determinada edad, sexo y nivel socioeconómico presentaría un número mayor de muertes por cáncer pulmonar que un grupo de no fumadores de edad, sexo y nivel socioeconómico similares y b) La frecuencia de cáncer pulmonar sería mayor al aumentar el número de cigarrillos consumidos.

Luego de discutir si convenía formar un grupo de médicos fumadores y seguirlo a lo largo de varios años o formar un grupo de médicos fumadores y uno de no fumadores, se resolvió hacer la investigación enviando un cuestionario a un único pero numeroso grupo de médicos del Reino Unido.

21

Page 6: Estadística básica Apuntes

Jesús Reynaga Obregón

de referencia. Dicho cuestionario fue puesto a prueba para comprobar que medía con precisión las diversas variables en estudio. Se establecieron además conexiones con el Registro de Defunciones para asegurar la información sobre la mortalidad por cáncer pulmonar que fuera ocurriendo en los médicos a quienes se incluyen el estudio.

De ellos, se solicitaron datos individuales sobre, edad y hábitos de fumar por medio del cuestionario

ó

Aunque el número de datos preguntados a cada médico era pequeño, la cantidad de o de

Los datos se mostraron solamente en forma de cuadros o tablas.

El resumen de la información obtenida se expresó en tasas de mortalidad por cada mil médicos.

Las tasas de mortalidad por cada mil médicos fueron comparadas para averiguar si parecían existir

Los resultados mostraron que el riesgo de morir fue 14 veces mayor en fumadores que en no o la

médicos a quienes se envió el cuestionario sumaba varios miles. Por ello tuvo que hacerse uslas que en esa época se consideraban modernas computadoras.

diferencias significativas, desde el punto de vista estadístico entre quienes murieron por cáncer pulmonar según el antecedente de si fumaban o no.

fumadores. También se observó que en los fumadores la frecuencia de éstas muertes aumentó cuandcantidad de tabaco que se consumía era mayor.

22

Page 7: Estadística básica Apuntes

Jesús Reynaga Obregón

La recolección como primera etapa del método estadístico Introducción: La primera etapa del método estadístico es la de recolección. El término recolección se refiere a un conjunto de acciones que permiten disponer de la información cuantitativa y cualitativa estrictamente necesaria para comprobar las consecuencias verificables que se hayan deducido de una hipótesis. El conjunto de acciones que permite poseer dicha información está orientado por el tipo de diseño de investigación que se haya seleccionado para comprobar a cada una de las consecuencias verificables. A lo largo de este documento se utilizará como término equivalente de recolección al de medición, ya que lo que realmente se hace al recoger información es una especie de medición de la magnitud, intensidad o tipo de variación que tienen diversas características o atributos. Como ejemplos de recolección de información cuantitativa se pueden mencionar: la medición del peso al nacer de un grupo de niños, la medición de la duración de las consultas médicas otorgadas por un grupo de médicos, la medición de la cantidad de glucosa sanguínea de un grupo de enfermos de diabetes, etc. Como ejemplos de recolección de información cualitativa se pueden mencionar: la medición del grado de aceptación del embarazo en un grupo de adolescentes, la medición de la agilidad de un grupo de atletas, la medición del color de los ojos de un grupo de personas, etc. Componentes de la recolección:

1. El observador o responsable de la medición En el caso de la investigación científica, el observador o responsable de la medición usualmente es el mismo investigador. En ocasiones, cuando la investigación es realizada por un grupo de investigadores, suele designarse a alguno de los integrantes como encargado de efectuar la medición de las características o atributos que servirán para comprobar las consecuencias verificables que se hayan deducido de la hipótesis de la investigación. Tanto si es el propio investigador el que realiza la medición como si es alguno de los miembros de un grupo, la observación que realice debe buscar mediciones válidas y confiables. La impreparación del observador o su falta de cuidado puede provocar que las mediciones efectuadas no proporcionen información útil para el proceso de investigación. Muchas de las investigaciones requieren que el observador tenga una alta preparación en técnicas de medición específicas para determinado tipo de investigaciones; por ejemplo, la medición de actitudes requiere de una preparación que tal vez incluya estudios especializados en el campo de la psicología, la medición de alteraciones anatómicas puede requerir de preparación especializada en técnicas radiológicas modernas o la medición de características microscópicas puede requerir de entrenamiento en técnicas de microscopía electrónica.

23

Page 8: Estadística básica Apuntes

Jesús Reynaga Obregón

2. Las características medidas o variables Para fines estadísticos las características o atributos a los que se mide su magnitud, intensidad o valor se denominan variables. En algunos casos la característica que se mide admite una valoración cuantitativa de tipo numérico, como la estatura o el número de aciertos en un examen; en otras ocasiones la característica que se mide solo admite valoraciones cualitativas en términos de palabras, como el color de ojos o los oficios a que se dedica un grupo de personas. Tanto si las variables recogidas son de tipo cuantitativo como si son de tipo cualitativo, deben haberse definido a la luz del diseño de investigación y deben servir precisamente para comprobar la consecuencia verificable que originó la selección de dicho diseño.

3. El procedimiento de medición Los procedimientos de medición o recolección son tan variados que su enumeración sería vastísima. Algunos procedimientos consisten en la observación visual y el registro de lo observado; por ejemplo, si se deseara investigar la forma en que un grupo de amas de casa prepara los alimentos en su hogar, una forma sería observarlas y efectuar las anotaciones pertinentes. Otros procedimientos consisten en efectuar preguntas directas; por ejemplo si se deseara averiguar el tiempo que emplean en transportarse a su escuela los estudiantes de alguna licenciatura, una forma podría ser interrogar con precisión a una muestra de dichos estudiantes. En otras ocasiones los procedimientos pueden consistir en pedir que sea contestado un cuestionario, ya sea con preguntas abiertas o con preguntas con opciones. En algunas disciplinas los procedimientos de recolección o medición son efectuados a través de dispositivos y técnicas que proporcionan valores de tipo numérico; por ejemplo, para recoger la magnitud de las estaturas de un grupo de niños puede emplearse desde una cinta métrica hasta un preciso escalímetro. En algunos casos, los procedimientos de medición llegan a adquirir niveles extremados de precisión; por ejemplo, para medir la duración de algunos fenómenos es posible emplear relojes que miden hasta millonésimas de segundo. En otros casos los procedimientos de recolección implican el empleo de sustancias que desencadenan reacciones biológicas o químicas que ponen en evidencia alguna característica o atributo que, al ser medida reflejan su real magnitud o intensidad. Problemas: características de la recolección Problema 1. Un joven pasante de medicina fue contratado por una fábrica constructora de espejos para que estableciera programas integrales de prevención y control de enfermedades y accidentes en el trabajo, pues los propietarios de la empresa estaban preocupados por la abundante cantidad de heridos que ya se habían presentado en el curso de los cinco años que tenia en funcionamiento la fábrica. Aunque su consultorio estaba ubicado en la planta alta de la sección de corte y esmerilado de los espejos y tenía acceso directo a ella a través de un moderno elevador, el joven pasante siempre procuraba llegar a su oficina por una escalera exterior del edificio, pues le causaba molestia el intenso ruido producido por la maquinaria de corte y esmerilado. Con el propósito de averiguar las razones de los numerosos accidentes, el pasante citaba diariamente a dos trabajadores a su consultorio y los interrogaba acerca de su edad, horario de entrada y salida, nivel educativo, sueldo y cursos de entrenamiento en el manejo de vidrio que hubieran tomado. Luego de haber entrevistado a los 189 trabajadores de la fábrica, el pasante propuso a los dueños de la empresa que: a) solo contrataran a trabajadores mayores de 28 años y menores de 45, b)

24

Page 9: Estadística básica Apuntes

Jesús Reynaga Obregón

establecieran dos jornadas de descanso en el curso del día, c) incrementaran los sueldos de los trabajadores, y d) realizaran dos cursos anuales y obligatorios sobre prevención de accidentes. Preguntas: a. ¿Qué entrenamiento, además de los estudios regulares de medicina, debiera tener el responsable de un programa de prevención y control de enfermedades y accidentes en una fábrica de espejos? b. ¿Que procedimiento de recolección de información utilizó el pasante? ¿Debió haber utilizado otro procedimiento? Problema 2. En contra de lo que se suponía, un profesor de primaria pensaba que no era cierto que los escolares aplicados siempre se sientan en las primeras filas de asientos. El opinaba que esos lugares suelen ser ocupados por los niños que no oyen o ven bien. Para comprobar lo anterior, compró una carta de optotipos como las que se usan en las ópticas y un viejo y ruidoso reloj de cuerda y clasificó la visión y audición tanto de los niños de las primeras filas como de los de las últimas. Preguntas: a. ¿Cuáles fueron los instrumentos de medición? ¿El investigador debió haber utilizado otros instrumentos? ¿ Cuáles serían? b. ¿Cuáles son los nombres de las tres características medidas por el investigador en los niños? Problema 3. En nuestro país se realizan censos de población cada 10 años ( el último se realizó apenas en 1990). Tales censos se aplican en la inmensa mayoría de las casas y es raro que existan familias que no recuerden tal evento, pues la cobertura de los censos se ha incrementado década con década. Interrogue a sus familiares acerca de las preguntas que se les hicieron en el último censo y haga una lista de ellas. Una vez que disponga de la lista, califique a cada pregunta según si fue respondida con exactitud o no. En el caso de las preguntas para las que se otorgaron respuestas inexactas señale las posibles razones. Problema 4. Identificándose como estudiante que realiza una práctica escolar acuda a la óptica más cercana a su domicilio y averigüe lo siguiente: • Tipo de preparación del optometrista • Nombre de los instrumentos que emplea • Tipo de registros utilizados para hacer sus anotaciones • Nombre de las unidades en que se registran los resultados de los exámenes de agudeza

visual • Tipo de errores que pueden cometerse en la medición de la agudeza visual atribuibles a:

♦ el optometrista ♦ el paciente ♦ el equipo ♦ el procedimiento de medición ♦ el registro de los resultados de la medición

25

Page 10: Estadística básica Apuntes

Jesús Reynaga Obregón

Variables y sus escalas Identificar y clasificar variables son las primeras habilidades que se deben dominar para que después se puedan seleccionar y aplicar adecuadamente diversos procedimientos estadísticos.

1. Definición En todos los sujetos u objetos que se estudian se pueden medir características diversas; por ejemplo su color, su peso o su longitud. Las características, cualidades o atributos que se estudian en cada elemento pueden adoptar diferentes valores, magnitudes o intensidades; por ejemplo, si se estudia a un grupo de personas y se les mide su estatura se encontrará que unas son más altas o más bajas que otras; si se observa su color de cabello se encontrará que unas lo tienen rubio, otras castaño, otras de color negro y otras de color blanco. Por el hecho de que la estatura adopta diversas magnitudes entre el grupo de personas y que su color del cabello presenta diversos valores, a ambas características se les denomina variables. Es casi inimaginable la cantidad de variables cuyas magnitudes, valores o intensidades se pueden estudiar en un grupo de personas; para mencionar solamente algunas, considérese que al grupo de personas mencionadas también se les podría estudiar otras variables, por ejemplo los diferentes colores que pueden tener sus ojos, su estado civil, su opinión con respecto a la atención que les presta el médico, el número de ocasiones en que acuden a pláticas de orientación nutricional, su concentración de glucosa en sangre o la distancia entre sus pupilas.

En resumen, puede decirse que una variable es toda característica, cualidad o atributo susceptible de ser medida en los sujetos u objetos que se estudian.

2.0 Clasificación de las variables Cuando se mide una variable el resultado de la medición a veces se expresa cualitativamente en términos de palabras o cuantitativamente en términos numéricos. A las variables del primer tipo se les denomina cualitativas y a las del segundo tipo cuantitativas. Las variables cualitativas se clasifican en nominales y ordinales. Son nominales si el resultado de su medición constituye una escala en la que no se aprecia orden o jerarquía entre las diversas modalidades de dicha escala; por ejemplo para la variable estado civil se puede formar la siguiente escala en la que las modalidades no tienen jerarquía una sobre otra: solteros casados, viudos divorciados, en unión libre. Son variables ordinales aquellas en las que las modalidades que integran la escala implican una jerarquía u orden entre ellas; por ejemplo, la variable grado militar es un claro ejemplo del tipo ordinal ya que su escala muestra orden o jerarquía entre sus modalidades: generales, jefes, oficiales, tropa. Las variables cuantitativas se clasifican en discretas y continuas. Las variables cuantitativas son discretas si el resultado de haberlas medido se puede expresar solo en términos de números enteros; por ejemplo: el número de hijos que tienen las familias se mide en cifras enteras: cero hijos, un hijo, dos hijos, etc. Las variables cuantitativas son continuas si al medirlas el resultado se puede expresar en términos de cifras fraccionarias; por ejemplo, la temperatura en diversas personas puede valer 36.7, 36.5, 36.8, etc.

26

Page 11: Estadística básica Apuntes

Jesús Reynaga Obregón

Con frecuencia tan solo con conocer el nombre de una variable resulta posible clasificarla; por ejemplo: la variable nacionalidad debe ser cualitativa nominal pues al pensar en los resultados de haberla medido en grupos de personas solo vienen a la mente términos tales como nacional y extranjero o términos como mexicano, peruano, costarricense, etc. De ninguna manera se le ocurre a uno pensar que en tales escalas existe jerarquía y por ello la variable no podría ser cualitativa ordinal. La variable nacionalidad tampoco podría ser cuantitativa, pues la nacionalidad no admite cuantificaciones de ningún tipo. En algunas ocasiones el nombre otorgado a algunas variables es indicativo muy aproximado de su clasificación; por ejemplo: la variable número de embarazos es susceptible de ser clasificada como cuantitativa discreta y no como cuantitativa continua pues no existe tal cosa como 2.5 ó 3.75 embarazos. En otras ocasiones el nombre de la variable no permite fácilmente su clasificación; por ejemplo: la variable disminución de peso puede ser clasificada por algunos como cualitativa ordinal y por otros como cuantitativa continua; en el primer caso la escala que se supuso pudo ser: excelente, buena, regular, mala y nula; en el segundo caso la escala pudo haber sido supuesta como: menos de 3.000 kgrs, 3.000 a 5.999 kgrs, 6.000 a 8.999 kgrs., etc.

3.0 Otra clasificación de las variables La anterior clasificación de las variables sirve a propósitos estadísticos y se basa en el nivel de medición al que ha podido llegarse al medir a la variable. Otra clasificación de utilidad es la que clasifica a las variables desde un punto de vista metodológico en independientes y dependientes. Es independiente una variable que antecede u origina a otras. Por otro lado, una variable se denomina dependiente si es consecuente a otras. Esta clasificación es muy conveniente para analizar el modo en que se relacionan diversas variables entre sí. A manera de ejemplo se presenta una hipótesis de investigación que contiene ambos tipos de variables: “Es probable que la desnutrición infantil esté más intensamente condicionada por el nivel de ingresos de las familias que por el nivel educativo de sus integrantes”; obsérvese el esquema que se ha elaborado para clasificar metodológicamente a las variables: Variables independientes Variables dependientes Nivel de ingresos de las familias Desnutrición infantil Nivel educativo de los integrantes En el esquema se aprecia que a las variables Nivel de ingresos de las familias y Nivel educativo de los integrantes no les antecede ninguna otra variable y por ello son clasificadas como independientes; por otra parte se nota que la variable Desnutrición infantil es efecto o resultado de las dos anteriores y por ello se clasifica como dependiente. Tanto la clasificación desde el punto de vista del nivel de medición como la clasificación desde el punto de vista metodológico coexisten y pueden aplicarse simultáneamente a las variables. Por ejemplo, la variable Desnutrición infantil desde el punto de vista metodológico se clasifica como dependiente y desde el punto de vista de su nivel de medición se puede clasificar como cualitativa ordinal en el supuesto de que su escala estuviera constituida por las modalidades desnutrición de primer grado, desnutrición de segundo grado y desnutrición de tercer grado.

27

Page 12: Estadística básica Apuntes

Jesús Reynaga Obregón

4.0 Escalas de las variables Como resultado del proceso de medición de una variable surge una escala que muestran los diversos valores o intensidades que puede adoptar tal característica. La escala, además de facilitar la clasificación de la variable, permite prepararse para contar la frecuencia con que se presentaron sus diversos valores. A continuación se muestran algunos ejemplos. Escala para una variable cualitativa nominal

Nombre de la variable

ESTADO CIVIL

Solteros Casados Su escala de modalidades Viudos Divorciados En Unión Libre

Escala para una variable cualitativa ordinal

Nombre de la variable

Posición en el empleo

Gerentes Supervisores Su escala de modalidades Jefes de Departamento Oficinistas Auxiliares

Como se puede apreciar, la escala de las variables cualitativas, tanto nominales como ordinales, están constituidas por renglones denominados modalidades. Escala para una variable cuantitativa discreta

Nombre de la variable

Pacientes atendidos por jornada laboral

0 a 3 Su escala de intervalos 4 a 7 (Sinónimo de intervalos: 8 a 11 clases) 12 a 15 16 a 19

28

Page 13: Estadística básica Apuntes

Jesús Reynaga Obregón

Escala para una variable cuantitativa continua

Nombre de la variable

Duración de las consultas

10.0 a 14.9 minutos Su escala de intervalos 15.0 a 19.9 minutos (Sinónimo de intervalos: 20.0 a 24.9 minutos clases) 25.0 a 29.9 minutos 30.0 a 34.9 minutos

Como se puede apreciar, la escala de las variables cuantitativas, tanto discretas como continuas, están constituidas por renglones denominados intervalos o clases. 5.0 Requisitos de las escalas de las variables Las escalas para cualquier tipo de variable deben cumplir, entre otras, con las siguientes normas: 1. La escala debe ser exhaustiva; es decir, sus modalidades o clases deben abarcar a todo el tipo posible de mediciones que se vayan a efectuar. En los siguientes ejemplos se aprecian escalas que no son exhaustivas:

OPINION SOBRE LAS CONDICIONES DE LAS

AULA

PESO DE UN GRUPO DE

ADOLESCENTES (KGRS.) Muy buena 30 a 34

Regular 35 a 39 Mala 40 a 44

Muy mala 50 a 54 55 a 59

Falta la modalidad Buena Falta la clase 45 a 49 2. La escala debe contener modalidades o clases mutuamente excluyentes. Lo anterior se refiere al hecho de que cualquier medición realizada pueda ser ubicada en una o en otra modalidad o clase sin confusiones o ambigüedades de ningún tipo. En los siguientes ejemplos se aprecian escalas con modalidades o clases que no son mutuamente excluyentes:

AGILIDAD MOSTRADA EN UN EVENTO ATLETICO

PESO DE UN GRUPO DE

ADOLESCENTES (KGRS.) Estupenda 30 a 34 Excelente 33 a 39

Buena 40 a 44 Regular 45 a 49

Mala 50 a 54

29

Page 14: Estadística básica Apuntes

Jesús Reynaga Obregón

Las modalidades Estupenda y Excelente se traslapan

La clase 33 a 39 se traslapa con la de 30 a 34; porque un individuo de 34 kgrs. podría ubicarse tanto en una como en otra clase.

3. La escala debe contener modalidades o clases pertenecientes a una única variable. Lo anterior significa que no deben mezclarse modalidades de o clases de una escala con las de otra, aunque sean sumamente parecidas. En los siguientes ejemplos se aprecian modalidades o clases que no pertenecen a una misma variable:

TIPO DE DIETA Hipocalórica

Normocalórica Hipercalórica Equilibrada

Las tres modalidades relativas a calorías pueden pertenecer a la escala de una sola característica y la modalidad Equilibrada puede pertenecer a otra escala perteneciente a otra diferente característica. Así, despejando la mezcla de escalas y modalidades, las escalas de dos diferentes características o variables pueden quedar de la siguiente manera:

Tipo de dieta según aporte calórico

Tipo de dieta según equilibrio de nutrientes

Hipocalórica Equilibrada Normocalórica Desequilibrada Hipercalórica

Como puede observarse, aunque son muy parecidas, las características que se desea medir son diferentes y a cada una de ellas le corresponde su propia escala de modalidades.

30

Page 15: Estadística básica Apuntes

Jesús Reynaga Obregón

6.0 Problemas Problemas de clasificación de variables Clasifique a cada variable marcando con una cruz en la columna correspondiente

Nombre de la variable y escala correspondiente

Cualitativa

nominal

Cualitativa

ordinal

Cuantitati-

va discreta

Cuantitati-

va continua

1 Agilidad mostrada al saltar un charco: Mínima Regular Buena

2 Sexo: Masculino Femenino

3 Disminución de peso bajo un régimen de dieta (kgr. enteros): 01 - 05 06 - 10 11 - 15 16 – 20

4 Disminución de peso bajo un régimen de dieta deficiente regular buena excelente

5 Grado militar: Jefes Oficiales Tropa

7 Escolaridad: Analfabeta Sabe leer y/o escribir (sin haber asistido a la escuela) Primaria incompleta Primaria completa Educación media incompleta Educación media o mayor

8 Escolaridad (años completos): 0 años 01-06 años 07-09 años 10-12 años 13-18 años

9 Convulsiones: 1 - 3 4 - 6 7 - 9

10 Convulsiones: Tónico-clónicas Tónicas

31

Page 16: Estadística básica Apuntes

Jesús Reynaga Obregón

Problemas de identificación de variables 1. Identifique a las variables contenidas en el siguiente relato y clasifíquelas tanto desde el punto de vista de su nivel de medición como desde el punto de vista metodológico.

Un investigador suponía que la presencia o la ausencia de microcefalia podía estar determinada porque la madre hubiera o no tenido rubéola durante el embarazo.

2. Identifique a las variables contenidas en el siguiente cuadro y clasifíquelas tanto desde el punto de vista de su nivel de medición como desde el punto de vista metodológico.

Obreros según intensidad del esfuerzo físico laboral desarrollado y participación en el equipo deportivo de la empresa

Participación en el equipo deportivo

Ocasional Nula

Intensidad del esfuerzo físico

laboral Cotidiana Totales

Ligero

47

12

56

115

Moderado

10

80

12

102

Intenso

74

14

106

194

411

32

Page 17: Estadística básica Apuntes

Jesús Reynaga Obregón

Problemas de construcción de escalas Identifique y corrija los problemas de falta de mutua exclusividad, de falta de exhaustividad o de duplicación de variables que se encuentran en los siguientes cuadros:

1 Estado Civil 2 Grado Militar 3 Agilidad

Soltero

Jefes Excelente

Casado

Oficiales Buena

Viudo

Tropa Regular

Divorciado

Capitanes Mala

Unión Libre

Pésima

Pareja

Torpe

4 Material de construcción de los techos de las viviendas

5

Tipo de dependencia académica en la UNAM

6 Opinión sobre las

marchas en vía pública

Cemento

Escuelas

Autorizar

Madera

Facultades

Prohibir

Lámina metálica

Centros de investigación

Sin opinión

Permitir

7 Opinión sobre el estado de salud luego de una cirugía

8 Resultados de una

votación

9 Resultado en un

examen

Mejor

A favor

No se presentaron

En contra

Reprobaron

Peor

Abstención

Sin opinión

De acuerdo

Aprobaron con mención honorífica

33

Page 18: Estadística básica Apuntes

Jesús Reynaga Obregón

10 Número de hijos 11 Habitantes de un grupo de ciudades 12

Pesos de un grupo de niños en gramos

1 a 3 0 a 9,999 0 a 2,999

4 a 6 10,000 a 19,999 3,000 a 5,999

8 a 9 20,000 a 39,999 6,000 a 9,999

10 a 12 40,000 a 49,999 8,999 a 11,999

12,000 a 14,999

13 Convulsiones al mes en un grupo de epilépticos

14 Número de votos obtenidos por el jefe de grupo

15 Concentración de glucosa en sangre

0 a 2 Escasos Menos de 60 mgrs/ml

3 a 5 Abundantes 60 a 89 mgrs/ml

6 a 8 Más de 30 90 a 119 mgrs/ml

7 a 10 120 a 149 mgrs/ml

11 a 14 150 a 179 mgrs/ml

Más de 180 mgrs/ml

16 Concentración de glucosa en sangre 17

Personas según edad (en salud pública)

18 Grupos de edad (en salud pública)

Menos de 60 mgrs/ml 0 a menos de 1 año Infantil

60 a 89 mgrs/ml 1 a menos de 5 años Preescolar

90 a 119 mgrs/ml 5 a menos de 15 años Escolar

120 a 149 mgrs/ml 15 a menos de 25 años Preproductiva

150 a 179 mgrs/ml 25 a menos de 45 años Productiva

Más de 160 mgrs/ml 45 a menos de 65 años Posproductiva

65 y más años Ancianidad

34

Page 19: Estadística básica Apuntes

Jesús Reynaga Obregón

Diseño de cuestionarios

Introducción La primera etapa del método estadístico, denominada recolección, puede llevarse a cabo a través de diversos procedimientos de medición. En algunas ocasiones las variables se miden con equipamiento instrumental; por ejemplo: la estatura se mide con un escalímetro, el peso con una báscula, la temperatura con un termómetro y la presión arterial con un baumanómetro. En otras ocasiones las variables se miden con la simple observación; por ejemplo: el tipo de actitud que adoptan los pacientes, su manera de caminar o su color de piel solo requieren inspección visual. Algunas veces la medición de variables requiere del interrogatorio; por ejemplo: para saber si un paciente está orientado temporal y espacialmente basta con hacerle una serie de preguntas. En todos los anteriores casos la información obtenida debe ser registrada por escrito para luego proceder a su recuento. Casi siempre, de la calidad del registro escrito depende la calidad de las conclusiones obtenidas luego de aplicar procedimientos estadísticos a las variables medidas. Por convención a los registros escritos suele denominárseles genéricamente cuestionarios. El diseño de un cuestionario implica que, previamente, se ha realizado una correcta definición de las variables en estudio y que para cada una se ha construido su correspondiente escala en términos de modalidades o intervalos. Si la definición de variables o la construcción de sus escalas son imperfectas, el diseño del cuestionario dará lugar a un defectuoso instrumento de recolección.

1. Comprobación de requisitos Al inicio del diseño de un buen cuestionario conviene comprobar los siguientes aspectos:

1. ¿Se tienen a la vista los objetivos del estudio? 2. ¿Está definida la población a quien se aplicará el cuestionario?, ¿Se utilizará una muestra? 3. ¿Se dispone de una lista completa de las variables en estudio? 4. ¿Las escalas que se han construido para cada variable reúnen las condiciones de tener

modalidades o intervalos exhaustivos y mutuamente excluyentes? 5. ¿El cuestionario será aplicado por personal entrenado o será de tipo autoadministrado? 6. ¿Se tiene prevista una base de datos para conservar y contar la información? 7. ¿Se han anticipado los procedimientos estadísticos de presentación tabular y gráfica? 8. ¿Se han preseleccionado las medidas de resumen que han de sintetizar a cada variable? 9. ¿Se han previsto las pruebas de análisis estadístico que permitirán identificar diferencias o

establecer asociaciones? 10. ¿Se han definido los programas de cómputo para mantener la base de datos y para realizar

procedimientos estadísticos?

2. Como recoger las respuestas al cuestionario Es necesario decidir si el cuestionario será llenado directamente por el respondiente (autoadministrado) o si será aplicado por un entrevistador. En cualquiera de los dos casos debe quedar claro al respondiente cuál es el propósito de la búsqueda de la información y por qué se considera importante que él colabore. Hacer lo anterior convincentemente puede ayudar a aumentar la tasa de respuesta.

35

Page 20: Estadística básica Apuntes

Jesús Reynaga Obregón

Cuestionarios para entrevistas estructuradas Además de contener preguntas, los cuestionarios para entrevistas cara a cara suelen tener textos que ayudan al entrevistador en la conducción de la entrevista. También pueden agregarse instrucciones al entrevistador o imágenes e ilustraciones que se deban mostrar al entrevistado.

Cuestionarios autoadministrados Trasladar al respondiente la responsabilidad de completar el cuestionario tiene importantes implicaciones en el diseño del cuestionario. El respondiente se hará cargo de llenar cuidadosamente un cuestionario que considere valioso, interesante, explícito, corto y estéticamente bien presentado. En ocasiones habrá que considerar la conveniencia de ofrecer al respondiente un estímulo o recompensa por su esfuerzo; por ejemplo: conviene ofrecerle un ejemplar del reporte del estudio. En lo posible hay que tratar de usar un lenguaje muy personal, aunque la encuesta sea de tipo anónimo; para lograr lo anterior hay que pensar acerca de cómo le gustaría a uno mismo que se dirigieran por escrito. Cuando sea posible hay que pedir algunos datos personales no confidenciales como el sexo, la edad y la ocupación, ya que se ha observado que con ello se logra establecer un mejor nivel de confianza y un aumento en la tasa de respuesta.

3. Determinación de las variables a recoger Aunque parezca que el diseño de un cuestionario podría iniciarse sin considerar los objetivos y variables del estudio, nunca hay que adoptar esta vía. Existe el riesgo de invertir recursos valiosos y abundante tiempo para no lograr recoger los datos fundamentales de la investigación. Para evitar ese riesgo conviene tener a la mano y por escrito la lista de variables que se haya decidido medir. A continuación se muestran ejemplos de la relación entre los asuntos que se desean explorar en un cuestionario y las correspondientes variables con sus respectivas escalas:

Asunto

Variable Escala

¿Cuáles son las principales razones que manifiestan los aspirantes para estudiar un curso de posgrado en la facultad de medicina?

Razón principal para estudiar un curso de posgrado

• Interés científico por

un área determinada de la práctica médica

• Interés por distinguirse académicamente de otros

• Interés por obtener mejores ingresos

• Deseo de perfeccionar conocimientos y habilidades en los que existe cierta experiencia

¿La experiencia influye en la decisión de estudiar un curso de posgrado en administración?

Tiempo de actividad laboral en áreas administrativas

• 1 a 3 años • 4 a 6 años • 7 a 9 años

36

Page 21: Estadística básica Apuntes

Jesús Reynaga Obregón

4. Disposición y secuencia de preguntas en el cuestionario Debe procurarse no sobresaturar o recargar el cuestionario con títulos y subtítulos innecesarios o con una numeración excesivamente ramificada. Es una buena práctica asegurarse de que el cuestionario tiene un título sencillo y claro y de que existe un número o fecha de la versión del documento; esto ayuda cuando se está trabajando sobre sucesivas versiones de un borrador. Casi siempre resulta útil redactar una atractiva y muy breve introducción que señale el nombre de la institución que patrocina la aplicación del cuestionario y la importancia de disponer de la información que se solicita. También es una buena práctica numerar las preguntas para propósitos de referencia, particularmente durante las etapas de captura y análisis de las respuestas. Hay que procurar distribuir las preguntas y sus opciones de respuesta de manera estéticamente atractiva. Hay que tratar de ser consistente en el empleo de los términos y limitarse a plantear la menor variedad de tipos de preguntas posible. Se debe procurar que el cuestionario tenga a todo lo largo una orientación semejante, ya sea horizontal o vertical. Si el cuestionario consiste en hojas engrapadas, hay que procurar imprimir por un solo lado del papel para evitar que el respondiente salte inadvertidamente a preguntas que parecieran no tener secuencia con las anteriores; en todo caso hay que pensar en la conveniencia de imprimir el cuestionario en forma de libro. Cada página debe tener una cantidad semejante de preguntas y debe evitarse la sobresaturación de texto con el afán de ahorrar papel. Hay que reducir al máximo la cantidad de líneas, bordes y recuadros y debe usarse un tamaño de letra fácil de leer para cualquier persona; deben preferirse los tipos de letras sin rasgos excesivos; por ejemplo: es mejor usar letra de tipo Arial que letra de tipo Times New Roman. En caso de que deban imprimirse instrucciones de cada cuando en cuando hay que usar consistentemente un tipo de letra tal como la de tipo cursiva; por ejemplo cada vez que se indica: Marque con una cruz en el recuadro correspondiente a la opción de su preferencia. Si el cuestionario será de tipo autoadministrado, puede empezarse con las preguntas que despierten mayor interés en el respondiente. En otros casos habrá que comenzar con las preguntas más sencillas para pasar luego a las más complejas. En algunas ocasiones habrá que dejar que el respondiente adquiera confianza en el cuestionario antes de empezar a pedirle respuestas de tipo más personal. En cualquier caso hay que agrupar las preguntas de manera lógica agrupando las preguntas de tipo similar en secciones específicas. Es muy conveniente mantener un flujo lógico y sencillo de las preguntas a lo largo del cuestionario evitando, en todo lo posible, ramificaciones excesivas; por ejemplo: cuando se pide al respondiente que, si es hombre pase a la pregunta Y o que si es mujer pase a la pregunta X; en casos como este último es preferible, si los recursos lo permiten, elaborar un cuestionario para los hombres y otro para las mujeres.

5. Tipos de preguntas En el diseño de un cuestionario se pueden usar diversos tipos de preguntas: abiertas o cerradas, de selección sencilla o de selección múltiple, de asignación de orden o de asignación de valor.

Preguntas abiertas y preguntas cerradas Existen ocasiones en que, por falta de antecedentes o en situaciones inéditas, no hay manera de establecer a priori la escala de alguna variable que se desea medir o que resulta de importancia disponer de respuestas libremente ideadas por el respondiente. En estos casos puede obtenerse valiosa información al hacer preguntas abiertas tales como la siguiente:

¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas?

37

Page 22: Estadística básica Apuntes

Jesús Reynaga Obregón

Plantear una pregunta como la anterior tiene desventajas y ventajas. Como principal desventaja se encuentra que habrá que destinar bastante tiempo para clasificar la amplia variedad de respuestas que se les ocurran a los respondientes para construir, a posteriori, una escala para la variable involucrada a fin de poder efectuar un recuento preciso. Como ventajas se encuentran que la gama de respuestas puede ser más rica que la que a uno se le pudiera haber ocurrido y que la variedad de respuesta refleja mejor la opinión de los respondientes. En cuanto a la disposición de las preguntas abiertas, conviene reservar suficiente espacio para que se anote sin dificultad la respuesta manuscrita del respondiente y prever un área para su posterior clasificación y codificación. A continuación se muestran dos ejemplos:

Mal ¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? ______________________________

Bien

¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas?

En el caso de que para una variable como la anterior solo interese que el respondiente ubique su opinión en una escala preestablecida, podría redactarse la pregunta a modo de pregunta cerrada con opciones múltiples de la siguiente manera:

¿Cuál considera que es la principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? (marque con una X en un solo recuadro)

Falta de valores cívicos en la familia

El ejemplo de otros adolescentes

El ejemplo de programas de televisión

Debilidad de las autoridades

En el caso de establecer una escala con opciones múltiples como la anterior, hay que asegurarse de que es exhaustiva y de que las opciones son mutuamente excluyentes entre sí.

Preguntas de selección sencilla y preguntas de selección múltiple En la modalidad de pregunta cerrada es necesario decidir si se requiere que el respondiente marque una sola opción (selección sencilla) o si conviene que marque todas las que desee (selección múltiple). Observe la diferencia entre una y otra forma:

38

Page 23: Estadística básica Apuntes

Jesús Reynaga Obregón

Selección sencilla

¿Cuál considera que es las principal razón para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? (marque con una X en un único recuadro)

Falta de valores cívicos en la familia

El ejemplo de otros adolescentes

El ejemplo de programas de televisión

Debilidad de las autoridades

Selección múltiple

¿Cuáles considera que son las principales razones para que los adolescentes pinten con aerosol las fachadas de las casa ajenas? (marque con una X en los recuadros que expresen su opinión)

Falta de valores cívicos en la familia

El ejemplo de otros adolescentes

El ejemplo de programas de televisión

Debilidad de las autoridades

Preguntas de asignación de orden y de asignación de valor En algunas ocasiones se hace necesario conocer la importancia que el respondiente concede a algunas opciones de respuesta; en estos casos puede buscarse su opinión pidiéndole que asigne un orden de importancia a las opciones de respuesta o que se ubique en una escala numérica de valores que representen su preferencia. Asignación de orden

De a las siguientes razones para que los adolescentes pinten con aerosol las fachadas de las casa ajenas un orden de importancia (marque con números del 1 al 4 en los recuadros. El número 1 representará la opción que usted considera más importante. No repita números)

Falta de valores cívicos en la familia

El ejemplo de otros adolescentes

El ejemplo de programas de televisión

Debilidad de las autoridades

39

Page 24: Estadística básica Apuntes

Jesús Reynaga Obregón

Asignación de valor En este tipo de preguntas se utilizan escalas tipo Lickert de la siguiente forma:

Otorgue un valor a las siguientes razones para que los adolescentes pinten con aerosol las fachadas de las casa ajenas (marque con una X los recuadros que expresen su opinión)

Muy importante

Importante Poco importante

Nada importante

Falta de valores cívicos en la familia

El ejemplo de otros adolescentes

El ejemplo de programas de televisión

Debilidad de las autoridades

En la anterior escala de importancia puede apreciarse que no se ha incluido una columna que permita asignar un valor neutro como por ejemplo Sin opinión debido a la tendencia que tienen muchos respondientes para escoger opciones que no los comprometen.

6. Redacción del cuestionario

Precisión Se deben hacer preguntas lo más breves y claras posible. Hay que evitar el uso de abreviaturas. Se debe verificar que la pregunta no se presta a interpretaciones ambiguas; por ejemplo: es mejor preguntar ¿Ha tenido catarro en los últimos tres meses? que ¿Ha tenido catarro recientemente?

Preguntas dobles Algunas preguntas implican dobles cuestiones que deben evitarse; por ejemplo:

¿Cree usted que los adolescentes debieran comer menos y hacer más ejercicio? Para evitar este tipo de preguntas conviene redactar dos preguntas separadas de la siguiente forma:

Marque con una cruz en el recuadro que exprese su opinión

Si No

¿Cree usted que los adolescentes debieran comer menos?

¿Cree usted que los adolescentes debieran hacer más ejercicio?

40

Page 25: Estadística básica Apuntes

Jesús Reynaga Obregón

Preguntas negativas Evite preguntas con redacción negativa que suelen causar confusiones como las siguientes:

Si No

¿No cree usted que los adolescentes debieran comer menos?

¿Esta usted en desacuerdo con que los adolescentes debieran hacer más ejercicio?

En este caso es mejor redactar así:

Si No

¿Cree usted que los adolescentes debieran comer menos?

¿Cree usted que los adolescentes debieran hacer más ejercicio?

Exactitud En caso de no existir restricciones, procure pedir respuestas precisas. Por ejemplo, en lugar de preguntar así: Su edad corresponde a:

18 a 24 años

25 a 44 años

45 a 64 años

pregunte así:

Al 1º. De noviembre de 2004 su edad era de _____ años cumplidos En el ejemplo anterior podría considerarse que era suficiente con obtener la edad en grupos; sin embargo existen varias razones para obtener cifras exactas en lugar de cifras agrupadas:

• Existe menor riesgo de equivocación al anotar un número que al marcar con cruz en algún recuadro

• Las cifras exactas pueden agruparse a posteriori en intervalos del tamaño deseado

• Mantener las cifras exactas permite actualizar posteriormente la información, particularmente las edades, con algún programa de cómputo

• Ciertos cálculos estadísticos y algunos paquetes de cómputo requieren la información sin agrupar

41

Page 26: Estadística básica Apuntes

Jesús Reynaga Obregón

Preguntas con respuestas sugeridas Hay que evitar forzar al respondiente a contestar en contra de su voluntad con preguntas como la siguiente: ¿Esta usted de acuerdo, al igual que la gran mayoría de los buenos profesores, en que los estudiantes destinan cada vez menos tiempo a la preparación de sus exámenes?

Si No

Igualmente, hay que procurar ser cuidadoso al pedir opiniones situando al respondiente en situaciones hipotéticas sumamente irreales o pidiéndole que marque opciones extremadamente polarizadas Por ejemplo, en vez de redactar así: Si usted fuera el director de la facultad de medicina ¿reduciría la duración de los estudios a solo 3 años?

Si No

Es mejor redactar así:

Seguramente si

Probablemente si

Probablemente no

Seguramente no

Si usted formara parte de una comisión revisora del plan de estudios de la facultad de medicina ¿propondría reducir la duración de los estudios a 3 años?

42

Page 27: Estadística básica Apuntes

Jesús Reynaga Obregón

7. Aspectos complementarios al diseño

Aspectos éticos Nunca deben hacerse preguntas ofensivas o embarazosas. Hay que evitar que el respondiente pierda tiempo con preguntas innecesarias que no corresponden a ninguna variable del estudio. Las preguntas delicadas deben hacerse una vez que el respondiente haya resuelto las preguntas generales; por ejemplo:

Finalmente, para poner en contexto sus respuestas nos permitimos pedirle que sea tan amable en contestar lo siguiente: ¿Cuál es su estado civil? (marque con una cruz)

Soltero

Casado

Viudo

Divorciado

Unión libre

Al inicio del cuestionario conviene asegurar al respondiente la confidencialidad de sus respuestas anotando un párrafo semejante al siguiente: Le aseguramos que sus respuestas serán tratadas de manera respetuosa y serán utilizadas solo con propósitos de investigación. Sus datos no serán facilitados a ninguna otra institución de cualquier naturaleza de acuerdo a lo establecido por la actual legislación de derechos humanos. Muchas gracias por su participación en este estudio.

Prueba piloto Por más que parezca perfecto un cuestionario siempre requiere probarse por anticipado, particularmente en lo referente a los siguientes aspectos:

• Legibilidad del documento, tamaño y color del papel y de la letra, formato (hojas engrapadas o cuadernillo). Identificación del cuestionario (numeración consecutiva, número o fecha de versión).

• Tiempo para el llenado

• Facilidades para el llenado (material de escritura, instructivos anexos, auxilio de un entrevistador, etc.)

• Forma de aplicación (autoadministración, entrevista)

• Ambiente de aplicación (individual o en grupos de respondientes)

• Facilidad de captura de las respuestas (implica el diseño y prueba de la base de datos correspondiente)

43

Page 28: Estadística básica Apuntes

Jesús Reynaga Obregón

El recuento como segunda etapa del método estadístico Introducción: En esta etapa del método estadístico la información recogida es sometida a revisión, clasificación y cómputo numérico. A veces el recuento puede realizarse de manera muy simple, por ejemplo con tarjetas en las que se anotan datos en el centro de sus bordes y en sus esquinas; en otros casos puede requerirse el empleo programas de cómputo para el manejo de bases de datos. En términos generales puede decirse que el recuento consiste en la cuantificación de la frecuencia conque aparecen las diversas características medidas en los elementos en estudio; por ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o el número de niños con peso menor a 3 kilos y el número de niños con peso igual o mayor a dicha cifra. Recuento por medio de tarjetas simples: Este sistema de recuento consiste en transcribir los valores y modalidades de las variables estudiadas que se encuentran registradas en los formularios en tarjetas de cartulina (usualmente de 12.5 cms. X 7.5 cms.) y, a partir de éstas, efectuar el cómputo. Para esto se requiere que los valores o modalidades tengan asignado un código, preferentemente desde el asentamiento de los datos hecho en el instrumento en que se hayan recogido. Dichos códigos serán transcritos a la tarjeta de cartulina en los sitios establecidos para ello a partir de una tarjeta modelo o matriz; por tanto, cada formulario da lugar a una tarjeta que contendrá la misma información ya codificada. Ejemplo: Obsérvese el siguiente instrumento de recolección ya contestado y los códigos asignados a los valores de las diferentes modalidades o clases:

INSTRUMENTO DE RECOLECCION

1 Alumno No. 19 2 Preparatoria de origen Privada (P) B CCH UNAM (C) Bachilleres (B) Prepa UNAM (U) Vocacional IPN (VI) 3 Calificación 1er. examen No presento (NP) S No aprobado (NA) Suficiente (S) Bien (B) Muy bien (MB) 4 Calificación 2o. examen No presento (NP) B No aprobado (NA) Suficiente (S) Bien (B) Muy bien (MB) 5 Sexo Femenino (F) M Masculino (M)

44

Page 29: Estadística básica Apuntes

Jesús Reynaga Obregón

6 Edad 17 - 21 años (1) 2 22 - 26 años (2) 27 y más (3) 7 Otras ocupaciones Otra carrera (C) S Trabaja (T) Solo esta carrera (S) 8 Hrs. de estudio en casa 0 - 1 horas (1) 1 2 - 3 horas (2) 4 o más horas (3) 9 Lugar de estudio Biblioteca (B) P Casa propia (P) Casa de amigos (A) Otros lugares (O)

Obsérvese la tarjeta a que da lugar el anterior formulario:

B S B

P 19 M

1 S 2

Como puede verse, se han ocupado el centro, las esquinas y las partes medias de cada borde de la tarjeta para anotar los códigos contenidos en el formulario. Los sitios donde se anota cada código se determinan previamente mediante la elaboración de una tarjeta modelo. En el ejemplo citado, la tarjeta modelo fue elaborada con el siguiente formato:

TARJETA MODELO

Prepa deorigen

Calificación1er. examen

Calificación 2o. examen

Lugar de estudio

Númerodel

alumnoSexo

Tiempo de estudio Edad

Otraocupación

Para proceder al cómputo, simplemente se separan las tarjetas en paquetes diferentes, de acuerdo a las diversas modalidades o clases de una variable, y se cuentan las tarjetas resultantes.

45

Page 30: Estadística básica Apuntes

Jesús Reynaga Obregón

Por ejemplo, si se deseara contar a los individuos según su escuela de origen se procedería A separar las tarjetas formando paquetes de la siguiente manera:

P

P

P P

P

P

CC

CC

BB

BB

BB

BB

UU

UU

UU

U

VIVI

VI

En caso necesario, cuando se desea realizar el cómputo de individuos clasificados bajo dos criterios, se procede a una nueva separación de los grupos de tarjetas resultantes de la primera clasificación para proceder a su cómputo. Por ejemplo, para el caso que está sirviendo de ilustración, si se deseara conocer cuántos de los individuos que proceden del Colegio de Ciencias y Humanidades son hombres y cuántas son mujeres (esto es: si se deseará conocer a los individuos según escuela de origen y sexo simultáneamente) se procedería según el siguiente esquema:

CC

CC

CC

C

C

M

F

El sistema de recuento por medio de tarjetas simples es útil para contar con comodidad hasta 500 casos, siempre y cuando cada caso contenga a lo sumo ocho variables.

46

Page 31: Estadística básica Apuntes

Jesús Reynaga Obregón

Recuento por medio de un programa de computadora (Excel): El programa Excel de Microsoft permite contar y mantener archivados los datos correspondientes a un máximo de 65,535 casos en quienes se hayan medido hasta 256 variables. Para utilizar este programa como un sistema de recuento eficiente es indispensable que se respeten las siguientes normas:

• la primera fila de una hoja de cálculo debe destinarse a la anotación de los nombres de las variables medidas, preferentemente con no más de ocho caracteres,

• cada una de las siguientes filas deben corresponder a cada uno de los casos,

• no debe dejarse ninguna fila en blanco,

• las filas no deben contener ningún tipo de letrero o dibujo,

• cada columna debe destinarse a la anotación de los datos correspondientes a cada caso.

Una vez capturados todos los datos y salvado el archivo se procede de acuerdo a los siguientes pasos:

1. Definir el área que contiene los datos y asignarle un nombre • Colóquese en la celdilla que está en la esquina superior izquierda del área de datos, oprima

con su mano izquierda la tecla de mayúsculas ⇑ y, sin soltarla, oprima repetidas veces la tecla del cursor derecho ⇒ hasta que aparezcan sombreadas las celdillas A1, B1 y C1. Estas celdillas contienen los encabezados de las columnas.

• Todavía sin soltar con su mano izquierda la tecla de mayúsculas, oprima una vez la tecla Fin e inmediatamente la tecla del cursor inferior ⇓. Observe que aparece sombreada toda el

47

Page 32: Estadística básica Apuntes

Jesús Reynaga Obregón

área que contiene a los datos. Ahora puede soltar la tecla de mayúsculas.

• Asegúrese de que está sombreada el área de datos. Con el puntero del ratón oprima una vez la flecha que está al lado derecho de la ventana Cuadro de nombres. Observe que el letrero A1 de la ventana se sombrea con color azul. En este momento puede sobreescribir un nombre. Por ejemplo escriba con minúsculas la palabra misdatos. Oprima la tecla ↵

2. Ordenar los datos según el contenido de alguna columna • Asegúrese de que está sombreada el área de datos. Con el puntero del ratón despliegue el

menú Datos y seleccione la opción Ordenar. Al aparecer un cuadro denominado Ordenar, que contiene tres ventanas y algunos botones, oprima la flecha que está al lado derecho de la ventana superior y escoja el nombre de alguna de las columnas. En este caso escoja la columna Sexo (columna B). Oprima el botón Aceptar. Observe que ahora la columna Sexo muestra a los datos ordenados. Primero aparecen letras f y luego se muestran letras m. Para ordenar los datos según el contenido de alguna otra columna asegúrese de que primero está sombreada toda el área de datos. Practique el ordenamiento de cada una de las otras columnas

48

Page 33: Estadística básica Apuntes

Jesús Reynaga Obregón

3. Contar los subtotales de una columna (en este caso la columna sexo) • Asegúrese de que tiene ordenados los casos según la columna sexo. Vaya al menú Datos y

escoja la opción Subtotales. Observe que aparece un cuadro llamado Subtotales que contiene tres ventanas y algunos botones. Oprima la flecha del lado derecho de la ventana superior denominada Para cada cambio en: y escoja la columna sexo. En la ventana de en medio, denominada Usar función: deje la opción Contar. En la ventana inferior, denominada Agregar subtotal a: marque la columna sexo; asegúrese de que las demás columnas no están marcadas. Oprima el botón Aceptar.

• En este momento, si usted recorre de arriba a abajo la columna sexo, notará que al terminar las letras f se encuentra un subtotal y que al terminar las letras m se encuentra, tanto el subtotal para la letras m, como el total de todos los casos.

49

Page 34: Estadística básica Apuntes

Jesús Reynaga Obregón

Antes de efectuar otro recuento de subtotales es necesario realizar lo siguiente: vaya al menú Datos y seleccione la opción Subtotales. Al aparecer el cuadro Subtotales quite las marcas de cualquier columna que estuviera marcada en la ventana inferior denominada Agregar subtotal a: y después oprima el botón Quitar todos.

4. Ordenar los datos según dos columnas y contar los subtotales

• Asegúrese de que quitó los subtotales anteriormente utilizados. En la ventana Cuadro de nombres seleccione el nombre de toda el área de datos para que quede sombreada en este caso escogiendo el nombre antes asignado: misdatos). Enseguida vaya al menú Datos y escoja la opción Ordenar. Al aparecer el cuadro denominado Ordenar escoja en la ventana superior, llamada Ordenar por, la columna sexo y en la ventana de en medio, denominada Luego por, la columna apgar. Oprima la tecla ↵

• Observe que en la columna sexo se han ordenado los datos y que hay un segmento de letras f y luego uno de letras m. Observe que tanto para el segmento de letras f como para el segmento de letras m se

50

Page 35: Estadística básica Apuntes

Jesús Reynaga Obregón

encuentran ordenados los datos de la columna apgar apareciendo primero los valores menores de cada segmento de la columna sexo.

• Ahora vaya al menú Datos y escoja la opción Subtotales. Al aparecer el cuadro Subtotales realice lo siguiente: Primero. En la ventana Por cada cambio en: seleccione la columna apgar. Segundo. En la ventana Agregar subtotal a: marque la columna apgar Tercero. Oprima la tecla ↵ Recorra las columnas sexo y apgar y tome nota de los subtotales.

5. Concentrar los subtotales en una tabla de contingencia para dos variables Elabore una tabla como la que se muestra a continuación y anote los resultados del recuento. Discuta los resultados observados en la tabla.

51

Page 36: Estadística básica Apuntes

Jesús Reynaga Obregón

Apgar

Sexo 6

7

8

9

Femenino

1

1

3

3

Masculino

1

1

2

1

Como puede observarse hubo más mujeres que tuvieron valores de Apgar 9. Ejercicios: En las siguientes páginas encontrará un listado con los datos de 120 personas que asistieron a una comida. En el evento se ofrecieron tres alimentos: sopa, arroz y mole. Los invitados pudieron o no haber comido uno, dos o tres de los alimentos. El mismo día algunas personas presentaron diarrea. Luego de efectuar el recuento de la información, tanto con el procedimiento de tarjetas simples como con el uso del programa Excel llene los siguientes cuadros:

Cuadro 1 Ingestión Presentación de diarrea de sopa No Si Totales

No

Si

Cuadro 2 Ingestión Presentación de diarrea De arroz No Si Totales

No

Si

Cuadro 3 Ingestión Presentación de diarrea de mole No Si Totales

No

Si

52

Page 37: Estadística básica Apuntes

Jesús Reynaga Obregón

Caso Sopa Arroz Mole Diarrea

1 S N N S 2 N S N N 3 S N N N 4 S N S S 5 S N N S 6 N S S N 7 S S N S 8 S S S S 9 S N S N

10 N S S S 11 S S N S 12 S S N S 13 N S N N 14 S S N S 15 S N S S 16 N N S N 17 S S N S 18 S S N S 19 S N S S 20 S N S S 21 S N N S 22 S N N S 23 S N S S 24 S N S S 25 S S S S 26 N N N S 27 S N S S 28 N S N N 29 S S N S 30 S S S S 31 N S N N 32 S N S S 33 S N S S 34 S N S S 35 S S N S 36 S S N S 37 N N N N 38 S N N N 39 S N S N

53

Page 38: Estadística básica Apuntes

Jesús Reynaga Obregón

Caso Sopa Arroz Mole Diarrea

40 S S N S 41 N N S N 42 N S N N 43 S S N S 44 N N N N 45 N N N N 46 S N S N 47 N S N N 48 S N S S 49 S S N N 50 N S N N 51 N N N N 52 N S N N 53 N N S N 54 S S N S 55 N N S N 56 N N N N 57 S S S N 58 S N S S 59 N N N N 60 S S S N 61 S N N S 62 N S N S 63 S N N N 64 S N S S 65 S N N S 66 N S S N 67 S S N S 68 S S S S 69 S N S N 70 N S S N 71 S S N S 72 S S N S 73 N S N N 74 S N N S 75 S N S S 76 N N S N 77 S S N S 78 S S N S 79 S N S S

54

Page 39: Estadística básica Apuntes

Jesús Reynaga Obregón

Caso Sopa Arroz Mole Diarrea

80 S N S S 81 S N N S 82 S S N S 83 S N S S 84 S N S S 85 N S S N 86 N N N S 87 S N S S 88 N S N N 89 S S N S 90 S S S S 91 N S N N 92 S N S S 93 S N S S 94 S N S S 95 S S N S 96 S S N S 97 S N N N 98 S N N N 99 S N S N 100 S S N S 101 N N S N 102 N S S N 103 S S N S 104 N N S N 105 N N N N 106 S S S N 107 N S N S 108 S N S S 109 S S S S 110 S S N N 111 N N N N 112 S N S S 113 N N S N 114 S S N S 115 N N S N 116 S N S S 117 S S S N 118 S N S S 119 N N N N 120 S S S N

55

Page 40: Estadística básica Apuntes

Jesús Reynaga Obregón

Soluciones a los ejercicios: Tanto con el procedimiento de tarjetas simples como con el uso del programa Excel, sus resultados deben ser como los siguientes:

Cuadro 1 Ingestión Presentación de diarrea de sopa No Si Totales

No

34

5

39

Si

17

64

81

120

Cuadro 2 Ingestión Presentación de diarrea De arroz No Si Totales

No

28

36

64

Si

23

33

56

120

Cuadro 3 Ingestión Presentación de diarrea de mole No Si Totales

No

27

36

63

Si

24

33

57

120

56

Page 41: Estadística básica Apuntes

Jesús Reynaga Obregón

La presentación estadística como tercera etapa del método estadístico: cuadros y gráficos

Introducción En el método estadístico, luego de las etapas de recolección y de recuento, se desarrolla la etapa denominada presentación. En ella se elaboran y describen los datos de los estudios o investigaciones a través de cuadros y gráficos con el propósito de comprender su estructura, organización y tendencias. A través de los siguientes ejemplos se podrá apreciar la importancia de esta etapa. Supóngase que se lee o se escucha la siguiente descripción: De 120 trabajadores de una fábrica de gabinetes metálicos que fueron seguidos a lo largo de la década 1981-1990, en la población de San Garabato, 81 estaban expuestos regularmente a ruido intenso; de estos, casi tres cuartas partes presentaron diversos grados de sordera al cabo del período de observación. Por otra parte, de 39 trabajadores que solo se exponían esporádicamente al ruido, la gran mayoría casi no presentaban manifestaciones de sordera al final del período de observación.. Salvo pocas excepciones, la gran mayoría de las personas no logra captar de primera intención la magnitud de las cifras y el modo en que se distribuyen las variables a las que se está haciendo referencia. Es casi seguro que una importante proporción de las personas tendrá que releer la descripción dos o más veces para emitir una opinión respecto a la información leída o escuchada. En cambio, al disponer de un cuadro en el que se presenta dicha información, la comprensión de los datos es casi automática y las magnitudes numéricas se comparan de manera sumamente ágil. Obsérvese el efecto que se logra con la presentación tabular de la información:

Trabajadores de una fábrica de gabinetes metálicos según exposición al ruido y presencia de sordera

San Garabato

1981-1990

Exposición

Presencia

de sordera

Totales

al ruido SI NO

Regular

60 (74%)

21 (26%)

81 (100%)

Esporádica

7 (18%)

32 (82%)

39 (100%)

Si bien los cuadros permiten efectuar comparaciones precisas de tipo numérico, también se hace necesario disponer de una forma de presentación que facilite la revisión visual rápida de las características esenciales de los datos. Obsérvese cómo el gráfico que corresponde a la tabla anterior propicia una fácil comprensión de la información con la sola inspección visual:

57

Page 42: Estadística básica Apuntes

Jesús Reynaga Obregón

Trabajadores de una fábrica de gabinetes metálicos según exposición al ruido y presencia de sordera,San Garabato, 1981-1990

Exposición al ruido

Regular Esporádica

100

50

25

75

%Sordera

Si

No

Características básicas de los cuadros Como ya se dijo antes, el principal propósito de la etapa de presentación es facilitar la comprensión rápida y práctica de la información recién contada. Por lo anterior, tanto la elaboración de cuadros como la elaboración de gráficos debe cumplir con normas mínimas que promuevan la facilidad en la descripción de la información en ellos contenida. En el caso de los cuadros pueden mencionarse como normas mínimas las siguientes:

• Cada cuadro debe tener un título completo que responda a las preguntas ¿Qué se está presentando?, ¿Cómo se está presentando?, ¿De donde provienen los datos? y ¿De cuándo son los datos? • Las variables deben tener un nombre exacto que esté acorde con la escala de clases o

modalidades que se hayan definido para dichas variables. • La escala de cada variable debe tener modalidades o clases que sean exhaustivas y

mutuamente excluyentes. • En vista de que los cuadros tienen por propósito presentar las características numéricas de los

datos, los cálculos deben ser exactos.

Alumnos del Doctorado en Ciencias Biomédicas según sexo, UNAM, Generaciones 1997-2 a 1999-2

Sexo Núm. %

Femenino

199

53.6

Masculino

172

46.4

Totales

371

100.0

Columna de frecuencias relativas

Columna con el nombre de la variable y su escala de modali- dades

Columna de frecuencias absolutas

58

Page 43: Estadística básica Apuntes

Jesús Reynaga Obregón

Características básicas de los gráficos En el caso de los gráficos pueden mencionarse como normas mínimas las siguientes:

• Cada gráfico debe tener un título completo que responda a las preguntas ¿Qué se está presentando?, ¿Cómo se está presentando?, ¿De donde provienen los datos? y ¿De cuándo son los datos? • Para no distorsionar la apreciación visual de las variables que se estén presentando, la relación

entre el eje vertical (ordenada) y el eje horizontal (abscisa) de los gráficos debe ser de 1 a 1.5; por ejemplo: si la ordenada mide 3 centímetros, la abscisa medirá 4.5

• La escala de cada variable debe tener modalidades o clases que sean exhaustivas y mutuamente excluyentes.

• En vista de que los gráficos tienen por propósito agilizar la captación visual de las características esenciales de los datos sin distorsiones de ningún tipo, debe evitarse el uso de colores o de efectos tridimensionales de volumen.

Escolares según estado de higiene oral, PrimariaRepublica de Bolivia, 1999

0

400

800

1200

1600

Muy bueno Bueno Regular Malo Muy maloEstado de higiene oral

Se considera que el arsenal mínimo que se debe poseer en cuanto a capacidades para la elaboración de cuadros y gráficos debe permitir la presentación de:

1. Una sola variable cualitativa nominal u ordinal 2. Una sola variable cuantitativa discreta 3. Una sola variable cuantitativa continua 4. Dos variables cualitativas simultáneamente (nominales u ordinales) 5. Dos variables cuantitativas continuas simultáneamente (discretas o

continuas) 6. Una variable cualitativa y una cuantitativa discreta simultáneamente 7. Una variable cualitativa y una cuantitativa continua simultáneamente

En las siguientes páginas se encuentran modelos para cada caso. En cada uno se aprecian las características técnicas que deben tomarse en cuenta para su construcción.

59

Page 44: Estadística básica Apuntes

Jesús Reynaga Obregón

Presentación de una sola variable cualitativa (nominal u ordinal): Barras simples

Escolares según estado de higiene oral

Primaria República del Salvador1995

0

100

200

300

400

500

600

700

Excelente Bueno Regular Malo Pésimo

Estado de Higiene Oral

Núm.

Presentación de una sola variable cuantitativa discreta: Histograma

Pacientes epilépticos según número de convulsiones diarias

Hospital Francés1992

0

2

4

6

8

10

12

14

1 a 3 4 a 6 7 a 9 10 a 12

Número de convulsiones diarias

Núm.

60

Page 45: Estadística básica Apuntes

Jesús Reynaga Obregón

Presentación de una sola variable cuantitativa continua: Polígono de frecuencias

AlumnosSegún porcentaje de aciertos

Examen final de anatomía1992

0

100

200

300

400

500

600

700

Porcentaje de Aciertos

81 a 10041 a 6021 a 400 a 20 61 a 80

1er paso:Trazado de histograma provisional Trazado de uniones entre centros de clase

No.

AlumnosSegún porcentaje de aciertos

Examen final de anatomía1992

0

100

200

300

400

500

600

700

Porcentaje de Aciertos

81 a 10041 a 6021 a 400 a 20 61 a 80

2o. pasoEliminación de barras subyacentes(VERSION FINAL)

No.

61

Page 46: Estadística básica Apuntes

Jesús Reynaga Obregón

Presentación simultánea de dos variables cualitativas: Barras segmentadas

Invitados a la bodaSegún ingestión de mole y presencia de diarrea

San Garabato1991

0

20

40

60

80

100

SI NO

NoSi

Ingestión de mole

%

Diarrea

Presentación simultánea de dos variables cuantitativas cuantitativas: Diagrama de correlación

Recién nacidos según peso y talla, Hospital Santa María, 53

52

51

50 Talla

49

48

47

46 2500 2700 2900 3100 3300 3500 3700

Peso

62

Page 47: Estadística básica Apuntes

Jesús Reynaga Obregón

Presentación simultánea de una variable cualitativa y de una cuantitativa discreta: Histogramas apareados

0 2000 4000 6000 8000 10000 12000

menos de1

1 a 4

5 a 14

15 a 24

25 a 44

45 a 64

65 y más

MujeresHombres

Población según sexo y edad en años, San Miguel, 2003

Presentación simultánea de una variable cualitativa y de una cuantitativa continua: Polígonos de frecuencias superpuestos

Recién nacidos según sexo y peso,Hospital DEF, 1990

020406080

100120140160180

2499 2999 3499 3999 4499

HombresMujeres

63

Page 48: Estadística básica Apuntes

Jesús Reynaga Obregón

Ejercicios: identificación de errores en la construcción de cuadros Compare los cuadros con errores con los cuadros correctos e identifique las diferencias

Estado Civil Hospital Francés

1992 Estado

Civil Número %

Solteros 46 22.2

Casados 84 40.6

Viudos 25 12.1

Divorciados 16 7.7

Unión Libre 36 17.4

Pareja 14 6.8

Total

407

100.0

Trabajadores según estado civil, Hospital Francés,

1992

Estado Civil

Número %

Solteros

46

22.2

Casados

84

40.6

Viudos

25

12.1

Divorciados

16

7.7

Unión Libre

36

17.4

Total

207

100.0

64

X

Page 49: Estadística básica Apuntes

Jesús Reynaga Obregón

Pacientes atendidos en Urgencias según tipo de cirugía, Hospital Francés,

2002

Tipo de

Paciente

Número

%

Radical

226

23.3

Conservadora

452

66.7

Total

678

100.0

X

Pacientes atendidos en Urgencias según tipo de cirugía, Hospital Francés,

2002

Tipo de cirugía

Número %

Radical

226

33.3

Conservadora

452

66.7

Total

678

100.0

65

Page 50: Estadística básica Apuntes

Jesús Reynaga Obregón

Escolares según estado de higiene oral

Estado de higiene oral

Número %

Excelente 38 2.75

Bueno 124 8.96

Regular 246 17.77

Malo 356 25.72

Pésimo 620 44.80

Total 1,384 100.0

X

Escolares según estado de higiene oral, primaria Benito Juárez, 2002

Estado de higiene

oral Número %

Excelente

38

2.75

Bueno

124

8.96

Regular

246

17.77

Malo

356

25.72

Pésimo

620

44.80

Total

1,384

100.0

66

Page 51: Estadística básica Apuntes

Jesús Reynaga Obregón

Alumnos según calificación en examen final, Materia de Anatomía, 2002

Calificación

Número

%

MB

12

13.3

B 32 35.6

S 14 15.6

NA 8 8.9

NP 2 2.2

Pésimo 22 24.4

X

Alumnos según resultado del curso, Materia de Anatomía, 2002

Calificación Número %

MB

12

17.6

B

32

47.1

S

14

20.6

NA

8

11.8

NP

2

2.9

Total

68

100.0

67

Page 52: Estadística básica Apuntes

Jesús Reynaga Obregón

Pacientes epilépticos según número de convulsiones

X diarias, Hospital Francés, 1998

Estado Civil

Número

%

1 a 3

6

21.4

4 a 6

14

50.0

6 a 10

5

17.9

10 a 12

3

10.7

Total

38

100.0

Pacientes epilépticos según número de convulsiones

√ diarias, Hospital Francés, 1998

Convulsiones

diarias

Número

%

1 a 3

6

21.4

4 a 6

14

50.0

7 a 9

5

17.9

10 a 12

3

10.7

Total

28

100.0

68

Page 53: Estadística básica Apuntes

Jesús Reynaga Obregón

Viviendas según número de habitaciones

X Colonia Rosedal

Número de hijos

Número de

familias

%

1 a 2

232

29.5

3 a 4

452

57.5

4 a 6

78

9.9

7 a 8

24

13.1

Total

100.0

Familias según número de hijos Colonia Rosedal, 2002

√ Número de

hijos Número

de familias

%

1 a 2

232

29.5

3 a 4

452

57.5

5 a 6

78

9.9

7 a 8

24

3.1

Total

786

100.0

69

Page 54: Estadística básica Apuntes

Jesús Reynaga Obregón

Alumnos según número de aciertos,

X materia de anatomía

Sexo

Número de

alumnos

%

0 a 10

38

2.75

11 a 20

124

8.96

21 a 30

246

17.77

31 a 40

356

25.72

41 a 50

620

Total

1,384

100.00

Alumnos según número de aciertos,

√ materia de anatomía, 2003

Número de

aciertos Número

de alumnos

%

0 a 10

38

2.75

11 a 20

124

8.96

21 a 30

246

17.77

31 a 40

356

25.72

41 a 50

620

44.80

Total

1,384

100.00

70

Page 55: Estadística básica Apuntes

Jesús Reynaga Obregón

Alumnos según porcentaje de aciertos,

X 2003

Número de aciertos

Número de

alumnos

%

0 a 20

38

42.75

21 a 40

124

8.96

41 a 60

246

17.77

61 a 80

356

25.72

81 a 100

620

44.80

Total

1,384

100.00

Alumnos según porcentaje de aciertos,

√ materia de anatomía, 2003

Porcentaje de aciertos

Número de

alumnos

%

0 a 20

38

2.75

21 a 40

124

8.96

41 a 60

246

17.77

61 a 80

356

25.72

81 a 100

620

44.80

Total

1,384

100.00

71

Page 56: Estadística básica Apuntes

Jesús Reynaga Obregón

La síntesis estadística como cuarta etapa del método estadístico. Medidas de resumen para variables cualitativas. Razones, proporciones y tasas.

Introducción La cuarta etapa del método estadístico se denomina síntesis; en ella se realizan procedimientos de cálculo numérico que producen cifras o medidas que condensan o resumen en sí mismas una gran cantidad de información. La condensación numérica de los datos da lugar a medidas que, debidamente analizadas y entendidas, permiten evocar o imaginar las características fundamentales de toda la información que dio origen a dichas medidas. La ventaja principal del cálculo de las medidas de resumen consiste en que a través de ellas se facilita la comunicación de las peculiaridades esenciales de grandes volúmenes de datos. Por ejemplo: si una persona se quisiera informar acerca de las enfermedades que dieron origen a los fallecimientos ocurridos en una ciudad podría efectuar una lectura de todos y cada uno de los certificados de defunción de las personas fallecidas; sin embargo, luego de la lectura de 40 o 50 certificados, ya habría perdido el interés por la información o quizá ya habría caído en una total confusión al tratar de recordar la causa que condujo a la muerte a cada uno de los difuntos. En cambio, si se hubieran calculado las medidas de resumen llamadas tasas para las cinco primeras causas de muerte y esta información estuviera disponible, tales medidas de resumen permitirían imaginar las características básicas de la mortalidad en la ciudad de referencia. En el caso de las variables de tipo cualitativo la condensación de la información suele hacerse con alguna de las siguientes tres medidas de resumen de uso frecuente:

• Razones • Proporciones • Tasas

RAZONES Definición: Una razón es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división, entre dos conjuntos.

Razón: comparación a través de cociente entre dos conjuntos

Ejemplo: Se desea condensar la siguiente información: en un hospital rural existen 18 residentes que se encargan de la atención de 126 pacientes; por otra parte, en un hospital urbano existen 8 residentes que se encargan de atender a 32 pacientes.

72

Page 57: Estadística básica Apuntes

Jesús Reynaga Obregón

Procedimiento: de acuerdo a la definición de razón deben dividirse dos grupos de elementos. En este caso, para el hospital rural se divide el número de pacientes entre el número de residentes:

Razón en hospital rural 12618

7pacientesresidentes

= =

En cuanto al hospital urbano, se divide también el número de pacientes entre el número de residentes de dicho hospital:

Razón pacientesresidentes

en hospital urbano 328

4= =

Interpretación:

Para el caso del hospital rural: Existen siete pacientes a atender por cada residente. Para el caso del hospital urbano: Existen cuatro pacientes a atender por cada residente.

En conclusión: parece haber mayor cantidad de trabajo para los residentes del hospital rural. PROPORCIONES Definición: Una proporción es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división, entre un subconjunto y el conjunto al que pertenece.

Proporción: comparación a través de cociente entre un subconjunto y el conjunto al cual pertenece

Ejemplo: Se desea condensar la información siguiente: en un país subdesarrollado ocurrieron 422,350 defunciones en total; de ellas 124,352 pertenecieron a niños que aún no cumplían el año de edad. Por otra parte, en un país industrializado ocurrieron un total de 1' 721,215 defunciones de las cuales 206,876 se presentaron en niños menores de un año de edad. Procedimiento: de acuerdo a la definición de proporción deben dividirse un subconjunto entre el conjunto al que pertenece. Asi, para el país subdesarrollado:

proporcióndemuertesdemenoresdeunañoenpaíssubdesarrollado124,352

422,3500.29= =

73

Page 58: Estadística básica Apuntes

Jesús Reynaga Obregón

Por otra parte, para el país industrializado:

proporcióndemuertesdemenoresdeunañoenpaísindustrializado206,876

1'721,2150.12= =

Interpretación: Para el caso del país subdesarrollado: La importancia del subconjunto de muertes de menores de un año, en relación con el conjunto total de muertes en el país es de 0.29, lo que equivale a casi la tercera parte de todas las defunciones. Para el caso del país industrializado: La importancia del subconjunto de muertes de menores de un año, en relación con el conjunto total de muertes en el país es de 0.12, lo que equivale a aproximadamente una octava parte de todas la defunciones. En conclusión: la importancia de las defunciones de niños menores de un año es mucho mayor en el país subdesarrollado que en el país industrializado. Nota: Conviene mencionar que, en ocasiones, las proporciones son multiplicadas por el número 100 y con ello se habla de los porcentajes. Así, para el ejemplo, podría haberse hablado de que los porcentajes de defunciones de menores de un año en el país subdesarrollado y en el país industrializado eran de 29% y de 12%, respectivamente. TASAS Definición: Una tasa es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división, entre el número de veces que ocurre un cierto tipo de eventos y la población en la que puede ocurrir dicho tipo de eventos. Usualmente el resultado de tal división consiste en una cifra fraccionaria menor a uno; por ello, el resultado de la división suele ser multiplicado por alguna constante que sea múltiplo del número 10.

Tasa: comparación a través de cociente entre un conjunto de eventos y la población en la que pueden ocurrir tales eventos

Ejemplo: En una ciudad, a lo largo del año 1991, ocurrieron 345 defunciones por cáncer de próstata. Dicha ciudad tenía una población total de 2' 453, 310 habitantes. De ellos, 1' 210, 425 eran del sexo masculino. Se desea condensar la información de tal manera que los cálculos produzcan una medida de resumen que permita imaginar o evocar la magnitud del riesgo que existe para los habitantes de tal ciudad de fallecer por cáncer de próstata. Procedimiento: de acuerdo a la definición de tasa debe dividirse el evento entre la población en la cual dicho evento puede ocurrir. El resultado debe multiplicarse por un múltiplo del número 10.

tasa de defunciones por cáncer de próstata= 3451210 425

100 000 28 50 29, ,

, .X = ≈

74

Page 59: Estadística básica Apuntes

Jesús Reynaga Obregón

Interpretación: En la ciudad estudiada, a lo largo del año de referencia, fallecieron 29 de cada 100,000 habitantes del sexo masculino por cáncer de próstata. Notas: En primer lugar obsérvese que la división del número de eventos, en este caso las defunciones por cáncer de próstata, fue efectuada entre el número de habitantes del sexo masculino y no entre el total de la población, ya que solo los hombres pueden padecer tal patología. En segundo lugar nótese que la constante utilizada para multiplicar el resultado de la división anterior fue el número 100,000. Tal cifra fue escogida porque con ella se obtiene un resultado final que incluye uno o dos dígitos enteros (es usual que las tasas de mortalidad específica tengan como constante para multiplicar el resultado de la división al número 100,000) En tercer lugar conviene destacar la importancia del uso de tasas para condensar información de tipo cualitativo. Supóngase que interesa comparar la mortalidad por enfermedades del corazón entre los jóvenes de 15 a 24 años edad y los ancianos de 65 a 74 años y que se utilizan los siguientes datos:

Grupo poblacional

Defunciones por enfermedades del

corazón

Total de defunciones por todas las causas

Proporción de defunciones por

enfermedades del corazón en relación con las defunciones por todas las causas

Jóvenes 12, 763 48,999 .26 Ancianos 11,425 306,025 .04

Si se optara por comparar las proporciones de defunciones por enfermedades del corazón de ambos grupos poblacionales podría quedar la impresión de que las enfermedades del corazón son un problema mucho más grave en el grupo de jóvenes que en el de ancianos; esta falsa imagen se produce porque no se está tomando en cuenta la cantidad de personas que componen a cada grupo poblacional; es decir, no se está tomando en consideración el volumen de las poblaciones en que pueden ocurrir ese tipo de eventos. En cambio obsérvese lo que ocurre cuando se usan los siguientes datos, necesarios para el cálculo de tasas:

Grupo Poblacional

Defunciones por enfermedades del

corazón

Número de habitantes que forman el grupo poblacional

Tasa de defunciones por enfermedades del corazón

Jóvenes 12, 763 23' 900, 749 53.4 defunciones por cada 100,000 habitantes de ese grupo

Ancianos 11,425 6' 368, 450 179.4 defunciones por cada 100,000 habitantes de ese grupo

Con los últimos resultados ya se puede efectuar una comparación correcta al decir que por cada 100,000 jóvenes solo fallecen 53.4 de ellos por enfermedades del corazón; en cambio por cada 100,000 ancianos fallecen 179.4 por la misma causa. Lo anterior significa que tales padecimientos constituyen un riesgo mucho más importante como causa de mortalidad en el grupo de ancianos que en el grupo de jóvenes. En cuarto lugar, aunque las tasas son calculadas con datos que pertenecen a periodos ya concluidos, se considera que tales tasas sirven para anticipar la probabilidad o el riesgo de ocurrencia de un evento en una población para periodos inmediatos a aquel para el que se efectuaron los cálculos.

75

Page 60: Estadística básica Apuntes

Jesús Reynaga Obregón

PROBLEMAS 1. En un distrito escolar urbano se encontró que existía una población escolar a nivel primaria de 123,456 niños. Para uso de tales niños se encontraron disponibles 1,380 sanitarios y 820 bebederos de agua. Por otra parte, en un distrito escolar rural, se encontró una población escolar de primaria de 34,244 ni-ños. En las escuelas de dicho distrito se encontraron 179 sanitarios y 54 bebederos de agua. Con la información anterior calcule e interprete las siguientes razones para los dos distritos escolares:

• razón niños por cada sanitario • razón niños por cada bebedero

2. En un país en desarrollo ocurrieron 432,614 defunciones a lo largo de un año. De tales defunciones las correspondientes a niños menores de un año fueron 125,315. Por otra parte, en un país desarrollado, ocurrieron 1' 347,915 defunciones en total. De tales defunciones 114,304 correspondieron a niños menores de un año. Con la información anterior calcule e interprete la proporción de las defunciones de menores de un año en relación con el total de las defunciones. Compare la importancia de la mortalidad de los niños menores de un año en cada país. 3. En un estudio sobre deserción escolar a nivel de licenciatura se encontró que de 894 estudiantes que ingresaron a la carrera de química 148 abandonaron los estudios durante el primer año de la carrera. Por otra parte, de 1,311 alumnos que ingresaron a la carrera de medicina 118 abandonaron los estudios durante el primer año de la carrera. Calcule y compare las tasas de deserción en primer año para ambas licenciaturas. 4. En un estudio efectuado en 1987 sobre el personal académico de instituciones públicas y privadas de educación superior se encontró que había 894 hombres y 1,814 mujeres en una universidad pública mientras que en una universidad privada de la misma región había 633 hombres y 274 mujeres. En la universidad pública se encontró que de los hombres 296 poseían grados académicos superiores al de licenciatura y de las mujeres 524 poseían grados análogos. Con respecto a la universidad privada, se encontró que 92 hombres y 38 mujeres poseían grados académicos superiores al de licenciatura. Con la información anterior calcule y describa para cada universidad lo siguiente:

• razones hombres por cada mujeres • proporciones de académicos con estudios de posgrado

76

Page 61: Estadística básica Apuntes

Jesús Reynaga Obregón

La síntesis estadística como cuarta etapa del método estadístico. Medidas de resumen para variables cuantitativas. Mediana y percentiles en series simples de datos. Cuando se desea sintetizar una serie de datos cuantitativos discretos, tales como el número de emba-razos, el número de convulsiones o el número de habitaciones que tienen un grupo de viviendas, debe utilizarse a la mediana y a los percentiles. Estas medidas de resumen, a diferencia del promedio y la des-viación estándar, son perfectamente apropiados para sintetizar a las variables cuantitativas discretas. Con el siguiente ejemplo debe quedar claro que el promedio y la desviación estándar no son medidas de resumen propias para sintetizar a las variables cuantitativas discretas: ¿qué significaría que el promedio de hijos de un grupo de madres fue de 2.75 hijos?, ¿significaría que en promedio cada una de las madres tuvo dos hijos completos y otro más al que le faltó un brazo? A diferencia del promedio y la desviación estándar, que solo deben usarse para sintetizar a variables cuantitativas continuas, la mediana y los percentiles pueden utilizarse para resumir tanto a variables cuantitativas discretas como a variables cuantitativas continuas. La siguiente serie simple de valores se utilizará como ejemplo para ilustrar el cálculo e interpreta-ción de la mediana y algunos percentiles:

Peso en kilogramos de un grupo de 20 niños de un año de edad

9.1 9.4 8.9 9.6 10.5 8.8 9.4 9.2 9.0 8.1 9.3 8.8 9.5 9.7 9.2 9.4 9.6 9.0 9.4 9.8

MEDIANA (o Percentil 50) : Definición: En una serie de valores ordenados de menor a mayor, o viceversa, es aquel valor que divi-de en dos partes de igual tamaño a toda la serie. . Procedimiento: Ordenar la serie y localizar el valor que la divida en dos partes de igual tamaño, de tal manera que en una parte quede el 50% de los datos y en la otra el 50% restante.

8.1 8.8 8.8 8.9 9.0 9.0 9.1 9.2 9.2 9.3

9.4 9.4 9.4 9.4 9.5 9.6 9.6 9.7 9.8 10.5

En vista de que la serie es par no existe un valor que se ubique exactamente en el centro de la serie y que la divida en dos partes. Por lo anterior se considera que el promedio de los dos valores centrales que están colocados en las posiciones 10ª y 11ª corresponde al valor de la mediana; es decir: la mediana equivale al valor promedio de 9.3 y 9.4 (9.35) Interpretación: "La mitad de los niños tuvieron un peso igual o menor que 9.35 kilogramos y la otra mitad pesaron 9.35 o más kilogramos"

77

Page 62: Estadística básica Apuntes

Jesús Reynaga Obregón

PERCENTILES ( Pp ) : Definición: En una serie de valores ordenados, de menor a mayor o viceversa, es aquel valor que divide en dos partes porcentualmente complementarias a toda la serie. Por ejemplo: el percentil 40 divide a la serie en una parte que contiene al 40 % de los valores iguales o inferiores a él y, simultáneamente, en otra parte que contiene al 60% de los valores de la serie iguales o mayores a dicho percentil. Procedimiento: Ordenar la serie y localizar el valor que la divida en los porcentajes complementarios deseados. Por ejemplo, para encontrar el valor del percentil 25 debe localizarse a aquel que deje a una cuarta parte de los valores con menores o iguales magnitudes a él y a las tres cuartas partes restantes de los valores con magnitudes más grandes o iguales a él.

8.1 8.8 8.8 8.9 9.0 9.0 9.1 9.2 9.2 9.3

9.4 9.4 9.4 9.4 9.5 9.6 9.6 9.7 9.8 10.5

En esta serie, entre los valores 9.0 se debe encontrar un valor en una posición tal que hasta él se en-cuentra el 25% de los casos y, simultáneamente, desde él se encuentra el 75% restante de los casos. Usualmente cualquier percentil se ubica en una posición localizada mediante la siguiente fórmula:

Lugar que ocupa el percentil buscado = 100

1)(n)(pbuscado +

Para el caso del percentil 25, a la posición

1001)(20)(p25 +

le corresponde el lugar 5.25100

(21)(25)=

Lo anterior significa que el percentil 25 se encuentra entre el lugar 5 y el lugar 6. En estos casos, por convención, se considera posible obtener un promedio de los valores que se encuentren en las posicio-nes adyacentes. Como ya se observó, la quinta posición está ocupada por un valor de 9.0 y la sexta por un valor también de 9.0; por lo anterior, el promedio de ambos valores es igual a 9.0. Interpretación: (Válida para el Percentil 25 o P25) : " El 25% de los niños tuvo un peso de 9.0 kilo-gramos o menor y el 75% restante tuvo peso de 9.0 kilogramos ó mayor". Como ejemplo adicional supongamos que se desea encontrar el valor del percentil 75. Para ello debe localizarse a aquel que deje a tres cuartas partes de los valores con menores o iguales magnitudes a él y a la cuarta parte restante de los valores con magnitudes más grandes o iguales a él.

8.1 8.8 8.8 8.9 9.0 9.0 9.1 9.2 9.2 9.3

9.4 9.4 9.4 9.4 9.5 9.6 9.6 9.7 9.8 10.5

En esta serie, entre los valores 9.5 y 9.6 se debe encontrar un valor en una posición tal que hasta él se encuentra el 75% de los casos y, simultáneamente, desde él se encuentra el 25% restante de los casos.

78

Page 63: Estadística básica Apuntes

Jesús Reynaga Obregón

Utilizando la fórmula:

Lugar que ocupa el percentil buscado = 100

1)(n)(pbuscado +

Se tiene que al percentil 75 le corresponde la posición

1001)(20)(p75 +

que equivale a 15.75100

(21)(75)=

Lo anterior significa que el percentil 75 se encuentra entre el lugar 15 y el lugar 16. Como ya se dijo, en estos casos, y por convención, se considera posible obtener un promedio de los valores que se encuen-tren en las posiciones adyacentes. Como ya se observó, la posición 15 está ocupada por un valor de 9.5 y la posición 16 por un valor también de 9.6; por lo anterior, el promedio de ambos valores es igual a 9.55. Interpretación: (Válida para el Percentil 75 o P75) : " El 75% de los niños tuvo un peso de 9.55 kilo-gramos o menor y el 25% restante tuvo peso de 9.55 kilogramos ó mayor". RANGO INTERCUARTÍLICO (RIC): Se define al rango intercuartílico (RIC) como la diferencia entre los percentiles 75 y 25. El rango intercuar-tílico es una medida que abarca al 50% central de los valores de una serie ordenada de números y viene siendo una medida de síntesis que expresa el grado de homogeneidad o heterogeneidad de dicho por-centaje de datos. Para el ejemplo que se ha venido siguiendo se tiene que la diferencia p75 – p25 es igual a 9.55 – 9.0 = 0.55; lo anterior quiere decir que, específicamente refiriéndose al 50% central de los datos ya ordenados, la diferencia entre el mayor y el menor de los datos de dicho 50% central de los valores es de 0.55 kilo-gramos. El RIC es una medida que permite comparar con facilidad la homogeneidad o heterogeneidad de dos series de datos semejantes; vease el siguiente ejemplo:

Peso al nacer de dos grupos de niños según duración de la gestación

Número de niños

Duración de la gestación en semanas

p25 p75Diferencia p75 – p25

Comentario

60 32 1,800 2,800 1,000

El 50% central de la serie de pesos de los 60 niños tiene una diferencia entre el mayor de los pesos y el menor de ellos de 1,000 gramos. Pue-de hablarse de gran hetero-geneidad

2,709 39 2,884 3,132 248

El 50% central de la serie de pesos de los 2,709 niños tiene una diferencia entre el mayor de los pesos y el me-nor de ellos de 248 gramos. Puede hablarse de gran homogeneidad

79

Page 64: Estadística básica Apuntes

Jesús Reynaga Obregón

PROBLEMA RESUELTO Luego de criar durante dos años a un grupo de 20 cerdos en una granja modelo que funcionaba bajo el régimen de sociedad cooperativa, en condiciones de estricta higiene animal, se sacrificaron y observaron sus cerebros en búsqueda de quistes de cisticercos. Los hallazgos se compararon con otro grupo de 20 cerdos criados en los patios de las casas de la misma localidad. Cerdos provenientes de la granja modelo

Cerdo No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1

5 16

17 18 19 20

Quistes

1

3

0

2

3

1

2

2

1

4

1

0

1

1

2

1

0

2

4

1

Cerdos provenientes de patios de casas

Cerdo No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1

5 16

17 18 19 20

Quistes

7

4

2

4

5

1

0

2

2

9

2

3

4

4

1

6

4

4

3

1

Preguntas: a) Para cada grupo identifique la mediana (o percentil 50) y emita una opinión con respecto a los resulta-dos. b) Para cada grupo identifique los valores mínimo y máximo, así como los percentiles 25 y 75 y llene la siguiente tabla: Valor mínimo Percentil 25 Percentil 75 Valor máximo Grupo "Granja" Grupo "Patios" c) Emita una opinión en relación con los hallazgos en términos de porcentajes de cada grupo consideran-do a los percentiles 25 y 75. d) No olvide discutir los hallazgos para el 50% central de los animales de uno y otro grupo que se encon-traron entre los percentiles 25 y 75 de cada uno de los grupos. También, opine sobre la homogeneidad y heterogeneidad de los grupos. Para responder a las preguntas, primero se ordenan los datos y se localizan los percentiles bus-cados: Cerdos provenientes de la granja modelo Cerdo No.

3 12

17

1 6 9 11

13

14

16 20 4 7 8 15

18

2 5 10 19

Quistes

0

0

0

1

1

1

1

1

1

1

1

2

2

2

2

2

3

3

4

4

P75 = (2+2) / 2 = 2 P50 = (1+1) / 2 = 1 P25 = (1+1) / 2 = 1

80

Page 65: Estadística básica Apuntes

Jesús Reynaga Obregón

Cerdos provenientes de patios de casas Cerdo No.

7 6 15

20

3 8 9 11

12

19 2 4 13 14 17

18

5 16 1 10

Quistes

0

1

1

1

2

2

2

2

3

3

4

4

4

4

4

4

5

6

7

9

P75 = (4+4) / 2 = 4 P50 = (3+4) / 2 = 3.5 P25 = (2+2) / 2 = 2

Respuestas: a) La mediana del grupo granja fue 1 y la del grupo patios fue 3.5. Se observó que la mitad de los cerdos del grupo granja tuvo 1 o menos quistes y la otra mitad de ellos tuvieron 1 o más quistes Se observó que la mitad de los cerdos del grupo patios tuvo 3.5 o menos quistes y la otra mitad de ellos tuvieron 3.5 o más quistes b) Valor mínimo Percentil 25 Percentil 75 Valor máximo Grupo "Granja" 0 1 2 4 Grupo "Patios" 0 2 4 9 c) En el grupo granja una cuarta parte de los cerdos tuvo hasta 1 quiste y las tres cuartas partes restantes tuvieron desde 1 quiste en adelante. En el grupo granja tres cuartas partes de los cerdos tuvieron hasta 2 quistes y la cuarta parte restante tuvo desde 2 quistes en adelante. En el grupo patios una cuarta parte de los cerdos tuvo hasta 2 quistes y las tres cuartas partes restantes tuvieron desde 2 quistes en adelante. En el grupo patios tres cuartas partes de los cerdos tuvieron hasta 4 quistes y la cuarta parte restante tuvo desde 4 quistes en adelante. d) En el grupo granja el 50% central de los cerdos tuvieron entre 1 y 2 quistes, mientras que en el grupo patios el 50% central de los cerdos tuvieron entre 2 y 4 quistes; por lo anterior puede decirse que los cerdos del grupo granja fueron más homogéneos y los del grupo patios fueron más heterogéneos.

81

Page 66: Estadística básica Apuntes

Jesús Reynaga Obregón

La síntesis estadística como cuarta etapa del método estadístico. Medidas de resumen para variables cuantitativas. Promedio y desviación estándar en series simples de datos.

La siguiente serie simple de valores se utilizará como ejemplo para ilustrar el cálculo e interpretación de las medidas de resumen:

Peso en kilogramos de un grupo de 20 niños de un año de edad

9.1 9.4 8.9 9.6 10.5 8.8 9.4 9.2 9.0 8.1

9.3 8.8 9.5 9.7 9.2 9.4 9.6 9.0 9.4 9.8

PROMEDIO: Definición: Es el valor que tendrían todos los datos de una serie numérica si ellos fueran de igual valor.

Fórmula: xx

n= ∑

Procedimiento: Sumar todos los valores y dividir tal suma entre el número de valores que componen a la serie simple. En este caso la suma es: 185.7 y, entonces, el promedio vale:

185.7 / 20 = 9.285 Kilogramos Interpretación: "Si todos los niños tuvieran peso igual, éste sería de 9.285 kilogramos".

DESVIACION ESTANDAR 1

Definición: Es la raíz cuadrada de la varianza. A su vez, la varianza equivale al promedio de las desvia-ciones o diferencias cuadráticas de cada valor de una serie con respecto al promedio de dicha serie. Fórmula:

1-n

)x(xs

2∑ −=

1 Junto con esta sección se recomienda estudiar documentos y realizar ejercicios relacionados con la curva normal

82

Page 67: Estadística básica Apuntes

Jesús Reynaga Obregón

Procedimiento: Paso 1. Obtener el promedio de la serie de valores. En este caso, por tratarse de una serie simple de va-

lores se usa la fórmula anteriormente revisada: xx

n= ∑

Paso 2. Calcular la desviación o diferencia de cada valor en relación con el promedio de la serie; es decir obtener una serie de valores ( )x x− Paso 3. Elevar al cuadrado cada una de las anteriores desviaciones; es decir obtener una serie de valo-

res ( )x x−2

Paso 4. Efectuar la suma de desviaciones cuadráticas; es decir obtener el valor ( )x x 2−∑

Paso 5. Dividir la suma anterior entre el número de valores menos uno; es decir: obtener el promedio de

desviaciones cuadráticas o varianza: ( )

1-nxx 2∑ −

Paso 6. Obtener la raíz cuadrada del anterior promedio; es decir obtener la desviación estándar:

( )

1-nxx

s2∑ −

=

Así, los cálculos para los pesos de los 20 niños son los siguientes: Para el paso 1: El promedio, ya calculado en párrafos anteriores vale: 9.285 kgrs. Para los pasos 2, 3 y 4 se recomienda utilizar una tabla auxiliar como la siguiente para efectuar los cálcu-los:

83

Page 68: Estadística básica Apuntes

Jesús Reynaga Obregón

Cada uno de los valores

Xi

Desviación de cada valor con respec-to al promedio __ ( Xi - X ) (paso 2)

Elevación al cuadrado de cada una de las desviaciones __ 2 ( Xi - X ) (paso 3)

9.1 -0.185 0.034 9.4 0.115 0.113 8.9 -0.385 0.148

. . .

. . . 9.8 0.515 0.265.

4.446 (paso 4)

Para el paso 5: El promedio de desviaciones cuadráticas, o varianza, vale entonces: 4.446 / (20 - 1) = 0.234 Para el paso 6: Finalmente la desviación estándar, que equivale a la raíz cuadrada de la varianza equi-vale a la raíz cuadrada de 0.234 o sea: 0.484 kgrs. Interpretación: La interpretación está condicionada a la suposición de que los valores tienen una distri-bución semejante a la de la curva normal 2. Dicha interpretación puede ser realizada en múltiples sentidos ya que se sabe que el 68.27% de los valo-res de una serie que se distribuye como la curva normal están agrupados alrededor del promedio si a éste se le resta una vez y también se le suma una vez el valor calculado para la desviación estándar. Para el ejemplo, puede decirse entonces que el 68.27% de los niños tuvieron pesos que fluctuaron des-de 8.801 kgrs (es decir: 9.285 kgrs menos 0.484 kgrs) hasta 9.769 kgrs. (es decir: 9.285 más 0.484 kgrs.). Por otra parte, como se sabe que la curva normal tiene una área que equivale a un total de 100%, enton-ces también puede decirse que hubo un 31.73% (ya que si a 100% se le resta 68.27% quedan 31.73%) de los niños que pesaron menos de 8.801 kgrs. o que pesaron más de 9.769 kgrs.

2 Ver documentos relacionados con la curva normal

84

Page 69: Estadística básica Apuntes

Jesús Reynaga Obregón

Relación entre el promedio y la desviación estándar con la curva normal Cuando se calcula la desviación estándar para una serie de datos no siempre es evidente el significado del resultado obtenido y menos lo es aún si no se compara con la desviación estándar de otra serie diferente de datos. Para muchas personas podría tener significado que le dijeran que el promedio de peso de un grupo de 300 personas fue de 80 kilos pues, si se acuerda de la definición del promedio, imaginaría que si todos los individuos tuvieran el mismo peso este sería de 80 kilos; sin embargo para quienes no tienen conocimiento de las características básicas del modelo de la curva normal podría carecer de significado que le mencionaran que la desviación estándar del peso de las mismas personas fue de 5 kilos. Interpretar la desviación estándar y comprender cabalmente lo que ella significa en relación con los datos que se están manejando solo es posible a la luz del conocimiento del modelo de la curva normal. PROPIEDADES PRINCIPALES DE LA CURVA NORMAL 1. La curva normal es un polígono de frecuencias en forma de campana para el que están calculadas sus áreas en función de los diversos valores del eje horizontal o abscisa.

2. En la abscisa se encuentran valores de tipo cuantitativo continuo, genéricamente denominados valores z, cuyas magnitudes teóricamente pueden ir, de izquierda a derecha desde - α hasta + α ( desde menos infinito hasta mas infinito). 3. El promedio de todos los valores z de la abscisa equivale a cero, pues la mitad son negativos y la mitad son positivos. En el sitio de la abscisa que corresponde al cero, es decir al promedio, se encuentra la parte más alta de la curva. En este sitio también se encuentra la mediana de todos los valores z de la abscisa, pues el 50% de ellos está antes del cero y el 50% restante se encuentra después. 4. La curva es simétrica alrededor del promedio; esto es, hay una mitad izquierda que es reflejo de la mitad derecha. 5. En la abscisa existen segmentos unitarios de igual longitud y de tamaño 1. Los segmentos a la izquierda del promedio tienen signo negativo y los segmentos a la derecha del promedio tienen

85

Page 70: Estadística básica Apuntes

Jesús Reynaga Obregón

signo positivo. Tales segmentos, denominados desviaciones estándar pueden dividirse en fracciones infinitamente pequeñas y continuas. 6. La curva es asintótica; es decir, sus extremos teóricamente nunca tocan a la abscisa. Por ello, la longitud de la abscisa podría ser infinitamente larga; sin embargo se acostumbra graficar solo hasta la distancia de tres segmentos a la izquierda y a la derecha del promedio. 7. Toda el área bajo la curva vale 1. Por lo anterior el área a la izquierda del promedio vale .5 y el área a la derecha del promedio vale también .5 8. El área que se encuentra sobre el segmento de la abscisa que va desde el promedio hasta el valor z de +1 vale .3413; por simetría, el arrea que se encuentra sobre el segmento que va desde el promedio hasta el valor z de -1 de la abscisa también vale .3413 Por lo anterior el área que se encuentra por arriba del amplio segmento que va desde el valor z de -1 hasta el valor z de +1 equivale a .6826; es decir a la suma de .3413 mas .3413 9. El área que se encuentra sobre el segmento de la abscisa que van más allá del valor z de +1 vale .1587; por simetría, el arrea que se encuentra sobre el segmento que va más allá (hacia menos infinito) del valor z de -1 de la abscisa también vale .1587 10. Para cualquier segmento de la abscisa, y aún para fracciones de segmento, se encuentran calculadas las áreas correspondientes en tablas como la siguiente:

(A) Valor z

(B) Area entre el promedio y el

valor z

(C) Area más allá

del valor z

0.00 .0000 .5000 0.25 .0987 .4013 0.50 .1915 .3085 0.75 .2734 .2266 1.00 .3413 .1587 1.25 .3944 .1056 1.50 .4332 .0668 1.65 .4505 .0495 1.75 .4599 .0401 1.96 .4750 .0250 2.00 .4772 .0228 2.58 .4950 .0050

. . .

86

Page 71: Estadística básica Apuntes

Jesús Reynaga Obregón

APROVECHAMIENTO DE LAS PROPIEDADES DE LA CURVA NORMAL PARA LA INTERPRETACION DE LA DESVIACION ESTANDAR Al principio de este documento se comentó que sin conocer las características básicas del modelo de la curva normal podría carecer de significado que se mencionara que el valor de la desviación estándar del peso de 300 personas fue de 5 kilos. Una vez que se han comprendido las propiedades principales de la curva normal es posible entender el significado del valor de la desviación estándar del peso de las 300 personas si se hacen suposiciones como las siguientes: Suponiendo que al graficar el peso de los 300 individuos con un polígono de frecuencias, el gráfico resultante fuera muy parecido al modelo de la curva normal como se muestra en la siguiente ilustración:

entonces podría decirse que:

• el área bajo la curva de valores de peso que contiene a los individuos vale 300 de manera semejante a la propiedad del modelo de la curva normal de que su área vale 1;

• a la izquierda del promedio existen 150 individuos y a la derecha del promedio existen

los otros 150;

87

Page 72: Estadística básica Apuntes

Jesús Reynaga Obregón

• así como en la curva normal existe una área de .3413 sobre el segmento que va desde el valor z de 0 hasta el valor z de + 1 en la curva de valores x (es decir kilos de peso) habrá el .3413 de 300 o sea que habrá 102 personas sobre el segmento que va desde el valor x de 80 kilos hasta el valor x de 85 kilos;

• de acuerdo al párrafo anterior, habrá 204 personas con pesos que van desde 75 hasta

85 kilos; • al igual que en la curva normal existe simetría alrededor del promedio, se puede

considerar que en la curva de valores de peso habrá 102 personas sobre el segmento que va desde 80 kilos hasta 75 kilos de peso;

• en la curva de valores peso habrá un .1587 de las 300 personas; es decir 48 personas,

con pesos de 85 y más kilos; • de manera semejante a la curva normal, por simetría habrá un .1587 de las 300

personas; es decir 48 personas, con pesos de 75 y menos kilos. Como puede apreciarse, una vez que se conocen las características del modelo de la curva normal, la interpretación del resultado de la desviación estándar que se haya calculado para una serie de datos es mucho más fácil y brinda una gran cantidad de información sobre la manera en que se distribuyen los valores. Para confirmar que la comprensión del significado de la desviación estándar brinda una importante cantidad de información obsérvese el siguiente ejemplo: Relato: Se aplicó un mismo examen escrito a dos grupos de 90 alumnos cada uno. En un caso se imprimió el examen en hojas de color amarillo paja y en otro caso en hojas de color marrón. Se midió con cronómetro el tiempo, en minutos y fracciones, que tardaron los alumnos en entregar el examen y se calculó el promedio y la desviación estándar para ambos grupos obteniéndose los siguientes resultados:

Grupo Promedio Desviación Estándar

Color Paja 45' 5' Color Marrón 45' 15'

Algunas interpretaciones a partir de los valores de la desviación estándar:

• Los alumnos a quienes se aplicó el examen impreso en hojas color paja entregaron el examen en tiempos más homogéneos, pues el .6826 de ellos (es decir 61 alumnos) lo entregaron entre 40 y 50 minutos luego de haberlo iniciado.

• Los alumnos a quienes se aplicó el examen impreso en hojas color marrón entregaron el

examen en tiempos más heterogéneos, pues el .6826 de ellos (es decir 61 alumnos) lo entregaron entre 30 y 60 minutos luego de haberlo iniciado.

• En el grupo paja el .1587 más lento de los alumnos (es decir: 14) entregaron su examen

luego de 50 minutos, mientras que en el grupo marrón la misma cantidad de alumnos lo hizo luego de 60 minutos.

88

Page 73: Estadística básica Apuntes

Jesús Reynaga Obregón

TRANSFORMACIÓN DE VALORES x A VALORES z; USO DE LA TABLA DE AREAS BAJO LA CURVA En la sección anterior se ha visto que hay correspondencia entre las áreas de la curva normal y las de la serie de datos cuantitativos continuos que se esté manejando siempre y cuando se haya comprobado que esta última, al ser graficada con un polígono de frecuencias, muestra un parecido razonable con el perfil de la curva normal. Tal correspondencia ha permitido solamente mencionar las áreas que se encuentran sobre segmentos completos de la abscisa; es decir, solamente se ha hecho mención de áreas por arriba o más allá de desviaciones estándar enteras. Sin embargo, cómo podría responderse a la pregunta ¿cuantos alumnos de cada grupo tardaron 47 o más minutos en entregar su examen?. En este caso se aprecia que no hay coincidencia entre el valor z de + 1 y el valor x de 47 minutos y por ello deja de ser útil el método de comparación analógica de los gráficos que se utilizó en páginas anteriores. La respuesta estriba en el uso de una fórmula para transformar cualquier valor x en su correspondiente valor z y en hacer uso de la tabla de áreas bajo la curva normal. Una vez que se han calculado tanto el promedio como la desviación estándar para una serie de datos cuantitativos continuos, el valor z que, en la abscisa de la curva normal corresponde a un determinado valor x de la abscisa de los datos que se están manejando, se encuentra con la fórmula:

zx x

s=

Para responder a la pregunta recientemente planteada de ¿cuantos alumnos de cada grupo tardaron 47 o más minutos en entregar su examen? se hacen las siguientes sustituciones: Para el grupo al que se aplicó el examen en hojas color paja se tiene que x = 45' y s = 5' ; el valor z que se desea conocer es el correspondiente a un valor x de 47;

entonces: z47 45

5=

−= =

2

54.

El valor z obtenido, en este caso .4 debe localizarse en la primera columna de la tabla de áreas bajo la curva (1) . Una vez localizado tal valor, se busca en la segunda columna cuál es el área que en la curva normal se encuentra más allá de dicho valor z; en este caso es de .3446.

1 Usar la tabla detallada de áreas bajo la curva normal que se encuentra como anexo de este documento. Dicha tabla tiene ligeras diferencias de formato con la de la página 2

89

Page 74: Estadística básica Apuntes

Jesús Reynaga Obregón

Como el área encontrada (.3446) es una proporción del área total, entonces la misma proporción se aplica al total de alumnos del grupo para saber cuantos tardaron más de 47 minutos en entregar el examen. Así, luego de efectuar la operación .3446 X 90 = 31, puede responderse a la pregunta con el señalamiento de que hubo en este grupo 31 alumnos que tardaron 47 o más minutos en entregar su examen. Desde luego, al conocer las propiedades básicas de la curva normal, también se puede decir que hubo 59 alumnos que tardaron 47 o menos minutos en entregar su examen. Por otra parte, para el grupo al que se aplicó el examen en hojas color marrón se tiene que x = 45' y s = 15' ; el valor z que se desea conocer es el correspondiente a un valor x de 47;

entonces: z47 45

15=

−= =

2

1513.

El valor z obtenido, en este caso .13 debe localizarse en la primera columna de la tabla de áreas bajo la curva (2) . Una vez localizado tal valor, se busca en la segunda columna cuál es el área que en la curva normal se encuentra más allá de dicho valor z; en este caso es de .3446. Como el área encontrada (.4483) es una proporción del área total, entonces la misma proporción se aplica al total de alumnos del grupo para saber cuantos tardaron más de 47 minutos en entregar el examen. Así, luego de efectuar la operación .4483 X 90 = 40, puede responderse a la pregunta con el señalamiento de que hubo en este grupo 40 alumnos que tardaron 47 o más minutos en entregar su examen. Desde luego, al conocer las propiedades básicas de la curva normal, también se puede decir que hubo 50 alumnos que tardaron 47 o menos minutos en entregar su examen.

2 Usar la tabla detallada de áreas bajo la curva normal que se encuentra como anexo de este documento. Dicha tabla tiene ligeras diferencias de formato con la de la página 2

90

Page 75: Estadística básica Apuntes

Jesús Reynaga Obregón

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo extremo

más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

sxxz −

=

91

Z

Z

Z

Page 76: Estadística básica Apuntes

Jesús Reynaga Obregón

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo

extremo más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo

extremo más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

0.00 0.5000 0.5000 0.0000 0.50 0.6915 0.3085 0.1915 0.01 0.5040 0.4960 0.0040 0.51 0.6950 0.3050 0.1950 0.02 0.5080 0.4920 0.0080 0.52 0.6985 0.3015 0.1985 0.03 0.5120 0.4880 0.0120 0.53 0.7019 0.2981 0.2019 0.04 0.5160 0.4840 0.0160 0.54 0.7054 0.2946 0.2054 0.05 0.5199 0.4801 0.0199 0.55 0.7088 0.2912 0.2088 0.06 0.5239 0.4761 0.0239 0.56 0.7123 0.2877 0.2123 0.07 0.5279 0.4721 0.0279 0.57 0.7157 0.2843 0.2157 0.08 0.5319 0.4681 0.0319 0.58 0.7190 0.2810 0.2190 0.09 0.5359 0.4641 0.0359 0.59 0.7224 0.2776 0.2224 0.10 0.5398 0.4602 0.0398 0.60 0.7257 0.2743 0.2257 0.11 0.5438 0.4562 0.0438 0.61 0.7291 0.2709 0.2291 0.12 0.5478 0.4522 0.0478 0.62 0.7324 0.2676 0.2324 0.13 0.5517 0.4483 0.0517 0.63 0.7357 0.2643 0.2357 0.14 0.5557 0.4443 0.0557 0.64 0.7389 0.2611 0.2389 0.15 0.5596 0.4404 0.0596 0.65 0.7422 0.2578 0.2422 0.16 0.5636 0.4364 0.0636 0.66 0.7454 0.2546 0.2454 0.17 0.5675 0.4325 0.0675 0.67 0.7486 0.2514 0.2486 0.18 0.5714 0.4286 0.0714 0.68 0.7517 0.2483 0.2517 0.19 0.5753 0.4247 0.0753 0.69 0.7549 0.2451 0.2549 0.20 0.5793 0.4207 0.0793 0.70 0.7580 0.2420 0.2580 0.21 0.5832 0.4168 0.0832 0.71 0.7611 0.2389 0.2611 0.22 0.5871 0.4129 0.0871 0.72 0.7642 0.2358 0.2642 0.23 0.5910 0.4090 0.0910 0.73 0.7673 0.2327 0.2673 0.24 0.5948 0.4052 0.0948 0.74 0.7704 0.2296 0.2704 0.25 0.5987 0.4013 0.0987 0.75 0.7734 0.2266 0.2734 0.26 0.6026 0.3974 0.1026 0.76 0.7764 0.2236 0.2764 0.27 0.6064 0.3936 0.1064 0.77 0.7794 0.2206 0.2794 0.28 0.6103 0.3897 0.1103 0.78 0.7823 0.2177 0.2823 0.29 0.6141 0.3859 0.1141 0.79 0.7852 0.2148 0.2852 0.30 0.6179 0.3821 0.1179 0.80 0.7881 0.2119 0.2881 0.31 0.6217 0.3783 0.1217 0.81 0.7910 0.2090 0.2910 0.32 0.6255 0.3745 0.1255 0.82 0.7939 0.2061 0.2939 0.33 0.6293 0.3707 0.1293 0.83 0.7967 0.2033 0.2967 0.34 0.6331 0.3669 0.1331 0.84 0.7995 0.2005 0.2995 0.35 0.6368 0.3632 0.1368 0.85 0.8023 0.1977 0.3023 0.36 0.6406 0.3594 0.1406 0.86 0.8051 0.1949 0.3051 0.37 0.6443 0.3557 0.1443 0.87 0.8078 0.1922 0.3078 0.38 0.6480 0.3520 0.1480 0.88 0.8106 0.1894 0.3106 0.39 0.6517 0.3483 0.1517 0.89 0.8133 0.1867 0.3133 0.40 0.6554 0.3446 0.1554 0.90 0.8159 0.1841 0.3159 0.41 0.6591 0.3409 0.1591 0.91 0.8186 0.1814 0.3186 0.42 0.6628 0.3372 0.1628 0.92 0.8212 0.1788 0.3212 0.43 0.6664 0.3336 0.1664 0.93 0.8238 0.1762 0.3238 0.44 0.6700 0.3300 0.1700 0.94 0.8264 0.1736 0.3264 0.45 0.6736 0.3264 0.1736 0.95 0.8289 0.1711 0.3289 0.46 0.6772 0.3228 0.1772 0.96 0.8315 0.1685 0.3315 0.47 0.6808 0.3192 0.1808 0.97 0.8340 0.1660 0.3340 0.48 0.6844 0.3156 0.1844 0.98 0.8365 0.1635 0.3365 0.49 0.6879 0.3121 0.1879 0.99 0.8389 0.1611 0.3389 0.50 0.6915 0.3085 0.1915 1.00 0.8413 0.1587 0.3413

92

Page 77: Estadística básica Apuntes

Jesús Reynaga Obregón

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo

extremo más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo

extremo más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

1.00 0.8413 0.1587 0.3413 1.50 0.9332 0.0668 0.4332 1.01 0.8438 0.1562 0.3438 1.51 0.9345 0.0655 0.4345 1.02 0.8461 0.1539 0.3461 1.52 0.9357 0.0643 0.4357 1.03 0.8485 0.1515 0.3485 1.53 0.9370 0.0630 0.4370 1.04 0.8508 0.1492 0.3508 1.54 0.9382 0.0618 0.4382 1.05 0.8531 0.1469 0.3531 1.55 0.9394 0.0606 0.4394 1.06 0.8554 0.1446 0.3554 1.56 0.9406 0.0594 0.4406 1.07 0.8577 0.1423 0.3577 1.57 0.9418 0.0582 0.4418 1.08 0.8599 0.1401 0.3599 1.58 0.9429 0.0571 0.4429 1.09 0.8621 0.1379 0.3621 1.59 0.9441 0.0559 0.4441 1.10 0.8643 0.1357 0.3643 1.60 0.9452 0.0548 0.4452 1.11 0.8665 0.1335 0.3665 1.61 0.9463 0.0537 0.4463 1.12 0.8686 0.1314 0.3686 1.62 0.9474 0.0526 0.4474 1.13 0.8708 0.1292 0.3708 1.63 0.9484 0.0516 0.4484 1.14 0.8729 0.1271 0.3729 1.64 0.9495 0.0505 0.4495 1.15 0.8749 0.1251 0.3749 1.65 0.9505 0.0495 0.4505 1.16 0.8770 0.1230 0.3770 1.66 0.9515 0.0485 0.4515 1.17 0.8790 0.1210 0.3790 1.67 0.9525 0.0475 0.4525 1.18 0.8810 0.1190 0.3810 1.68 0.9535 0.0465 0.4535 1.19 0.8830 0.1170 0.3830 1.69 0.9545 0.0455 0.4545 1.20 0.8849 0.1151 0.3849 1.70 0.9554 0.0446 0.4554 1.21 0.8869 0.1131 0.3869 1.71 0.9564 0.0436 0.4564 1.22 0.8888 0.1112 0.3888 1.72 0.9573 0.0427 0.4573 1.23 0.8907 0.1093 0.3907 1.73 0.9582 0.0418 0.4582 1.24 0.8925 0.1075 0.3925 1.74 0.9591 0.0409 0.4591 1.25 0.8944 0.1056 0.3944 1.75 0.9599 0.0401 0.4599 1.26 0.8962 0.1038 0.3962 1.76 0.9608 0.0392 0.4608 1.27 0.8980 0.1020 0.3980 1.77 0.9616 0.0384 0.4616 1.28 0.8997 0.1003 0.3997 1.78 0.9625 0.0375 0.4625 1.29 0.9015 0.0985 0.4015 1.79 0.9633 0.0367 0.4633 1.30 0.9032 0.0968 0.4032 1.80 0.9641 0.0359 0.4641 1.31 0.9049 0.0951 0.4049 1.81 0.9649 0.0351 0.4649 1.32 0.9066 0.0934 0.4066 1.82 0.9656 0.0344 0.4656 1.33 0.9082 0.0918 0.4082 1.83 0.9664 0.0336 0.4664 1.34 0.9099 0.0901 0.4099 1.84 0.9671 0.0329 0.4671 1.35 0.9115 0.0885 0.4115 1.85 0.9678 0.0322 0.4678 1.36 0.9131 0.0869 0.4131 1.86 0.9686 0.0314 0.4686 1.37 0.9147 0.0853 0.4147 1.87 0.9693 0.0307 0.4693 1.38 0.9162 0.0838 0.4162 1.88 0.9699 0.0301 0.4699 1.39 0.9177 0.0823 0.4177 1.89 0.9706 0.0294 0.4706 1.40 0.9192 0.0808 0.4192 1.90 0.9713 0.0287 0.4713 1.41 0.9207 0.0793 0.4207 1.91 0.9719 0.0281 0.4719 1.42 0.9222 0.0778 0.4222 1.92 0.9726 0.0274 0.4726 1.43 0.9236 0.0764 0.4236 1.93 0.9732 0.0268 0.4732 1.44 0.9251 0.0749 0.4251 1.94 0.9738 0.0262 0.4738 1.45 0.9265 0.0735 0.4265 1.95 0.9744 0.0256 0.4744 1.46 0.9279 0.0721 0.4279 1.96 0.9750 0.0250 0.4750 1.47 0.9292 0.0708 0.4292 1.97 0.9756 0.0244 0.4756 1.48 0.9306 0.0694 0.4306 1.98 0.9761 0.0239 0.4761 1.49 0.9319 0.0681 0.4319 1.99 0.9767 0.0233 0.4767 1.50 0.9332 0.0668 0.4332 2.00 0.9772 0.0228 0.4772

93

Page 78: Estadística básica Apuntes

Jesús Reynaga Obregón

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo

extremo más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

Valor Z

(A)

Área desde el extremo

opuesto hasta el valor Z

(B)

Área en el mismo

extremo más allá del valor Z

(C)

Área entre el promedio y el

valor Z

(D)

2.00 0.9772 0.0228 0.4772 2.50 0.9938 0.0062 0.4938 2.01 0.9778 0.0222 0.4778 2.51 0.9940 0.0060 0.4940 2.02 0.9783 0.0217 0.4783 2.52 0.9941 0.0059 0.4941 2.03 0.9788 0.0212 0.4788 2.53 0.9943 0.0057 0.4943 2.04 0.9793 0.0207 0.4793 2.54 0.9945 0.0055 0.4945 2.05 0.9798 0.0202 0.4798 2.55 0.9946 0.0054 0.4946 2.06 0.9803 0.0197 0.4803 2.56 0.9948 0.0052 0.4948 2.07 0.9808 0.0192 0.4808 2.57 0.9949 0.0051 0.4949 2.08 0.9812 0.0188 0.4812 2.58 0.9951 0.0049 0.4951 2.09 0.9817 0.0183 0.4817 2.59 0.9952 0.0048 0.4952 2.10 0.9821 0.0179 0.4821 2.60 0.9953 0.0047 0.4953 2.11 0.9826 0.0174 0.4826 2.61 0.9955 0.0045 0.4955 2.12 0.9830 0.0170 0.4830 2.62 0.9956 0.0044 0.4956 2.13 0.9834 0.0166 0.4834 2.63 0.9957 0.0043 0.4957 2.14 0.9838 0.0162 0.4838 2.64 0.9959 0.0041 0.4959 2.15 0.9842 0.0158 0.4842 2.65 0.9960 0.0040 0.4960 2.16 0.9846 0.0154 0.4846 2.66 0.9961 0.0039 0.4961 2.17 0.9850 0.0150 0.4850 2.67 0.9962 0.0038 0.4962 2.18 0.9854 0.0146 0.4854 2.68 0.9963 0.0037 0.4963 2.19 0.9857 0.0143 0.4857 2.69 0.9964 0.0036 0.4964 2.20 0.9861 0.0139 0.4861 2.70 0.9965 0.0035 0.4965 2.21 0.9864 0.0136 0.4864 2.71 0.9966 0.0034 0.4966 2.22 0.9868 0.0132 0.4868 2.72 0.9967 0.0033 0.4967 2.23 0.9871 0.0129 0.4871 2.73 0.9968 0.0032 0.4968 2.24 0.9875 0.0125 0.4875 2.74 0.9969 0.0031 0.4969 2.25 0.9878 0.0122 0.4878 2.75 0.9970 0.0030 0.4970 2.26 0.9881 0.0119 0.4881 2.76 0.9971 0.0029 0.4971 2.27 0.9884 0.0116 0.4884 2.77 0.9972 0.0028 0.4972 2.28 0.9887 0.0113 0.4887 2.78 0.9973 0.0027 0.4973 2.29 0.9890 0.0110 0.4890 2.79 0.9974 0.0026 0.4974 2.30 0.9893 0.0107 0.4893 2.80 0.9974 0.0026 0.4974 2.31 0.9896 0.0104 0.4896 2.81 0.9975 0.0025 0.4975 2.32 0.9898 0.0102 0.4898 2.82 0.9976 0.0024 0.4976 2.33 0.9901 0.0099 0.4901 2.83 0.9977 0.0023 0.4977 2.34 0.9904 0.0096 0.4904 2.84 0.9977 0.0023 0.4977 2.35 0.9906 0.0094 0.4906 2.85 0.9978 0.0022 0.4978 2.36 0.9909 0.0091 0.4909 2.86 0.9979 0.0021 0.4979 2.37 0.9911 0.0089 0.4911 2.87 0.9979 0.0021 0.4979 2.38 0.9913 0.0087 0.4913 2.88 0.9980 0.0020 0.4980 2.39 0.9916 0.0084 0.4916 2.89 0.9981 0.0019 0.4981 2.40 0.9918 0.0082 0.4918 2.90 0.9981 0.0019 0.4981 2.41 0.9920 0.0080 0.4920 2.91 0.9982 0.0018 0.4982 2.42 0.9922 0.0078 0.4922 2.92 0.9982 0.0018 0.4982 2.43 0.9925 0.0075 0.4925 2.93 0.9983 0.0017 0.4983 2.44 0.9927 0.0073 0.4927 2.94 0.9984 0.0016 0.4984 2.45 0.9929 0.0071 0.4929 2.95 0.9984 0.0016 0.4984 2.46 0.9931 0.0069 0.4931 2.96 0.9985 0.0015 0.4985 2.47 0.9932 0.0068 0.4932 2.97 0.9985 0.0015 0.4985 2.48 0.9934 0.0066 0.4934 2.98 0.9986 0.0014 0.4986 2.49 0.9936 0.0064 0.4936 2.99 0.9986 0.0014 0.4986 2.50 0.9938 0.0062 0.4938 3.00 0.9987 0.0013 0.4987

94

Page 79: Estadística básica Apuntes

Jesús Reynaga Obregón

1 Se dice que una distribución de valores cuantitativos continuos tiene semejanza a la curva normal si su sesgo, calculado a través del método de momentos, vale entre - 0.5 y + 0.5 , lo cual se simboliza de la siguiente forma :

- 0.5 < a3 < + 0.5 y su curtosis, también calculada a través del método de momentos, vale entre 2 y 4, lo cual se simboliza de la siguiente forma :

2 < a4 < 4

2 Las fórmulas para calcular el sesgo y la curtosis, a través del método de momentos, son las siguientes:

SESGO ( )

a m

m3

3

2

= 3 CURTOSIS ( )

a mm

44

2

= 2

3 El cálculo de momentos para series simples de datos cuantitativos continuos se hace con las fórmulas siguientes: MOMENTOS EN SERIES SIMPLES

Momento 2 mx x

n2 =−⎛

⎝⎜⎞⎠⎟∑

_ 2

Momento 3 mx x

n3 =−⎛

⎝⎜⎞⎠⎟∑

_ 3

Momento 4 mx x

n4 =−⎛

⎝⎜⎞⎠⎟∑

_ 4

95

Page 80: Estadística básica Apuntes

Jesús Reynaga Obregón

4 En el caso de las series simples de valores, conviene efectuar el cálculo de los momentos a través de una tabla auxiliar de trabajo como la del siguiente ejemplo: Ejemplo con una serie simple de valores:

PESO EN KILOGRAMOS DE UN GRUPO DE 20 NIÑOS

DE UN AÑO DE EDAD

9.1 9.4 8.9 9.6 10.5 8.8 9.4 9.2 9.0 8.1 9.3 8.8 9.5 9.7 9.2 9.4 9.6 9.0 9.4 9.8

El promedio vale: 9.285 kgrs.

Cada uno de los valores

Xi

Desviación de cada valor con respecto al promedio __ ( Xi - X )

Elevación al cuadrado de cada una de las desviaciones __ 2 ( Xi - X )

Elevación al cubo de cada una de las desviaciones __ 3 ( Xi - X )

Elevación a la cuarta de cada una de las desviaciones __ 4 ( Xi - X )

9.1 -0.185 0.034 -0.006 0.001 9.4 0.115 0.013 0.002 0.000 8.9 -0.385 0.148 -0.057 0.022 9.6 0.315 0.099 0.031 0.010

10.5 1.215 1.476 1.794 2.179 8.8 -0.485 0.235 -0.114 0.055 9.4 0.115 0.013 0.002 0.000 9.2 -0.085 0.007 -0.001 0.000

9 -0.285 0.081 -0.023 0.007 8.1 -1.185 1.404 -1.664 1.972 9.3 0.015 0.000 0.000 0.000 8.8 -0.485 0.235 -0.114 0.055 9.5 0.215 0.046 0.010 0.002 9.7 0.415 0.172 0.071 0.030 9.2 -0.085 0.007 -0.001 0.000 9.4 0.115 0.013 0.002 0.000 9.6 0.315 0.099 0.031 0.010

9 -0.285 0.081 -0.023 0.007 9.4 0.115 0.013 0.002 0.000 9.8 0.515 0.265 0.137 0.070

Sumas 0.000 4.446 0.077 4.421

96

Page 81: Estadística básica Apuntes

Jesús Reynaga Obregón

Sustituyendo en las fórmulas para el cálculo de momentos en series simples se tiene:

mx x

n2 =−⎛

⎝⎜⎞⎠⎟∑

_ 2

m 4.44620

0.2222 = =

mx x

n3 =−⎛

⎝⎜⎞⎠⎟∑

_ 3

m 0.07720

0.0043 = =

mx x

n4 =−⎛

⎝⎜⎞⎠⎟∑

_ 4

m 4.42120

0.2214 = =

Finalmente, usando los valores calculados para los momentos y sustituyendo para las fórmulas de sesgo y curtosis en series simples, se tiene:

SESGO ( )

a m

m3

3

2

= 3 ( ) ( )

a 0.0043 3= = = =

0 222

0 0040 471

0 0040105

0 0383.

..

.

..

CURTOSIS ( )

a mm

44

2

= 2 ( ) ( )

a mm

44

22= = = =

0 2210 222

0 2210 049

4 4842.

...

.

Interpretación de los resultados: En vista de que el sesgo calculado se encuentra en el intervalo que va desde - 0.5 hasta + 0.5 puede decirse que la distribución de los pesos de los 20 niños es semejante en simetría a la de la curva normal. Sin embargo, en vista de que la curtosis calculada está fuera del intervalo que va desde 2 hasta 4 no puede decirse que el grado de apuntamiento o aplanamiento de los pesos de los 20 niños sea semejante a la de la curva normal. En resumen, la serie es simétrica como la curva normal pero más apuntada o elevada que ella (leptocúrtica). Por lo anterior, a pesar de que la variable es cuantitativa continua, no deben utilizarse como medidas de resumen para describir a esta serie ni al promedio ni a la desviación estándar y, en su lugar, se debieran utilizar la mediana y diversos percentiles.

97

Page 82: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag1.doc Página 1 de 5

TEXTO: Medidas de Resumen para Variables Cuantitativasen Series Agrupadas de Valores:Moda y Amplitud, Mediana y Percentiles

La siguiente serie agrupada de valores se utilizará como ejemplo parailustrar el cálculo e interpretación de las medidas de resumen:

NIVELES DE COLESTEROL EN SUEROEN 1,097 VARONES DE 40 - 59 AÑOS

(A)

COLESTEROL ENSUERO (mg/100

ml.)

(B)

FRECUENCIA

(C)

%

(D)

FRECUENCIAACUMULADA

(E)

%ACUMULADO

119·5 - 159·5 31 3 31 3159·5 - 199·5 134 12 165 15199·5 - 239·5 358 32 523 47239·5 - 279·5 326 30 849 77279·5 - 319·5 143 13 992 90319·5 - 359·5 43 4 1035 94359·5 - 399·5 30 3 1065 97399·5 - 439·5 21 2 1086 99439·5 - 479·5 11 1 1097 100

TOTAL 1,097 100

MODA:

Definición: Es el valor que en una serie se repite con mayor frecuencia.

Procedimiento: En primer lugar identificar la clase o intervalo con mayor frecuencia (Clase Modal) yen segundo lugar utilizar la siguiente fórmula:

Mo =L.inf.+ dd d

W1

1 2+

Donde:L.Inf. = Límite inferior de la clase modal

d1 = Diferencia entre la frecuencia de laclase modal y la clase anterior

d2 = Diferencia entre la frecuencia de laclase modal y la clase posterior

W = Amplitud de la clase modalPara el caso de la tabla de valores de colesterol:Clase modal: 199.5 - 239.5 (porque en esta clase está la mayor frecuencia: 358 personas)

Mo =199.5 +224

224 3240

+

( ){ }Mo=199.5 + 400 875.

Mo =199.5+ 35

Mo = 234.5 mgrs/100 ml

Page 83: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag1.doc Página 2 de 5

Interpretación: "El valor de colesterol más frecuente en el grupo de 1,097 varones fue de 234.5mgrs/100 ml".

AMPLITUD:Definición: Es la diferencia entre el mayor centro de clase y el menor centro de clase de una serieagrupada. La amplitud suele simbolizarse por las siglas Am.

Procedimiento: Encontrar, por sustracción o resta, la diferencia entre el centro de clase más grandede la serie ( X' max ) y el centro de clase más pequeño ( X' min ).

En la serie agrupada de valores de colestrol el centro de clase más grande es 459.5 (que resulta desumar los límites superior e inferior de la última clase y dividir entre dos); por otra parte, el centro dela primera clase vale ( 119.5 + 159.5) / 2 = 139.5

Por lo tanto, la amplitud vale Am = X' max - X' min = 459.5 - 139.5 = 320 mgrs de colesterol

Interpretación: "La diferencia entre el mayor y el menor valor de colesterol fue de 320 mgrs/100 ml.".

MEDIANA ( O PERCENTIL 50 ) :

Definición: En una serie de valores agrupados en clases o intervalos, es aquel valor que divide endos partes de igual tamaño a toda la serie; dicho de otra manera, es el valor por detrás del cual quedaun 50% de los valores y por delante del cual queda el 50% restante..Procedimiento: En primer lugar, analizando una columna con porcentajes acumulados (como lacolumna E de la tabla de valores de colesterol que se muestra al principio de este documento),identificar la clase en la que se acumula el 50% de las observaciones (identificación de la clase quecontiene a la mediana).

Posteriormente, aplicar la siguiente fórmula genérica válida para cualquier percentil (recordar que lamediana también se denomina percentil 50):

( )P L.inf.

n p100

FA

fpWp = +

Donde:Pp = Percentil a calcularL.inf = Límite inferior de la clase que contiene a la medianan = número total de valores de la seriep = percentil buscado ( en este caso el 50)FA = frecuencia acumulada ( columna D) hasta la clase anterior a la que contiene a la medianafp = frecuencia simple de la clase que contiene a la medianaW = ancho de la clase que contiene a la mediana

Para el ejemplo de los 1,097 valores de colesterol, se tiene que la clase que contiene a la mediana esla que tiene como límite inferior a 239.5 y como límite superior a 279.5, porque en la columna deporcentajes acumulados ( E ) se observa que existe un 78% de los valores hasta tal clase. Por otraparte, en la clase anterior (199.5 - 239.5) apenas se había acumulado un 48% de todos los valores.

Page 84: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag1.doc Página 3 de 5

Así pues, en la clase 239.5 - 279.5 necesariamente estará el valor que deja al 50% de los valores dela serie por detrás de él.

Sustituyendo en la fórmula, se tiene:

( )Md = P 239.5

1,097 50100

523

3264050 = +

Md = P 239.5548.5 523

3264050 = +

( ){ }Md = P 239.5 0.078 4050 = + Md = P 239 .5 3.1250 = + Md = P 242 . 6250 =

Interpretación: "La mitad de los 1,097 varones de 40 a 59 años tuvieron valores de colesterol igualeso menores que 242.62 mgrs/100 ml y el 50 % restante tuvo valores iguales o superiores a dicha cifra".

PERCENTILES ( Pp ) :

Definición: En una serie agrupada de valores, es aquel valor que divide en dos partesporcentualmente complementarias a toda la serie. Por ejemplo: el percentil 40 divide a la serie enuna parte que contiene al 40 % de los valores iguales o inferiores a él y, simultáneamente, en otraparte que contiene al 60% de los valores de la serie iguales o mayores a dicho percentil.

Procedimiento: En primer lugar, analizando una columna con porcentajes acumulados (como lacolumna E de la tabla de valores de colesterol que se muestra al principio de este documento),identificar la clase en la que se acumula el porcentaje de las observaciones correspondientes alpercentil que se desea calcular (identificación de la clase que contiene al percentil).

Posteriormente, aplicar la siguiente fórmula genérica válida para cualquier percentil:

( )P L.inf.

n p100

FA

fpWp = +

Donde:Pp = Percentil a calcular

L.inf = Límite inferior de la clase que contiene al percentil

n = número total de valores de la serie

p = percentil buscado

FA = frecuencia acumulada ( columna D) hasta la clase anterior a la que contiene al percentil

fp = frecuencia simple de la clase que contiene al

Page 85: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag1.doc Página 4 de 5

percentil

W = ancho de la clase que contiene al percentil

Para el ejemplo de los 1,097 valores de colesterol, y suponiendo que se desea calcular el percentil 40(P40)se tiene que la clase que contiene al percentil 40 es la que tiene como límite inferior a 199.5 ycomo límite superior a 239.5, porque en la columna de porcentajes acumulados ( E ) se observa queexiste un 48% de los valores hasta tal clase. Por otra parte, en la clase anterior (159.5 - 199.5)apenas se había acumulado un 15% de todos los valores. Así pues, en la clase 199.5 - 239.5necesariamente estará el valor que deja al 40% de los valores de la serie por detrás de él.

Sustituyendo en la fórmula, se tiene:

( )P

1,097 40100

358p = +−

199 5165

40.

P358p = +

199 5438 8 165

40..

( ){ }P 199 5 0 764 4040 = +. . P 199 5 30 5640 = +. . P 230 0640 = .

Interpretación: "El 40% de los 1,097 varones de 40 a 59 años tuvieron valores de colesterol igualeso menores que 230.06 mgrs/100 ml y el 60 % restante tuvo valores iguales o superiores a dicha cifra".

Page 86: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag1.doc Página 5 de 5

PROBLEMAS:

1. Calcule e interprete la moda, amplitud, mediana y percentiles 10, 25, 75 y 90 para la siguienteserie agrupada de valores:

Peso (en grs) de un grupo de recién nacidos vivosPaís industrializado

(A)

PESO

(B)

FRECUENCIA

(C)

%

(D)

FRECUENCIAACUMULADA

(E)

% ACUMULADO

2100 – 2299 31 2.8 31 2.82300 – 2499 134 12.2 165 15.02500 – 2699 358 32.6 523 47.72700 – 2899 326 29.7 849 77.42900 – 3099 1433100 – 3299 433300 – 3499 303500 – 3699 213700 – 3899 11

TOTAL 1,097 100.0

2. Calcule e interprete la moda, amplitud, mediana y percentiles 10, 25, 75 y 90 para la siguienteserie agrupada de valores y compare los resultados con los del problema 1

Peso (en grs) de un grupo de recién nacidos vivosPaís subdesarrollado

(A)

PESO

(B)

FRECUENCIA

(C)

%

(D)

FRECUENCIAACUMULADA

(E)

% ACUMULADO

2100 – 2299 1312300 – 2499 1342500 – 2699 2582700 – 2899 762900 – 3099 433100 – 3299 303300 – 3499 123500 – 3699 83700 – 3899 2 100.0

TOTAL 694 100.0

País Mo Am P50 P10 P90 P25 P75 RIC

Page 87: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag2.doc Página 1 de 4

TEXTO: Medidas de Resumen para Variables Cuantitativasen Series Agrupadas de Valores:Promedio y Desviación Estándar

La siguiente serie agrupada de valores se utilizará como ejemplo para ilustrarel cálculo e interpretación de las medidas de resumen:

NIVELES DE COLESTEROL EN SUEROEN 1,097 VARONES DE 40 - 59 AÑOS

(A)

COLESTEROLEN SUERO

(mg/100 ml.)

(B)

FRECUENCIA

(C)

%

(D)

FRECUENCIAACUMULADA

(E)

%ACUMULADO

119·5 - 159·5 31 3 31 3159·5 - 199·5 134 12 165 15199·5 - 239·5 358 32 523 47239·5 - 279·5 326 30 849 77279·5 - 319·5 143 13 992 90319·5 - 359·5 43 4 1035 94359·5 - 399·5 30 3 1065 97399·5 - 439·5 21 2 1086 99439·5 - 479·5 11 1 1097 100

TOTAL 1,097 100

PROMEDIO :

Definición: Es el valor que tendrían todos los datos de una serie numérica, ya sea en una seriesimple o en una serie agrupada, si éllos fueran de igual valor.

Fórmula para series agrupadas: xf x

n

'

=

Procedimiento: Sumar todos productos de la multiplicación de cada frecuencia por sucorrespondiente centro de clase y dividir tal suma entre el número de valores que componen a laserie agrupada. Para efectuar con mayor facilidad el procedimiento es muy útil el empleo de unatabla auxiliar de trabajo como la que se ejemplifica a continuación:

Clases oIntervalos

COLESTEROLEN SUERO(mg/100 ml.)

frecuencia

f

Centros de cadaclase

x'

Productos

f x'119·5 - 159·5 31 139.5 4,324.5159·5 - 199·5 134 179.5 24,053.0199·5 - 239·5 358 219.5 78,581.0239·5 - 279·5 326 259.5 84,597.0279·5 - 319·5 143 299.5 42,828.5319·5 - 359·5 43 339.5 14,598.5359·5 - 399·5 30 379.5 11,385.0399·5 - 439·5 21 419.5 8,809.5439·5 - 479·5 11 459.5 5,054.5

TOTAL 1,097 274,231.5

Page 88: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag2.doc Página 2 de 4

Sustituyendo en la fórmula para el cálculo del promedio en series agrupadas:

xf xn

'

= ∑ x274,231.5

1,097249.98= =

Interpretación: "Si todos los individuos tuvieran la misma concentración de colesterol esta sería de249.98 mgrs/100 ml".

DESVIACION ESTANDAR(en series agrupadas)

Definición: Es la raíz cuadrada de la varianza. A su vez, la varianza equivale a la división de unasuma de productos entre el número de valores de la serie; es decir equivale a un promedio.

Tal promedio resulta de dividir la suma de productos de las frecuencias de cada clase multiplicadaspor las desviaciones o diferencias cuadráticas de cada centro de clase con respecto al promedio dela serie agrupada entre el número de valores de la serie.

Fórmula para series agrupadas:

sf (x x)

n

2

=′ −∑

Procedimiento:

Paso 1.Obtener el promedio de la serie agrupada de valores (utilizando la fórmula para elcálculo del promedio en series agrupadas),

Paso 2.Calcular la desviación o diferencia de cada centro de clase en relación con elpromedio de la serie,

Paso 3.Elevar al cuadrado cada una de las anteriores desviaciones; es decir, obtenerdiferencias cuadráticas,

Paso 4.Multiplicar la frecuencia de cada clase por su correspondiente diferenciacuadrática; es decir, obtener productos

Paso 5. Efectuar la suma de los anteriores productos,

Paso 6.Dividir la suma de productos entre el número de valores; es decir, obtener elpromedio de desviaciones cuadráticas o varianza,

Paso 7.Obtener la raíz cuadrada de la varianza..

Page 89: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag2.doc Página 3 de 4

Con el propósito de sistematizar los cálculos, se recomienda utilizar una tabla auxiliar de trabajocomo la que se muestra a continuación:

Clases oIntervalos

Frecuen-cias

f

Centros decada clase

x'

Diferenciasde cada

centro enrelación alpromedio

_(x' - x)

Diferenciascuadráticas

_ 2(x' - x)

Productos

_ 2f (x' - x)

TOTAL

Así, para el caso de los 1,097 valores de colesterol se tienen los siguientes cálculos:

Paso 1. El promedio, calculado en una sección anterior de este documento, vale: 249.98

Clases oIntervalos

COLESTEROLEN SUERO(mg/100 ml.)

Frecuen-cias

f

Centros decada clase

x'

Diferencias decada centro en

relación alpromedio

_(x' - x)

(PASO 2)

Diferenciascuadráticas

_ 2(x' - x)

(PASO 3)

Productos

_ 2f (x' - x)

(PASO 4)

119·5 - 159·5 31 139.5 -110.34 12,174.92 377,422.38159·5 - 199·5 134 179.5 -70.34 4,947.72 662,993.89199·5 - 239·5 358 219.5 -30.34 920.52 329,544.58239·5 - 279·5 326 259.5 9.66 93.32 30,420.89279·5 - 319·5 143 299.5 49.66 2,466.12 352,654.53319·5 - 359·5 43 339.5 89.66 8,038.92 345,673.37359·5 - 399·5 30 379.5 129.66 16,811.72 504,351.47399·5 - 439·5 21 419.5 169.66 28,784.52 604,474.83439·5 - 479·5 11 459.5 209.66 43,957.32 483,530.47

TOTAL 1,097 3,691,066.41

(PASO 5)

Pasos 6 y 7

sf (x x)

n

2

=′ −∑ s 3 691 066 41

1,097= , , . s 3 364 69= , . s 58 00 mgrs 100 ml= . . / .

Interpretación: La interpretación, que está condicionada a la suposición de que los valores tienenuna distribución semejante a la de la curva normal 1, puede ser realizada en múltiples sentidos yaque se sabe que el 68.27% de los valores de una serie que se distribuye como la curva normal 1 Ver documentos relacionados con la curva normal

Page 90: Estadística básica Apuntes

Jesús Reynaga Obregón1993

txmerag2.doc Página 4 de 4

están agrupados alrededor del promedio si a éste se le resta una vez y también se le suma unavez el valor calculado para la desviación estándar.

Para el ejemplo, puede decirse que el 68.27% de los 1,097 varones tuvieron concentraciones decolesterol que fluctuaron desde 191.88 mgrs./100 ml (es decir: 249.88 mgrs./100 ml. menos 58.00mgrs./100 ml.) hasta 307.88 mgrs./100 ml. (es decir: 249.88 mgrs./100 ml. más 58.00 mgrs./100ml.).

Por otra parte, como se sabe que la curva normal tiene una área que equivale a un total de 100%,entonces también puede decirse que hubo un 31.73% de los varones que tuvieron concentracionesde colesterol menores o cuando mucho iguales a 191.88 mgrs./100 ml. o que tuvieronconcentraciones iguales o mayores a 307.88 mgrs./100 ml. (ya que si a 100% se le resta 68.27%quedan 31.73%).

Problema:

A continuación se muestran la ganacias de peso desde el nacimiento hasta el año de edad de dosgrupos de niños. Sin importar que las distribuciones carezcan de semejanza con la curva normal,calcule el promedio y la desviación estándar para ambos grupos e interprete los resultados en elsupuesto de normalidad cumplida.

Grupo sin orientación Grupo con orientación nutricional continua nutricional continua

Ganancia depeso

Númerode niños

Ganancia depeso

Númerode niños

11 a 12 7 11 a 12 3

9 a 10 5 9 a 10 15

7 a 8 12 7 a 8 53

5 a 6 34 5 a 6 30

3 a 4 49 3 a 4 2

Total 107 Total 103