Capitulo 1 - Estadística Básica

download Capitulo 1 - Estadística Básica

of 34

Transcript of Capitulo 1 - Estadística Básica

  • 8/20/2019 Capitulo 1 - Estadística Básica

    1/94

    Contenido

    1 Estad́ıstica descriptiva 31.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.1.1 ¿Qué signica estad́ıstica? . . . . . . . . . . . . . . . . . . . . 41.1.2 ¿Por qué usted necesita conocer estad́ıstica? . . . . . . . . . . . 51.1.3 Algunas aplicaciones de la estad́ıstica . . . . . . . . . . . . . . 51.1.4 Los computadores, la calculadora y la estad́ıstica . . . . . . . . 7

    1.1.5 Términos com únmente usados en estad́ıstica . . . . . . . . . . . 81.1.6 Estad́ısticas descriptiva e inferencial . . . . . . . . . . . . . . . 91.2 Organización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.2.1 Organización de datos de acuerdo al tipo . . . . . . . . . . . . 111.2.2 Organización de datos de acuerdo a escalas de medidas . . . . . 121.2.3 Organización de datos mediante tablas . . . . . . . . . . . . . . 131.2.4 Organización de datos mediante representaciones gr´acas . . . . 22

    1.3 Análisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 321.3.1 Medidas de tendencia central o de centralizaci ón . . . . . . . . 331.3.2 Medidas de colocación o de posición relativa . . . . . . . . . . . 401.3.3 Medidas de dispersión o de variabilidad . . . . . . . . . . . . . 42

    1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 531.4 Análisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 611.5 Análisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67

    1.5.1 Resumen de cinco números . . . . . . . . . . . . . . . . . . . . 671.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69

    1.6 Uso de Statgraphics en la estad́ıstica descriptiva . . . . . . . . . . . . . 731.6.1 Análisis de un solo conjunto de datos . . . . . . . . . . . . . . 731.6.2 Análisis simultáneo de dos o más conjuntos de datos . . . . . . 79

    1.7 Uso de la calculadora en la estad́ıstica . . . . . . . . . . . . . . . . . . 83Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85

  • 8/20/2019 Capitulo 1 - Estadística Básica

    2/94

    Contenido 2

    Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

  • 8/20/2019 Capitulo 1 - Estadística Básica

    3/94

    CAP ÍTULO 1

    Estad́ıstica descriptiva

    Contenido

    1.1 Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.1 ¿Qué signica estad́ıstica? . . . . . . . . . . . . . . . . . . . 41.1.2 ¿Por qué usted necesita conocer estad́ıstica? . . . . . . . . . 51.1.3 Algunas aplicaciones de la estad́ıstica . . . . . . . . . . . . 51.1.4 Los computadores, la calculadora y la estad́ıstica . . . . . . 71.1.5 Términos com´ unmente usados en estad́ıstica . . . . . . . . 81.1.6 Estad́ısticas descriptiva e inferencial . . . . . . . . . . . . . 9

    1.2 Organizaci´ on de datos . . . . . . . . . . . . . . . . . . . . . 111.2.1 Organizaci´ on de datos de acuerdo al tipo . . . . . . . . . . 111.2.2 Organizaci´ on de datos de acuerdo a escalas de medidas . . 121.2.3 Organizaci´ on de datos mediante tablas . . . . . . . . . . . . 131.2.4 Organizaci´ on de datos mediante representaciones gr´ acas . 22

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 321.3.1 Medidas de tendencia central o de centralizaci´ on . . . . . . 331.3.2 Medidas de colocaci´ on o de posici ón relativa . . . . . . . . . 401.3.3 Medidas de dispersi´ on o de variabilidad . . . . . . . . . . . 421.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53

    1.4 Análisis de datos en tablas de frecuencias agrupadas . . 611.5 Ańalisis exploratorio de datos . . . . . . . . . . . . . . . . 67

    1.5.1 Resumen de cinco n´ umeros . . . . . . . . . . . . . . . . . . 671.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69

    1.6 Uso de Statgraphics en la estad́ıstica descriptiva . . . . 731.6.1 An álisis de un solo conjunto de datos . . . . . . . . . . . . . 731.6.2 An álisis simult´ aneo de dos o m´as conjuntos de datos . . . . 79

    1.7 Uso de la calculadora en la estad́ıstica . . . . . . . . . . . 83 Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85

  • 8/20/2019 Capitulo 1 - Estadística Básica

    4/94

    1.1 Introducci´on 4

    Objetivos del caṕıtulo1. Presentar una visi´ on amplia sobre el campo de estudio de la estadı́stica y sus aplica-

    ciones.2. Distinguir entre estad́ıstica descriptiva e inferencial.

    3. Estudiar los tipos de datos.

    4. Mostrar c ómo organizar datos.

    5. Construir tablas y gr´ acas para datos numéricos y categ´ oricos.

    6. Describir las medidas de tendencia central, de posici´ on relativa, de variací on y de forma de los datos numéricos.

    7. Describir las técnicas para realizar un an´ alisis exploratorio de datos.

    8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estad́ıstica.

    Empleo de la estad́ıstica

    ≪La directora de producci´ on de una empresa debe informar a su superior sobre

    el número de d́ıas promedio que los empleados de la empresa se ausentan del tra-bajo. Sin embargo, la planta emplea m´ as de dos mil trabajadores, y la directora deproducci´on no tiene tiempo de revisar los registros personales de cada empleado.Como asistente usted debe decidir c´ omo puede ella obtener la informaci´ on nece-saria. ¿Qué consejo podrı́a darle?

    1.1 Introducci´ on

    1.1.1 ¿Qué signica estad́ıstica?

    En la vida diaria los diversos fenómenos de orden económico, social, poĺıtico, educa-cional, e incluso biológico, aparecen, se transforman y nalmente desaparecen. Paratan abundante y complejo material es preciso tener un registro ordenado y continuo an de conseguir en un momento dado los datos necesarios para un estudio de lo queha sucedido, sucede o puede suceder. Para ello se requiere contar con un método, conun conjunto de reglas o principios, que nos permita la observación, el ordenamiento, lacuanticación y el análisis de dichos fenómenos.

    En general, el término estad́ıstica tiene tres acepciones gramaticales perfectamentedenidas:

    1. Estad ı́stica , en su acepción más común, no es más que una colección de datosnuméricos ordenados y clasicados según un determinado criterio. Nos referimosa este signicado cuando hablamos de estad́ısticas de producci´on, estad́ısticas decotizaciones bursátiles, estad́ısticas demográcas, etc.

    2. Estad ı́stica , en una segunda acepción, es la ciencia que, utilizando como ins-trumento a las matemáticas y al cálculo de probabilidades, estudia las leyes decomportamiento de aquellos fen ómenos que, no estando sometidos a las leyesf́ısicas y basándose en ellas predice e inere resultados. El término estad ı́sticamatem ática viene a ser el nombre propio de esta acepción.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    5/94

    1.1 Introducci´on 5

    3. Finalmente, estad ı́stica , signica en su última acepción, la técnica o métodocient́ıco usado para recolectar, organizar, resumir, presentar, análizar, interpretar,generalizar y contrastar los resultados de las observaciones de los fenómenos reales.

    Se considera fundador de la estad́ıstica a Godofredo Achenwall (1719-1772;53),profesor y económista alemán quien, siendo profesor de la universidad de Leipzig (Ale-mania), escribió sobre el descubrimiento de una nueva ciencia que llamó estad́ıstica (pa-labra derivada del término alem án “Staat ” que signica “estado ”) y que denió como“el conocimiento profundo de la situaci ón respectiva y comparativa de cada estado”.Achenwall y sus seguidores estructuraron los métodos estad́ısticos que se orientarona investigar, medir y comparar las riquezas de las naciones. Lo anterior no signica que,antes de los estudios de G. Achenwall , los estados no hubiesen efectuado inventariosde sus riquezas. Estos inventarios se efectuaron desde la antigüedad. Se sabe que 2.000a 2.500 años antes de Cristo, los inventarios que efectuaron los chinos y los egipcioseran muy elementales.

    1.1.2 ¿Por qué usted necesita conocer estad́ıstica?

    En general, el problema que enfrentan las compa ñ́ıas e industrias no es la escasez deinformación, sino cómo utilizar la información disponible para tomar las decisiones másadecuadas. Por esta raz´on, desde la perspectiva de una toma de decisiones informada,cabe preguntarse por qué un ingeniero, un administrador y un economista necesita saberestad́ıstica. Para dar respuesta a esta inquietud podemos decir que éstos deben com-prender la estad́ıstica, básicamente, por tres razones fundamentales:

    1. Presentar y describir la información en forma adecuada.

    2. Inferir conclusiones sobre poblaciones grandes basándose solamente en la infor-mación obtenida de subconjuntos de ellas.

    3. Utilizar modelos para obtener pronósticos conables.

    En el diagrama de la gura 1.1 se presenta un esquema general de las rutas que sugeri-mos tomar desde la perspectiva de estas tres razones para aprender estad́ıstica. En esteesquema se observa que para tener en cuenta la primera raz ón, se abordan los métodosreferentes a la recopilación, descripción y presentación de la información (que corres-ponde al caṕıtulo 1 de nuestro texto). Para la segunda raz´ on, necesitaremos desarrollarlos conceptos de distribuciones muestrales, estimaci ón y pruebas de hipótesis. Debidoa que estos temas no hacen parte de los objetivos de este texto, s ólo se desarrollaránlos conceptos básicos de probabilidad (caṕıtulo 2) y algunas distribuciones (caṕıtulos 3,4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda razón.Para la tercera raz ón, sugerimos realizar el enfoque al análisis de regresión, modeladoy análisis de series de tiempo que proporcionan métodos para hacer pron´osticos (temasque tampoco tratamos en este texto).

    1.1.3 Algunas aplicaciones de la estad́ıstica

    En esta sección presentaremos ejemplos que ilustran algunas de las aplicaciones de laestad́ıstica en la ingenierı́a, en la administraci´ on y en la economı́a.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    6/94

    1.1 Introducci´on 6

    Fig. 1.1: Mapa de rutas del texto

    Ingenieŕıa

    La importancia de la estad́ıstica en la ingenieŕıa ha sido subrayada por la participaci´onde la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de

    que la baja calidad de un producto (ya sea en la forma de defectos de fabricaci ón, enuna baja conabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciadoen la productividad global de la compañ́ıa, en el mercado y la posición competitiva y,nalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puedeeliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad devolver a maquilar las piezas, los requerimientos para inspección y prueba y las pérdidaspor garant́ıa. Además de mejorar la satisfacci´ on del consumidor y permitir que la empresase convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,la estad́ıstica es un elemento decisivo en el incremento de la calidad, ya que las técnicasestad́ısticas pueden emplearse para describir y comprender la variabilidad. 1

    Contabilidad

    Las empresas de contadurı́a p´ublica emplean procedimientos estad́ısticos de muestreopara llevar a cabo auditoŕıas a sus clientes. Por ejemplo, supongamos que una empresade contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en elbalance de un cliente, representa elmente la cantidad real de ese rubro. Normalmente,la cantidad de cuentas individuales por cobrar es tan grande que seŕıa demasiado lento ycostoso revisar y validar cada cuenta. En casos como éste, regularmente se acostumbraque el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).

    1 La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-ciones.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    7/94

    1.1 Introducci´on 7

    Después de revisar la exactitud de las cuentas muestreadas, los auditores llegan a unaconclusión acerca de si la cantidad que aparece en cuentas por cobrar, en los estadosnancieros de sus cliente, es aceptable.

    Finanzas

    Los asesores nancieros recurren a una gama de información estad́ıstica para guiarseen sus recomendaciones de inversión. En el caso de las acciones, revisan una variedadde datos nancieros, que incluyen relaciones de precio a rendimiento y los dividendos.Al comparar la información de determinadas acciones con la correspondiente acercade promedios del mercado accionario, un asesor nanciero puede comenzar a sacarconclusiones sobre si esas acciones están sobre o subevaluadas.

    Mercadotecnia

    Los escáners en las cajas de los almacenes al detalle se emplean para reunir datos quetienen muchas aplicaciones de investigación de mercados.

    Producci´ on

    Con el énfasis actual hacia la calidad, el control de calidad es una aplicación importantede la estad́ıstica en la producci ón. Para vigilar el resultado de un proceso de producciónse emplean diversas grácas de control estad́ıstico de calidad, en especial, se usa unagráca para vigilar el promedio de un producto. Por ejemplo, supongamos que unamáquina llena envases con 12 onzas de una bebida muy conocida. Peri ódicamentese selecciona una muestra de envases y se le determina su contenido promedio. Estepromedio, o valor x, se anota en una gráca, a partir de la cual se observa si es necesarioajustar o corregir el proceso de producción.

    Econoḿıa

    Con frecuencia se pide a los economistas su pronóstico acerca del futuro de la econoḿıao de alguno de sus aspectos. Recurren a diversas informaciones estad́ısticas para ela-borarlo. Aśı, para pronosticar las tasas de inaci ón usan indicadores como el ı́ndice deprecios al productor, la tasa de desempleo y la ocupaci ón de la capacidad de producción.Muchas veces, esos indicadores estad́ısticos se introducen en modelos computarizadosde pronóstico, cuyo resultado son predicciones sobre las tasas de inacíon.

    1.1.4 Los computadores, la calculadora y la estad́ıstica

    El computador se ha convertido en una herramienta importante en la presentaci´ on y elanálisis de datos. Si bien muchas técnicas estad́ısticas s´olo necesitan una calculadora demano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareascon mucha eciencia.

    La mayor parte del análisis estad́ıstico se realiza utilizando una biblioteca de progra-mas estad́ısticos. El usuario introduce los datos y luego selecciona los tipos de análisisy la presentación de los resultados que le interesan. Los paquetes estad́ısticos est´an

  • 8/20/2019 Capitulo 1 - Estadística Básica

    8/94

    1.1 Introducci´on 8

    disponibles para grandes sistemas de cómputo y para computadores personales. Entrelos paquetes más utilizados están SAS (Statistical Analysis System), SPSS (Statisti-cal Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la seccíon 1.6explicaremos cómo utilizar Statgraphics en la estad́ıstica y en la 1.7, c´omo emplear lacalculadora para hacer cálculos estad́ısticos.

    1.1.5 Términos com´ unmente usados en estad́ıstica

    Denici´ on 1.1.1 Una poblaci ón es el conjunto total de objetos que son de in-terés para un problema dado. Los objetos pueden ser personas, animales, producto fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de la poblaci´ on

    Ejemplo 1.1.2 Todos los ni˜ nos nacidos en determinado a˜ no pueden constituir una poblaci´ on.Si el director de una gran empresa manufacturera desea estudiar la producci´ on de todas las plantas de propiedad de la rma, entonces, la producci´ on de todas estas plantas es la poblaci ón. ◭

    Denici´ on 1.1.3 Una muestra es un subconjunto de la poblaci´ on.

    Ejemplo 1.1.4 Si todos los ni˜ nos nacidos en determinado a˜ no constituyen una poblaci´ on,entonces, los ni˜ nos nacidos en el mes de febrero pueden constituir una muestra. ◭

    Denici´ on 1.1.5 Los datos u observaciones son n´ umeros o denominaciones que podemos asignar a un individuo o elemento de la poblaci´ on.

    Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta “¿Usted fuma?”, el tipo de sangre, el salario mensual de una trabajador, etc. ◭

    Denici´ on 1.1.7 Un par ámetro es cualquier caracteŕıstica medible de una poblaci´ on.

    Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa es un ejemplo de par´ametro, si todos los trabajadores se consideran como una poblaci´ on. ◭

    Denici´ on 1.1.9 Un estad ı́stico es cualquier caracterı́stica medible de una mues-tra.

    Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada secci´ onde la empresa (viendo a los trabajadores de ésta como una muestra de todos los trabajadores de esta empresa) es un ejemplo de estad́ıstico. ◭

  • 8/20/2019 Capitulo 1 - Estadística Básica

    9/94

    1.1 Introducci´on 9

    Denici´ on 1.1.11 Un censo (palabra derivada del lat́ın “ censere” que signica valuar o tasar) es una enumeraci´ on completa de la poblaci´ on.

    Ejemplo 1.1.12 Según el censo llevado a cabo por el DANE (Departamento Administra-tivo Nacional de Estad́ıstica), en 1.993 Colombia tenı́a 33.109.840 habitantes, de los cuales 16.296.539 eran hombres y 16.813.301, mujeres. ◭

    1.1.6 Estad́ısticas descriptiva e inferencial

    Los procedimientos y análisis que aparecen en estad́ıstica caen en dos categoŕıas gene-rales, estad́ıstica descriptiva (o deductiva ) y estad́ıstica inferencial (o inductiva ), depen-diendo del propósito del estudio.

    Denici´ on 1.1.13 La estad ı́stica descriptiva comprende aquel los métodos que incluyen técnicas para recolectar, presentar, analizar e interpretar datos.

    En general, la estad́ıstica descriptiva tiene como funci ón el manejo de los datos recopila-dos en cuanto se reere a su ordenación y presentación, para poner en evidencia ciertascaracteŕısticas en la forma que sea m ás objetiva y útil. En este sentido, investiga losmétodos y procedimientos y establece reglas para que el manejo de los datos sea máseciente y para que la información entregada resulte conable, y exprese correctamenteciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y

    pueda establecer comparaciones.Ejemplo 1.1.14 Las siguientes situaciones utilizan estad́ıstica descriptiva:

    (a) A un empresario le interesa determinar el promedio semanal total de sus gastos enalgunos productos durante un tiempo determinado.

    (b) Una entidad quiere calcular la proporci´ on de colombianos encuestados que est´ an a favor de determinado candidato poĺıtico. ◭

    Denici´ on 1.1.15 La estad ı́stica inferencial abarca aquel los métodos y con- juntos de técnicas que se utilizan para obtener conclusiones sobre las leyes de com-portamiento de una poblaci´ on bas´ andose en los datos de muestras tomadas de esa poblaci´ on.

    Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas dadas anteriormente, requieren estadı́stica inferencial:

    (a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-centaje de estudiantes que fuman.

    (b) Con base en una encuesta de opini´ on, al polı́tico le gustarı́a calcular la oportunidad de reelegirse en las pr óximas elecciones. ◭

  • 8/20/2019 Capitulo 1 - Estadística Básica

    10/94

    1.1 Introducci´on 10

    Denici´ on 1.1.17 Las técnicas y métodos utilizados por la ciencia estad́ıstica,tanto en su parte descriptiva como en la parte inferencial son los llamados métodosestad ı́sticos .

    Ejercicios de la secci´ on 1.11. Describa una posible muestra de tamaño 5 de cada una de las siguientes poblaciones:

    (a) Todos los periódicos publicados en Colombia.(b) Todas las empresas importantes de Colombia.(c) Todos los estudiantes de su curso.(d) Todos los promedios de calicaciones de los alumnos de su universidad.

    2. Una revista publica datos sobre la clasicación de las 300 corporaciones industriales másgrandes de un pais, en términos de ventas y utilidades. En la tabla 1.1 vemos datos acercade una muestra de estas 300 compa ñ́ıas.

    (a) ¿Cúantos elementos hay en este conjunto de datos?(b) ¿Cúal es la población?(c) Calcule las ventas anuales en la muestra.(d) Con el resultado del inciso (c), ¿cuál es la estimación de las ventas promedio para la

    población?

    Ventas Utilidades C´ odigo del ramoCompa ñ́ıa ($ millones) ($ millones) industrialTodo Confort 38.420 2.586,0 12Alles klar 20.847 5.157,0 15Ramos del Caribe 8.071 234,0 2Sofort 3.075 212,2 22Express 8.092 168,7 48El único 10.272 1.427,0 8Integer 8.588 213,3 11Good 6.371 49,7 10Pueblo City 9.844 580,0 19

    Report Info 6.454 87,0 19

    Tabla 1.1: Muestra de 10 empresas que publica una revista

    3. Una empresa desea probar la ecacia de un nuevo comercial de televisión. Como partede la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias localesen cierta ciudad. Tres d́ıas después, una empresa de investigaci´on de mercado lleva acabo una encuesta telef ónica para obtener información sobre la frecuencia de recuerdos(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresionesdel comercial.

    (a) ¿Cúal son la población y la muestra para este estudio?

  • 8/20/2019 Capitulo 1 - Estadística Básica

    11/94

    1.2 Organizaci ón de datos 11

    (b) ¿Por qué se necesita usar una muestra en este caso? Explique su respuesta.

    4. El señor Marimón, candidato a alcalde de un pueblo pequeño, quiere determinar si debe

    hacer una campa ña más fuerte contra su oponente. Para ello entrevistará a 300 de los1, 700 votantes registrados. Si los resultados indican que tiene 35% más votos que suoponente, no intensicar sus esfuerzos de campaña contra su rival.

    (a) Identique la población, la muestra, un estad́ıstico y un parámetro.(b) ¿Qué harı́a el se˜nor Marimón si tuviera el 75% de los votos de la muestra?

    5. Se estableció que el costo promedio de los textos escolares en un colegio pequeño duranteel ultimo año fue de $ 354.400, con base en una inscripción de 1.500 estudiantes. Comoun trabajo de clase en el colegio, un grupo de estad́ıstica encuest ó a 30 estudiantes paradeterminar el promedio del costo de un libro de texto en el último año y se concluyó quefue de $ 399.700.

    (a) Identique la población, la muestra, los parámetros y dos estad́ısticos.

    (b) ¿Qué podŕıa concluir el grupo de estad́ıstica si el costo promedio de un libro para lamuestra de 30 estudiantes fuera de $ 1.050.000?

    1.2 Organizaci´ on de datos

    Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato ,de acuerdo a escalas de medidas , mediante tablas y mediante representaciones grácas .

    1.2.1 Organizaci´ on de datos de acuerdo al tipo

    Como se ilustra en la gura 1.2, existen dos tipos de datos: categ óricos (o cualitativos)y numéricos (cuantitativos).

    Fig. 1.2: Tipos de datos

    1. Los datos categ óricos o cualitativos representan categoŕıas o atributos(como, por ejemplo, śı o no) que pueden clasicarse como un criterio o cualidad.

    2. Los datos num éricos o cuantitativos producen respuestas numéricas comoel peso en kilogramos o el número de universidades que hay en la Costa Atlántica.Estos datos son de dos tipos: dicretos y continuos.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    12/94

    1.2 Organizaci ón de datos 12

    • Los datos discretos producen respuestas numéricas que surgen de unconteo. Ejemplos de datos discretos son la cantidad de universidades que hayen la Costa Atlántica, el número de estudiantes en la Universidad del Norteen 2.003, la cantidad de hermanos que tiene un determinado estudiante deadministración, el número de personas en una la, etc.

    • Los datos continuos producen respuestas numéricas que surgen de unproceso de medición, donde la caracteŕıstica de que se mide puede tomarcualquier valor numérico en un intervalo. Ejemplos datos continuos son elpeso (en kilogramos) de una persona, su estatura (en metros), el tiempo queusted tarda en llegar a la Universidad del Norte, etc.

    1.2.2 Organizaci´ on de datos de acuerdo a escalas de medidas

    Los datos también se pueden clasicar seg ún la escala de medición o el procedimientoque los generó. Cuatro tipos de escalas de medición usados en estad́ıstica son las escalasnominal, ordinal, de intervalo y de razón.

    Datos de nivel nominal

    Un dato nominal se crea cuando se utilizan nombres para establecer categoŕıas con lacondición de que cada dato pertenezca única y exclusivamente a una de estas categoŕıas.Existen escalas nominales tanto para los datos numéricos como categ´oricos. Una escalanominal para datos numéricos asigna números a las categoŕıas. Por ejemplo, entre losdatos numéricos que son nominales se incluyen los números en las camisetas deportivas,los números telefónicos, etc.

    Una escala nominal para datos categ´ oricos es un agrupamiento no ordenado de losdatos en categoŕıas discretas, donde cada dato puede incluirse solamente en uno de losgrupos. Por ejemplo, los datos nominales que son cualitativos incluyen el género, laraza, el tipo de sangre y la religión.

    Datos de nivel ordinal

    Los datos medidos en una escala nominal ordenada de alguna manera se denominandatos ordinales . Una escala ordinal coloca las medidas en categoŕıas, cada una delas cuales indica un nivel distinto respecto a un atributo que se est á midiendo. La lista

    de datos ordinales comprende:1. Clasicaciones por letra: A, B, C y D; estos grados indican categoŕıas de perfec-

    cionamiento, aśı como los niveles alcanzados.

    2. Rangos académicos: Doctor, magister, especialista y licenciado.

    3. La evaluación de un maestro: insuciente, aceptable, bueno y excelente.

    4. Los grados de la escuela: primero, segundo, tercero, etc.

    No es posible determinar la diferencia o distancia entre los valores medidos en una escalaordinal. Aun cuando codiquemos las letras A como 4, B como 3, C como 2 y D como

  • 8/20/2019 Capitulo 1 - Estadística Básica

    13/94

    1.2 Organizaci ón de datos 13

    1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.Todo lo que podemos decir es que la calicación A es mejor o de un grado superior a lade C, ya que una escala ordinal no admite unidad de distancia.

    Datos de nivel de intervalo

    Los datos medidos en una escala ordinal para los cuales pueden clasicarse las distanciasentre valores, se llaman datos de intervalos . La distancia entre dos valores esimportante y los datos de intervalo son numéricos por necesidad; una escala de intervalono siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que sequiere medir). La lista de datos de intervalo comprenden:

    1. Puntajes en las pruebas de inteligencia . Un puntaje de inteligencia de 110 es cincopuntos superior a uno de 105 (datos ordinales). En este caso, no s ólo podemos

    decir que un puntaje de 110 es superior a uno de 105, sino que también podemosdecir que es cinco puntos más alto; pero no podemos decir que una persona conun puntaje de inteligencia de 180 es doblemente inteligente que una persona quetiene uno de 90.

    2. Temperaturas Celsius . Una temperatura Celsius de 80◦ es 40◦ más caliente queuna de 40, pero no es correcto decir que 80◦ es el doble de caliente que 40◦ .Nótese también que una temperatura de 0 no representa la ausencia de calor. Elpunto cero en la escala de temperatura Celsius fue escogido arbitrariamente comoel punto de congelamiento e indica que está presente algo de calor.

    3. Fechas . Brian LLinás nació en Mainz (Alemania) en el año 2000, 31 años despuésde su padre, el Dr. rer. nat Humberto LLinás (1969). Podemos especicar ladistancia entre estos dos sucesos ordenados, 31 a ños, pero si existiera el año cero,no representaŕıa la ausencia de tiempo.

    Datos de nivel de raz´ on

    Los datos medidos en una escala de intervalo con un punto cero que signica “ninguno”,se llaman datos de raz ón . Con datos medidos en una escala de razón, podemos de-terminar cuántas veces es mayor una medida que otra. Las escalas de raz´on incluyensalarios, unidades de producción, peso, altura, etc. El dinero nos da una buena ilus-tración. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.

    Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sinimportar si se utiliza distintas escalas de razón como kilogramos, gramos o libras). Lasescalas de razón también incluyen escalas usadas com únmente para medir unidades comopies, libras, cent́ımetros, etc. Los resultados de contar objetos también son datos derazón como, por ejemplo, diez peras es el doble que cinco.

    1.2.3 Organizaci´ on de datos mediante tablas

    En esta forma de organización de datos es importante el concepto de frecuencia de undato .

  • 8/20/2019 Capitulo 1 - Estadística Básica

    14/94

    1.2 Organizaci ón de datos 14

    Denici´ on 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra f , es el n´ umero de veces que aparece ese dato en una colecci´ on de datos.

    Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro s ólo aparece una vez (por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el 7 tiene frecuencia f = 3, etc. ◭

    Existen dos tipos generales de tablas para reportar datos usando frecuencias, éstas son:tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas semencionan simplemente como tablas de frecuencia .2

    Tabla de frecuencias no agrupadas

    Son aquéllas en donde cada dato tiene la frecuencia correspondiente. Los datos queorganizados en tablas de frecuencias no agrupadas se denominan usualmente datos noagrupados .

    Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 43 7 6 6 7 5 7 es

    Dato 3 4 5 6 7 Frecuencia 2 1 2 3 4

    Tabla de frecuencias agrupadasOtra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalosde clase o, simplemente, clases ) y determinar la llamada frecuencia de clasede cada clase, es decir, el total de datos que hay en cada clase. Posteriormente, lasclases y las frecuencias de clase se ubican en una tabla que llamaremos tabla de fre-cuencias agrupadas . Los datos que organizados en tablas de frecuencias agrupadasse denominan generalmente datos agrupados .

    Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y 15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los datos de tiempo de auditorı́as de n de a˜ no.

    Tiempo de auditoŕıa (d́ıas) Frecuencia10 - 14 415 - 19 820 - 24 525 - 29 230 - 34 1

    Tabla 1.2: Distribuci´ on de frecuencias para los datos de tiempo de auditoŕıa ◭

    2 En vez del término “tablas de frecuencia” se utiliza a menudo “distribuci´ on de frecuencias”.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    15/94

    1.2 Organizaci ón de datos 15

    Las clases de frecuencias agrupadas poseen lo que se llama l ı́mites de clase . Consi-deremos la tabla 1.2. En la clase 10-14, a 10 se le llama l ı́mite inferior de clase ya 14, l ı́mite superior de clase . La distancia entre cualquiera de dos ĺımites supe-riores consecutivos o entre cualquiera de dos ĺımites inferiores consecutivos es llamadaamplitud de clase . La amplitud de cada clase en la tabla 1.2 es 5.

    Cada clase en una tabla de frecuencia tiene ĺımites de clases te óricos llamados l ı́mitesreales de clase o frontera de clase (término que utilizaremos en el texto). Alĺımite superior te órico se le llama frontera superior de clase (o l ı́mite realsuperior de clase ) y al ĺımite inferior teórico de clase se le llama frontera infe-rior de clase (o l ı́mite real inferior de clase ). En general, para una clasedada, cualquier frontera se calcula de la siguiente manera:

    Frontera inferior = ĺımite inf. de la clase dada + ĺımite sup. de la clase anterior

    2 .

    Observemos que la frontera inferior de una clase siempre conincide con la frontera supe-rior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferiorpara la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y lafrontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de laquinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna dela tabla 1.3.

    Tiempo de auditoŕıa (d́ıas) Fronteras inferior - superior Frecuencia10 - 14 9,5 - 14,5 415 - 19 14,5 - 19,5 8

    20 - 24 19,5 - 24,5 525 - 29 24,5 - 29,5 230 - 34 29,5 - 34,5 1

    Tabla 1.3: Distribuci´ on de frecuencias para los datos de tiempo de auditoŕıa ◭

    El punto medio de cada clase se denomina marca de clase . Es decir, para una clasedada, la marca de clase se encuentra usando la f órmula

    Marca de clase = frontera inferior de clase + frontera superior de clase

    2 .

    Sugerencias para construir una tabla de frecuencias agrupadas

    Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los si-guientes comentarios:

    1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde losextremos de la clase son las respectivas fronteras, en vez de los ĺımites de clase.De ahora en adelante, nosotros lo haremos siempre aśı.

    2. Para mayor comodidad en el proceso de construcción de las clases, acordaremosque la primera clase debe contener por lo menos el dato menor (en la realidad,esto no siempre es aśı).

  • 8/20/2019 Capitulo 1 - Estadística Básica

    16/94

    1.2 Organizaci ón de datos 16

    3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedarexactamente en una sola clase, no en dos al mismo tiempo.

    4. Para mayor comodidad en el proceso de construcción de las clases, acordaremosque todas las clases deben tener la misma amplitud (en la realidad, esto no siemprees aśı).

    Determinaci´ on de la amplitud de clase . Para determinar la amplitud de clase encualquier tabla de frecuencias agrupadas, réstense dos lı́mites superiores de clasesconsecutivos o dos ĺımites inferiores de clases consecutivos, o dos fronteras infe-riores consecutivas, o dos fronteras superiores consecutivas, o réstese la fronterainferior de una clase de la frontera inferior superior de dicha clase.

    5. Mientras menos clases escojamos será más fácil el trabajo, pero se perderá másinformación. Debido a que no hay un acuerdo general entre los estad́ısticos acercadel número de clases que debe usarse y dado que la elección es arbitraria, paranuestros nes, escogeremos entre 5 y 20. Una sugerencia útil para el número declases está dado por la regla de Sturges.

    Regla de Sturges . La regla de Sturges establece como número de clasesnecesario, aproximadamente

    c = 3, 3(log n ) + 1,

    donde n es el número de medidas y log n es el logaritmo de n en base 10. Elvalor de c es común redondearlo al entero más cercano.Otra regla razonable para el n´ umero de clases es

    c = √ n.

    6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor ymenor.

    7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-guiente recuadro.

    Amplitud de clase . La amplitud de clase w se determina calculando el cocienteentre el rango R y el número de clases c. Es decir,

    Amplitud de clase w = R

    c.

    El valor de w es común redondearlo al entero siguiente.

    8. El dato menor debe caer en la primera clase. Por esta razón, el ĺımite inferior de laprimera clase debe estar en, o un poco antes de, el dato menor. Aśı que podemosestablecer un acuerdo general sobre las clases de nuestras tablas de frecuencias

  • 8/20/2019 Capitulo 1 - Estadística Básica

    17/94

    1.2 Organizaci ón de datos 17

    agrupadas, empezando siempre la primera clase con la frontera inferior teniendoen cuenta que el ĺımite inferior coincide con el dato menor. Cuando hacemos esto,el valor ḿınimo que puede tomar la amplitud de clase se determina redondeandoa w al siguiente valor entero.

    Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-cuencias agrupadas considerando los siguientes datos.

    14 21 23 21 16 19 22 25 16 16 24 24 25 19 16 19 18 19 21 12 16 17 18 23 25 20 23 16 20 19 24 28 15 22 24 20 22 24 22 20

    SOLUCION:

    Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,entonces, el rango es

    R = 28 − 12 = 16.Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias

    agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla de Sturges sugiere usar c = 6 clases, porque el n úmero de clase es

    c = ( 3, 3 ) log 40 + 1 = ( 3, 3 )( 1,60 ) + 1 = 6, 2867 ≈ 6.donde ≈ signica “aproximadamente igual que”. Observemos que con la otra regla se obtiene el mismo resultado porque c = √ 40 = 6, 324 ≈6.

    Paso 3. Ahora, determinamos w , la amplitud de cada clase. En este caso,

    w = Rc = 166 = 2, 666.

    Como la unidad de precisi´on para los datos es 1, escogemos el mı́nimo entero mayor que 2,666 como el valor de la amplitud. En este caso, el mı́nimo entero mayor que 2,666 es 3. Por lo tanto, w = 3.

    Paso 4. A continuaci´on se construye la primera clase con un ancho de w = 3. Para ello, primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como la unidad de medida es 1 (porque todos los datos son enteros) y como el “punto medio”de cada unidad de medida es

    Punto medio de cada unidad de medida = Unidad de medida

    2 = 12 = 0,5,

    entonces, en este caso, la frontera inferior de la primera clase la hallaremos ası́:

    Front. inf. de primera clase = dato menor − punto medio de unidad de medida = 12 − 0, 5 = 11, 5.

    Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,entonces, la frontera superior ser´ a

    Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.

    En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    18/94

    1.2 Organizaci ón de datos 18

    Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la frontera inferior de la clase precedente coincide con la frontera superior de la clase anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases resultan ser las siguientes:

    Clase 1: 11,5 - 14,5 Clase 2: 14,5 - 17,5 (Observe: 17,5 = 14, 5 + 3)Clase 3: 17,5 - 20,5 (Observe: 20,5 = 17, 5 + 3)Clase 4: 20,5 - 23,5 (Observe: 23,5 = 20, 5 + 3)Clase 5: 23,5 - 26,5 (Observe: 26,5 = 23, 5 + 3)Clase 6: 26,5 - 29,5 (Observe: 29,5 = 26, 5 + 3)

    Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.Si uno de los datos cae en una clase, anotamos una marca ( |) en la columna corre-spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para los 40 datos dados.

    Clase Cuenta Frecuencia11,5 - 14,5 || 214,5 - 17,5 ||||| ||| 817,5 - 20,5 ||||| ||||| | 1120,5 - 23,5 ||||| ||||| 1023,5 - 26,5 ||||| ||| 826,5 - 29,5 | 1

    Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos ◭

    Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-tribuci´on de frecuencias considerando los siguientes datos:

    8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2 6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5

    SOLUCION:

    Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es

    R = 15, 8 − 6, 0 = 9,8.

    Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5clases, porque el n úmero de clase es

    c = ( 3, 3 ) log 20 + 1 = ( 3, 3 )( 1,30 ) + 1 = 5, 2933 ≈ 5.donde ≈ signica “aproximadamente igual que”.

    Paso 3. Ahora, determinamos w , la amplitud de cada clase. En este caso,

    w = R

    c =

    9, 85

    = 1, 96.

    El mı́nimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    19/94

    1.2 Organizaci ón de datos 19

    Paso 4. Como la unidad de medida es 0,1 (por tener los datos un s´ olo lugar decimal) y como el “punto medio” de cada unidad de medida es

    Punto medio de cada unidad de medida = Unidad de medida

    2 =

    0, 12

    = 0, 05,

    entonces, la frontera inferior de la primera clase es

    Frontera inferior = dato menor − 0,05 = 6, 0 − 0,05 = 5,95

    y la frontera superior ser´a

    Frontera superior = frontera inferior + amplitud = 5,95 + 2 = 7, 95.

    En consecuencia, la primera clase es 5,95 - 7,95.

    Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la frontera inferior de la clase precedente coincide con la frontera superior de la clase anterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clases resultan ser las siguientes:

    Clase 1: 5,95 - 7,95 Clase 2: 7,95 - 9,95 (Observe: 9,95 = 7,95 + 2)Clase 3: 9,95 - 11,95 (Observe: 11, 95 = 9,95 + 2)Clase 4: 11,95 - 13,95 Clase 5: 13,95 - 15,95

    Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.Si uno de los datos cae en una clase, anotamos una marca ( |) en la columna correspon-

    diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20 datos dados. Adem´as, allı́ también aparecen las marcas de clase X correspondientes a cada clase. Por ejemplo, la primera marca de clase se calcula aśı:

    X = 6, 0 + 7, 9

    2 = 6, 95.

    Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.

    Clase Cuenta Frecuencia Marcas de clase X5,95 - 7,95 |||| 4 6,957,95 - 9,95 || 2 8,95

    9,95 - 11,95 ||||| ||| 8 10,9511,95 - 13,95 ||| 3 12,9513,95 - 15,95 ||| 3 14,95

    Tabla 1.5: Tabla de frecuencia agrupada con 5 clases para 20 datos ◭

    Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-tribuci´on de frecuencias considerando los siguientes datos:

    39,78 28,30 28,31 17,95 44,47 46,65 31,47 33,45 29,17 48,39 82,71 43,63 41,17 47,32 52,16 25,94 50,32 35,25 35,70 17,89 60,20 48,14 22,78 38,22 23,25

  • 8/20/2019 Capitulo 1 - Estadística Básica

    20/94

    1.2 Organizaci ón de datos 20

    SOLUCION:

    Paso 1. El rango es R = 82, 71 − 17, 89 = 64, 82 .

    Paso 2. Aplicando la regla de Sturges, obtenemos que el n´ umero de clase es

    c = ( 3, 3 ) log 25 + 1 = ( 3, 3)( 1, 3979 ) + 1 = 5, 613 ≈ 6.Observemos que con la otra regla se obtiene c = √ 25 = 5. Es decir, podemos construir la tabla con 5 o con 6 clases. Escogeremos c = 6.

    Paso 3. Como c = 6 y R = 64, 82, entonces, w = Rc = 10, 803 . El ḿınimo entero mayor que 10,803 es 11. Por lo tanto, w = 11 .

    Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como como el “punto medio” de cada unidad de medida es

    Punto medio de cada unidad de medida = Unidad de medida 2

    = 0,012

    = 0,005,

    entonces, la frontera inferior de la primera clase es

    Frontera inferior = dato menor − 0, 005 = 17, 89 − 0, 005 = 17, 885

    y la frontera superior

    Frontera superior = frontera inferior + amplitud = 17, 885 + 11 = 28, 885.

    En consecuencia, la primera clase es 17,885 - 28,885.

    Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la frontera inferior de la clase precedente coincide con la frontera superior de la clase anterior y que la amplitud del intervalo es w = 11. De esta forma, las seis clases son como se muestran en la tabla 1.6 . Alĺı, tabién aparecen las marcas de clase correspondientes a cada clase.

    Clase Cuenta Frecuencia Marcas de clase X17,885 - 28,885 ||||| || 7 23,38528,885 - 39,885 ||||| || 7 34,38539,885 - 50,885 ||||| ||| 8 45,38550,885 - 61,885 || 2 56,38561,885 - 72,885 0 67,38572,885 - 83,885 | 1 78,385

    Tabla 1.6: Tabla de frecuencia agrupada con 6 clases para 25 datos ◭

    Tabla de frecuencia relativas, de frecuencias acumuladas y de frecuenciasrelativas acumuladas

    Son tablas de frecuencias agrupadas o no agrupadas en donde adicionalmente aparecenlas frecuencias relativas, las frecuencias acumuladas y/o las frecuencias acumuladasrelativas.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    21/94

    1.2 Organizaci ón de datos 21

    Denici´ on 1.2.8 (a) La frecuencia relativa de un dato o de una clase se en-cuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total de datos. Entonces, a la tabla se le llama tabla de frecuencias relativas .

    (b) La frecuencia acumulada de cualquier dato o clase, es la suma de la fre-cuencia de ese mismo dato o clase con las frecuencias de todos los dem´ as datos oclases anteriores. A la tabla se le llama tabla de frecuencias acumuladas .

    (c) La frecuencia relativa acumulada de un dato o de una clase se obtiene dividiendo la frecuencia acumulada del dato o de la clase por el n´ umero total de datos. A la tabla que contiene a estas frecuencias se les denomina tabla defrecuencias relativas acumuladas .

    Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias acumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5 .

    Clase Frec. Frec. rel. Frec. acum. Frec. rel. acum.11,5 - 12,5 2 2/40 = 0,05 ≈ 5% 2 2/40 = 0,0512,5 - 15,5 8 8/40 = 0,20 ≈ 20% 10 (= 8+2) 10/40 = 0,2515,5 - 18,5 11 11/40 =0,275 ≈ 27,5% 21 (=11+10) 21/40 = 0,52518,5 - 21,5 10 10/40= 0,25 ≈ 25% 31 (= 21+10) 31/40 = 0,77521,5 - 24,5 8 8/40 = 0,32 ≈ 32% 39 (=8+31) 39/40 = 0,97524,5 - 27,5 1 1/40 = 0 ,025 ≈ 2,5% 40 (=1+39) 40/ 40 = 1,0

    Tabla 1.7: Tabla de frecuencias relativas, de frecuencias acumuladas y de frecuenciasrelativas acumuladas con 6 clases para las datos del ejemplo 1.2.5. ◭

    Tablas bivariadas

    Una tabla de frecuencias bivariadas es un arreglo de datos clasicados en doscategoŕıas con sus respectivas frecuencias. Las categoŕıas pueden ser n´umeros discretos,intervalos numéricos o valores cualitativos como género, color de cabello o religión.

    Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y

    mujeres que se muestran en la siguiente tabla bivariada.

    Deporte preferidoBéisbol B ásquetbol F´utbol Total

    Hombres 19 15 24 58Mujeres 16 18 16 50

    Total 35 33 40 108

    La informaci ón que sigue, entre otras, puede leerse f´ acilmente de la tabla:

    (a) Se han encuestado en total a 108 personas.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    22/94

    1.2 Organizaci ón de datos 22

    (b) Hay 19 hombres que juegan beisbol.

    (c) Hay 40 personas que juegan f´utbol.

    (d) Hubo 50 mujeres entrevistadas. ◭

    1.2.4 Organizaci´ on de datos mediante representaciones grácas

    Hay grácas de varios tipos, entre los cuales se encuentran los siguientes: el diagramacircular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,el histograma, el poĺıgono (de frecuencia o de frecuencias relativas), la ojiva (o poĺıgonode frecuencias acumuladas o poĺıgono de frecuencias relativas acumuladas) y el diagramade tallo y hojas. Discuteremos cada uno de ellos con excepción del diagrama de caja ybigotes, que se introducirá en la sección 1.5.2.

    Diagramas circulares (o de pastel)Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan gene-ralmente para datos categ´oricos.

    Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de marca A, B, C, D y E que se vendieron en una tienda.

    Refresco Frecuencia Frecuencia relativa A 19 0,38 B 8 0,16 C 5 0,10 D 13 0,26 E 5 0,10

    Esta informaci´on se puede presentar a través de un diagrama circular como el que se muestra en la gura 1.3 .

    Fig. 1.3: Diagrama de pastel sobre compras de refresco

    Para trazarlo se dibuja primero un ćırculo. A continuaci´ on, con las frecuencias relativas, se divide el ćırculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.Por ejemplo, como hay 360 grados en un ćırculo, y como el refresco A tiene 0,38 de frecuencia relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8

  • 8/20/2019 Capitulo 1 - Estadística Básica

    23/94

    1.2 Organizaci ón de datos 23

    grados. Se efect úan c álculos semejantes para las dem´ as clases, obteniéndose el diagrama de la gura 1.3 . Los valores numéricos que se ven para cada sector pueden ser frecuencias,frecuencias relativas o porcentajes. ◭

    Pictogramas o pict´ ografos

    Un pictograma es la representación de datos estad́ısticos por medio de śımbolos quepor su forma sugieren la naturaleza del dato.

    Ejemplo 1.2.12 El siguiente pictograma representa una informaci´ on sobre las casas cons-truidas en algunos a˜ nos por una rma constructora. En él se hacen las siguientes conven-ciones: ∆ signica 1.000 casas construidas y Λ signica 500 casas construidas.

    A˜ nos Casas construidas 2.000 ∆ ∆ ∆ ∆ ∆

    2.001 ∆ ∆ ∆ ∆ ∆ ∆ ∆ Λ2.002 ∆ ∆ ∆ ∆ ∆ Λ2.003 ∆ ∆ ∆ ∆ ∆ ∆ ∆

    Fácilmente se puede interpretar del diagrama que en el a˜ no 2.000, la rma construy´ o 5.000 casas y, el 2.002, construy´o 5.500 casas. ◭

    Diagrama de barras

    Es una representaci ón gráca en la que cada una de las modalidades del aspecto deinterés se representa mediante una barra. En este gr´ aco se suelen disponer los datosen el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas

    una barra para cada modalidad del dato observado. La altura de la barra ha de serproporcional a la frecuencia absoluta o relativa, que se representaŕa en el eje de lasordenadas. Estos diagramas se utilizan tanto para datos categ´ oricos como numéricos.

    Ejemplo 1.2.13 La gura 1.4 muestra un diagrama de barras sobre los datos del ejemplo 1.2.11 .

    Fig. 1.4: Diagrama de barras para la compra de refrescos ◭

  • 8/20/2019 Capitulo 1 - Estadística Básica

    24/94

    1.2 Organizaci ón de datos 24

    Histogramas

    Los histogramas son una forma de representación gráca de una distribuci ón de fre-

    cuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas orelativas acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos fre-cuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuenciasrelativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirsepara distribuciones de frecuencias agrupadas y no agrupadas.

    Histogramas para frecuencias agrupadas

    La idea de construir un histograma para frecuencia no agrupada de los datos, es repre-sentar cada frecuencia por una barra cuya área sea proporcional a ella. T́ıpicamente, elancho de cada barra se escoge como 1 y aśı el área de la barra es igual a la frecuencia

    (absoluta, relativa, acumulada o relativa acumulada) del dato.Es importante se ñalar que aqúı los datos pueden ser categ´oricos o núméricos y queestos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,acumuladas o relativas acumuladas) en el eje vertical del diagrama.

    Ejemplo 1.2.14 El diagrama que se muestra en la gura 1.4 es un ejemplo de un histograma para la frecuencia de los datos de compra de refrescos. ◭

    Histogramas para frecuencias no agrupadas

    Para construir un histograma para datos medidos en una escala de intervalo o en una

    escala de razón, se acostumbra seguir dos pasos:

    • Se organizan los datos en una tabla de frecuencias (absolutas, relativas, acumu-ladas o relativas acumuladas) agrupadas.• Se construye una gráca de barras usando las fronteras de clase para colocarbarras, y las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas)

    para indicar las alturas de las barras.

    Ejemplo 1.2.15 La tabla de frecuencias (absolutas, acumuladas y relativas) correspondien-te a los datos del ejemplo 1.2.6 se muestra en la tabla 1.8 .

    Clase Frecuencia Frecuencia acumulada Frecuencia relativa5,95 - 7,95 4 4 0,27,95 - 9,95 2 6 0,1

    9,95 - 11,95 8 14 0,411,95 - 13,95 3 17 0,1513,95 - 15,95 3 20 0,15

    Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6

    Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos soncomo se ve en las guras 1.5 y 1.6, respectivamente.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    25/94

    1.2 Organizaci ón de datos 25

    Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6

    Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6 ◭

    Poĺıgonos

    Estos grácos se utilizan para representar series cronol ógicas y se construye usando unatabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usanfrecuencias absolutas, se denomina poĺıgono de frecuencias y si se utilizan frecuenciasrelativas, poĺıgono de frecuencias relativas.

    Ejemplo 1.2.16 Construir un poĺıgono de frecuencia para los datos del ejemplo 1.2.6 .SOLUCION:Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos del ejemplo 1.2.6 , con sus correspondientes marcas de clase. Ahora, construimos el poĺıgono con frecuencias absolutas mostrada en la gura 1.7. Las marcas de clase se colocan en el eje horizontal y las frecuencias en el eje vertical. Notemos que el poĺıgono se “ba ja” en ambos extremos, colocando el primer y el ´ultimo puntos en puntos del eje horizontal que distan w = 2 de las marcas de clase m ás cercanas.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    26/94

    1.2 Organizaci ón de datos 26

    Fig. 1.7: Poĺıgono de frecuencias para los datos del ejemplo 1.2.6 ◭

    Ojivas

    La ojiva , llamada también poĺıgono de frecuencias acumuladas (o poĺıgono de frecuen-cias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas orelativas acumuladas). Las ojivas ofrecen un medio gráco para interpolar o aproximarel número o porcentaje de observaciones menores o iguales que un valor espećıco.

    Ejemplo 1.2.17 La gura 1.8 representa una ojiva con frecuencias acumuladas para los datos del ejemplo 1.2.6 . Para su construcci´ on consideramos la tabla 1.8 .

    Fig. 1.8: Ojiva para los datos del ejemplo 1.2.6 ◭

    Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas

  • 8/20/2019 Capitulo 1 - Estadística Básica

    27/94

    1.2 Organizaci ón de datos 27

    siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadas siempre sobre el eje vertical). Despúes unimos los puntos consecutivos por segmentos de recta (observe que la frecuencia acumulada para la frontera inferior de la primera clase es 0).

    Diagrama de tallo y hojas

    El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datosoriginales se pierden en el proceso de agrupamiento. Para salvar esta limitación puedeusarse el llamado diagrama de tallo y hojas . Estos diagramas fueron creados por elestad́ıstico John Tukey y ofrecen una forma novedosa y rápida de exhibir informaciónnumérica: si un numeral tiene dos o más digitos, entonces, se puede descomponer enuna rama y una hoja. Un tallo es el primer d́ıgito o parte del numeral, mientra queuna hoja está formada por él o los d́ıgitos restantes. Por ejemplo, el numeral 534 se

    puede descomponer en dos formas:5 | 34 53 | 4

    ↑ ↑ ↑ ↑tallo hoja tallo hojaLa exhibición gráca de datos es muy fácil de realizar usando tallos y hojas; cada datoaporta una hoja de alg ún tallo.

    Ejemplo 1.2.18 Los datos de abajo muestran el n´ umero de anuncios radiof´onicos de 30 segundos pagados el a˜ no pasado por cada uno de los 45 miembros de una empresa. Organice los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.¿Alrededor de qué valores tiende a acumularse el n´ umero de anuncios? ¿Cu´al es el menor número de anuncios pagados por un comerciante? ¿El mayor n´ umero pagado?

    96 93 88 117 127 95 113 96 108 94 148 156 139 142 94107 125 155 155 103 112 127 117 120 112 135 132 111 125 104106 139 134 119 97 89 118 136 125 143 120 103 113 124 138

    SOLUCION:En el conjunto de datos se observa que el menor n´ umero de anuncios pagados es 88. Aśı es que el valor del primer tallo ser´a 8. El número m ás grande es 156. Entonces, los valores de los tallos empezar´an en 8 e irán hasta 15. El primer n´ umero en los datos es 96, que tendr´ a como tallo 9 y como hoja 6. Moviéndose por el rengl´ on superior el segundo valor es 93 y el tercero 88. Después de tomar los tres primeros valores del conjunto de datos, su diagrama es

    8 8 9 6 3

    10 1112 13 1415

    Despueés de organizar todos los datos, el diagrama de tallo y hojas se ve aśı:

  • 8/20/2019 Capitulo 1 - Estadística Básica

    28/94

    1.2 Organizaci ón de datos 28

    8 8 9 9 6 3 5 6 4 4 7

    10 8 7 3 4 6 3

    11 7 3 2 7 2 1 9 8 3 12 7 5 7 0 5 5 0 413 9 5 2 9 4 6 8 14 8 2 3 15 6 5 5

    Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el diagrama nal se ver´a aśı:

    8 8 9 9 3 4 4 5 6 6 7

    10 3 3 4 6 7 8 11 1 2 2 3 3 7 7 8 9 12 0 0 4 5 5 5 7 7 13 2 4 5 6 8 9 9 14 2 3 8 15 5 5 6

    Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las siguientes:

    • Primero, el menor n´umero de anuncios comprados es 88 y el mayor es 156.• Dos comerciantes compraron menos de 90 anuncios y tres, m´ as de 150.• Puede observarse, por ejemplo, que los tres comenrciantes que compraron m´ as de 150,compraron 155, 155 y 156 comerciales.

    • La mayor concentraci´ on del número de comerciales est´a entre 110 y 130.

    • Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraronentre 120 y 129.• También podemos decir que dentro del grupo de 120 a 129 el n´ umero de anuncios comprados se reparti´ o uniformemente.• Dos comerciantes compraron 120, un comenrciante compr´ o 124, tres compraron 125 y dos, 127.

    Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos unrect ángulo para representar la “cantidad de hojas” de cada tallo. Al hacerlo obtenemos la siguiente representaci´ on:

    8 8 9 9 3 4 4 5 6 6 7

    10 3 3 4 6 7 8 11 1 2 2 3 3 7 7 8 9 12 0 0 4 5 5 5 7 7 13 2 4 5 6 8 9 9 14 2 3 8 15 5 5 6

    Si giramos la p ágina 90 grados en el sentido de las manecillas del reloj, obtenemos una imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma informaci ón que un histograma, tiene dos ventajas principales:

  • 8/20/2019 Capitulo 1 - Estadística Básica

    29/94

    1.2 Organizaci ón de datos 29

    1. Es más fácil de construir.

    2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da m´ as informaci ón que

    un histograma porque muestra los valores reales. ◭

    Ejercicios de la secci´ on 1.26. Clasique los datos siguientes en cuantitativos (numéricos) y cualitativos (categ´oricos).

    En caso de ser numérico, como discretos o continuos:

    (a) Estaturas en cent́ımetros de cuatro jugadores de f´ utbol.(b) El número de goles anotados por Pelé en toda su carrera deportiva.(c) Los sueldos ganados por unos profesores universitarios.(d) Las temperaturas promedios diarias en el último mes.

    (e) Clasicación étnica de 30 empleados.(f) Números telefónicos ciertas personas.(g) Calicaciones del primer parcial de Estad́ıstica de unos estudiantes un universitarios.(h) Distancia (en metros) recorrido por un atleta en una temporada.(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.(j) Fecha de cumpleaños de determinadas personas.(k) Calicaciones (E, S, A, D, I) de unos estudiantes de bachillerato.(l) Rango militar.

    7. Diga la clase de grácas que son apropiadas para datos (a) cualitativos, (b) cuantitativosy (c) nominales.

    8. La tabla siguiente contiene la distribución de veh́ıculos que hay en un aparqueadero.

    Clase Tipo de veh́ıculo Cifra registrada1 Taxi 302 Camioneta 203 Motocicleta 35 4 Bicicleta 40

    (a) Identique los datos de cada una de las tres columnas como cuantitativos o cualita-tivos.

    (b) Identique los datos de la tercera columna como discretos o continuos.(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de

    intervalo o de razón.

    9. A continuación, se presenta una escala numérica para medir la efectividad de la tecnoloǵıaen la enseñanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectivay competente; y 5, si es verdaderamente extraordinaria.

    (a) Identique el tipo de escala de medición.(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estad́ıstica.

    ¿Será más f ácil interpretar esos resultados que los que se obtendŕıan si los 20 es-tudiantes evaluaran a su maestro mediante una opini´on escrita de respuesta libre?Explique.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    30/94

    1.2 Organizaci ón de datos 30

    10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias poruna muestra de 25 estudiantes durante un semestre.

    29 89 77 72 39 47 64 84 88 57 28 63 3842 36 72 69 68 41 52 39 84 45 52 72

    Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

    11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de lagasolina extra en una cierta ciudad a lo largo de un año en particular.

    123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9126,9 119,9 118,9 119,8 116,9 129,9 122,8 119,9

    Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.

    12. Se clasicó a los estudiantes de un programa universitario de acuerdo a con el semestreque cursa y su preferencia deportiva. Los resultados están registrados en la siguiente tabla.

    Primero Segundo Tercero CuartoFútbol 15 14 5 9Beisbol 12 22 6 6Voleivol 5 5 9 5Basquétbol 26 7 6 7Natación 7 8 4 2

    (a) ¿Qué porcentaje de los estudiantes de primer semestre preeren el f útbol?(b) ¿Qué porcentaje de los acionados a la nataci´on son de segundo semestre?(c) ¿Qué porcentaje del total de los estudiantes preeren el basquétbol?

    (d) ¿Qué porcentaje de los estudiantes son de cuarto semestre?(e) ¿Qué porcentaje del total de estudiantes son de tercer o cuarto semestre?(f) ¿Qué porcentaje preere la nataci´on, el voleibol o el beisbol?

    13. Los siguientes datos representan las cuentas telefónicas mensuales, en miles de pesos, de25 residentes de un pequeño pueblo:

    21,48 21,15 25,12 23,47 27,81 19,80 36,05 28,50 26,6620,35 30,22 25,49 20,80 23,83 25,35 23,48 25,81 21,0726,83 30,96 33,38 20,77 19,98 35,87 22,02

    (a) ¿Qué porcentaje del grupo pag´o más de 21.000 pesos?

    (b) ¿Qué porcentaje pag´o más de 22.000 pesos pero menos de 27.000 pesos?

    14. Considere la distribución de frecuencias:

    Clase 20-40 40-60 60-80 80-100 100-120Frecuencia 14 23 15 20 28

    Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acu-muladas, un poĺıgono de frecuencias absolutas y una ojiva de frecuencias acumuladas paraestos datos.

    15. Los datos que se indican a continuación representan el costo (en miles de pesos) de laenerǵıa eléctrica durante un determinado mes del a˜no para una muestra aleatoria de 50apartamentos en cierta ciudad importante:

  • 8/20/2019 Capitulo 1 - Estadística Básica

    31/94

    1.2 Organizaci ón de datos 31

    128 144 168 109 167 141 149 206 175 123153 197 127 82 96 171 202 178 147 102135 191 137 129 158 108 119 183 151 114

    111 148 213 130 165 157 185 90 116 172143 187 166 139 149 95 163 150 154 130

    (a) Obtenga una tabla de frecuencias con 7 intervalos de clase.(b) Graque el correspondiente histograma de frecuencias, el poĺıgono de frecuencias

    relativas y la ojiva con frecuencias acumuladas relativas.(c) ¿Alrededor de qué cantidad parece concentrarse el costo mensual de enerǵıa eléctrica?(d) Según su opinión, ¿cuál de las grácas representa mejor la distribución de los costos

    de enerǵıa eĺectrica?

    16. Se les pidío a 20 personas que identicaran su preferencia religiosa. Los resultados son:

    C P P J J A J C P P C J J C P P A P C Jdonde C denota cat ólico; P, protestante; J, jud́ıo y A, ateo. Construya una tabla defrecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama debarras, uno circular y un pictograma.

    17. Los siguientes datos que aparecen a continuación presentan los porcentajes de rentabilidadde las acciones de 25 empresas.

    30,8 20,3 24,0 29,6 19,4 38,0 24,5 21,5 25,630,8 32,9 30,3 39,5 13,3 28,0 19,9 24,6 32,330,7 20,3 24,7 18,7 36,8 31,2 50,9

    Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tablaresponda las preguntas que se formulan en los siguientes incisos:

    (a) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las accionesmayor que 34,25%?

    (b) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%y 48,25%?

    (c) ¿Qué porcentaje de empresas tienen el porcentaje de rentabilidad de las accionesentre 34,25% y 41,25%?

    (d) ¿Cuántas empresas tienen el porcentaje de rentabilidad de las acciones menor que27,25% o mayor que 41,25%?

    18. Según un estudio reciente, en cierto páıs mueren cada a ño 40.000 mujeres a causa del

    cáncer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y unpictograma que represente esta informaci ón.

    19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19años. En 1.991, el número de nacimiento fue de 62,1 por cada mil mujeres de la mismaedad. Dibujar un diagrama de barras que represente esta informaci ón.

    20. De las peĺıculas que están en cartelera en una gran ciudad, el 30% son dramas, el 35%comedias, un 15% son peĺıculas de acción, otro 6% de ciencia cción, el 10% son policiacas,y el 4% son de terror. Construir un diagrama circular que represente esta información.

    21. La siguiente tabla se reere a los usos más comunes citados en una encuesta realizadaa usuarios de computadores de pequeñas y medianas empresas. Construir un diagramacircular para representar esta informaci ón.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    32/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 32

    Área Respuestas (%)Contabilidad 22Procesadores de texto 12

    Hojas de cálculo 16Bases de datos 13Puntos de venta 1Telecomunicaciones 4Otros 32

    22. Un reporte sobre galletas reportó las siguientes calicaciones para varias marcas:

    Integral: 32 53 50 65 45 40 56 44 62 3230 40 50 56 30 22 56 68 41

    No integral: 47 40 34 62 52 62 53 75 4275 80 47 56 62 50 34 42 36

    Construya una presentaci ón comparativa de tallo y hoja, ponga en una lista los tallos (enel centro de la página), las hojas integrales a la derecha y las hojas no integrales a laizquierda. Describa las similitudes y diferencias para los dos tipos.

    1.3 Análisis de datos en tablas de frecuencias no agru-padas

    A continuación, estudiaremos las medidas que describen el comportamiento de un con- junto de datos. Estas medidas son: las de tendencia central (o de centralizaci´ on), las de colocaci´ on (o de posici´ on relativa ), las de dispersi´ on (o de variabilidad ) y las de forma .Estas se pueden visualizar intuitivamente en las siguientes grácas (que corresponden alas grácas de los llamados histogramas suavizados ):

  • 8/20/2019 Capitulo 1 - Estadística Básica

    33/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 33

    1.3.1 Medidas de tendencia central o de centralizaci´ on

    Al estudiar la información estad́ıstica mediante su representaci´on gráca, se puso en

    evidencia un signicativo comportamiento de los datos en cuanto a la frecuencia conque se presentan los valores: algunos de estos valores son más frecuentes que otros.Además, se observ ó una clara tendencia de agrupaci ón en el vecindario de los valoresmás frecuentes, haciendo que las grácas representativas adquieran formas especiales.Por lo general, la mayor densidad de frecuencia está en la parte central de las grácas,de aqúı deriva el nombre de medidas de tendencia central que se da a la media ,la mediana , la moda , el rango medio , la media geométrica , la media arm´ onica y la mediacuadŕatica . En esta sección estudiaremos estas medidas de tendencia central.

    Media

    Denici´ on 1.3.1 La media aritm ética de cierto conjunto de n´ umeros se encuen-tra sumando los n´ umeros y dividiendo después entre la cantidad de datos. En otras palabras, si x1 , . . . , x n son n´ umeros, entonces, la media aritmética de este conjuntode n´ umeros est´ a dada por

    Media aritmética = x1 + · · ·+ xn

    n .

    En estadı́stica se habla de media aritm ética poblacional , y se simboliza por µ , cuando el con- junto de datos corresponden a los de la poblaci´ on; y de media aritm ética muestral , y se simboliza por x, cuando se tienen en cuentan los datos de una muestra .

    Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en a˜ no de prin-cipiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media aritmética de estos datos es

    x = 18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21

    10 = 19. ◭

    Generalmente, para calcular la media de un conjunto de datos, es más c´omodo utilizar lallamada media aritmética ponderada , la cual es un caso especial de la media aritmética.Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo quepuede ocurrir si se han organizado los datos en una tabla de frecuencias.

    Denici´ on 1.3.3 Sea dada siguiente tabla de frecuencias no agrupadas:

    Dato x1 x2 . . . x nFrecuencia f1 f2 . . . f n

    en donde fi es la frecuencia del dato xi . Entonces, la media aritm ética ponde-rada o, simplemente, media artim ética , de los datos x1 , . . . , x n se dene como

    Media aritmética = x1 f 1 + · · ·+ xn f n

    f 1 + · · ·+ fn.

  • 8/20/2019 Capitulo 1 - Estadística Básica

    34/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 34

    Ejemplo 1.3.4 La media aritmética de los datos del ejemplo 1.3.2 se pueden calcular conayuda de la llamada media aritmética ponderada. Para ello, organizamos estos datos en una tabla de frecuencias no agrupadas, tal como

    Dato 18 19 20 21Frecuencia 4 3 2 1

    Luego, aplicamos la denici´on 1.3.3 y hallamos la media de los datos de la siguiente manera:

    x = (18)( 4) + ( 19)( 3) + ( 20)( 2) + ( 21)( 1)

    4 + 3 + 2 + 1 = 19. ◭

    Desventaja de la media

    La media tiene una seria desventaja: se ve afectada por los valores extremos del nal deuna distribución. Como depende del valor de cada medida, los valores extremos puedenllevarla a representar defectuosamente los datos.

    Mediana y moda

    La mediana y la moda son medidas de tendencia central que no tienen propiedades queles permitan intervenir en desarrollos algebraicos como la media aritmética, por eso sonde menor importancia te órica que ella. Sin embargo, poseen propiedades que ponen enevidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritméticaque promedia todos los valores igualando en un justo reparto todas las observaciones,es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacanlos valores individuales, de lo que se desprende su utilidad e importancia en cierto tipode análisis.

    Mediana

    Denici´ on 1.3.5 Para datos medidos en al menos una escala de intervalo, la mediana es el puntaje medio ordenado.

    Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes pasos:

    • Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas ordenado.• El valor de la mediana depender´ a del hecho de que n sea par o impar:

    – Si n es impar, entonces, la mediana ser´ a el dato en el centro, es decir, la mediana es el dato que se encuentra en el lugar n + 12 ;

    – si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones centrales, es decir, la mediana es el promedio de las datos que se encuentran en los lugares n2 y

    n2 + 1.

    N´ otese que, por ejemplo, n + 12 no representa uno de los datos, sino el n´ umero de valores que deben contarse para llegar a la mediana.

    Ejemplo 1.3.6 El conjunto de n´umeros 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto que ya los datos est´an ordenados, el n´umero de datos es 9 (impar) y, en este caso, el 6 est´ a ubicado en el centro (en el cuarto lugar). ◭

  • 8/20/2019 Capitulo 1 - Estadística Básica

    35/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 35

    Ejemplo 1.3.7 El conjunto de n úmeros 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 12 (9 + 11) =10, puesto que ya los datos est´ an ordenados, el n´umero de datos es 8 (par), el 9 y el 11 sonlos dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos. ◭

    Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de frecuencias.

    Dato 0 1 2 3 4Frecuencia 10 10 8 4 8

    SOLUCION:Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la me-diana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentranen la tabla 1.9 .

    Dato Frecuencia Frecuencia acumulada

    0 10 101 10 202 8 283 4 224 8 40

    Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8

    Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidas que est án en las posicones n2 = 20 y

    n2 + 1 = 21. Para encontrar la mediana recomendamos

    contar los datos en direcci´ on de la medida menor a la mayor. De la tabla es f´ acil ver que el dato en lugar 20 es 1 y que el dato en la posici´on 21 es 2. Por tanto, la mediana es

    Mediana = dato en la posici ón 20 + dato en la posici ón 21

    2 =

    1 + 22

    = 1,5. ◭

    Ventajas y desventajas de la mediana

    El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas.Una ventaja es que la mediana no se ve afectada por valores extremos al nal de ladistribución. La desventaja del uso de la mediana reside en que no es fácilmente de-terminable si el conjunto de datos es grande, puesto que las medidas deben ordenarseprimero y ponerse en orden numérico de menor a mayor o al contrario.

    Moda

    Denici´ on 1.3.9 La moda, si se da, es el dato con mayor frecuencia.

    Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato con mayor frecuencia. ◭

  • 8/20/2019 Capitulo 1 - Estadística Básica

    36/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 36

    Ventajas y desventajas de la moda

    • Tiene dos ventajas: Para ciertas muestras peque˜nas, se le determina fácilmentey, en general, no se ve afectada por los valores extremos al nal de un conjuntode datos ordenados. Cuando se analizan datos categ´oricos, la moda es el únicodato de tendencia central que puede utilizarse. Finalmente, la moda puede usarsecomo una medida de tendencia central para datos numéricos empleados en sentidocateg órico. Una moda para datos en una tabla de frecuencia, se encuentra loca-lizando el valor de frecuencia máxima, si no todas las frecuencias son iguales. Eldato que corresponde al valor de frecuencia máxima se toma como la moda.

    Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11 , el refresco más popular es el A(es decir, la moda es el refresco A), puesto que es el que m´ as se compra. ◭

    • La moda tiene varias desventajas como medida de tendencia central: una de ellases que para un cierto conjunto de datos no puede haber moda. Esta situaci´onsurge cuando todos los datos tienen la misma frecuencia. Otra desventaja es quela moda puede existir pero no ser única.

    Ejemplo 1.3.12 (a) El conjunto 3, 3, 5, 5, 7 y 7 no tiene moda.(b) El conjunto 3, 3, 5, 5, 5, 7, 7, 7, y 9 tiene dos modas: el 5 y el 7. ◭

    Rango medio

    Denici´ on 1.3.13 El rango medio de un conjunto de datos es el promedio de las

    medidas mayor y menor.

    Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 est´a dado por

    Rango medio = 27 + 45

    2 = 36,

    ya que 45 y 27 son los datos mayor y menor, respectivamente. ◭

    Ventajas y desventajas del rango medio

    Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto para

    análisis nanciero como para reportes metereológicos, porque puede proporcionar unamedida adecuada, rápida y sencilla que caracteriza a todo el conjunto de datos. Noobstante, a pesar de estas ventajas y de su sencillez, el rango medio se debe utilizar concuidado. Como sólo incluye la observación más peque ña y la más grande en un conjuntode datos, el rango medio es una medida modicada de tendencia central si está presenteun valor extremo. En estas situaciones, el rango medio no es apropiado.

    Media geométrica

    La media geom étrica es útil para encontrar los cambios procentuales en una seriede números positivos, inclusive, para encontrar el promedio de proporciones, ı́ndices, o

  • 8/20/2019 Capitulo 1 - Estadística Básica

    37/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 37

    tasas de crecimiento. Tiene mucha aplicaci ón en el comercio y en la econoḿıa porquenos interesa encontrar el cambio porcentual en las ventas, salarios o datos econ´omicos,tales como el producto nacional bruto.

    Denici´ on 1.3.15 La media geom étrica de un conjunto de n n´ umeros enteros positivos se dene como la n -ésima ráız del producto de los n valores. Es decir,la media geométrica de los n n´ umeros positivos x1 , . . . , x n se calcula a través de la f´ ormula

    Media geométrica = ( x1 · · ·xn )1/n .Si estos n´ umeros positivos x1 , . . . , x n tienen frecuencias (ponderaciones o pesos)f1 , . . . , f n , respectivamente, entonces, la media geom étrica (ponderada) de es-tos n´ umeros viene dada por la (f1 + · · ·+ fn )-ésima ráız del producto de los valores,elevando cada uno a su respectiva frecuencia, es decir,

    Media geométrica = xf 11 · · ·xf nn1/ (f 1 + ··· + f n )

    .

    La media geométrica siempre ser´ a menor que la media aritmética salvo en el extra˜ no caso en el que todos los incrementos porcentuales sean iguales. Si esto ´ ultimo sucede, las dos medias ser´ an iguales.

    Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de creci-miento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de creciemiento promedio es menor que el promedio industrial del 10%, se asumir á una nueva campa˜ na publicitaria.

    Año Ingreso (en d ólares) Porcentaje del a˜ no anterior1.992 50.000 – –1.993 55.000 55/50 = 1,101.994 66.000 66/55 = 1,201.995 60.000 60/66 = 0,911.996 78.000 78/60 = 1,30

    Tabla 1.10: Ingresos para una empresa

    SOLUCION:Primero es necesario determinar el porcentaje que los ingresos de cada a˜ no representanrespecto de los obtenidos el a˜ no anterior. En otras palabras, ¿qué porcentaje del ingreso de 1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre los de 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de 1.992. También se calculan los porcentajes para los tres a˜ nos restantes. Tomando la media geométrica de estos porcentajes da

    Media geométrica = [( 1,10 )( 1, 2 )( 0,91 )( 1, 3 )]1/4 = 1, 1179.

    Restando 1 para convertirlo a un incremento anual promedio da 0,1179, o un incremento promedio de 11,79% para el promedio de cinco a˜ nos. Por otro lado, la media aritmética es

    x = 1, 1 + 1, 2 + 0,91 + 1, 3

    4

    = 1, 1275

  • 8/20/2019 Capitulo 1 - Estadística Básica

    38/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 38

    o un cambio promedio de 12,75%. Se divide por 4 ya que se presentaron cuatro cambios durante el periodo de cinco a˜ nos. Sin embargo, si un incremento promedio de 12,75%, basado en la media aritmética, se aplica a la serie que comienza con 50.000 d´ olares, los resultados son

    50.000 dólares ×1, 1275 = 56.375 dólares 56.375 dólares ×1, 1275 = 63.563 dólares 63.563 dólares ×1, 1275 = 71.667 dólares 71.667 dólares ×1, 1275 = 80.805 dólares

    Ya que 80.805 d ólares excede los 78.000 que la empresa en realidad gan´ o, el incremento del 12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geométrica del 11,79%, se obtiene

    50.000 dólares ×1, 1179 = 55.895 dólares 55.895

    dólares ×1, 1179 = 62.485

    dólares 62.485 dólares ×1, 1179 = 69.852 dólares 69.852 dólares ×1, 1179 = 78.088 ≈ 78.000 dólares

    Esto da un valor de 78.088 d´olares, lo que est á mucho m ás cerca al ingreso real de 78.000 dólares.

    Como interpretaci´ on nal podemos decir lo siguiente. La media geométrica representa el cambio promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio de la industria del 10%, la nueva campa˜ na publicitaria no se llevar´ a a cabo. ◭

    Ejemplo 1.3.17 Dos pueblos determinados tienen un 48% y un 34%, respectivamente, de poblaci ón masculina. Discutir la mayor conveniencia de la media geométrica para promediar porcentajes.SOLUCION:La media aritmética para estos porcentajes es

    x = 48% + 34%

    2 = 41%

    y la media geométrica,G = √ 48% ·34% = 40, 4%.

    Ahora, la media aritmética de los porcentajes rećıprocos es

    x ′ =1

    48 % + 134 %

    2 =

    0,0208 + 0, 02942

    = 0, 0251

    y la media geométrica es

    G ′ = 1 48% · 134% = √ 0, 0208 ·0, 0294 = 0, 0247.Debido a que

    1x

    = 0, 02439 = 0, 0251 = x′

    y, en cambio,1G

    = 1

    40, 4% = 0, 0247 = G ′ .

    Debido a que 1x = x′ y a que 1G = G

    ′ , podemos armar que la media geométrica es mejor que la media artimética para promediar porcentajes y proporciones. ◭

  • 8/20/2019 Capitulo 1 - Estadística Básica

    39/94

    1.3 Análisis de datos en tablas de frecuencias no agrupadas 39

    A continuación se presenta un ejemplo que ilustra el cálculo de la media geométrica deun conjunto de datos que aparecen en una tabla frecuencias no agrupadas.

    Ejemplo 1.3.18 La media geométrica de la distribuci´ on de frecuencias que aparece en la tabla

    Dato 1 3 4 6 Frecuencia 3 2 3 5

    viene dada por

    Media geométrica = 13 ·32 · 43 ·651/13

    ≈ 3, 248. ◭

    Media arm´ onica

    Denici´ on 1.3.19 La media arm ónica es el rećıproco de la media aritmética de los datos. Es decir, la media arm´ onica de los datos x1 , x 2 , . . . , x n est´ a dada por

    Media arm´ onica = n

    1x1

    + 1x2 + · · ·+ 1xn.

    Si estos datos x1 , . . . , x n tienen frecuencias (ponderaciones o pesos) f1 , . . . , f n , res-pectivamente, entonces, la media arm ónica (ponderada) de estos datos viene dada por

    Media arm´ onica = f1 + f 2 + · · ·+ f nf 1

    x1+ f2x2 + · · ·+ f nxn

    .

    Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro a˜ nos arroz a distintos precios:

    • El primer a˜ no a $ 1.200 el kilogramo.• El segundo a˜ no a $ 1.