ESTADÍSTICA MODULO I ESTADÍSTICA DESCRIPTIVA

download ESTADÍSTICA MODULO I  ESTADÍSTICA  DESCRIPTIVA

of 20

Transcript of ESTADÍSTICA MODULO I ESTADÍSTICA DESCRIPTIVA

ESTADSTICA MODULO I ESTADSTICA DESCRIPTIVA LA ESTADSTICA es el estudio cientfico de datos numricos basados en fenmenos naturales. Es una tcnica matemtica de investigacin que ayuda a delimitar una muestra, a reconocer los datos, ordenarlos, presentarlos, analizarlos y sacar conclusiones. La estadstica es una rama de las matemticas que estudia los mtodos de obtencin de datos sobre una poblacin analizndolos con el fin de hallar alguna informacin para un efecto dado. La estadstica generalmente es definida como la rama de las matemticas que se ocupa de reunir, organizar y analizar datos numricos y as mismo que ayuda a resolver problemas como el diseo de experimentos y la toma de decisiones. La estadstica inferencial trabaja con muestras, subconjuntos, formados por algunos individuos de la poblacin. A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la poblacin. La estadstica descriptiva analiza, estudia y describe a la totalidad de individuos de una poblacin. Su finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada cmoda y rpidamente POBLACIN: El concepto de poblacin en estadstica va ms all de lo que comnmente se conoce como tal. Una poblacin se precisa como un conjunto finito o infinito de personas u objetos que presentan caractersticas comunes. "Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una poblacin es un conjunto de elementos que presentan una caracterstica comn". Cadenas (1974). Ejemplo: Los miembros del Colegio de Ingenieros del Estado Cojedes. El tamao que tiene una poblacin es un factor de suma importancia en el proceso de investigacin estadstica, y este tamao vienen dado por el nmero de elementos que constituyen la poblacin, segn el nmero de elementos la poblacin puede ser finita o infinita. Cuando el nmero de elementos que integra la poblacin es muy grande, se puede considerar a esta como una poblacin infinita, por ejemplo; el conjunto de todos los nmeros positivos. Una poblacin finita es aquella que est formada por un limitado nmero de elementos, por ejemplo; el nmero de estudiante del Ncleo San Carlos de la Universidad Nacional Experimental Simn Rodrguez. Cuando la poblacin es muy grande, es obvio que la observacin de todos los elementos se dificulte en cuanto al trabajo, tiempo y costos necesario para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadstica. Es a menudo imposible o poco prctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado poblacin o universo, se examina una pequea parte del grupo llamada muestra. Poblacin al conjunto de todos los elementos cuyo conocimiento interesa. Cada uno de esos elementos es un individuo. Si se est estudiando el resultado de ciertos experimentos qumicos, cada uno de esos experimentos ser un individuo estadstico y el conjunto de todos los posibles experimentos en esas condiciones ser la poblacin. Cada individuo puede ser descrito mediante uno o varios caracteres. Por ejemplo, si los individuos son personas, el sexo, el estado civil, el nmero de hermanos o su estatura son caracteres. Y si el individuo es una reaccin qumica, el tiempo de reaccin, la cantidad de producto obtenido o si ste es cido o bsico sern posibles caracteres que pueden analizarse. Un carcter puede ser cuantitativo si es medible numricamente o cualitativo si no admite medicin numrica. El nmero de hermanos y la estatura son caracteres cuantitativos mientras que el sexo y el estado civil son caracteres cualitativos. Los distintos valores que puede tomar un carcter cuantitativo configuran una variable estadstica. La variable estatura, en cierta poblacin estadstica, toma valores en el intervalo 147-205; y la variable nmero de hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadstica como esta ltima es discreta, ya que slo admite valores aislados. Una variable estadstica es continua si admite todos los valores de un intervalo, como ocurre con la estatura Es la recoleccin completa de todas las observaciones de inters para el observador. Es un conjunto completo de individuos, objetos o medidas que tienen una caracterstica comn observable. La poblacin, o el universo, est formado por la totalidad de los elementos que se desean estudiar, ejemplos podran ser: La poblacin total de Venezuela, los alumnos cursantes en las universidades del pas, la produccin de toda una industria, a cosecha de un ao dado, el rendimiento de una raza de ganado, entre otros. Por ejemplo: si se esta estudiando el resultado de ciertos experimentos qumicos cada uno de esos experimentos ser un individuo estadstico y el conjunto de todos los posibles experimentos en esas condiciones ser la poblacin.

La poblacin es el conjunto de todos los individuos cuyo conocimiento es objeto de inters desde un punto de vista estadstico. Por ejemplo, si se est interesado en las ventas de los comercios de una cierta ciudad, cada comercio es un individuo, y la poblacin tambin llamada universo es el conjunto de todos los comercios de la ciudad. El estudio estadstico de una poblacin se puede realizar mediante un anlisis exhaustivo de todos sus individuos (estadstica descriptiva) o bien mediante una inferencia realizada a partir de una muestra extrada de la poblacin (estadstica inferencial). Una poblacin la constituyen todos los individuos de una especie determinada que se encuentran en un rea limitada en un momento dado. La poblacin es la totalidad de observaciones individuales sobre las cuales se hacen inferencias, las cuales existen en cualquier parte del mundo o al menos dentro de un rea de muestreo claramente especificada, limitada en espacio y tiempo. MUESTRA Conjunto de individuos extrado de una poblacin con el fin de inferir mediante su estudio, caractersticas de toda la poblacin. En los estudios estadsticos, en vez de analizar la totalidad de la poblacin o universo, se acude al recurso de considerar solamente una parte de ella, a la cual se llama muestra. Es requisito indispensable que la muestra a analizarse sea representativa realmente de la poblacin o universo, al cual substituye en el estudio estadstico, o sea, que debe contener valores tpicos del fenmeno que se desea estudiar. Es un subconjunto de la poblacin o el universo. Es una parte representativa d la poblacin seleccionada para ser estudiada ya que la poblacin es demasiado grande como para analizarla en su totalidad. Conjunto de individuos extrados de una poblacin con el fin de inferir, mediante su estudio, caractersticas de toda la poblacin. Se dice que una muestra es representativa cuando, por la forma en que ha sido seleccionada, aporta garantas suficientes para realizar inferencias fiables a partir de ella. Una muestra se puede definir como un conjunto de observaciones individuales seleccionadas por un procedimiento especfico. Ejemplo, el peso de un ratn a travs de un periodo de tiempo. El diseo de muestra o disea de encuesta especifica el mtodo de obtencin de la muestra. El diseo no especifica la forma de recolectar o medir los datos reales. Especifica nicamente el mtodo de recoleccin de los objetos que contienen la informacin requerida. Estos objetos se llaman elementos. Un elemento es un objeto del cual se toma una medicin. Los elementos pueden ocurrir individualmente o en grupos en la poblacin. Un grupo de elementos, como una familia o una caja de cerillos se llama unidad de muestreo. Las unidades de muestreo son colecciones disjuntas de elementos de la poblacin. En algunos casos una unidad muestral esta constituida por un solo elemento. Para seleccionar una muestra aleatoria de unidades de elementos mustrales, es necesaria una lista de todas las unidades mustrales contenidas en la poblacin. Esta lista se le denomina marco muestral. Un marco muestral es una lista de unidades mustrales. MUESTRA ALEATORIA Es un subconjunto de la poblacin o universo seleccionado en forma tal que cada miembro de la poblacin tenga igual oportunidad de ser elegido. Muestra elegida independientemente de todas las dems, con la misma probabilidad que cualquier otra y cuyos elementos estn elegidos independientemente unos de otros y con la misma probabilidad. Al seleccionar una muestra aleatoria de n mediciones de una poblacin infinita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras posibles de tamao n tenga la misma probabilidad de ser seleccionadas, el muestreo se llama aleatorio y el resultado es una muestra aleatoria simple. Una muestra aleatoria estratificada es una muestra aleatoria que se obtiene separando los elementos de la poblacin en grupos disjuntos, llamados estratos, y seleccionando una muestra aleatoria simple dentro de cada estrato.

MUESTREO Proceso por el cual se seleccionan los individuos que formarn una muestra. Para que se puedan obtener conclusiones fiables para la poblacin a partir de la muestra, es importante tanto su tamao como el modo en que han sido seleccionados los individuos que la componen. El tamao de la muestra depende de la precisin que se quiera conseguir en la estimacin que se realice a partir de ella. Para su determinacin se requieren tcnicas estadsticas superiores, pero resulta sorprendente cmo, con muestras notablemente pequeas, se pueden conseguir resultados suficientemente precisos. Por ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchsima precisin los resultados de unas votaciones en las que participarn decenas de millones de votantes. Para seleccionar los individuos de la muestra es fundamental proceder aleatoriamente, es decir, decidir al azar qu individuos de entre toda la poblacin forma parte de la muestra. Si se procede como si de un sorteo se tratara, eligiendo directamente de la poblacin sin ningn otro condicionante, el muestreo se llama aleatorio simple o irrestrictamente aleatorio. Cuando la poblacin se puede subdividir en clases (estratos) con caractersticas especiales, se puede muestrear de modo que el nmero de individuos de cada estrato en la muestra mantenga la proporcin que exista en la poblacin. Una vez fijado el nmero que corresponde a cada estrato, los individuos se designan aleatoriamente. Este tipo de muestreo se denomina aleatorio estratificado con asignacin proporcional. Las inferencias realizadas mediante muestras seleccionadas aleatoriamente estn sujetas a errores, llamados errores de muestreo, que estn controlados. Si la muestra est mal elegida no es significativa se producen errores sistemticos no controlados. RAZN: Es el cociente entre dos nmeros, en el que ninguno o slo algunos elementos del numerador estn incluidos en el denominador. El rango es de 0 a infinito. PROPORCIN: Es una razn en la cual los elementos del numerador estn incluidos en el denominador. Se utiliza como estimacin de la probabilidad de un evento. El rango es de 0 a 1 (o de 0 a 100%). es el nmero de veces que se presenta ese dato respecto al total de datos. Se conoce tambin como frecuencia relativa y es uno de los parmetros de clculo ms sencillo. Tiene la ventaja de que puede calcularse para variables cualitativas. Por ejemplo, si se estudia el color de ojos de un grupo de 20 personas, donde 7 de ellas los tienen azules, la proporcin de individuos con ojos azules es del 35% (= 7/20). El dato con mayor proporcin se conoce como moda (vase, ms arriba). En inferencia estadstica existen intervalos de confianza para la estimacin de este parmetro. TASA: Es un tipo especial de razn o de proporcin que incluye una medida de tiempo en el denominador. Est asociado con la rapidez de cambio de un fenmeno por unidad de una variable (tiempo, temperatura, presin). Los componentes de una tasa son el numerador, el denominador, el tiempo especfico en el que el hecho ocurre, y usualmente un multiplicador, potencia de 10, que convierte una fraccin o decimal en un nmero entero. El rango es de 0 a infinito. es un coeficiente que expresa la relacin entre la cantidad y la frecuencia de un fenmeno o un grupo de fenmenos. Se utiliza para indicar la presencia de una situacin que no puede ser medida en forma directa. Esta razn se utiliza en mbitos variados, como la demografa o la economa, donde se hace referencia a la tasa de inters. Algunos de los ms usados son: tasa de natalidad, tasa de mortalidad, tasa de crecimiento demogrfico, tasa de fertilidad o tasa de desempleo. PORCENTAJE es la expresin de un nmero fraccionario tomando como base el 100, de forma que la unidad tiene ese valor. As, por ejemplo, 50 % equivale a un medio o 0,5, 25 % equivale a un cuarto o 0,25, etc. El porcentaje se expresa mediante un adjetivo (nmero) y un adverbio (por ciento) que complementa su significado. El estndar del SI considera que el signo "por ciento" (%), reconocido internacionalmente, es un smbolo matemtico que equivale 0,01 (50 % = 50 0,01 = 0,5) y recomienda escribirlo separado con un

espacio de la cifra (como los smbolos de unidades). Admite la posibilidad de escribirlo ntegramente en letras cuando va con cifras, pero recomienda el signo: 15 por ciento 15 % Las normas internacionales como el SI no consideran otras grafas como por 100, que eran corrientes antao; en ella se entremezcla la lengua formal y la verbal, por lo que debe considerarse incorrecta. Para evitar que haya un salto de lnea entre la cifra y el smbolo, han de separarse con un espacio de no divisin. En algunos manuales de estilo, como el MELE no comparten el punto de vista de las normas internacionales y consideran que la expresin ntegramente en palabras es incorrecta y que la correcta es por 100. (En espaol, 15 por 100 es ambigua, pues puede significar 15 100 en lugar de 15/100.) ORGANIZACIN Y PRESENTACION DE DATOS FRECUENCIA El nmero de veces que ocurre un cierto suceso. Nmero de elementos comprendidos dentro de un intervalo en una distribucin determinada. Es un numero que nos indica las veces que un dato esta repetido. En una tabla de frecuencias, nos indica la cantidad de datos que estn comprendidos en un intervalo de clase. Es el nmero de datos o elementos de la muestra, que caen en un mismo intervalo de clase. Es decir, que sus valores quedan totalmente comprendidos dentro de los linderos de ese mismo intervalo.

FRECUENCIA ABSOLUTA (ni): Consiste en la proporcin de veces que ocurre dicho suceso con relacin al nmero de veces que podra haber ocurrido. Puede definirse como el nmero de veces que se repite cada valor o modalidad de la variable o atributo. El nmero de veces que se observa un mismo tem (Los datos de una misma magnitud o clase), o la cantidad d datos que caen en un mismo intervalo. La suma de las frecuencias absolutas es igual al tamao de la poblacin o la muestra. FRECUENCIA RELATIVA (hi): Es la frecuencia absoluta dividida por el nmero de casos, es decir la muestra o la poblacin. Es la relacin geomtrica entre la frecuencia absoluta y el total de datos. O sea, el cociente de dividir el nmero de veces que aparece un dato de un intervalo, entre la totalidad de los datos que conforman la muestra de que se trate. La suma de las frecuencias relativas es igual a la unidad. Por ejemplo, si una experiencia aleatoria se repite 80 veces y un cierto suceso, S, ocurre 36 veces, decimos que su frecuencia ha sido 36, y su frecuencia relativa 36/80 = 0,45: f(S) = 36 fr(S) =36/80 = 0,45 La frecuencia relativa tambin se expresa, en ocasiones, en tantos por ciento (45%). FRECUENCIAS ACUMULADAS (Ni, Hi) La frecuencia acumulada de una observacin de la variable es la suma de las frecuencias correspondientes a los valores menores o anteriores a dicho valor. Es la suma de las frecuencias de un intervalo de clase, con todas las frecuencias de los intervalos que le preceden. Hay dos frecuencias acumuladas que son:o o

Frecuencia absoluta acumulada (Ni) Frecuencia relativa acumulada (Hi)

Frecuencia acumulada absoluta

Es la acumulacin o suma de todas las frecuencias absolutas hasta el intervalo de clase considerado, inclusive.

Frecuencia acumulada relativa

Viene a ser la acumulacin de todas las frecuencias relativas hasta el mismo intervalo considerado, inclusive. En una tabla de frecuencias, cuando la variable es cuantitativa y, por tanto, los distintos valores de la tabla aparecen ordenados de menor a mayor, se llama frecuencia acumulada de un valor de la variable a la suma de su frecuencia con las frecuencias de los valores anteriores. Por ejemplo, si al lanzar un dado 100 veces se obtienen los siguientes resultados:

f(1) = 16 f(2) = 13 f(3) = 21 f(4) = 19 f(5) = 14 f(6) = 17

las frecuencias acumuladas son:

fa(1) = 16 fa(2) = 16 + 13 = 29 fa(3) = 29 + 21 = 50 fa(4) = 50 + 19 = 69 fa(5) = 69 + 14 = 83 fa(6) = 83 + 17 = 100

Estos resultados se aprecian mejor en una tabla: Las frecuencias relativas acumuladas son las frecuencias acumuladas divididas por el nmero total de individuos. EJEMPLO: Supngase que treinta empleados de acuerdo con el rendimiento al trabajo durante una semana fueron calificados as:

A= Excelente B= Bueno C= Aceptable D= Regular F=Deficiente

Los resultados fueron: C - B - C - A - F - A - D - B - D - C - A - B - F - D - C - A -B - D - C - C -B - A - A - C B-F-A-D-D-F DISTRIBUCIN DE FRECUENCIAS a la agrupacin de datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada categora. Esto proporciona un valor aadido a la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas. Tabla de frecuencias Una distribucin de frecuencias es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que describen una caracterstica de los datos y muestra el nmero de observaciones del conjunto de datos que caen en cada una de las clases. La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numrico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el nmero de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada. Cuando se dispone de gran nmero de datos, es til el distribuirlos en clases o categoras y determinar el nmero de individuos pertenecientes a cada clase, que es la frecuencia de clase. Una ordenacin tabular de los datos en clases, reunidas las clases y con as frecuencias correspondientes a cada una, se conoce como una distribucin de frecuencias o tabla de frecuencias. La Tabla 1 es una distribucin de frecuencias de alturas (registradas con aproximacin de pulgada) de 100 estudiantes de la Universidad XYZ.

La primera clase o categora, por ejemplo, comprende las alturas de 60 a 62 pulgadas y viene indicada por el smbolo 60 - 62. Puesto que 5 estudiantes tienen una altura perteneciente a esta clase, la correspondiente frecuencia de clase es 5. Los datos ordenados y resumidos como en la distribucin de frecuencia anterior, se suelen llamar datos agrupados. Aunque con el proceso de agrupamiento generalmente se pierde parte del detalle original de los datos, tiene la importante ventaja de presentarlos todos en un sencillo cuadro que facilita el hallazgo de las relaciones que pueda haber entre ellos, puestas as de manifiesto. Intervalos de clase y lmites de clase Un smbolo que define una clase, tal como 60 - 62 de la tabla anterior, se conoce como intervalo de clase. Los nmeros extremos, 60 y 62, son los lmites de clase; el nmero menor 60 es el lmite inferior de la clase y el mayor 62 es el lmite superior. Los trminos clase e intervalo de clase se utilizan a menudo indistintamente, aunque el intervalo de clase es realmente un smbolo para la clase. Un intervalo de clase que, al menos tericamente, no tiene lmite superior o inferior, se conoce como intervalo de clase abierto. Por ejemplo, al referirse a la edad de grupos de individuos el intervalo de clase, mayores de 65 aos es un intervalo de clase abierto. Lmites reales de clases Si las alturas se registran con aproximacin de pulgada, el intervalo de clase 60 - 62 tericamente incluye todas las medidas desde 59,5000... a 62,5000 pulgadas. Estos nmeros, representados brevemente por los nmeros exactos 59,5 y 62,5, se conocen como lmites reales de clase o lmites verdaderos de clase; el menor de ellos, 59,5, es el lmite real inferior y el mayor de ellos, 62,5, es el lmite real superior. Prcticamente, los lmites reales de clase se obtienen sumando al lmite superior de un intervalo de clase el lmite inferior del intervalo de clase contiguo superior y dividiendo por 2. A veces, los lmites reales de clase se utilizan para simbolizar las clases. Por ejemplo, las diferentes clases de la primera columna de la Tabla 1 podran indicarse por 59,5 - 62,5, 62,5 - 65,5, etc. Sin embargo, con tal notacin aparece una ambigedad, pues los lmites reales de clase no coincidiran con las observaciones reales. As si una observacin fuese 62,5 no sera posible discernir si pertenece al intervalo de clase 59,5 - 62,5 o al 62,5 - 65,5. El Tamao o Anchura de un Intervalo De Clase es la diferencia entre los lmites reales de clase que lo forman y se conoce como anchura de clase, tamao de clase o longitud de clase. Si todos los intervalos de clase de una distribucin de frecuencias tienen igual anchura, esta anchura comn se representa por c. En tal caso, c es igual a la diferencia entre dos sucesivos lmites de clase inferiores o superiores. Para los datos de la Tabla 1, por ejemplo, el intervalo de clase es c = 62,5 - 59,5 = 65,5 - 62,5 = 3. La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los lmites inferior y superior de la clase y dividiendo por 2. As, la marca de clase del intervalo 60 - 62 es (60 + 62)/2 = 61. La marca de clase se llama tambin punto medio de la clase. Para anlisis matemticos posteriores, todas las observaciones pertenecientes a un intervalo de clase dado

se suponen coincidentes con la marca de clase. As, todas las alturas en el intervalo de clase 60 - 62 pulgadas se considerarn como de 61 pulgadas. Reglas generales para formar las distribuciones de frecuencia l. Determinar el mayor y el menor entre los datos registrados y as encontrar el rango (diferencia entre el mayor y el menor de los datos). 2. Dividir el rango en un nmero conveniente de intervalos de clase del mismo tamao. Si esto no es posible, utilizar intervalos de clase de diferente tamao o intervalos de clase abiertos. El nmero de intervalos de clase se toma generalmente entre 5 y 20 dependiendo de los datos. Los intervalos de clase se eligen tambin de forma que las marcas de clase o puntos medios coincidan con datos realmente observados. Esto tiende a aminorar el llamado error de agrupamiento, en los anlisis matemticos posteriores. Sin embargo, los lmites reales de clase no coincidirn con los datos observados. 3. Determinar el nmero de observaciones que caen dentro de cada intervalo de clase, es decir, encontrar las frecuencias de clase. Lo mejor para esto es utilizar una hoja de conteo. HISTOGRAMAS Y POLIGONOS DE FRECUENCIA son dos representaciones grficas de las distribuciones de frecuencia. 1. Un histograma o histograma de frecuencias consiste en una serie de rectngulos que tienen (a) Sus bases sobre un eje horizontal (el eje X) con centros en las marcas de clase y longitud igual al tamao de los intervalos de clase. (b) Superficies proporcionales a las frecuencias de clase. Si los intervalos de clase tienen todos igual tamao, las alturas de los rectngulos son proporcionales a las frecuencias de clase y se acostumbra en tal caso a tomar las alturas numricamente iguales a las frecuencias de clase. Si los intervalos de clase no son de igual tamao, estas alturas debern ser calculadas. 2. Un polgono de frecuencias es un grfico de lnea trazado sobre las marcas de clase. Puede obtenerse uniendo los puntos medios de los techos de los rectngulos en el histograma. El histograma y el polgono de frecuencias correspondiente a la distribucin de frecuencias de las alturas de los estudiantes se muestran en el mismo sistema de ejes en la Fig.1. Se acostumbra a prolongar el polgono con PQ y RS hasta las marcas de clase inferior y superior inmediatas, que corresponderan a la clase de frecuencia cero. En tal caso, la suma de las reas de los rectngulos del histograma es igual al e rea total limitada por el polgono de frecuencias y el eje X. Distribuciones de frecuencia relativa La frecuencia relativa de una clase es la frecuencia de la clase dividida por el total de frecuencias de todas las clases y se expresa generalmente como porcentaje. Por ejemplo, la frecuencia relativa de la clase 66 - 68 de la Tabla 1 es 42/100 = 42 %. La suma de las frecuencias relativas de todas las clases es evidentemente 1 100 %. Si las frecuencias en la anterior tabla de frecuencias se sustituyen por las correspondientes frecuencias relativas, la tabla resultante se llama distribucin de frecuencias relativas, distribucin porcentual o tabla de frecuencias relativas.

Las representaciones grficas de distribuciones de frecuencia relativa pueden obtenerse del histograma o del polgono de frecuencias, sin ms que cambiar la escala vertical de frecuencia a frecuencia relativa, conservndose exactamente el mismo diagrama. Los grficos que resultan se llaman histogramas de frecuencias relativas o histogramas porcentuales y polgonos de frecuencias relativas o polgonos porcentuales, respectivamente. Distribuciones de frecuencia acumulada. Ojivas

La frecuencia total de todos los valores menores que el lmite real superior de clase de un intervalo de clase dado se conoce como frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, la frecuencia acumulada hasta el intervalo de clase 66 - 68 inclusive en la Tabla 1, es 5 + 18 + 42 = 65, significando que 65 estudiantes tienen alturas menores que 68,5 pulgadas. Una tabla que represente las frecuencias acumuladas se llama distribucin de frecuencias acumuladas, tabla de frecuencias acumuladas o brevemente distribucin acumulada, y se muestra en la Tabla 2, para la distribucin de la altura de los estudiantes.

Un grfico que muestre las frecuencias acumuladas menores que cualquier lmite real superior de clase trazado sobre los lmites reales superiores de clase se llama polgono de frecuencias acumuladas u ojiva y se muestra en la Fig. 2-2 para la distribucin de la altura de los estudiantes. En algunos casos es preferible considerar una distribucin de frecuencias acumuladas de todos los valores mayores o iguales al lmite real inferior de clase de cada intervalo de clase. En este caso consideramos las alturas de 59,5 pulgadas o ms, 62,5 pulgadas o ms, etc., sta se llama a veces distribucin acumulada o ms, mientras que la considerada anteriormente es la distribucin acumulada menor que. De la una se obtiene fcilmente la otra. Las correspondientes ojivas se llaman o ms y menor que. Siempre que nos refiramos a distribuciones acumuladas u ojivas sin especificar, se entender que son del tipo menor que. DISTRIBUCIONES DE FRECUENCIAS RELATIVAS ACUMULADAS. OJIVAS PORCENTUALES La frecuencia relativa acumulada o frecuencia porcentual acumulada es la frecuencia acumulada dividida por la frecuencia total. Por ejemplo, la frecuencia relativa acumulada de alturas menores que 68,5 pulgadas es 65/100 = 65 %, queriendo con ello decir que el 65 % de los estudiantes tienen alturas menores de 68,5 pulgadas. Si se utilizan en la Tabla 2, y Fig. 2, las frecuencias relativas acumuladas en lugar de las frecuencias acumuladas, los resultados se llaman distribuciones de frecuencias relativas acumuladas o distribuciones porcentuales acumuladas y polgonos de frecuencias relativas acumuladas u ojivas porcentuales, respectivamente. CURVAS DE FRECUENCIAS. OJIVAS SUAVIZADAS El conjunto de datos puede considerarse normalmente como perteneciente a una muestra extrada de una poblacin grande. A causa de las muchas observaciones que podemos realizar en la poblacin es posible tericamente (para datos continuos) elegir los intervalos de clase muy pequeos y todava tener un nmero adecuado de observaciones dentro de cada clase. As se tiene que el polgono de frecuencias o el de frecuencias relativas para una poblacin grande puede estar formado por muchos pequeos segmentos rectos que aproximan el conjunto a una curva, las curvas de este tipo pueden llamarse curvas de frecuencias o curvas de frecuencias relativas, respectivamente. Es razonable esperar que tales curvas tericas provengan de la suavizacin de los polgonos de frecuencias o de los polgonos de frecuencias relativas de la muestra, la aproximacin es tanto ms exacta conforme aumenta el tamao de la muestra. Por esta razn una curva de frecuencias se conoce como un polgono de frecuencias suavizado. De una forma anloga las ojivas suavizadas provienen de la suavizacin de los polgonos de frecuencias acumuladas u ojivas. Normalmente es ms sencillo suavizar una ojiva que un polgono de frecuencias.

Tipos de curvas de frecuencia

Las curvas de frecuencia presentan determinadas formas caractersticas que les distinguen como se indica en la Figura 3. (a) Las curvas de frecuencia simtricas o bien formadas se caracterizan por el hecho de que las observaciones que equidistan del mximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal. (b) En las curvas de frecuencia moderadamente asimtricas o sesgadas la cola de la curva a un lado del mximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que sta est sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva est sesgada a la izquierda o que tiene un sesgo negativo. (c) En las curvas en forma de J o de J invertida, el mximo se presenta en un extremo. (d) Las curvas de frecuencias en forma de U tienen el mximo en ambos extremos. (e) Una curva de frecuencias bimodal tiene dos mximos. (f) Una curva de frecuencias multimodal tiene ms de dos mximos.

HISTOGRAMA Y POLGONOS DE FRECUENCIAS ACUMULADAS Si se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas o su correspondiente polgono. He aqu los que se obtienen de la tabla de 1.200 calificaciones:

DIAGRAMA CIRCULAR En un diagrama de este tipo, los 360 de un crculo se reparten proporcionalmente a las frecuencias de los distintos valores de la variable. Se trata de representar, mediante un crculo, la totalidad o el 100% de los datos de la muestra y, en el mismo, mediante sectores circulares, proporcionalmente, se representarn los valores parciales. A tal efecto, se pueden obtener en el mercado, transportadores especiales, graduados en por cientos. Resultan muy adecuados cuando hay pocos valores, o bien cuando el carcter que se estudia es cualitativo. El diagrama de sectores siguiente refleja el resultado de una encuesta (realizada a 300 personas) sobre los tipos de pelcula preferidos por el pblico en general:

El diagrama circular es de especial utilidad para mostrar proporciones o porcentajes relativos de una variable. Se construye marcando una porcin del crculo correspondiente a cada categora de la variable.

INTERPRETACIN En la grafica se puede observar que ningn da volaron menos de cincuenta pasajeros, y tampoco volaron ms de ciento diez pasajeros. En dieciocho das volaron entre setenta y ochenta pasajeros que equivale al 36%, en tres das volaron entre cincuenta y sesenta pasajeros los cuales equivalen al 6%, y en dos das volaron entre cien y ciento diez pasajeros lo cual equivales al 4%. OJIVAS Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva representa grficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es til para obtener una medida de los cuartiles, deciles, percentiles. OJIVA DE FRECUENCIA ACUMULADA MENOR DE Se grafica colocando en el eje horizontal las clases de una distribucin de frecuencia acumulada menor de y en el eje vertical las frecuencias acumuladas menor de. CLASES MENOS DE 50 MENOS DE 60 MENOS DE 70 MENOS DE 80 MENOS DE 90 MENOS DE 100 MENOS DE 110 FRECUENCIA ABSOLUTA 0 3 7 18 12 8 2 F. ACUMULADA MENOR DE (DIAS) 0 3 10 28 40 48 50

OJIVA DE FRECUENCIA ACUMULADA MAYOR DE Se grafica colocando en el eje horizontal las clases de una distribucin de frecuencia acumulada mayor de y en el eje vertical las frecuencias acumuladas mayor de. CLASES 50 O MAS 60 O MAS 70 O MAS 80 O MAS 90 O MAS 100 O MAS 110 O MAS DIAGRAMA DE SECTORES En los grficos de diagramas de sectores cada suceso viene representado por un sector circular de una amplitud proporcional a su frecuencia. FRECUENCIA ABSOLUTA 3 7 18 12 8 2 0 F. ACUMULADA MAYOR DE (DIAS) 50 47 40 22 10 2 0

La amplitud de cada sector circular se obtiene mediante una simple regla de tres. Cuando estos diagramas se utilizan para comparar magnitudes en distintos perodos o para diferentes lugares (por ejemplo pases), a cada crculo hay que asignarle una superficie proporcional a la magnitud que representa. DIAGRAMA DE CURVAS Una curva es una representacin grfica de las relaciones entre variables. En estadstica se emplean muchos tipos de curvas, dependiendo de la naturaleza de los datos y del propsito para el que la curva ha sido proyectada. DIAGRAMAS DE LINEAS En este tipo de grfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre s. Se pueden usar para representar:

una serie dos o ms series

Estos grficos se utilizan para representar valores con grandes incrementos entre s.

GRFICOS DE REAS En estos tipos de grficos se busca mostrar la tendencia de la informacin generalmente en un perodo de tiempo. Pueden ser:

Para representar una serie para representar dos o ms series en dos dimensiones en tres dimensiones.

CARTOGRAMAS Estos tipos de grficos se utilizan para mostrar datos sobre una base geogrfica. La densidad de datos se puede marcar por crculos, sombreado, rayado o color. GRFICOS MIXTOS En estos tipos de grficos se representan dos o ms series de datos, cada una con un tipo diferente de grfico. Son grficos ms vistosos y se usan para resaltar las diferencias entre las series. Pueden ser: en dos dimensiones o en tres dimensiones.

LA MEDIA ARITMTICA ( X ) An y cuando existen varias media, la media aritmtica es la mas frecuentemente utilizada en Estadstica. La media aritmtica, es la suma de las puntuaciones o valores originales dividida entre el nmero de ellas. EJEMPLO. Las calificaciones en una evaluacin sobre 100 puntos fueron:60,55,70,70,85 y 80. Luego, X = 420 = 70. ( La calificacin media es 70 puntos.) 6 Nota: Las puntuaciones extremas afectan o modifican la media, a saber: En los grupos de valores 1,3,5,5,5,6 y 1,3,5,5,5,110 las medias son 4.2 en el primer grupo y 21.5 en el segundo. Estos dos grupos no tienen la misma media, por lo tanto,En un conjunto de valores donde existen valores muy extremos, no se debe calcular la media LA MEDIANA (Md) Es el punto medio, arriba o debajo del cual caen el 50% de las puntuaciones o casos. Para calcular la mediana, se ordenan las puntuaciones en orden creciente o decreciente. En caso de ser el nmero de datos impar, la mediana es el valor central; en el caso de ser par, la mediana es el promedio de los valores centrales. EJEMPLO. (a) 6,11,9,12,13,10,20,15,17. Al ordenarlos se obtiene: 6,9,10,11,12,13,15,17,20. La mediana es 12. Md=12 (b) 9,10,12,11,3,6,20,17,13,15. Al ordenarlos se obtiene: 3,6,9,10,11,12,13,15,17,20. La mediana es el promedio entre 11 y 12, por haber dos valores centrales. Md= 11.5 Nota: Una caracterstica de la mediana es su insensibilidad hacia los valores extremos. As, en el conjunto de valores: 2,3,8,11,48la Md= 8; esto es verdad an y cuando hay un valor extremo de 48. Si cambiamos ste valor por 98 la mediana seguira siendo la misma. Esta caracterstica de la mediana la hace muy til para la descripcin de la tendencia central en ciertos tipos de distribuciones en las cuales la media es una medida inaceptable de tendencia central, debido a su sensibilidad hacia las calificaciones extremas. EL MODO (Mo). DENOMINADO TAMBIEN MODA. Es el valor que aparece con mas frecuencia en una serie de datos. EJEMPLO. 1,1,2,2,2,3,3,3,3,4,5,6,8. La cifra 3 aparece cuatro veces lo cual es ms frecuente que otro valor; por lo cual el valor modal o modo es 3. ( Mo=3) 1,1,2,2,2,2,3,3,3,4,4,4,4,5,6,7,8. Las cifras 2 y 4 aparecen cuatro veces. Luego Mo= 2,(Bimodal) Cuando aparecen tres o mas veces se denomina Multimodal. CALCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL (PARA DATOS AGRUPADOS)

MEDIA ARITMTICA.(X) Cuando se tienen distribuciones de frecuencia y siempre que el valor del intervalo de clase sea constante, es decir, el mismo en cada una de las clases, se puede calcular la Media a travs del Mtodo de los desvos unitarios o Abreviado; Igualmente se puede utilizar el Mtodo directo. METODO ABREVIADO. Pasos para calcular la Media Aritmtica: 1.- Se elige una media aritmtica supuesta (Xa), la cual es el valor del punto medio de una de las clases; Aunque puede tomarse el punto medio de cualquiera de las clases y obtener el mismo resultado, por facilidad en el clculo se acostumbra a elegir el de la clase de mayor frecuencia o el de aquella que est ubicada hacia en el centro de la escala.(En el ejemplo,tomaremos Xa=49 ubicado en 48-50) 2.- Se anexa otra columna X, en la cual se anotan las desviaciones respecto a la media supuesta. Como la clase 48-50 contiene a Xa, la desviacin es nula, por lo cual anotamos cero en la columna X. El intervalo o clase 5153 se desva una clase de la que contiene a la media supuesta, luego, en la columna X anotamos uno (1) para dicho intervalo. Se contina as hasta llegar a la clase mayor. A las clases con valores inferiores, se les asigna consecutivamente Los nmeros enteros negativos: -1,-2,-3,-4,5,... 3.- Se anexa otra columna fiX en la cual se colocan los productos entre la frecuencias fi y la desviacin X correspondiente. 4.- Se suman algebraicamente los valores de la columna fiX. 5.- Se reemplazan los valores obtenidos en la frmula: X = Xa + EfiX. i N EJEMPLO: CLASE fi x fix 66-68 1 6 6 63-65 2 5 10 60-62 4 4 16 57-59 4 3 12 54-56 5 2 10 51-53 7 1 7 x = 49 + 2.05 48-50 8 0 0 45-47 5 -1 -5 x = 51.05 42-44 3 -2 -6 39-41 2 -3 -6 El puntaje medio es: 51.05 36-38 1 -4 -4 33-35 2 -5 -10 METODO DIRECTO. (Mtodo largo) Pasos para calcular la media aritmtica, usando ste mtodo: 1.- Se elabora una columna con los puntos medios xi de cada clase. 2.- En otra columna se escribe el producto entre las frecuencias y el punto medio de cada clase (fi.xi) 3.- Se obtiene la sumatoria de los valores de la columna fi.xi

4.- Se reemplazan los valores obtenidos en la frmula siguiente: EJEMPLO: CLASE fi xi fixi66-68 1 67 67 63-65 2 64 128 60-62 4 61 244 57-59 4 58 232 x= 2246 54-56 5 55 275 44 51-53 7 52 364 x = 51.05 48-50 8 49 392 45-47 5 46 230 42-44 3 43 129 39-41 2 40 80 36-38 1 37 37 33-35 2 34 68 N=44 Efixi= 2246

LA MEDIANA. (Md) Para calcular la mediana a partir de un conjunto de datos que han sido organizados previamente en una tabla de distribucin de frecuencias, se procede de la siguiente manera: 1.- Se anexa a la tabla dada una columna fa de frecuencias acumuladas. 2.- Se divide entre 2 el nmero total de casos, obteniendo N/2.Es decir,se determina el nmero de casos que han de estar por debajo y por encima de la mediana.(En la tabla del ejemplo que usaremos, N=38 por lo tanto N/2= 38/2= 19. Luego, la mediana es el valor que deja 19 observaciones tanto por debajo como por encima de l. 3.- Se identifica en la columna fa, un valor que sea igual o inmediato superior a N/2; En sta clase est la mediana.(En la tabla del ejemplo dado, en la columna fa, el valor 24 es inmediato superior a 19 por lo cual, la clase 90-94 contiene a la mediana.) 4.- Se identifica la frecuencia acumulada fa de la clase anterior a la que contiene a la mediana. ( En el ejemplo, 14 es la frecuencia acumulada de la clase 85-89 que precede a 90-94 que contiene a la mediana.) 5.- Se identifica la frecuencia fi de la clase que contiene a la mediana. En el ejemplo sta es 10. 6.- Se identifica el lmite real inferior de la clase que contiene a la mediana. En el ejemplo, ste es 89.5. 7.- Se reemplazan stos valores en la frmula EJEMPLO: CLASE fi fa 95-99 14 38 90-94 10 24 85-89 6 14 Md = 89.5 + 2.5 80-84 4 8 75-79 2 4 Md = 92 70-74 2 2 N=38 Interpretacin: Por encima y por debajo de 92,se encuentra el 50% de los casos, es decir, 19. LA MODA O EL MODO. (Mo) Se define como el punto medio de la CLASE de mayor frecuencia. En el primer ejemplo, Mo=49. En el segundo ejemplo, Mo=97

CLCULO DE VARIANZA, DESVIACIN ESTNDAR Y COEFICIENTE DE VARIACIN. Medidas de dispersin: Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o menos dispersos Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamao de la muestra.

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn. Desviacin estndar: Se calcula como raz cuadrada de la varianza.

Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media de la muestra

Continuando con el caso de los autobuses forneos, se realizar el ejemplo de medidas de dispersin. Clase 1 2 3 4 5 6 total 1 3 5 7 9 11 Intervalo LI LS 2.9 4.9 6.9 8.9 10.9 12.9 0.95 2.95 4.95 6.95 8.95 10.95 2.95 4.95 6.95 8.95 10.95 12.95 LRI LRS Frec. Frec. Absoluta Relat 8 11 10 10 5 6 50 .16 .22 .20 .20 .10 .12 1 Frec. Porcentual 16 % 22 % 20 % 20 % 10 % 12 % 100 % X 1.95 3.95 5.95 7.95 9.95 11.95 fx 15.60 43.45 59.50 79.50 49.75 71.70 319.50

f(x-x)2 157.71 171.63 354.03 632.03 495.01 856.82 2667.21

Varianza Existe otro mecanismo para solucionar el efecto de cancelacin para entre diferencias positivas y negativas. Si elevamos al cuadrado cada diferencia antes de sumar, desaparece la cancelacin:

Esta frmula tiene una desventaja, y es que sus unidades no son las mismas que las de las observaciones, ya que son unidades cuadradas. Esta dificultad se soluciona, tomando la raz cuadrada de la ecuacin anterior: Desviacin tpica Es la raz cuadrada de la varianza:

Entonces en este caso la unidad de s es la misma que la del conjunto de observaciones de la muestra estadstica. Variables discretas y variables continuas Una distribucin de los datos en categoras que ha demostrado ser til al organizar los procedimientos estadsticos, es la distincin entre variables discretas y variables continuas. Una variable discreta es sencillamente una variable para la que se dan de modo inherente separaciones entre valores observables sucesivos. Dicho con mas rigor, se define una variable discreta como la variable tal que entre 2 cualesquiera valores observables (potencialmente), hay por lo menos un valor no observable (potencialmente). Por ejemplo, un recuento del nmero de colonias de un cultivo en agar es una variable discreta. Mientras que cuentas de 3 y 4 son potencialmente observables, no lo es una de 3,5. Una variable continua tiene la propiedad de que entre 2 cualesquiera valores observables (potencialmente), hay otro valor observable (potencialmente). Una variable continua toma valores a lo largo de un continuo, esto es, en todo un intervalo de valores. Longitudes y pesos son ejemplos de variables continuas. La estatura de una persona, pude ser 1,70 mts. 1,75 mts., pero en potencia al menos podra tomar cualquier valor intermedio como 1,73 mts. por ejemplo. Un atributo esencial de una variable continua es que, a diferencia de lo que ocurre con una variable discreta, nunca se la puede medir exactamente. Con una variable continua debe haber inevitablemente un error de medida. Un importante principio sobre variables continuas es que siempre se registran en forma discreta, quedando la magnitud de la distancia entre valores registrables adyacentes determinada por la precisin de la medicin.