Estadistica 1

60
Curso de Introducción a los Métodos Cuantitativos 2007 Primera Parte 1. Definiciones elementales La estadística como ciencia perteneciente al campo de la matemática aplicada, requiere en su tratamiento de una adecuada precisión terminológica. Es por ello que para comenzar, debemos definir con total exactitud algunos conceptos que nos serán familiares a lo largo del curso y que es imprescindible precisar claramente. El objeto de los estudios estadísticos está en los fenómenos que se refieren a poblaciones muy numerosas formadas por individuos semejantes respecto de un atributo. Aparece aquí un primer concepto que debe ser claramente definido y que utilizaremos permanentemente: Entendemos por POBLACIÓN, un conjunto o colección cualquiera de cosas, personas o acontecimientos que son objeto de estudio estadístico. En lo sucesivo, designaremos a la población con N. Estas poblaciones, pueden ser de tamaño finito o infinito. Una población infinita es, por ejemplo, la representada por el conjunto de los números naturales. Ciertos estudios estadísticos referidos a poblaciones finitas pero muy grandes, pueden resultar imprácticos por lo extenso, lo que los convertiría en demasiado costosos; a veces, el relevamiento estadístico es imposible, por tratarse de poblaciones infinitas. En esos casos suele recurrise a la técnica del muestreo, que consiste en escoger una parte menor de esa Población denominada MUESTRA, reduciéndose el análisis a este subconjunto menor, y asumiendo que los resultados obtenidos en la muestra sean representativos del resultado objeto de la observación, que es el de la población; las técnicas con las que la selección de la muestra se efectúa son definitorias a la hora de asegurar esa representatividad. Supóngase, por ejemplo, que se desea estudiar los legajos de crédito otorgados por una entidad en un día. Dado que el número total de elementos (legajos) que componen esa población es reducido (ej.: 40), no resulta difícil analizar a todos ellos, obteniendo así una idea precisa de los legajos. Pero si de lo que se trata es de analizar todos los legajos de crédito de una entidad, el analizar muchos miles de legajos se transforma en una tarea sumamente costosa, de manera tal que con seguridad el costo de la información a obtener es desmesurado con respecto al valor que la misma puede tener. Una solución adecuada en este caso, consiste en tomar una muestra, analizando los legajos de ese pequeño subconjunto de legajos, con el objeto de inferir, a partir de él, la calidad de la población en su conjunto. Podemos ahora establecer algunas definiciones más:

description

Estadistica

Transcript of Estadistica 1

  • Curso de Introduccin a los Mtodos Cuantitativos 2007

    Primera Parte

    1. Definiciones elementales

    La estadstica como ciencia perteneciente al campo de la matemtica aplicada, requiere en su tratamiento de una adecuada precisin terminolgica.

    Es por ello que para comenzar, debemos definir con total exactitud algunos conceptos que nos sern familiares a lo largo del curso y que es imprescindible precisar claramente.

    El objeto de los estudios estadsticos est en los fenmenos que se refieren a poblaciones muy numerosas formadas por individuos semejantes respecto de un atributo.

    Aparece aqu un primer concepto que debe ser claramente definido y que utilizaremos permanentemente:

    Entendemos por POBLACIN, un conjunto o coleccin cualquiera de cosas, personas o acontecimientos que son objeto de estudio estadstico.

    En lo sucesivo, designaremos a la poblacin con N.

    Estas poblaciones, pueden ser de tamao finito o infinito. Una poblacin infinita es, por ejemplo, la representada por el conjunto de los nmeros naturales.

    Ciertos estudios estadsticos referidos a poblaciones finitas pero muy grandes, pueden resultar imprcticos por lo extenso, lo que los convertira en demasiado costosos; a veces, el relevamiento estadstico es imposible, por tratarse de poblaciones infinitas. En esos casos suele recurrise a la tcnica del muestreo, que consiste en escoger una parte menor de esa Poblacin denominada MUESTRA, reducindose el anlisis a este subconjunto menor, y asumiendo que los resultados obtenidos en la muestra sean representativos del resultado objeto de la observacin, que es el de la poblacin; las tcnicas con las que la seleccin de la muestra se efecta son definitorias a la hora de asegurar esa representatividad.

    Supngase, por ejemplo, que se desea estudiar los legajos de crdito otorgados por una entidad en un da. Dado que el nmero total de elementos (legajos) que componen esa poblacin es reducido (ej.: 40), no resulta difcil analizar a todos ellos, obteniendo as una idea precisa de los legajos. Pero si de lo que se trata es de analizar todos los legajos de crdito de una entidad, el analizar muchos miles de legajos se transforma en una tarea sumamente costosa, de manera tal que con seguridad el costo de la informacin a obtener es desmesurado con respecto al valor que la misma puede tener. Una solucin adecuada en este caso, consiste en tomar una muestra, analizando los legajos de ese pequeo subconjunto de legajos, con el objeto de inferir, a partir de l, la calidad de la poblacin en su conjunto.

    Podemos ahora establecer algunas definiciones ms:

  • Una MUESTRA es todo subconjunto formado por algunos de los elementos que componen a cierta poblacin.

    Existen diferentes procedimientos fsicos con los que pueden seleccionarse los elementos de la poblacin que formaran parte de una muestra. Los mismos no forman parte de la temtica de este curso y se abordarn en el Curso de Muestreo. Sin embargo, corresponde aclarar:

    La tcnica con la cual se escogen los elementos de la Poblacin para seleccionar la Muestra, se denomina PLAN DE MUESTREO.

    Dado que la Estadstica se preocupa por extraer conclusiones sobre la base de los datos relevados en la muestra, ser de fundamental importancia el conocer qu probabilidad tiene cada elemento de la poblacin de integrar esa muestra; sin embargo, no todos los planes de muestreo permiten asegurar este hecho.

    Se denomina MUESTREO PROBABILISTICO a aquel plan de muestreo en el que cada elemento de la poblacin tiene una probabilidad conocida de ser elegido para formar parte de la muestra.

    El objeto de la Estadstica Descriptiva es el estudio metodolgico de cualquier conjunto de individuo, sean stos una Poblacin, o una muestra dada. Lo que se propone la Estadstica Descriptiva es, como su nombre lo indica, describir las caractersticas de un conjunto dado de individuos, para lo cual deber clasificar los datos, y luego tratarlos estadsticamente.

    Por lo tanto, el tratamiento metodolgico que describiremos a lo largo de esta Primera Parte, es tanto aplicable a Poblaciones completas, como a cualquiera de sus subconjuntos o muestras en particular. A estos fines, por lo tanto, utilizaremos el trmino Poblacin an cuando realmente nos estemos refiriendo a una muestra en particular.

    Las tcnicas de seleccin de muestras que aseguren la representatividad estadstica de las mismas, y en general, todo el proceso de inferencia de datos de la poblacin a partir de la informacin recogida en las muestras, es objeto de la Estadstica Inferencial.

    2. Escalas de Medicin

    La caracterstica objeto de estudio de la Poblacin en cuestin, requerir un conjunto de observaciones de esos datos, los que por lo general, necesitan de algn tipo de medida. Esas medidas requieren de algn tipo de escala de medicin, las que pueden ser caractersticas muy diferentes. Resulta de primordial importancia tener en clara cul es el tipo de escala que se est utilizando, ya que de ello depende el tipo de medidas estadsticas que tiene sentido calcular sobre la base de ellas. Muchos de los malos usos que se hacen habitualmente de la estadstica, derivan de una inadecuada interpretacin de las escalas de medicin que estamos utilizando. Estas escalas de medicin pueden clasificarse en cinco grandes categoras.

    2.1. Datos cualitativos:

  • Ciertas caractersticas de la poblacin slo admiten una identificacin de tipo descriptivo, no siendo posible asignar ningn tipo de valor numrico a los mismos, y por lo tanto, constituir ningn tipo de escala. Tal sera el caso de estudiar los colores de ojos de una poblacin de alumnos. Las observaciones efectuadas seran definidas en trminos de negro, marrn, verde, celeste,... los que no admiten ninguna numeracin, ni siquiera el establecimiento de ningn tipo de orden de prelacin entre ellos. Es evidente, en este caso, que no tiene sentido, por ejemplo, calcular ningn tipo de promedio referido a este objeto de estudio estadstico.

    2.2. Escalas nominales:

    En ciertos casas, pueden utilizarse nmeros para diferenciar los objetos o las categoras de los mismos, los cuales no tienen mayor significacin prctica, mas all de la mencionada identificacin. Tal es el caso de los Nmeros de Cliente. Tiene sentido calcular un promedio de los nmeros de clientes de una entidad? Resulta evidente que dicha numeracin slo procede a los efectos de identificacin. La absoluta debilidad de este tipo de escala resulta tambin evidente.

    2.3. Escalas ordinales:

    Aqu los nmeros se utilizan para establecer algn tipo de orden jerrquico entre los elementos o categoras de elementos. Por ejemplo, supongamos que en cierta encuesta se interroga a un conjunto de ciudadanos acerca de su grado de acuerdo con cierta medida adoptada por la conduccin econmica. Las respuestas a la pregunta est usted de acuerdo con la medida adoptada? Podran ser marcadas en un casillero del formulario preparado a tal efecto, como: absolutamente de acuerdo, bastante de acuerdo, medianamente de acuerdo, bastante en desacuerdo y absolutamente en desacuerdo. Resulta evidente que estas categoras pueden ser ordenadas en funcin del grado creciente o decreciente de acuerdo, de manera tal que pueda decirse que cualquier individuo de la poblacin que se encuentra clasificado en cierta categora tiene un grado de acuerdo mas alto(o mas bajo) que cualquier individuo que se encuentre en una categora posterior, ms bajo (o ms alto) que alguno que se encuentre en una categora anterior, y similar a aquel que se encuentre en su misma categora. Pero las diferencias entre un nivel de la escala y otro, no tienen significado cuantitativo alguno, y slo expresan relaciones de mayor o menor, mejor o peor, etc.

    2.4. Escalas de intervalos:

    Se trata de una escala ya ms precisa, en la que es posible establecer el mismo tipo de comparaciones que en las escalas ordinales, pero adems, pueden determinarse las diferencias absolutas entre un nivel de la escala y cualquier otro. Estas escalas poseen una unidad de medida y un origen arbitrario, esto es, el cero de la escala no corresponde a una situacin real de ausencia de lo que se quiere medir, sino que es una convencin del constructor de la escala. Un ejemplo tpico de escala de intervalos es cualquiera de las utilizadas para medir la temperatura. Obsrvese que la misma tiene una unidad de medida (grados),

  • pero que el cero de la escala es arbitrario, pues difiere entre una escala y otra (centgrados vs. Fahrenheit) y en ningn caso significa ausencia de temperatura. Cualquiera de estas escalas permite afirmaciones del tipo hoy hace ms grados que ayer, pero la afirmacin hoy hace el doble de temperatura carece de significado real.

    2.5. Escalas de razn:

    Representan el tipo de escala ms perfeccionado, ya que permiten la mayor cantidad de comparaciones. Estas escalas se caracterizan por tener unidades de medida, pero adems, el cero es verdadero, esto es, tienen un origen no arbitrario. Tal es el caso, por ejemplo, de las medidas de ingreso monetario, en las que el cero significa ausencia de dinero. En esta escala, desde ya, son posibles las comparaciones tanto absolutas como proporcionales.

    3. Variables y atributos

    Ahora bien, un estudio estadstico puede referirse a una o a varias de las caractersticas de la poblacin.

    Resulta por lo tanto relevante distinguir a los distintos objetos de estudio estadstico sobre la base de estas diferencias, para lo cual establecemos las siguientes definiciones:

    Denominamos ATRIBUTO a toda caracterstica de una Poblacin objeto de estudio estadstico que no puede ser mensurada cuantitativamente.

    Estos atributos son cualitativos y en extremo, admiten slo escalas de tipo nominal u ordinales. (a, b y c)

    Denominamos VARIABLE a toda caracterstica de una poblacin objeto de estudio estadstico que es susceptible de ser cuantificada numricamente.

    Dependiendo de la naturaleza de la variable, sus magnitudes objeto de cuantificacin admitirn escalas de medicin de intervalos o de razn. (d y e)

    As entonces la Estadstica versa sobre el estudio sistemtico de variables o de atributos referidos a una poblacin dada.

    4. Campo de Variabilidad

    Debemos ahora introducir un concepto aplicable especficamente a las variables, que es el de campo de variabilidad. Toda Poblacin puede ser interpretada como un conjunto de elementos y como tal, representada a travs de Diagramas de Venn. Por tratarse de una variable, cada uno de los elementos de esa Poblacin (x1, x2, x3,... en general xn) es susceptible de tener un valor numrico determinado.

    Llamamos LIMITE INFERIOR de la variable al menor valor numrico de sta, existente en la Poblacin dada. Lo denotaremos en lo sucesivo con li.

  • Llamamos LIMITE SUPERIOR de la variable al mayor valor numrico de sta, existente en la Poblacin dada. Lo denotaremos en lo sucesivo con ls.

    Denominamos CAMPO DE VARIABILIDAD de la variable al segmento definido entre el lmite inferior y el lmite superior de la misma, dentro del cual se ubican todos los valores de la variable existentes en la Poblacin objeto de estudio estadstico.

    Estos lmites hacen referencia a veces al menor y al mayor de los valores observados en la Poblacin, y en otros casos a los valores extremos tericos de la distribucin. Por ejemplo, si se trata de la variable calificaciones obtenidas por los alumnos de un curso, la misma tiene un lmite inferior terico en cero y un lmite superior terico en diez. Es posible establecer de antemano que todos los valores observables en la distribucin entrarn necesariamente dentro de esos lmites, dado que no puede haber notas negativas ni superiores a diez.

    En otros casos, en donde el campo de variabilidad es muy amplio, puede resultar prctico definirlo entre el mayor y el menor de los valores observados. Por ejemplo, si se trata de analizar la variable tasa de inflacin de los pases de occidente, los lmites tericos pueden resultar difciles de precisar, pues la variable en cuestin puede oscilar entre valores negativos y enormes valores positivos. Puede resultar ms prctico entonces definir el campo de variabilidad entre el menor de los valores observados en la Poblacin y el mayor de ellos.

    Dadas estas definiciones, resulta obvio que cualquier elemento de la Poblacin tendr valores intermedios entre li y ls. Queda as definido el DOMINIO de la variable, fuera del cual la misma no tiene sentido:

    li

  • Se produce de esta manera una DISCONTINUIDAD en el domino de la variable que grficamente puede representarse as:

    Campo de Variabilidad |...................................|

    li xi ls

    Slo los valores xi marcados con puntos forman parte del dominio de la variable.

    Llamamos VARIABLES DISCRETAS a aquellas que pueden asumir slo algunos valores dentro de su campo de variabilidad.

    Llamamos VARIABLES CONTINUAS a aquellas que pueden asumir cualquier valor dentro de su campo de variabilidad.

    Estas ltimas pueden representarse as.

    Campo de Variabilidad |__________________|

    li xi ls

    6. Series simples y Series de Frecuencia

    El primer paso a dar cuando nos encontramos ante una Poblacin cualquiera, consiste en identificar claramente cul es la variable o atributo que deseamos estudiar, cul es (si existe) su unidad de medida adecuada, y cul su escala de medicin.

    Una vez hecho esto, debemos recopilar los datos referidos a los valores que asume esa variable en la Poblacin o muestra a estudiar. Corresponde, por tanto, que en este captulo nos ocupemos del proceso de recopilacin de informacin, de la adecuada clasificacin de la misma, como as tambin de la preparacin de su formato de presentacin.

    Por lo general, los datos recopilados son producto de la observacin, y los encontraremos o bien aislados, o bien ya agrupados con algn tipo de clasificacin.

    As por ejemplo, si se desea estudiar la edad de los clientes de cierta entidad, puede ser que tengamos esa informacin en un simple listado en el que figure junto a su nombre y apellido. En otros casos, podemos encontrarnos con esta informacin ya clasificada con algn criterio que puede o no sernos til.

    Vamos ahora a suponer que estamos ante la presencia de datos no agrupados, y por lo tanto, vamos a tener que ver qu mecnica debemos utilizar para el agrupamiento de los mismos.

    Para ello debemos introducir previamente una serie de conceptos tericos.

    Denominamos SERIE SIMPLE a todo conjunto de datos no agrupados referidos a los valores que, referidos a la variable o atributo objeto de estudio, corresponden a todos los elementos de una Poblacin.

  • Si poseemos un listado con las edades de los 40 empleados de una empresa, estamos ante la presencia de una Serie Simple, cuyo tamao poblacional es de 40 individuos (N=40), esto es, una sucesin ininterrumpida de 40 nmeros, sin ningn orden en particular, cada uno de ellos correspondiente a una observacin referida ala edad de un individuo.

    Dado que esta serie simple no nos es muy til a efectos del estudio estadstico (en particular cuando se trata de poblaciones muy grandes), resultar conveniente sistematizar la informacin agrupando a los individuos en categoras de similar caracterstica.

    Cuando se trata de atributos, cada una de las categoras sern las diversas variedades en que se clasifica cualitativamente esa poblacin, si se tratase de colores de ojos, esas categoras podran ser: verde, marrn, negro, etc. Si es posible constituir escalas ordinales, las categoras sern cada uno de los niveles de esa escala.

    En el caso de tratarse de variables, las categoras estarn formadas por individuos que tengan valores aproximadamente similares dentro de la escala de medicin.

    Est claro que en cualquiera de estos casos, las categoras deben ser MUTUAMENTE EXCLUYENTES, de forma tal que un individuo slo puede pertenecer a una categora, y deben estas categoras, adems ser EXHAUSTIVAS, esto es, deben definirse de manera tal que abarquen a todos los individuos de la Poblacin.

    Este agrupamiento en categoras, da lugar al surgimiento de las denominadas Series de Frecuencias.

    Una SERIE DE FRECUENCIA es una tabla en la que se detallan las distintas categoras en las que se ha clasificado a la variable o atributo objeto de estudio, y en la que se indica adems la cantidad de individuos que pertenece a cada categora.

    En nuestro ejemplo, nuestra Serie de Frecuencias ser una tabla indicando cuntos individuos pertenecen a cada uno de los grupos definidos. (Acerca de cmo definir los grupos nos explayaremos mas adelante)

    7. Frecuencias absolutas y Frecuencias relativas

    La cantidad de individuos o datos de contiene cada una de las categoras (divisiones) de la variable, se denomina FRECUENCIAS ABSOLUTAS. Su notacin es fi, en donde el subndice i representa el i-simo grupo al cual se refiere esa frecuencia.

    Obviamente, y como consecuencia de los requisitos de exhaustividad y de exclusin de nuestra clasificacin, la suma de las frecuencias absolutas correspondientes a todos los grupos, debe ser igual a la poblacin, esto es:

  • Nfin

    i=

    =1

    Obsrvese que el ndice n se refiere a la cantidad de grupos en los que se clasific la variable, y es conceptualmente distinto de N, que representa el total de individuos que componen la poblacin.

    Denominamos FRECUENCIA RELATIVA (ri) al cociente entre la frecuencia absoluta y el total de la Poblacin.

    Nfi

    ri =

    Estas frecuencias relativas representan qu porcentaje de individuos con respecto al total de la poblacin, se encuentran dentro de cada una de las categoras. Resulta evidente que las frecuencias relativas deben cumplir con la condicin:

    =

    =

    n

    iri

    11

    Estas frecuencias relativas son de excepcional importancia desde el punto de vista terico, por constituirse en el nexo de unin entre la Estadstica Descriptiva y el Clculo de Probabilidades, como veremos mas adelante, al tratar las variables Aleatorias, en la segunda parte del curso.

    8. Clasificacin de datos no agrupados que se refieren a variables discretas

    Veamos lo que expusimos hasta ahora mediante un ejemplo prctico. Supongamos que una entidad tiene 10 oficiales de negocios, y desea analizar la cantidad de prstamos colocados por cada uno de ellos durante el ltimo mes.

    La informacin con la que cuenta no est agrupada y se trata simplemente de una lista con el nombre de cada oficial de negocios y la cantidad de prstamos vendidos. Dicha lista es la siguiente:

    Oficial

    Cantidad de

    prstamosAlvarez 5Burruchaga 3Correa 2Daz 3Espinosa 2Fernandez 1Gutierrez 4Hernandez 3Iguez 4Juarez 2

  • Nuestra variable (cantidad de prstamos colocados) es de naturaleza discreta y su campo de variabilidad est definido entre 1 y 5. La unidad de medida de la variable es nmero de prstamos y la misma representa una escala de razn, con la que es lcita cualquier tipo de operacin y relacin.

    Estas cantidades de prstamos, son diez datos de nuestra variable que representan nuestra poblacin, y constituyen lo que hemos definido como una serie simple.

    As hemos transformado nuestra serie simple en una serie de frecuencia, que clasifica los datos en 5 categoras a las que denominamos intervalos de clases.

    Llamamos INTERVALO DE CLASE a cada uno de los grupos de similar caracterstica en los que hemos dividido la variable objeto de estudio estadstico.

    Esta serie as clasificada en intervalos de clase, representa una forma de mostrar la informacin que, como veremos mas adelante, es mucho ms til que una serie simple a los efectos de calcular los distintos valores-parmetro que analizamos mas adelante. Por otra parte, resulta evidente que la simple visualizacin de la misma, muestra ser mucho mas clara y explicativa que presentada bajo la forma de una serie simple. Pero adems, esta serie puede ser representada grficamente en un esquema de bastones. (Discreta) Si en el eje de as ordenadas indicamos los valores de frecuencia correspondientes a cada valor de la variable y a su vez stos son representados en el eje de las absisas, obtendremos un grfico como el que sigue:

    VariableFrecuencia

    absolutaFrecuencia

    relativaxi fi ri

    Cantidad de prstamos

    Nmero de oficiales

    1 1 0,12 3 0,33 3 0,34 2 0,25 1 0,1

    N=10 1

    Categoras o intervalos de

    clase

    0

    1

    2

    3

    4

    1 2 3 4 5xi (Prstamos vendidos)

    fi (ca

    ntid

    ad

    de

    ve

    nde

    dore

    s)

  • La altura de cada bastn representa la densidad de frecuencia correspondiente a cada uno de los valores de la variable. Ya que se trata de una variable discreta tan solo definida para los valores 1, 2, 3, 4 y 5, y sin sentido (discontinuos) para cualquier otro valor de la variable, el grfico slo puede ser realizado a travs de bastones para dejar claramente sentada la discontinuidad de la funcin.

    Un grfico similar podramos realizar con las frecuencias relativas y el mismo tendr idntica forma que el realizado anteriormente. A efectos de mayo claridad grfica, es usual representar este diagrama mediante una poligonal que deber trazarse uniendo los puntos extremos de cada bastn, como se muestra seguidamente:

    9. Clasificacin de datos no agrupados que se refieren a variables contnuas

    En caso de tratarse de una variable contnua, es siempre imprescindible agrupar a los datos en intervalos de clase para los cuales debe definirse un lmite inferior y un lmite superior. Supongamos por ejemplo que estamos analizando los otorgamientos de prstamos que durante el ao anterior han tenido las 20 lneas de productos de cierta entidad, para lo que contamos con la siguiente informacin:

    Se trata de una variable contnua, ya que entre $110 y $ 600, cualquier valor intermedio puede ser asumido. Entonces, previamente, deberemos definir en cuantos grupos o intervalos de clase debemos dividir la variable.

    Llamamos AMPLITUD DE INTERVALO DE CLASE (C) a la diferencia entre el lmite superior y el lmite inferior de ese intervalo de clase.

    lilsC iii =

    0

    1

    2

    3

    4

    1 2 3 4 5

    xi (Prstamos vendidos)

    fi (ca

    ntid

    ad

    de

    ve

    nde

    dore

    s)

    Producto A B C D E F G H I J K L M N O P Q R S T

    Otorgado en Millones de $ 250 32 270 600 410 510 110 190 350 400 280 290 390 400 250 370 480 280 210 180

  • resulta evidente que al definir la cantidad de intervalos de clase deseada, tendremos prcticamente definida la amplitud de cada uno de esos intervalos. La amplitud de intervalos surgir como cociente entre la dimensin del campo de variabilidad de la variable y la cantidad de intervalos deseados.

    n

    lilsC =

    En nuestro ejemplo, la amplitud del campo de variabilidad de la variable, es de $490; si deseamos clasificar a la variable en 7 intervalos de clase, cada uno de ellos tendr $70 de amplitud, por lo que los mismos debern ser definidos as:

    La determinacin de la cantidad ptima de intervalos de clase a utilizar, depende en cada caso de las conveniencias prcticas del estudio que se est encarando. Sin embargo, el teorema de Sturges ha determinado una frmula emprica que es la siguiente:

    Nn log33,31+=

    en donde, n = cantidad de intervalos de clase a construir y N = cantidad de poblacin. Si aplicramos la frmula de Sturges a nuestro ejemplo, tendramos:

    n = 1+3,33 log. 20 = 5,33

    lo que aproxima a 5 intervalos, cuya amplitud debera ser de:

    600-110 = $98 5

    Sin embargo, por consideraciones que haremos inmediatamente vamos a tomar intervalos de clase $100 de amplitud dejando que el ltimo intervalo tenga como lmite superior un valor superior a $600. As, nuestra tabla quedar conformada de la manera siguiente:

    Intervalo N li (de ls a)1 110 1802 180 2503 250 3204 320 3905 390 4606 460 5307 530 600

    xi Ventas

    en $fi

    Cantidad 110-210 3210-310 7310-410 6410-510 3510-610 1

  • Para el cmputo de las frecuencias hemos ubicado cada valor en el intervalo de clase correspondiente. Sin embargo, cada vez que nos encontramos con algn valor de la variable correspondiente al lmite del intervalo de clase, estamos ante la presencia de una dualidad ya que no sabemos donde ubicarlo:

    Si en el intervalo anterior, para el cual el valor de la variable coincide con su lmite superior

    O en el intervalo posterior, para el cual el valor de la variable coincide con el lmite inferior

    No interesa cual es el criterio que se adopte, lo importante es que se acte uniformemente, esto es, con el mismo criterio. Nosotros optaremos por colocar los datos en el intervalo de clase posterior, esto es, en aquel para el cual el valor de la variable coincide con su lmite inferior.

    Ntese entonces que, de esta manera, el producto E ha sido ubicado en el 4 intervalo; el producto F en el 5 y el G en el 1. Es por este motivo que hemos optado por hacer intervalos de clase de $100 de amplitud en lugar de $98 para que el ltimo intervalo tenga como lmite superior un valor mayor de $600 que es el valor mas alto de la variable.

    Si no hubiramos actuado as, hubisemos tenido que definir un nuevo intervalo para colocar en l ese valor ($600).

    Las frecuencias absolutas fi pueden ser representadas grficamente a traves de un HISTOGRAMA que es un grfico de barras en el que la superficie de cada barra representa la densidad de frecuencias existentes en ese intervalo (amplitud de la barra).

    Nota: Desde el momento en que en un ejemplo como el que estamos desarrollando, todos los intervalos de clase tienen una misma amplitud, las superficies de estos rectngulos sern equivalentes a sus alturas, por lo que el histograma puede ser interpretado de la misma manera que un grfico de bastones.

    0

    2

    4

    6

    8

    110-210 210-310 310-410 410-510 510-610xi

    fi

  • Tomemos por ejemplo el caso del primer intervalo (entre 110 y 210). Segn vemos, en la tabla hay tres productos que tienen ventas dentro de ese rango. La superficie bajo la barra del histograma (que hemos rayado en la figura), es la que representa esa densidad de frecuencia.

    Si queremos trazar una poligonal, sta deber ser hecha uniendo los PUNTOS MEDIOS de cada intervalo, como se muestra a continuacin.

    012345678

    10-110 110-210

    210-310

    310-410

    410-510

    510-610

    610-710

    xi

    fi

    Para construir este grfico, hemos necesitado confeccionar un intervalo anterior y otro posterior, ambos de frecuencia cero. Ntese que la superficie total abarcada bajo la poligonal definida es igual a la superficie ubicada bajo las barras del histograma, con lo que hemos conseguido dibujar una poligonal que representa exactamente la misma densidad de frecuencias que el histograma base. Esto puede ser demostrado a travs de un simple razonamiento geomtrico. Tomemos por ejemplo la primer barra de este histograma:

    012345678

    10-110 110-210 210-310 310-410 410-510 510-610 610-710

    xi

    fi

    La poligonal A-e, incluye en su superficie el tringulo ABC que no est abarcado bajo la superficie del histograma original. Pero a su vez, dicha poligonal no incluye al CDE que forma parte de la superficie del histograma. Dado que los ngulos son iguales por ser ngulos opuestos por el vrtice y los segmentos AB y DE son

  • iguales, entonces resulta que los tringulos ABC y CDE tambin son iguales. Por lo antedicho la superficie sombreada es igual a la encerrada bajo la poligonal.

    Para construir a partir de un histograma, una poligonal de superficie equivalente, deben unirse entre s los puntos medios de los intervalos de clase.

    10. Asimilacin de variables discretas a contnuas

    En muchos casos suele suceder que nos encontramos ante la presencia de variables que por su propia naturaleza son discretas, pero, que conviene tratarlas metodolgicamente como si fueran contnuas, por tratarse de poblaciones numerosas.

    Volviendo al ejemplo supongamos ahora que hay 100 oficiales de negocios y algunos de ellos colocaron tanto como 50 prstamos y otros tan pocos como ninguno.

    Si quisiramos manejar a la variable cantidad de prstamos colocados como discreta, deberamos definir 50 intervalos de clase distintos para cubrir todas las posibilidades de colocaciones admitidas en el campo de variabildad, con lo que la tabla de serie de frecuencias sera demasiado extensa y poco til a los fines estadsticos. En este caso resulta conveniente asumir a la variable como si fuese contnua y clasificar a la variable en intervalos de clase.

    11. Nocin de frecuencia acumulada

    Dada una determinada serie de frecuencias: x1 f1 x2 f2 x3 f3 . .

    . .

    . .

    xi fi . .

    . .

    . .

    xn fn

    es posible calcular para cada intervalo de3 clase xi cul es la densidad de frecuencias existente desde el primer intervalo hasta xi; eso es lo que denominamos FRECUENCIA ACUMULADA (Fi), o sea:

    =

    =

    i

    ifiFi

    1

  • La FRECUENCIA ACUMULADA correspondiente a un intervalo de clase i es la sumatoria de las frecuencias absolutas desde el primer hasta el i-simo intervalo.

    Obviamente la frecuencia acumulada de un intervalo cualquiera puede tambin ser calculada adicionando a la frecuencia absoluta de ese intervalo, la frecuencia acumulada correspondiente al intervalo de clase anterior.

    fiFiFi += 1

    Resulta evidente adems, que la frecuencia acumulada correspondiente al ltimo intervalo es igual a la poblacin.

    NFn =

    Las frecuencias acumuladas pueden tambin ser representadas mediante grficos de bastones o de barras segn se trate de variables discretas o contnuas respectivamente.

    La tcnica de construccin de los grficos es similar a la ya descripta para las frecuencias absolutas y estos grficos sern siempre crecientes, esto es, cada bastn o barra ser ms alto que el bastn o barra inmediatamente anterior, ya que por definicin, ningn intervalo de clase puede tener frecuencias negativas.

    Tambin pueden trazarse poligonales para grficos de frecuencias acumuladas. Si se trata de una variable discreta, la poligonal deber confeccionarse trazando segmentos paralelos al eje de las abcisas que unan el extremo de un bastn con el bastn siguiente.

    Supongamos el grfico de bastones correspondiente a una serie de frecuencias acumuladas:

    05

    10152025

    60 160 260 360 460 560 660xi

    Fi

    La poligonal correspondiente a las frecuencias acumuladas debe trazarse como se ve en el grfico siguiente, en donde, la poligonal est representada por la funcin discontnua (lneas de trazo grueso).

  • 05

    10152025

    60 160 260 360 460 560 660xi

    Fi

    Cuando se trate de variables contnuas, el polgono de frecuencias acumuladas debe ser constituido uniendo el extremo inferior izquierdo con el extremo superior derecho de cada barra, como se muestra en el grfico siguiente:

    05

    10152025

    60 160 260 360 460 560 660xi

    Fi

    Cada una de las barras representa la densidad acumulada de frecuencias existente hasta ese intervalo de clase. Tomemos como ejemplo el primer intervalo de clase. En l residen dos frecuencias que pueden estar ubicadas en cualquier lugar dentro del intervalo de clase. No sabemos exactamente dnde estn, pero s sabemos que al comenzar el intervalo todava no apareci ninguna de esas frecuencias y que ambas habrn aparecido cuando el mismo haya terminado. Por ello la poligonal se traza uniendo estos dos extremos ya que de esta forma, estamos indicando la secuencia de aparicin de las frecuencias dentro del intervalo de clase.

    12. Construccin de Histogramas para series de frecuencias con intervalos de clase no equiespaciados

    En algunos casos, es probable que nos encontremos con series de frecuencias a variable contnua en las que los intervalos de clase no estn equiespaciadas, esto es, en los que la amplitud C del intervalo de clase, no es constante a lo largo de toda la serie, sino que vara intervalo a intervalo.

    Es usual que nos veamos obligados a construir series de frecuencia de esta manera, cuando se trate de variables que estn influenciadas por escasos valores extremos muy grandes o muy chicos.

  • As por ejemplo, si queremos construir una serie de frecuencias referidas a los ingresos de los habitantes de cierto pas, es probable que nos encontremos con gran cantidad de habitantes con ingresos relativamente reducidos y que justifican intervalos de clase de escasa amplitud, pero adems, con unos pocos habitantes con muy alto nivel de ingresos de forma tal que para mantener el equiespaciamiento, deberamos definir una serie de frecuencias muy larga y quizs con muchos intervalos de clase vacos, esto es, sin ninguna frecuencia.

    Lo ms conveniente en estos casos es romper el equiespaciamiento e ir agrandando la amplitud de los intervalos cuando llegamos a valores de la variable paros que existe una escasa densidad de frecuencia.

    Nivel de ingresos en $

    xiPunto Medio

    xi

    N de habitantes

    fi Ci=lsi-lii Hi=10000*fi/Ci1000-2000 1500 30 1000 3002000-3000 2500 70 1000 7003000-4000 3500 40 1000 4004000-5000 4500 20 1000 200

    5000-10000 7500 10 5000 2010000-20000 15000 5 10000 520000-50000 35000 2 30000 0,66

    Ntese que los primeros cuatro intervalos tienen una amplitud de $1000. El quinto intervalo requiere una amplitud de $5000 para abarcar solamente 10 casos y es necesario, a posteriori, construir dos intervalos ms, uno de $10000 y otro de $30000. Para construir congruentemente un histograma en el caso de este tipo de serie de frecuencias, debemos tener presente que la densidad de frecuencia de un intervalo est representada por la superficie de la barra y no por su altura.

    Sin embargo, como estos grficos son difciles de interpretar, es conveniente construirlos procurando que la altura del mismo sea proporcional a la densidad de frecuencia.

    Las alturas correspondientes a cada intervalo de clase, pueden ser calculadas de la siguiente manera:

    fih =

    Ckfih /*=

    Equiespaciados No equiespaciados

    En donde k es una constante cualquiera, en el cuadro asumimos una constante k=$10000.

  • 13. Caracterizacin de distribuciones de frecuencia

    Caracterizar una distribucin de frecuencias implica definir para la misma una serie de valores de forma tal que, definidos los mismos, la distribucin quede unvocamente determinada.

    Para caracterizar una distribucin de frecuencias es necesario definir medidas referentes a cuatro caractersticas bsicas de esa distribucin, a saber:

    Posicin Variabilidad Forma, sesgo o asimetra Apuntamiento o kurtosis

    Definiendo para una distribucin dada, el valor de cada una de estas caracteristicas, la tendremos perfectamente determinada sin posibilidad de confundirla con ninguna otra entre las infinitas distribuciones de frecuencia existentes.

    Es decir, existe una y slo una distribucin con igual posicin, variabilidad, asimetra y apuntamiento. Es condicin necesaria y suficiente calcular los valores de estas cuatro caractersticas para definir adecuadamente la distribucin de la que se trate.

    A su vez, cada caracterstica puede ser definida a travs de distintas medidas. Una MEDIDA es una metodologa de clculo definida bajo la forma de un operador matemtico (frmula) aplicable a la determinacin de alguna caracterstica de la distribucin.

    Tal como mencionamos anteriormente, este tipo de anlisis metodolgico puede aplicarse tanto a Poblaciones completas como a Muestras extradas de una poblacin. Cuando una medida se refiere a una poblacin, toma el nombre de PARAMETRO. Si esa medida est referida a datos muestrales, recibe el nombre de ESTADISTICO.

    14. Objetivo de las Medidas de Posicin

    Las Medidas de Posicin tienen por objeto resumir toda la distribucin en un nico punto. Algunas de estas medidas de Posicin son Medidas de Tendencia Central (media aritmtica) mientras que otras no (fractiles).

    Una MEDIDA DE TENDENCIA CENTRAL es aquella que tiene por objeto brindar un valor central de la distribucin que sea representativo de la misma y que la resuma en un solo punto.

    Como veremos ms adelante, la representatividad de las medidas de tendencia central es un aspecto fundamental de la Teora Estadstica y buena parte de la misma est dedicada a discutir en profundidad esta cuestin.

    Las medidas de tendencia central ms importantes son las siguientes:

  • Media aritmtica Media geomtrica Media armnica Modo Mediana

    Todas estas medidas implican diferentes metodologas a travs de las cuales se obtiene un valor de tendencia central de la distribucin, las mismas representan diferentes formas de llegar a lo que es el valor medio de la distribucin.

    Existen otro conjunto de medidas de posicin denominadas fractiles, que no son medidas de tendencia central, sino que procuran resaltar otros puntos notables de la distribucin, que no son necesariamente centrales.

    15. Media aritmtica

    Esta es la ms tradicional medida de posicin, ya que es la ms frecuentemente usada y responde enteramente al concepto intuitivo de promedio que todos conocemos.

    El concepto de promedio es de tal manera intuitivo, que casi no se requieren explicaciones acerca de su significado primitivo. Sin embargo, dado que el trmino se presta a confusiones, ya que, como veremos, puede haber distintos tipos de promedios, evitaremos en lo posible el uso de este trmino, usando en su reemplazo la palabra media o medias.

    Por ejemplo, si un alumno quiere saber qu promedio ha obtenido en sus notas, sabe que debe sumar todas las notas obtenidas y luego dividir ese total por la cantidad de calificaciones. Al hacer esta simple operacin matemtica, no se est haciendo otra cosa que determinar la Media Aritmtica de la serie simple constituda por el conjunto de las notas.

    Expresado en frmula:

    == xiNxxm

    1)(

    en donde el smbolo x representa a la media aritmtica de una muestra y m(x) representa a la media aritmtica de toda la poblacin.

    Si los datos estuviesen agrupados en intervalos de clase, los valores de la variable debern ser ponderados por las frecuencias correspondientes a cada uno de esos intervalos. Surge as la frmula de la media aritmtica ponderada.

    fixiN

    xxm *1)( ==

    Esta ltima frmula resulta aplicable toda vez que calculamos la media aritmtica de una serie de frecuencias.

  • Si se tratase de una variable agrupada en intervalos de clase, deberemos definir para cada uno de los intervalos su punto medio, que es el valor central del intervalo que deberemos aplicar en la frmula anterior.

    2lsliPM +=

    Por ejemplo, si tenemos un intervalo de clase que va de 100 a 200, se deber asignar a ese intervalo, a los efectos del clculo, un valor nico que es el valor central de ese intervalo, en nuestro caso, 150.

    Propiedades de la media aritmtica:

    La media aritmtica es un valor particular de la variable y como tal, se expresa en su misma unidad de medida

    La media aritmtica es un valor que est necesariamente dentro del campo de variabilidad de la variable.

    lsxli

  • Esta es la denominada ley de linealidad de la media aritmtica. Por ejemplo, si la ganancia promedio de las entidades financieras es de $20.000 y todas ellas duplican su utilidad, su nueva ganancia promedio ser de $40.000.

    El promedio de los desvos de la variable con respecto a la media aritmtica, es igual a cero.

    0*)(1

    ==

    fixxin

    i

    Como veremos ms adelante, sta es una propiedad muy importante y es la media aritmtica la nica medida del parmetro de posicin que goza de la misma, y es esto lo que hace que sea la media aritmtica la mediada ms usada de ste parmetro.

    Esta propiedad e muy fcil de demostrar:

    ===

    =

    n

    i

    n

    i

    n

    ifixfixifixxi

    111*)( (1)

    Pero por definicin

    fixiN

    xxm *1)( ==

    Adems

    =

    =

    n

    INfi

    1

    por lo que reemplazando en (1), tenemos:

    0***)(111

    == ===

    NN

    fixifixifixxin

    i

    n

    i

    n

    i

    La media aritmtica de una variable es igual a un nmero arbitrario k ms la media aritmtica de los desvos con respecto a ese nmero k.

    )()( kximkxxm +==

    Esta es la denominada ley de traslatividad y como veremos ms adelante, nos serviremos de la misma para calcular la media aritmtica mediante un proceso de clculo mucho ms simplificado que el que resulta de la aplicacin directa de la frmula.

    Esta ley puede ser fcilmente demostrada:

  • ===

    =

    n

    i

    n

    i

    n

    i Nfik

    Nfixi

    Nfikxi

    111

    *)(

    kxN

    fikxini

    =

    =1

    )(

    =

    +=n

    I Nfikxikx

    1

    )(

    Los cuadrados de los desvos con respecto a la media aritmtica son mnimos. Esto quiere decir que elevando al cuadrado los desvos, obtendremos un resultado numricamente menor que si hiciramos esta operacin para cualquier otro valor de desvo diferente al de la media aritmtica.

    =

    =

    n

    i Nfixxi

    1.min*2)^(

    La media aritmtica de una suma de variables es igual a la suma de las medias aritmticas de esas variables, ponderadas por sus respectivas poblaciones. Sean, por ejemplo, tres variables x, y y z y sus respectivas poblaciones Nx, Ny y Nz:

    NzNyNxNzxNyxNxx

    zyxm++

    ++=++ )(

    que es lo que denominamos ley de aditividad de la media aritmtica.

    Si combinamos las propiedades de aditividad y linealidad, podemos decir que la media aritmtica de una combinacin lineal de variables es igual a la combinacin lineal de las medias aritmticas de las variables multiplicadas por las constantes y ponderadas por las frecuencias correspondientes. Sean las variables x, y y z, con sus respectivas poblaciones Nx, Ny y Nz y supongamos que las mismas estn linealmente combinadas con tres constantes, k1, k2, k3, entonces tendremos:

    NzNyNxzNzkyNykxNxk

    zkykxkm++

    ++=++

    321)321(

    Ventajas y desventajas de la media aritmtica

    La media aritmtica es la medida ms tradicionalmente utilizada del parmetro de posicin. Ello se debe, sin duda, a la gran cantidad de propiedades matemticas de las que goza, circunstancia que no acompaa a otras medidas de posicin que veremos posteriormente.

  • Adems, como veremos al estudiar los dems parmetros, la media aritmtica puede ser matemticamente relacionada a travs de la Teora de los Momento con algunas medidas de los parmetros de dispersin, asimetra y apuntamiento.

    Sin embargo, esta medida de posicin presenta algunos inconvenientes:

    La media aritmtica no puede ser calculada en presencia de intervalos abiertos. Es frecuente encontrarnos con distribuciones de frecuencias en las que el primer y/o ltimo intervalo de clase, no estn cerrados por carecer de lmite inferior en el caso del primer intervalo o de lmite superior, en el caso del ltimo.

    En estos casos, estamos imposibilitados de determinar el punto medio de este o estos intervalos, por lo que la media aritmtica no puede ser calculada..

    Dado que todos los valores de la variable participan igualmente ponderados en la frmula de la media aritmtica, sta se ve fuertemente influenciada por la presencia en la serie de valores extremos muy grandes o muy chicos. Puede ser que nos encontremos ante la presencia de una serie en la que exista algn valor poco representativo de la misma que sea desusadamente grande o pequeo.

    En estos caso, la influencia de este valor har que la media aritmtica tome un valor extremadamente grande o pequeo no representativo de la realidad de la distribucin.

    Por ejemplo supongamos que estamos estudiando las colocaciones de prstamos de las primeras 10 diez entidades del sistema y queremos determinar cuanto coloca en promedio una de estas entidades. Los datos son los siguientes:

    EntidadOtorgamiento en miles de $

    A 30.000B 50.000C 25.000D 30.000E 40.000F 35.000G 600.000H 40.000I 20.000J 30.000

    Ntese que la entidad G, tienen una dimensin notoriamente mayor que la que corresponde al resto de las entidades. De esta manera, el clculo de la media aritmtica nos estara diciendo que una entidad coloca en promedio $90.000 miles, cifra que es fcil notar que no goza de representatividad ya que ninguna de las nueve entidades restantes alcanza colocaciones de tal magnitud.

    Ha sucedido que ese valor extremo y poco representativo de $600.000 miles ha elevado el resultado de la media, la que no goza de representatividad. Por ello, cuando nos encontremos ante casos como ste, deberemos, si es tcnicamente

  • factible, recurrir al uso de otros medidas de posicin y en caso de no ser esto posible, depurar la serie eliminando de la misma, los valores extremos que se considere carentes de representatividad.

    Media aritmtica para variables discretas:

    Volviendo al ejemplo de los oficiales de negocios mencionado al principio, vamos a calcular los datos para las series de frecuencias que construmos anteriormente.

    xi fi xi*fiCantidad de prstamos

    Nmero de oficiales

    1 1 12 3 63 3 94 2 85 1 5

    N=10 29

    prstamosN

    fixix

    n

    i 9,21029

    *1

    ===

    =

    Media aritmtica para variables contnuas:

    La mecnica a utilizar en este caso es anloga con la salvedad de que, previamente, deberemos determinar el punto medio de cada intervalo de clase, a los efectos de definir cul es el valor que para cada intervalo de clase utilizaremos para ponderar las frecuencias. Retomando el ejemplo anteriormente visto, podemos calcular la media aritmtica como sigue:

    PM

    xi Ventas

    en $fi

    Cantidad xi*fi160 110-210 3 480260 210-310 7 1.820360 310-410 6 2.160460 410-510 3 1.380560 510-610 1 560

    20 6.400

    Entonces la media aritmtica ser:

    32020

    6400*

    1===

    =

    N

    fixix

    n

    i

  • Ntese que en el caso de variables continuas, el valor obtenido como media aritmtica no es exacto ya que el mismo puede variar levemente en funcin de la agrupacin en intervalos de clase que se haya realizado. Otro tipo de agrupamiento en intervalo de clases, habra determinado otra definicin de puntos medios de intervalo y eventualmente una diferente distribucin de las frecuencias, con lo que el resultado puede diferir. Sin embargo, estas diferencias no son significativas no afectando, por lo tanto, mayormente, al nivel de precisin.

    16. Media geomtrica

    Esta es otra medida del parmetro de posicin que al igual que la media aritmtica pretende determinar un valor central de la distribucin que responde a la idea de promedio. Se diferencia de la media aritmtica en que en ella se aplica una diferente metodologa para la obtencin de ese valor promedio. Si para obtener una media aritmtica, sumbamos todos los valores de una serie simple y los promedibamos dividindolos por la cantidad de datas, ahora para obtener la media geomtrica de esa misma serie simple, deberemos multiplicar los valores y efectuar la raz ensima, en donde N es el tamao de la poblacin.

    Por ejemplo, sea la serie simple x1, x2, x3, ...xi...xn, la media aritmtica ser:

    Nxnxixxx

    x......321 +++++

    =

    o sea:

    N

    xix

    n

    i

    =

    =1

    Mientras que la media geomtrica ser:

    N xnxixxxxg ......3*2*1=

    o sea:

    N fixixg pi=

    Dado que esta frmula resulta compleja de operar, es conveniente realizar una transformacin logartmica an la misma. As entonces, tomando logaritmos en ambos miembros de la expresin anterior, nos queda:

  • N

    fixixg

    n

    i

    =

    =1

    *loglog

    de donde surge que la media geomtrica ser:

    N

    fixiantixg

    n

    i

    =

    =1

    *loglog

    Puede observarse que esta frmula nos permite calcular la media geomtrica con gran facilidad ya que se trata de una ecuacin anloga a la de la media aritmtica en la que no se trabaja con la variable original xi, sino con una transformacin logartmica de la misma. Analizando la frmula anterior, podemos decir:

    La MEDIA GEOMTRICA es el antilogaritmo de la media aritmtica de los logaritmos de la variable.

    Por lo tanto, desde el punto de vista prctico, bastar a los efectos del clculo de la media geomtrica:

    Agregar una columna a nuestro cuadro de trabajo con los logaritmos de la variable;

    Calcular la media aritmtica en base a la transformacin de la variable, Antilogaritmar el resultado.

    Propiedades de la Media Geomtrica

    La media geomtrica no goza de tantas propiedades matemticas como las que vimos en el caso de la media aritmtica. Sin embargo podemos mencionar las siguientes:

    Es un valor particular de la variable y como tal se expresa en su misma unidad de medida

    La media geomtrica es un valor de la variable que necesariamente se encuentra dentro de los lmites de su campo de variabilidad

    Ventajas y desventajas de la Media Geomtrica

    La principal ventaja de la media geomtrica reside en el hecho de que no se ve afectada por la presencia de valores extremos grande, ya que al trabajar con los logaritmos de la variable, suaviza estos efectos, subponderando el peso de los extremos grandes de la variable.

    Por lo tanto, su uso est primordialmente indicado en aquellos casos en los que la variable cuenta con algunos valores extremos demasiado grandes a los que se

  • supone, de escasa representatividad y cuyo peso relativo se quiere reducir a la hora de determinar el promedio.

    Pero la media geomtrica tiene tambin algunas desventajas.

    Su clculo es ms laborioso Al igual que en el caso de la media aritmtica, la media geomtrica no puede

    ser calculada ante la presencia de intervalos de clase abiertos Tampoco es posible determinar la media geomtrica si la variable presenta

    valores nulos o negativos, ya que en estos casos no pueden determinarse sus logaritmos

    Es altamente sensible ante la presencia de valores pequeos de la variable

    Por lo tanto, su uso est especficamente desaconsejado en aquellos casos en los que la variable posee valores muy pequeos respecto de los que corresponde a la zona de mxima concentracin de frecuencias.

    Ver resolucin del Ministerio de Economa 47/2002.

    17. Media Armnica

    La media armnica es otra forma de obtener el promedio a partir de una metodologa diferente de clculo.

    =

    =n

    i xifi

    Nxa

    1

    si los datos no estuvieran agrupados:

    =

    =n

    i xi

    Nxa

    1

    1

    La MEDIA ARMNICA es la inversa de la media aritmtica de las inversas. El clculo de la media armnica es sustancialmente ms laborioso y por lo general, la misma es de escasa utilizacin.

    Sin embargo, existen casos en los que resulta imprescindible utilizar la media armnica cuando se desea obtener un promedio preciso.

    Ello sucede cada vez que la variable tiene una unidad de medida fraccionaria que es cociente de dos unidades de medida provenientes de diferentes sistemas de medicin.

    Veamos esto a travs de un ejemplo muy simple:

  • Supongamos que un tren hace el trayecto de Bs. As. A Mar del Plata a una velocidad promedio de 100 Km por hora. Cul es la velocidad promedio del viaje de ida y vuelta?

    Una respuesta intuitiva nos dira que la velocidad promedio ha sido de 110 Km por hora y esta idea surge de haber calculado una media aritmtica. Sin embargo, si analizamos ms detenidamente el problema, veremos que esta respuesta es errnea ya que la velocidad real del tren ha sido algo menor.

    En efecto, pensemos el problema de otra manera. Para recorrer los 400 km de ida a una velocidad de 100 km por hora, se han necesitado 4 horas. Para recorrer los 400 Km de regreso a una velocidad de 120 Km por hora, fue necesario emplear 3,33h. Por lo tanto para recorrer los 800 KM hemos utilizado 7,33 horas, o sea, que la velocidad ha sido:

    hkmhs

    KmtiempoespacioVelocidad /0999,109

    3333,7800

    ===

    Evidentemente, el uso de la media aritmtica es inapropiado en el ejemplo que hemos expuesto y es la media armnica la mediada adecuada para este tipo de problemas. En efecto, si hubisemos aplicado la misma, hubisemos obtenido:

    0999,109

    1201

    1001

    2=

    +=xa

    Siempre que nos encontremos con este tipo de unidades de medidas fraccionarias, deberemos utilizar la media armnica.

    Al igual que las medias aritmtica y geomtrica, la media armnica es un valor particular de la variable que se mide en su misma unidad de medida y cuyo valor est dentro del campo de variabilidad de la variable.

    18. Comparacin entre las tres Medias

    En todos los casos, se cumple la siguiente relacin.

    xxgxa

    en donde la relacin de igual se cumple toda vez que se trate de una constante.

    Demostracin:

    Supongamos que tenemos una variable que tiene solamente dos valores x1 y x2 y asumamos que x1>x2 entonces tenemos:

  • 2^22^12*122)^21( xxxxxx ++=+ 2^22^12*122)^21( xxxxxx ++=

    restando miembro a miembro ambas ecuaciones, tenemos:

    2*142)^21(2)^21( xxxxxx =+

    de donde se deduce inmediatamente que:

    2*142)^21( xxxx >+

    y por lo tanto:

    2*221 xxixx >+

    o sea:

    2*12

    21xx

    xx>

    +

    con lo que se demuestra que:

    xgx > (1)

    Por otra parte tenemos, haciendo la inversa de la media armnica:

    22

    11

    11 xxxa

    +=

    de donde surge:

    21

    112

    xxxa+=

    2*1212

    xx

    xx

    xa

    +=

    o lo que es lo mismo:

    2*12

    211

    xx

    xx

    xa

    +

    =

    o sea:

    2^1

    xgx

    xa=

  • despejando la media geomtrica:

    xaxxg *2^ = (2)

    xaxxgxg ** =

    Pero dado que como ya demostramos en (1)

    xgx >

    entonces puedo colocar en (2) la media aritmtica en lugar de la media geomtrica conservando la desigualdad:

    xaxxgx ** >

    simplificando las medias aritmticas, tenemos:

    xaxg > (3)

    Uniendo (1) y (3):

    xxgxa

    Despejes

    De la ecuacin (2) del teorema anterior

    xaxxg *=

    O sea que podemos decir que la media geomtrica de una variable es a su vez, la media geomtrica entre las medias aritmtica y armnica de esa variable.

    xa

    xgx

    2^=

    x

    xgxa

    2^=

    19. Modo o Moda

    El modo es otra medida del parmetro de posicin. Como tal, tambin procura definir un valor central de la distribucin que sea representativo de la misma y que la resuma en un solo punto. Pero a diferencia de lo que pasaba con las tres medias que hasta ahora estudiamos, el modo no responde al concepto de valor promedio sino al de valor ms frecuente.

  • El modo es el valor de la variable correspondiente a la mxima frecuencia. Esto es, el modo es aquel valor de la variable que mas recurrentemente se repite: es sencillamente, el valor ms comn de la variable. Si se trata de una serie simple, para determinar el modo basta con observar en la misma, cul es el valor de la variable que mas veces se repite.

    Si se trata de una variable discreta, clasificada en intervalos formando una serie de frecuencias, el modo es automticamente determinado por la simple visualizacin de la tabla: basta con observar cual es el valor de frecuencias mas alto y el valor de la variable que se corresponde con esa frecuencia, es el modo.

    En el caso de variables continuas, agrupadas en intervalos de clase, la observacin de la frecuencia ms alta nos llevar a determinar un intervalo modal dentro del cual se encuentra el modo y deberemos buscar un procedimiento (que describiremos a continuacin), para determinar en qu punto de ese intervalo de clase se halla exactamente el modo.

    Veamos esto con un ejemplo. Supongamos la siguiente serie de frecuencias a variable continua:

    xi fi0 - 4 54 - 8 10

    8 - 12 2012 - 16 516 - 20 1

    El mximo valor de frecuencias es 20 y as nos surge inmediatamente, un intervalo modal que nos indica que el modo se encuentra en alguna parte entre 8 y 12. Pero Cal es el valor exacto del modo? Una primer forma de determinarlo podra consistir en asumir que el mismo se halla en el punto medio del intervalo, esto es, que el modo es igual a 10 en nuestro ejemplo. Sin embargo, a poco que analizamos detenidamente esta solucin, vemos que la misma es absolutamente precaria.

    Ubicar al modo en el punto medio del intervalo, implica suponer que las frecuencias de ese intervalo se equidistribuyen a lo largo del mismo; y realmente no tenemos ninguna base slida que nos permita realizar esa afirmacin.

    Es ms, poseemos fuertes argumentos que nos permiten suponer que las 20 frecuencias de ese intervalo, no estn equidistribuidas a lo largo del mismo. En efecto, si observamos la serie de frecuencias dada, vemos que en el intervalo anterior al modal tenemos una densidad de frecuencias mucho mayor que la que existe en el intervalo posterior al modal.

    Ello nos permite deducir que es posible que dentro del intervalo modal exista mayor cantidad de frecuencias en la primer mitad del intervalo que en la segunda. Obviamente, esto tambin es un supuesto pero resulta fcil comprender que tiene mucho ms sustento lgico que el anterior.

  • Vamos ahora a determinar la frmula que nos permita ubicar al modo en un punto dentro del intervalo modal teniendo en cuenta la densidad de frecuencias de los intervalos anterior y posterior.

    Dicha frmula es la siguiente.

    211dd

    dcliMo

    ++=

    en donde:

    li es el lmite inferior del intervalo en el cual se encuentra el modo c es la amplitud de ese intervalo de clase d1 es la diferencia entre la frecuencia absoluta del intervalo modal y la del intervalo

    anterior d1=f Max f Max-1 d2 es la diferencia entre la frecuencia mxima del intervalo modal y la del intervalo

    posterior. d2=fMax-fMax+1

    En el ejemplo:

    6,91510

    1048 =+

    +=Mo

    Propiedades del Modo

    El modo es un valor particular de la variable y como tal se mide en su misma unidad de medida.

    El modo se encuentra siempre dentro del campo de variabilidad de la variable

    lsMoli

  • Ejemplo: caso de puntera

    xi fi xi*fi

    Lugar de Impacto

    Cantidad de impactos en

    ese lugar-3 1 -3-2 2 -4-1 51 -510 10 01 20 202 10 203 6 18

    Total 100 0

    Como usted puede observar, la media aritmtica de esa distribucin de frecuencia es igual a cero, lo que significa que en promedio los disparos dan en el blanco. Pero obsrvese que ese promedio se obtiene como compensacin de importantes desvos positivos y negativos de forma tal que slo 10 de cada 100 disparos dan exactamente en el blanco. Pero al observar la tabla, tambin deducimos que, apuntando al blanco, el 51% de los disparos hace impacto en el lugar correspondiente al 1. Esto es, lo ms probable es que apuntando al blanco se haga impacto en 1. Con esta informacin, qu decisin tomara usted. a dnde apuntara exactamente? Surge aqu con evidencia que la decisin debe ser tomada en funcin del modo y no de la media aritmtica. An cuando ambos son valores medios, resulta evidente que en funcin del uso que queremos dar al parmetro de posicin, deberemos escoger la medida ms adecuada.

    20. Relaciones entre Modo y Media Aritmtica

    Hemos visto oportunamente cmo podamos establecer una relacin entre las medias aritmtica, geomtrica y armnica. Pero si se trata de relacionar al modo con la media aritmtica, nos encontramos con que esta ltima puede ser mayo, menor o igual que el modo.

    La relacin entre el Modo y la Media Aritmtica est en funcin de la forma de la distribucin. Por lo tanto, es posible establecer con precisin en qu condiciones se cumplir cada una de las tres posibilidades, esto ser analizado a partir del parmetro de simetra.

    21. Mediana

    La mediana (me) es otra medida del parmetro de posicin y como tal, procura definir un valor central de la distribucin. La Mediana es el valor de la variable que divide a la distribucin en dos mitades de igual cantidad de frecuencias.

    Es decir, que la mediana es un valor de la variable tal que la mitad de las frecuencias corresponden a valores de variable inferiores al de la mediana y la otra mitad, a valores superiores a sta.

  • El concepto de mediana puede ser comprendido claramente a travs de su interpretacin grfica. Dada una determinada serie de frecuencias, y si trazamos su correspondiente polgono de frecuencias acumuladas, encontraremos a la mediana en aquel valor de la variable correspondiente al 50% de las frecuencias acumuladas. Como el valor Mximo de Fi es N, entrando desde el eje de ordenadas con el valor N/2 y proyectando sobre el eje de absisas obtenemos el valor de la mediana.

    Clculo de la Mediana

    Si se trata de una serie simple, para hallar la mediana basta con ordenar en forma creciente o decreciente a los datos y ubicar a la mediana como el trmino central de esa serie.

    Si se trata de una cantidad par de datos, la mediana vendr dada por el promedio aritmtico simple de los dos datos centrales.

    Por ejemplo, dada la siguiente serie simple (7, 5, 4, 8 , 2, 6, 8) ordenando (2, 4, 6, 7, 8, 8). La mediana resulta ser 6, ya que para ella se cumple que existen tres valores menores y tambin tres valores mayores a la misma.

    Imaginemos ahora que a la serie se le agrega un nuevo valor (otro 8), entonces la median ser 6,5 que es el promedio entre los dos datos centrales (6 y 7).

    Si los datos se encontraran tabulados en una serie de frecuencias, para calcular la mediana ser preciso calcular las frecuencias acumuladas. La mediana se encontrar en el intervalo de clase en el que por primera vez, nos encontremos con frecuencias acumuladas superiores a N/2.

    Si se tratare de una variable discreta, el valor de la mediana surge as automticamente. Pero si la misma estuviese agrupada en intervalos de clase, necesitaremos al igual que lo que suceda con el modo, una frmula que nos permita ubicar a la mediana en algn punto dentro del intervalo de clase en cuestin. Ejemplo:

  • xi fi Fi0 - 4 5 5 F(k-1)4 - 8 7 128 - 12 12 24

    12 - 16 8 32 fk16 - 20 8 40

    li ls

    En este caso, si N=40, la mediana ser el valor de la variable para el que la frecuencia acumulada es igual a N/2=20. Observando las frecuencias acumuladas en la tabla anterior, deducimos que la mediana se halla entre 8 y 12. En efecto, luego de recorrer ntegramente el segundo intervalo (entre 4y 8), tan slo hemos acumulado 12 frecuencias mientras que, luego de recorre el siguiente intervalo, acumulamos 24 frecuencias, esto es, superamos el 50% de la distribucin. O sea, que la mediana se encuentra en algn lugar entre 8 y 12.

    Para determinar dnde se halla exactamente, deberemos aplicar la siguiente frmula:

    fkkFN

    clime)1(

    2

    +=

    li= lmite inferior del intervalo de clase en el cual se encuentra la mediana c= amplitud de ese intervalo de clase F(k-1)= frecuencia cumulada hasta el intervalo anterior a aquel en el cual reside la mediana Fk= frecuencia absoluta del intervalo de la mediana

    Si aplicamos esta frmula al ejemplo que enunciamos tenemos:

    67,1012

    1220*48 =+=me

    Propiedades de la mediana ventajas y desventajas

    La mediana es un valor particular de la variable, lo cual como hemos visto, implica:

    Que se mide en su misma unidad de medida Que se halla dentro de los lmites de su campo de variabilidad

    La principal ventaja de la mediana reside en su facilidad de clculo y en no estar influida por la presencia de intervalos de clase abiertos. Por otra parte, el valor de la mediana est determinado ms que por los valores particulares de la variable, por la cantidad y por el orden de los mismos, por lo que no se halla influenciada por valores extremos de la variable.

    La principal desventaja de la median radica en el hecho de que no posee grandes propiedades algebraicas, lo que dificulta su relacin con los dems parmetros que se utilizan para caracterizar la distribucin.

  • La mediana an cuando es un valor central, responde a un concepto diferente al de las medias y al modo, por lo que la conveniencia de su aplicacin est bsicamente determinada por el tipo de pregunta que debemos contestar.

    En realidad, la mediana es una particin de la distribucin de frecuencias en dos mitades que contienen la misma cantidad de frecuencias: su uso estar indicado toda vez que esta particin sea la respuesta adecuada a la pregunta que nos estamos formulando.

    Por ejemplo, si tenemos una distribucin de frecuencias que nos habla de las utilidades que han tenido las entidades financieras:

    La media aritmtica representa la rentabilidad media del sistema financiero. El modo representa la rentabilidad mas habitual o sea, es ms representativo

    si lo que queremos responder a la pregunta, en qu estado estn en general las entidades.

    La mediana nos define una tasa de utilidad central que nos asegura que la mitad de las entidades ganan menos que esa cifra y la otra mitad supera ese nivel de rentabilidad.

    Particularmente, si la distribucin tiene valores extremos, muy grandes o muy chicos, la respuesta a esta pregunta ser muy diferente si hacemos el clculo en base al modo o a la media aritmtica y es obvio, que en este supuesto, el modo reflejar ms exactamente la situacin en que se hallan la mayora de las entidades.

    22. Relacin entre Mediana y Media Aritmtica

    La relacin entre la mediana y la media aritmtica, igual que en el caso del modo, depende de la forma de la distribucin. La mediana es siempre un valor intermedio entre el modo y la media aritmtica.

    Si los desvos positivos con respecto a la media aritmtica son equivalentes a los desvos negativos, entonces:

    Momex == Si la cantidad de desvos que se encuentran a la derecha de la media

    aritmtica es superior a la cantidad que se encuentra a su izquierda, entonces: xmeMo >

    23. Cuartiles

    Vimos como la mediana nos permita partir la distribucin en dos mitades iguales. Es posible tambin partir la distribucin en 4 grupos iguales denominados cuartiles, de forma tal que:

  • El primer cuartil (Q1), es un valor de la variable, tal que el 25% de las frecuencias correspondan a valores de la variable inferiores a ste y el 75% restante, los supere.

    El segundo cuartil (Q2) parte a la distribucin en dos partes iguales y se corresponde enteramente con el concepto de mediana. me = Q2

    El tercer cuartil (Q3) es un valor de la variable, tal que el 75% de las frecuencias pertenezcan a valores de la variable inferiores a ste y el 25% restante, los supere.

    De esta manera, podemos definir a los cuartiles como medidas de posicin no centrales y a la mediana, como un caso particular de cuartil (el segundo), que tiene la particularidad de representar una medida central.

    El clculo de los cuartiles puede realizarse aplicando una metodologa anloga a la utilizada con la mediana, o sea que en el primer lugar deberemos identificar el intervalo de clase en el cual se encuentra el cuartil buscado. Para ello, debemos calcular las frecuencias acumuladas y ubicar el primer cuartil en aquel intervalo de clase en el que las fecuencias acumuladas superan al 25% de la poblacin, esto es, al valor N/4.

    El tercer cuartil se ubicar en el intervalo en el que las frecuencias acumuladas superan por primera vez, al 75% de la poblacin, esto es, a 3N/4.

    Para encontrar el punto exacto donde se halla el cuartil, podemos usar la siguiente frmula:

    fkFkiN

    cliQi1

    4*

    +=

    en donde el subndice i, indica el nmero de cuartil a calcular. En el ejemplo anterior:

    75,158

    24440*3

    *5123 =

    +=Q

    24. Fractiles

    Puede desearse por ejemplo, partir a la distribucin en 10 (diez) partes iguales y surgen as los denominados DECILES. Obviamente, el 5 decil coincidir con la mediana. El 8 decil, por ejemplo, partir a la distribucin en dos partes; la primera incluyendo el 80% de las frecuencias y la segunda, el 20%.

    Genricamente un DECIL puede calcularse as:

  • fkkFiN

    liDi)1(

    10*

    +=

    Si deseramos partir a la distribucin en 100 partes iguales, tendremos los denominados PERCENTILES, en los que obviamente,

    El 50 percentil coincide con la mediana El 25 percentil coincide con el primer cuartil El 75 percentil coincide con el tercer cuartil El 10 percentil coincide con el primer decil Etc.

    Genricamente, un PERCENTIL puede calcularse as:

    fkFkiN

    liPi1

    100*

    +=

    como puede verse, una distribucin de frecuencias puede ser fraccionada en tantas partes como deseemos. En trminos generales, denominamos FRACTILES o CUANTILES a estas particiones de la variable. Genricamente, la frmula a aplicar es:

    fkFkpNliFp 1* +=

    en donde:

    p= es la porcin de la distribucin a particionar

    Por ejemplo, si queremos partir la distribucin en 850 partes y queremos calcular el valor de la particin N370, entonces:

    435,0850370

    ==p

    8,912

    12435,0*40*48435,0 =+=F

    25. Anlisis del concepto de variabilidad

    Tal como se explicara anteriormente, para caracterizar una distribucin de frecuencias es necesario calcular medidas referidas a cuatro aspectos o caractersticas de una distribucin. Una vez que determinamos una o ms de una medida de posicin, hemos resuelto apenas una parte del problema.

  • En primer lugar, pueden existir infinitas distribuciones con similar valor en alguna medida de posicin, por ejemplo, su media aritmtica. Si las queremos definir con precisin, tenemos todava que distinguir sus otras tres caractersticas.

    Por otra parte, una pregunta bsica que puede plantearse es la que se refiere a la representatividad de las medidas de posicin. En otras palabras: Es esa medida de tendencia central una buena sntesis del valor promedio de la distribucin? O mejor an: Ese promedio representa adecuadamente a la distribucin?

    Para interpretar adecuadamente el significado de las medidas de Variabilidad necesitaremos explicar por qu dos distribuciones con igual medida de posicin pueden ser distintas como consecuencia de su diferente variabilidad.

    Veamos esto a travs de un ejemplo muy simple. Supongamos que un alumno A ha obtenido durante su curso las siguientes calificaciones:

    4 4 5 6 6 Su promedio (esto es, la media aritmtica de esta serie simple) ha sido de 5 puntos. Supongamos adems que otro alumno B ha tenido estas notas:

    9 9 5 1 1 Su promedio es tambin de 5 puntos, pero es muy evidente que ambas distribuciones son muy diferentes. Hemos arribado al mismo promedio compensando desvos de muy distinta magnitud.

    En las dos distribuciones que figuran en el grfico anterior, la media aritmtica es la misma, pero es evidente que su forma es absolutamente distinta.

    La distribucin B tiene mucho mayor VARIABILIDAD (est mucho ms dispersa) y en ella se ha arribado a la media aritmtica como compensacin de desvos de gran magnitud.

    La distribucin A tiene menos VARIABILIDAD (esto es, est ms concentrada) y en ella se arriba al mismo promedio pero compensando desvos pequeos ( o menores que en el caso anterior).

    Las MEDIDAS DE VARIABILIDAD tienen por objeto medir la magnitud de los desvos de los valores de la variable con respecto al valor central de la distribucin.

  • De esta manera, al obtener una MEDIDA DE VARIABILIDAD estaremos definiendo cun semejantes o cun distintos son cada uno de los valores de la variable con respecto al valor central.

    As, las MEDIDAS DE VARIABILIDAD son tambin una medida del grado de representatividad de las medidas de tendencia central.

    Volviendo a nuestro ejemplo de las notas delos alumnos, en el caso del primer alumno, todas sus notas son parecidas al promedio. Todas sus notas han estado alrededor de los cinco puntos y podemos decir de l con seguridad, que es un alumno de cinco puntos, los que representan adecuadamente a todos y cada uno de sus desempeos.

    Pero en el segundo caso, estamos ante la presencia de un alumno ms desparejo; ha compensado dos exmenes muy buenos con dos de bajsimo nivel. Ha arribado al mismo promedio pero por un camino muy distinto.

    Evidentemente, a pesar de la igualdad del promedio, se trata de dos alumnos (distribuciones) muy diferentes. Podemos afirmar con certeza que ese promedio de cinco puntos es mucho ms representativo del real desempeo del primer alumno que de la performance del segundo.

    La medicin de los desvos con respecto al valor promedio, entonces, es el elemento que deberemos utilizar para definir las medidas de variabilidad. Aunque existen algunas medidas de variabilidad cuyo clculo no est basado en la determinacin de estos desvos.

    Podemos afirmar que la variabilidad es la caracterstica ms importante de la distribucin, ya que se constituye en un eficaz test de validacin referido al nivel de significacin de las medidas de posicin.

    Las distintas medidas de variabilidad estn dirigidas, por lo tanto, a procurar una mensura de los desvos con respecto a un valor central, usualmente la media aritmtica. Las principales medidas de variabilidad son:

    La Varianza o Variancia La Dispersin o Desviacin Standard El Desvo Medio La Semi Desviacin Intercuartlica

    Las tres primeras medidas hacen referencia a los desvos de los valores de la variable con respecto a la media aritmtica, mientras que la ltima trata de analizar el espacio existente entre el tercer y el primer cuartil obteniendo as una medida diferente no relacionada con la media aritmtica.

    Dado que, la media aritmtica tiene la propiedad de compensar los desvos:

    0*)(1

    ==

    fixxin

    i

  • Entonces, no resulta posible obtener a partir de este simple clculo ninguna medida de variabilidad ya que el resultado de esta operacin ser igual a cero para cualquier distribucin.

    La Varianza y la Dispersin procuran obviar este inconveniente elevando esos desvos al cuadrado, mientras que el desvo medio trata de evitar la compensacin calculando los desvos en valor absoluto.

    26. Varianza

    La Varianza es una Medida de Variabilidad que pondera los cuadrados de los desvos de los valores de la variable con respecto a la media aritmtica. Si se trata de series simples:

    n

    xxix

    2)^()(2

    =

    Y si los datos estn formando una serie de frecuencias:

    fixxiN

    xn

    I*2)^(*1)(

    1

    2

    =

    =

    De esta manera, al elevar los desvos al cuadrado, obtendremos todos valores positivos con lo que eliminamos el problema de la compensacin de esos desvos.

    La varianza resulta as ser el promedio cuadrtico de las distancias entre la media aritmtica y cada uno de los valores de la variable.

    La Varianza de una distribucin es la media aritmtica de los desvos cuadrticos de los valores de la variable con respecto a la media aritmtica de esa distribucin.

    El clculo de la Varianza requiere la determinacin de la media y del posterior clculo de sus desvos. Al menos si se desea utilizar la frmula aqu presentada. Como veremos ms adelante, a partir de la Teora de los Momentos, mostraremos una forma de calcular la varianza que no requiere de estos clculos.

    Veamos el siguiente ejemplo:

    La media aritmtica resulta ser 1000 y aplicando la frmula de la varianza vista anteriormente la misma resulta ser 8.214,29. El problema que esta medida presenta es que se la variable tuviese una unidad de medida, no todas las unidades de medida admiten cuadrados ej: gramos; pesos; etc. Ms adelante veremos que solucin se puede encontrar.

    PM xi fi xi*fi xi-m(x) (xi-m(x))^2 (xi-m(x))^2*fi850 800-900 20 17000 -150 22500 450000950 900-1000 50 47500 -50 2500 125000

    1050 1000-1100 50 52500 50 2500 1250001150 1100-1200 20 23000 150 22500 450000Total 140 140000 1150000

  • Propiedades de la Varianza:

    La unidad de medida de la varianza es el cuadrado de la unidad de medida de la variable.

    La varianza de una constante e igual a cero La varianza de una suma de variables es igual a la suma de la varianza de las

    variable dadas, si y slo si estas variables son independientes.

    ntesindependieyxyxyx )()()()()( 222 +=+

    La varianza de una constante ms una variable es igual a la varianza de la variable.

    xcx 22 )( =+

    lo cual nos permite decir que la varianza es invariante con respecto a un cambio de origen de trabajo.

    La varianza del producto de una variable por una constante es igual a la varianza de la variable por el cuadrado de la constante

    xcx c 222

    *)*( =

    lo cual se puede demostrar:

  • 27. Dispersin Desvo standard - volatilidad

    Hemos visto como la varianza resolva el tema de la compensacin de los desvos elevando al cuadrado a los mismos. Pero esto produce como consecuencia, obtener una medida que est expresada en el cuadrado de la unidad de medida de la variable con lo que resulta compleja su interpretacin.

    A efectos de solucionar este inconveniente, definimos una nueva medida del parmetro de dispersin a la que llamamos DISPERSIN propiamente dicha y que es la raz cuadrada de la anterior, o sea:

    =

    =

    n

    ifixxi

    Nx

    1*2)^(1

    La dispersin as definida se expresar en la misma unidad de medida que la variable y resultar por lo tanto de ms fcil interpretacin. En el ejemplo que mencionramos anteriormente, si la variable fuese peso en gramos de los paquetes de azcar envasados por cierta mquina, tenamos una varianza de 8.214,29 grs.^2, la dispersin ser la raz cuadrada de ese valor, o sea 90,63 grs.

    Propiedades de la Dispersin:

    Dado que la dispersin es una medida derivada de la varianza, sus propiedades pueden deducirse inmediatamente por analoga con sta.

    Como ya dijimos, la unidad de medida de la dispersin es la unidad de medida de la variable.

    La dispersin de una constante es igual a cero. La dispersin de una suma de variables NO es igual a la soma de las

    dispersiones de las variables, aunque sean independientes.

    yxyx ++ )(

    La dispersin de una variable ms una constante es igual a la dispersin de la variable (La dispersin es invariante con respecto a un cambio en el origen de trabajo).

    La dispersin del producto de una variable por una constante es igual a esa constante por la dispersin de la variable.

    xccx *)*( =

    La dispersin como Medida de la Representatividad de la Media Aritmtica:

    La media aritmtica ser mas representativa de la distribucin cuanto menor sea su dispersin; ya que si sta es pequea, ello est indicando que los desvos compensados son tambin pequeos y que la mayora de los datos de la variable se hallan concentrados alrededor de la media aritmtica.

  • El Teorema de Bienayme Chebychev, explica claramente cual es el sentido prctico de la dispersin y de qu forma un determinado valor de sta, debe ser considerado.

    Este teorema dice que la probabilidad de encontrar desvos con respecto a la media aritmtica, que en valor absoluto sean inferiores o iguales a k veces la dispersin, es siempre mayor que la diferencia entre la unidad y la recproca de k al cuadrado, en donde k es una constante cualquiera.

    { }2^

    11||k

    kxxiP

    Por ejemplo, si hacemos k=2, esto quiere decir que la probabilidad de encontrar un desvo menor o igual al doble de la dispersin ser necesariamente mayor o igual a 0,75 ya que:

    75,0411 =

    Esto es, tenemos un 75% de probabilidades de que un desvo cualquiera sea ms chico que el doble de la dispersin.

    De la misma manera, si hacemos k =3, y reemplazamos en la desigualdad, nos encontramos con que tendremos una probabilidad del 88,89% de que un desvo dado sea menor o igual que tres veces la dispersin.

    Resulta evidente entonces que cuanto mayor sea el valor de la dispersin que corresponde a una distribucin dada, ms grandes sern los desvos para mantener constante la mencionada probabilidad.

    Supongamos que tenemos una distribucin con media aritmtica x y dispersin , que grficamente es como se ve en el Grfico 1. La desigualdad nos indica que la probabilidad de encontrar valores dentro del rea sombreada, ser igual o superior al 75%.

    Supongamos ahora que tenemos otra distribucin con la misma media aritmtica pero con un coeficiente de dispersin ms alto. En este caso, dentro del mismo intervalo encontraremos una proporcin mucho menor de la distribucin como se ve en el Grfico 2.

  • Volviendo al ejemplo de la mquina que fabrica los paquetes de azcar cuyo peso promedio es de 1000 gramos pero con una dispersin de 90,63 gramos. Ello quiere decir que en la prctica, quizs por problemas de calibrado de la mquina, no todos los envases resultan tener el mismo contenido, an cuando en promedio s contienen los 1000 gramos especificados.

    El valor de la dispersin 90,63 nos indica, aplicando la desigualdad de Bienayme Chebychev, que al menos el 75% de los paquetes debern tener un contenido que no difiere de la media en ms de dos veces la dispersin, esto es, en ms de 181,26 gramos, o sea, el 75% de los paquetes de azcar pesarn entre 818,74 gramos y 1181,26 gramos.

    Supongamos ahora que un tcnico de mantenimiento calibra la mquina de forma tal que ahora cada paquete resulta tener un contenido ms cercano al promedio que antes.

    gramosmx 1000140

    140000==

    gramos1925,73140

    750000==

    PM xi fi xi*fi xi-m(x) (xi-m(x))^2 (xi-m(x))^2*fi850 800-900 10 8500 -150 22500 225000950 900-1000 60 57000 -50 2500 1500001050 1000-1100 60 63000 50 2500 1500001150 1100-1200 10 11500 150 22500 225000Total 140 140000 750000

  • Ahora la media aritmtica sigue siendo 1000, pero la nueva dispersin es de 73,19. Esto implica que tengo al menos un 75% de probabilidad de encontrar paquetes que pesen entre 853,62 y 1146,38 gramos.

    Esta segunda media aritmtica es mucho ms representativa de su distribucin que la primera. Se comprueba que el valor de la dispersin es un claro indicador del nivel de representatividad de la media aritmtica.

    28. Coeficiente de Variacin

    A veces resulta til analizar a la dispersin en trminos porcentuales con respecto a la media aritmtica. Hasta ahora, habamos comparado dos distribuciones en las que la media aritmtica era la misma y decamos que era ms representativa aquella que tuviera la menor dispersin. Pero si las medias no fueran iguales a efectos de hacer esta comparacin deberemos calcular el coeficiente de variacin.

    100*x

    V =

    El COEFICIENTE DE VARIACIN es el porcentaje que la dispersin representa con respecto a la media aritmtica. En nuestro ejemplo anterior, tenemos para el primer caso:

    %063,9100*1000

    63,901 ==V

    y para el segundo:

    %319,7100*1000

    19,732 ==V

    o sea que la dispersin es de tan solo algo ms del 7%, con respecto a la media. Recordemos una vez ms el significado de la desigualdad de Bienaym Chebychev los desvos comprendidos en el intervalo correspondientes a 2x y 2+x representan al menos el 75% de los valores de la distribucin.

    En el primero de nuestros ejemplos esto implica que tendr concentrado al menos el 75% de los datos en un intervalo cuyos lmites inferior y superior no se encontrarn ms lejos que un valor equivalente al 18,126% de la media (2V).

    En el segundo caso, en el que la distribucin est concentrada, para encontrar el 75% de los datos tan solo tendr que alejarme un 14,638% del valor central (2V), tal como se ve en el siguiente grfico.

  • 29. Desvo Medio

    El desvo medio es otra medida de variabilidad que elimina la compensacin de los desvos calculndolos en valor absoluto, o sea:

    fixxiN

    DMn

    i*|)(|1

    1

    =

    =

    El desvo medio no goza de tantas propiedades matemticas como la dispersin, aunque su clculo resulta ser un poco menos engorroso, ya que no requiere elevar desvos al cuadrado. Por lo general si la distribucin es aproximadamente normal, se comprueba que:

    25,1

    DM

  • Obviamente, tanto el desvo medio como la dispersin requieren para su clculo de un cuadro de trabajo que calcule los desvos intervalo por intervalo; por lo tanto, ninguna de estas medidas puede ser calculada si tenemos intervalos de clase abiertos.

    30. Semi Desviacin Intercuartlica

    Otra forma de medir empricamente la variabilidad de una distribucin, consiste en el clculo de la semi desviacin intercuartlica, la cual es:

    213 QQS =

    en donde Q3-Q1 es la diferencia entre el tercer y el primer cuartil y por lo tanto, est indicado la amplitud de un intervalo dentro del cual se encuentra la mitad de la poblacin. Es obvio que cuanto ms dispersa sea la distribucin, mayor ser la distancia intercuartlica y viceversa. Esta medida del parmetro de dispersin es utilizable fundamentalmente cuando la presencia de intervalos de clase abiertos nos impide el uso de otro tipo de medidas.

    31. Teora de los momentos

    Denominamos MOMENTOS de una Distribucin de Frecuencias a diversos operadores matemticos (frmulas) calculados sobre los datos de esas mismas distribuciones, que poseen distintos significados en funcin de su ORDEN y del ORIGEN DE TRABAJO que se considere.

    Vamos a estudiar a continuacin tres tipos diferentes de Momentos, denominados Momentos Absolutos, Momentos Reducidos y Momentos Centrados. Cada uno de ellos difiere de los otros en la utilizacin de diferentes orgenes de trabajo. Por otra parte veremos como cada uno de los tipos de momentos enunciados puede tener distintos rdenes.

    32. Momentos Absolutos

    Dada una Distribucin de Frecuencias cualquiera, denominamos Momentos Absolutos de orden s de esa distribucin, al operador matemtico resultante de la expresin:

    =

    =

    n

    ifisxi

    Nms

    1*^

    1

    en donde s es una potencia cualquiera que define el orden del momento. As, tendremos entonces que el Momento Absoluto de primer Orden ser:

    =

    ==

    n

    ixfixi

    Nms

    1*

    1

  • Podemos definir a la Media Aritmtica de una distribucin como su momento absoluto de primer orden. Tambin resulta sencillo verificar que el momento absoluto de orden cero de cualquier distribucin es igual a la unidad.

    1*0^101

    == =

    n

    ifixi

    Nm

    y con la misma lgica, podemos construir los momentos absolutos de tercer, cuarto o el orden que se desee.

    33. Momentos reducidos

    Dada una distribucin de frecuencias cualquiera, denominamos momento reducido de orden s y origen c de esa distribucin, al operador matemtico resultante de la expresin:

    =

    =

    n

    ifiscxi

    Nrs

    1*)^(1

    en donde s es una potencia cualquiera que define el orden del momento y, c es una constante adoptada como origen de trabajo.

    34. Momentos Centrados

    Si en particular hacemos xc = aparecen los denominados momentos centrados. Dada una distribucin de frecuencias cualquiera, denominamos momento centrado de orden s de esa distribucin, al operador matemtico resultante de la expresin:

    fisxxiN

    sn

    i*)^(1

    1

    =

    =

    Como puede observarse, los momentos absolutos y los centrados son casos particulares referidos a un concepto ms general que es el de momento reducido. Un momento absoluto es un momento reducido para el que el origen es igual a cero y un momento centrado, es un caso particular de momento reducido en el que xc = .

    Analicemos ahora los principales momentos centrados:

    El momento centrado de orden cero es igual a la unidad, para cualquier distribucin de la cual se trate.

    1*0)^(11

    == =

    fixxiN

    on

    i

    El momento centrado de primer orden es igual a cero, para cualquier distribucin de la cual se trate.

  • 0*1)^(111

    == =

    fixxiN

    n

    i