Apuntes de Estadistica 1- Descriptiva

76
@ Abanto Canto Estadística Descriptiva Rodolfo Abanto C. Universidad Adolfo Ibáñez

description

Conceptos iniciales para la estadística descriptiva

Transcript of Apuntes de Estadistica 1- Descriptiva

  • @ Abanto Canto

    Estadstica Descriptiva

    Rodolfo Abanto C.

    Universidad Adolfo Ibez

  • @ Abanto Canto

    I. Introduccin, Tablas y Grficos

    1. Introduccin.

    No podemos concebir la idea de un ingeniero trabajando sin datos. En finanzas, en la

    industria, en economa y en muchos otros campos de la realidad la presencia de

    conjuntos de datos es frecuente, de all la necesidad de conocer los fundamentos

    probabilsticos y mtodos estadsticos que permitan el adecuado anlisis de datos y que

    estos en consecuencia permitan deducir conclusiones para resolver problemas o generar

    oportunidades.

    La ciencia estadstica dispone de herramientas de recoleccin, de presentacin y

    organizacin de datos y de anlisis. Problemas y oportunidades como mencionamos

    antes estn presentes en el quehacer diario de un ingeniero civil, predecir o explicar las

    ventas de un negocio, predecir la temperatura de un da en particular, comparar el

    tratamiento de dos qumicos, segmentar clientes, modelar el mercado financiero son por

    nombrar algunos ejemplos de problemas muy frecuentes.

    2. Estadstica Descriptiva.

    Los datos pueden ser generados automticamente por registros contables, industriales,

    reportes, revistas, diarios, etc. Pero tambin se pueden generar mediante encuestas

    diseadas especialmente en cada estudio en particular. Los estudios estadsticos pueden

    referirse a toda la poblacin y en este caso estaremos en presencia de un censo. Por otro

    lado, son muy frecuentes los estudios mustrales, en agronoma, finanzas, marketing e

    industrias en general. Trabajar con una muestra de datos y no con toda la poblacin

    hace la investigacin ms rentable en trminos econmicos y de tiempo; pero tambin

    es razonable considerar que las muestras deben ser representativas, si no los resultados

    seran incongruentes con la realidad respecto a las decisiones y en vez de solucionar un

    problema, podra ocasionar problemas ms grandes. La ciencia estadstica recomienda

    seleccionar aleatoriamente para obtener muestras representativas.

    Por ltimo, recolectados los datos, el siguiente paso es resumir y describirlos, esto se

    puede hacer usando las metodologas disponibles en la Estadstica descriptiva. Estos

    procedimientos tienen los mismos objetivos en esencia, pero es importante considerar

    la metodologa si estamos en frente de una poblacin o de una muestra.

    Por ejemplo en un estudio poblacional la media se calcula:

    Y en una muestra

  • @ Abanto Canto

    Muchos diran que es lo mismo, pues no, hay una diferencia de tamao ( ) son dos

    elementos muy diferentes en la ciencia estadstica, tambin y son dos medidas muy

    diferentes, primero es una medida de la poblacin cuyo valor es nico (parmetro) a

    diferencia de que es una medida de la muestra y cuyo valor (estimacin) depende de

    la muestra que se tome (estimador).

    Y as hay muchas otras diferencias respecto a la metodologa, propia si es que se est en

    presencia de una poblacin o de una muestra de datos.

    3. Poblacin y Muestra

    El desarrollo de los procedimientos estadsticos en una poblacin es diferente al

    desarrollo metodolgico en una muestra. Planteado un problema de investigacin es

    importante definir claramente la poblacin de estudio en trminos de los objetivos, pues

    las conclusiones que se obtengan sern de inters slo para la poblacin definida, por

    otro lado, las poblaciones deben quedar claramente definidas es espacio y tiempo. Los

    comportamientos poblacionales no son estables, ms an, si el estudio es de corte

    trasversal, se debe definir claramente el momento en que fueron recolectados los datos.

    La poblacin se define como la totalidad de elementos en estudio. Una muestra, es un

    conjunto representativo y adecuado de la poblacin. Las tcnicas de muestreo buscan o

    se desarrollan en base a estos dos criterios.

    4. Variables

    Son caractersticas asociadas a los elementos de una poblacin de estudio. Esta

    caracterstica debe ser medida de acuerdo a los objetivos del estudio.

    Es una caracterstica asociada a un elemento que compone la poblacin, esta no es cualquier

    caracterstica como por ejemplo el nmero de Rut, que implica no ms que una identidad a

    cierta persona, no servira de nada por ejemplo obtener el promedio de nmeros de Rut o

    quizs graficar.

    Por lo tanto, las variables son caractersticas asociadas directamente a individuos, objetos, o

    empresas de las que se puede deducir conclusiones estadsticamente tiles en la toma de

    decisiones.

    Las variables se pueden clasificar de la siguiente forma:

    A. Variables Cuantitativas: Son aquellas caractersticas cuya naturaleza de su resultado o respuesta se puede expresar por una cantidad o nmero. Dentro de estas variables se pueden

    deducir dos:

  • @ Abanto Canto

    A.1 Variables Cuantitativas Continuas: Su resultado se expresa con un nmero real, ejemplo:

    utilidad, tasas de inters, ingresos, nivel de compra, etc.

    A.2 Variables Cuantitativas Discretas: Su resultado se expresa por un nmero entero,

    ejemplo: numero de integrantes de una familia, nmero de empleos en los dos ltimos aos

    de una empresa, nmero de acciones transadas en un da, etc.

    B. Variables Cualitativas: Son aquellas Caractersticas cuya naturaleza de su resultado se expresan por un atributo o cualidad, como ejemplo: sexo, calidad de un producto, tipo de

    empresa, tipo de cliente, nivel de instruccin, etc.

    EJEMPLO:

    El gerente de la Empresa ORA s.a, preocupado por el rendimiento de sus empleados (120

    empleados conforman la empresa), decide investigar algunas variables socio - econmicas,

    para lo cual, solicita informacin al jefe del Departamento de Personal. Entregando este,

    los siguientes datos:

    N Ingreso Estado

    Civil

    N de hijos Edad

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    300

    200

    150

    230

    250

    450

    230

    560

    238

    240

    270

    450

    360

    440

    Casado

    Casado

    Soltero

    Casado

    Casado

    Soltero

    Soltero

    Soltero

    Soltero

    Soltero

    Soltero

    Casado

    Casado

    Soltero

    1

    0

    1

    1

    2

    3

    2

    1

    1

    4

    4

    1

    1

    0

    28

    22

    33

    36

    45

    45

    46

    48

    48

    56

    25

    45

    46

    26

  • @ Abanto Canto

    15

    16

    17

    18

    19

    20

    330

    330

    223

    236

    200

    269

    Casado

    Casado

    Soltero

    Casado

    Soltero

    Casado

    2

    1

    0

    3

    4

    2

    47

    39

    26

    30

    32

    45

    Comentario:

    Como se observa en la tabla, el jefe del departamento de personal slo entreg la

    informacin correspondiente a 20 funcionarios, de los 120 que constituye la empresa. Por lo

    que esta base de datos correspondera a una muestra; Ya que es un subconjunto de la

    poblacin (totalidad de funcionarios de la empresa). No esta preciso si la muestra es

    representativa y adecuada.

    Esta claro que el tamao de la poblacin es N = 120 y el tamao de la muestra es n = 20.

    Por otro lado, se estn reportando 4 variables de las cuales, dos son de tipo continua (edad e

    ingreso), una cualitativa (estado civil), y una discreta (nmero de hijos). Cabe destacar, que

    es cierto que la variable edad e ingreso estn anotadas en forma discreta (representadas por

    un nmero entero); pero la naturaleza es continua, es decir, una persona puede decir que

    tiene ingreso de 340,24 mil pesos (existe); sin embargo nadie puede asegurar que tiene 1,4

    hijos; sino que tiene 1 2 hijos, que es la naturaleza de una variable discreta.

  • @ Abanto Canto

    2. PRESENTACION DE DATOS: DISTRIBUCIONES DE FRECUENCIA

    Como veremos en esta unidad, los datos se pueden presentar en tablas que llamaremos

    distribuciones de frecuencia y/o en grficos. La forma de la distribucin de frecuencia y

    el tipo de grfico, depender del tipo de variable a la que se este enfrentado.

    2.1 DISTRIBUCIONES DE FRECUENCIA: Son tablas estadsticas especialmente diseadas

    para la presentacin de datos (valores de la variable) y sus respectivas frecuencias de

    ocurrencia, de tipo absoluto y relativo (%). En las distribuciones de frecuencia para variable

    continua, cada clase estar determinada por intervalos continuos, en las variables discretas

    la clase estar determinada por el resultado de la variable, es decir, por un nmero entero, y

    en las distribuciones de frecuencia para variable cualitativa las clases quedarn

    determinadas por el atributo o cualidad del resultado de la variable.

    Las tres tablas que se presentan, son distribuciones de frecuencia de una variable continua

    discreta y cualitativa:

    Tabla N 1 : Distribucin de frecuencia de las Utilidades mensuales, en millones de

    pesos, de PYME de la regin metropolitana, Diciembre-2001

    Utilidades

    (millones pesos) in im iN iM iX

    20-30

    30-40

    40-50

    50-60

    60-70

    70-80

    10

    20

    22

    15

    8

    5

    0,125

    0,250

    0,275

    0,188

    0,100

    0,062

    10

    30

    52

    67

    75

    80

    0,125

    0,375

    0,650

    0,838

    0,938

    1,000

    25

    35

    45

    55

    65

    75

    Total 80 1.000

    Fuente: Asociacin de PYME.

    Tabla N 2 : Distribucin de frecuencia del nmero de variedad de produccin, de

    PYME de la regin metropolitana, Diciembre de-2001.

  • @ Abanto Canto

    Variedad de

    Produccin in im iN iM

    1

    2

    3

    4

    5

    20

    30

    10

    10

    10

    0,250

    0,375

    0,125

    0,125

    0,125

    20

    50

    60

    70

    80

    0,250

    0,625

    0,750

    0,875

    1,000

    Total 80

    Fuente: Asociacin de PYME

    Tabla N 3 : Distribucin de frecuencia del rubro, de PYME de la regin metropolitana,

    Diciembre de-2001

    Rubro in im

    Agricultura

    Manufactura

    Servicios

    Otros

    30

    10

    20

    20

    0,375

    0,125

    0,250

    0,250

    total 80 1,000

    Fuente: Asociacin de PYME

    La tabla nmero 1, corresponde al diseo de una distribucin de frecuencia para una

    variable de tipo continua. La primera columna muestra los valores de la variable (utilidad

    en millones de pesos) a travs de intervalos continuos, los que se denominan intervalos de

    clase o simplemente clases, estos intervalos son cerrados por la izquierda (lmite inferior) y

    abiertos por la derecha (lmite superior).

    La segunda, tercera, cuarta y quinta columna muestran las frecuencias. Estas se definen de

    la forma:

    1. Frecuencia absoluta simple ( in ) : Define el nmero de datos con valores en la clase

    correspondiente.

    2. Frecuencia relativa simple ( im ): Define la proporcin de datos, correspondiente a la

    frecuencia absoluta simple ( in ) respecto al tamao de la muestra (n ), y esta se calcula

    por:

    n

    ni

    La interpretacin de esta frecuencia se hace en porcentaje.

    3. Frecuencia absoluta acumulada ( iN ) : Acumula la frecuencia absoluta simple

    respecto a los valores de la variable (de menor a mayor).

  • @ Abanto Canto

    4. Frecuencia relativa acumulada ( iM ) : Acumula la frecuencia relativa simple,

    respecto a los valores de la variable (de menor a mayor).

    Y la ltima columna de esta distribucin de frecuencia, define la marca de clase ( iX ), que

    es el punto medio del intervalo de clase y que nos servir en los siguientes captulos para

    calcular algunas medidas estadsticas descriptivas, se calcula por:

    2

    infsup limlimX i

    donde:

    suplim , es lmite superior de la clase y inflim , es el lmite inferior de la clase.

    Para interpretar una distribucin de frecuencia se debe tener en cuenta las frecuencias ms

    relevantes, como son las frecuencias ms grande y pequea o alguna que sea importante

    para el estudio, ejemplo:

    En la tabla nmero 1, en referencia a la distribucin de frecuencia para una variable de tipo

    continua, la frecuencia absoluta ms grande es la que corresponde a la tercera clase, en

    relacin tambin a la frecuencia relativa simple, 3n = 22 y 3m =0,275, siendo su

    interpretacin : La clase con mayor nmero (22) de PYME es la de 40 a 50 millones de pesos y corresponden al 27,5% de las empresas en estudio.

    Las frecuencias acumuladas, por ejemplo de la cuarta clase: 4N = 67 y 4M = 0,838, se

    interpretan de la forma: 55 PYME tienen utilidades entre 20 y 60 millones de pesos y es equivalente al 83,8% de las empresas en estudio.

    En la tabla nmero 2, se muestra el diseo de una distribucin de frecuencia para una

    variable discreta. Las clases aqu como se ve en la primera columna quedan definidas por el

    resultado de la variable. Las frecuencias se definen, calculan e interpretan de igual forma

    que para la distribucin de frecuencia de una variable de tipo continua, por ejemplo:

    La frecuencia absoluta y relativa simple de la segunda clase son: 302 n y 375,02 m ,

    que se interpreta: 30 PYME tienen 2 variedades en su produccin y equivalen al 37,5% de las empresas en estudio, adems corresponde a la clase con mayor nmero de empresas. La

    frecuencia absoluta y relativa acumulada de la tercera clase son: 3N = 60 y 3M = 0,75, que

    se interpretan: 60 PYME tienen en su produccin 1, 2 3 variedades (o se puede expresar tambin entre 1 y 3) y que equivalen al 75% de las empresas en estudio.

    En la tabla nmero 3, se muestra el diseo de una distribucin de frecuencia para una

    variable cualitativa. Como se observa, las clases para este tipo de variable quedan definidas

    tambin por el resultado de la variable. Las frecuencias se definen, calculan e interpretan de

    la misma forma que en los casos de variable continua y discreta. Adems es importante

    decir, que las frecuencias acumuladas para este tipo de variable no siempre se calculan

  • @ Abanto Canto

    puesto que las interpretaciones no tendran sentido hacerlas, si las clases no estuvieran

    ordenadas, como es en este caso.

    Finalmente, si se observa la presentacin de las tres tablas, cada presentacin tiene tres

    partes: un encabezamiento, la tabla propiamente dicha y una fuente. Estas partes siempre

    es importante que aparezcan en toda presentacin de una tabla de distribucin de frecuencia

    o de un grfico debido a su formalidad. El encabezamiento debe construirse de acuerdo a la

    variable que se este estudiando y ubicarla en espacio y tiempo (utilidad, PYME y diciembre

    del 2001) y la fuente indica de donde fueron tomados los datos.

    2.2 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA UNA

    VARIABLE CONTINUA.

    Para construir una distribucin de frecuencia para una variable continua, se debe empezar

    calculando los intervalos de clase siguiendo los siguientes pasos:

    1. Obtener el valor mximo y mnimo de los datos de la muestra en estudio.

    2. Obtener el rango ( valminvalmaxR ), que es la diferencia entre el valor mximo y mnimo, segn se observa en la frmula.

    3. Obtener la amplitud ( c ), que es el cuociente entre el rango y el nmero de intervalos:

    #

    Rc , donde # es el nmero de intervalos.

    El nmero de intervalos a usar en la distribucin de frecuencia, depender de la cantidad de

    datos, se recomienda usar como mnimo 5 intervalos y cuando el nmero de datos es

    alrededor de 50, 6 alrededor de 60 datos, 7 alrededor de 70 datos y as sucesivamente, y de

    la dispersin o variacin de la informacin. En general, el nmero de intervalos depender

    mucho de la experiencia del investigador. Hay frmulas que ayudan a un principiante

    definir el nmero de intervalos, como por ejemplo la siguiente:

    nlog33,11#

    donde: #, es nmero de intervalos a encontrar y n es el tamao de la muestra o nmero de datos disponibles.

    Por ltimo, la amplitud quedar aproximada al nmero de decimales que tengan los

    datos

    4. Encontrar el rango nuevo ( # cR ), que es el producto la amplitud encontrada en el paso 3 y el nmero de intervalos.

    5. Encontrar la cantidad del rango sobrante ( RRs ), que es la diferencia entre el rango nuevo y el rango antiguo.

    6. Repartir la cantidad sobrante del paso 5 en dos partes, una para restar al valor mnimo y la otra para sumar al valor mximo. Esto se hace con el fin de distribuir la cantidad

    sobrante en dos partes iguales (ampliar el rango por el lado izquierdo y derecho en la

    misma cantidad); pero no siempre pasa eso, cuando por ejemplo la cantidad a repartir es

  • @ Abanto Canto

    un nmero impar, entonces lo que se hace es distribuir aproximadamente igual, por

    ejemplo:

    Reparticin igual: 21

    1 0,4

    2,0

    2,0

    Reparticin aproximadamente igual. 31

    2 0,05

    02.0

    03.0

    En el caso de que la reparticin sea aproximadamente igual, la cantidad que se resta al

    valor mnimo es la mayor y la que se suma al valor mximo es la menor.

    7. Obtenida la diferencia entre valor mnimo y la cantidad sobrante repartida, este cantidad ser el valor mnimo en la distribucin de frecuencia, especficamente el lmite inferior

    de la primera clase. Luego para encontrar el lmite superior de esta primera clase, se

    suma al lmite inferior la amplitud encontrada en el paso 3, este limite sera tambin el

    lmite inferior de la siguiente clase, entonces lo que hacemos es lo mismo, sumamos la

    amplitud para encontrar el otro lmite y as sucesivamente hasta llegar al valor mximo

    encontrado en el paso anterior (valor mximo ms la cantidad repartida sobrante

    menor).

    Calculados los intervalos de clase, lo que hacemos a continuacin es contar el nmero de

    datos que cae en cada clase. Este conteo producir la frecuencia absoluta simple, siguiente

    paso ser calcular la frecuencia relativa simple, que como se haba definido, es el cuociente

    entre la respectiva frecuencia absoluta simple y el tamao de la muestra, por ltimo se

    calcula las frecuencias acumuladas y las marcas de clases tambin definidas.

    Ejemplo sobre la construccin de una distribucin de frecuencia para datos de variable

    continua:

    Los siguiente son depsitos, en miles de pesos, de una muestra aleatoria de clientes que

    llegaron a depositar en sus cuentas de ahorro el da 24 de junio del 2002, Banco X.

    32,2 56,2 45,5 39,8 47,7 69,8 85,5

    33,5 65,4 36,8 58,5, 50,8 64,8 59,5

    78,3 29,4 29,7 39,5 58,4 45,8 55,8

    45,2 28,4 52,5 53,4 49,5 39,5 26,7

    38,3 48,4 29,5 32,5 78,8 70,7 72,5

    45,5 38,7 63,5 68,4 60,8 58,8 48,2

    El tamao de muestra es de 42 clientes, donde cada dato corresponde al valor del depsito

    del cliente es estudio.

    Primer paso : valor mximo = 85,5 valor mnimo = 26,7

    Segundo paso : 7,265,85R 58,8

  • @ Abanto Canto

    Tercer paso: 8,1176,115

    8,58c

    Aqu aproximamos a 11,8 (a dcimas) porque los datos aparecen con dcimas (es decir un

    dgito despus de la coma decimal).

    Cuarto paso : 5958,11 R

    Quinto paso: 2,08,5859 s

    Sexto paso: reparto: 1,0

    1,02,0 Entonces: 6,261,0 Valmin y

    6,851,0 Valmax

    Sptimo paso: construimos los intervalos, siendo el lmite inferior de la primera clase

    26,6 y despus se suma la amplitud para encontrar los siguientes limites hasta llegar al

    ltimo valor que es 85,6.

    26,6 + c = 26,6 +11,8 = 38,4 38,4 +11,8 = 50,2

    50,2 +11,8 = 62,0

    62,0 +11,8 = 73,8

    73,8 +11,8 = 85,6

    Produciendo los siguientes intervalos y procediendo hacer el conteo:

    Depsitos

    (miles pesos)

    Conteo

    [26,6-38,4)

    [38,4-50,2)

    [50,2-62,0)

    [62,0-73,8)

    [73,8-85,6]

    | | | | | | | | | |

    | | | | | | | | | | | |

    | | | | | | | | | |

    | | | | | | | |

    | | |

    Total 42

    Del conteo se produce las frecuencias absolutas simples y se calculan las dems

    frecuencias; As como sus respectivas marcas de clase. Es importante en esta parte recordar

    que los intervalos considerados son abiertos por la derecha y cerrados por la izquierda, esto

    quiere decir, por ejemplo que en la clase tres el dato con valor 62 no lo toma pues en el

    lmite superior (62) es abierto y lo toma en la siguiente clase, es decir, le corresponde a la

    cuarta clase:

  • @ Abanto Canto

    Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,

    del Banco X, 24 de junio del 2002.

    Depsitos

    (miles pesos) in im iN iM iX

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    0,24

    0,28

    0,24

    0,17

    0,07

    10

    22

    32

    39

    42

    0.21

    0,52

    0,76

    0,93

    1,00

    32,5

    44,3

    56,1

    67,9

    79,7

    Total 42 1,00

    Fuente: Departamento de asuntos comerciales del Banco X

    Como se puede ver, la construccin de una distribucin de frecuencia para variable

    continua, como la que acabamos de desarrollar, puede ser implementada en excel, usando

    las diferentes herramientas que dispone esta.

    1.3 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA VARIABLE DISCRETA.

    La construccin de una distribucin de frecuencia para variable discreta, es mucho ms

    sencilla que para una variable continua, aqu las clases quedarn definidas por los posibles

    resultados de la variable, procediendo despus al conteo y a los clculos de las respectivas

    frecuencias simples y acumuladas.

    Ejemplo de la construccin de una distribucin de frecuencia para una variable discreta:

    Los datos siguientes, muestra el nmero de empleos de los clientes, en los dos ltimos aos,

    recogidos segn el ejemplo anterior, el 24 de junio del 2002, Banco X.

    1 2 3 1 1 1 1 2 2 4 2 2 1 2 3 1 4 2 1 2 1

    2 2 2 1 1 1 2 0 1 0 0 2 0 1 0 1 1 3 1 2 3

    Como se ve los posibles resultados son 0, 1, 2, 3, 4 empleos que tuvieron los clientes en los

    dos ltimos aos. Visto esto, entonces procedemos a realizar el conteo:

    Posibles

    resultados de

    la variable

    Conteo

    0

    1

    2

    3

    4

    | | | | |

    | | | | | | | | | | | | | | | | |

    | | | | | | | | | | | | | |

    | | | |

    | |

    Total 42

    Listo el conteo, calculamos ahora las respectivas frecuencias:

  • @ Abanto Canto

    Tabla N 5: Distribucin de frecuencia, del nmero de empleos en los dos ltimos

    de un grupo de clientes del Banco X, 24 de junio del 2002

    N de empleos,

    2 ltimos aos

    iX

    in im iN iM

    0

    1

    2

    3

    4

    5

    17

    14

    4

    2

    0,12

    0,40

    0,33

    0,10

    0,05

    5

    22

    36

    40

    42

    0,12

    0,52

    0,85

    0,95

    1,00

    Total 42 1,00

    Fuente: Departamento de asuntos comerciales, Banco X

    La primera columna muestra los grupos o clases, definidas por los posibles resultados del

    variable en estudio. Las siguientes columnas corresponden a las frecuencias. Cabe resaltar

    que la columna correspondiente a los grupos, es decir los posibles resultados sern tratados

    en los siguientes captulos como las marcas de clases son para la variables continuas.

    1.4 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA VARIABLE CUALITATIVA.

    Igual como en la construccin de una distribucin de frecuencia para variable discreta, la

    construccin de una distribucin de frecuencia para variable cualitativa es muy sencilla.

    Primero, entonces observamos los posibles resultados de la variables, produciendo esto las

    frecuencias absolutas simple y luego calcular las frecuencias relativa y acumuladas. Los

    posibles resultados conformaran las clases o grupos, como son los intervalos de clase para

    la distribucin de frecuencia de una variable continua

    Ejemplo de construccin de una distribucin de frecuencia para variable discreta:

    Sobre los mismos clientes, tratados en los ejemplos de construccin de una distribucin de

    frecuencia, para variable continua y discreta, tambin se observ la variable: Nivel de

    instruccin (Bsico = B, Medio = M, Superior = S).

    B B M B B B B B M M M M B M S S S S S M M

    B B B M M S M B M S M B M S S M M M S S S

    Observamos que los posibles resultados de la variable son: B, M y S y sern los que

    conformaran los grupos o clases, para realizar el conteo, as:

  • @ Abanto Canto

    Nivel de

    Instruccin

    Conteo

    Bsico

    Medio

    Superior

    | | | | | | | | | | | | |

    | | | | | | | | | | | | | | | | |

    | | | | | | | | | | | |

    Total 42

    El conteo, como ya lo hicimos en casos anteriores producir la frecuencia absoluta simple,

    calculndose despus las frecuencia relativa.

    Observando en las indicaciones dadas para la presentacin de una distribucin de

    frecuencia de una variable cualitativa, las frecuencias acumuladas no se determinan.

    Las frecuencias acumuladas no tienen valor calcularlas puesto que no tendran sentido sus

    interpretaciones. Pasa esto en variables cualitativas; pero las variables cualitativas pueden

    clasificarse tambin en ordinales y nominales, siendo las variables cualitativas ordinales

    aquellas en la que los atributos estn ordenas en algn sentido y las nominales no estn

    ordenadas. El nivel de instruccin es una variable ordinal, desde que un nivel de instruccin

    bsico tiene menor grado que uno de nivel medio y estos adems menor grado que uno de

    nivel superior. Desde este punto de vista entonces, en la distribucin de frecuencia para la

    variable nivel de instruccin se podran calcular las frecuencias acumuladas, puesto que sus

    interpretaciones respectivas se podran interpretar tambin.

    Quedando, la presentacin de la siguiente forma:

    Tabla N 6: Distribucin de frecuencia del nivel de instruccin de un grupo

    de clientes del Banco X, junio del 2002.

    Nivel de

    Instruccin in im iN iM

    Bsico

    Medio

    Superior

    13

    17

    12

    0,31

    0,40

    0,29

    13

    30

    42

    0,31

    0,71

    1,00

    Total 42 1,00

    Fuente: Departamento de Asuntos comerciales, Banco X

    2. PRESENTACION DE DATOS: REPRESENTACION GRAFICA.

    3.1 GRAFICOS PARA VARIABLE CONTINUA.

    1. Polgono de Frecuencias: Este grfico se construye dentro de dos ejes, uno el eje horizontal y en el que se anota los valores de la variable, representados por los

    intervalos de clase y en el otro eje, vertical, se anota la escala respecto de los resultados

    obtenidos en las frecuencias.

    Para mostrar el ejemplo, usaremos los resultados obtenidos en la tabla N 4:

  • @ Abanto Canto

    Grfico N 1: Polgono de frecuencias de los depsitos de los clientes del

    banco X, 24 de junio del 2002.

    Fuente: Departamento de Asuntos Comerciales, Banco X

    El polgono, si observamos esta construido respecto a la frecuencia absoluta simple ( in

    ). Tambin recordamos la presentacin que tiene las siguientes partes: Encabezamiento,

    tabla propiamente dicha y la fuente.

    2. Histograma de Frecuencia: Como en el polgono de frecuencias, el histograma est construido en dos ejes, el eje horizontal representando las clases de los valores de la

    variable y el eje vertical representa los valores de la frecuencia respectiva, a graficar. El

    histograma usa rectngulos continuos para representar la distribucin de los datos a

    diferencia del polgono que usa lneas.

    Usaremos los mismos datos usados para la construccin del polgono:

    Tabla N 2: Histograma de Frecuencia de lo Depsito de un grupo de clientes

    del Banco X, 24 de junio del 2002.

    Fuente: Departamento de Asuntos Comerciales, Banco X.

    0

    2

    4

    6

    8

    10

    12

    14

    14,8 26,6 38,4 50,2 62 73,8 85,6

    ni

    depsitos

    Poligono de Frecuencias

    0

    2

    4

    6

    8

    10

    12

    14

    ni

    Histograma de Frecuencias

    26,6-38,4 38,4-50,2 50,2-62 62-73,8 73,8-85,6

  • @ Abanto Canto

    Cuando se hace la presentacin de los datos a travs de un grfico, el resultado de

    este puede variar, de acuerdo a su asimetra como se muestra en las siguientes

    figuras. Esta entonces pueden ser: Asimtrica positiva, asimtrica negativa o una

    distribucin simtrica.

    Segn el resultado de la asimetra, se podra interpretar la informacin que entrega

    los datos. Por lo tanto, el resultado de la forma de la asimetra, proporciona una

    pauta para interpretar los datos.

    Nos fijamos en el eje horizontal, que representa los valores de la variable, los

    valores ms bajos estaran cerca al origen y los ms altos lejos del origen o hacia el

    lado derecho del eje. Por otro lado, la altura del polgono o del histograma indica la

    cantidad de datos distribuidos en ese intervalo, es decir ms altura indicara que hay

    mayor cantidad de datos, que en una parte del grfico donde la altura es menor.

    Juntando estas dos indicaciones se interpretar un grfico, ya sea un polgono o un

    histograma de frecuencia.

    A continuacin daremos un alcance de la interpretacin de un histograma segn

    su asimetra, considerando como resultados los grficos correspondientes y no

    otro. Hago este alcance pues puede haber otras variaciones.

    La mayor altura en esta distribucin asimtrica (positiva), se encuentra en valores

    cercanos al origen, lo que muestra, en forma general, que gran parte de los datos

    tienen valores bajos. Si por ejemplo, se estuviera analizando los ingresos de las

    familias de cierta comuna, esta distribucin podra corresponder o ser el resultado

    de una comuna de bajos recursos.

    fre

    cu

    en

    cia

    x

    Asimetria Positiva

  • @ Abanto Canto

    En este tipo de asimetra (negativa), la mayor cantidad de datos como se observa,

    tienen valores altos; puesto que la mayor altura, est a la derecha de la menor altura

    del grfico. Si suponemos como en el caso anterior, un anlisis de los ingresos de

    las familias de cierta comuna, esta distribucin sera el resultado de una comuna

    con altos recursos.

    Por ltimo, esta forma de distribucin corresponde a la de una distribucin

    simtrica. La caracterstica principal, es que esta distribucin tiene como centro el

    promedio, equivalente a la moda y mediana, y que si se parte por la mitad quedar

    el 50% de los datos al lado izquierdo de la media y el otro 50% a lado derecho.

    3.2 GRAFICOS PARA VARIABLES CUALITATIVAS.

    1. Diagrama de Barras: Se dibujan dos ejes, el eje horizontal, que representa a los resultados de la variable y el eje vertical que representa a los valores de la frecuencia

    respectiva, a graficar; dependiendo la escala de este eje, del valor mnimo y mximo de

    las frecuencias. Dentro de los ejes se dibujan rectngulos o barras proporcionales a las

    frecuencias ubicada en el eje vertical, con respecto a los resultados de la variable (eje

    horizontal).

    Cabe denotar aqu que los rectngulos, se parecen a los de un histograma, la diferencia

    est, en que estos son separados y los de histogramas son rectngulos continuos.

    fi

    X

    Asimetria negativa

  • @ Abanto Canto

    Como ejemplo, usaremos los resultados obtenidos en la tabla N 6.

    Grfico N 3 Diagrama de Barras del Nivel de Instruccin de un grupo de

    clientes del Banco X, 24 de junio del 2002.

    Fuente: Departamento de asunto comerciales, Banco X

    2. Diagrama de sectores circulares: Aqu, se dibuja una circunferencia (360) y esta se divide proporcionalmente a las frecuencias de cada atributo (resultado de la variable) en

    estudio.

    Como ejemplo usaremos los datos tambin de la tabla N 6:

    Grfico N 4: Diagrama de sectores circulares del nivel de instruccin de

    un grupo de clientes del banco X, 24 de junio del 2002

    Fuente: Departamento de asuntos comerciales, Banco X.

    13

    17

    12

    02468

    1012141618

    Bsico Medio Superior

    ni

    N. Instr.

    Diagrama de Barras

    Bsico 31%

    Medio 40%

    Superior 29%

    Sectores circulares

  • @ Abanto Canto

    2.3.1 GRAFICOS PARA VARIABLE DISCRETA.

    Diagrama de Bastones: En este tipo de grfico, tambin se dibujan dos ejes uno horizontal

    donde se anotan los resultados de la variable y en el eje vertical se anotan las frecuencias

    respectivas. Como la variable es de tipo discreta lo que se hace es que en cada resultado de

    la variable (eje horizontal) se dibuja una lnea hasta la altura de la frecuencia respectiva y se

    dibuja un punto en la parte superior (la lnea y el punto forman el bastn).

    Como ejemplo usaremos los resultados obtenidos en la tabla N 5:

    Grfico N 5: Diagrama de Bastones del nmero de empleos en los dos ltimos

    aos de un grupo de clientes del Banco X, 24 de junio, 2002.

    Fuente: departamento de asuntos comerciales, Banco X.

    Como ltima observacin, para esta parte de la presentacin grfica, como dijimos en la

    parte anterior correspondiente a la construccin de distribuciones de frecuencia, estos

    mtodos de presentacin de informacin estadstica, pueden ser implementados en Excel;

    de hecho todos los grficos y tablas presentados en este documento estn desarrollados en

    este software. Destacando tambin la presencia en el medio de muchos paquetes

    estadsticos, los que tambin pueden ser usados. Adems estos disponen, de muchos otros

    mtodos sofisticados para la presentacin grfica, de la informacin.

    Para finalizar esta ltima observacin, quiero resaltar el uso de los colores en la

    presentacin grfica, para indicar algunas clases o intervalos de clase de importancia, en

    cualquier sentido.

    0

    5

    10

    15

    20

    -1 0 1 2 3 4 5

    ni

    # de empleos

    Diagrama de Bastones

  • @ Abanto Canto

    GUIA 1 de ejercicios

    1. Almacenes FRANCIA, dispone de una base de datos de variables relacionadas a sus clientes (antecedentes histricos y personales). Con el objetivo de hacer una descripcin

    estadstica de estas variables en forma rpida y econmica, se tom una muestra

    aleatoria:

    EDAD

    (AOS)

    DEUDA

    VIGENT

    E (U.M)

    N

    INTEGR

    ANTES

    FAMIL.

    ESTAD

    O CIVIL

    N DE

    CREDITO

    S

    SOLICIT

    ADOS

    25

    45

    25

    46

    28

    48

    56

    23

    45

    29

    28

    55

    45

    36

    39

    33

    30

    31

    45

    58

    56

    50

    49

    47

    29

    30

    42

    35

    36

    36

    25

    14

    58

    39

    45

    50

    200,8

    255,4

    369,5

    456,7

    108,6

    125,3

    200,6

    190,3

    236,5

    333,9

    258,5

    147,5

    299,4

    368,5

    449,8

    405,2

    426,8

    436,3

    325,8

    346,7

    486,5

    256,9

    200,6

    563,6

    405,7

    499,5

    456,5

    555,6

    521,3

    169,2

    369,2

    358,5

    248,8

    391,6

    488,8

    256,3

    2

    3

    6

    5

    4

    2

    2

    3

    5

    4

    6

    2

    3

    2

    5

    5

    5

    3

    4

    4

    3

    5

    5

    3

    2

    3

    5

    6

    2

    3

    1

    2

    2

    4

    4

    3

    S

    C

    C

    C

    C

    S

    S

    C

    C

    C

    C

    C

    C

    S

    C

    C

    C

    C

    C

    C

    S

    S

    C

    C

    S

    C

    C

    C

    S

    C

    S

    S

    S

    C

    C

    C

    1

    3

    2

    2

    5

    4

    4

    3

    4

    5

    5

    5

    5

    2

    6

    7

    4

    4

    2

    3

    5

    7

    6

    6

    5

    4

    7

    7

    7

    2

    1

    3

    5

    4

    4

    5

  • @ Abanto Canto

    a. Clasifique cada una de las variables en estudio. b. Construya una distribucin de frecuencia, para cada una de las variables en estudio c. Construya un grfico adecuado para cada una de las variables en estudio. d. Interprete los resultados obtenidos en las preguntas b y c. e. Segn los resultados obtenidos en la distribucin de frecuencia para la edad y la deuda

    vigente:

    Qu porcentaje de la muestra de clientes, tienen edad inferiores a 31 aos

    Que cantidad de la poblacin de clientes, tienen edad superior a 45 aos, si esta es de tamao N= 2.500.000.

    Qu cantidad de la poblacin tienen edades entre 23 y 39 aos, considerando el tamao de poblacin anterior.

    Qu porcentaje, de la muestra de clientes en estudio, tienen deuda vigente inferior a 301,5 u.m

    Que porcentaje, de la muestra de clientes en estudio, tienen deuda vigente entre 198 y 367 u.m.

    2. En cierto Banco, se ha lanzado al mercado un producto de crdito de consumo, los ingresos (miles de pesos) de los clientes que solicitan este producto son dados a

    continuacin:

    350,34 359,35 268,67 198,54 168,89 279,98 156,34 278,56 135,78 169,96 128,93

    135,45 157,84 158,83 187,45 146,87 167,89 200,52 210,67 234,74 145,74 234,74

    200,12 310,32 312,45 300,78 324,78 345,78 289,45 345,34 234,89 275,67 145,73

    333,78 233,23 239,78 289,56 156,56 128,73 344,54 234,45 156,45 125,34 157,77

    Construya una distribucin de frecuencia y su respectivo grfico, para esta informacin. Interprete sus resultados, discuta y concluya.

    Los directivos del Banco, quieren llegar con este producto, a personas con ingresos ms

    altos. Es por esta razn, que se desarrolla una campaa de publicidad, para atraer a

    estos clientes. Los ingresos de los clientes, despus de aplicada la publicidad son dados

    a continuacin:

    256,54 300,78 360,54 320,25 329,56 239,54 199,56 210,45 140,45 152,23 310,12

    139,12 129,12 124,25 256,25 289,23 178,25 342,52 259,36 230,26 158,56 213,21

    200,23 231,21 260,23 165,15 136,25 189,18 195,12 219,56 239,45 289,56 278,45

    300,45 300,12 289,12 238,54 288,88 210,15 321,25 249,23 248,52 369,45 289.99

    Construya una distribucin de frecuencia y su respectivo grfico. Interprete los resultados, discuta y concluya. La publicidad tuvo efecto segn los resultados.

    Segn un estudio realizado en otra institucin bancaria, se lleg a la conclusin de que clientes que solicitan crdito con ingresos inferiores 189,34 mil pesos, son

    clientes con riesgo de no pagar el crdito. Usando la distribucin de frecuencia

    estime el porcentaje de clientes con riesgo de no pagar el crdito, antes y despus

    de aplicada la publicidad.

  • @ Abanto Canto

    Si la poblacin de clientes esta conformada por 1.500.000 personas, usando la estimacin de la pregunta anterior, que cantidad de clientes de la poblacin se

    estima con riesgo de no pagar el crdito.

    Otra institucin de la competencia tambin realiz un estudio y determin que el porcentaje de clientes con riesgo segn su ingreso era del 20%. Cul es el valor del

    ingreso superior de los clientes con riesgo de no pagar?

    3. Antes de comenzar un estudio se decidi que sera de gran ayuda para la realizacin del mismo

    hacer una encuesta, con el objeto de tener informacin muy reciente del mercado.

    Para evaluar el concepto de producto que reciben los potenciales consumidores, y si se

    adecua a sus necesidades, hemos realizado el siguiente test, sobre una muestra de 100 personas

    pertenecientes a todas las zonas del mercado donde lanzamos el producto.

  • @ Abanto Canto

    II. Medidas Descriptivas

    1. MEDIDAS DE TENDENCIA CENTRAL.

    Son medidas estadsticas de descripcin y de resumen que tienen la caracterstica de ser centros

    de gravedad respecto de los datos. La media, mediana y moda son las medidas de tendencia

    central que estudiaremos en esta unidad, cada una tiene su definicin y por lo tanto el

    procedimiento de clculo ser diferente en cada caso, as como tambin su respectiva

    interpretacin. Para mejor entendimiento sobre los clculos de estas medidas, dividimos en dos

    partes los procedimientos, segn los datos enfrentados:

    1.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS

    1. Media o Promedio: Es el valor esperado de la variable, al seleccionar aleatoriamente un dato y se calcula usando la siguiente frmula:

    n

    x

    x

    n

    i

    i 1

    donde:

    x : es el promedio o media.

    ix : valor del dato i-simo.

    n : tamao de la muestra.

    Ejemplo: Se tiene el ingreso mensual de un grupo de clientes de la financiera Z

    200, 300, 250, 300, 280, 300. (datos en miles de pesos)

  • @ Abanto Canto

    Segn la frmula la media ser: 67,2716

    300280300250300200

    x

    Lo que quiere decir que: Si se selecciona al azar un cliente se espera que este cliente tenga

    un ingreso mensual de 271,67 mil pesos.

    2. Mediana: Es el valor de la variable que divide a los datos de la muestra ordenada en dos partes iguales, es decir que cada parte dividida equivale al 50% de la muestra. La frmula que calcula la mediana es:

    )()( 212 nXme

    donde:

    me : es la mediana.

    n : es el tamao de la muestra.

    En el Ejemplo usaremos los datos anteriores: 200, 300, 250, 300, 280, 300.

    El primer paso es ordenar los datos, esta ordenacin puede ser de menor a mayor o de

    mayor a menor. A continuacin ordenamos de menor a mayor:

    200, 250, 280, 300, 300, 300,

    El siguiente paso es calcular el orden que ocupa la mediana en esta ordenacin de la

    mediana:

    )()( 212 nXme )()( 2126 X 5,3X

  • @ Abanto Canto

    El subndice del ltimo resultado indica el orden que ocupa la mediana, queriendo decir

    entonces que la mediana esta entre el dato 3 y 4 (puesto que el subndice es 3,5).

    Siendo el dato tres igual a 280 y el dato cuatro igual a 300. Por lo que la mediana sera el

    promedio de ambos nmeros, es decir:

    pmme .2902

    300280

    interpretndose que: El 50% de los clientes del Banco Z tienen ingresos de 290 mil pesos o

    menos, en consecuencia la otra mitad tienen ingresos superiores a 290 mil pesos.

    Cabe indicar aqu que la mediana fue el resultado del promedio de dos nmeros en razn

    de que el tamao de la muestra es un nmero par (n = 6), esto no debe pasar con el

    tamao de muestra impar en este caso la mediana sera directamente un solo nmero.

    3. Moda. Es el valor de la variable con mayor frecuencia entre los datos de la muestra. Por lo tanto si existe moda, la moda puede ser una, dos, tres, o muchas modas; pero tambin no puede existir. En otra palabras, las muestras pueden ser amodales si no tienen moda, unimodales si tienen una moda, bimodales si tienen dos modas, trimodales si tienen tres modas y as sucesivamente. Aqu por lo tanto, no se puede disponer de una frmula, calculando la moda con

    simple observacin:

    En los datos del ejemplo anterior se observa que el dato con mayor frecuencia es 300,

    es decir, la moda es 300.

    Que se interpreta: es muy frecuente en los clientes del Banco z encontrar un ingreso

    de 300 mil pesos.

  • @ Abanto Canto

    1.2 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS

    En la parte anterior, sobre medidas de tendencia central para datos no agrupados,

    definimos estas medidas, es decir, la media, mediana y moda. Ahora para datos agrupados

    nos centraremos en los procedimiento de clculo puesto que las definiciones sern las

    mismas.

    Empezamos entonces con el promedio o medi

    1. PROMEDIO O MEDIA: La frmula es la siguiente:

    n

    nx

    xi

    a

    i

    i

    1

    donde:

    :x es el promedio

    :ix es la marca de clase i-sima

    in : frecuencia absoluta simple.

    n : tamao de muestra.

    a : nmero de clases o intervalos.

    Ejemplo: Usemos los datos de la tabla N 4 en la unidad I:

  • @ Abanto Canto

    Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,

    del Banco X, 24 de junio del 2002.

    Depsitos

    (miles pesos) in im iN iM iX

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    0,24

    0,28

    0,24

    0,17

    0,07

    10

    22

    32

    39

    42

    0.21

    0,52

    0,76

    0,93

    1,00

    32,5

    44,3

    56,1

    67,9

    79,7

    Total 42 1,00

    Fuente: Departamento de asuntos comerciales del Banco X

    Para calcular el promedio de los depsitos tomamos las frecuencias absolutas simples y las

    marcas de clase, desarrollando otra columna correspondiente al producto de ambas y

    obtenemos la suma, que es la equivalencia a la parte del numerador en la frmula del

    promedio::

    Depsitos

    (miles pesos) in ix ii nx

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    32,5

    44,3

    56,1

    67,9

    79,7

    325,0

    531,6

    561,0

    475,3

    239,1

    Total 42 2132

    Por lo que el promedio sera: n

    nx

    xi

    a

    i

    i

    1

    = 76.5042

    2132 m.p

    La interpretacin es: Si se toma aleatoriamente un cliente, se espera que este deposite 50,76

    mil pesos.

  • @ Abanto Canto

    2. MEDIANA. La frmula para calcular la mediana es:

    k

    k

    ken

    Nn

    cLm1

    inf2

    donde:

    em : es la mediana

    infL : lmite inferior de la clase mediana

    kc : amplitud de la clase mediana.

    n : tamao de la muestra.

    1kN : frecuencia absoluta acumulada, anterior a la clase mediana

    kn : frecuencia absoluta simple de la clase mediana

    Para el ejemplo usaremos los datos correspondiente a la tabla N 4 de la unidad I:

    Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,

    del Banco X, 24 de junio del 2002.

    Depsitos

    (miles pesos) in im iN iM iX

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    0,24

    0,28

    0,24

    0,17

    0,07

    10

    22

    32

    39

    42

    0.21

    0,52

    0,76

    0,93

    1,00

    32,5

    44,3

    56,1

    67,9

    79,7

    Total 42 1,00

    Fuente: Departamento de asuntos comerciales del Banco X

    Para calcular la mediana de los depsitos necesitamos las columnas correspondiente a la

    frecuencia absoluta simple y acumulada. Por tal razn, copiamos lo que necesitamos en

    otra tabla, quedando de la forma:

  • @ Abanto Canto

    Depsitos

    (miles pesos) in iN

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    10

    22*

    32

    39

    42

    Total 42

    Segn estos datos entonces procedemos a hacer el primer clculo que es: 212

    42

    2

    n,

    este ltimo valor calculado se observa en que clase cae en la columna correspondiente a

    las frecuencias absolutas acumuladas. Observando la tabla este valor 21 cae en la segunda

    clase (en la tabla esta marcado con asterisco) lo que indica que el valor de la mediana est

    en esta clase. Procediendo a continuacin a identificar los otros elementos de la frmula,

    es decir:

    4,38inf L ; 8,11kc ; 101 kN y 12kn .

    Sustituyendo estos valores en la frmula quedar:

    k

    k

    ken

    Nn

    cLm1

    inf2 = 22,49

    12

    102

    42

    8,114,38

    m.p.

    Se interpreta: Que la mitad de los clientes del banco Z, depositan 49,22 mil pesos o

    cantidades inferiores, y en consecuencia la otra mitad depositan cantidades superiores a

    49,22 mil pesos.

  • @ Abanto Canto

    3. MODA. La frmula para calcular la moda es la siguiente:

    21

    1inf ko cLm

    donde:

    om : es la moda

    infL : lmite inferior de la clase modal

    kc : amplitud de la clase modal

    11 kk nn

    12 kk nn

    kn : frecuencia absoluta simple ms grande

    1kn : frecuencia absoluta simple anterior a la ms grande.

    1kn : frecuencia absoluta simple siguiente a la ms grande.

    Para el ejemplo del clculo de la moda usaremos otra vez los resultados de la tabla N 4 de

    la unidad I:

    Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,

    del Banco X, 24 de junio del 2002.

    Depsitos

    (miles pesos) in im iN iM iX

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    0,24

    0,28

    0,24

    0,17

    0,07

    10

    22

    32

    39

    42

    0.21

    0,52

    0,76

    0,93

    1,00

    32,5

    44,3

    56,1

    67,9

    79,7

    Total 42 1,00

    Fuente: Departamento de asuntos comerciales del Banco X

  • @ Abanto Canto

    Calcularemos entonces la moda. de los depsitos de los clientes del Banco Z. Para esto

    absorbemos las columnas necesarias:

    Depsitos

    (miles pesos) in

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    Total 42

    Y procedemos como primer paso a identificar la mayor frecuencia absoluta simple, siendo

    esta frecuencia la correspondiente a la clase dos es decir: 122 n . Por lo tanto la moda es

    un valor que esta en la segunda clase, en consecuencia deducimos los otros elementos de

    la frmula:

    4,38inf L ; 8,11kc ; 11 kk nn = 12 10 = 2; 12 kk nn = 12 10 = 2

    Sustituyendo en la frmula, quedar:

    21

    1inf ko cLm 3,44

    22

    28,114,38

    m.p

    Interpretndose: que es muy frecuente que un cliente deposite 44.3 m.p

  • @ Abanto Canto

    1.3 MEDIDAS DE POSICION

    Son medidas estadsticas descriptivas que indican la posicin del valor de la variable segn

    la cantidad de datos acumulados porcentualmente. A continuacin daremos las

    correspondientes definiciones para despus desarrollar los procedimientos de clculo:

    1. Cuantiles o Cuartiles: Son los valores de la variable que dividen a la muestra en cuatro partes iguales, esto quiere decir que entre cuantil y cuantil hay 25% de los datos.

    2. Quintiles: Son los valores de la variable que dividen a la muestra en cinco partes iguales, lo que indica que entre quintil y quintil hay 25% de los datos.

    3. Deciles: Son los valores de la variable que dividen a la muestra en diez partes iguales, en consecuencia entre decil y decil hay 10% de los datos.

    4. Percentiles: Son los valores de la variable que dividen a la muestra en cien partes iguales, esto quiere decir que entre percentil y percentil hay 1% de los datos.

    1.3.1 Calculo de Medidas de Posicin para datos Agrupados.

    Como expresamos anteriormente para datos no agrupados el clculo de cuantiles,

    quintiles, deciles y percentiles se asemejan a la mediana, para datos agrupados

    tambin sucede lo mismo; puesto que las definiciones persisten. Las frmulas

    entonces sern muy parecidas a la frmula de la mediana con una leve

    modificacin dependiendo del caso.

  • @ Abanto Canto

    1. Cuantiles:

    k

    k

    kin

    Nni

    cLQ1

    inf4

    donde:

    iQ : es el cuantil i-simo ( i 1,2,3)

    infL : Lmite inferior de la clase cuantlica

    kc : Amplitud de la clase cuantlica.

    n : Tamao de la muestra.

    1kN : Frecuencia absoluta acumulada, anterior a la clase cuantlica

    kn : Frecuencia absoluta simple de la clase cuantlica.

    2. Quintiles:

    k

    k

    kin

    Nni

    cL1

    inf

    5

    Donde:

    i : es el quintil i-simo ( i 1, 2, 3, 4)

    infL : Lmite inferior de la clase quintlica

    kc : Amplitud de la clase quintlica.

    n : Tamao de la muestra.

    1kN : Frecuencia absoluta acumulada, anterior a la clase quintlica

    kn : Frecuencia absoluta simple de la clase quintlica.

    3. Deciles:

    k

    k

    kin

    Nni

    cLD1

    inf

    10

    Donde:

    iD : es el decil i-simo ( i 1 ,2, 3...9)

    infL : Lmite inferior de la clase declica

  • @ Abanto Canto

    kc : Amplitud de la clase declica.

    n : Tamao de la muestra.

    1kN : Frecuencia absoluta acumulada, anterior a la clase declica

    kn : Frecuencia absoluta simple de la clase declica.

    4. Percentiles:

    k

    k

    kin

    Nni

    cLP1

    inf

    100

    Donde:

    iP : es el percentil i-simo ( i 1, 2, 3...99)

    infL : Lmite inferior de la clase percentlica

    kc : Amplitud de la clase percentlica.

    n : Tamao de la muestra.

    1kN : Frecuencia absoluta acumulada, anterior a la clase percentlica

    kn : Frecuencia absoluta simple de la clase percentlica.

    A continuacin mostraremos ejemplos sobre el clculo de medidas de posicin

    para datos agrupados:

    Recordemos la distribucin de frecuencia sobre la que se desarroll los ejemplos

    de clculo de medidas de tendencia central:

    Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,

    del Banco X, 24 de junio del 2002.

    Depsitos

    (miles pesos) in im iN iM iX

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    0,24

    0,28

    0,24

    0,17

    0,07

    10

    22

    32

    39

    42

    0.21

    0,52

    0,76

    0,93

    1,00

    32,5

    44,3

    56,1

    67,9

    79,7

    Total 42 1,00

    Fuente: Departamento de asuntos comerciales del Banco X

  • @ Abanto Canto

    De esta tabla tomemos las columnas que sirven para el clculo de medidas de

    posicin:

    Depsitos

    (miles pesos) in iN

    26,6-38,4

    38,4-50,2

    50,2-62,0

    62,0-73,8

    73,8-85,6

    10

    12

    10

    7

    3

    10

    22

    32

    39

    42

    Total 42

    Primero veremos como ejemplo el clculo de cuantiles, en particular el cuantil 1:

    Como primer paso como en la mediana, determinamos de la frmula para los

    cuantiles:

    k

    k

    kin

    Nni

    cLQ1

    inf4

    k

    k

    kn

    Nn

    cLQ1

    inf14

    1

    5,104

    421

    4

    ni, este resultado le ubicamos a la altura de la frecuencia absoluta

    acumulada donde le alcanza o pasa, siendo esta la frecuencia absoluta simple de la

    segunda clase, es decir: 222 N (entonces k=2). Esto nos indica que la clase

    donde se encuentra el cuantil 1 es la segunda clase y a partir de este conocimiento

    fijamos los valores de la frmula, por ejemplo: la frecuencia absoluta acumulada

    anterior a la clase cuantlica es: 1011 NNk , la frecuencia absoluta simple de

    la clase cuantlica es: 122 nnk , la amplitud de la clase cuantlica es:

    8,112 cck y por ltimo el lmite inferior de la clase cuantlica es: 4,38inf L .

    Reemplazamos estos valores en la frmula y tenemos:

    k

    k

    kn

    Nn

    cLQ1

    inf14

    1

    pm.89,3812

    105,108,114,38

    Esto quiere decir que el 25% de los clientes del banco X depositan 38,89m.p o

    cantidades inferiores, obviamente el complemento equivalente al 75% depositan

    cantidades superiores a 38,89m.p.

    Ahora veamos el caso del clculo de quintiles, calculemos entonces el quintil 4:

  • @ Abanto Canto

    La frmula para calcular quintiles es la siguiente y nos interesa calcular el quintil 4

    reemplazamos en la i el nmero 4, como sigue:

    k

    k

    kin

    Nni

    cL1

    inf

    5

    k

    k

    kn

    Nn

    cL1

    inf4

    5

    4

    Enseguida calculamos de la frmula la parte correspondiente a:

    6,335

    424

    5

    4

    n, este resultado le ubicamos a la altura de la frecuencia

    absoluta acumulada donde le alcanza o pasa respectivamente, siendo esta la

    frecuencia absoluta simple de la segunda clase, es decir: 394 N (entonces k=4).

    Esto nos indica que la clase donde se encuentra el quintil 4 es la cuarta clase y a

    partir de este conocimiento fijamos los valores de la frmula, por ejemplo: la

    frecuencia absoluta acumulada anterior a la clase quintlica es: 3231 NNk , la

    frecuencia absoluta simple de la clase quintlica es: 74 nnk , la amplitud de la

    clase quintlica es: 8,112 cck y por ltimo el lmite inferior de la clase

    quintlica es: 0,62inf L . Reemplazamos estos valores en la frmula y tenemos:

    k

    k

    kn

    Nn

    cL1

    inf4

    5

    4

    pm.70,647

    326,338,1162

    Esto quiere decir que el 80% de los clientes del banco X depositan 64,70m.p o

    cantidades inferiores, obviamente el complemento equivalente al 20% depositan

    cantidades superiores a 64,70m.p.

  • @ Abanto Canto

    Gua 2 de ejercicios

    1. Los siguientes datos corresponden al rendimiento, medido porcentualmente, de una

    muestra aleatoria de vendedores de seguros.

    Rendimien

    to (%) in

    0-20

    20-40

    40-60

    60-80

    80-100

    5

    15

    50

    60

    40

    total 170

    a. Determine e interprete:

    (a.1) media o promedio. (a.2) mediana (a.3) moda

    (a.4) cuartil 1 (a.5) decil 3 y 9 (a.7) percentil 23 y 77

    b. El jefe del departamento de ventas necesita categorizar a los vendedores segn su rendimiento, pero l nunca tuvo una asignatura de estadstica y le pide a usted que le ayude en esta tarea. La categorizacin se har de la siguiente forma: - El 20% de los vendedores con rendimiento ms bajo, en categora D. - El siguiente 30% en rendimiento, en categora C. - El siguiente 25% en rendimiento, en categora B. - Y el resto en categora A.

    c. Si se contratara a dos vendedores y despus de cierto perodo se establece que sus rendimientos son de 38% y 77%, en qu categoras quedarn clasificados?.

  • @ Abanto Canto

    d. Estos datos (rendimientos de los vendedores) corresponden al primer trimestre del ao 2002; Pero se sabe, por antecedentes que el rendimiento de cada uno de los vendedores aumenta en 5 unidades porcentuales ms, en el segundo trimestre. Cul sera el promedio en el segundo trimestre?

    2. Un contratista de venta e instalacin de sistemas de calefaccin y aire acondicionado debe resolver para el 2 de noviembre la compra de unidades centrales de aire acondicionado para su reventa e instalacin durante el verano siguiente. Con base en la demanda anterior, las condiciones econmicas corrientes y los factores competitivos del mercado, estima que existe una probabilidad de 0,10 de vender 5 unidades, una probabilidad de 0,30 de vender 10 unidades, una probabilidad de 0,40 de vender 15 unidades y una probabilidad de 0,20 de vender 20 unidades. Las unidades de aire acondicionado slo pueden pedirse en grupos de cinco siendo su costo por unidad de 1.000 dlares y su precio de reventa de 1.300. Las unidades no vendidas al trmino de la temporada le son devueltas al fabricante con un crdito neto de 800 dlares. Tras la deduccin del costo de embarque.

    a. Construya una tabla de pagos del nmero de unidades de aire acondicionado por ordenar (pedir).

    b. Tome la decisin de cuantas unidades ordenar, con base en las probabilidades como en las consecuencias econmicas.

    3. En la siguiente tabla se presentan los rendimientos de cinco tipos alternativos de decisiones de inversin para un perodo de un ao y las probabilidades asociadas con la recesin, la estabilidad econmica y la expansin que son 0,30, 0,50, y 0,20, respectivamente. Determine la mejor accin segn el pago esperado.

    Estado

    economa

    Probab Decisin de Inversin

    Cuent

    Ahorro

    Bonos

    Corp

    Acc. Alta

    calid

    Acc. Espec Otras

    Recesin

    Estable

    Expansin

    0,30

    0,50

    0,20

    600

    600

    600

    500

    900

    900

    -2.500

    800

    4.000

    -5000

    400

    10.000

    -10.000

    -5.000

    20.000

  • @ Abanto Canto

    4. Con base en un nuevo mtodo tecnolgico, un fabricante ha desarrollado un televisor a color con cinescopio de 45 pulgadas. El dueo de una pequea tienda estima que los valores de probabilidad asociados con la venta de 2, 3, 4 o 5 televisores durante los tres meses de inters son 0.30, 0.40, 0,20 y 0.20, respectivamente. Adems se sabe que el margen de ganancia de cada televisor vendido es de 200.000 pesos. Si en el curso de los tres meses no se vendiera algunos televisores, la prdida total por aparato para el comerciante sera de 300.000 pesos. Con base en estas consecuencias econmicas y las probabilidades identificadas determine la mejor accin segn el pago esperado.

    5. En la siguiente distribucin de frecuencia se tiene el nmero de autos vendidos de vendedores de una distribuidora de automviles en un mes en particular:

    Nmeros de

    autos vendidos

    Nmero de

    vendedores (

    in )

    2

    4

    10

    12

    14

    15

    5

    6

    10

    10

    8

    4

    Determine e interprete: (a) media (b) mediana (c) mediana

    6. En las siguiente tablas se tiene las D.F de las remuneraciones de los funcionarios en dos empresas diferentes:

  • @ Abanto Canto

    Empresa A Empresa B

    Remunera

    .

    (u.m)

    in Remunera.

    (u.m)

    in

    110-210

    210-310

    310-410

    410-510

    510-610

    610-710

    30

    40

    70

    40

    20

    10

    115-215

    215-315

    315-415

    415-515

    515-615

    615-715

    30

    45

    75

    50

    25

    15

    6.1 Determine e interprete para cada una de las D.F: (a) media (b) mediana (c) moda (d) percentil 60.

    6.2 Si supuestamente las dos empresas le ofrecen trabajo, usando los resultados anteriores, a cul de las empresas aceptara? Fundamente su respuesta.

    6.3 Si se necesitara categorizar a los funcionarios de estas empresas, segn sus remuneraciones, de tal forma que el 25% ms bajo en remuneraciones sea la categora C, el siguiente 50% en remuneraciones en categora B y el resto en categora A. Cules seran los lmites de cada categora?

    6.4 Si usted ingresa a laborar en la empresa A y le ofrecen de remuneracin 305 um. En qu categora clasifica?

    6.5 S usted ingresa a laborar en la empresa B y le ofrecen de remuneracin 585 u.m. En qu categora clasifica?

  • @ Abanto Canto

    6.6 Si en la empresa A se decide aumentar las remuneraciones a cada funcionario en un 6%. Cul sera la nueva remuneracin promedio?

    6.7 Si en la empresa B se decide disminuir las remuneraciones a cada uno de los funcionarios en 10 u.m Cul sera la nueva remuneracin promedio?

    7. Desarrolle las preguntas e de la gua de ejercicios 1, usando las frmulas de medidas de posicin.

    8. En el sector servicios el sueldo promedio es de 200 u.m. Si los varones constituyen el 70% de la poblacin remunerada, es factible que su ingreso promedio mensual sea de 300 u.m.

    9. La media aritmtica entre dos nmeros es 8 y su media geomtrica 2. Calcule la media armnica.

  • @ Abanto Canto

    III.

    Dispersin o Variacin: Es la distancia que hay entre el valor de un dato y el valor de la

    media.

    Ejemplo: Sea la muestra de ingresos de 6 empleados, en unidades monetarias, 56, 60, 52,

    50, 48, 63.

    El promedio es 83,54x dispersin del dato 56

    dispersin del dato 60

    x 54,83

    48 50 52 54 56 58 60 62

    Como se observa en el dibujo anterior, cada dato tiene su respectiva dispersin con

    respecto al promedio. En adelante se analizara la dispersin pero en conjunto mediante

    medidas absolutas o relativas.

    1. Varianza: Es una medida de dispersin absoluta medida en unidades cuadradas de los datos originales. Se define:

    n

    xx

    S

    n

    i

    i

    n

    1

    2

    2

    )(

    Varianza muestral

    1

    )(1

    2

    2

    1

    n

    xx

    S

    n

    i

    i

    n Cuasi varianza

  • @ Abanto Canto

    Siendo deducidas de estas, las frmulas prcticas:

    21

    2

    2 xn

    x

    S

    n

    i

    i

    n

    1

    1

    22

    2

    1

    n

    xnx

    S

    n

    i

    i

    n

    Respectivamente.

    2. Desviacin Estndar: Se define como la raz cuadrada de la varianza. Esta medida de

    variacin se puede interpretar como el promedio de variabilidad de los datos con respecto

    al promedio. Se define:

    2SS

    3. Coeficiente de Variabilidad: Es una medida relativa de la variacin de los datos

    respecto de la media. Si el coeficiente de variacin es menor o igual al 33% los datos

    pueden considerarse como homogneos y si el coeficiente de variacin es mayor al 33%

    heterogneos. Esto ltimo que se anoto es subjetivo y referencial pues otros pueden

    considerar valores diferentes, en todo caso mientras mayor sea el valor porcentual mucho

    ms hetergeneos sern los datos en la muestra. Se define:

    100)( X

    SxCV

  • @ Abanto Canto

    OTRAS MEDIDAS DE VARIABILIDAD IMPORTANTE EN EL ANALISIS DE DATOS

    1. Rango Intercuartlico: Se define como la diferencia entre el cuartil 3 y el cuartil 1. Esta

    medida busca el rango o recorrido del 50% de los datos centrales, que en diferentes

    muestras pueden ser comparados evitando datos ausentes (25% por abajo y 25% por

    arriba) que pueden estar distorsionando la comparacin de la informacin. La frmula es:

    13 QQRIC

    2. Desviacin media: Es una medida de variabilidad de los datos respecto de la media y

    que a diferencia de la varianza usa el valor absoluto de la diferencia (la varianza usa el

    cuadrado de la diferencia). Se define:

    n

    xxXMD

    i )(. Para datos no agrupados

    n

    nxxXMD

    ii )(. Para datos agrupados

    No olvide estimado alumno que la desviacin media y la varianza son medidas de

    variabilidad con respecto a la media (diferencia del valor del dato y la media), la

    discrepancia radica en el uso de la herramienta matemtica (cuadrado en el caso de la

    varianza y el valor absoluto en el caso de la desviacin media) para no perder la suma

    total de las diferencias en el cociente de cada una de las frmulas. La interpretacin

    entonces de la desviacin y la desviacin estndar es la misma.

  • @ Abanto Canto

    3. ndices de asimetra: Los ndices o criterios de asimetra son ciertas funciones que, tras

    aplicar a determinados datos ofrecen algunos de los siguientes resultados:

    0As Indica simetra

    0As Indica asimetra positiva

    0As Indica asimetra negativa

    Entre los ndices de asimetra ms conocidos tenemos:

    3.1 ndice de asimetra de Pearson: S

    MoxAs

    3.2 ndice de asimetra de Fisher:

    3

    3 /)(

    S

    nxxAs

    i Para datos no agrupados

    3

    3 /)(

    S

    nnxxAs

    ii Para datos agrupados

  • @ Abanto Canto

    4. Medidas de Apuntamiento o Curtosis. El grado de dispersin de los datos influye sobre

    la curva. El apuntamiento o curtosis es una ms de las propiedades de una distribucin de

    frecuencias. Se parte de la base de que existen curvas con un grado medio de

    apuntamiento, otras ms apuntadas y otras menos apuntadas.

    Los criterios son los siguientes:

    3Cr La curtosis es media, se habla de Mesocurtica

    3Cr La curtosis es alta, se habla de Leptocurtica

    3Cr La curtosis es baja, se habla de Platicurtica.

    La frmulas son:

    4

    4 /)(

    S

    nxxCr

    i Para datos no agrupados

    4

    4 /)(

    S

    nnxxCr

    ii Para datos agrupados

    Ejercicios para la clase:

    1. Se tiene las notas producto de las evaluaciones de un curso de capacitacin que se

    realiz a un grupo de vendedores de seguros de vida:

  • @ Abanto Canto

    20, 50, 80, 50, 80, 96, 58, 89, 36, 78, 99, 98,

    Calcule e interprete:

    a. Varianza

    b. Desviacin estndar

    c. coeficiente de variabilidad

    d. rango Intercuartlico

    e. ndice asimetra

    f. ndice de curtosis

    g. desviacin media

    2. Las edades de un grupo de jefes de familia del barrio Italia en la comuna de La florida

    son dadas a continuacin.

    Edades in

    20-30 10

    30-40 2

    40-50 10

    50-60 5

  • @ Abanto Canto

    Calcule e interprete:

    a. Varianza

    b. Desviacin estndar

    c. coeficiente de variabilidad

    d. rango Intercuartlico

    e. ndice asimetra

    f. ndice de curtosis

    g. desviacin media

  • @ Abanto Canto

    Otros Grficos Descriptivos.

    Diagrama de tallos y Hojas

    Una forma adecuada de organizar un conjunto de datos de tamao pequeo es graficando

    a travs de tallos y hojas. Estas grficas se obtienen dividiendo cada uno de los datos,

    por ejemplo, en dos partes: tallo y hojas. Si todos los datos son nmeros de dos dgitos,

    podemos tomar como su tallo la parte del nmero correspondiente a las decenas, y como

    su hoja la parte del dgito correspondientes a las unidades.

    El dato 45:

    Tallo: 4 hoja: 5

    Los datos 45 y 47:

    Tallo 4 y Hojas: 5,7

    Veamos el siguiente ejemplo (Edades de clientes):

    45 56 35 26 24 25 56 23 24 39 36 29 36 36 25 36 44 18 36 25 36 25 66 26 35 41 51 62 60

    (SPSS)

    Edad Stem-and-Leaf Plot

    Frequency Stem & Leaf

    1,00 1 . 8

    10,00 2 . 3445555669

    9,00 3 . 556666669

    3,00 4 . 145

    3,00 5 . 166

    3,00 6 . 026

    Stem width: 10,00

    Each leaf: 1 case(s)

  • @ Abanto Canto

    Diagrama de cajas

    Se usa algunos de los estadsticos que resumen una muestra de datos, como por ejemplo:

    mediana, cuartiles, asimetra, etc. Tambin es un detector de datos atpicos o datos

    extremos.

    Donde:

    Banda exterior inferior:

    Banda interior inferior:

    Banda interior superior:

    Banda exterior superior:

    Adems:

    Cuartil 1 Cuartil 3 Me

    BEI

    BII BIS

    BES

    Datos

    Atpicos

    at

    Datos

    Atpicos

    at

    Datos

    Extremos

    at

    Datos

    Extrem

    os

  • @ Abanto Canto

    Trabajando los mismos datos del ejemplo anterior.

  • @ Abanto Canto

    Problema propuesto: Supongamos tenemos los siguientes datos (aparece solo la primera parte de datos, en realidad son 150 datos), correspondientes a los clientes de una

    empresa de seguros.

  • @ Abanto Canto

    A continuacin se procesan estos (150 clientes) datos en R, obteniendo los grficos de

    histograma, box plot y diagrama de tallos y hojas. Interprete, discuta y deduzca

    conclusiones que permita describir o perfilar a los clientes segn la informacin

    registradas (variables)

  • @ Abanto Canto

    > stem(Ingresos[Genero=="Hombre"],3)

  • @ Abanto Canto

    The decimal point is 1 digit(s) to the right of the | 25 | 579 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 3 34 | 35 | 36 | 6 37 | 38 | 9 39 | 8 40 | 0337 41 | 46 42 | 0 43 | 8 44 | 9 45 | 1469 46 | 47 | 579 48 | 048 49 | 2567 50 | 249 51 | 6 52 | 0679 53 | 0348899 54 | 24566 55 | 11259 56 | 05 57 | 135677 58 | 012246789 59 | 55 60 | 139 61 | 2477 62 | 1 63 | 59 64 | 06 65 | 226 66 | 68 67 | 0 68 | 147 69 | 129 70 | 71 | 72 | 73 | 6 74 | 0 75 |

  • @ Abanto Canto

    76 | 6 77 | 27 78 | 79 | 80 | 4 81 | 82 | 0 83 | 84 | 85 | 86 | 87 | 88 | 89 | 2 90 | 91 | 3 92 | 93 | 94 | 95 | 96 | 97 | 98 | 9 > stem(Ingresos[Genero=="Hombre"],3) The decimal point is 1 digit(s) to the right of the | 25 | 579 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 3 34 | 35 | 36 | 6 37 | 38 | 9 39 | 8 40 | 0337 41 | 46 42 | 0 43 | 8 44 | 9 45 | 1469 46 | 47 | 579 48 | 048 49 | 2567

  • @ Abanto Canto

    50 | 249 51 | 6 52 | 0679 53 | 0348899 54 | 24566 55 | 11259 56 | 05 57 | 135677 58 | 012246789 59 | 55 60 | 139 61 | 2477 62 | 1 63 | 59 64 | 06 65 | 226 66 | 68 67 | 0 68 | 147 69 | 129 70 | 71 | 72 | 73 | 6 74 | 0 75 | 76 | 6 77 | 27 78 | 79 | 80 | 4 81 | 82 | 0 83 | 84 | 85 | 86 | 87 | 88 | 89 | 2 90 | 91 | 3 92 | 93 | 94 | 95 | 96 | 97 | 98 | 9 >

  • @ Abanto Canto

    Ejercicios propuestos:

    1. La edad media de los candidatos a un determinado curso de perfeccionamiento siempre fue baja, aproximadamente 22 aos. Como ese curso fue proyectado para captar candidatos de todas las edades, se decidi hacer una campaa de divulgacin. Para verificar si la campaa fue o no eficiente se hizo un estudio de la edad de los candidatos de la ltima promocin, con los siguiente resultados

    Edad (aos) Frecuencia

    18-20

    20-22

    22-26

    26-30

    30-36

    18

    12

    10

    8

    2

    total 100

    a. A partir de estos resultados. dira usted, que la campaa tuvo algn efecto ( Obviamente segn la media).

    b. Un investigador decidi usar la siguiente regla: si la diferencia ( 22x ) resulta ser

    mayor que el valor

    n

    s2 , concluye que la campaa tuvo efecto. Cul sera su

    conclusin si adopta esta regla?

    2. A continuacin se tiene el retorno diario de una accin B medido en tanto por uno,

    durante 220 das:

  • @ Abanto Canto

    Retorno diario ni

    -0.10 -0.05

    -0.05 0.00

    0.00 0.05

    0.05 0.10

    0.10 0.15

    0.15 0.20

    0.20 0.25

    20

    10

    50

    10

    70

    40

    20

    Calcule e interprete: a. varianza b. desviacin estndar c. coeficiente de variacin

    d. ndice de asimetra e. ndice de curtosis

    2. Los activos anuales (en millones de pesos) de un grupo de empresas son

    Activos (millo. de

    pesos)

    ni

    600-800

    800-1000

    1000-1200

    1200-1400

    1400-1600

    1600-1800

    10

    40

    20

    30

    60

    10

    Determine e interprete: a. Varianza b. desv. Estndar. c. Coeficiente de variacin

  • @ Abanto Canto

    d. Desviacin media e. Rango Intercuartlico.

    3. A continuacin se registra los impuestos pagados por un grupo de pequeos empresarios en unidades monetarias (u.m)

    Impuestos (u.m) ni

    34-38

    38-42

    42-46

    46-50

    50-54

    54-58

    50

    20

    30

    30

    20

    10

    a. Grafique adecuadamente. Interprete en trminos de su asimetra

    b. Son los impuestos homogneos estadsticamente. Justifique.

    c. Categorize a los empresarios de la forma:

  • @ Abanto Canto

    IV

    Medidas de Relacin.

    En muchas aplicaciones, interesa medir la relacin entre dos variables cuantitativas o

    quizs tambin entre dos variables cualitativas. En esta unidad estudiaremos medidas de

    relacin entre dos variables cuantitativas.

    Para estudiar la relacin entre dos variables cuantitativas, se recomienda iniciar el estudio

    explorando grficamente esta relacin, mediante la construccin de un diagrama de

    dispersin. Para luego confirmar esta relacin explorada mediante medidas estadstico

    como ejemplo la covarianza o el coeficiente de correlacin

    Covarianza.

    La covarianza es una medida de la forma de la relacin entre dos variables cuantitativas.

    La covarianza puede ser positiva, negativa o cero. Si la covarianza es positiva, entonces la

    relacin entre las variables es positiva o directa, ejemplo, el caso de la oferta y el precio

    (ver figuras abajo). Si la covarianza es negativa, entonces la relacin entre las variables es

    negativa o inversa, ejemplo, el caso entre la demanda y el precio. Si la covarianza es cero

    no hay relacin (lineal) entre las variables.

  • @ Abanto Canto

    La covarianza se define.

    11

    ))((

    ),cov( 1

    n

    yxnyx

    n

    yyxx

    yx

    n

    i

    ii

    ,

    Observe que si yx la ),cov( yx es igual a la varianza. Podemos entonces interpretar la

    covarianza como una medida de dispersin entre dos variables, que mide la relacin entre

    estas dos variables.

    cov (x, y)= + cov (x, y)= -

    cov (x, y)0

  • @ Abanto Canto

    Ejemplo:

    Es de inters en cierta empresa del rubro metalrgico, estudiar la relacin entre la

    variable edad, medida en aos, y el rendimiento laboral, medida en porcentaje. Se tiene el

    siguiente registro:

    X: Edad Y: Rendimiento Laboral

    28 52

    26 59

    36 88

    56 90

    42 75

    23 62

    Construimos en una primera etapa un diagrama de dispersin que nos permita explorar la

    relacin existente entre estas dos variables. A continuacin, se muestra el respectivo

    diagrama de dispersin:

    Y: Rendimiento Laboral

    40

    50

    60

    70

    80

    90

    100

    20 30 40 50 60

    Edad (aos)

  • @ Abanto Canto

    Del diagrama de dispersin podemos concluir, en esta primera etapa de exploracin, que

    la relacin entre estas dos variables es directa (positiva), es decir, a mayor edad mayor

    rendimiento laboral o tambin a menor edad menor rendimiento laboral.

    La medida de covarianza que calcularemos, nos confirmar la exploracin que se hizo con

    el diagrama de dispersin:

    X Y XY

    28 52 1456

    26 59 1534

    36 88 3168

    56 90 5040

    42 75 3150

    23 62 1426

    211 426 15774

    Donde representa los totales de cada columna.

    Aplicando la formula tenemos: 6,1585

    6

    426

    6

    211615774

    ),cov(

    yx

  • @ Abanto Canto

    La covarianza resulta ser 158,6. Este nmero es positivo, por lo tanto, la relacin entre la

    variable edad y rendimiento laboral es positiva. La covarianza confirma la exploracin

    hecha con el diagrama de dispersin.

    Coeficiente de Correlacin

    El coeficiente de correlacin es una medida estadstica bivariada, al igual que la

    covarianza, pero que adems de medir la forma, mide el grado de la relacin entre, no se

    olviden, dos variables cuantitativas.

    El valor del coeficiente de correlacin esta entre -1 y +1, pasando obviamente por el cero.

    Si el coeficiente de correlacin esta cerca de -1 +1 la relacin es alta (depende del signo

    si es positiva o negativa). Si el coeficiente de correlacin esta cerca del cero

    (positivamente o negativamente) la relacin es baja. Si es cero es por que la covarianza es

    cero, entonces no hay relacin entre la variables. Podramos ser una poco mas especfico y

    decir que si el coeficiente de correlacin esta cerca del +0,5 -0,5 la relacin es moderada

    (negativa o positiva).

    El coeficiente de correlacin se define:

    yx

    yxSS

    yxr

    ),(cov,

    Calcules el coeficiente de correlacin para el ejemplo:

  • @ Abanto Canto

    X Y XY 2X 2Y

    28 52 1456 784 2704

    26 59 1534 676 3481

    36 88 3168 1296 7744

    56 90 5040 3136 8100

    42 75 3150 1764 5625

    23 62 1426 529 3844

    211 426 15774 8185 31498

    Como vemos en la ltima tabla incluimos dos nuevas columnas en los clculos, esto para

    poder calcular las desviaciones estndar que necesitaremos.

    69,1525

    6

    21168185

    1

    2

    22

    n

    xnxS x

    4,2505

    6

    426631498

    1

    2

    22

    n

    ynyS y

    Por lo tanto la covarianza es igual a:

    81,04,2506.152

    6,158,

    yxr

  • @ Abanto Canto

    Es decir la relacin entre la edad y el rendimiento es directa y adems alta.

    Cuando empezamos esta unidad dijimos que los diagramas de dispersin permitan

    explorar la forma de la relacin. Pero tambin adems de explorar la forma permiten

    explorar el grado de la relacin, como se muestra en las siguientes figuras. En diagramas

    de dispersin donde los puntos graficados de las dos variables estn cerca de una lnea, la

    relacin entre las variables es fuerte, que a diferencia de aquellos donde los puntos estn

    ms alejados de una lnea.

    Y Y

    1X 2X

    Esta claro entonces que yxyx rr 21

    Regresin Lineal Simple.

    Muchas veces se necesita predecir o estimar el valor de una variable Y, que llamaremos

    variable dependiente, conociendo el valor de una variable X, que llamaremos variable

    independiente.

    El mtodo de regresin lineal simple, entrega la herramienta para satisfacer esta

    necesidad.

    Este asume una relacin lineal entre las variables dependiente e independiente, es decir

    un modelo de la forma:

  • @ Abanto Canto

    XY 10 +

    Que es el modelo de regresin lineal poblacional, donde 0 es el valor del intercepto,

    geomtricamente el valor sobre el eje Y por donde cruza la lnea en el plano. Un modelo

    sin intercepto como el siguiente:

    XY 1

    Cruza por el origen del plano.

    1 Es el valor de la pendiente que geomtricamente define el ngulo de inclinacin de la

    lnea definida en un plano.

    En trminos reales el intercepto es el valor de la variable dependiente, cuando el valor de

    la variable independiente es cero. Y la pendiente es cambio esperado de la variable

    dependiente (aumenta o disminuye), cuando la variable independiente cambia (aumenta

    o disminuye) en una unidad.

    XY 10

  • @ Abanto Canto

    Estimacin

    La ecuacin de la recta se estima minimizando la suma de las distancias cuadradas entre el

    valor observado y esperado, es decir, de las siguientes ecuaciones.

    ( )

    Es as que se obtiene el modelo de regresin lineal simple muestral, es decir:

    Donde:

  • @ Abanto Canto

    ( )

    Ejemplo:

    Segn resultados anteriores:

    6,158),cov( yx 69,152xS

    Por lo que:

    El modelo de regresin lineal simple muestral sera:

    Esta ecuacin estimada, es la ecuacin obtenida bajo el criterio que expresamos antes: Es

    la mejor ecuacin de la lnea, es decir, la lnea mediante la cual se minimiza las distancia

    cuadradas entre el valor observado y el valor estimado de cada observacin.

  • @ Abanto Canto

    A continuacin obtenemos esta lnea mediante la ayuda de Excel, una herramienta

    importantsima en el procesamiento de los datos, para el anlisis.

    El valor del intercepto estimado es de 34,538, la diferencia con la ecuacin estimada por

    la formulas es por el proceso de aproximacin que ocupamos. Un intercepto de 34,538

    indica que si una vendedor tuviera una edad de cero aos su rendimiento sera de

    34,538%. Por otro lado la pendiente, que en este caso indica que por cada ao que

    aumenta la edad el rendimiento aumentara tambin en 1,0368%.

    En la salida tambin aparece una medida de bondad de ajuste, que es el coeficiente de

    determinacin. Esta indica cuanto explica el modelo de la variacin de la variable

    dependiente, visto de otra forma el porcentaje de explicacin de la variable

    dependiente, por la variable independiente. Se obtiene.

    y = 1,0368x + 34,538 R = 0,6567

    30

    40

    50

    60

    70

    80

    90

    100

    20 40 60

    Y

    Y

    Lineal (Y)

  • @ Abanto Canto

    En el ejemplo este valor es 65%, que indica que la edad explica un 65% de la variacin del

    rendimiento.

  • @ Abanto Canto

    Ejercicios propuestos.

    1. Suponga que se prueba una c