Sesión 03

download Sesión 03

of 37

description

Análisis de Datos

Transcript of Sesión 03

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 1

    Sesin 3

    Estadstica Descriptiva

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 2

    Medidas de Ubicacin

    MediaMedianaModaPercentilCuartil

    Si la medida es calculada a partir de los datos de una

    muestra se les llama estadstico muestral

    Si la medida es calculada a partir de los datos de una poblacin se les llama parmetro poblacional

    Un estadstico muestral es un estimador puntual de su correspondiente

    parmetro poblacional

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 3

    Ejemplo: Alquileres de Departamentos

    A continuacin tenemos una muestra de los montos en dlares que se cobran por alquiler mensual de 70 departamentos de tres dormitorios en zonas exclusivas de la ciudad. Los datos se presentan en orden ascendente.

    425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 4

    1. Medida de Tendencia Central2. La medida ms comn3. Acta como un Punto de Balance.4. Se afecta por valores extremos.5. Frmula

    XX i

    ni

    n

    = =

    1

    Promedio

    mX i

    Ni

    N

    = =

    1

    Muestra Poblacin

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 5

    Promedio Truncado

    El Promedio Truncado se obtiene promediando luego de eliminar a % de los menores datos y a % de los mayores datos del conjunto total de datos.

    Es una buena medida de ubicacin o tendencia central si tenemos datos extremos o muy grandes o muy pequeos.

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 6

    Mediana

    1. Medida de Tendencia Central.2. Valor central en una secuencia de datos

    ordenada. Percentil 50.3. No se afecta por valores extremos.4. Posicin de la Mediana.

    Posicin nmero =+n 12

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 7

    12 14 19 26 2718 27

    Para un nmero impar de observaciones:

    En orden ascendente

    26 18 27 12 14 27 19 7 observaciones

    la mediana es el valor central.

    Mediana = 19

    Mediana

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 8

    12 14 19 26 2718 27

    Para un nmero par de observaciones:

    en orden ascendente

    26 18 27 12 14 27 30 8 observaciones

    la mediana es el promedio de los dos valores centrales.

    Mediana = (19 + 26)/2 = 22.5

    19

    30

    Mediana

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 9

    Moda

    1. Medida de Tendencia Central2. Valor que ocurre con mayor frecuencia

    3. NO se afecta por valores extremos

    4. Puede que no exista o que exista ms de una

    5. Se puede usar para todo tipo de datos: numricos y categricos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 10

    Formula en hoja de clculo

    A B C D E

    1Depar-tament

    Alquiler ($)

    2 1 525 Media =PROMEDIO(B2:B71)3 2 440 Mediana =MEDIANA(B2:B71)4 3 450 Moda =MODA(B2:B71)5 4 615 MediaAcot =MEDIA.ACOTADA(B2:B71,0.12)6 5 480

    Nota: Filas 7-71 no se estn mostrando.

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 11

    Percentil

    El p percentil de un conjunto de datos es un valor tal que por lo menos el p% de las observaciones es menor o igual a l o el (100-p)% de los valores es mayor que l.

    1. Arreglar los datos en forma ascendente.2. Calcular la posicin i del p percentil.

    i = (p/100)n3. Si i no es un nmero entero, redondear hacia arriba.

    El p percentil es el valor de la observacin en la posicin i.

    4. Si i es un entero, el p percentil es el promedio entre las observaciones de las posiciones i e i+1.

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 12

    Formula en hoja de clculoA B C D E

    1Depar-tament

    Alquiler ($) Percentiles

    2 1 525 10% =PERCENTIL(B2:B71,D2)3 2 440 50% =PERCENTIL(B2:B71,D2)4 3 450 90% =PERCENTIL(B2:B71,D2)5 4 6156 5 480

    Nota: Filas 7-71 no se estn mostrando.

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 13

    Cuartil

    1. Medida de Tendencia NO Central

    2. Divide los datos ordenados en cuatro partes.3. Primer Cuartil = 25 Percentil

    4. Segundo Cuartil = 50 Percentil = Mediana

    5. Tercer Cuartil = 75 Percentil

    Q1 Q2 Q3

    25%25% 25% 25%

    MinQ0

    MaxQ4

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 14

    Formula en hoja de clculoA B C D E

    1Depar-tament

    Alquiler ($)

    2 1 525 Cuartil 1 =CUARTIL(B2:B71,1)3 2 440 Cuartil 2 =CUARTIL(B2:B71,2)4 3 450 Cuartil 3 =CUARTIL(B2:B71,3)5 4 6156 5 480

    Nota: Filas 7-71 no se estn mostrando.

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 15

    Medidas de Variabilidad

    RangoRango IntercuartilVarianzaDesviacin EstndarCoeficiente de Variacin

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 16

    Rango

    1. Medida de dispersin

    2. Diferencia entre la ms grande y la menor de las observaciones

    3. Ignora Cmo se distribuyen los datos

    4. Es muy sensible a valores extremos.

    7 8 9 10 7 8 9 10

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 17

    Rango Intercuartlico

    1. Medida de Dispersin

    2. Diferencia entre el Tercer y Primer Cuartil

    3. Es el rango en que se tiene el 50% central de los datos.

    4. No se afecta por Valores Extremos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 18

    Varianza

    La varianza es el promedio de las diferencias al cuadrado de cada observacin con el promedio. Muestra la variacin alrededor del promedio. Si el conjunto de datos es de una muestra, la varianza se denota por s2.

    Si el conjunto de datos es de una poblacin, la varianza se denota por s 2.

    s2 = n - 1

    S ( X X )2

    s2 = N

    S ( X m )2

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 19

    Desviacin Estndar

    La desviacin estndar de un conjunto de datos es la raz cuadrada positiva de la varianza.Esta medida est en las mismas unidades que los datos, haciendo ms fcil su comparacin con el promedio.Si el conjunto de datos es de una muestra, la desviacin estndar se denota por s.

    Si el conjunto de datos es de una poblacin, la varianza se denota por s (sigma).

    s = s2

    s = s2

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 20

    Coeficiente de Variacin

    El coeficiente de variacin indica cun grande es la desviacin estndar en relacin con el promedio.Se expresa como un porcentaje.Si el conjunto de datos es una muestra, el coeficiente de variacin se calcula de la siguiente forma:

    Si el conjunto de datos es una poblacin, el coeficiente de variacin se calcula de la siguiente forma:

    (100) %

    XS

    (100) %

    ms

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 21

    Formula en hoja de clculoA B C D E

    1Depar-tament

    Alquiler ($)

    2 1 525 Media =PROMEDIO(B2:B71)3 2 440 Varianza =VAR(B2:B71)4 3 450 Desv.Est. =DESVEST(B2:B71)5 4 615 Coef.Var. =(+E4/E2)*1006 5 480

    Nota: Filas 7-71 no se estn mostrando.

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 22

    Usando herramienta de Estadstica Descriptiva

    Herramientas

    Anlisis de Datos

    Estadstica Descriptiva

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 23

    Usando herramienta Estadstica DescriptivaA B C D E

    1 Departamento Alquiler ($)2 1 525 Alquiler ($)3 2 4404 3 450 Media 490.805 4 615 Error tpico 6.546 5 480 Mediana 475.007 6 510 Moda 450.008 7 575 Desviacin estndar 54.749 8 430 Varianza de la muestra 2996.1610 9 440 Curtosis -0.3340911 10 450 Coeficiente de asimetra 0.9243312 11 470 Rango 190.0013 12 485 Mnimo 425.0014 13 515 Mximo 615.0015 14 575 Suma 34356.0016 15 430 Cuenta 70.00

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 24

    Valor - z

    El valor - z es generalmente llamado valor estandarizado.Indica el nmero de desviaciones estndar que un valor xicualquiera se aleja del promedio.

    Un dato con valor menor que el promedio tendr un valor z menor que cero.Un dato con valor mayor que el promedio tendr un valor z mayor que cero.Un dato con valor igual al promedio tendr un valor z igual a cero.

    Zi = s( Xi X )

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 25

    Teorema de Chebyshev

    Dados K (K >1) y un conjunto de observaciones

    Al menos ( 1 - 1 / k2 ) de las observaciones caen en un rango entre: Promedio ms K desviaciones estndar, y Promedio menos K desviaciones estndar.

    (m - K s) y (m + K s)K = 2 Por lo menos el 75% de las observaciones estn

    dentro de 2 desviaciones estndar del promedio.

    K = 3 Por lo menos el 89% de las observaciones estn dentro de 3 desviaciones estndar del promedio.

    K = 4 Por lo menos el 94% de las observaciones estn dentro de 4 desviaciones estndar del promedio.

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 26

    Regla Emprica

    Para datos que se distribuyen en forma de campana:

    Aproximadamente el 68% de los datos estarn entre la media y una desviacin estndar.Aproximadamente el 95% de los datos estarn entre la media y dos desviacin estndar.Casi todos los datos (99.73%) estarn entre la media y tres desviacin estndar.

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 27

    Detectando Outliers

    Un outlier es inusualmente muy pequeo o inusualmente muy grande.Un dato con un valor z menor que -3 o mayor que +3 pueden ser considerados como un outlier. Puede ser un valor mal registrado. Puede ser un valor indebidamente incluido en una muestra (poblacin).Como tambin puede ser un valor correctamente registrado y que pertenece a esta muestra (poblacin).

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 28

    Asimetra o Sesgo

    Describe cmo estn Distribuidos los Datos

    SimtricaMedia = Mediana = Moda

    Sesgo a laderecha

    Moda Mediana Media

    Sesgo a la izquierda

    Media Mediana Moda

    3 ( m - Me )sCA =

    Coeficiente de Asimetra

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 29

    Anlisis Exploratorio de Datos

    Resumen con Cinco Nmeros Box Plot

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 30

    Resumen con Cinco Nmeros

    Menor Valor Primer Cuartil Mediana Tercer Cuartil Mayor Valor

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 31

    Box Plot Diagrama de Caja

    Se dibuja una caja con sus extremos en el primer y tercer cuartil.Se traza una lnea vertical dentro de la caja en la ubicacin de la mediana.Se definen lmites (no se dibujan) usando el rango intercuartlico (IQR).

    Lmites interiores se definen a 1.5(IQR) debajo de Q1 y 1.5(IQR) encima de Q3.Lmites exteriores se definen a 3(IQR) debajo de Q1 y 3(IQR) encima de Q3.

    Continua

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 32

    Box Plot (Continuacin)

    Se dibuja una lnea punteada a travs de la caja desde el valor ms pequeo hasta el valor ms grande de los datos dentro de los lmites internos.La ubicacin de outliers medios se muestran con el smbolo * .La ubicacin de outliers extremos se muestran con el smbolo o .

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 33

    Box PlotLmites interiores: Q1 - 1.5(IQR) = 450 - 1.5(75) = 337.5

    Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5Lmites exteriores: Q1 - 3(IQR) = 450 - 3(75) = 225

    Q3 + 3(IQR) = 525 + 3(75) = 750No hay outliers

    375 400 425 450 475 500 525 550 575 600 625

    Q1= 445

    Min= 425 Q2= 475

    Q3= 525

    Max= 615

    Ejemplo: Alquileres de Departamentos

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 34

    Sesgo a la derechaSesgo a la izquierda SimtricaQ1 Mediana Q3Q1 Mediana Q3 Q1 Mediana Q3

    Box Plot Diagrama de Caja

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 35

    Medidas de Asociacin entre dos Variables

    Covarianza Coeficiente de Correlacin

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 36

    La covarianza es una medida de la asociacin lineal entre dos variables.Valores positivos indican relacin directa.Valores negativos indican relacin inversa.Si el conjunto de datos es de una muestra, la covarianza se denota por sxy.

    Si el conjunto de datos es de una poblacin, la covarianza se denota por sxy.

    Covarianza

    sXY = NS ( X mX ) ( Y my )

    sXY = n - 1S ( X X ) ( Y Y )

  • Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.

    Anlisis de Datos - 37

    El coeficiente puede tomar valores entre -1 y +1.Valores cercanos a -1 indican una fuerte relacin negativa.Valores cercanos a +1 indican una fuerte relacin positiva. Si trabajamos con muestras, el coeficiente se denota por rxy.

    Si trabajamos con poblaciones, el coeficiente se denota por rxy.

    Coeficiente de Correlacin

    rXY = SX SY

    SXY

    rXY = sX sY

    sXY