Sesión 03
-
Upload
rmelende1969-1 -
Category
Documents
-
view
225 -
download
0
description
Transcript of Sesión 03
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 1
Sesin 3
Estadstica Descriptiva
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 2
Medidas de Ubicacin
MediaMedianaModaPercentilCuartil
Si la medida es calculada a partir de los datos de una
muestra se les llama estadstico muestral
Si la medida es calculada a partir de los datos de una poblacin se les llama parmetro poblacional
Un estadstico muestral es un estimador puntual de su correspondiente
parmetro poblacional
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 3
Ejemplo: Alquileres de Departamentos
A continuacin tenemos una muestra de los montos en dlares que se cobran por alquiler mensual de 70 departamentos de tres dormitorios en zonas exclusivas de la ciudad. Los datos se presentan en orden ascendente.
425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 4
1. Medida de Tendencia Central2. La medida ms comn3. Acta como un Punto de Balance.4. Se afecta por valores extremos.5. Frmula
XX i
ni
n
= =
1
Promedio
mX i
Ni
N
= =
1
Muestra Poblacin
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 5
Promedio Truncado
El Promedio Truncado se obtiene promediando luego de eliminar a % de los menores datos y a % de los mayores datos del conjunto total de datos.
Es una buena medida de ubicacin o tendencia central si tenemos datos extremos o muy grandes o muy pequeos.
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 6
Mediana
1. Medida de Tendencia Central.2. Valor central en una secuencia de datos
ordenada. Percentil 50.3. No se afecta por valores extremos.4. Posicin de la Mediana.
Posicin nmero =+n 12
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 7
12 14 19 26 2718 27
Para un nmero impar de observaciones:
En orden ascendente
26 18 27 12 14 27 19 7 observaciones
la mediana es el valor central.
Mediana = 19
Mediana
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 8
12 14 19 26 2718 27
Para un nmero par de observaciones:
en orden ascendente
26 18 27 12 14 27 30 8 observaciones
la mediana es el promedio de los dos valores centrales.
Mediana = (19 + 26)/2 = 22.5
19
30
Mediana
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 9
Moda
1. Medida de Tendencia Central2. Valor que ocurre con mayor frecuencia
3. NO se afecta por valores extremos
4. Puede que no exista o que exista ms de una
5. Se puede usar para todo tipo de datos: numricos y categricos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 10
Formula en hoja de clculo
A B C D E
1Depar-tament
Alquiler ($)
2 1 525 Media =PROMEDIO(B2:B71)3 2 440 Mediana =MEDIANA(B2:B71)4 3 450 Moda =MODA(B2:B71)5 4 615 MediaAcot =MEDIA.ACOTADA(B2:B71,0.12)6 5 480
Nota: Filas 7-71 no se estn mostrando.
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 11
Percentil
El p percentil de un conjunto de datos es un valor tal que por lo menos el p% de las observaciones es menor o igual a l o el (100-p)% de los valores es mayor que l.
1. Arreglar los datos en forma ascendente.2. Calcular la posicin i del p percentil.
i = (p/100)n3. Si i no es un nmero entero, redondear hacia arriba.
El p percentil es el valor de la observacin en la posicin i.
4. Si i es un entero, el p percentil es el promedio entre las observaciones de las posiciones i e i+1.
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 12
Formula en hoja de clculoA B C D E
1Depar-tament
Alquiler ($) Percentiles
2 1 525 10% =PERCENTIL(B2:B71,D2)3 2 440 50% =PERCENTIL(B2:B71,D2)4 3 450 90% =PERCENTIL(B2:B71,D2)5 4 6156 5 480
Nota: Filas 7-71 no se estn mostrando.
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 13
Cuartil
1. Medida de Tendencia NO Central
2. Divide los datos ordenados en cuatro partes.3. Primer Cuartil = 25 Percentil
4. Segundo Cuartil = 50 Percentil = Mediana
5. Tercer Cuartil = 75 Percentil
Q1 Q2 Q3
25%25% 25% 25%
MinQ0
MaxQ4
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 14
Formula en hoja de clculoA B C D E
1Depar-tament
Alquiler ($)
2 1 525 Cuartil 1 =CUARTIL(B2:B71,1)3 2 440 Cuartil 2 =CUARTIL(B2:B71,2)4 3 450 Cuartil 3 =CUARTIL(B2:B71,3)5 4 6156 5 480
Nota: Filas 7-71 no se estn mostrando.
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 15
Medidas de Variabilidad
RangoRango IntercuartilVarianzaDesviacin EstndarCoeficiente de Variacin
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 16
Rango
1. Medida de dispersin
2. Diferencia entre la ms grande y la menor de las observaciones
3. Ignora Cmo se distribuyen los datos
4. Es muy sensible a valores extremos.
7 8 9 10 7 8 9 10
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 17
Rango Intercuartlico
1. Medida de Dispersin
2. Diferencia entre el Tercer y Primer Cuartil
3. Es el rango en que se tiene el 50% central de los datos.
4. No se afecta por Valores Extremos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 18
Varianza
La varianza es el promedio de las diferencias al cuadrado de cada observacin con el promedio. Muestra la variacin alrededor del promedio. Si el conjunto de datos es de una muestra, la varianza se denota por s2.
Si el conjunto de datos es de una poblacin, la varianza se denota por s 2.
s2 = n - 1
S ( X X )2
s2 = N
S ( X m )2
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 19
Desviacin Estndar
La desviacin estndar de un conjunto de datos es la raz cuadrada positiva de la varianza.Esta medida est en las mismas unidades que los datos, haciendo ms fcil su comparacin con el promedio.Si el conjunto de datos es de una muestra, la desviacin estndar se denota por s.
Si el conjunto de datos es de una poblacin, la varianza se denota por s (sigma).
s = s2
s = s2
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 20
Coeficiente de Variacin
El coeficiente de variacin indica cun grande es la desviacin estndar en relacin con el promedio.Se expresa como un porcentaje.Si el conjunto de datos es una muestra, el coeficiente de variacin se calcula de la siguiente forma:
Si el conjunto de datos es una poblacin, el coeficiente de variacin se calcula de la siguiente forma:
(100) %
XS
(100) %
ms
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 21
Formula en hoja de clculoA B C D E
1Depar-tament
Alquiler ($)
2 1 525 Media =PROMEDIO(B2:B71)3 2 440 Varianza =VAR(B2:B71)4 3 450 Desv.Est. =DESVEST(B2:B71)5 4 615 Coef.Var. =(+E4/E2)*1006 5 480
Nota: Filas 7-71 no se estn mostrando.
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 22
Usando herramienta de Estadstica Descriptiva
Herramientas
Anlisis de Datos
Estadstica Descriptiva
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 23
Usando herramienta Estadstica DescriptivaA B C D E
1 Departamento Alquiler ($)2 1 525 Alquiler ($)3 2 4404 3 450 Media 490.805 4 615 Error tpico 6.546 5 480 Mediana 475.007 6 510 Moda 450.008 7 575 Desviacin estndar 54.749 8 430 Varianza de la muestra 2996.1610 9 440 Curtosis -0.3340911 10 450 Coeficiente de asimetra 0.9243312 11 470 Rango 190.0013 12 485 Mnimo 425.0014 13 515 Mximo 615.0015 14 575 Suma 34356.0016 15 430 Cuenta 70.00
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 24
Valor - z
El valor - z es generalmente llamado valor estandarizado.Indica el nmero de desviaciones estndar que un valor xicualquiera se aleja del promedio.
Un dato con valor menor que el promedio tendr un valor z menor que cero.Un dato con valor mayor que el promedio tendr un valor z mayor que cero.Un dato con valor igual al promedio tendr un valor z igual a cero.
Zi = s( Xi X )
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 25
Teorema de Chebyshev
Dados K (K >1) y un conjunto de observaciones
Al menos ( 1 - 1 / k2 ) de las observaciones caen en un rango entre: Promedio ms K desviaciones estndar, y Promedio menos K desviaciones estndar.
(m - K s) y (m + K s)K = 2 Por lo menos el 75% de las observaciones estn
dentro de 2 desviaciones estndar del promedio.
K = 3 Por lo menos el 89% de las observaciones estn dentro de 3 desviaciones estndar del promedio.
K = 4 Por lo menos el 94% de las observaciones estn dentro de 4 desviaciones estndar del promedio.
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 26
Regla Emprica
Para datos que se distribuyen en forma de campana:
Aproximadamente el 68% de los datos estarn entre la media y una desviacin estndar.Aproximadamente el 95% de los datos estarn entre la media y dos desviacin estndar.Casi todos los datos (99.73%) estarn entre la media y tres desviacin estndar.
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 27
Detectando Outliers
Un outlier es inusualmente muy pequeo o inusualmente muy grande.Un dato con un valor z menor que -3 o mayor que +3 pueden ser considerados como un outlier. Puede ser un valor mal registrado. Puede ser un valor indebidamente incluido en una muestra (poblacin).Como tambin puede ser un valor correctamente registrado y que pertenece a esta muestra (poblacin).
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 28
Asimetra o Sesgo
Describe cmo estn Distribuidos los Datos
SimtricaMedia = Mediana = Moda
Sesgo a laderecha
Moda Mediana Media
Sesgo a la izquierda
Media Mediana Moda
3 ( m - Me )sCA =
Coeficiente de Asimetra
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 29
Anlisis Exploratorio de Datos
Resumen con Cinco Nmeros Box Plot
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 30
Resumen con Cinco Nmeros
Menor Valor Primer Cuartil Mediana Tercer Cuartil Mayor Valor
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 31
Box Plot Diagrama de Caja
Se dibuja una caja con sus extremos en el primer y tercer cuartil.Se traza una lnea vertical dentro de la caja en la ubicacin de la mediana.Se definen lmites (no se dibujan) usando el rango intercuartlico (IQR).
Lmites interiores se definen a 1.5(IQR) debajo de Q1 y 1.5(IQR) encima de Q3.Lmites exteriores se definen a 3(IQR) debajo de Q1 y 3(IQR) encima de Q3.
Continua
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 32
Box Plot (Continuacin)
Se dibuja una lnea punteada a travs de la caja desde el valor ms pequeo hasta el valor ms grande de los datos dentro de los lmites internos.La ubicacin de outliers medios se muestran con el smbolo * .La ubicacin de outliers extremos se muestran con el smbolo o .
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 33
Box PlotLmites interiores: Q1 - 1.5(IQR) = 450 - 1.5(75) = 337.5
Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5Lmites exteriores: Q1 - 3(IQR) = 450 - 3(75) = 225
Q3 + 3(IQR) = 525 + 3(75) = 750No hay outliers
375 400 425 450 475 500 525 550 575 600 625
Q1= 445
Min= 425 Q2= 475
Q3= 525
Max= 615
Ejemplo: Alquileres de Departamentos
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 34
Sesgo a la derechaSesgo a la izquierda SimtricaQ1 Mediana Q3Q1 Mediana Q3 Q1 Mediana Q3
Box Plot Diagrama de Caja
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 35
Medidas de Asociacin entre dos Variables
Covarianza Coeficiente de Correlacin
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 36
La covarianza es una medida de la asociacin lineal entre dos variables.Valores positivos indican relacin directa.Valores negativos indican relacin inversa.Si el conjunto de datos es de una muestra, la covarianza se denota por sxy.
Si el conjunto de datos es de una poblacin, la covarianza se denota por sxy.
Covarianza
sXY = NS ( X mX ) ( Y my )
sXY = n - 1S ( X X ) ( Y Y )
-
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2005.
Anlisis de Datos - 37
El coeficiente puede tomar valores entre -1 y +1.Valores cercanos a -1 indican una fuerte relacin negativa.Valores cercanos a +1 indican una fuerte relacin positiva. Si trabajamos con muestras, el coeficiente se denota por rxy.
Si trabajamos con poblaciones, el coeficiente se denota por rxy.
Coeficiente de Correlacin
rXY = SX SY
SXY
rXY = sX sY
sXY