Resumen de Capítulo Anterior
• Discutir la necesidad de un gerente de conocer estadística.
• Revisar la evolución de la estadística moderna.
• Describir el uso del Pensamiento Estadístico para mejorar la calidad.
•Relacionar la noción de Estadística Descriptiva e Inferencial.
Resumen de Capítulo (continuación)
• Definición y descripción de diferentes Tipos de Datos y Fuentes
• Describir diferentes Tipos de Errores en un Estudio
Introducción a la Estadística
Tema IIBases de datos y
Estadistica descriptiva
LOS GRANDES NUMEROS:Cuando un matemático oriental inventó el ajedrez, quiso el monarca de Persia premiar al inventor. Y cuenta el árabe Al-Sefadi que el rey ofreció el premio que solicitara.
El matemático se contentó con pedirle 1 grano de trigo por la primera casilla del tablero de ajedrez, 2 por la segunda, 4 por la tercera y así sucesivamente, siempre doblando, hasta la última de las 64 casillas.
El soberano persa casi se indignó de una petición que, a su parecer, no había de hacer honor a su liberalidad.- ¿No quieres nada más? preguntó.- Con eso me bastará, le respondió el matemático.El rey dio la orden a su gran visir de que, inmediatamente, quedaran satisfechos los deseos del sabio.¡Pero cuál no sería el asombro del visir, después de hacer el cálculo, viendo que era imposible dar cumplimiento a la orden!
Para darle al inventor la cantidad que pedía, no había trigo bastante toda Persia, ni en toda Asia.
LOS GRANDES NUMEROS…El rey tuvo que confesar al sabio que no podía cumplirle su promesa, por no ser bastante rico.Los términos de la progresión arrojan, en efecto, el resultado: diez y ocho trillones, cuatrocientos cuarenta y seis mil setecientos cuarenta y cuatro billones, setenta y tres mil setecientos nueve millones, quinientos cincuenta y un mil seiscientos quince granos de trigo.
18.446.744.073.709.551.615
Sí la libra de trigo, contiene 12.800 granos aproximadamente. ¡Calcúlese las libras que necesitaba para premiar al sabio! Más de las que produciría en ocho años toda la superficie de la Tierra, incluyendo los mares.Con la cantidad de trigo reclamada, podría hacerse una pirámide de 9 millas inglesas de altura y 9 de longitud por 9 de latitud en la base; o bien una masa de un paralelepípedo de 9 leguas cuadradas en su base, con una legua de altura. Semejante sólido sería equivalente a otro de 162.000 leguas cuadradas con un pie de altura.Para comprar esa cantidad de trigo, si la hubiera, no habría dinero bastante en este mundo.
Capítulo 2
Presentando Datos en Tablas y Gráficas
Estadística Administrativa
• Organización Numérica de Datos:• Arreglo Ordenado y Diagrama de Tallo y Hoja
•Tabulando y Graficando Datos Numéricos:• Distribuciones de Frecuencia: Tablas, Histogramas, Polígonos
• Distribución Acumulativa: Tablas, la Ojiva
Temas del Capítulo
• Tabulando y Graficando Datos Categóricos Univariados:
• Tabla de resumen• Gráficas de Barra y Pie, Diagrama de Pareto
•Tabulando y Graficando Datos •Categóricos Bivariados
• Tablas de Contingencia• Diagrama de Barras Múltiple
• Excelencia Gráfica y Errores Comunes en la Presentación de Datos
Temas del Capítulo (continuación)
2 144677
3 028
4 1
Organizando Datos Numéricos
Datos Numéricos
Arreglo Ordenado
Diagrama
Tallo y Hoja
Distribución de FrecuenciasDistribución Acumulativa
Histogramas
Polígonos
Ojiva
Tablas
41, 24, 32, 26, 27, 27, 30, 24, 38, 21
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
•Datos en forma Bruta (como fueron recolectados):24, 26, 24, 21, 27, 27, 30, 41, 32, 38
•Datos OrdenadosOrdenados desde el más pequeño hasta el más el más pequeño hasta el más
grandegrande: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41
•Diagrama de Tallo yHoja:
2 1 4 4 6 7 7
Organización de Datos Numéricos:
3 0 2 8
4 1
O g ive
0
20
40
60
80
100
120
10 20 30 40 50 60
0
1
2
3
4
5
6
7
10 20 30 40 50 60
2 144677
3 028
4 1
Tabulando y Graficando Datos Numéricos
Datos Numéricos
Arreglo Ordenado
Diagrama de
Tallo y Hoja
Histogramas Ojiva
Tablas
41, 24, 32, 26, 27, 27, 30, 24, 38, 21
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
Distribución de Frecuencias
Distribución Acumulativa
Polígonos
Tablas Estadísticas A partir de este momento nos vamos a ocupar de las
estadísticas de una sola variable, "Estadísticas Unidimensionales".
Las tablas estadísticas según el número de observaciones y según el recorrido de la variable estadística, así tenemos los siguientes tipos de tablas estadísticas:
Tablas tipo I: Cuando el tamaño de la muestra y el recorrido de la
variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia: 5, 8, 16, 38, 45
Tablas Estadísticas Tablas tipo II:
Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:
Personas Activas en 50 familias
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
Personas Activas
Número de Familias
1
16
2
20
3
9
4
5
Total
50
Tablas tipo III:
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:
450
1152
250
300
175
80
25
2680
605
785
1595
2300
5000
1200
100
5
180
200
675
500
375
1500
205
985
185
125
315
425
560
1100
Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 pesetas, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos queremos?. Normalmente se suele trabajar con no más de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
Tomar pocos intervalos implica que la "pérdida de información" sea mayor.
Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [ L i-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li )
Frecuencia
[ 0,500)
16
[ 500, 1000)
6
[ 1000,1500)
3
[ 1500, 2000)
2
[ 2000, 2500)
1
[ 2500, 3000)
1
[ 3000, 3500)
0
[ 3500, 4000)
0
[ 4000, 4500)
0
[ 4500, 5000)
0
[ 5000,5500)
1
2 1 2 2 1 2 4 2 1 1
2 3 2 1 1 1 3 4 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 2 4 1
1 3 4 3 2 2 2 1 3 3
Tablas Estadísticas
Tablas tipo III: Cuando el tamaño de la muestra y el recorrido de la
variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:
Personas Activas
Número de Familias
1 16
2 20
3 9
4 5
Total 50
Tablas Estadísticas
Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 pesetas, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos.
Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos queremos?
Normalmente se suele trabajar con no más de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
450 1152
250 300 175 80 25 2680
605 785
5 180 200 675 500 375 1500
205 985 185
1595
2300
5000
1200
100 125 315 425 560 1100
Tablas Estadísticas Debemos tener en cuenta las siguientes consideraciones: Tomar pocos intervalos implica que la "pérdida de
información" sea mayor. Los intervalos serán siempre Cerrados por la izquierda y
Abiertos por la Derecha [ Li-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li )
[ 0,0.5)
[ 0.5, 1)
[ 1,1.5)
[ 1.5, 2)
[ 2, 2.5)
[ 2.5, 3)
[ 3, 3.5)
[ 3.5, 4)
[4, 4.5)
[ 4.5, 5)
[ 5,5.5)
Frecuencia
16 6 3 2 1 1 0 0 0 0 1
•Ordenar los datos brutos en Orden Ascendente:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
•Encontrar el Rango: 58 - 12 = 46
•Seleccionar el Número de Clases: Número de intervalos de clase = 1 + 3.3 log(n)
•Calcular el Intervalo de Clase (ancho):
•Determinar Límites de Clase (limites): 10, 20, 30, 40, 50
•Calcular la Marca de Clase: 15, 25, 35, 45, 55
•Contar las Observaciones y Asignarlas a las Clases
Tabulando Datos Numéricos: Distribución de Frecuencias
clasesnoVmínVmáx
ancho.
Distribución de Frecuencias
Datos en arreglo ordenado:12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Clases Frecuencias
10 pero menor 20 3 .15 15
20 pero menor 30 6 .30 30
30 pero menor 40 5 .25 25
40 pero menor 50 4 .20 20
50 pero menor 60 2 .10 10
Total 20 1 100
FrecuenciaRelativa
Porcentaje
Histogram
0
3
65
4
2
00
2
4
6
8
5 15 25 36 45 55 More
Fre
qu
en
cy
Histograma
Datos en arreglo ordenado:12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Marcas de Clase
Sin Huecos Entre
Barras
Polígono de Frecuencias
Frequency
0
1
2
3
4
5
6
7
5 15 25 36 45 55 More
Datos en arreglo ordenado:12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Marcas de Clase
Frecuencia FrecuenciaClase Absoluta Acumulada %
10 pero menor 20 3 15
20 pero menor 30 9 45
30 pero menor 40 14 70
40 pero menor 50 18 90
50 pero menor 60 20 100
Frecuencia Acumulativa
Datos en arreglo ordenado:12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
La Ojiva
(Polígono de % Acumulativo)
Datos en arreglo ordenado:12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Ojiva
0
20
40
60
80
100
120
10 20 30 40 50 60
Límites de Clase (No Puntos medios)
Tabulando y Graficando Datos Categóricos: Datos Univariados
Datos Categóricos
Tabulando Datos
Tabla de resumen
Graficando Datos
Diagrama de Pie
Diagrama de ParetoDiagrama de Barras
0
5
1 0
1 5
2 0
2 5
3 0
3 5
4 0
4 5
S t o c k s B o n d s S a vin g s C D
0
2 0
4 0
6 0
8 0
1 0 0
1 2 0
0 1 0 2 0 3 0 4 0 5 0
S to c k s
B o n d s
S a vin g s
C D
Tabla de Resumen(para la carpeta de un inversionista)
Categoría Inversión Cantidad Porcentaje (en miles $)
Acciones 46.5 42.27
Bonos 32 29.09
CD 15.5 14.09
Ahorros 16 14.55
Total 110 100
Son Variables Categóricas.
Diagrama de Barras(para una carpeta de un inversionista)
Carpeta de inversionista
0 10 20 30 40 50
Inventarios
Fondos
CD
Ahorros
Cantidad en 1000´s de $
Diagrama de Pie(para la carpeta de un inversionista)
Porcentajes redondeados al porcentaje más cercano.
Cantidad Invertida en miles de $
Ahorros
15%
CD 14%
Fondos
29%
Inventario
42%
Diagrama de Pareto
Eje para la gráfica de
línea mostrando
% acumulativo
invertido
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Stocks Bonds Savings CD
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Eje para diagrama de barras mostran-
do % invertido en cada
categoría
Tabulando y Graficando Datos Categóricos Bivariados
• Tablas de Contingencia
•Diagramas de Barra Múltiple
Tabulando Datos Categóricos: Datos Bivariados
Tabla de Contingencia: Inversiones en Miles de Doláres
Categoría de Inversión A Inversión B Inversión C Total Inversión
Inventario 46.5 55 27.5 129
Fondos 32 44 19 95
CD 15.5 20 13.5 49
Ahorros 16 28 7 51
Total 110 147 67 324
Graficando Datos Categóricos: Datos Bivariados
Comparando Inversiones
0 10 20 30 40 50 60
Stocks
Bonds
CD
Savings
Investor A Investor B Investor C
Diagrama de Barras
Múltiple
Principios de Gráficas de Excelencia
Presentación bien diseñada de datos provee de:SustanciaEstadísticosDiseño
Comunicar ideas complejas con claridad, precisión y eficiencia
Dar el mayor número de ideas de la manera más eficienteSe involucran varias dimensionesRequiere la verdad acerca de los datos
Errores en la Presentación de Datos
Usando ‘basura’
Ninguna base relativa Comparando los datos Lotes
Comprimiendo el eje Vertical
El cero no es un punto en el
eje Vertical
‘Basura’
Buena Presentación
1960: $1.00
1970: $1.60
1980: $3.10
1990: $3.80
Salario Mínimo Salario Mínimo
0
2
4
1960 1970 1980 1990
$
Mala Presentación
Bases No Relativas
Buena PresentaciónA’s recibido por
estudiantes.A’s recibido por
estudiantes.
Mala Presentación
0
200
300
FR SO JR SR
Frec.
10%
30%
FR SO JR SR
%
FR = Freshmen, SO = Sophomore, JR = Junior, SR = Senior
Compresión del eje Vertical
Buena Presentación
Ventas Trimestrales
Ventas Trimestrales
Mala Presentación
0
25
50
Q1 Q2 Q3 Q4
$
0
100
200
Q1 Q2 Q3 Q4
$
No Existencia del Punto Cero en el eje Vertical
Buena Presentación
Ventas Mensuales
Ventas Mensuales
Mala Presentación
0
39
42
45
J F M A M J
$
36
39
42
45
J F M A M J
$
Graficando los primeros seis meses de ventas.
36
No existencia del Cero en el eje Vertical
Buena Presentación
Ventas Mensuales
Ventas Mensuales
Mala Presentación
0
20
40
60
J F M A M J
$
36
39
42
45
J F M A M J
$
Graficando los primeros seis meses de ventas.
Temas del Capítulo
Medidas de Tendencia Central, Dispersión y Forma para una Muestra
Media, Mediana, Moda, Rango Medio, Cuartiles, Eje Medio
Rango, Rango Intercuartil, Varianza, Desviación Estándar, Coeficiente de Variación
Sesgo Derecho, Sesgo Izquierdo, Simétrica
Temas del Capítulo (continuación)
•Análisis Exploratorio de Datos
Resumen de cinco Números
Diagrama de Caja y Brazos
•Resumiendo, Reorganizando y Practicando Propiedades Descriptivas y Explorando Problemas Eticos.
Medidas de Tendencia Central
Tendencia Central
Media Mediana Moda Rango Medio
Eje Medio
•Es el promedio aritmético de datos:
La Media
Media Muestral
Media de la Población
Tamaño de la muestra
Tamaño de la Población
nXXX
nX
X ni ...21
NXXX
NX Ni ...21
•La Medida de Tendencia Central más común
•AfectadaAfectada por valores extremos (Outliers)
La Media
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Media = 5 Media = 6
La Mediana
•Medida de Tendencia Central
•En un arreglo ordenado, la mediana es el número que está “a la mitad” del arreglo.
•Si n es impar, la mediana es el número medionúmero medio.
•Si n es parpar, la mediana es el promedio de los promedio de los 2 números del medio2 números del medio.
La Mediana
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Mediana = 5 Mediana = 5
•No es afectadaNo es afectada por valores extremos
La Moda
•Es una Medida de Tendencia Central
•Valores que ocurren con mayor frecuencia (valor típico).
•No No eses afectada afectada por valores extremos
Moda = 8
0 1 2 3 4 5 6 7 8 9 10 11 12 13
La Moda
•Puede que nono exista Moda•Puede haber varias Modas
•Usado para Datos numéricos o categóricos.
0 1 2 3 4 5 6Sin Moda
0 1 2 3 4 5 6
Dos Modas
Rango Medio
•Una Medida de Tendencia Central
•Promedio de la observación más
pequeña y la más grande:
2XX
medioRango minmax
Rango Medio
•AfectadoAfectado por valores extremos
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
Rango Medio = 5 Rango Medio = 3
Cuartiles
No es una medida de tendencia centralParte los datos ordenados en 4 cuartos
Posición del i-ésimo cuartil:
4
1 niQi
25% 25% 25% 25%
Q1 Q2
Datos Ordenados: 11 12 13 16 16 17 18 21 22
Posición de Q1 = 2.50 Q1=2.5= 1•(9 + 1)4
Q3 Q4
Eje Medio
Es una medida de tendencia centralEs el punto medio del 1er. y 3er. cuartilNo es afectadoNo es afectado por valores extremos
Eje medio =
Datos Ordenados: 11 12 13 16 16 17 18 21 22
Eje Medio =
1 3Q Q
2
1 3Q Q 12.5 19.516
2 2
Medidas de Dispersión
Varianza
Desviación Estándar
Coeficiente de Variación
Rango
Rango Intercuartil
• Medida de dispersión
• Diferencia Entre la más grande y la más pequeña observación:
• IgnoraIgnora Cómo los datos están Distribuidos:
El Rango
7 8 9 10 11 12
Rango = 12 - 7 = 5
7 8 9 10 11 12
Rango = 12 - 7 = 5
minmax xxRango
• Medida de dispersión
• Considera la dispersión de la mitad (parte central) de los datos.
• Se obtiene al restar el primer cuartil del tercer cuartil
• No se vé afectadoNo se vé afectado por los valores extremos
Rango Intercuartil
13 QQ Arreglo ordenado: 11 12 13 16 16 17 17 18 21
13 QQ = 17.5 - 12.5 = 5
•Es la más importante medida de dispersión
•Muestra la variación con respecto a la media:
•Varianza poblacional:
•Varianza muestral:
Varianza
N
xN
1i
2i
2
11
2
2
n
xxs
n
ii
•Al igual que la varianza, es la medida de dispersión más importante
•Tiene la misma unidad de medida que las observaciones
•Poblacional:
•Muestral:
Desviación Estándar
N
X i
2
1
2
n
XXs i
Desviación Estándar Muestral
1
2
n
XXs i
Datos: xi= 10 12 14 15 17 18 18 24
n = 8 media =16
2426.418
)1624()1618()1617()1615()1614()1612()1610( 2222222
s
Coeficiente de variaciónMedida relativa de variaciónEs un porcentajeMuestra la variación respecto a la mediaUsada para comparar 2 o más grupos
100%
X
SCV
Comparación del CV
Stock A: Precio promedio = $50 Desviación Estándar= $5 Stock B: Precio promedio = $100 Desviación Estándar = $5
100%
X
SCV
Coeficiente de Variación:
Stock A: CV = 10%
Stock B: CV = 5%
Sesgo Describe cómo están distribuidos los datos Medidas de sesgo:
Simétricos o sesgados
Sesgado a la derecha
Sesgado a la izquierda
Simétrico
Media = Mediana =Moda Media < Mediana < Moda Moda < Mediana < Media
Análisis exploratorio de datos
Diagrama de Caja y brazos:
Mediana(Q2)
4 6 8 10 12
Q3Q1
XmáximaXmínima
Sesgo y Diagrama de Caja y Brazos
Sesgo a la der.Sesgo a la izq. Simétrico
Q1
Mediana Q3Q1
Mediana
Q3Q
1
Mediana Q3
¡Gracias!
Top Related