Post on 07-Jul-2018
8/18/2019 Sesiones 1-4
1/68
Estadística para losNegocios
Gonzalo Panizo
Centrum
14 de Agosto, 2011
8/18/2019 Sesiones 1-4
2/68
Resumen
- Dos estadísticas- Estadística Descriptiva
- Tablas y Gráficos- Medidas de tendencia central- Medidas de dispersión- Medidas de Correlación
8/18/2019 Sesiones 1-4
3/68
Requisitos:- Motivación (tarea mutua)
- Álgebra Básica y
- Practicar
8/18/2019 Sesiones 1-4
4/68
Descripció n de los
Datos
8/18/2019 Sesiones 1-4
5/68
Dos tipos de Estadística
Figura: De descriptiva a inferencial
8/18/2019 Sesiones 1-4
6/68
Tres Personajes
Dr. Estadisnó ico: Conoce todas la cifras y está al tanto de los últimos datos. En el puede confiar.
Juan Simplón: Tiene buenas intenciones y muchas ideas pero no es seguro que funcione lo quepropone. Cuidado, lo puede meter en problemas.
Pepe el Vivo: Maneja bien la estadística y sabe
presentar las cifras pero prioriza sus objetivos. Nose deje convencer sin tener su propia evaluación.
8/18/2019 Sesiones 1-4
7/68
¿Có mo decidimos?Grandes errores podemos cometer si no tomamos encuenta los datos y la estadística. O si queremos usarlasin entenderla.
La razón es que las decisiones involucran factores inciertos o poco entendidos:
- la competencia- el gobierno
- la tecnología- el comportamiento de los clientes- las condiciones económicas- · · ·
8/18/2019 Sesiones 1-4
8/68
Estadística Descriptiva
- Población: es el objeto de estudio (consumidores
de helado, botellas de cerveza de una marca, empresas del rubro seguros, . . . )- Unidad estadística (unidad de análisis): elementos de
la población
- Muestra: Parte representativa de la población
8/18/2019 Sesiones 1-4
9/68
Estadística Descriptiva Variable: Propiedad o característica particular (objeto de atenció n), puede ser continua o discreta.
8/18/2019 Sesiones 1-4
10/68
Estadística Descriptiva Variable: Propiedad o característica particular (objeto de atenció n), puede ser continua o discreta.
- Variables Cualitativas : Escala Nominal (etiqueta) : color, sexo, comida
Escala Ordinal (establece un orden) : calidad, prestigio
8/18/2019 Sesiones 1-4
11/68
Estadística Descriptiva Variable: Propiedad o característica particular (objeto de atenció n), puede ser continua o discreta.
- Variables Cualitativas : Escala Nominal (etiqueta) : color, sexo, comida
Escala Ordinal (establece un orden) : calidad, prestigio- Variables Cuantitativas :
Escala de Intervalo (mide, usa unidades de medida) : temperatura, ubicació n
Escala de Razón (cero representa ausencia) : edad, distancia
8/18/2019 Sesiones 1-4
12/68
Estadística Descriptiva Variable: Propiedad o característica particular (objeto de atenció n), puede ser continua o discreta.
- Variables Cualitativas : Escala Nominal (etiqueta) : color, sexo, comida
Escala Ordinal (establece un orden) : calidad, prestigio- Variables Cuantitativas :
Escala de Intervalo (mide, usa unidades de medida) : temperatura, ubicació n
Escala de Razón (cero representa ausencia) : edad, distancia
Análisis exploratorio de datos : Resumen de los datos (pérdida de informació n)
8/18/2019 Sesiones 1-4
13/68
Estadística Descriptiva Variable: Propiedad o característica particular (objeto de atenció n), puede ser continua o discreta.
- Variables Cualitativas : Escala Nominal (etiqueta) : color, sexo, comida
Escala Ordinal (establece un orden) : calidad, prestigio- Variables Cuantitativas :
Escala de Intervalo (mide, usa unidades de medida) : temperatura, ubicació n
Escala de Razón (cero representa ausencia) : edad, distancia
Análisis exploratorio de datos : Resumen de los datos (pérdida de informació n) Estadísticos : Indicativos numéricos
8/18/2019 Sesiones 1-4
14/68
Estadística Inferencial
- Probabilidad
- Distribuciones- Parámetros de las distribuciones (o las poblaciones)- Tests estadísticos
8/18/2019 Sesiones 1-4
15/68
Tablas y Gráficos ¿Que vamos a describir? : Antes de comenzar definirclaramente la población y la (las) variable de interés.
Análisis exploratorio de datos (una variable) :
Lista de datos cruda
8/18/2019 Sesiones 1-4
16/68
Tablas y Gráficos ¿Que vamos a describir? : Antes de comenzar definirclaramente la población y la (las) variable de interés.
Análisis exploratorio de datos (una variable) :
Lista de datos cruda
Matriz de datos (ordenados)
8/18/2019 Sesiones 1-4
17/68
Tablas y Gráficos ¿Que vamos a describir? : Antes de comenzar definirclaramente la población y la (las) variable de interés.
Análisis exploratorio de datos (una variable) :
Lista de datos cruda
Matriz de datos (ordenados)
Tabla de Distribución de Frecuencias (gráfico debarras) : frecuencia absoluta, relativa
8/18/2019 Sesiones 1-4
18/68
Tablas y Gráficos ¿Que vamos a describir? : Antes de comenzar definirclaramente la población y la (las) variable de interés.
Análisis exploratorio de datos (una variable) :
Lista de datos cruda
Matriz de datos (ordenados)
Tabla de Distribución de Frecuencias (gráfico debarras) : frecuencia absoluta, relativa
Histograma (clases, marcas de clase) : para variablescontinuas como discretas
8/18/2019 Sesiones 1-4
19/68
Tablas y Gráficos ¿Que vamos a describir? : Antes de comenzar definirclaramente la población y la (las) variable de interés.
Análisis exploratorio de datos (una variable) :
Lista de datos cruda
Matriz de datos (ordenados)
Tabla de Distribución de Frecuencias (gráfico debarras) : frecuencia absoluta, relativa
Histograma (clases, marcas de clase) : para variablescontinuas como discretas
Tabla de frecuencias acumuladas
8/18/2019 Sesiones 1-4
20/68
Resumen Numérico de
los Datos
8/18/2019 Sesiones 1-4
21/68
Resumen Numérico de
los Datos, Estadísticos- Medidas de Tendencia Central : Media, Moda, . . .- Medidas de Dispersión : Rango, Desviación
Estándar, . . .- Medidas de Correlación : Coeficiente de
correlació n de Pearson, . . .
8/18/2019 Sesiones 1-4
22/68
La Moda
Para una lista de datos, la Moda es el dato que más serepite.
8/18/2019 Sesiones 1-4
23/68
La Moda
Para una lista de datos, la Moda es el dato que más serepite.
Variable Banco del Cliente :Crédito BBVA Scotia BBVA Crédito InterbancCrédito HSBC
8/18/2019 Sesiones 1-4
24/68
La Moda
Para una lista de datos, la Moda es el dato que más serepite.
Variable Banco del Cliente :Crédito BBVA Scotia BBVA Crédito InterbancCrédito HSBC
La moda es:
= Crédito
8/18/2019 Sesiones 1-4
25/68
La Moda
Para una lista de datos, la Moda es el dato que más serepite.
Variable Banco del Cliente :
Crédito BBVA Scotia BBVA Crédito InterbancCrédito HSBC
La moda es:
= CréditoOJO: Pueden haber dos o más modas
8/18/2019 Sesiones 1-4
26/68
Media ¯ "Para Datos Numéricos". Es simplemente el promedio de los datos
8/18/2019 Sesiones 1-4
27/68
Media ¯ "Para Datos Numéricos". Es simplemente el promedio de los datos
Variable Salario :
,
,
,
,
,
8/18/2019 Sesiones 1-4
28/68
Media ¯ "Para Datos Numéricos". Es simplemente el promedio de los datos
Variable Salario :
,
,
,
,
,
La media es:
¯
=
+
+
+
+
= ( , + , + , + , + , ) ÷ = ,
8/18/2019 Sesiones 1-4
29/68
Media ¯ "Para Datos Numéricos". Es simplemente el promedio de los datos
Variable Salario :
,
,
,
,
,
La media es:
¯
=
+
+
+
+
= ( , + , + , + , + , ) ÷ = ,
NOTA: La media para toda la población se acostumbra
denotar por µ
8/18/2019 Sesiones 1-4
30/68
Media Ponderada ¯ Si los datos se repiten se los pondera por el número de repeticiones
8/18/2019 Sesiones 1-4
31/68
Media Ponderada ¯ Si los datos se repiten se los pondera por el número de repeticiones
Variable Salario :
,
=
,
=
,
=
8/18/2019 Sesiones 1-4
32/68
Media Ponderada ¯ Si los datos se repiten se los pondera por el número de repeticiones
Variable Salario :
,
=
,
=
,
=
La media es:
¯
=
×
+
×
+
×
+
+
= ( ,
×
+
,
×
+
,
) ÷ (
+
+
) =
,
8/18/2019 Sesiones 1-4
33/68
Media Ponderada ¯ Si los datos se repiten se los pondera por el número de repeticiones
Variable Salario :
,
=
,
=
,
=
La media es:
¯
=
×
+
×
+
×
+
+
= ( ,
×
+
,
×
+
,
) ÷ (
+
+
) =
,
NOTA: Se usa en tablas de frecuencias
8/18/2019 Sesiones 1-4
34/68
Mediana
Es el término central luego de ordenar los datos
8/18/2019 Sesiones 1-4
35/68
Mediana
Es el término central luego de ordenar los datos
Variable Salario :
,
,
,
,
,
8/18/2019 Sesiones 1-4
36/68
Mediana
Es el término central luego de ordenar los datos
Variable Salario :
,
,
,
,
,
La mediana es:
= ,
8/18/2019 Sesiones 1-4
37/68
Mediana
Es el término central luego de ordenar los datos
Variable Salario :
,
,
,
,
,
La mediana es:
= ,
NOTA: Si la muestra tiene un número par de datos lamediana se define como el promedio de los dos términos centrales
8/18/2019 Sesiones 1-4
38/68
Media Geométrica "Para números positivos". Es la raíz enésima delproducto de
datos
8/18/2019 Sesiones 1-4
39/68
Media Geométrica "Para números positivos". Es la raíz enésima delproducto de
datos
Variable Rendimiento Mensual :
%
%
− %
%
8/18/2019 Sesiones 1-4
40/68
Media Geométrica "Para números positivos". Es la raíz enésima delproducto de
datos
Variable Rendimiento Mensual :
%
%
− %
%
Para el cálculo de rendimiento promedio se calcula lamedia geométrico de los factores de rendimiento, pues:
( +
̄ ) = (
+
)( +
)( +
)( +
), luego:
8/18/2019 Sesiones 1-4
41/68
Media Geométrica "Para números positivos". Es la raíz enésima delproducto de
datos
Variable Rendimiento Mensual :
%
%
− %
%
Para el cálculo de rendimiento promedio se calcula lamedia geométrico de los factores de rendimiento, pues:
( +
̄ ) = (
+
)( +
)( +
)( +
), luego:
( +
̄ ) =
= [(
+
)( +
)( +
)( +
)] /
8/18/2019 Sesiones 1-4
42/68
Media Geométrica "Para números positivos". Es la raíz enésima delproducto de
datos
Variable Rendimiento Mensual :
%
%
− %
%
Para el cálculo de rendimiento promedio se calcula lamedia geométrico de los factores de rendimiento, pues:
( +
̄ ) = (
+
)( +
)( +
)( +
), luego:
( +
̄ ) =
= [(
+
)( +
)( +
)( +
)] /
= [( + , )( + , )( − , )( + , )] / = ,
8/18/2019 Sesiones 1-4
43/68
Media Geométrica "Para números positivos". Es la raíz enésima delproducto de
datos
Variable Rendimiento Mensual :
%
%
− %
%
Para el cálculo de rendimiento promedio se calcula lamedia geométrico de los factores de rendimiento, pues:
( +
̄ ) = (
+
)( +
)( +
)( +
), luego:
( +
̄ ) =
= [(
+
)( +
)( +
)( +
)] /
= [( + , )( + , )( − , )( + , )] / = , Así el rendimiento promedio es
̄ =
− =
,
8/18/2019 Sesiones 1-4
44/68
Ejemplo 1Una empresa dedicada al rubro de calzado divide supresupuesto en insumos de la siguiente manera:
50 % electricidad 40 % cuero
10 % zuelas Si la tarifa de la electricidad se incrementó en 20 %, elcuero en 10% y las zuelas en 1%, ¿en que porcentaje se elevó el presupuesto de los insumos de la empresa?
E 1
8/18/2019 Sesiones 1-4
45/68
Ejemplo 1Una empresa dedicada al rubro de calzado divide supresupuesto en insumos de la siguiente manera:
50 % electricidad 40 % cuero
10 % zuelas Si la tarifa de la electricidad se incrementó en 20 %, elcuero en 10% y las zuelas en 1%, ¿en que porcentaje se elevó el presupuesto de los insumos de la empresa?
SOLUCIÓ N: Debemos calcular el promedio de los incrementos, ponderado por la proporció n delpresupuesto dedicado a cada insumo, ( ×
% + ×
% + ×
%)÷
( + + ) = , %
M i i ió
8/18/2019 Sesiones 1-4
46/68
Medidas de dispersión
E R
8/18/2019 Sesiones 1-4
47/68
El RangoEs la diferencia entre el mayor y el menor dato
El R
8/18/2019 Sesiones 1-4
48/68
El RangoEs la diferencia entre el mayor y el menor dato
Variable Precio de Minera Buenaventura durante lasemana:
, , , , ,
El rango es ,
−
,
=
,
El R
8/18/2019 Sesiones 1-4
49/68
El RangoEs la diferencia entre el mayor y el menor dato
Variable Precio de Minera Buenaventura durante lasemana:
, , , , ,
El rango es ,
−
,
=
,
NOTA: Puede dar un primer indicio de valores atípicos
(outliers)
V i t l
8/18/2019 Sesiones 1-4
50/68
Varianza muestral
Para datos numéricos
,
, . . . ,
se define como
= (
− ¯ ) + · · · + (
− ¯ ) −
V i t l
8/18/2019 Sesiones 1-4
51/68
Varianza muestral
Para datos numéricos
,
, . . . ,
se define como
= (
− ¯ ) + · · · + (
− ¯ ) −
Variable Edades de Asegurados:
V i m t l
8/18/2019 Sesiones 1-4
52/68
Varianza muestral
Para datos numéricos
,
, . . . ,
se define como
= (
− ¯ ) + · · · + (
− ¯ ) −
Variable Edades de Asegurados:
Para la varianza primero necesitamos la media
¯
= (
+ +
+
)/
=
/
=
, luego
= ( − ) + ( − ) + ( − ) + ( − )
= ( +
+
+
)/
=
,
Varia a m stral
8/18/2019 Sesiones 1-4
53/68
Varianza muestral
Para datos numéricos
,
, . . . ,
se define como
= (
− ¯ ) + · · · + (
− ¯ ) −
Variable Edades de Asegurados:
Para la varianza primero necesitamos la media
¯
= (
+ +
+
)/
=
/
=
, luego
= ( − ) + ( − ) + ( − ) + ( − )
= ( +
+
+
)/
=
,
NOTA: El efecto de los valores extremos es mucho
mas importante
Varianza poblacional
8/18/2019 Sesiones 1-4
54/68
Varianza poblacional σ
Para
,
, . . . ,
se define como
σ = (
− ¯ ) + · · · + (
− ¯ )
Varianza poblacional
8/18/2019 Sesiones 1-4
55/68
Varianza poblacional σ
Para
,
, . . . ,
se define como
σ = (
− ¯ ) + · · · + (
− ¯ )
Variable Edades de Asegurados (població n de 4 es también posible):
Varianza poblacional σ
8/18/2019 Sesiones 1-4
56/68
Varianza poblacional σ
Para
,
, . . . ,
se define como
σ = (
− ¯ ) + · · · + (
− ¯ )
Variable Edades de Asegurados (població n de 4 es también posible):
En este caso
σ = ( − ) + ( − ) + ( − ) + ( − )
=
Desviació n Estándar
8/18/2019 Sesiones 1-4
57/68
Desviació n EstándarEs la raíz cuadrada de la Varianza Muestral
=
√
o Poblacional σ = √ σ . Estima mejor la magnitud de la dispersió n de los datos
Desviació n Estándar
8/18/2019 Sesiones 1-4
58/68
Desviació n EstándarEs la raíz cuadrada de la Varianza Muestral
=
√
o Poblacional σ = √ σ . Estima mejor la magnitud de la dispersió n de los datos
Ejemplos
- Para los datos de edades anteriores, la desviación estándar muestral es:
=
√ ,
=
,
y la poblacional
σ =√
= ,
- Datos iguales:
,
,
,
, ,
=
- Si se sube o baja todos los datos σ no cambia- Si se dobla el valor de los datos σ se dobla- (Tchebychev) En una población la proporción de
datos que se encuentran entre µ− σ y µ +
σ es
mayor a − (
/
)
Coeficiente de
8/18/2019 Sesiones 1-4
59/68
Coeficiente de
Variació nLa dispersión de los datos no se puede tomar comouna magnitud absoluta. Es muy distinta una desviación estándar de unos metros para la altura de edificaciones
que para distancias a otras ciudades.
Coeficiente de
8/18/2019 Sesiones 1-4
60/68
Coeficiente de
Variació nLa dispersión de los datos no se puede tomar comouna magnitud absoluta. Es muy distinta una desviación estándar de unos metros para la altura de edificaciones
que para distancias a otras ciudades.
Por lo tanto interesa la dispersió n relativa. Elcoeficiente de variación se define, cuando como :
=
¯ × %
Si
es menor a 10 % se considera que la dispersió n es baja
Simetría y medida de
8/18/2019 Sesiones 1-4
61/68
Simetría y medida de
CurtosisCoeficiente de asimetría de Fisher (si vale
los datos
están ubicados simétricamente respecto a su media) :
=
= (
− ¯ ) ( − )
Simetría y medida de
8/18/2019 Sesiones 1-4
62/68
Simetría y medida de
CurtosisCoeficiente de asimetría de Fisher (si vale
los datos
están ubicados simétricamente respecto a su media) :
=
= (
− ¯ ) ( − )
Coeficiente de Curtosis (si es mayor a los datos
están mas concentrados cerca de la media) :
=
= (
− ¯ ) ( − ) −
Correlación de Pearson
8/18/2019 Sesiones 1-4
63/68
Correlación de Pearson Se define la Covarianza de datos bidimensionales(
,
), (
,
), . . . como :
(
,
) =
= (
− ¯
)(
− ¯
)
(
− )
Correlación de Pearson
8/18/2019 Sesiones 1-4
64/68
Correlación de Pearson Se define la Covarianza de datos bidimensionales(
,
), (
,
), . . . como :
(
,
) =
= (
− ¯
)(
− ¯
)
(
− )
Y la correlació n como :
= ( , )
-
está entre − y - Si
vale no hay relació n positiva o negativa;
hay una relació n simétrica en el plano
Regresió n
8/18/2019 Sesiones 1-4
65/68
Regresió nLa recta que mejor se acerca a los datosbidimensionales (
,
) es:
= β
+ β
dondeβ
= ( , )
y β
= ¯ − β
¯
Regresió n
8/18/2019 Sesiones 1-4
66/68
Regresió nLa recta que mejor se acerca a los datosbidimensionales (
,
) es:
= β
+ β
dondeβ
= ( , )
y β
= ¯ − β
¯
- Esta recta pasa por (¯ , ¯ )
- La recta se escogió de modo que las diferencias
− (β
+ β
) (llamadas valores residuales) sean lomenor posible
- Permite "predecir" si se conoce
Ejemplo 2
8/18/2019 Sesiones 1-4
67/68
Ejemplo 2La producción de gasolina durante los últimos
días enuna refinería ha sido de 150 000 galones en promedio, con una desviación estándar de 1 000 galones. ¿Estima la proporció n de días en que la producció n seubicó entre 148 000 y 152 000 galones?
Ejemplo 2
8/18/2019 Sesiones 1-4
68/68
Ejemplo 2La producción de gasolina durante los últimos
días enuna refinería ha sido de 150 000 galones en promedio, con una desviación estándar de 1 000 galones. ¿Estima la proporció n de días en que la producció n seubicó entre 148 000 y 152 000 galones?
SOLUCIÓ N: Como nos piden estimar la proporció n de días en que la producció n se ubicó en un intervalopodemos usar Tchebychev. Para eso necesitamos que:
µ− σ = y µ + σ =
Tenemos µ =
y σ =
. Vemos que =
funciona. Luego la proporció n buscada es de al menos
− / =
− / = ,