Post on 18-Nov-2014
description
Ing. Sergio D. Salimbeni, MBA, PhD Página 1
SERGIO D. SALIMBENI
Introducción a las
Estadísticas
Activus Book 61
Ing. Sergio D. Salimbeni, MBA, PhD Página 2
Contenido
1. Introducción .................................................................................................... 3
2. Estadísticas .................................................................................................... 4
2.1. Introducción a las estadísticas ................................................................. 4
2.2. Estadística Descriptiva............................................................................. 5
2.3. Medidas de Tendencia Central y de Dispersión ...................................... 8
2.4. Medidas de tendencia central .................................................................. 8
2.5. Medidas de dispersión ........................................................................... 10
2.6. Medidas de Asimetría ............................................................................ 11
2.7. Ejemplo numérico .................................................................................. 13
3. Probabilidades .............................................................................................. 16
3.1. Tipos de Probabilidad ............................................................................ 17
3.2. Teorema de Bayes ................................................................................ 19
3.3. Distribución de Probabilidad .................................................................. 20
4. Regresión y Correlación ............................................................................... 26
4.1. Correlación entre variables .................................................................... 26
4.2. Regresión Lineal Simple ........................................................................ 29
4.3. Regresión lineal múltiple ........................................................................ 30
4.4. Regresión no lineal ................................................................................ 31
4.5. Pronósticos ............................................................................................ 31
4.6. Regresión Logística ............................................................................... 32
5. Índice de Ilustraciones .................................................................................. 35
6. Índice de tablas ............................................................................................ 36
7. Índice de Ecuaciones ................................................................................... 37
8. Índice Onomástico ........................................................................................ 38
9. Bibliografía ................................................................................................... 39
Ing. Sergio D. Salimbeni, MBA, PhD Página 3
1. Introducción
La globalización, las nuevas tecnologías, la abundancia de datos, un mundo en
constante y vertiginoso cambio, este es el escenario complejo en el cual se
desarrollan los negocios.
Justamente por ello, la correcta toma de decisiones estará fuertemente
influenciada por la capacidad para decidir, y el contar con más y mejores
herramientas para analizar los diferentes escenarios.
Contar con infinidad de datos, no significa precisamente contar con
información.
Datos ordenados, organizados de forma coherente, son los que proveerán
buena información. Desde este punto de vista, un dato no será más que una
unidad de información, que en sí mismo no aportaría demasiado.
Ahora bien, si se trata ese conjunto de datos con herramientas acordes, con
sistemas de ayuda para la toma de decisiones, ello nos estará proveyendo
Información.
Una vez que el profesional cuenta con información de buena calidad, es
cuando esta bajo su responsabilidad el tomar las mejores decisiones, eligiendo
entre diferentes alternativas.
En el mundo de la administración se encontrarán diferentes e innumerables
situaciones donde se deban tomar decisiones, ya sea en escenarios de
certidumbre, incertidumbre o en ambientes de riesgo.
Se estudiarán desde las bases de las probabilidades y las estadísticas, hasta
diferentes técnicas y modelos de simulación, de modo de resolver de la mejor
manera posible, es decir optimizando los resultados, cada una de esas
situaciones.
…………………………………………………………………………………………
Ing. Sergio D. Salimbeni, MBA, PhD Página 4
2. Estadísticas
2.1. Introducción a las estadísticas
Históricamente, el desarrollo de la estadística puede ser entendido a partir de
dos fenómenos distintos: la necesidad de los gobiernos de colectar datos
censarios, y el desarrollo de la teoría del cálculo de las probabilidades1.
Han sido colectados datos a lo largo de toda la historia. En las civilizaciones Egipcia, Griega y Romana, algunos datos primarios eran recopilados con propósitos impositivos y / o militares. En la Edad Media, la iglesia recolectaba datos e informaciones sobre nacimientos, muertes y casamientos.
En los Estados Unidos, la Constitución de 1870 determinaba la realización de
censos cada 10 años.
Actualmente son necesarias para ciudadanos y organizaciones de todo tipo, y
en todo el mundo.
Estadística Descriptiva
Como el propio nombre lo sugiere, la organización, sumatoria y descripción de
un conjunto de datos es llamada estadística descriptiva.
Estadística Inferencial
El inicio de la formulación matemática de la teoría de las probabilidades, se dio
a partir de las investigaciones sobre los juegos de azar, a mediados del siglo
XVII, por medio de correspondencias entre el filósofo Pascal, y el jugador
Chevalier de Mere2.
1 (Martins 2005),pag.19
2 ibidem
Ing. Sergio D. Salimbeni, MBA, PhD Página 5
Otros matemáticos como Bernoulli, DeMoivre y Gauss, establecieron las bases
de la estadística Inferencial.
Más allá de ellos, en realidad recién en el siglo XX es que los métodos de las
técnicas de la estadística Inferencial, fueron desarrollados por estadísticos
como Pearson, Fisher y Gosset entre otros.
Se puede definir entonces a la Estadística Inferencial, como métodos que
tornan posible la estimación de características de una población basada en
resultados muestrales.
Se entiende por Población o universo, a la totalidad de los ítems, objetos o
personas bajo consideración.
Se entiende por muestra, a una parte de la población que es seleccionada para
el análisis.
2.2. Estadística Descriptiva
Niveles de mensuración
Es indispensable que el investigador tenga en claro el nivel de mensuración de
la variable que pretende analizar, pues depende de ese nivel de mensuración,
las posibles operaciones aritméticas entre sus valores y correspondientes
técnicas estadísticas permitidas para el análisis.
Nivel Nominal
El nivel nominal, envuelve simplemente el hecho de enumerar, rotular o
clasificar un objeto, persona o característica, por medio de números u otros
símbolos.
Por ejemplo:
1 Católico
Ing. Sergio D. Salimbeni, MBA, PhD Página 6
2 Judío
3 Protestante
4 Musulmán
5 Otros
Nivel Ordinal
Dada una variable con nivel de mensuración nominal en que la relación (mayor
que) valga para todos los pares de clases, es que se tiene entonces una escala
ordinal. Se ve en el siguiente ejemplo:
Valor en la Escala Profesión
80 Ingeniero químico
70 Ingeniero de producción
60 Actor
Nivel de Intervalos
En este caso, la variable puede asumir varias categorías que guarden una
relación de orden, además de los intervalos iguales de medición; ejemplos de
estos niveles de intervalos son: peso, altura, volumen, etc.
Un punto a tener en cuenta en este caso, es que el cero es arbitrario, no es
absoluto.
Niveles de razón
En este caso, el nivel de intervalos sí incluye el cero, que es real y absoluto.
Este cero absoluto significa que, en la escala, hay un punto donde no existe la
propiedad.
Normalmente, las variables con niveles de mensuración nominal y ordinal se
denominan Cualitativas, mientras que las variables con niveles de mensuración
de intervalos o razón son llamadas variables Cuantitativas.
Ing. Sergio D. Salimbeni, MBA, PhD Página 7
Descripción Grafica de las variables cuantitativas
El gráfico de barras, horizontales o verticales, y el diagrama de “torta”, son los
diagramas más utilizados para estos casos. Básicamente, ellos muestran las
cantidades observadas para cada “nivel”. Se ve esto en el siguiente ejemplo:
Ilustración 1 - Gráficos para variables Cualitativas
Descripción Gráfica de Variables Cuantitativas
Los histogramas son los gráficos más adecuados para la descripción de datos
oriundos de variables cuantitativas. Básicamente, ellos muestran las
frecuencias de las observaciones para cada valor o conjunto de valores de las
variables que se desean describir. Un ejemplo típico para estos casos es la
distribución de las edades en una población determinada. Se grafica este
ejemplo en la siguiente ilustración.
Ing. Sergio D. Salimbeni, MBA, PhD Página 8
Ilustración 2 - Gráficos para variables Cuantitativas
2.3. Medidas de Tendencia Central y de Dispersión
2.4. Medidas de tendencia central
Media Aritmética
La medida de tendencia central más común para un conjunto de datos es la
Media Aritmética, promedio o simplemente media. Se la representa por la letra
X y se la calcula de la siguiente forma:
Ecuación 1 - Media Aritmética
Mediana (Media Geométrica)
La mediana es el valor de la variable que deja el mismo número de datos antes
y después que él, una vez que los mismos fueran ordenados.
De acuerdo con esta definición, el conjunto de datos menores o iguales que la
mediana representarán el 50% de los datos, y los que sean mayores que la
mediana representarán el otro 50% del total de datos de la muestra.
Rango de
Edades
Cantidades
Observadas
18 - 25 6
26 - 32 10
33 - 39 13
40 - 46 8
47 - 53 6
54 - 60 5
61 - 65 2
0
2
4
6
8
10
12
14
18 - 25 26 - 32 33 - 39 40 - 46 47 - 53 54 - 60 61 - 65
Cantidades Observadas
Cantidades Observadas
Ing. Sergio D. Salimbeni, MBA, PhD Página 9
Como se verá más adelante, la mediana coincide con el percentil 50, con el
segundo cuartil y con el quinto decil.
En el caso de variables discretas, se puede calcular la mediana, de acuerdo a
la cantidad de elementos (impar o par) de las siguientes maneras:
Ecuación 2 - Mediana
Cuantiles
El término cuantil fue usado por primera vez por Kendall en 1940. El cuantil de
orden p de una distribución (con 0 < p < 1) es el valor de la variable “xp” que
marca un corte de modo que una proporción p de valores de la población es
menor o igual que “xp”.
Por ejemplo, el cuantil de orden 0,36 dejaría un 36% de valores por debajo y el
cuantil de orden 0,50 se corresponde con la mediana de la distribución.
Los cuantiles suelen usarse por grupos que dividen la distribución en partes
iguales, entendidas estas como intervalos que comprenden la misma
proporción de valores. Los más usados son:
Cuartil
Los Cuartiles, que dividen a la distribución en cuatro partes (corresponden a los
cuantiles 0,25; 0,50 y 0,75);
Los Cuartiles (Q) son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes porcentualmente iguales
Ilustración 3 - Cuartiles
Ing. Sergio D. Salimbeni, MBA, PhD Página 10
Quintil
Los Quintiles, que dividen a la distribución en cinco partes (corresponden a los
cuantiles 0,20; 0,40; 0,60 y 0,80);
Decil
Los deciles son aquellos que dividen a la distribución en diez partes iguales.
Percentil
Los Percentiles son aquellos que dividen a la distribución en cien partes.
Moda
En estadística, la Moda es el valor con una mayor frecuencia en una
distribución de datos.
Para distribuciones simples (sin agrupamiento en clases), la identificación de la
moda está dada por la simple observación del elemento que presenta la mayor
frecuencia.
2.5. Medidas de dispersión
Las medidas de dispersión son medidas estadísticas utilizadas para analizar el
grado de variabilidad, o dispersión, de los valores entorno de la Media. Los
mismos sirven para medir la representatividad de la Media.
Amplitud Total
Ing. Sergio D. Salimbeni, MBA, PhD Página 11
La amplitud es una medida de dispersión dada por la diferencia entre el mayor
y el menor valor de la serie.
Ecuación 3 - Amplitud Total
Varianza
Como se desea medir la dispersión de los datos en relación a la Media, es
interesante analizar los desvíos de cada valor (xi) en relación a la media (X). Si
los mismos fueran bajos, se tendrá poca dispersión, caso contrario, la
dispersión será grande.
El cálculo de la varianza se basa en el promedio de la sumatoria de los
cuadrados de los desvíos o alejamientos, tal como se indica a continuación:
Ecuación 4 - Varianza
Desvío estándar
El desvío estándar, o desviación típica (σ), es una medida de centralización o
dispersión para variables de razón (ratio o cociente) y de intervalo, de gran
utilidad en la estadística descriptiva.
Se define como la raíz cuadrada de la varianza.
Junto con este valor, la desviación típica es una medida (cuadrática) que
informa de la media de distancias que tienen los datos respecto de su media
aritmética, expresada en las mismas unidades que la variable.
Ecuación 5 - Desvío Estándar
2.6. Medidas de Asimetría
Coeficiente de variación
Ing. Sergio D. Salimbeni, MBA, PhD Página 12
El coeficiente de variación se trata de una medida relativa de dispersión.
Mientras que la amplitud total, la varianza, y el desvío estándar, son medidas
absolutas de dispersión, este coeficiente de variación mide la dispersión
relativa.
De este modo se tiene:
Ecuación 6 - Coeficiente de variación
Coeficiente de variación relativo
En este caso, el coeficiente se refiere al valor relativo respecto de la media
aritmética. De este modo, se dice que:
Ecuación 7 - Coeficiente de Variación Relativo
Definición del “Outlier”
En los trabajos de colección de datos, puede suceder que algunas mediciones
escapen de los resultados esperados. A esto se los conocen como “outliers”.
Se pueden definir los “outliers”, por ejemplo, a aquellas observaciones que
queden fuera de un CV relativo de 3.
Coeficiente de asimetría de Pearson
Se entiende por asimetría al grado de alejamiento, de una distribución, de la
unidad de simetría. En una distribución simétrica, hay igualdad de valores de la
media, la mediana y la moda.
Ecuación 8 - Coeficiente de Pearson
Ing. Sergio D. Salimbeni, MBA, PhD Página 13
A continuación, otro ejemplo de histogramas, donde se representan las
calificaciones obtenidas en una materia, para la totalidad de los alumnos.
Ilustración 4 - Histograma
2.7. Ejemplo numérico
Para ejemplificar todo lo visto anteriormente, se toma un caso práctico sobre el
cual se podrá analizar de manera simple todas estas medidas estadísticas.
Considérese una empresa compuesta por 60 empleados. Se conoce el salario
neto de cada uno de ellos, y se lo representa en una tabla y gráfica como la
que se observa a continuación:
Ilustración 5 - Representación de salarios de todos los empleados de una empresa
Ing. Sergio D. Salimbeni, MBA, PhD Página 14
En este tipo de casos, y con el fin de simplificar el análisis, se realiza el
denominado intervalo de clases.
Esto se entiende como que en el intervalo de entre $1000 y $3000 (representado por $2000 en la tabla a la izquierda) se tienen 14 empleados con ese rango de salarios. Se tienen 10 empleados que cobran entre $3000 y $5000 (4000 en la tabla), y así sucesivamente.
Con esta información (de clases) se grafica un histograma como el que se ve
en la siguiente ilustración:
Ilustración 6 – Histograma por clases
Aplicando todas las definiciones anteriores, se pueden calcular los siguientes
valores:
Intervalos Cant.
2.000 14
4.000 10
6.000 6
8.000 9
10.000 6
12.000 6
14.000 7
16.000 2
0 2 4 6 8 10 12 14 16
2.000
4.000
6.000
8.000
10.000
12.000
14.000
16.000
Cantidades por Clase
Población 60
Mínimo $ 1.000
Máximo $ 16.000
Amplitud $ 15.000
Cant. Clases 6,9
Tamaño de Intervalos $ 2.167
Medidas de Tendencia Central
Media Aritmética $ 7.683
Mediana $ 15.000
1er Cuartil $ 4.000
2do Cuartil $ 7.500
3er Cuartil $ 11.250
1er Decil
1er Percentil $ 2.000
2do Percentil $ 3.000
Ing. Sergio D. Salimbeni, MBA, PhD Página 15
Tabla 1 - Medidas de Tendencia Central y de Dispersión
En resumen, tanto la media, como la mediana, el modo y el desvío estándar,
son de las medidas más utilizadas en la estadística básica.
Respecto de este último, el desvío estándar, el cual será visto frecuentemente
en las técnicas cuantitativas, se puede utilizar unas simples reglas empíricas, a
saber:
Un desvío estándar ( , contiene entre el 60% y el 80% de todas las
observaciones muestrales.
Dos desvíos estándar (2 , contienen aproximadamente el 95% de las
observaciones.
En un intervalo de (3 , se encuentran prácticamente el 100% de las
observaciones.3
……………………………………………………………………………………………
3 (Martins 2005) pag.55
Medidas de Posición
Moda $ 3.000
Medidas de Dispersión
Amplitud total $ 15.000
Desviación Estándar $ 4.508
Intervalo de Confianza 957
Medidas de Asimetría
Coeficiente de Pearson 0,28
Ing. Sergio D. Salimbeni, MBA, PhD Página 16
3. Probabilidades
Todo sería bastante más sencillo si no existieran las incertidumbres, si todo
fuese ciento por ciento certero. Pero, la realidad muestra que las cosas no son
así, que muchas cosas pueden o no suceder, dependiendo de diferentes
factores no siempre mensurables. Debido a esto, existen posibilidades, en
mayor o menor grado, de que algo ocurra; esta posibilidad mensurada es la
probabilidad.
Se define probabilidad como el planteamiento numérico acerca de las
posibilidades de que ocurra un evento.
Ecuación 9 - Probabilidad
Existen dos reglas básicas en las matemáticas de la probabilidad:
1. La probabilidad P de que ocurra cualquier evento o estado de la
naturaleza es mayor o igual que cero y menor o igual que uno.
Una probabilidad “0” indica que dicho evento nunca ocurrirá.
Una probabilidad igual a “1” indica que dicho evento siempre ocurra.
2. La suma de las probabilidades simples de todos los resultados posibles
de una actividad debe ser igual a “1”
Propiedad de un elemento complementario:
Se dice que un elemento es complementario, cuando sumado al primero es
igual a uno. De esta forma:
Ing. Sergio D. Salimbeni, MBA, PhD Página 17
P(Ā) = 1 – P(A)
3.1. Tipos de Probabilidad
Probabilidad subjetiva
La probabilidad subjetiva es aquella que se determina en base a la experiencia
y sentido común de la persona que la determina.
Por ejemplo, cuando un gerente de ventas dice que existe una probabilidad del
80% de que se cumpla con la cuota de ventas.
Probabilidad Objetiva
Es la que se basa en experiencias sistemáticas, a través de sucesivas pruebas,
del número de veces que un evento ocurre.
Por ejemplo, lanzando sucesivamente una moneda, y luego de varios intentos,
se puede concluir que en la mitad de los casos el resultado será “cara”
mientras que, obviamente, en la otra mitad de las veces el resultado será
“cruz”; o sea, existe una probabilidad objetiva del 50% para cada caso.
Eventos mutuamente excluyentes
Se dice que ciertos eventos son mutuamente excluyentes cuando sólo uno de
ellos puede ocurrir en cualquier prueba; por ejemplo “cara” o “cruz” en la
moneda.
Eventos colectivamente exhaustivos
Se dice que los eventos son colectivamente exhaustivos si la lista de resultados
incluye todos los resultados posibles. El ejemplo anterior del lanzamiento de la
moneda, también cumple con esta propiedad, ya que cara o cruz representan
todos los resultados posibles.
Adición de Eventos
Ing. Sergio D. Salimbeni, MBA, PhD Página 18
Los eventos pueden ser mutuamente excluyentes o no. En el primer caso,
significa que la ocurrencia de una alternativa, hace imposible la aparición de la
otra. En el segundo caso, puede aparecer un área de solución común.
Mutuamente excluyentes:
P(A o B) = P(A) + P(B)
No mutuamente excluyentes: P(A o B) = P(A) + P(B) – P(A y B)
Ilustración 7 - Adición de Probabilidades
Eventos estadísticamente independientes o dependientes
Dos eventos se dicen estadísticamente independientes, cuando la ocurrencia
de uno no tiene efecto en la probabilidad de ocurrencia del otro. Por ejemplo en
el lanzamiento de dos dados en forma simultánea.
Dos eventos se dicen estadísticamente dependientes, cuando la ocurrencia de
uno se basa en el resultado del otro. Por ejemplo, si en una cuba tuviera tres
bolas negras y tres blancas, cuál es la probabilidad de tomar una negra y que
la segunda sea negra también.
Independientes:
P(AB) = P(A) x P(B)
Dependientes: P(A/B) = P(AB) / P(B)
P(A) P(B) P(A y B)
Ing. Sergio D. Salimbeni, MBA, PhD Página 19
3.2. Teorema de Bayes
El Teorema de Bayes se utiliza para incorporar información adicional a medida
que se dispone de ella, ayudando a calcular probabilidades posteriores o
revisadas.
Lo anterior, significa que se pueden tomar datos nuevos o recientes y entonces
revisar y mejorar los cálculos anteriores de probabilidades de un evento. Esto
se ilustra en la siguiente figura:
Probabilidades
Previas
Probabilidades
PosterioresProceso de Bayes
Información Previa
Ilustración 8 - Uso del Proceso de Bayes
Suponga tener tres gavetas idénticas, la gaveta G1 contiene dos monedas de
$0,50, la gaveta G2 dos monedas de $1 y la gaveta G3 una moneda de $0,50 y
otra de $1.
Se elije una gaveta. La probabilidad de haber elegido la G1, G2 o G3 es la
misma y es de 1/3, esta es la denominada probabilidad a-priori.
Ahora se retira una moneda de la gaveta antes elegida y se verifica que es una
moneda de $1.
Las probabilidades a priori se pueden ajustar ahora en base a esa nueva
información.
En este caso, las probabilidades ajustadas serán:
P (G1) = 0 P (G2) = 2/3 y P (G3) = 1/3
Estas son las denominadas probabilidades a posteriori.
Ing. Sergio D. Salimbeni, MBA, PhD Página 20
Las probabilidades revisadas se pueden calcular de una forma directa a
mediante el empleo de la forma general de Teorema de Bayes:
Ecuación 10 – Probabilidades ajustadas - Bayes
donde Ā es el complemento del evento A.
3.3. Distribución de Probabilidad
Variables Aleatorias
Una variable aleatoria asigna un número real a cada resultado posible o evento
en un experimento.
Por ejemplo X = número de celulares vendidos en un día.
Variable aleatoria discreta
Sea X una variable aleatoria, si el número de valores posibles de X fuese finito,
o infinito numerable, se dice que X es una variable aleatoria discreta.
Variable aleatoria continúa
Sea X una variable aleatoria, si el contra-dominio de X es un intervalo, o un
conjunto de intervalos, denominamos a X como una variable aleatoria continua.
Considérese el siguiente ejemplo.
Ing. Sergio D. Salimbeni, MBA, PhD Página 21
Se le pregunta a 100 estudiantes, si un libro de texto en particular les fue de
ayuda para la preparación de su examen final.
Las respuestas debían escogerse entre las siguientes:
5 Muy de acuerdo
4 De acuerdo
3 Neutral
2 En desacuerdo
1 Muy en desacuerdo
De esta manera se obtendrá una distribución de probabilidad discreta calculada
mediante el enfoque de la frecuencia relativa.
Los resultados obtenidos fueron los siguientes:
Tabla 2 - Distribución de Probabilidad Discreta
RespuestasVariable
Aleatoria
Número de
esutdiantes que
respondieron
Probabilidad
x y P(x)
Muy de Acuerdo 5 10 0,1
De acuerdo 4 20 0,2
Neutral 3 30 0,3
En desacuerdo 2 30 0,3
Muy en desacuerdo 1 10 0,1
100 1
Ing. Sergio D. Salimbeni, MBA, PhD Página 22
Ilustración 9 - Ejemplo de resultado de encuesta
Esta distribución respeta las tres reglas requeridas por todas las distribuciones
de probabilidad:
1. Los eventos son mutuamente excluyentes y colectivamente exhaustivos.
2. Los valores individuales de probabilidad se encuentran entre 0 y 1
3. La suma total de los valores de probabilidad es 1
Valor Esperado de una Distribución de Probabilidad Discreta
Una vez establecida una distribución de probabilidad, la primera característica
que generalmente se nota es la tendencia central de la distribución. El valor
esperado, una medida de la tendencia central, se calcula como el promedio
ponderado de los valores de la variable aleatoria:
Ecuación 11 - Valor Esperado
Ve(x) = (5)(0,1) + (4)(0,2) + (3)(0,3) + (2)(0,3) + (1)(0,1) = 2,9
Ing. Sergio D. Salimbeni, MBA, PhD Página 23
El valor esperado de 2,9 implica que la respuesta media está entre (2)
desacuerdo y (3) neutral, y que la respuesta promedio está más cerca de
neutral.
Distribución Binomial
En los negocios, muchas veces se encuentra este tipo de distribución, conocida
también como Bernoulli, donde sólo se encuentran dos resultados posibles,
tales como éxito o fracaso.
Para aplicarse una distribución binomial, se deben cumplir las siguientes
condiciones:
1. Cada prueba en un proceso Bernoulli sólo tiene dos resultados posibles.
2. La probabilidad permanece igual de una prueba a la siguiente
3. Las pruebas son estadísticamente independientes.
4. El número de pruebas es un entero positivo.
Nuevamente, un ejemplo clásico para este caso es el lanzamiento de una
moneda.
Distribución Normal
La distribución Normal, es una de las más utilizadas, y se caracteriza por ser
simétrica, y puede ser más o menos “aplastada”.
La ecuación que la representa, es medianamente compleja, y es la siguiente:
Ecuación 12 - Distribución Normal
Donde:
Variable aleatoria
Ing. Sergio D. Salimbeni, MBA, PhD Página 24
Número promedio
Base de logaritmos naturales = 2,718
Desvío estándar
Debido a la dificultad para su cálculo, es que se utilizan tablas normalizadas
para hallar sus valores, tal como se verá en adelante.
Ilustración 10 - Distribuciones "Normales"
Distribución Exponencial
La distribución exponencial, también llamada distribución exponencial negativa,
se utiliza para manejar problemas de filas de espera, por ejemplo.
Su función probabilidad, está dada por:
Ecuación 13 - Distribución Exponencial
Distribución de Poisson
Una importante distribución de probabilidad discreta es la distribución de
Poisson. La misma complementa a la distribución exponencial, y está descripta
por la siguiente ecuación:
Ecuación 14 - Distribución de Poisson
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
1 2 3 4 5 6 7 8 9 10
Distribución Normal
y
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
1 2 3 4 5 6 7 8 9 10
Distribución Normal
y
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
0,4000
0,4500
1 2 3 4 5 6 7 8 9 10
Distribución Normal
y
Ing. Sergio D. Salimbeni, MBA, PhD Página 25
Ilustración 11 - Distribución de Poisson
……………………………………………………………………………………………
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
0,4000
1 2 3 4 5 6 7 8 9 10
Distribución de Poisson
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
0,4000
1 2 3 4 5 6 7 8 9 10
Distribución de Poisson
Ing. Sergio D. Salimbeni, MBA, PhD Página 26
4. Regresión y Correlación
4.1. Correlación entre variables
La búsqueda de asociación entre variables, es frecuentemente uno de los
propósitos de las investigaciones empíricas.4 La posible existencia de relación
entre variables orienta al análisis, conclusiones y hallazgos en la investigación.
Suponga que Ud. cree, intuye, que existe alguna “relación” entre la publicidad
que realiza de un producto, y el nivel de las ventas del mismo. Observa mes a
mes que, en la medida que invierte más en publicidad, aumentan las ventas.
¿Existe alguna “relación” entre lo que Ud. invierte en publicidad y el volumen de
ventas? ¿Hay alguna forma de ver si esa relación es lineal o no? ¿Se puede
comprobar científicamente una relación entre ambas variables (ventas y
publicidad) dentro de ciertos márgenes de error?
A ese tipo de relaciones se las denominará “correlación”.
Se define entonces correlación a la fuerza y dirección de una relación, lineal o
no, entre dos variables independientes.
Se verán a continuación, algunas medidas de asociación entre dichas
variables.
Suponga tener un grupo de alumnos, que hayan cursado dos materias que, ud
en principio crea que exista alguna relación entre ambas.
Tabula para cada uno de sus alumnos, las calificaciones de ambas materias y
lo grafica.
La representación de cada una de ambas calificaciones, para cada alumno, en
un par de ejes cartesianos (en este caso Dirección general en función de
Comercialización) se denomina “Diagrama de Dispersión”.
El Diagrama de dispersión es la representación de dos variables,
supuestamente relacionadas, en un par de ejes cartesianos.
Lo antes mencionado se representa en la siguiente ilustración:
4 (Martins 2005) p.288
Ing. Sergio D. Salimbeni, MBA, PhD Página 27
Ilustración 12 - Diagrama de Dispersión
La correlación entre variables puede ser:
Simple o Múltiple
Positiva o Negativa
Lineal o No Lineal
La correlación se dice simple, cuando se estudian sólo entre dos variables. Si
el análisis es realizado entre más de dos variables, es denominada múltiple, y
obviamente la resolución es sólo analítica, ante la imposibilidad de representar
un diagrama de dispersión de más de dos variables.
Se dice positiva, cuando el aumento de la variable independiente, genera un
incremento en la variable dependiente, tal como el ejemplo de la inversión en
publicidad y las ventas.
Será negativa en el caso contrario, por ejemplo cuando se incrementa la
inflación y esto genera una disminución en las ventas.
En los casos de observarse una relación, en el diagrama de dispersión,
aproximada a una línea, es denominada correlación lineal.
Si la mejor representación de la relación entre variables, no es representada
por la ecuación de una recta, sino por cualquier otra función, es denominada
entonces No lineal.
María Juan Pedro Juana José Catalina Marcelo Rosa Roberto Silvia
Calificaciones Comercialización (x) 75 80 60 55 85 95 70 75 80 65
Calificaciones Dirección General (y) 85 85 65 60 80 95 60 80 80 60
0
10
20
30
40
50
60
70
80
90
100M
aría
Juan
Ped
ro
Juana
Jo
sé
Cata
lina
Marc
elo
Ro
sa
Ro
bert
o
Silv
ia
Calificaciones Comercialización (x)
Calificaciones Dirección General (y)
50
55
60
65
70
75
80
85
90
95
100
50 60 70 80 90 100
Ing. Sergio D. Salimbeni, MBA, PhD Página 28
Coeficiente de Correlación de Pearson
Este coeficiente, es un indicador de la “fuerza” de una relación lineal simple. Se
trata de una asociación entre las dos variables, que independientemente de sus
unidades, pueden variar entre -1 y +1.
En el caso de que dicho coeficiente sea igual a 1, se dice que existe una
correlación absoluta positiva, mientras que en el caso de -1 es una correlación
absoluta negativa. En el caso del coeficiente ser 0, dice de una correlación
inexistente.
Veamos lo dicho anteriormente en los siguientes diagramas de dispersión.
Ilustración 13 Correlación Lineal Positiva
Ilustración 14 - Correlación Lineal Negativa
Ilustración 15 - Correlación Nula
Ilustración 16 - Correlación Exponencial
Cálculo del Coeficiente de Correlación:
donde:
50
55
60
65
70
75
80
85
90
95
100
50 60 70 80 90 100
0
20
40
60
80
100
120
0 2 4 6 8 10 12
0
5
10
15
20
25
30
35
40
45
0 2 4 6 8 10 12
0
20
40
60
80
100
120
0 2 4 6 8 10 12
r =
Sxx Syy
Sxy
Ing. Sergio D. Salimbeni, MBA, PhD Página 29
4.2. Regresión Lineal Simple
La inferencia estadística fue tratada en términos de una única variable. Así,
cuando por ejemplo se tenía una muestra de empresas, se consideraba una
variable por vez, como para analizar la facturación. Mientras tanto, cuando se
tiene una muestra de una empresa, y hay varias variables que pueden ser
observadas en cada unidad de la muestra, el número de empresas, salarios,
etc. En el primer caso, cada unidad está asociada con las medidas de varias
variables.
Se va a considerar en este caso, el análisis de dos únicas variables, el análisis
bi-variado.
Primordialmente, el análisis de regresión se usa con el propósito de previsión.
El objetivo es desarrollar un modelo estadístico que se pueda usar para prever
valores de una variable dependiente “y” en función de una variable
independiente “x”, o de varias variables independientes “x, y, z”.
Para el análisis de regresión lineal simple, es recomendable construir un gráfico
bidimensional, el denominado Diagrama de Dispersión, tal como se observa en
la siguiente ilustración.
La idea es encontrar una función, lineal en este caso, que mejor represente dichos valores conocidos y representados en este gráfico x-y. Una vez encontrada dicha función, es simple encontrar cualquier valor de y, entrando con un valor x. Este es el denominado modelo de regresión.
Ilustración 17 - Diagrama de Dispersión
x ) 2
n
x 2 -S xx =
y ) 2
n
S yy = y 2 -
x y
n
S xy = ( x.y ) -
0
1
2
3
4
5
6
7
8
9
10
1 1 2 5 4
Ing. Sergio D. Salimbeni, MBA, PhD Página 30
Observando el diagrama de dispersión, se puede tener una idea del tipo de
relación entre las dos variables. La naturaleza de la relación puede tomar
varias formas, desde una simple relación lineal, a una complicada función
matemática, exponencial u otra.
El modelo de regresión lineal simple, se puede representar a través de la
siguiente función:
Ecuación 15 - Regresión Lineal Simple
donde:
y Es la variable dependiente
x Es la variable independiente
α Es el valor de intercepción de la recta
β Es el valor de la pendiente de la recta
ε Es el error aleatorio de y para una observación
No se irá al detalle matemático de cómo obtener esta ecuación ya que no es al
alcance de este estudio, pero sí es muy importante su interpretación conceptual
para poder aplicarlo a la administración, haciendo uso de herramientas tales
como planillas de cálculo o “software” específicos.
4.3. Regresión lineal múltiple
Muchas aplicaciones prácticas de análisis de regresión, exigen modelos más
complejos de que un análisis de regresión lineal simple. Por ejemplo, un
análisis más real para explicar el precio de venta de un inmueble, no se haría
sólo en función del valor municipal, sino que incluiría otras variables tales como
su antigüedad, materiales utilizados, equipamiento, y otros. Es en estos casos
donde se justifica un modelo de regresión múltiple.
La ecuación representativa para estos casos es:
Con una simple planilla Excel puede pronosticarse un valor, en base a datos
históricos, y luego realizar las proyecciones futuras. Lo mismo puede hacerse,
Ing. Sergio D. Salimbeni, MBA, PhD Página 31
para estimar valores desconocidos, en base a otros sí ya conocidos, como por
ejemplo en la estimación del valor de venta de un inmueble, conociendo el
valor a que se han vendido algunos similares a él, tomando en consideración
los metros cuadrados, la localización, la antigüedad y el valor municipal.
4.4. Regresión no lineal
Los modelos de regresión vistos hasta ahora son modelos lineales. Sin
embargo, a veces existen relaciones no lineales entre las variables. Pueden
utilizarse algunas transformaciones sencillas de las variables para crear un
modelo aparentemente lineal a partir de una relación no lineal. Este recurso
permite utilizar herramientas como el Excel y otros programas de regresión
lineal para llevar a cabo los cálculos.
y = b0 + b1 x + b2 x2
haciendo ahora z = x2
y = b0 + b1 x + b2 z
De esta forma, una función no lineal podría asemejarse a una lineal con el fin
de poder resolverla más fácilmente.
4.5. Pronósticos
Como se ha mencionado anteriormente, este análisis de regresión y
correlación, es muy utilizado para pronóstico, por ejemplo de ventas, tal como
se ilustra a continuación.
Supóngase analizar 6 períodos de ventas (históricos) “Y”, en base a la
inversión en publicidad en TV (x1) y en revistas especializadas (x2).
Ing. Sergio D. Salimbeni, MBA, PhD Página 32
Ilustración 18 - Ejemplo de Regresión Múltiple
Esto indica que en el período 1, se invirtió 3 millones de pesos en publicidad en
TV, y 1 millón de pesos en publicidad en revistas especializadas, obteniendo
ventas por 6 millones de pesos. Esto es lo que se observa en la primera fila del
cuadro anterior. Del mismo modo, se van tabulando todos esos datos
conocidos de dichos seis períodos.
En base a ellos, se realiza un análisis de correlación múltiple, obteniendo los
coeficientes correspondientes.
Luego, con los mismos, se puede pronosticas, por ejemplo, cuáles serían las
ventas en el próximo período (7) si se invirtieran 6 millones de pesos en
publicidad en TV y otros 6 millones de pesos en publicidad en revistas
especializadas.
Esta es una aplicación típica de un análisis de regresión y correlación lineal
múltiple.
4.6. Regresión Logística
En los modelos de regresión lineal simple o múltiple, la variable independiente
(y) se expresa por una variable numérica. A pesar de ello, en algunas
Sergio Salimbeni
Ejemplo Regresión Múltiple
Forecasting Multiple regression
Data Error analysis
Y x 1 x 2 Forecast Error Absolute Squared
Period 1 6 3 1 5,52166065 0,47833935 0,47833935 0,22880853
Period 2 7 4 2 7,71570397 -0,715703971 0,71570397 0,51223217
Period 3 15 8 3 15,9882671 -0,988267148 0,98826715 0,97667196
Period 4 18 8 5 16,3240072 1,67599278 1,67599278 2,8089518
Period 5 20 10 8 20,8799639 -0,879963899 0,8799639 0,77433646
Period 6 23 11 6 22,5703971 0,429602888 0,42960289 0,18455864
Total -7,10543E-15 5,16787004 5,48555957
Coefficients -0,7247292 2,02617329 0,16787004 Average -1,18424E-15 0,86131167 0,91425993
Bias MAD MSE
SE 1,35222774
Forecast 12,44 6 6
Correlation 0,98864058
Ing. Sergio D. Salimbeni, MBA, PhD Página 33
aplicaciones la variable dependiente es nominal, o sea que se expresa a través
de sólo dos categorías (dos valores). En estos casos, los métodos de
cuadrados mínimos no ofrecen estimaciones posibles. Una buena
aproximación a ello, es el uso de la regresión logística, la cual permite la
utilización de un modelo de regresión para calcular, prever, la probabilidad de
que un evento en particular ocurra, en base a un conjunto de variables
independientes que puedan o no ser numéricas.
La regresión logística se basa en la siguiente razón:
Para una muestra de datos de dichas variables, se tendrá:
Ecuación 16 - Regresión logística
donde
Supóngase, por ejemplo, que el departamento de marketing de una empresa
de tarjetas de crédito pretenda lanzar una campaña para que sus usuarios con
uso estándar cambien para una tarjeta exclusiva, ofreciendo un descuento para
la tasa anual de la nueva tarjeta.
Para una muestra de 30 clientes con tarjeta común fueron medidas las
variables:
Y = cambiaría para una nueva tarjeta (0 = no; 1 = sí)
X1i= total de gastos en el año anterior en $
X2i = posee tarjeta adicional (0 = no; 1 = sí)
Se desea una estimativa de compra para de una nueva tarjeta para un cliente
con gastos de $36mil y una tarjeta adicional.
La ecuación representativa para este ejemplo es:
Entonces
Ing. Sergio D. Salimbeni, MBA, PhD Página 34
O sea, 70,16% es la probabilidad estimada de compra para una nueva tarjeta,
de un cliente con gastos de $36000 que posee tarjeta adicional.
Finalmente, se debe mencionar que se cometen algunos errores comunes con
los modelos de regresión, por lo que es necesario tener precauciones cuando
se utilizan.
La correlación no necesariamente significa causalidad, o la estimación en
rangos más allá de los conocidos tampoco puede asegurarse como válida; es
por ello que si bien es un método útil, debe ser usado con cuidado.
…………………………………………………………………………………………
Ing. Sergio D. Salimbeni, MBA, PhD Página 35
5. Índice de Ilustraciones
ILUSTRACIÓN 1 - GRÁFICOS PARA VARIABLES CUALITATIVAS ....................................................................................... 7
ILUSTRACIÓN 2 - GRÁFICOS PARA VARIABLES CUANTITATIVAS .................................................................................... 8
ILUSTRACIÓN 3 - CUARTILES ................................................................................................................................ 9
ILUSTRACIÓN 4 - HISTOGRAMA .......................................................................................................................... 13
ILUSTRACIÓN 5 - REPRESENTACIÓN DE SALARIOS DE TODOS LOS EMPLEADOS DE UNA EMPRESA ....................................... 13
ILUSTRACIÓN 6 – HISTOGRAMA POR CLASES ......................................................................................................... 14
ILUSTRACIÓN 7 - ADICIÓN DE PROBABILIDADES ..................................................................................................... 18
ILUSTRACIÓN 8 - USO DEL PROCESO DE BAYES ...................................................................................................... 19
ILUSTRACIÓN 9 - EJEMPLO DE RESULTADO DE ENCUESTA ......................................................................................... 22
ILUSTRACIÓN 10 - DISTRIBUCIONES "NORMALES" ................................................................................................. 24
ILUSTRACIÓN 11 - DISTRIBUCIÓN DE POISSON ...................................................................................................... 25
ILUSTRACIÓN 12 - DIAGRAMA DE DISPERSIÓN ...................................................................................................... 27
ILUSTRACIÓN 13 CORRELACIÓN LINEAL POSITIVA .................................................................................................. 28
ILUSTRACIÓN 14 - CORRELACIÓN LINEAL NEGATIVA ............................................................................................... 28
ILUSTRACIÓN 15 - CORRELACIÓN NULA ............................................................................................................... 28
ILUSTRACIÓN 16 - CORRELACIÓN EXPONENCIAL .................................................................................................... 28
ILUSTRACIÓN 17 - DIAGRAMA DE DISPERSIÓN ...................................................................................................... 29
ILUSTRACIÓN 18 - EJEMPLO DE REGRESIÓN MÚLTIPLE ............................................................................................ 32
Ing. Sergio D. Salimbeni, MBA, PhD Página 36
6. Índice de tablas
TABLA 1 - MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ................................................................................ 15
TABLA 2 - DISTRIBUCIÓN DE PROBABILIDAD DISCRETA ............................................................................................ 21
Ing. Sergio D. Salimbeni, MBA, PhD Página 37
7. Índice de Ecuaciones
ECUACIÓN 1 - MEDIA ARITMÉTICA ....................................................................................................................... 8
ECUACIÓN 2 - MEDIANA ..................................................................................................................................... 9
ECUACIÓN 3 - AMPLITUD TOTAL ........................................................................................................................ 11
ECUACIÓN 4 - VARIANZA .................................................................................................................................. 11
ECUACIÓN 5 - DESVÍO ESTÁNDAR ....................................................................................................................... 11
ECUACIÓN 6 - COEFICIENTE DE VARIACIÓN ........................................................................................................... 12
ECUACIÓN 7 - COEFICIENTE DE VARIACIÓN RELATIVO ............................................................................................. 12
ECUACIÓN 8 - COEFICIENTE DE PEARSON ............................................................................................................. 12
ECUACIÓN 9 - PROBABILIDAD ............................................................................................................................ 16
ECUACIÓN 10 – PROBABILIDADES AJUSTADAS - BAYES ........................................................................................... 20
ECUACIÓN 11 - VALOR ESPERADO ...................................................................................................................... 22
ECUACIÓN 12 - DISTRIBUCIÓN NORMAL .............................................................................................................. 23
ECUACIÓN 13 - DISTRIBUCIÓN EXPONENCIAL ....................................................................................................... 24
ECUACIÓN 14 - DISTRIBUCIÓN DE POISSON .......................................................................................................... 24
ECUACIÓN 15 - REGRESIÓN LINEAL SIMPLE .......................................................................................................... 30
ECUACIÓN 16 - REGRESIÓN LOGÍSTICA ................................................................................................................ 33
ECUACIÓN 17 - PROMEDIO PONDERADO ................................................................ ¡ERROR! MARCADOR NO DEFINIDO.
ECUACIÓN 18 - CRITERIO DE REALISMO .................................................................. ¡ERROR! MARCADOR NO DEFINIDO.
ECUACIÓN 19 - VALOR ESPERADO DE LA INFORMACIÓN PERFECTA .............................. ¡ERROR! MARCADOR NO DEFINIDO.
Ing. Sergio D. Salimbeni, MBA, PhD Página 38
8. Índice Onomástico
A
AOA · Activity On Arrow - Actividad en la flecha
AON · Activity On Node - Actividad en el Nodo
C
CPM
Critical Path Method · 86
Cuartil · Dividen a la distribución en cuatro partes
iguales
D
Decil · Deciles son aquellos que dividen a la
distribución en diez partes
E
EMV · Expected Monetary Value)
EMwPI · Expectec Value with Perfect Information
I
inecuaciones · Desigualdades lineales
M
Moda · es el valor con una mayor frecuencia en una
distribución de datos.
P
PDM
Precedence Diagramming Method · 87
PEPS · Primero en Entrar, Primero en Salir
Percentil · Son aquellos que dividen a la distribución
en cien partes
PERT
Program evaluation and Revision Technic · 86
PL · Programación Lineal
PMBok
Project Management Book · 87
Q
Quintil · dividen a la distribución en cinco partes
iguales
Ing. Sergio D. Salimbeni, MBA, PhD Página 39
9. Bibliografía
Barry Rnder, Ralph M. Stair, Michael E. Hanna. Métodos cuantitativos
para los negocios. México: Pearson, 2006.
Cachero, Manuel López. Análisis y Adopción de Decisiones. Madrid:
Ediciones Pirámide, 1998.
Fiani, Ronaldo. Teoria dos Jogos. Rio de Janeiro: Editora Campus,
2004.
Kotler, Philip. Dirección de la mercadotecnia - Análisis, Planeación,
Implementación y Control. 7ma. México, 1993.
Martins, Gilberto de Andrade. Estatística Geral e Aplicada. Sao Paulo:
Editora Atlas, 2005.