Activus book 61 - Estadísticas básicas para la Gestión

Ing. Sergio D. Salimbeni, MBA, PhD Página 1

SERGIO D. SALIMBENI

Introducción a las

Estadísticas

Activus Book 61

Contenido

1. Introducción .................................................................................................... 3

2. Estadísticas .................................................................................................... 4

2.1. Introducción a las estadísticas ................................................................. 4

2.2. Estadística Descriptiva............................................................................. 5

2.3. Medidas de Tendencia Central y de Dispersión ...................................... 8

2.4. Medidas de tendencia central .................................................................. 8

2.5. Medidas de dispersión ........................................................................... 10

2.6. Medidas de Asimetría ............................................................................ 11

2.7. Ejemplo numérico .................................................................................. 13

3. Probabilidades .............................................................................................. 16

3.1. Tipos de Probabilidad ............................................................................ 17

3.2. Teorema de Bayes ................................................................................ 19

3.3. Distribución de Probabilidad .................................................................. 20

4. Regresión y Correlación ............................................................................... 26

4.1. Correlación entre variables .................................................................... 26

4.2. Regresión Lineal Simple ........................................................................ 29

4.3. Regresión lineal múltiple ........................................................................ 30

4.4. Regresión no lineal ................................................................................ 31

4.5. Pronósticos ............................................................................................ 31

4.6. Regresión Logística ............................................................................... 32

5. Índice de Ilustraciones .................................................................................. 35

6. Índice de tablas ............................................................................................ 36

7. Índice de Ecuaciones ................................................................................... 37

8. Índice Onomástico ........................................................................................ 38

9. Bibliografía ................................................................................................... 39

1. Introducción

La globalización, las nuevas tecnologías, la abundancia de datos, un mundo en

constante y vertiginoso cambio, este es el escenario complejo en el cual se

desarrollan los negocios.

Justamente por ello, la correcta toma de decisiones estará fuertemente

influenciada por la capacidad para decidir, y el contar con más y mejores

herramientas para analizar los diferentes escenarios.

Contar con infinidad de datos, no significa precisamente contar con

información.

Datos ordenados, organizados de forma coherente, son los que proveerán

buena información. Desde este punto de vista, un dato no será más que una

unidad de información, que en sí mismo no aportaría demasiado.

Ahora bien, si se trata ese conjunto de datos con herramientas acordes, con

sistemas de ayuda para la toma de decisiones, ello nos estará proveyendo

Información.

Una vez que el profesional cuenta con información de buena calidad, es

cuando esta bajo su responsabilidad el tomar las mejores decisiones, eligiendo

entre diferentes alternativas.

En el mundo de la administración se encontrarán diferentes e innumerables

situaciones donde se deban tomar decisiones, ya sea en escenarios de

certidumbre, incertidumbre o en ambientes de riesgo.

Se estudiarán desde las bases de las probabilidades y las estadísticas, hasta

diferentes técnicas y modelos de simulación, de modo de resolver de la mejor

manera posible, es decir optimizando los resultados, cada una de esas

situaciones.

…………………………………………………………………………………………

2. Estadísticas

2.1. Introducción a las estadísticas

Históricamente, el desarrollo de la estadística puede ser entendido a partir de

dos fenómenos distintos: la necesidad de los gobiernos de colectar datos

censarios, y el desarrollo de la teoría del cálculo de las probabilidades1.

Han sido colectados datos a lo largo de toda la historia. En las civilizaciones Egipcia, Griega y Romana, algunos datos primarios eran recopilados con propósitos impositivos y / o militares. En la Edad Media, la iglesia recolectaba datos e informaciones sobre nacimientos, muertes y casamientos.

En los Estados Unidos, la Constitución de 1870 determinaba la realización de

censos cada 10 años.

Actualmente son necesarias para ciudadanos y organizaciones de todo tipo, y

en todo el mundo.

Estadística Descriptiva

Como el propio nombre lo sugiere, la organización, sumatoria y descripción de

un conjunto de datos es llamada estadística descriptiva.

Estadística Inferencial

El inicio de la formulación matemática de la teoría de las probabilidades, se dio

a partir de las investigaciones sobre los juegos de azar, a mediados del siglo

XVII, por medio de correspondencias entre el filósofo Pascal, y el jugador

Chevalier de Mere2.

1 (Martins 2005),pag.19

2 ibidem

Otros matemáticos como Bernoulli, DeMoivre y Gauss, establecieron las bases

de la estadística Inferencial.

Más allá de ellos, en realidad recién en el siglo XX es que los métodos de las

técnicas de la estadística Inferencial, fueron desarrollados por estadísticos

como Pearson, Fisher y Gosset entre otros.

Se puede definir entonces a la Estadística Inferencial, como métodos que

tornan posible la estimación de características de una población basada en

resultados muestrales.

Se entiende por Población o universo, a la totalidad de los ítems, objetos o

personas bajo consideración.

Se entiende por muestra, a una parte de la población que es seleccionada para

el análisis.

2.2. Estadística Descriptiva

Niveles de mensuración

Es indispensable que el investigador tenga en claro el nivel de mensuración de

la variable que pretende analizar, pues depende de ese nivel de mensuración,

las posibles operaciones aritméticas entre sus valores y correspondientes

técnicas estadísticas permitidas para el análisis.

Nivel Nominal

El nivel nominal, envuelve simplemente el hecho de enumerar, rotular o

clasificar un objeto, persona o característica, por medio de números u otros

símbolos.

Por ejemplo:

1 Católico

2 Judío

3 Protestante

4 Musulmán

5 Otros

Nivel Ordinal

Dada una variable con nivel de mensuración nominal en que la relación (mayor

que) valga para todos los pares de clases, es que se tiene entonces una escala

ordinal. Se ve en el siguiente ejemplo:

Valor en la Escala Profesión

80 Ingeniero químico

70 Ingeniero de producción

60 Actor

Nivel de Intervalos

En este caso, la variable puede asumir varias categorías que guarden una

relación de orden, además de los intervalos iguales de medición; ejemplos de

estos niveles de intervalos son: peso, altura, volumen, etc.

Un punto a tener en cuenta en este caso, es que el cero es arbitrario, no es

absoluto.

Niveles de razón

En este caso, el nivel de intervalos sí incluye el cero, que es real y absoluto.

Este cero absoluto significa que, en la escala, hay un punto donde no existe la

propiedad.

Normalmente, las variables con niveles de mensuración nominal y ordinal se

denominan Cualitativas, mientras que las variables con niveles de mensuración

de intervalos o razón son llamadas variables Cuantitativas.

Descripción Grafica de las variables cuantitativas

El gráfico de barras, horizontales o verticales, y el diagrama de “torta”, son los

diagramas más utilizados para estos casos. Básicamente, ellos muestran las

cantidades observadas para cada “nivel”. Se ve esto en el siguiente ejemplo:

Ilustración 1 - Gráficos para variables Cualitativas

Descripción Gráfica de Variables Cuantitativas

Los histogramas son los gráficos más adecuados para la descripción de datos

oriundos de variables cuantitativas. Básicamente, ellos muestran las

frecuencias de las observaciones para cada valor o conjunto de valores de las

variables que se desean describir. Un ejemplo típico para estos casos es la

distribución de las edades en una población determinada. Se grafica este

ejemplo en la siguiente ilustración.

Ilustración 2 - Gráficos para variables Cuantitativas

2.3. Medidas de Tendencia Central y de Dispersión

2.4. Medidas de tendencia central

Media Aritmética

La medida de tendencia central más común para un conjunto de datos es la

Media Aritmética, promedio o simplemente media. Se la representa por la letra

X y se la calcula de la siguiente forma:

Ecuación 1 - Media Aritmética

Mediana (Media Geométrica)

La mediana es el valor de la variable que deja el mismo número de datos antes

y después que él, una vez que los mismos fueran ordenados.

De acuerdo con esta definición, el conjunto de datos menores o iguales que la

mediana representarán el 50% de los datos, y los que sean mayores que la

mediana representarán el otro 50% del total de datos de la muestra.

Rango de

Edades

Cantidades

Observadas

18 - 25 6

26 - 32 10

33 - 39 13

40 - 46 8

47 - 53 6

54 - 60 5

61 - 65 2

18 - 25 26 - 32 33 - 39 40 - 46 47 - 53 54 - 60 61 - 65

Cantidades Observadas

Como se verá más adelante, la mediana coincide con el percentil 50, con el

segundo cuartil y con el quinto decil.

En el caso de variables discretas, se puede calcular la mediana, de acuerdo a

la cantidad de elementos (impar o par) de las siguientes maneras:

Ecuación 2 - Mediana

Cuantiles

El término cuantil fue usado por primera vez por Kendall en 1940. El cuantil de

orden p de una distribución (con 0 < p < 1) es el valor de la variable “xp” que

marca un corte de modo que una proporción p de valores de la población es

menor o igual que “xp”.

Por ejemplo, el cuantil de orden 0,36 dejaría un 36% de valores por debajo y el

cuantil de orden 0,50 se corresponde con la mediana de la distribución.

Los cuantiles suelen usarse por grupos que dividen la distribución en partes

iguales, entendidas estas como intervalos que comprenden la misma

proporción de valores. Los más usados son:

Cuartil

Los Cuartiles, que dividen a la distribución en cuatro partes (corresponden a los

cuantiles 0,25; 0,50 y 0,75);

Los Cuartiles (Q) son los tres valores que dividen al conjunto de datos

ordenados en cuatro partes porcentualmente iguales

Ilustración 3 - Cuartiles

Quintil

Los Quintiles, que dividen a la distribución en cinco partes (corresponden a los

cuantiles 0,20; 0,40; 0,60 y 0,80);

Los deciles son aquellos que dividen a la distribución en diez partes iguales.

Percentil

Los Percentiles son aquellos que dividen a la distribución en cien partes.

En estadística, la Moda es el valor con una mayor frecuencia en una

distribución de datos.

Para distribuciones simples (sin agrupamiento en clases), la identificación de la

moda está dada por la simple observación del elemento que presenta la mayor

frecuencia.

2.5. Medidas de dispersión

Las medidas de dispersión son medidas estadísticas utilizadas para analizar el

grado de variabilidad, o dispersión, de los valores entorno de la Media. Los

mismos sirven para medir la representatividad de la Media.

Amplitud Total

La amplitud es una medida de dispersión dada por la diferencia entre el mayor

y el menor valor de la serie.

Ecuación 3 - Amplitud Total

Varianza

Como se desea medir la dispersión de los datos en relación a la Media, es

interesante analizar los desvíos de cada valor (xi) en relación a la media (X). Si

los mismos fueran bajos, se tendrá poca dispersión, caso contrario, la

dispersión será grande.

El cálculo de la varianza se basa en el promedio de la sumatoria de los

cuadrados de los desvíos o alejamientos, tal como se indica a continuación:

Ecuación 4 - Varianza

Desvío estándar

El desvío estándar, o desviación típica (σ), es una medida de centralización o

dispersión para variables de razón (ratio o cociente) y de intervalo, de gran

utilidad en la estadística descriptiva.

Se define como la raíz cuadrada de la varianza.

Junto con este valor, la desviación típica es una medida (cuadrática) que

informa de la media de distancias que tienen los datos respecto de su media

aritmética, expresada en las mismas unidades que la variable.

Ecuación 5 - Desvío Estándar

2.6. Medidas de Asimetría

Coeficiente de variación

El coeficiente de variación se trata de una medida relativa de dispersión.

Mientras que la amplitud total, la varianza, y el desvío estándar, son medidas

absolutas de dispersión, este coeficiente de variación mide la dispersión

relativa.

De este modo se tiene:

Ecuación 6 - Coeficiente de variación

Coeficiente de variación relativo

En este caso, el coeficiente se refiere al valor relativo respecto de la media

aritmética. De este modo, se dice que:

Ecuación 7 - Coeficiente de Variación Relativo

Definición del “Outlier”

En los trabajos de colección de datos, puede suceder que algunas mediciones

escapen de los resultados esperados. A esto se los conocen como “outliers”.

Se pueden definir los “outliers”, por ejemplo, a aquellas observaciones que

queden fuera de un CV relativo de 3.

Coeficiente de asimetría de Pearson

Se entiende por asimetría al grado de alejamiento, de una distribución, de la

unidad de simetría. En una distribución simétrica, hay igualdad de valores de la

media, la mediana y la moda.

Ecuación 8 - Coeficiente de Pearson

A continuación, otro ejemplo de histogramas, donde se representan las

calificaciones obtenidas en una materia, para la totalidad de los alumnos.

Ilustración 4 - Histograma

2.7. Ejemplo numérico

Para ejemplificar todo lo visto anteriormente, se toma un caso práctico sobre el

cual se podrá analizar de manera simple todas estas medidas estadísticas.

Considérese una empresa compuesta por 60 empleados. Se conoce el salario

neto de cada uno de ellos, y se lo representa en una tabla y gráfica como la

que se observa a continuación:

Ilustración 5 - Representación de salarios de todos los empleados de una empresa

En este tipo de casos, y con el fin de simplificar el análisis, se realiza el

denominado intervalo de clases.

Esto se entiende como que en el intervalo de entre $1000 y $3000 (representado por $2000 en la tabla a la izquierda) se tienen 14 empleados con ese rango de salarios. Se tienen 10 empleados que cobran entre $3000 y $5000 (4000 en la tabla), y así sucesivamente.

Con esta información (de clases) se grafica un histograma como el que se ve

en la siguiente ilustración:

Ilustración 6 – Histograma por clases

Aplicando todas las definiciones anteriores, se pueden calcular los siguientes

valores:

Intervalos Cant.

2.000 14

4.000 10

6.000 6

8.000 9

10.000 6

12.000 6

14.000 7

16.000 2

0 2 4 6 8 10 12 14 16

10.000

12.000

14.000

16.000

Cantidades por Clase

Población 60

Mínimo $ 1.000

Máximo $ 16.000

Amplitud $ 15.000

Cant. Clases 6,9

Tamaño de Intervalos $ 2.167

Medidas de Tendencia Central

Media Aritmética $ 7.683

Mediana $ 15.000

1er Cuartil $ 4.000

2do Cuartil $ 7.500

3er Cuartil $ 11.250

1er Decil

1er Percentil $ 2.000

2do Percentil $ 3.000

Tabla 1 - Medidas de Tendencia Central y de Dispersión

En resumen, tanto la media, como la mediana, el modo y el desvío estándar,

son de las medidas más utilizadas en la estadística básica.

Respecto de este último, el desvío estándar, el cual será visto frecuentemente

en las técnicas cuantitativas, se puede utilizar unas simples reglas empíricas, a

saber:

Un desvío estándar ( , contiene entre el 60% y el 80% de todas las

observaciones muestrales.

Dos desvíos estándar (2 , contienen aproximadamente el 95% de las

observaciones.

En un intervalo de (3 , se encuentran prácticamente el 100% de las

observaciones.3

……………………………………………………………………………………………

3 (Martins 2005) pag.55

Medidas de Posición

Moda $ 3.000

Medidas de Dispersión

Amplitud total $ 15.000

Desviación Estándar $ 4.508

Intervalo de Confianza 957

Medidas de Asimetría

Coeficiente de Pearson 0,28

3. Probabilidades

Todo sería bastante más sencillo si no existieran las incertidumbres, si todo

fuese ciento por ciento certero. Pero, la realidad muestra que las cosas no son

así, que muchas cosas pueden o no suceder, dependiendo de diferentes

factores no siempre mensurables. Debido a esto, existen posibilidades, en

mayor o menor grado, de que algo ocurra; esta posibilidad mensurada es la

probabilidad.

Se define probabilidad como el planteamiento numérico acerca de las

posibilidades de que ocurra un evento.

Ecuación 9 - Probabilidad

Existen dos reglas básicas en las matemáticas de la probabilidad:

1. La probabilidad P de que ocurra cualquier evento o estado de la

naturaleza es mayor o igual que cero y menor o igual que uno.

Una probabilidad “0” indica que dicho evento nunca ocurrirá.

Una probabilidad igual a “1” indica que dicho evento siempre ocurra.

2. La suma de las probabilidades simples de todos los resultados posibles

de una actividad debe ser igual a “1”

Propiedad de un elemento complementario:

Se dice que un elemento es complementario, cuando sumado al primero es

igual a uno. De esta forma:

P(Ā) = 1 – P(A)

3.1. Tipos de Probabilidad

Probabilidad subjetiva

La probabilidad subjetiva es aquella que se determina en base a la experiencia

y sentido común de la persona que la determina.

Por ejemplo, cuando un gerente de ventas dice que existe una probabilidad del

80% de que se cumpla con la cuota de ventas.

Probabilidad Objetiva

Es la que se basa en experiencias sistemáticas, a través de sucesivas pruebas,

del número de veces que un evento ocurre.

Por ejemplo, lanzando sucesivamente una moneda, y luego de varios intentos,

se puede concluir que en la mitad de los casos el resultado será “cara”

mientras que, obviamente, en la otra mitad de las veces el resultado será

“cruz”; o sea, existe una probabilidad objetiva del 50% para cada caso.

Eventos mutuamente excluyentes

Se dice que ciertos eventos son mutuamente excluyentes cuando sólo uno de

ellos puede ocurrir en cualquier prueba; por ejemplo “cara” o “cruz” en la

moneda.

Eventos colectivamente exhaustivos

Se dice que los eventos son colectivamente exhaustivos si la lista de resultados

incluye todos los resultados posibles. El ejemplo anterior del lanzamiento de la

moneda, también cumple con esta propiedad, ya que cara o cruz representan

todos los resultados posibles.

Adición de Eventos

Los eventos pueden ser mutuamente excluyentes o no. En el primer caso,

significa que la ocurrencia de una alternativa, hace imposible la aparición de la

otra. En el segundo caso, puede aparecer un área de solución común.

Mutuamente excluyentes:

P(A o B) = P(A) + P(B)

No mutuamente excluyentes: P(A o B) = P(A) + P(B) – P(A y B)

Ilustración 7 - Adición de Probabilidades

Eventos estadísticamente independientes o dependientes

Dos eventos se dicen estadísticamente independientes, cuando la ocurrencia

de uno no tiene efecto en la probabilidad de ocurrencia del otro. Por ejemplo en

el lanzamiento de dos dados en forma simultánea.

Dos eventos se dicen estadísticamente dependientes, cuando la ocurrencia de

uno se basa en el resultado del otro. Por ejemplo, si en una cuba tuviera tres

bolas negras y tres blancas, cuál es la probabilidad de tomar una negra y que

la segunda sea negra también.

Independientes:

P(AB) = P(A) x P(B)

Dependientes: P(A/B) = P(AB) / P(B)

P(A) P(B) P(A y B)

3.2. Teorema de Bayes

El Teorema de Bayes se utiliza para incorporar información adicional a medida

que se dispone de ella, ayudando a calcular probabilidades posteriores o

revisadas.

Lo anterior, significa que se pueden tomar datos nuevos o recientes y entonces

revisar y mejorar los cálculos anteriores de probabilidades de un evento. Esto

se ilustra en la siguiente figura:

Probabilidades

Previas

Probabilidades

PosterioresProceso de Bayes

Información Previa

Ilustración 8 - Uso del Proceso de Bayes

Suponga tener tres gavetas idénticas, la gaveta G1 contiene dos monedas de

$0,50, la gaveta G2 dos monedas de $1 y la gaveta G3 una moneda de $0,50 y

otra de $1.

Se elije una gaveta. La probabilidad de haber elegido la G1, G2 o G3 es la

misma y es de 1/3, esta es la denominada probabilidad a-priori.

Ahora se retira una moneda de la gaveta antes elegida y se verifica que es una

moneda de $1.

Las probabilidades a priori se pueden ajustar ahora en base a esa nueva

información.

En este caso, las probabilidades ajustadas serán:

P (G1) = 0 P (G2) = 2/3 y P (G3) = 1/3

Estas son las denominadas probabilidades a posteriori.

Las probabilidades revisadas se pueden calcular de una forma directa a

mediante el empleo de la forma general de Teorema de Bayes:

Ecuación 10 – Probabilidades ajustadas - Bayes

donde Ā es el complemento del evento A.

3.3. Distribución de Probabilidad

Variables Aleatorias

Una variable aleatoria asigna un número real a cada resultado posible o evento

en un experimento.

Por ejemplo X = número de celulares vendidos en un día.

Variable aleatoria discreta

Sea X una variable aleatoria, si el número de valores posibles de X fuese finito,

o infinito numerable, se dice que X es una variable aleatoria discreta.

Variable aleatoria continúa

Sea X una variable aleatoria, si el contra-dominio de X es un intervalo, o un

conjunto de intervalos, denominamos a X como una variable aleatoria continua.

Considérese el siguiente ejemplo.

Se le pregunta a 100 estudiantes, si un libro de texto en particular les fue de

ayuda para la preparación de su examen final.

Las respuestas debían escogerse entre las siguientes:

5 Muy de acuerdo

4 De acuerdo

3 Neutral

2 En desacuerdo

1 Muy en desacuerdo

De esta manera se obtendrá una distribución de probabilidad discreta calculada

mediante el enfoque de la frecuencia relativa.

Los resultados obtenidos fueron los siguientes:

Tabla 2 - Distribución de Probabilidad Discreta

RespuestasVariable

Aleatoria

Número de

esutdiantes que

respondieron

Probabilidad

x y P(x)

Muy de Acuerdo 5 10 0,1

De acuerdo 4 20 0,2

Neutral 3 30 0,3

En desacuerdo 2 30 0,3

Muy en desacuerdo 1 10 0,1

Ilustración 9 - Ejemplo de resultado de encuesta

Esta distribución respeta las tres reglas requeridas por todas las distribuciones

de probabilidad:

1. Los eventos son mutuamente excluyentes y colectivamente exhaustivos.

2. Los valores individuales de probabilidad se encuentran entre 0 y 1

3. La suma total de los valores de probabilidad es 1

Valor Esperado de una Distribución de Probabilidad Discreta

Una vez establecida una distribución de probabilidad, la primera característica

que generalmente se nota es la tendencia central de la distribución. El valor

esperado, una medida de la tendencia central, se calcula como el promedio

ponderado de los valores de la variable aleatoria:

Ecuación 11 - Valor Esperado

Ve(x) = (5)(0,1) + (4)(0,2) + (3)(0,3) + (2)(0,3) + (1)(0,1) = 2,9

El valor esperado de 2,9 implica que la respuesta media está entre (2)

desacuerdo y (3) neutral, y que la respuesta promedio está más cerca de

neutral.

Distribución Binomial

En los negocios, muchas veces se encuentra este tipo de distribución, conocida

también como Bernoulli, donde sólo se encuentran dos resultados posibles,

tales como éxito o fracaso.

Para aplicarse una distribución binomial, se deben cumplir las siguientes

condiciones:

1. Cada prueba en un proceso Bernoulli sólo tiene dos resultados posibles.

2. La probabilidad permanece igual de una prueba a la siguiente

3. Las pruebas son estadísticamente independientes.

4. El número de pruebas es un entero positivo.

Nuevamente, un ejemplo clásico para este caso es el lanzamiento de una

moneda.

Distribución Normal

La distribución Normal, es una de las más utilizadas, y se caracteriza por ser

simétrica, y puede ser más o menos “aplastada”.

La ecuación que la representa, es medianamente compleja, y es la siguiente:

Ecuación 12 - Distribución Normal

Donde:

Variable aleatoria

Número promedio

Base de logaritmos naturales = 2,718

Desvío estándar

Debido a la dificultad para su cálculo, es que se utilizan tablas normalizadas

para hallar sus valores, tal como se verá en adelante.

Ilustración 10 - Distribuciones "Normales"

Distribución Exponencial

La distribución exponencial, también llamada distribución exponencial negativa,

se utiliza para manejar problemas de filas de espera, por ejemplo.

Su función probabilidad, está dada por:

Ecuación 13 - Distribución Exponencial

Distribución de Poisson

Una importante distribución de probabilidad discreta es la distribución de

Poisson. La misma complementa a la distribución exponencial, y está descripta

por la siguiente ecuación:

Ecuación 14 - Distribución de Poisson

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

1 2 3 4 5 6 7 8 9 10

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0,3500

1 2 3 4 5 6 7 8 9 10

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0,3500

0,4000

0,4500

1 2 3 4 5 6 7 8 9 10

Ilustración 11 - Distribución de Poisson

……………………………………………………………………………………………

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0,3500

0,4000

1 2 3 4 5 6 7 8 9 10

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0,3500

0,4000

1 2 3 4 5 6 7 8 9 10

4. Regresión y Correlación

4.1. Correlación entre variables

La búsqueda de asociación entre variables, es frecuentemente uno de los

propósitos de las investigaciones empíricas.4 La posible existencia de relación

entre variables orienta al análisis, conclusiones y hallazgos en la investigación.

Suponga que Ud. cree, intuye, que existe alguna “relación” entre la publicidad

que realiza de un producto, y el nivel de las ventas del mismo. Observa mes a

mes que, en la medida que invierte más en publicidad, aumentan las ventas.

¿Existe alguna “relación” entre lo que Ud. invierte en publicidad y el volumen de

ventas? ¿Hay alguna forma de ver si esa relación es lineal o no? ¿Se puede

comprobar científicamente una relación entre ambas variables (ventas y

publicidad) dentro de ciertos márgenes de error?

A ese tipo de relaciones se las denominará “correlación”.

Se define entonces correlación a la fuerza y dirección de una relación, lineal o

no, entre dos variables independientes.

Se verán a continuación, algunas medidas de asociación entre dichas

variables.

Suponga tener un grupo de alumnos, que hayan cursado dos materias que, ud

en principio crea que exista alguna relación entre ambas.

Tabula para cada uno de sus alumnos, las calificaciones de ambas materias y

lo grafica.

La representación de cada una de ambas calificaciones, para cada alumno, en

un par de ejes cartesianos (en este caso Dirección general en función de

Comercialización) se denomina “Diagrama de Dispersión”.

El Diagrama de dispersión es la representación de dos variables,

supuestamente relacionadas, en un par de ejes cartesianos.

Lo antes mencionado se representa en la siguiente ilustración:

4 (Martins 2005) p.288

Ilustración 12 - Diagrama de Dispersión

La correlación entre variables puede ser:

Simple o Múltiple

Positiva o Negativa

Lineal o No Lineal

La correlación se dice simple, cuando se estudian sólo entre dos variables. Si

el análisis es realizado entre más de dos variables, es denominada múltiple, y

obviamente la resolución es sólo analítica, ante la imposibilidad de representar

un diagrama de dispersión de más de dos variables.

Se dice positiva, cuando el aumento de la variable independiente, genera un

incremento en la variable dependiente, tal como el ejemplo de la inversión en

publicidad y las ventas.

Será negativa en el caso contrario, por ejemplo cuando se incrementa la

inflación y esto genera una disminución en las ventas.

En los casos de observarse una relación, en el diagrama de dispersión,

aproximada a una línea, es denominada correlación lineal.

Si la mejor representación de la relación entre variables, no es representada

por la ecuación de una recta, sino por cualquier otra función, es denominada

entonces No lineal.

María Juan Pedro Juana José Catalina Marcelo Rosa Roberto Silvia

Calificaciones Comercialización (x) 75 80 60 55 85 95 70 75 80 65

Calificaciones Dirección General (y) 85 85 65 60 80 95 60 80 80 60

Calificaciones Comercialización (x)

Calificaciones Dirección General (y)

50 60 70 80 90 100

Coeficiente de Correlación de Pearson

Este coeficiente, es un indicador de la “fuerza” de una relación lineal simple. Se

trata de una asociación entre las dos variables, que independientemente de sus

unidades, pueden variar entre -1 y +1.

En el caso de que dicho coeficiente sea igual a 1, se dice que existe una

correlación absoluta positiva, mientras que en el caso de -1 es una correlación

absoluta negativa. En el caso del coeficiente ser 0, dice de una correlación

inexistente.

Veamos lo dicho anteriormente en los siguientes diagramas de dispersión.

Ilustración 13 Correlación Lineal Positiva

Ilustración 14 - Correlación Lineal Negativa

Ilustración 15 - Correlación Nula

Ilustración 16 - Correlación Exponencial

Cálculo del Coeficiente de Correlación:

donde:

50 60 70 80 90 100

0 2 4 6 8 10 12

Sxx Syy

4.2. Regresión Lineal Simple

La inferencia estadística fue tratada en términos de una única variable. Así,

cuando por ejemplo se tenía una muestra de empresas, se consideraba una

variable por vez, como para analizar la facturación. Mientras tanto, cuando se

tiene una muestra de una empresa, y hay varias variables que pueden ser

observadas en cada unidad de la muestra, el número de empresas, salarios,

etc. En el primer caso, cada unidad está asociada con las medidas de varias

variables.

Se va a considerar en este caso, el análisis de dos únicas variables, el análisis

bi-variado.

Primordialmente, el análisis de regresión se usa con el propósito de previsión.

El objetivo es desarrollar un modelo estadístico que se pueda usar para prever

valores de una variable dependiente “y” en función de una variable

independiente “x”, o de varias variables independientes “x, y, z”.

Para el análisis de regresión lineal simple, es recomendable construir un gráfico

bidimensional, el denominado Diagrama de Dispersión, tal como se observa en

la siguiente ilustración.

La idea es encontrar una función, lineal en este caso, que mejor represente dichos valores conocidos y representados en este gráfico x-y. Una vez encontrada dicha función, es simple encontrar cualquier valor de y, entrando con un valor x. Este es el denominado modelo de regresión.

Ilustración 17 - Diagrama de Dispersión

x 2 -S xx =

S yy = y 2 -

S xy = ( x.y ) -

1 1 2 5 4

Observando el diagrama de dispersión, se puede tener una idea del tipo de

relación entre las dos variables. La naturaleza de la relación puede tomar

varias formas, desde una simple relación lineal, a una complicada función

matemática, exponencial u otra.

El modelo de regresión lineal simple, se puede representar a través de la

siguiente función:

Ecuación 15 - Regresión Lineal Simple

donde:

y Es la variable dependiente

x Es la variable independiente

α Es el valor de intercepción de la recta

β Es el valor de la pendiente de la recta

ε Es el error aleatorio de y para una observación

No se irá al detalle matemático de cómo obtener esta ecuación ya que no es al

alcance de este estudio, pero sí es muy importante su interpretación conceptual

para poder aplicarlo a la administración, haciendo uso de herramientas tales

como planillas de cálculo o “software” específicos.

4.3. Regresión lineal múltiple

Muchas aplicaciones prácticas de análisis de regresión, exigen modelos más

complejos de que un análisis de regresión lineal simple. Por ejemplo, un

análisis más real para explicar el precio de venta de un inmueble, no se haría

sólo en función del valor municipal, sino que incluiría otras variables tales como

su antigüedad, materiales utilizados, equipamiento, y otros. Es en estos casos

donde se justifica un modelo de regresión múltiple.

La ecuación representativa para estos casos es:

Con una simple planilla Excel puede pronosticarse un valor, en base a datos

históricos, y luego realizar las proyecciones futuras. Lo mismo puede hacerse,

para estimar valores desconocidos, en base a otros sí ya conocidos, como por

ejemplo en la estimación del valor de venta de un inmueble, conociendo el

valor a que se han vendido algunos similares a él, tomando en consideración

los metros cuadrados, la localización, la antigüedad y el valor municipal.

4.4. Regresión no lineal

Los modelos de regresión vistos hasta ahora son modelos lineales. Sin

embargo, a veces existen relaciones no lineales entre las variables. Pueden

utilizarse algunas transformaciones sencillas de las variables para crear un

modelo aparentemente lineal a partir de una relación no lineal. Este recurso

permite utilizar herramientas como el Excel y otros programas de regresión

lineal para llevar a cabo los cálculos.

y = b0 + b1 x + b2 x2

haciendo ahora z = x2

y = b0 + b1 x + b2 z

De esta forma, una función no lineal podría asemejarse a una lineal con el fin

de poder resolverla más fácilmente.

4.5. Pronósticos

Como se ha mencionado anteriormente, este análisis de regresión y

correlación, es muy utilizado para pronóstico, por ejemplo de ventas, tal como

se ilustra a continuación.

Supóngase analizar 6 períodos de ventas (históricos) “Y”, en base a la

inversión en publicidad en TV (x1) y en revistas especializadas (x2).

Ilustración 18 - Ejemplo de Regresión Múltiple

Esto indica que en el período 1, se invirtió 3 millones de pesos en publicidad en

TV, y 1 millón de pesos en publicidad en revistas especializadas, obteniendo

ventas por 6 millones de pesos. Esto es lo que se observa en la primera fila del

cuadro anterior. Del mismo modo, se van tabulando todos esos datos

conocidos de dichos seis períodos.

En base a ellos, se realiza un análisis de correlación múltiple, obteniendo los

coeficientes correspondientes.

Luego, con los mismos, se puede pronosticas, por ejemplo, cuáles serían las

ventas en el próximo período (7) si se invirtieran 6 millones de pesos en

publicidad en TV y otros 6 millones de pesos en publicidad en revistas

especializadas.

Esta es una aplicación típica de un análisis de regresión y correlación lineal

múltiple.

4.6. Regresión Logística

En los modelos de regresión lineal simple o múltiple, la variable independiente

(y) se expresa por una variable numérica. A pesar de ello, en algunas

Sergio Salimbeni

Ejemplo Regresión Múltiple

Forecasting Multiple regression

Data Error analysis

Y x 1 x 2 Forecast Error Absolute Squared

Period 1 6 3 1 5,52166065 0,47833935 0,47833935 0,22880853

Period 2 7 4 2 7,71570397 -0,715703971 0,71570397 0,51223217

Period 3 15 8 3 15,9882671 -0,988267148 0,98826715 0,97667196

Period 4 18 8 5 16,3240072 1,67599278 1,67599278 2,8089518

Period 5 20 10 8 20,8799639 -0,879963899 0,8799639 0,77433646

Period 6 23 11 6 22,5703971 0,429602888 0,42960289 0,18455864

Total -7,10543E-15 5,16787004 5,48555957

Coefficients -0,7247292 2,02617329 0,16787004 Average -1,18424E-15 0,86131167 0,91425993

Bias MAD MSE

SE 1,35222774

Forecast 12,44 6 6

Correlation 0,98864058

aplicaciones la variable dependiente es nominal, o sea que se expresa a través

de sólo dos categorías (dos valores). En estos casos, los métodos de

cuadrados mínimos no ofrecen estimaciones posibles. Una buena

aproximación a ello, es el uso de la regresión logística, la cual permite la

utilización de un modelo de regresión para calcular, prever, la probabilidad de

que un evento en particular ocurra, en base a un conjunto de variables

independientes que puedan o no ser numéricas.

La regresión logística se basa en la siguiente razón:

Para una muestra de datos de dichas variables, se tendrá:

Ecuación 16 - Regresión logística

Supóngase, por ejemplo, que el departamento de marketing de una empresa

de tarjetas de crédito pretenda lanzar una campaña para que sus usuarios con

uso estándar cambien para una tarjeta exclusiva, ofreciendo un descuento para

la tasa anual de la nueva tarjeta.

Para una muestra de 30 clientes con tarjeta común fueron medidas las

variables:

Y = cambiaría para una nueva tarjeta (0 = no; 1 = sí)

X1i= total de gastos en el año anterior en $

X2i = posee tarjeta adicional (0 = no; 1 = sí)

Se desea una estimativa de compra para de una nueva tarjeta para un cliente

con gastos de $36mil y una tarjeta adicional.

La ecuación representativa para este ejemplo es:

Entonces

O sea, 70,16% es la probabilidad estimada de compra para una nueva tarjeta,

de un cliente con gastos de $36000 que posee tarjeta adicional.

Finalmente, se debe mencionar que se cometen algunos errores comunes con

los modelos de regresión, por lo que es necesario tener precauciones cuando

se utilizan.

La correlación no necesariamente significa causalidad, o la estimación en

rangos más allá de los conocidos tampoco puede asegurarse como válida; es

por ello que si bien es un método útil, debe ser usado con cuidado.

…………………………………………………………………………………………

5. Índice de Ilustraciones

ILUSTRACIÓN 1 - GRÁFICOS PARA VARIABLES CUALITATIVAS ....................................................................................... 7

ILUSTRACIÓN 2 - GRÁFICOS PARA VARIABLES CUANTITATIVAS .................................................................................... 8

ILUSTRACIÓN 3 - CUARTILES ................................................................................................................................ 9

ILUSTRACIÓN 4 - HISTOGRAMA .......................................................................................................................... 13

ILUSTRACIÓN 5 - REPRESENTACIÓN DE SALARIOS DE TODOS LOS EMPLEADOS DE UNA EMPRESA ....................................... 13

ILUSTRACIÓN 6 – HISTOGRAMA POR CLASES ......................................................................................................... 14

ILUSTRACIÓN 7 - ADICIÓN DE PROBABILIDADES ..................................................................................................... 18

ILUSTRACIÓN 8 - USO DEL PROCESO DE BAYES ...................................................................................................... 19

ILUSTRACIÓN 9 - EJEMPLO DE RESULTADO DE ENCUESTA ......................................................................................... 22

ILUSTRACIÓN 10 - DISTRIBUCIONES "NORMALES" ................................................................................................. 24

ILUSTRACIÓN 11 - DISTRIBUCIÓN DE POISSON ...................................................................................................... 25

ILUSTRACIÓN 12 - DIAGRAMA DE DISPERSIÓN ...................................................................................................... 27

ILUSTRACIÓN 13 CORRELACIÓN LINEAL POSITIVA .................................................................................................. 28

ILUSTRACIÓN 14 - CORRELACIÓN LINEAL NEGATIVA ............................................................................................... 28

ILUSTRACIÓN 15 - CORRELACIÓN NULA ............................................................................................................... 28

ILUSTRACIÓN 16 - CORRELACIÓN EXPONENCIAL .................................................................................................... 28

ILUSTRACIÓN 17 - DIAGRAMA DE DISPERSIÓN ...................................................................................................... 29

ILUSTRACIÓN 18 - EJEMPLO DE REGRESIÓN MÚLTIPLE ............................................................................................ 32

6. Índice de tablas

TABLA 1 - MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ................................................................................ 15

TABLA 2 - DISTRIBUCIÓN DE PROBABILIDAD DISCRETA ............................................................................................ 21

7. Índice de Ecuaciones

ECUACIÓN 1 - MEDIA ARITMÉTICA ....................................................................................................................... 8

ECUACIÓN 2 - MEDIANA ..................................................................................................................................... 9

ECUACIÓN 3 - AMPLITUD TOTAL ........................................................................................................................ 11

ECUACIÓN 4 - VARIANZA .................................................................................................................................. 11

ECUACIÓN 5 - DESVÍO ESTÁNDAR ....................................................................................................................... 11

ECUACIÓN 6 - COEFICIENTE DE VARIACIÓN ........................................................................................................... 12

ECUACIÓN 7 - COEFICIENTE DE VARIACIÓN RELATIVO ............................................................................................. 12

ECUACIÓN 8 - COEFICIENTE DE PEARSON ............................................................................................................. 12

ECUACIÓN 9 - PROBABILIDAD ............................................................................................................................ 16

ECUACIÓN 10 – PROBABILIDADES AJUSTADAS - BAYES ........................................................................................... 20

ECUACIÓN 11 - VALOR ESPERADO ...................................................................................................................... 22

ECUACIÓN 12 - DISTRIBUCIÓN NORMAL .............................................................................................................. 23

ECUACIÓN 13 - DISTRIBUCIÓN EXPONENCIAL ....................................................................................................... 24

ECUACIÓN 14 - DISTRIBUCIÓN DE POISSON .......................................................................................................... 24

ECUACIÓN 15 - REGRESIÓN LINEAL SIMPLE .......................................................................................................... 30

ECUACIÓN 16 - REGRESIÓN LOGÍSTICA ................................................................................................................ 33

ECUACIÓN 17 - PROMEDIO PONDERADO ................................................................ ¡ERROR! MARCADOR NO DEFINIDO.

ECUACIÓN 18 - CRITERIO DE REALISMO .................................................................. ¡ERROR! MARCADOR NO DEFINIDO.

ECUACIÓN 19 - VALOR ESPERADO DE LA INFORMACIÓN PERFECTA .............................. ¡ERROR! MARCADOR NO DEFINIDO.

8. Índice Onomástico

AOA · Activity On Arrow - Actividad en la flecha

AON · Activity On Node - Actividad en el Nodo

Critical Path Method · 86

Cuartil · Dividen a la distribución en cuatro partes

iguales

Decil · Deciles son aquellos que dividen a la

distribución en diez partes

EMV · Expected Monetary Value)

EMwPI · Expectec Value with Perfect Information

inecuaciones · Desigualdades lineales

Moda · es el valor con una mayor frecuencia en una

distribución de datos.

Precedence Diagramming Method · 87

PEPS · Primero en Entrar, Primero en Salir

Percentil · Son aquellos que dividen a la distribución

en cien partes

Program evaluation and Revision Technic · 86

PL · Programación Lineal

Project Management Book · 87

Quintil · dividen a la distribución en cinco partes

iguales

9. Bibliografía

Barry Rnder, Ralph M. Stair, Michael E. Hanna. Métodos cuantitativos

para los negocios. México: Pearson, 2006.

Cachero, Manuel López. Análisis y Adopción de Decisiones. Madrid:

Ediciones Pirámide, 1998.

Fiani, Ronaldo. Teoria dos Jogos. Rio de Janeiro: Editora Campus,

Kotler, Philip. Dirección de la mercadotecnia - Análisis, Planeación,

Implementación y Control. 7ma. México, 1993.

Martins, Gilberto de Andrade. Estatística Geral e Aplicada. Sao Paulo:

Editora Atlas, 2005.

Activus book 61 - Estadísticas básicas para la Gestión

Business

Transcript of Activus book 61 - Estadísticas básicas para la Gestión

Picture book

Ocampo book

Estadísticas mundiales Estadísticas nacionales Estadísticas provinciales Consumo-cambios

Book Digital

Book fotográfico

Chord Book

ESTADÍSTICAS TURÍSTICAS 2015 ESTADÍSTICAS TURÍSTICAS ...

Book Profesional

Cranberries Book

Patrimonio Book

Book jsaintemarie

Book mjbarragan

Sales Mangement - Activus book 4

e o - · PDF fileUII . patrimonio cultural andallo en . la . historia .¡:lef . continente americano. . I . Illteresados . en . potelldar nuestros activus turísticos, reclUSOS

Price Book

Estadísticas mundiales Estadísticas nacionales Estadísticas provinciales Consumo-cambios Patrones alimentarios.

Book de fotos profesionales en Madridbookdefotos-madrid.com/wp-content/.../Book-de-fotos... · BOOK FOTOGRÁFICO:. Un book es una recopilación de las mejores fotografías presentadas

Piupil's Book

Ferret Book

Book celeste