Estadística Aplicada a las Licenciaturas: Administración ...ftapia/Prototipos/public_html/Notas de...

43
Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I. Dr. Francisco Javier Tapia Moreno. Departamento de Matemáticas 1 Universidad de Sonora. Tema II: Semestre 2010-2 Estadística Aplicada a las Licenciaturas: Administración, Contaduría e Informática Administrativa. Tema II. Por Dr. Francisco Javier Tapia Moreno

Transcript of Estadística Aplicada a las Licenciaturas: Administración ...ftapia/Prototipos/public_html/Notas de...

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 1 Universidad de Sonora.

Tema II: Semestre 2010-2

Estadística Aplicada a las Licenciaturas:

Administración, Contaduría e Informática

Administrativa. Tema II.

Por

Dr. Francisco Javier Tapia Moreno

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 2 Universidad de Sonora.

Tema II: Semestre 2010-2

Prólogo.

Este es el segundo folleto correspondiente al Tema II de Estadística Aplicada a las Licenciaturas:

Administración, Contaduría e Informática Administrativa que se ofrecen de la Universidad de Sonora. Los

temas presentados aquí son congruentes con el programa vigente de la materia de Estadística I del área

económico- administrativo.

En el segundo tema del programa titulado Estadística descriptiva, el alumno conocerá y utilizará

adecuadamente las herramientas de la estadística descriptiva para recopilar, organizar y analizar

adecuadamente la información, construirá e interpretará correctamente información gráfica y tabular (ver

secciones 2.1-2.5).

Calculará e interpretará adecuadamente las medidas estadísticas de localización y dispersión; utilizará

adecuadamente las medidas de tendencia central ante diversas situaciones presentadas; integrará las medidas

de localización y dispersión en problemas relacionados con la toma de decisiones; conocerá, utilizará e

interpretará un diagrama de dispersión y sobre la base del mismo, podrá decir si dos variables están

correlacionadas o no (ver secciones 2.6-2.8).

Calculará el coeficiente de correlación lineal simple y la recta de regresión en variables correlacionadas e

Interpretará, sobre la base del problema a analizar, el significado del análisis efectuado (ver sección 2.9).

Nuestro propósito al elaborar este segundo folleto, es dotar al alumno de las herramientas necesarias,

apegada al programa vigente, para que el alumno por sí mismo, recopile, organice, represente de manera

gráfica, analice e interprete la información recabada ya sea por medio de una muestra o de un censo, y la

utilice para la realización de toma de decisiones. Además, de estudiar, explorar y cuantificar la relación entre

variables cuantitativas para desarrollar una ecuación lineal simple con fines predictivos.

Este trabajo se sitúa en el marco de un esfuerzo colectivo realizado por el Departamento de Matemáticas

por dotar al alumno del material didáctico necesario para que éste optimice su proceso de

enseñanza/aprendizaje/formación de las matemáticas.

Hermosillo, Sonora, México. Agosto de 2010.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 3 Universidad de Sonora.

Tema II: Semestre 2010-2

Tema Pag.

Tema II. Estadística Descriptiva.

2.1. Introducción.

2.2. Clases de datos.

2.3. Agrupamiento en intervalos.

2.4. Descripción de datos de una variable. 2.4.1. Tabulación y representación gráfica.

Tablas de frecuencias.

Datos Agrupados.

2.5. Representaciones Gráficas

Diagramas de frecuencia mediante puntos.

Gráficas de línea.

Diagrama de barras.

Histogramas.

Polígono de frecuencias.

Diagramas de tallo y hojas.

Diagramas de pastel o circulares.

Otras distribuciones de frecuencias y otros gráficos. Distribuciones acumulativas y polígonos acumulativos.

Polígonos acumulativos u Ojivas.

Diagramas de caja.

2.6. Medidas descriptivas de localización y distribución. 2.6.1 Medidas de posición o centralización. La media aritmética.

La mediana.

Cuantiles. Cálculo de los cuartiles

a) Para datos agrupados.

b) Para datos no agrupados.

Cálculo de Deciles

a) Para datos agrupados.

b) Para datos no agrupados

Cálculo de percentiles.

a) Para datos agrupados.

b) Para datos no agrupados

La moda.

2.6.2. Relación entre la Media, la Mediana y la moda.

2.7. Medidas de Dispersión. Coeficiente de variación.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 4 Universidad de Sonora.

Tema II: Semestre 2010-2

2.8. Medidas de forma. Coeficiente de disimetría de Pearson.

Coeficiente de Asimetría de Fisher.

Curtosis o apuntamiento.

Coeficiente de curtosis de Fisher.

2.9. Análisis de regresión y correlación lineal simple.

2.9.1. Introducción al análisis de regresión y correlación lineal. Regresión lineal.

Correlación lineal.

2.9.2. Gráficos de dispersión.

2.9.3. Coeficiente de correlación lineal.

2.9.4. Modelo de regresión lineal simple.

2.10. Ejercicios teóricos.

2.11. Ejercicios prácticos.

2.12. Lecturas recomendadas.

2.13. Bibliografía recomendada para reforzar este tema.

2.11. Referencias.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 5 Universidad de Sonora.

Tema II: Semestre 2010-2

Tema II.

Estadística Descriptiva.

2.1. Introducción. Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en

estudio, examinando solamente una parte de ella denominada muestra. Este proceso, denominado Inferencia

Estadística, suele venir precedido de otro, denominado Estadística Descriptiva (ver el folleto 1), en el que los

datos son ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las

observaciones, intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman

valores parecidos, cuales difieren grandemente del resto, destacando hechos de posible interés, etc. Al hablar

de estadística descriptiva, uno se refiere a cualquier tratamiento de datos que esté diseñado para resumir o

describir algunas de sus características más importantes sin intentar deducir nada que escape al alcance de los

datos.

También, entre los objetivos de la Estadística Descriptiva, está el presentar los datos de tal modo que

permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden

mantenerse algunas suposiciones necesarias en determinadas inferencias como la de simetría, normalidad,

homocedasticidad (propiedad fundamental del modelo de regresión lineal), etc.

El propósito de este tema es el de ofrecer los conceptos de la estadística descriptiva y explicar las técnicas

que permitan realizar ambos procesos a los cuales, de forma conjunta, se les suele denominar Análisis de

Datos.

2.2. Clases de datos. Como se mencionó en el tema I (ver folleto 1), es habitual denominar a los caracteres variables estadísticas

o simplemente variables, calificándolas de cualitativas o cuantitativas según sea el correspondiente carácter, y

hablar de los valores de la variable al referirnos a sus modalidades, aunque de hecho solamente tendremos

verdaderos valores numéricos cuando analicemos variables cuantitativas. En ocasiones, con objeto de facilitar

la toma de los datos, el investigador los agrupa en intervalos. Así por ejemplo, resulta más sencillo averiguar

cuántos individuos hay en una muestra con una estatura, por ejemplo, entre 1.70 y 1.80 metros que medirlos a

todos, en especial si tenemos marcas en la pared cada 10 cm. Note que siempre se producirá una pérdida de

información al agrupar los datos en intervalos y, dado que hoy en día la utilización de la computadora suele

ser de uso común, un agrupamiento en intervalos es en general no aconsejable. Sin embargo, por razones

docentes admitiremos esta posibilidad, ya que precisamente el agrupamiento en intervalos traerá

complicaciones adicionales en el cálculo de algunas medidas representativas de los datos. En este tema

consideraremos, por tanto, tres tipos posibles de datos: 1) Datos correspondientes a un carácter cualitativo 2)

Datos sin agrupar correspondientes a un carácter cuantitativo y 3) Datos agrupados en intervalos

correspondientes a un carácter cuantitativo.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 6 Universidad de Sonora.

Tema II: Semestre 2010-2

2.3. Agrupamiento en intervalos. Si tenemos la opción de poder agrupar los datos en intervalos, lo primero que debemos plantearnos

(independientemente de lo que más arriba comentábamos) es la cuestión de cuántos y cuáles intervalos elegir.

Previamente daremos algunas definiciones importantes. Si los intervalos que a menudo se le denominan

clases, son:

kj xxxx , x,, , x,, , x, , x 1-k1-j2110 .

Llamaremos amplitud del intervalo j-ésimo a 1j-j -xx , k,1,j , hablando de intervalos de amplitud

constante o variable, según tengan o no todos la misma amplitud. Llamaremos extremos de la clase j-ésima a

1j-x y a jx , y por último, llamaremos centro o marca de clase correspondiente al intervalo j-ésimo al punto

medio del intervalo, es decir, a

2

1j-j

j

xx c

.

En todo este sección, consideraremos que el dato jx pertenece al intervalo 1-k ,... 1,j 1,j , siendo el

kx el k-ésimo dato. Hacemos notar también, que el primer intervalo y el último generalmente tienen,

respectivamente, el extremo inferior y el extremo superior indeterminados con el propósito de incluir

observaciones poco frecuentes.

Respecto a la cuestión que nos planteábamos al comienzo de este apartado, podemos considerar como regla

general la de construir, siempre que sea posible, intervalos de amplitud constante o igual, sugiriendo sobre el

número k de intervalos a considerar el propuesto por Sturges

n log 3.322 1 k

siendo n el número total de datos. Una vez determinado el número k de intervalos a considerar, y si es posible

tomarlos de igual amplitud, esta será:

k

XXAmplitud

)()n( 1

en donde (n)x es el dato mayor y )(x 1 el menor.

2.4. Descripción de datos de una variable.

Durante el proceso de un experimento estadístico, por lo regular obtenemos una sucesión de observaciones

o datos (normalmente números) los cuales anotamos en el orden en que aparecen. Por ejemplo, las ventas

realizadas por la tienda departamental Mazón los sábados y domingos durante el año pasado. Estos datos

representan un ejemplo de una muestra tomada de una población de los montos de todas las ventas

realizadas durante el año. La muestra consiste de 31 montos de ventas diferentes, llamados valores de la

muestra, aunque el tamaño de la muestra es de .104n

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 7 Universidad de Sonora.

Tema II: Semestre 2010-2

Antes de entrar en detalle, es importante mencionar que si en un experimento estadístico observamos al

mismo tiempo dos cantidades, por ejemplo las ventas realizadas durante el día y el número de personas que

visitó la tienda durante ese día o, el peso y la estatura de las personas adultas, obtendremos una muestra en la

que cada valor de la misma es una pareja ordenada de números. De la misma manera, si observamos o

medimos tres cantidades, se obtendrán muestras que consisten de ternas ordenadas de números,

generalizándose esta situación para más de tres cantidades. Cuando se tiene un experimento estadístico donde

existe una sola variable de interés para ser observada, decimos que este experimento es uni-variado. Si en el

experimento se tiene interés en observar más de una variable, decimos que el experimento es multi-variado.

En esta sección manejaremos sólo experimentos en donde se involucra una sola variable para ser observada.

2.4.1. Tabulación y representación gráfica. En esta sección se discuten algunos métodos para obtener representaciones tabulares y gráficas de una serie

de datos. Se muestra como grandes cantidades de datos pueden ser organizados y presentados de manera más

eficaz en formas de tablas y diagramas con el propósito de intensificar el análisis e interpretación de los

datos, aspectos claves en la toma de decisiones. Además, se dan a conocer los conceptos de frecuencias

absoluta, relativa y porcentual.

Tablas de frecuencias.

El primer paso al recopilar los datos, es determinar el número de veces con que se presentan los valores en

la muestra y, resumirlos en una tabla llamada tabla de frecuencias o distribución de frecuencias de tal

manera que podamos identificar su comportamiento. Al número de veces que se presenta un valor recibe el

nombre de frecuencia absoluta o, más brevemente frecuencia.

Ejemplo 2.1 En una sucursal bancaria de la localidad, se ha tomado el tiempo de atención en ventanilla a

20 clientes, durante sus operaciones bancarias. Los registros de los tiempos y el número de cliente en el orden

en que éste llegó aparecen en la Tabla 2.1.

TABLA 2.1.TIEMPOS DE ESPERA DE 20 CLIENTES EN UNA SUCURSAL BANCARIA.

Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Minutos 3 2 5 3 1 5 3 3 2 4 6 2 5 4 7 5 3 6 3 4

Podemos resumir los datos de la Tabla 2.1 como se muestran en la Tabla 2.2.

TABLA 2.2. DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS.

Minutos 1 2 3 4 5 6 7

Frecuencia 1 3 6 3 4 2 1

Si dividimos la frecuencia entre el tamaño de la muestra n, obtenemos la frecuencia relativa para esta

cantidad observada en la muestra. Obtener las frecuencias relativas es muy útil cuando la cantidad de los

datos observados es muy grande. Formalmente podemos definir la frecuencia relativa de un valor dado, como

la proporción de ese valor.

Ejemplo 2.2 En la Tabla 2.3 aparecen las frecuencias relativas para cada uno de los valores observados del

Ejemplo 2.1.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 8 Universidad de Sonora.

Tema II: Semestre 2010-2

TABLA 2.3. DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS.

Minutos 1 2 3 4 5 6 7

Frecuencia

Relativa 05020

1.

15020

3. 300

20

6. 150

20

3. 200

20

4. 100

20

2. 050

20

1.

Si las frecuencias relativas se multiplican por 100% se obtienen las frecuencias porcentuales para cada

uno de los valores observados.

Ejemplo 2.3 Las frecuencias porcentuales de los valores observados en el Ejemplo 2.2 aparecen en la Tabla

2.4.

TABLA 2.4. DISTRIBUCIÓN DE FRECUENCIAS PORCENTUALES

Minutos 1 2 3 4 5 6 7

Frecuencia

Porcentual 5% 15% 30% 15% 20% 10% 5%

Datos Agrupados.

Cuando en una muestra se tienen demasiados datos es recomendable juntarlos en grupos o clases. A los

datos resultantes se les llama datos agrupados. Cada grupo recibe el nombre de clase o intervalo de clase y

la selección de estas clases es regularmente arbitraria además, su elección debe ajustarse a la exigencia de que

no existan clases vacías, de que cada observación caiga en una y sólo una clase y que su longitud o amplitud

sea igual. Existen fórmulas para determinar el número recomendable de clases el cual depende del tamaño de

la muestra.

Ejemplo 2.4. La Tabla 2.5 presenta la cantidad de dinero gastada en electricidad durante el mes de julio de

2010, de 30 familias de bajos recursos de una colonia situada al sur de la ciudad de Hermosillo.

TABLA 2.5. CANTIDAD DE DINERO GASTADA EN ELECTRICIDAD ($)

96 171 202 178 147 102 153 197 127 82

157 185 90 116 172 111 148 213 130 165

141 149 206 175 123 128 144 168 109 167

Utilizaremos estos datos para construir una tabla de frecuencias con clases o intervalos adecuados.

Como se tiene una muestra con pocos datos podemos elegir pocas clases. Por ejemplo, 5. Podemos observar

de la Tabla 2.5 que: 1) el monto menor es de $82 y 2) el monto mayor es de $213. Si realizamos la diferencia

entre estos dos montos obtenemos la amplitud o rango de los datos dados. Así, el rango = 213-82 = 131

pesos; como se desean 5 clases, dividimos el rango entre 5 y obtenemos que la amplitud de cada clase debe

de ser de 20265

131. pesos. Podemos escoger clases de $27 de amplitud y elegir el valor mínimo de $80 con

el propósito de que el valor menor, y el valor mayor observados, no queden en el extremo de su respectiva

clase. Así, las clases con sus respectivas frecuencias son las que se muestran en la Tabla 2.6.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 9 Universidad de Sonora.

Tema II: Semestre 2010-2

TABLA 2.6. DISTRIBUCIÓN DE FRECUENCIAS PARA LOS DATOS DE LA TABLA 2.5.

Clase o Intervalo

de clase

Marcas

de clase

Frecuencia

Absoluta

Frecuencia

Relativa

Frecuencia

Porcentual

De $80 a menos de 107 93.5 4 0.13 13%

De107 a menos de 134 120.5 7 0.23 23%

De 134 a menos de 161 147.5 7 0.23 23%

De 161 a menos de 188 201.5 8 0.27 27%

De 188 a menos de $215 228.5 4 0.14 14%

TOTALES 30 1.00 100%

Note que cada monto observado cae en una sola clase, y que las clases tienen la misma amplitud.

2.5. Representaciones Gráficas Como se pudo observar en la sección anterior, las tablas de frecuencia son útiles para la presentación de los

datos. Las gráficas que de ellas surgen lo son aún más, ya que en ellas es muy fácil observar la distribución de

la información. Existen varias formas de representar gráficamente las muestras y es suficiente presentar estos

métodos en términos de los ejemplos usados en la sección 2.4.

Diagramas de frecuencia mediante puntos.

La Figura 2.1 presenta el diagrama de puntos para la tabla de frecuencia del Ejemplo 2.1. Este diagrama da

una mejor idea del comportamiento de los datos obtenidos en la muestra.

Figura 2.1 Diagrama de puntos de la muestra dada en la Tabla 2.1

Gráficas de línea.

La Figura 2.2 presenta la gráfica de línea para los datos de la Tabla 2.2. Estos dos tipos de gráficas nos sirven

para echar un vistazo rápido a los datos, con el propósito de observar su tendencia. Cuando se requiere una

gráfica más detallada y formal uno echa mano de los diagramas de barras y de los histogramas.

0

1

2

3

4

5

6

7

8

0 5 10 15 20 25

Min

uto

s

Número de cliente

Tiempo de atención a clientes

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 10 Universidad de Sonora.

Tema II: Semestre 2010-2

Figura 2.2. Diagrama de línea de los datos de la Tabla 2.2

Diagrama de barras.

En los diagramas de barras se utilizan rectángulos para representar gráficamente los datos. La base de cada

rectángulo del diagrama de barras representa una característica de los datos obtenidos en la muestra y la

altura del rectángulo significa la frecuencia con que se dio esta característica. Para dibujar un diagrama de

barras, se marca en el eje horizontal las distintas características que se encontraron en los datos obtenidos y

en el eje vertical se marca la frecuencia con que se dio esa observación y se trazan rectángulos separados por

cada valor con la altura correspondiente a cada frecuencia. En el diagrama de la Figura 2.3 podemos observar,

por ejemplo, que un 20% de los clientes fueron atendidos en 2 minutos o menos, o que el 50% de los clientes

realizaron sus operaciones en 4 minutos o más.

Figura 2.3. Diagrama de barras para los datos de la Tabla 2.4.

Histogramas. Al igual que en los diagramas de barras, en un histograma la base de cada rectángulo representa una clase o

intervalo de clase de los datos agrupados y la altura del rectángulo representa la frecuencia o número de datos

agrupados en esa clase. La única diferencia existente entre estas dos gráficas es que en el diagrama de barras

los rectángulos están separados mientras que en el histograma los rectángulos se unen. Los histogramas son

usados frecuentemente cuando se trata de datos agrupados, y su presentación puede variar un poco ya que el

0

2

4

6

8

10

1 2 3 4 5

mer

o d

e cl

ien

tes

Minutos de atención

Tiempo de atención a clientes

0% 5% 10% 15% 20% 25% 30%

1

2

3

4

5

Porcentaje de clientes

Min

uto

s d

e a

ten

ció

n

Tiempo de atención a clientes

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 11 Universidad de Sonora.

Tema II: Semestre 2010-2

eje horizontal se puede marcar con los puntos extremos de cada una de las clases tal como se muestra en la

Figura 2.4 o bien con los puntos medios de cada una de las clases como se puede ver en la Figura 2.5.

Figura 2.4. Histograma para los datos de la Tabla 2.6.

Note que tanto el histograma con frecuencias absolutas como el de frecuencias relativas tienen la misma

forma, esto se debe a que las frecuencias relativas son proporcionales a las frecuencias absolutas y la elección

de una u otra forma depende esencialmente del gusto personal. La diferencia entre gráficas de barras e

histogramas se basa en distinguir entre variables cuantitativas y cualitativas mencionadas en la sección

3.2 del Folleto 1.

Figura 2.5. Histograma con frecuencias relativas para los datos de la Tabla 2.6.

Polígono de frecuencias. Un polígono de frecuencia es el gráfico lineal de una tabla de frecuencias. Los ejes de este gráfico son

similares a los del histograma excepto que el punto medio de cada clase se identifica de manera característica

a lo largo del eje horizontal (ver Tabla 2.6). El número de observaciones o frecuencia de cada clase es

representado por un punto arriba del punto medio de esa clase y estos puntos son unidos por una serie de

segmentos de línea para formar un polígono. En la Figura 2.6 se muestra el polígono de frecuencias

porcentuales para los datos dados en la Tabla 2.4.

0

0.05

0.1

0.15

0.2

0.25

0.3

$80-107 107-134 134-161 161-188 188-$215Po

rcen

taa

je d

e fa

mil

ias

Cantidad de dinero en consumo

Consumo de electricidad

0

0.05

0.1

0.15

0.2

0.25

0.3

$80-107 107-134 134-161 161-188 188-$215

Fre

cuen

cia

s re

lati

va

s

Cantidad de dinero en consumo

Consumo de electricidad

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 12 Universidad de Sonora.

Tema II: Semestre 2010-2

Figura 2.6. Polígono de frecuencias porcentuales para los datos de la Tabla 2.6.

Diagramas de tallo y hojas.

Un diagrama de tallo y hojas es un ingenioso artificio el cual ofrece una representación parecida a un

histograma. La ventaja de estos diagramas es que no sólo revelan las frecuencias, sino que contienen los

datos reales. En la Figura 2.7 aparece el diagrama de tallo y hojas para los datos de la Tabla 2.5.

Tallo Hojas

8 2 9 6 0

10 2 9

11 6 1 12 7 3 8

13 0

14 7 8 1 9 4 15 3 7

16 5 8 7

17 1 8 2 5 18 5

19 7

20 2 6 21 3

Figura 2.7. Diagrama de tallo y hojas para los datos de la Tabla 2.5.

Este diagrama podría hacerse un poco más claro si se ordenan los datos de menor a menor pero, cuando este

mecanismo se hace a mano puede resultar demasiado tedioso dependiendo del tamaño de la muestra.

Diagramas de pastel o circulares. Cuando en una tabla de frecuencia, los datos están separados en categorías o por cualidades,

frecuentemente se utiliza un diagrama circular conocido como diagrama de pastel el cual consiste de un

círculo dividido en sectores que son proporcionales en tamaño a las frecuencias o porcentajes

correspondientes. Para construir un diagrama de pastel se utilizan las frecuencias porcentuales. La Figura 2.6

muestra un diagrama de pastel para los datos de la Tabla 2.4.

0%

5%

10%

15%

20%

25%

30%

66.5 93.5 120.5 147.5 201.5 228.5

Po

rcen

taje

de

fam

ilia

s

Cantidad de dinero en consumo

Consumo de electricidad

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 13 Universidad de Sonora.

Tema II: Semestre 2010-2

Figura 2.7. Diagrama de pastel para los datos de la Tabla 2.4.

Otras distribuciones de frecuencias y otros gráficos. Otros dos métodos útiles para representar datos, los cuales facilitan el análisis y la interpretación, son las

tablas de distribución acumulativas y los diagramas de polígonos acumulativos mejor conocidos como ojivas.

Estos gráficos los podemos generar a partir de las tablas de distribución de frecuencias: 1) absolutas, 2)

relativas, o 3) porcentuales, mencionadas en la sección 2.4.

Distribuciones acumulativas y polígonos acumulativos.

Para construir una tabla de distribución de frecuencia acumulada, primeramente decidimos si se desea

construirla con frecuencias absolutas, o con proporciones, o bien con porcentajes. Después escogemos el tipo

de distribución acumulativa, ya sea la "menor que" o la distribución acumulativa "mayor que" y por último,

nos basamos en la tabla de frecuencias para ir determinando la frecuencia acumulada de cada clase tal como

lo indica el Ejemplo 2.4.

Ejemplo 2.4. En la Tabla 2.8 aparece la distribución acumulada "menor que" con frecuencias relativas

usando los datos de la Tabla 2.6.

TABLA 2.8. DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS ACUMULATIVA "MENOR QUE"

Clase o

Intervalo

Frecuencia

Relativa

Frecuencia Relativa

Acumulada "menor que"

Operación

efectuada

menos de $107 0.13 0 ninguna

a menos de 134 0.23 0.13 0 + 0.13

menos de 161 0.23 0.36 0 + 0.13 + 0.23

a menos de 188 0.27 0.59 0 + 0.13 + 0.23 + 0.23

menos de 215 0.14 0.86 0 + 0.13 + 0.23 + 0.23 + 0.27

menos de 242 0 1.00 0 + 0.13 + 0.23 + 0.23 + 0.27 + 0.14

Como se puede observar, esta tabla se construyó registrando primero los límites inferiores de cada clase a

partir de la distribución de frecuencias relativas, luego se insertó un límite extra al final. Se calcularon las

1 minuto, 5%

2 minutos, 15%

3 minutos, 30%4 minutos, 15%

5 minutos, 20%

6 minutos, 10%7 minuto, 5%

Tiempo de atención a clientes

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 14 Universidad de Sonora.

Tema II: Semestre 2010-2

frecuencias relativas acumulativas en la columna "menor que" determinando la frecuencia relativa de

observaciones menores que de cada uno de los valores de los límites establecidos. Es decir, tomamos en

cuenta primero sólo datos menores de $80, después sólo datos menores de $107 y así sucesivamente hasta

llegar al último límite inferior.

Ejemplo 2.5 Similarmente se puede construir una tabla acumulativa "mayor que" determinando la

frecuencia relativa de observaciones mayores que de cada uno de los valores de los límites inferiores

establecidos. Es decir, tomamos en cuenta primero sólo datos mayores de $80, después sólo datos mayores

que $107 y así sucesivamente hasta llegar al último límite inferior. Operando de esta forma obtenemos la

tabla de distribución acumulativa siguiente.

TABLA 2.9.DISTRIBUCIÓN DE FRECUENCIAS ACUMULATIVA PORCENTUAL "MAYOR QUE"

DE LOS DATOS DE LA TABLA 2.4.6 Clase o

Intervalo

Frecuencia

porcentual

Frecuencia

Acumulada

"mayor que"

Operación

efectuada

mayor que $107 13% 100% Ninguna

mayor que 134 23% 87% 100 – 13

mayor que 161 23% 64% 100 – (13 + 23)

mayor que 188 27% 41% 100 – (13 + 23 + 23)

mayor que 215 14% 14% 100 – (13 + 23 + 23 + 27)

mayor que 242 0% 0% 100 – (13 + 23 + 23 + 27 + 14) .

Note que se insertó el límite inferior de la séptima clase con el propósito de indicar en la gráfica, la

ausencia de observaciones en esa clase y en las clases siguientes.

Polígonos acumulativos u Ojivas.

Para construir un polígono acumulativo u ojiva se colocan los límites inferiores de clase en el eje horizontal y

las frecuencias acumulativas (absolutas, relativas o porcentuales) en el eje vertical. En la Figura 2.8 aparece

la ojiva "menor que" basándose en los datos obtenidos en la Tabla 2.8.

Figura 2.8. Ojiva "menor que" de los datos de la Tabla 2.8.

La ojiva "mayor que" surgida a partir de los datos obtenidos en la Tabla 2.9 se muestra en la Figura 2.9.

0

0.2

0.4

0.6

0.8

1

1.2

menor que

$107

menor que

134

menor que

161

menor que

188

menor que

215

menor que

$242

Fre

cuen

cia

rela

tiv

a

acu

mu

lad

a

Cantidad de dinero en consumo

Consumo de electricidad

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 15 Universidad de Sonora.

Tema II: Semestre 2010-2

Figura 2.9. Ojiva “mayor que” de los datos de la Tabla 2.9.

Diagramas de caja. Los diagramas de caja es un medio muy útil para representar datos. En dicho diagrama, los valores mínimo

y máximo, los cuartiles inferior (primer 25% de todos los datos) y superior (tercer 25% de todos los datos

(también llamados percentiles 25 y 75) respectivamente, y la mediana (primer 50% de todos los datos o

percentil 50) se representan en una caja rectangular alineada ya sea horizontal o verticalmente. La caja se

extiende del cuartil inferior al superior, y es atravesada de un lado al otro por la mediana. A partir de los

extremos de la caja se extienden líneas (“bigotes”) hasta los valores mínimo y máximo. Por ejemplo, un

gerente de ventas está interesado en comparar las ventas mensuales realizadas en el año 2008 con las ventas

mensuales realizadas en el año 2009. El gerente ha recolectado las 12 observaciones de cada año. Los datos

aparecen en la Tabla 2.10

TABLA 2.10. VENTAS MENSUALES DE LOS AÑOS 2008 Y 2009.

Mes

Venta realizada

en el año 2008.

(miles de pesos)

Venta realizada

en el año 2009

(miles de pesos)

Enero 18.85 17.50

Febrero 16.40 17.63

Marzo 15.21 18.25

Abril 16.35 18.00

Mayo 13.52 17.86

Junio 17.04 15.20

Julio 16.96 10.59

Agosto 12.15 17.89

Septiembre 14.59 19.56

Octubre 16.57 14.00

Noviembre 18.22 15.69

Diciembre 20.25 19.90

La mediana de las ventas realizadas en el año 2008 es 485.162

57.164.16

mientras que los percentiles 25 y

75 son respectivamente 14.59 y 18.22. La mediana de las ventas realizadas en el año 2009 es

745.172

86.1763.17

y los percentiles 25 y 75 son 15.20 y 18.25 respectivamente. La venta mínima

0%

20%

40%

60%

80%

100%

120%

mayor que

$107

mayor que

134

mayor que

161

mayor que

188

mayor que

215

mayor que

$242

Fre

cuen

cia

acu

mu

lad

a

po

rcen

tua

l

Cantidad de dinero en consumo

Consumo de electricidad

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 16 Universidad de Sonora.

Tema II: Semestre 2010-2

mensual en el año 2008 fue de 12.15 miles de pesos y la máxima de 20.25, mientras que la venta mensual

mínima realizada en el año 2009 fue de 10.59 miles de pesos y la venta mensual máxima fue de 19.9 miles de

pesos. En la Figura 2.10 se muestran los diagramas de caja para las ventas realizadas en los dos años.

Figura 2.10. Diagramas de caja para las ventas mensuales de los años 2008 y 2009.

La representación de la Figura 2.10 revela claramente la diferencia en las ventas entre los dos años.

También indica que ambos años producen distribuciones razonablemente simétricas de ventas mensuales con

similar variabilidad o dispersión.

2.6. Medidas descriptivas de localización y distribución. En la sección anterior, los datos en bruto se recopilaron y se resumieron en forma apropiada en tablas y

gráficas. En esta sección se desarrollará una amplia variedad de medidas de resumen descriptivas, las cuales

son útiles para analizar e interpretar datos cuantitativos, ya sea recolectados en forma bruta (datos no

agrupados) o resumidos en distribuciones de frecuencia (datos agrupados). Para ambos casos, se desarrollarán

fórmulas similares para obtener estas medidas de resumen descriptivas y cuando sea posible se mostrará un

planteamiento gráfico utilizando las gráficas construidas en las secciones anteriores. En orden descendente de

importancia, las tres propiedades o características mayores que describen un conjunto de datos pertenecientes

a alguna variable numérica o a un fenómeno de interés son: 1) Posición, 2) Dispersión y 3) Forma. En

cualquier análisis o interpretación de datos numéricos, se puede utilizar una gran variedad de medidas

descriptivas que representan las propiedades de posición, dispersión y forma, para esquematizar y resumir las

características salientes del conjunto de datos. Si estas medidas de resumen descriptivas se calculan con una

muestra de datos se llaman estadísticos; si estas medidas descriptivas se calculan a partir de toda la población

de datos se llaman parámetros.

2.6.1 Medidas de posición o centralización. La característica más importante que describe o resume un grupo de datos es su posición. La mayor parte de

los datos muestran una tendencia definida a reunirse en torno de un cierto punto. Existen tres medidas

primarias de posición o de tendencia central estas son en orden de importancia, la media aritmética, la

mediana y la moda.

$

20.25

19.90

18.25

18.22

17.745

16.485

18.25

14.59

12.15 10.59

Año Año

2008 2009

25

20

15

10

V

e

n

t

a

s

e

n

m

i

l

e

s

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 17 Universidad de Sonora.

Tema II: Semestre 2010-2

La media aritmética.

La media aritmética mejor conocida como promedio es la medida de tendencia central más conocida y de

mayor uso. Esta medida es muy fácil de calcular a partir de los datos ya sea recopilados en forma bruta o

distribuidos en una tabla. Esta medida de tendencia central se indica mediante el símbolo X y se calcula

sumando todos los datos de la muestra y, se dividen entre el número total de datos recopilados en la muestra.

Así, si nXXXX ,,, 321 son los datos recopilados en la muestra, entonces,

.1321

n

X

n

XXXXX

n

i

i

n

(2.1)

En donde: X es la media aritmética o promedio de la muestra,

n es el tamaño de la muestra,

iX es el dato número i de la muestra tomada,

Ejemplo 2.6. La media aritmética para los datos de la Tabla 2.4.1 es:

minutos. 8.320

76

20

43635745264233513523

X

Si los datos se encuentran resumidos como los de la Tabla 2.2 entonces utilizamos la fórmula (2.2)

.

1

1

321

332211

k

i

i

k

i

ii

k

kk

f

Xf

ffff

XfXfXfXfX

(2.2)

En donde: X es la media aritmética o promedio de la muestra,

iX es el dato número i de la muestra tomada,

if es la frecuencia con que se repite el dato iX .

k es el número de datos diferentes que aparecen en la muestra.

Ejemplo 2.7. La media aritmética para los datos de la Tabla 2.2 es:

minutos. 8.320

76

1243631

)7)(1()6)(2()5)(4()4)(3()3)(6()2)(3()1)(1(

X

Como se puede observar en los ejercicios anteriores el número 3.8 obtenido, no pertenece a la muestra pero,

podemos observar que en la muestra existen 10 valores menores que 3.8 y 10 valores mayores que 3.8. Por lo

tanto, la media actúa como un punto de equilibrio o como una balanza, de tal manera que las observaciones

que son mayores equilibran a las que son menores.

De una manera similar se puede calcular la media aritmética para los datos que aparecen en las Tablas 2.3 y

2.4. Si los datos de la muestra fueron agrupados en una tabla de distribución, para calcular la media

utilizamos la fórmula (2.3).

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 18 Universidad de Sonora.

Tema II: Semestre 2010-2

.

1

1

321

332211

k

i

i

k

i

ii

k

kk

f

mf

ffff

mfmfmfmfX

(2.3)

En donde: X es la media aritmética o promedio de la muestra,

im es el punto medio o marca de clase de la clase i de la distribución de frecuencia,

if es la frecuencia de la clase i de la distribución

k es el número de marcas de clase en la distribución.

significa aproximadamente igual.

Ejemplo 2.8. Para calcular la media aritmética de los datos de la Tabla 2.4.6, primeramente debemos calcular

los puntos medios o marcas de clase de la distribución, colocarlos en una tabla (ver tabla 2.11.) acompañados

con sus respectivas frecuencias y se aplica la fórmula (2.3).

TABLA 2.11. TABLA PARA CALCULAR LA MEDIA A

PARTIR DE UNA TABLA DATOS AGRUPADOS

Puntos Medios 93.5 120.5 147.5 174.5 201.5

Frecuencias absolutas 4 7 7 8 4

.5.148$48774

)5.201)(4()5.174)(8()5.147)(7()5.120)(7()5.93)(4(

X

La media aritmética para los datos no agrupados de la Tabla 2.5 es 4.14830

4452X observe la similitud

del valor calculado para los datos agrupados. Además, en los datos no agrupados, existen 15 datos de la

muestra que son menores que la media calculada y 15 valores mayores que la media. Si el valor calculado de

la media para los datos agrupados lo marcamos en el histograma o en el polígono de frecuencias, este valor

será el centro de gravedad de estos gráficos. Es decir, un eje que pase por el valor representativo de la media

aritmética dividirá al histograma o al polígono de frecuencias en dos partes, cada una conteniendo

aproximadamente el mismo número de observaciones.

La mediana.

La mediana es la segunda medida de tendencia central en importancia después de la media aritmética y es

utilizada cuando el (o los) valor(es) extremo(s) en un conjunto de datos afecta tanto a la media aritmética que

ésta no es una buena medida de tendencia central en esas circunstancias. Por eso cuando uno de los valores

extremos (o ambos) afecta considerablemente, es más apropiado utilizar la mediana como medida de

tendencia central, la mediana no se afecta con cualquiera valores extremos en un conjunto de datos. La

mediana es una medida de tendencia central que aparece en el medio de la serie de datos ordenada. Es decir,

la mitad de las observaciones en el conjunto de datos son menores que ella y la otra mitad son mayores que

ella.

Para calcular la mediana de un conjunto de datos los cuales se encuentran en su forma bruta, primeramente

los ordenamos ya sea de menor a mayor o bien de mayor a menor. Si el número de observaciones es impar se

toma el valor que esté en la mitad de los datos ordenados. Si el número de datos es par, se toma la media

aritmética de los dos datos intermedios.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 19 Universidad de Sonora.

Tema II: Semestre 2010-2

Ejemplo 2.9. Para calcular la mediana de los datos que aparecen en la Tabla 2.5, primeramente los

ordenamos en forma creciente (pueden ordenarse también en forma decreciente) tal como se muestra en la

Tabla 2.1.

TABLA 2.12. DATOS ORDENADOS DE MENOR A MAYOR DE LA TABLA 2.5

82 90 96 102 109 111 116 123 127 128

130 141 144 147 148 149 153 157 165 167

168 171 172 175 178 185 197 202 206 213

Como el número de datos es par, ,30n localizamos las dos observaciones intermedias, en este caso las

observaciones que se encuentran en el lugar 15 y 16. Esto es, la última observación de la primera mitad y la

primera observación de la segunda mitad en los datos ordenados. Así,

Mediana = 5.148$2

149148

Si los datos observados en la muestra están resumidos en una tabla de distribución, el valor aproximado de

la mediana se puede calcular mediante la fórmula (2.4).

)4.2(2 Mediana if

fn

BM

B

M

M

En donde, . mediana la a contiene que clase de intervalo delinferior fronteraMB

mediana. la a contiene que clase de intervalo elen nesobservacio de número Mf

mediana. la a contiene que clase de intervalo del antes nesobservacio de totalnúmero MBf

. mediana la a contiene que clase de intervalo del anchoi

mediana.n observació 2

n

Ejemplo 2.10. Para los datos resumidos en la Tabla 2.5, se tiene que el intervalo de clase que contiene a la

mediana es el intervalo de clase que contiene al dato número 152

30

2

n. Este intervalo es "De 134 a menos

de 161", su frontera inferior es 134, el número de observaciones que tiene este intervalo son 7, el número de

observaciones antes de este intervalo son 11 y el ancho de este intervalo es 134-107 = 27. Así, se tiene que:

;134MB ;7Mf ;11MBf 72i y 15

2

30

2

n

Sustituyendo estos valores en la fórmula (2.4) obtenemos:

43.13943.15134277

11151342 Mediana

if

fn

BM

B

M

M

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 20 Universidad de Sonora.

Tema II: Semestre 2010-2

Se puede concluir que 15 de las 30 familias muestreadas tuvieron montos menores de $139.43 y las otras 15

familias tuvieron montos mayores que $139.43.

Cuantiles. Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación

de los valores que dividen un conjunto de observaciones en partes iguales. Cuando se trata de datos

agrupados en una distribución de frecuencias, los cuantiles son los valores de la distribución que la dividen en

partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución

contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se

puede dividir la distribución en cuatro, en diez o en cien partes iguales. Los cuantiles más usados son los

cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez

partes y los percentiles o porcentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los

deciles y los percentiles, son en cierta forma una extensión de la mediana.

Cálculo de los cuartiles

a) Para datos agrupados.

Para calcular los Cuartiles Q1, Q2, Q3 y Q4 desde una tabla de distribución de frecuencias, se aplica la

fórmula

Donde,

k-ésimo cuartil de la muestra, k = 1, 2, 3, 4

n = tamaño de la muestra

= suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo cuartil.

frecuencia de la clase que contiene al k-esimo cuartil.

w = ancho del intervalo de clase.

límite inferior del intervalo de la clase que contiene al k-esimo cuartil.

b) Para datos no agrupados.

Si se tienen una serie de valores X1, X2, X3, ..., Xn, los cuartiles se localizan mediante las fórmulas , dependiendo de si el número de datos, n, es par o impar, respectivamente.

Siendo k el número del cuartil deseado; (k = 1, 2, 3, 4).

Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de dato

en la tabla de datos ordenados, donde se encuentra el cuartil deseado. Por lo tanto, una vez aplicada una de las

fórmulas, debemos identificar al dato que representa a dicho cuartil. Si el resultado que se obtiene al aplicar

la fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos

números enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 21 Universidad de Sonora.

Tema II: Semestre 2010-2

Cálculo de Deciles

a) Para datos agrupados. Para calcular los Deciles D1, D2, D3, … , D10 desde una tabla de distribución de frecuencias, se aplica la fórmula (2.8).

Donde,

k-ésimo decil de la muestra, k = 1, 2, 3, 4, …, 10

n = tamaño de la muestra

= suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo decil.

frecuencia de la clase que contiene al k-ésimo decil.

w = ancho del intervalo de clase.

límite inferior del intervalo de la clase que contiene al k-ésimo decil.

b) Para datos no agrupados

Si se tienen una muestra X1, X2, X3 ..., Xn de valores, los deciles pueden ser localizados usando las fórmulas , dependiendo de si el número de datos de la muestra, n, es par o impar, respectivamente.

Donde k el número del decil deseado; (k = 1, 2, …, 10).

Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de dato

en la tabla de datos ordenados, donde se encuentra el decil deseado. Por lo tanto, una vez aplicada una de las

fórmulas, debemos identificar al dato que representa a dicho decil. Si el resultado que se obtiene al aplicar la

fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos

números enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.

Cálculo de percentiles.

a) Para datos agrupados. Para calcular los percentiles P1, P2, …, P100 desde una tabla de distribución de frecuencias, se aplica la fórmula (2.11).

Donde,

k-ésimo percentil de la muestra, k = 1, 2, 3, 4, …, 100.

n = tamaño de la muestra

= suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo percentil.

frecuencia de la clase que contiene al k-esimo percentil.

w = ancho del intervalo de clase.

límite inferior del intervalo de la clase que contiene al k-esimo percentil.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 22 Universidad de Sonora.

Tema II: Semestre 2010-2

b) Para datos no agrupados

Si se tienen una muestra de valores X1, X2, ..., Xn, los percentiles pueden ser calculados por medio de las

, dependiendo de si el número de datos de la muestra, n, es par o impar, respectivamente.

donde k el número del percentil deseado; (k = 1, 2, …, 100).

Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de

dato en la tabla de datos ordenados, donde se encuentra el percentil deseado. Por lo tanto, una vez aplicada

una de las fórmulas, debemos identificar al dato que representa a dicho percentil. Si el resultado que se

obtiene al aplicar la fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia

entre los dos números enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver

ejemplo 2.12.

Es fácil observar que: el primer cuartil coincide con el percentil 25; el segundo cuartil con el decil 5; el

percentil 50 y el tercer cuartil con el percentil 75.

Ejemplo 2.11. Para los datos agrupados de la Tabla 2.6, el tercer cuartil se calcula usando la fórmula (2.5),

donde k = 3; n = 30; puesto que el 75% de los datos de la muestra se encuentra en la cuarta clase, = 4 + 7

+ 7 = 18; ; w = (188 – 161) = 27 y . Sustituyendo estos valores en la fórmula mencionada

arriba se tiene que:

Para calcular los cuantiles de datos no agrupados, primero debemos ordenar los datos de la muestra de

menor a mayor y después aplicar las fórmulas (2.6) o (2.7); (2.9) o (2.10); (2.12) o (2.13) para cuartiles,

deciles y percentiles respectivamente, según sea el caso del tamaño de la muestra (par o impar).

Ejemplo 2.12. Para los datos no agrupados y ordenados de menor a mayor de la Tabla 2.12, el séptimo decil se calcula

usando la fórmula (2.9) ya que n es par, con k = 7. Así:

El resultado obtenido desde la fórmula (2.9) nos indica que el decil 7 se encuentra en el dato 168.

Similarmente, para calcular el percentil 85 usamos la fórmula (2.12) ya que n es par, con k = 65. Así,

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 23 Universidad de Sonora.

Tema II: Semestre 2010-2

El resultado obtenido desde la fórmula, nos indica que el percentil 85 se encuentra en la mitad de los datos

25 y 26 de la Tabla 2.12. Los datos requeridos para realizar la ponderación son respectivamente, 178 y 185.

Ahora calculamos la parte proporcional de la diferencia entre estos dos números (Es decir, la parte decimal

del resultado obtenido en la fórmula). Esto es:

Por lo tanto, el percentil 85 es

La moda.

La moda es la tercera medida de centralización en importancia, es el valor que ocurre con más frecuencia en

un conjunto de observaciones. Si en una muestra de valores existe un solo valor que se repite un número

determinado de veces, se dice que esa muestra es unimodal. Cuando dos valores no adjuntos son casi iguales

al tener frecuencias máximas asociadas a ellos, la distribución se describe como bimodal. Las distribuciones

de mediciones con varias modas se denominan multimodales. Si en una muestra pequeña no se repiten

valores observados, no hay moda.

Ejemplo 2.13. Para los datos que aparecen en la Tabla 2.1 se observa que esta muestra es unimodal y que

su moda es 3 ya que el 3 es el número que aparece con mayor frecuencia en la muestra tomada. Esto significa

que regularmente, el mayor número de personas que sean atendidas en las ventanillas de ese banco tendrán un

tiempo de atención de 3 minutos.

Para los datos agrupados en una distribución de frecuencias con intervalos de clase iguales, primeramente

se determina la clase que contiene a la moda, identificando la clase con el número mayor de observaciones.

En algunos textos designan la moda como el punto medio de la clase modal. Sin embargo en la mayor parte

de los textos se realiza una interpolación dentro de la clase modal basándose en la fórmula (2.14).

)14.2(21

1 idd

dBModa M

En donde moda. la a contiene que clase la deinferior frontera MB

anterior. clase laen frecuencia lay modal clase laen frecuencia la entre diferencia 1 d

siguiente. clase laen frecuencia lay modal clase laen frecuencia la entre diferencia 2 d

clase. de intervalo del amaño ti

Ejemplo 2.14. Refiriéndose a la distribución de frecuencia de la Tabla 2.6. La clase modal es la clase con

límites de clase $161 a menos de $188 debido a que de todas las clases en la distribución, ésta es la que tiene

mayor frecuencia. Así,

.27161188;448;178;16121

iddBM

y,

75.167274

1161

Moda

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 24 Universidad de Sonora.

Tema II: Semestre 2010-2

El valor encontrado de 167.75 es el valor representativo que ofrece la fórmula y puede ser propuesto como

el dato que ocurrirá con mayor frecuencia. Es evidente que este dato no se encuentra en la muestra obtenida

pero sería una buena aproximación en caso de que los datos tuvieran una moda. Por {ultimo, si marcamos el

valor encontrado de la moda en el histograma o en el polígono de frecuencias, este valor indicará la cantidad

que aparece con mayor frecuencia. Una distribución de frecuencias puede carecer de moda o bien tener varias

modas.

2.6.2. Relación entre la Media, la Mediana y la moda. Las diferentes medidas de centralización, tienen ventajas y desventajas una con respecto de las otras,

depende mucho de la forma en que estén distribuidos los datos y el propósito de la información que se

obtenga. El único caso en que se puede asegurar que las tres medidas coinciden es cuando la moda existe y es

única y, además, los valores de la muestra están distribuidos simétricamente alrededor de un punto como lo

muestra la Figura 2.11.

Figura 2.11. Una distribución simétrica donde las medidas de centralización son iguales.

Puede darse el caso en que la distribución sea simétrica con respecto a un punto y las medidas de

centralización sean distintas como se puede observar en la Figura 2.12. En esta distribución, se da el caso en

que la Media y la Mediana son iguales pero existen 2 o más Modas.

Figura 2.12. Una distribución simétrica donde las medidas de centralización son diferentes.

La situación más común se presenta cuando la distribución de valores de la muestra es asimétrica o

disimétrica. Puede presentarse una distribución que sea disimétrica positiva o disimétrica negativa tales como

las que se pueden observar en la Figuras 2.13. a) y 2.13. b).

Fre

cu

en

cia

X

Fre

cu

en

cia

X

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 25 Universidad de Sonora.

Tema II: Semestre 2010-2

a) Distribución Asimétrica Positiva b) Distribución Asimétrica Negativa.

Figura 2.13. Distribuciones asimétricas o disimétricas.

Basándose en las medidas de centralización Media, Mediana y Moda, podemos saber el tipo de distribución

de frecuencias de acuerdo a las relaciones que aparecen la Tabla 2.13.

TABLA 2.13. RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA.

Condiciones Tipo de distribución

Si Media = Mediana = Moda Simétrica

Si Media Mediana Moda Disimétrica positiva

Si Moda Mediana Media Disimétrica negativa

2.7. Medidas de Dispersión. Como se mencionó en la sección 2.6, la segunda característica que describe un conjunto de datos es la

dispersión. La dispersión es la cantidad de variación o de diseminación de los datos. Existen varias

formas para medir el grado de dispersión en los conjuntos de datos. En esta sección se describen las más

importantes, éstas son la Varianza, la Desviación estándar y el Coeficiente de Variación.

Varianza y Desviación Estándar.

Dos medidas que tienen en cuenta cómo se distribuyen todas las observaciones en los datos, son la varianza

y la raíz cuadrada positiva de ésta, llamada desviación estándar. Su cálculo varía dependiendo de si se trata de

la población o de una muestra de ésta. Para una población, la varianza se representa por la letra griega

minúscula 2 la cual se lee "sigma cuadrado", la fórmula para su cálculo es:

N

XN

i

i

1

2

2

(2.15)

en donde es la media poblacional, N es el tamaño y Xi es cada uno de las observaciones de la población.

Cuando se calcula la varianza para una muestra, resulta que regularmente no es exactamente equivalente a

la varianza para la población de donde se tomó la muestra, esto se debe a factores de sesgo, lo cual se

explicará en secciones posteriores. Para el cálculo de la varianza de la muestra, se incluye un factor de

corrección ya que la varianza de la muestra, es un estimador no sesgado de la varianza de la población. La

varianza de la muestra se representa por 2s , su fórmula es:

Frecu

en

cia

X

Frecu

en

cia

X

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 26 Universidad de Sonora.

Tema II: Semestre 2010-2

1

1

2

2

n

XX

s

N

i

i

(2.16)

en donde X es la media, n es el tamaño y Xi es cada uno de las observaciones de la muestra.

Interpretar el significado del valor de la varianza, resulta regularmente difícil porque las unidades en que se

expresa no son las mismas de las observaciones del conjunto de datos. Por este motivo, la raíz cuadrada de la

varianza, la cual se representa por la letra griega o por s si se trata de una muestra y, llamada desviación

estándar, se utiliza con mayor frecuencia y las fórmulas para calcularla son:

N

XN

i

i

1

2

(2.17)

para la población y,

1

1

2

n

XX

s

n

i

i

(2.18)

para la muestra.

Esta desviación estándar será particularmente muy útil para el desarrollo del tema de distribuciones de

probabilidad.

Ejemplo 2.15. Para los datos no agrupados de la Tabla 2.1, la media aritmética resultó ser 3.8 minutos (ver

ejemplo 2.6). Considerando que estos datos fueron extraídos de una población infinita, la desviación estándar

se calcula mediante la fórmula (2.18). Los cálculos aparecen en la Tabla 2.14:

TABLA 2.14. TABLA PARA CALCULAR DE LA DESVIACIÓN ESTÁNDAR DE DATOS NO AGRUPADOS.

iX XX i 2)( XX i

3 -0.8 0.64 2 -1.8 3.24

5 1.2 1.44

3 -0.8 0.64 1 -2.8 7.84

5 1.2 1.44

3 -0.8 0.64 3 -0.8 0.64

2 -1.8 3.24

4 0.2 0.04

6 2.2 4.84

2 -1.8 3.24

5 1.2 1.44 4 0.2 0.04

7 3.2 10.24

5 1.2 1.44 3 -0.8 0.64

6 2.2 4.84

3 -0.8 0.64 4 0.2 0.04

Total 47.2

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 27 Universidad de Sonora.

Tema II: Semestre 2010-2

Así,

minutos. 576.1

19

2.47

1

1

2

n

XX

s

n

i

i

Para calcular la varianza y desviación estándar para datos agrupados, se toma el punto medio de cada clase

para representar todas las observaciones incluidas en esa clase. De acuerdo con lo anterior, las fórmulas para

la población agrupada y para los datos obtenidos de una muestra son:

Para la varianza de la población:

N

mfN

i

ii

1

2

2

(2.19)

Para la varianza de la muestra:

1

1

2

2

n

Xmf

s

n

i

ii

(2.20)

Para la desviación estándar de la población:

N

mfN

i

ii

1

2

(2.21)

Para la desviación estándar de la muestra:

1

1

2

n

Xmf

s

n

i

ii

(2.22)

Ejemplo 2.16. Para los datos agrupados de la Tabla 2.6, la media fue 148.5 (ver ejemplo 2.8) podemos

realizar los cálculos en una tabla de la manera siguiente:

TABLA 2.15. TABLA PARA CALCULAR LA DESVIACIÓN ESTANDAR DE DATOS AGRUPADOS.

Clase o intervalo de clase Punto Medio de clase (mi) Frecuencia Xmi 2)( Xmi

2)( Xmf i

De 80 a menos de 107 93.5 4 -55 3,025 12,100

De107a menos de 134 120.5 7 -28 784 5,488

De 134a menos de 161 147.5 7 -1 1 7

De 161a menos de 188 174.5 8 26 676 5,408

De 188a menos de $215 201.5 4 53 2,809 11,236

Total 34,239

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 28 Universidad de Sonora.

Tema II: Semestre 2010-2

Así,

783.33$

29

239,34

1

1

2

n

Xmf

s

n

i

ii

La desviación estándar es la medida de dispersión más importante debido a que se utiliza junto con una

cantidad de métodos de inferencia estadística, algunos de ellos se analizan en folletos posteriores y otros

quedan fuera del propósito de este curso. Sin embargo, como ejemplo del uso de la desviación estándar,

consideremos una distribución simétrica como la de la Figura 2.11, en el análisis estadístico, una curva de

frecuencia de ese tipo se le llama curva normal. Para una distribución que está normalmente distribuida, se

sabe que:

Aproximadamente el 68% de los datos observados se encuentran situadas dentro de una desviación

estándar alrededor de la media. Esto significa que este conjunto de datos se encuentra contenido en el

intervalo

Casi el 95% de las mediciones se encuentran contenidas dentro de dos desviaciones estándar

alrededor de la media. Es decir, se encuentra dentro del intervalo 2

Cerca del 99% de los datos observados se encuentran situadas dentro de tres desviaciones estándar

alrededor de la media. Esto es, se encuentra dentro del intervalo 3

Además, sin importar como se distribuyan los datos con respecto a la media, el porcentaje de observaciones

que están contenidas dentro de k desviaciones estándar alrededor de la media deben ser por lo menos,

%1001

12

k

Esto lo aseguraron los matemáticos Bienaymé y Chebyshev, al realizar estudios por separado de esta

propiedad el siglo XVIII [1]. Así, los datos de polígonos que adoptan cualquier forma, cuando menos un

75% de las observaciones caerán dentro del intervalo 2

88.89% de las mediciones estarán contenidas dentro del intervalo 3

93.75% de los datos observados estarán dentro del intervalo 4

Coeficiente de variación.

A diferencia de la varianza y de la desviación estándar, el coeficiente de variación es una media relativa, es

decir, se expresa como un porcentaje en lugar de en términos de las unidades de los datos observados. Es de

gran utilidad al comparar la variabilidad de dos o más conjuntos de datos o distribuciones que se expresan en

diferentes unidades de medida. Por ejemplo, un investigador podría estar interesado en medir la variabilidad

existente en las ventas diarias de diferentes compañías. No obstante, de que se podría tratar de la venta de

diferentes productos y de diferentes volúmenes de ventas, es posible medir la variabilidad de estas dos

compañías y hacer las comparaciones.

El coeficiente de variación denotado por V , indica la magnitud relativa de la desviación estándar

comparada con la media de la distribución de las observaciones. Las fórmulas para calcular el coeficiente de

variación son:

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 29 Universidad de Sonora.

Tema II: Semestre 2010-2

%100

V (2.23)

para la población y,

%100X

sV (2.24)

para una muestra.

Ejemplo 2.17. Usando los resultados obtenidos en los ejemplos 2.8 y 2.16, se tiene que:

%75.22%100 148.5

783.33V

Este resultado indica que existe una variabilidad del 22.75% entre los montos muestreados de consumo de

electricidad.

2.8. Medidas de forma. La tercera característica de las mencionadas en la sección 2.2 es la forma que presenta el polígono de una

distribución de datos. En esta sección estudiaremos medidas de asimetría y curtosis las cuales comparan la

forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución,

con la distribución normal. Como se mencionó en la sección 2.6.2, la distribución de los datos puede ser

simétrica, disimétrica positiva o disimétrica negativa. Si la distribución de datos no es simétrica, se dice que

es una distribución sesgada. Los coeficientes de asimetría de Pearson y de Fisher miden qué tan sesgada (a la

derecha o a la izquierda), está la distribución con respecto a la distribución normal la cual es simétrica.

El coeficiente de la curtosis o apuntamiento de Fisher mide la mayor o menor cantidad de datos que se agrupan

en torno a la moda y su pretensión es comparar la curva de una distribución con la curva de la variable normal,

en función de la cantidad de valores extremos en la distribución.

Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto con las medidas de

apuntamiento o curtosis son muy importantes ya que se usan para contrastar si se puede aceptar que una

distribución estadística sigue la distribución normal. Esto es necesario para realizar numerosos contrastes

estadísticos en la teoría de inferencia estadística.

Coeficiente de disimetría de Pearson.

Una manera de medir la asimetría o disimetría de una distribución es mediante el coeficiente de Pearson.

Este coeficiente mide el alejamiento de la simetría expresando la diferencia entre la Media y la Mediana en

relación con la desviación estándar del conjunto de datos. Las fórmulas para su cálculo son:

)(3población la de Asimetría

Mediana (2.25)

s

MedianaX )(3 muestra la de Asimetría

(2.26)

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 30 Universidad de Sonora.

Tema II: Semestre 2010-2

Para una distribución simétrica, el valor del coeficiente de disimetría será siempre cero, ya que la media y la

mediana son iguales en valor. Para una distribución sesgada a la derecha, el coeficiente siempre será positivo,

mientras que para una distribución sesgada a la izquierda el coeficiente será siempre negativo. La

interpretación del coeficiente de Pearson se resume en la Tabla 2.16

TABLA 2.16. INTERPRETACIÓN DEL COEFICIENTE DE PEARSON.

Signo del coeficiente de Pearson Tipo de Distribución

Sin signo (igual a cero o muy cercano a cero) Simétrica

Positivo Sesgada a la derecha

Negativo Sesgada a la izquierda

Ejemplo 2.18. Para los datos de la Tabla 2.1 de los tiempos de espera de atención a clientes en ventanillas,

se tiene que

571.0576.1

)5.38.3(3 muestra la de Asimetría

Por lo tanto, podemos concluir que la distribución de frecuencias de los datos de los tiempos de espera de

atención a clientes de la Tabla 2.1 está ligeramente sesgada a la derecha.

Coeficiente de Asimetría de Fisher. Para calcular el coeficiente de asimetría de Fisher usamos la fórmula (2.27) si se trata de una población

3

1

3)(

N

fX

A

i

k

i

i

f

(2.27)

donde Af representa el coeficiente de asimetría de Fisher, Xi cada uno de los valores, (µ) la media de la

población, σ la desviación estándar de la población, y (fi) la frecuencia de cada valor.

Si se trata de una muestra entonces usamos la fórmula (2.28).

3

1

3)(

Sn

fXX

A

i

k

i

i

f

(2.28)

Donde Af representa el coeficiente de asimetría de Fisher, Xi cada uno de los valores en la muestra, la

media de la muestra, S la desviación estándar de la muestra, y (fi) la frecuencia de cada valor.

La interpretación del coeficiente de asimetría de Fisher es la misma que la del coeficiente de asimetría

Pearson como lo indica la Tabla 2.17.

TABLA 2.17. INTERPRETACIÓN DEL COEFICIENTE DE FISHER.

Signo del coeficiente de Fisher Tipo de Distribución

Sin signo (igual a cero o muy cercano a cero) Simétrica

Positivo Asimétrica a la derecha

Negativo Asimétrica a la izquierda

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 31 Universidad de Sonora.

Tema II: Semestre 2010-2

Ejemplo 2.19. El coeficiente de Asimetría de Fisher para la distribución de la Tabla 2.6, podemos

calcularlo elaborando una tabla similar a la Tabla 2.18 y usando la fórmula (2.28) y los resultados obtenidos

para la media y desviación estándar en los ejemplos 2.8 y 2.16 respectivamente.

TABLA 2.18. TABLA PARA CALCULAR EL COEFICIENTE DE ASIMETRIA DE FISHER.

Marcas

de clase

iX

Frecuencia

Absoluta

if ii fX 3)5.148(

93.5 4 -665,500

120.5 7 -153,664

147.5 7 -7

201.5 8 1,191,016

228.5 4 2,048,000

Total 30 2,419,845

Así,

092.2)783.33(30

845,419,23

fA

Con este resultado concluimos que debido a que el coeficiente de asimetría de Fisher el positivo, la

distribución de los datos de la Tabla 2.6 es asimétrica positiva.

Curtosis o apuntamiento.

El concepto de curtosis o apuntamiento de una distribución surgió al comparar la forma de una distribución

con la forma de la distribución normal. De esta forma, se clasifican las distribuciones según sean más o

menos picudas o apuntadas que la distribución Normal. Se definen 3 tipos de distribuciones según su grado

de curtosis:

1) Distribución mesocúrtica: presenta un grado de concentración promedio alrededor de los valores

centrales de la variable (el mismo que presenta una distribución normal). En ese caso, el coeficiente

de curtosis es cero. Ver Figura 2.14 b).

2) Distribución leptocúrtica: presenta un grado elevado de concentración alrededor de los valores

centrales de la variable. Es decir, está más apuntada que la Normal. En este caso, su coeficiente de

curtosis será positivo. Ver Figura 2.14 a).

3) Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores

centrales de la variable. Es decir, la distribución está menos apuntada que la normal. En este caso el

coeficiente de Fisher es negativo. Ver Figura 2.14 c).

a) Leptocúrtica b) Mesocúrtica c) Platicúrtica

Figura 2.14. Tipos de distribuciones de acuerdo a su curtosis*.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 32 Universidad de Sonora.

Tema II: Semestre 2010-2

*Fuente: http://www.tuveras.com/estadistica/estadistica02.htm.

Coeficiente de curtosis de Fisher.

El Coeficiente de Curtosis para la población, se calcula usando la fórmula 2.29.

(2.29)3

)(

4

1

4

N

fX

C

i

k

i

i

f

Donde (Cf) representa el coeficiente de curtosis de Fisher, (Xi) cada uno de los valores, (µ) la media de la

población, σ la desviación estándar de la población, y (fi) la frecuencia de cada valor.

Para la muestra se usa la fórmula (2.30),

(2.30)3

)(

4

1

4

Sn

fXX

C

i

k

i

i

f

Donde (Cf) representa el coeficiente de curtosis de Fisher, (Xi) cada uno de los valores, ( ) la media de la

muestra, S la desviación estándar de la muestra, y (fi) la frecuencia de cada valor. De acuerdo al resultado

obtenido, las distribuciones pueden categorizarse como se indica en la Tabla 2.18.

TABLA 2.18. CATEGORIZACIÓN DE LAS DISTRIBUCIONES DE ACUERDO AL COEFICIENTE DE FISHER.

Signo del coeficiente de Fisher Tipo de distribución

Sin signo ( fC = 0) Mesocúrtica

Positivo ( fC > 0) Leptocúrtica

Negativo ( fC < 0) Platicúrtica

Ejemplo 2.20. El coeficiente de curtosis o apuntamiento de Fisher para la distribución de la Tabla 2.6,

podemos calcularlo elaborando una tabla similar a la Tabla 2.19 y usando la fórmula (2.30) y los resultados

obtenidos para la media y desviación estándar en los ejemplos 2.8 y 2.16 respectivamente.

TABLA 2.19. TABLA PARA CALCULAR EL COEFICIENTE DE ASIMETRIA DE FISHER.

Marcas

de clase

iX

Frecuencia

Absoluta

if ii fX 4)5.148(

93.5 4 36,602,500

120.5 7 4,302,592

147.5 7 7

201.5 8 63,123,848

228.5 4 163,840,000

Total 30 267,868,947

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 33 Universidad de Sonora.

Tema II: Semestre 2010-2

855.3333.783)(30

7267,868,944

ifC

En consecuencia, podemos deducir que debido a que el coeficiente de curtosis de Fisher es positivo, la

distribución de la Tabla 2.6 es leptocúrtica. Es decir, es más picuda que la distribución normal.

2.9. Análisis de regresión y correlación lineal simple. El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables

cuantitativas. Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables

(regresión múltiple). El análisis regresión lineal puede utilizarse para explorar y cuantificar la relación entre

una variable llamada dependiente (de respuesta o predictora) indicada por Y, y una o más variables llamadas

independientes (explicativas o regresoras) denotadas por X1, X2, …, Xk, así como para desarrollar una

ecuación lineal con fines predictivos.

En esta sección sólo estudiaremos la regresión, correlación lineal simple y calcularemos el modelo lineal

simple. Es decir, analizaremos la relación existente entre una variable independiente (X) y una variable

dependiente (Y), obtendremos un modelo lineal de una variable independiente para predecir o pronosticar la

variable dependiente.

2.9.1. Introducción al análisis de regresión y correlación lineal. Las técnicas de regresión (repercusión) y correlación (afinidad o correspondencia) cuantifican la asociación

estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable

dependiente Y, y una variable independiente X, en términos de la pendiente y la intersección de la línea con

el eje Y que mejor se ajuste a las variables. La correlación simple expresa el grado de la correspondencia o

relación entre las dos variables en términos de un coeficiente de correlación (r) que proporciona una medida

indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste. De ninguna manera, la

regresión ni la correlación dan pruebas de relaciones causa – efecto [2]

Regresión lineal. Se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de

dependencia entre dos o más variables. Es decir, conociendo los valores de una variable independiente, se

trata de estimar los valores, de una o más variables dependientes. Por otro lado, la regresión en forma grafica,

trata de lograr que una dispersión de las frecuencias sea ajustada a una línea recta o a una curva. Por lo tanto,

la regresión puede ser lineal y curvilínea (o no lineal). Como se mencionó antes, en este curso sólo estamos

interesados en aprender la regresión lineal simple. Este tipo regresión se usa con mucha frecuencia en las

ciencias económicas, y sus disciplinas tecnológicas ya que cualquier función no lineal, es linealizada para su

estudio y efectos prácticos. La regresión lineal simple es útil para: 1) determinar la relación de dependencia

que tiene una variable respecto a otra, 2) ajustar la distribución de frecuencias de ambas variables

(dependiente e independiente) a una línea recta, es decir, determinar la ecuación de la línea recta de regresión.

3) Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable.

Mediante el coeficiente de correlación de Pearson (ver sección 2.9.3) podemos determinar si la asociación

o relación que existe entre la variable dependiente y la independiente es fuerte o débil. En aquellos casos en

que el coeficiente de correlación (denotado por r) sea “cercano” a +1 o a –1, tendrá sentido considerar la

ecuación de la recta que “mejor se ajuste” a la nube de puntos (conocida como recta de los mínimos

cuadrados). Como ya se mencionó anteriormente, uno de los principales usos de dicha recta será el de

predecir o estimar los valores de Y que obtendríamos para distintos valores de X. Estos conceptos quedarán

representados en lo que llamamos diagrama de dispersión (ver sección 2.9.2) [3].

Con el coeficiente de determinación (ver sección 2.9.3), se logra calcular el porcentaje de la variabilidad

en las unidades de variable dependiente (pronóstico) que no puede ser explicada por las unidades de la

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 34 Universidad de Sonora.

Tema II: Semestre 2010-2

variable independiente en la predicción, debido a factores ajenos o externos de las unidades utilizadas en la

variable independiente. El coeficiente de determinación es denotado por r2 y oscila entre –1 y +1. Entre más

“cercano” a +1 o a –1 se tendrá un menor porcentaje de la variabilidad que no puede ser explicada entre las

unidades de ambas variables.

Correlación lineal.

En ocasiones nos puede interesar saber si existe o no algún tipo de relación entre dos variables aleatorias.

Por ejemplo, entre el número diario de visitas realizadas por los clientes a un establecimiento comercial y el

gasto diario realizado en publicidad por dicho establecimiento. Una primera aproximación al problema

consiste en dibujar en el plano cartesiano (R2) un punto por cada día muestreado: la primera coordenada (o

abscisa) de cada punto sería el número de visitas de los clientes al establecimiento, mientras que la segunda

coordenada (u ordenada) sería la cantidad de dinero gastada en publicidad ese día. Así, obtendríamos una

nube de puntos la cual podría indicarnos visualmente la existencia o no de algún tipo de relación lineal, o no

lineal entre ambas variables.

Otro ejemplo similar, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y

de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de

tiempo de 120 meses, una posible representación sería situar un punto por cada mes de forma que la abscisa

de cada punto sería la cantidad en pesos invertidos en publicidad y/o promoción, mientras que la ordenada

sería la cantidad en pesos obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que

nos indicaría el tipo de relación existente entre ambas variables. En particular, nos interesa cuantificar la

intensidad de la relación lineal entre las dos variables (abscisas y ordenadas). El parámetro que nos da tal

cuantificación es el coeficiente de correlación lineal de Pearson r2 (ver la sección 2.9.3), cuyo valor oscila

entre –1 y +1. En contraste, el análisis de regresión se usa en la predicción, mientras que el análisis de correlación se utiliza para

medir la fuerza de la asociación entre las variables [4].

2.9.2. Gráficos de dispersión. Un gráfico de dispersión muestra una serie de datos como un conjunto de puntos representados en un plano

cartesiano (ver Figura 2.15). Los valores se representan mediante la posición de los puntos en el gráfico. Las

categorías se representan mediante distintos marcadores en el gráfico. Los gráficos de dispersión suelen

usarse para comparar datos agregados de las categorías.

Fuerte correlación lineal positiva.

Ninguna correlación lineal.

Correlación lineal positiva intermedia.

Correlación no lineal intermedia.

Fuerte correlación lineal negativa.

Fuerte correlación no lineal.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 35 Universidad de Sonora.

Tema II: Semestre 2010-2

Figura 2.15 Diagramas de dispersión para la explicación del coeficiente de correlación.

Uno de los aspectos más poderosos de un gráfico de dispersión, es su capacidad para mostrar las relaciones

lineales o no lineales entre las variables. Además, si los datos son representados por un modelo de mezcla de

relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos. El diagrama de

dispersión es una de las herramientas básicas en control de calidad.

En la Figura 2.15 podemos observar distintos diagramas de dispersión los cuales explicarían el valor

obtenido en coeficiente de correlación (r) de Pearson.

Ejemplo 2.21. El gerente general de una empresa desea saber si existe relación entre la rentabilidad de la

empresa y la inversión en publicidad y promoción realizada por ésta. El gerente cuenta con los datos del

volumen de ventas y del gasto en publicidad y promoción que se realizaron en los últimos 12 meses

expresados en millones de pesos. Los datos recopilados aparecen en la Tabla 2.20. Para ello, construye el

diagrama de dispersión que aparece en la Figura 2.16.

TABLA 2.20. MONTOS MENSUALES DE LAS VENTAS Y GASTOS EN PUBLICIDAD Y PROMOCIÓN.

Año 2009 Año 2010

Mes Jul Ago Sept Oct Nov Dic Ene Feb Mar Abr May Jun

Monto de las ventas 5 10 15 20 30 40 50 65 70 75 80 90

Gasto en publicidad y promoción 1 1.5 1.8 2 2.5 3.5 5 6 6.5 7 7.5 8

Figura 2.16. Diagrama de dispersión del monto de las ventas y los gastos en publicidad y promoción.

Con el diagrama de la Figura 2.16 el gerente pudo observar que existe una relación creciente entre las dos

variables involucradas, y que ambas variables son directamente proporcionales. Es decir, si una variable sube

la otra también y viceversa. También, el gerente se dio cuenta que la relación existente entre las dos variables

se comporta como una línea recta con pendiente positiva y que dicha relación entre ambas variables parece

ser muy fuerte. Para verificar esta aseveración, el gerente debe calcular el coeficiente de correlación (ver la

sección siguiente). Para realizar un pronóstico, el gerente debe determinar la ecuación del modelo lineal que

involucra a estas dos variables (ver sección 2.9.4).

2.9.3. Coeficiente de correlación lineal.

0

1

2

3

4

5

6

7

8

9

0 20 40 60 80 100Gast

o e

n p

ub

lici

dad

y p

rom

oci

ón

(en

mil

lon

es d

e p

esos)

Monto de las ventas mensuales

(en millones de pesos)

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 36 Universidad de Sonora.

Tema II: Semestre 2010-2

El coeficiente de correlación, r, nos indica qué tan cerca están los datos de la línea de ajuste (ver la sección

2.9.4). La fórmula para calcularlo es:

2222

YYnXXn

YXXYnr (2.29)

La fórmula del coeficiente de correlación, desarrollada por Karl Pearson, está diseñada para que

11 r , con un valor de r cercano a 1 significa que las dos variables crecerán o decrecerán juntas, y

existirá una fuerte relación matemática entre ellas. Como se mencionó al inicio del de la sección 2.9.1, esto

no necesariamente significa que una de las variables tiene efecto directo sobre la otra. Por ejemplo, el hecho

de existir una gran correlación entre el crecimiento del número de escuelas en una cierta área de la ciudad y el

aumento en la venta de licor en esta área, no necesariamente quiere decir que los estudiantes y maestros están

tomando el licor; ambos crecimientos reflejan un crecimiento en la población de esta área.

Por otro lado, un coeficiente de correlación cercano a –1 indica que hay una fuerte correlación negativa;

esto es, una variable tenderá a decrecer mientras que la otra crecerá. Está generalmente convenido que la

correlación entre –0.2 y 0.2 indica una relación no significativa entre las variables.

Ejemplo 2.22. En referencia al ejemplo 2.21, el gerente decide calcular el coeficiente de regresión de

Pearson para determinar qué tan fuerte es la relación entre las variables involucradas. Para facilitar el cálculo

del valor de r, el gerente elaboró la Tabla 2.21.

TABLA 2.21. TABLA PARA CALCULAR EL COEFICIENTE DE CORRELACIÓN.

Mes X Y XY X2

Y2

Jul-09 5 1 5 25 1

Ago-09 10 1.5 15 100 2.25

Sept-09 15 1.8 27 225 3.24

Oct-09 20 2 40 400 4

Nov-09 30 2.5 75 900 6.25

Dic-09 40 3.5 140 1,600 12.25

Ene-10 50 5 250 2,500 25

Feb-10 65 6 390 4,225 36

Mar-10 70 6.5 455 4,900 42.25

Abr-10 75 7 525 5,625 49

May-10 80 7.5 600 6,400 56.25

Jun-10 90 8 720 8,100 64

Totales 550 52.3 3,242 35,000 301.49

En el renglón de totales de la Tabla 2.19 tenemos calculados respectivamente, X , Y , XY,

2Xy .

2

Y Por lo tanto, sólo se necesita sustituir estos valores con 12n en la fórmula de r . Así,

.995627.0

5320.183,10

139,10

59.882500,117

139,10

3.5212550000,3512

242,312

2249.301

3.52550

r

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 37 Universidad de Sonora.

Tema II: Semestre 2010-2

Con el resultado obtenido de r, podemos concluir que la relación existente entre las dos variables

involucradas (ventas y gasto en publicidad y promoción) es muy fuerte y que podemos utilizar el modelo de

regresión lineal para predecir una de las variables conociendo la otra. Coeficiente de determinación de Pearson.

El coeficiente de determinación r2 mide la proporción de variabilidad total de la variable dependiente Y

respecto a su media que es explicada por el modelo de regresión. En otras palabras, r2

mide la proporción de

la variación total en la variable dependiente Y que está explicada por la variable independiente X, o que se

debe a la variación de la variable independiente X. Es usual expresar esta medida en tanto por ciento,

multiplicándola por 100%. La fórmula para calcular el coeficiente de determinación de Pearson es:

%100

2

2222

2

YYnXXn

YXXYnr (2.30)

Ejemplo 2.23. Si el gerente desea calcular el coeficiente de determinación de Pearson, sólo tiene que

elevar al cuadrado el resultado obtenido en el ejercicio 2.22. Esto es,

99.1273%

Este resultado implica que sólo el 0.872687% de las variaciones en Y no pueden ser explicadas por la variable

independiente de las ventas mensuales generadas por la empresa. Un 99.1273% de los casos las variaciones en el gasto

mensual en publicidad y promoción pueden ser explicadas por las ventas mensuales realizadas por la empresa.

2.9.4. Modelo de regresión lineal simple. El modelo de regresión lineal simple toma la forma

Y = a + bX, (2.31)

Donde Y = variable dependiente; X = variable independiente. Los valores de la pendiente ( b) y la intersección con el

eje Y (a), se obtienen usando las ecuaciones normales escritas en la forma conveniente.

22 XnX

YXnYXb (2.32)

XbYa (2.33)

Ejemplo 2.21. En relación al ejemplo 2.19, el gerente general puede determinar el modelo de regresión

lineal simple (2.31), basándose en los resultados obtenidos en la Tabla 2.21 y usando las fórmulas (2.32) y

(2.33) de la manera siguiente:

.0.0862893666667.9791

916667.844

)8333.45()12()000,35(

)35833.4()8333.45(12242,32

b

Una vez calculado el valor de la pendiente (b), ya podemos determinar el valor de la intersección con el eje Y usando

la fórmula (2.33). Esto es,

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 38 Universidad de Sonora.

Tema II: Semestre 2010-2

0.40340426)35833.4()0.08628936()8333.45( a

Por lo tanto, el modelo de regresión lineal para los datos de la Tabla 2.20 es:

Y = 0.40340426 + 0.08628936X (2.34)

En donde X representa el monto de las ventas mensuales y Y el gasto mensual en publicidad y promoción.

Ejemplo 2.22. En relación al Ejemplo 2.20, para el mes de septiembre de 2010, la empresa desea realizar

ventas por 100 millones de pesos. El gerente general usa el modelo de regresión lineal simple calculado en el

Ejemplo 2.21, para determinar el gasto que debe hacerse ese mes en publicidad y promoción de la empresa,

como sigue:

Y = 0.40340426 + 0.08628936 (100) = 9.03234026

Esto es, para lograr las ventas deseadas en el mes de septiembre de 2010, la empresa debe realizar un gasto

aproximado de 9 millones de pesos en publicidad y promoción.

Ejemplo 2.23. En referencia al problema anterior, para el mes de octubre la gerencia de publicidad y

promoción de la empresa cuenta con un presupuesto de 11.5 millones de pesos. El gerente general pronostica

las ventas esperadas para el mes de octubre usando el modelo de regresión simple (2.34), de la manera

siguiente:

11.5 = 0.40340426 + 0.08628936X

Despejando el valor de X se tiene que:

Con el resultado obtenido el gerente general espera que las ventas de octubre serán aproximadamente del

orden de los 128.6 millones de pesos.

2.14. Ejercicios teóricos. 1. Relaciona mediante flechas los conceptos que se correspondan entre sí:

Estadística Conjunto homogéneo de individuos en estudio.

Muestra Cada uno de los individuos que constituyen la población.

Estadística

Descriptiva.

Se ocupa del estudio y la aplicación del conjunto de métodos necesarios para

recoger, clasificar, representar y resumir datos, así como de la realización de

inferencias a partir del análisis de éstos

Población Parte de la población sobre la que se experimenta

Unidad experimental o

Unidad estadística.

Es el conjunto de técnicas que se utiliza para obtener conclusiones que

sobrepasan los límites del conocimiento aportado por los datos, busca obtener

información de un colectivo mediante un sistemático procedimiento del manejo

de datos de la muestra.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 39 Universidad de Sonora.

Tema II: Semestre 2010-2

2. Responde verdadero (V) o falso (F) a las siguientes afirmaciones:

Los 500 casos de gripe analizados conforman la población en estudio V F

Los 20000 enfermos seleccionados constituyen una muestra de la población española V F

Una variable cualitativa no puede ser expresada con números V F

Las variables discretas se expresan siempre con números enteros positivos V F

El peso no es una variable continua porque no puede ser negativo V F

La cantidad de grageas de un frasco es una variable continua V F

El estado civil de una persona es una variable dicotómica V F

El resultado de una maratón es una variable ordinal V F

Los estadísticos son valores que cuantifican ciertas características de los datos V F

El número medio de crías de ratón por camada no es un estadístico V F

Las frecuencias absolutas se expresan en valores enteros positivos V F

Para comparar el número de aprobados en dos asignaturas utilizamos las frecuencias absolutas V F

Las frecuencias absolutas acumuladas se pueden calcular para cualquier tipo de variable V F

3. Completa las siguientes afirmaciones:

a) La distribución de frecuencias relativas de una variable discreta se puede representa mediante un

_________________.

b) El _________________ es el gráfico más utilizado para representar la distribución de frecuencias

simples (no acumuladas) de una variable continua.

c) Dos diferencias entre el diagrama de frecuencias acumuladas y el polígono de frecuencias

acumuladas son:

(i) El primero permite representar variables _________________ y el segundo variables

_________________.

(ii) El primero es una gráfica _________________ mientras que el segundo es una gráfica

_________________.

d) La _________________ es una medida característica válida para representar variables cualitativas.

e) Las medidas características de posición de tendencia central son: _________________,

_________________ y _________________.

f) Los _________________ son _________________ valores que dividen a la muestra en cuatro partes

de igual frecuencia. Análogamente, los _________________ son _________________ valores que

dividen a la muestra en cien partes de igual frecuencia.

g) El límite (bigote) inferior de un diagrama de cajas representa un valor calculado mediante la

expresión: _________________.

h) Las siguientes relaciones entre la media, mediana y moda son indicadores numéricos de la asimetría

en la distribución de los datos:

(i) moda _________________mediana _________________media indica simetría.

(ii) moda _________________mediana _________________media indica asimetría.

positiva (a la derecha)

(iii) moda _________________mediana _________________media indica asimetría.

negativa (a la izquierda).

i) El signo del coeficiente de curtosis de Fisher es indicador de la forma de la distribución de frecuencia

de los datos:

(i) Unvalor _________________indica que la distribución es platicúrtica.

(ii) Un valor _________________indica que la distribución es mesocúrtica.

(iii) Un valor _________________indica que la distribución es leptocúrtica.

Estadística Inferencial. Se ocupa del estudio y aplicación de los métodos necesarios para representar y

resumir datos

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 40 Universidad de Sonora.

Tema II: Semestre 2010-2

2.15. Ejercicios prácticos.

1. En el Departamento de Personal de una fábrica se ha realizado un estudio estadístico en relación a los salarios

mensuales percibidos por los trabajadores en miles de pesos. El resultado de una muestra de 60 empleados arrojó los

siguientes datos:

3.0 4.0 3.3 3.0 3.4 3.1 3.9 3.8 3.8 4.0 3.9 3.7 3.9 3.2 3.0 3.5 4.0 3.8 4.0 3.6

3.0 3.2 3.5 3.8 3.4 3.8 3.7 3.5 3.5 3.7 3.5 3.3 3.7 3.6 3.2 3.6 3.7 3.4 3.6 3.3

3.6 3.0 3.3 3.9 3.2 3.0 3.9 3.7 3.7 3.4 3.1 3.6 3.8 3.1 3.8 3.6 3.9 3.1 3.6 3.5

Con base en la información de la muestra,

a) Construye el diagrama de árbol para los datos dados.

b) Obtén la distribución de frecuencias para los datos no agrupados de la muestra.

c) Calcula la media, mediana y moda para la distribución de frecuencias del inciso b).

d) Construye una distribución de frecuencias de datos agrupados de cinco intervalos igualmente espaciados.

e) Calcula la media, moda y mediana para los datos agrupados y compara los resultados obtenidos en el caso c). ¿Qué

puedes argumentar al respecto?

f) Con la distribución de frecuencias del inciso d), construye los gráficos siguientes;

1) El histograma.

2) El polígono de frecuencias.

3) La ojiva “menor qué”

4) La ojiva “mayor qué”

g) Construye los diagramas de caja para con los datos obtenidos en los incisos c) y e) y compáralos. ¿Qué puedes decir

al respecto?

2. Para una la empresa SAMID y Asociados, la cantidad diaria producida (en miles de unidades) está dada por la

siguiente distribución de frecuencias:

Cantidad diaria

producida

Frecuencia

Absoluta

De 5 a menos de 15 13

De 15 a menos de 25 2k-3

De 25 a menos de 35 k

De 35 a menos de 45 8

A partir de la información anterior, se quiere saber:

a) El valor de k si se sabe que la cantidad media de producción diaria es de 26 mil unidades.

b) Los valores de mediana, moda, varianza y desviación estándar para la producción diaria.

c) El tercer cuartil, el noveno decil y el percentil número 15.

3. Una empresa se dedica a la fabricación de barras de acero, para ello usa una máquina, cuyas características hacen que

la longitud de éstas no pueda ser mayor de 50 cm. Se realizó una muestra de la producción de la máquina en una

determinada hora de funcionamiento, las longitudes de las barras producidas fueron las siguientes:

Longitud (en cm.) Cantidad de barras

Menos de10 3

De 10 a menos de 20 12

De 20 a menos de 25 27

De 25 a menos de 30 37

De 30 a menos de 40 20

40 a menos de 45 25

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 41 Universidad de Sonora.

Tema II: Semestre 2010-2

Con los datos de la tabla, determina, para esa hora específica, los valores para la longitud de esas barras de la media,

mediana, moda, varianza, percentil número 30, cuarto decil y primer cuartil.

4. En una muestra realizada en las dos sucursales de una empresa determinada, se obtuvieron las siguientes

distribuciones de frecuencias de los montos de las ventas diarias realizadas en miles de pesos.

Sucursal A Sucursal B

Monto de las ventas

(miles de pesos)

Número

de días

Monto de las ventas

(miles de pesos)

Número

de días

Menos de 90 7 Menos de 70 5

De 90 a menos de 150 16 De 70 a menos de 200 28

De 150 a menos de 300 37 De 200 a menos de 350 27

De 300 a menos de 600 28 De 350 a menos de 700 30

De 600 a menos de 960 12 De 700 a menos de 850 10

Total 100 Total 100

En base a ambas distribuciones, responda a las siguientes preguntas:

a) ¿Cuál de las dos tiene menor dispersión?

b) ¿Para qué empresa resulta más representativo el monto de ventas promedio?

c) ¿Cuál de las dos empresas se encuentra con una distribución de las ventas más equilibrada o con menos variabilidad?

d) Determine el grado y tipo de asimetría en ambas distribuciones.

5. “La dureza de los árboles es difícil de medir directamente, sin embargo la densidad si es relativamente fácil de medir.

Por ello es de gran interés disponer de un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por

este motivo se ha tomado una muestra de 36 eucaliptos y se les midió su densidad (X) y su dureza (Y ). Los resultados

obtenidos son los de la tabla adjunta.

Densidad Dureza Densidad Dureza Densidad Dureza

24.7 484 39.4 1210 53.4 1880

24.8 427 39.9 989 56.0 1980

27.3 413 40.3 1160 56.5 1820

28.4 517 40.6 1010 57.3 2020

28.4 549 40.7 1100 57.6 1980

29.0 648 40.7 1130 59.2 2310

30.3 587 42.9 1270 59.8 1940

32.7 704 45.8 1180 66.0 3260

35.6 979 46.9 1400 67.4 2700

38.5 914 48.2 1760 68.8 2890

38.8 1070 51.5 1710 69.1 2740

39.3 1020 51.5 2010 69.1 3140

Con los datos dados en la tabla,

a) Construye un diagrama de dispersión y comenta si existe algún tipo de relación entre las dos variables

involucradas, ¿la relación es lineal o no lineal?

b) Determine el coeficiente de correlación e interprete el resultado.

c) Calcule el coeficiente de determinación ¿Se puede explicar el consumo de dureza del árbol por una relación

lineal con su densidad? d) Determine el modelo de regresión lineal simple.

e) Usando el modelo hallado en el inciso anterior, prediga la dureza de un árbol de densidad 20 y 60

f) Usando el modelo del inciso d), prediga la densidad de un árbol de dureza 300 y 4000.

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 42 Universidad de Sonora.

Tema II: Semestre 2010-2

6. “En quince casas de la ciudad de Milton Keynes se observó durante un período de tiempo la diferencia de

temperatura promedio (en grados centígrados) entre la temperatura en la calle y la temperatura en casa, y el

consumo de gas diario en kWh.

Diferencia de

Temperatura. Consumo

Diferencia de

Temperatura. Consumo

Diferencia de

Temperatura. Consumo

10.3 69.81 13.4 75.32 15.6 86.35

11.4 82.75 13.6 69.81 16.4 110.23

11.5 81.75 15.0 78.54 16.5 106.55

12.5 80.38 15.2 81.29 17.0 85.50

13.1 85.89 15.3 99.20 17.1 90.02

Con los datos anteriores,

a) Construye un diagrama de dispersión. ¿Existe relación entre estas dos variables?

b) Construye un diagrama de dispersión y comenta el tipo de correlación existente entre las dos variables

involucradas, ¿la relación es lineal o no lineal?

c) Determine el coeficiente de correlación e interprete el resultado.

d) Calcule el coeficiente de determinación ¿Se puede explicar la diferencia de la temperatura mediante la relación

lineal con el consumo de gas?

e) Determine el modelo de regresión lineal simple.

f) Usando el modelo hallado en el inciso anterior, prediga la dureza de un árbol de densidad 20 y 60.

g) Usando el modelo del inciso d), prediga la densidad de un árbol de dureza 300 y 4000.

Nota: Los datos utilizados en los dos últimos problemas han sido tomados del libro “A handbook of small data sets”, editado por D.J. Hand, F. Daly,

A.D. Lunn, K.J. McConway y E Ostrowsky. Chapman & Hall.

2.16. Lecturas recomendadas. 1) Santiago Fernández Fernández, José María Cordero Sánchez, Alejandro Córdoba Largo. Estadística

descriptiva.

http://books.google.com.mx/books?id=31d5cGxXUnEC&pg=PA17&dq=estadistica+descriptiva&cd=1#v=one

page&q=estadistica%20descriptiva&f=false

2) Ma. Victoria Alea Riera. Estadística descriptiva: aplicaciones prácticas

http://books.google.com.mx/books?id=uZX42jrEiJgC&printsec=frontcover&dq=estadistica+descriptiva

&cd=2#v=onepage&q=estadistica%20descriptiva&f=false

2.17. Bibliografía recomendada para reforzar este tema. 1) Joan Baró Llinàs. Estadistica descriptiva: aplicaciones económico-empresariales. Paramón, 1987 Segunda

Edición. 2) Hanke. Estadística para negocios. Editorial Irwin – 1995 3) Jorge Galbiati Riesco. Regresión Lineal Simple. Colombia. Enero de 2007.

http://www.jorgegalbiati.cl/enero_07/Regresion.pdf

2.11. Referencias.

[1] Yadolah Dodge - Página 42, Springer, 2008.

[2] Daniel A. Robles Fabián. Regresión múltiple Lima – Perú. 2005. [3] Alicia Vila; Máximo Sedano; Ana López; Ángel A. Correlación Lineal y Análisis de Regresión. Proyecto e-Math.

UOC. 2003.

http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf

Notas de Estadística Aplicada a la Administración, Contaduría e Informática Administrativa I.

Dr. Francisco Javier Tapia Moreno.

Departamento de Matemáticas 43 Universidad de Sonora.

Tema II: Semestre 2010-2

[4] Berenson, Levine. Estadística Básica en Administración. Concepto y Aplicaciones. Editorial Pearson. 1996.

http://books.google.com.mx/books?id=2N09O8-

Oe0QC&printsec=frontcover&dq=berenson+y+levine&source=gbs_similarbooks_s&cad=1#v=onepage&q=berenson%

20y%20levine&f=false