Estadística I-04

25
Universidad Católica de Trujillo BENEDICTO XVI Ms. Ylder Heli Vargas Alva Estadística I Ms. Ylder Helí Vargas Alva [email protected] Medidas de Resumen. Medidas de Dispersión: Varianza, desviación estándar y coeficiente de variación. Medidas de asimetría: Asimetría y apuntamiento.

Transcript of Estadística I-04

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

Estadística I

Ms. Ylder Helí Vargas Alva

[email protected]

Medidas de Resumen.

Medidas de Dispersión: Varianza, desviación estándar y coeficiente de

variación.

Medidas de asimetría: Asimetría y apuntamiento.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

Son las que se utilizan para analizar el grado de variabilidad

(heterogeneidad) de un conjunto de datos.

Describen cuán cercanos se encuentran los datos entre ellos, o cuán

cerca se encuentran de alguna medida de posición.

El grado de variabilidad de la información disponible es muy

importante en todo análisis estadístico pues de esto depende el

grado de confiabilidad de las estimaciones que se puedan

establecer.

Las medidas de dispersión o variabilidad que estudiaremos son:

La varianza

La desviación estándar

El coeficiente de variación.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

VARIANZA

Es la medida que cuantifica la variabilidad de los datos respecto al valor de la

media.

11

2

2)(

n

i

n

i

xxs

Para una muestra:

DATOS

NO AGRUPADOS

s2 : Variancia muestralxi : Marca de clase i

x : Media aritmétican : Tamaño de la muestra

ae

ne

xixi-1 xk_x

nink

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

VARIANZA

11

2

2)(*

n

ii

k

i

xxfs

Para una muestra:

DATOS AGRUPADOS

s2 : Variancia muestralfi : Frecuencia absoluta de la clase ixi : Marca de clase i

x : Media aritmétican : Tamaño de la muestrak : N° de clases

ae

ne

xixi-1 xk_x

nink

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

VARIANZA

USOS:

En inferencia estadística

Para calcular la desviación estándar.

Para calcular el tamaño de muestra.

ae

ne

xixi-1 xk_x

nink

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

DESVIACION ESTANDAR

11

2

)(

n

i

n

i

xxs

Para una muestra:

DATOS NO AGRUPADOS

s : Desviación estándar muestralxi : Marca de clase i

x : Media aritmétican : Tamaño de la muestrak : N° de clases

ae

ne

xixi-1 xk_x

nink

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

DESVIACION ESTANDAR

11

2

)(*

n

ii

k

i

xxfs

Para una muestra:

DATOS AGRUPADOS

s : Desviación estándar muestralfi : Frecuencia absoluta de la clase ixi : Marca de clase i

x : Media aritmétican : Tamaño de la muestrak : N° de clases

ae

ne

xixi-1 xk_x

nink

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

DESVIACION ESTANDAR

Interpretación del valor de la desviación estándar

La desviación estándar s es útil para comparar la variabilidad de dos

conjuntos de datos en los que la variable a sido medida en las mismas

unidades.

Si en una muestra s = 5.4 y en otra s = 10.4 podemos asegurar que los

datos de la segunda muestra están más dispersos que los de la primera.

Pero ¿cómo interpretamos el valor s = 5.4?

La desviación estándar nos da idea de la distancia promedio de los datos

a la media (aunque estrictamente hablando no es el promedio). Pero la

interpretación de s requiere algún conocimiento de la distribución de los

datos.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

DESVIACION ESTANDAR

Interpretación del valor de la desviación estándar

Regla empíricaSi el histograma de los datos es aproximadamente simétrico y acampanado entonces,

Aproximadamente el 68% de las observaciones caen en el intervalo x − s y x + s .

Aproximadamente el 95% de las observaciones caen en el intervalo x − 2s y x + 2 s.

Prácticamente todas las observaciones caen en el intervalo x − 3s y x + 3s.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

DESVIACION ESTANDAR

Propiedades de la desviación estándar

s mide la dispersión alrededor de la media, por lo tanto es natural elegir

esta medida de dispersión cuando se usa la media como medida de

posición.

s = 0 solamente cuando todos los datos son iguales, de otro modo s>0.

s es una medida de dispersión muy sensible a la presencia de datos

outliers. De hecho, es más sensible que la media ya que las distancias

están elevadas al cuadrado.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE DISPERSION

COEFICIENTE DE VARIACION (CV)Medida de variabilidad relativa:

Se usa para comparar la variabilidad entre dos o más muestras, medidas en

las mismas unidades o no.

100*x

sCV

CV : Coeficiente de Variacións : Desviación estándar

x : Media aritmética

Si el coeficiente CV es:

< 10 % poca dispersión

10 – 33% aceptable

34 – 50% alta dispersión

> 50% muy alta

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

EJERCICIOS

EJERCICIO:Se tiene las edades de los docentes de la Universidad Católica de Trujillo.

Analizar las medidas de dispersión estudiadas.

37.145135

... )74.3528()74.3532()74.3535(222

2

s

Media Aritmética: x=35.74

35 32 21 43 39 28 28

36 12 54 45 37 53 26

45 23 64 21 34 22 29

36 45 55 20 38 46 27

22 38 35 56 45 33 28

n= 35 ∑ 1,251

37.1452s 06.12S

VarianzaDesviación

Estándar

74.33100*74.35

06.12100*

X

SCV Aceptable

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

EJERCICIOS

EJERCICIO:La Promoción 2014 de la Carrera Profesional de

Ingeniería Industrial de la UCT esta integrada por

alumnos cuyas edades, según el sexo, son :

a) ¿Cuál de los dos grupos de edades está más disperso ?.

b) Con relación al grupo integrado por los del mismo sexo, ¿quién resulta

más joven, un hombre o una mujer de 20 años ?.

EDAD HOMBRES MUJERES

17 - 20 2 4

20 - 23 9 12

23 - 25 11 4

25 - 28 1 5

28 - 31 2 3

Edad xi fi xi*fi fi*(xi -x)2 Edad xi fi xi*fi fi*(xi -x)2

17 - 20 18.50 2 37.00 44.18 17 - 20 18.50 4 74.00 87.56

20 - 23 21.50 9 193.50 26.01 20 - 23 21.50 12 258.00 33.81

23 - 25 24.00 11 264.00 7.04 23 - 25 24.00 4 96.00 2.70

25 - 28 26.50 1 26.50 10.89 25 - 28 26.50 5 132.50 55.16

28 - 31 29.50 2 59.00 79.38 28 - 31 29.50 3 88.50 119.88

25 580.00 167.50 28 649.00 299.11

x= 23.20 x= 23.18

s2= 6.98 s2= 11.08

sH= 2.64 0.67 2.69898 sM= 3.33

CVH= 11.39% CVM= 14.36%

HOMBRES MUJERES

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

La siguiente tabla corresponde a los pesos en gramos de dos muestras tomadas aleatoriamente de

cierto embutido que es elaborado por dos máquinas distintas (1 y 2). El muestreo se realizó dado que

últimamente se han detectado ciertos problemas por la diferencia del peso de los embutidos entre las

dos máquinas, lo que ha causado malestar entre los consumidores del producto.

•Calcule las medidas de tendencia central de cada muestra.

•Calcule las medidas de dispersión de cada muestra.

•Calcule los cuartiles de ambas muestras.

•Se considera que el peso de los embutidos es aceptable si su promedio es de 220 gramos y si la

desviación estándar no supera los 3,1 gramos. Si sólo hay discrepancias con el peso promedio se puede

solucionar fácilmente pues las máquinas pueden regularse desde su tablero de control. En cambio, si los

pesos tienen valores muy dispersos, es necesario reparar la máquina pues la causa es un excesivo

desgaste. Con estos criterios y los datos de las muestras, ¿qué le recomendaría hacer?

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE ASIMETRÍA

Las medidas de asimetría establece el grado de simetría que

presenta una distribución, sin necesidad de una presentación

grafica.

DEFINICIÓN:

Una distribución es simétrica cuando, dado su valor central,

existen el mismo número de valores a ambos lados de dicho

valor y a cada par de valores equidistantes les corresponde la

misma frecuencia absoluta.

La asimetría se puede definir como la ausencia de simetría en

la distribución.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE ASIMETRÍA

MEDIA = MODA SimétricaMEDIA > MODA ASIMÉTRICA POR LA DERECHA O POSITIVAMEDIA< MODA ASIMÉTRICA POR LA IZQUIERDA O NEGATIVA

TIPOS DE ASIMETRÍA

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE ASIMETRÍA

1.- Coeficiente de Karl Pearsonx= media aritmética.

Md = Mediana.

s = desviación típica o estándar.

El Coeficiente de Pearson varía entre -3 y 3 :

Si As < 0 la distribución será asimétrica negativa o hacia la izquierda.

Si As = 0 la distribución será simétrica.

Si As > 0 la distribución será asimétrica positiva o hacia la derecha

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE ASIMETRÍA

2.- Medida de FisherPara datos sin agrupar : Para datos agrupados :

Donde:

xi= Categorías o marcas de clase n = número de datos

x = media aritmética f = frecuencia absoluta

s= Desviación estándar

Nota.

• Si As < 0 -> Indica que existe presencia de la minoría de datos en la parte

izquierda de la media

• Si As = 0 -> la distribución será simétrica

• Si As > 0 -> Indica que existe presencia de la minoría de datos en la parte

derecha de la media,

3

1

3

*

)(

sn

xx

A

n

i

i

s

3

1

3

*

)(*

sn

xxf

A

n

i

ii

s

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE APUNTAMIENTO O CURTOSIS

La curtosis mide el grado de agudeza o achatamiento de una distribución con

relación a la distribución normal, es decir, mide cuán puntiaguda es una

distribución.

TIPOS DE APUNTAMIENTO O CURTOSIS

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE CURTOSIS

TIPOS DE APUNTAMIENTO O CURTOSIS

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

MEDIDAS DE CURTOSIS

Medida de Fisher

Para datos sin agrupar : Para datos agrupados:

Donde:

xi=datos, Categorías o marcas de clase n = número de datos

x = media aritmética fi = frecuencia absoluta

s= Desviación estándar

Nota:

Si C < 3 -> la distribución es platicútica

Si C = 3 -> la distribución es Normal o Mesocúrtica

Si C > 3 -> la distribución es leptocúrtica

4

1

4

*

)(

sn

xx

C

n

i

i

s

4

1

4

*

)(*

sn

xxf

C

n

i

ii

s

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

EJERCICIOS

EJERCICIO:La Promoción 2013 de la Carrera Profesional de

Ingeniería Industrial de la UCT esta integrada por

alumnos cuyas edades, según el sexo, son :

a) Determinar qué tipo de asimetría y curtosis presentan cada grupo según

el sexo.

EDAD HOMBRES MUJERES

17 - 20 4 3

20 - 23 7 4

23 - 25 3 2

25 - 28 2 12

28 - 31 1 4

Edad xi fi xi*fi fi*(xi -x)2 fi*(xi -x)3 fi*(xi -x)4 Edad xi fi xi*fi fi*(xi -x)2 fi*(xi -x)3 fi*(xi -x)4

17 - 20 18.50 4 74.00 57.58 -218.47 828.90 17 - 20 18.50 3 55.50 127.53 -831.50 5,421.40

20 - 23 21.50 7 150.50 4.41 -3.51 2.78 20 - 23 21.50 4 86.00 49.56 -174.46 614.09

23 - 25 24.00 3 72.00 8.73 14.89 25.40 23 - 25 24.00 2 48.00 2.08 -2.12 2.16

25 - 28 26.50 2 53.00 35.38 148.80 625.83 25 - 28 26.50 12 318.00 26.28 38.90 57.57

28 - 31 29.50 1 29.50 51.92 374.16 2,696.18 28 - 31 29.50 4 118.00 80.28 359.66 1,611.28

17 379.00 158.03 315.88 4,179.10 25 625.50 285.74 -609.52 7,706.51

x= 22.29 x= 25.02

s2= 9.88 s2= 11.91

sH= 3.14 sM= 3.45

As= 0.60 As= -0.59

Cs= 2.52 Cs= 2.17

MUJERESHOMBRES

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

EJERCICIOS

0

2

4

6

8

10

12

14

17 - 20 20 - 23 23 - 25 25 - 28 28 - 31

Mujeres

Series10

1

2

3

4

5

6

7

8

17 - 20 20 - 23 23 - 25 25 - 28 28 - 31

Hombres

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

EJERCICIOS

Considérense los datos: 9, 11, 7, 12, 11. Se pide:

a. Calcular su media aritmética, varianza y desviación

típica.

b. Considerar el conjunto de datos obtenido al

multiplicar a cada dato inicial por 2. Obtener su

media y desviación típica. ¿Qué relación existe con

el apartado a)?.

c. Considerar el conjunto de datos obtenido al sumar 5

a cada dato inicial. Obtener su media y desviación

típica. ¿Qué relación existe con el apartado a)?.

Universidad

Católica de

Trujillo

BENEDICTO XVI

Ms. Ylder Heli Vargas Alva

EJERCICIOS

El Propietario de los Hoteles “Costa del Sol”, “Plaza Grau” y “Suite Plaza Hotel

Residencial”; está analizando los gastos de electricidad. Para esto cuenta con los

siguientes datos respecto al consumo mensual de electricidad de cada uno de los

hoteles por habitación:

Costa del Sol: Tiene 12 Habitaciones que gastan en promedio 45 soles con una desviación

estándar de 10 soles.

Plaza Grau: Tiene 9 Habitaciones cuyos consumos en soles son: 38, 42, 56, 60, 43, 52, 41,

44, 53.

Suite Plaza Hotel Residencial: Los consumos se dan en la siguiente tabla:

¿Cuál de los Hoteles tiene menor consumo promedio de electricidad?

¿Cuál es el consumo promedio por los tres hoteles?

¿En cuál de los hoteles el consumo es más disperso?

Consumo en soles Habitaciones

[30, 40[ 1

[40, 50[ 4

[50, 60[ 4

[60,70] 2