TEMA 1 Estadística Descriptiva · Descriptiva Distribuciones de frecuencias Representacione s...

57
1 TEMA 1 Estadística Descriptiva Introducción Comparativos gráficos Medidas de tendencia central Medidas de dispersión

Transcript of TEMA 1 Estadística Descriptiva · Descriptiva Distribuciones de frecuencias Representacione s...

1

TEMA 1

Estadística Descriptiva

Introducción

Comparativos gráficos

Medidas de tendencia central

Medidas de dispersión

2

¿Haz escuchado el término de

estadística?

• A diario recibimos muchos datos ó información… en

conversaciones, libros y televisión, acerca de

estadísticas.

• Casi cualquier estudio científico usa la estadística

como herramienta para reportar resultados.

Obesidad: 75% de ingresos a hospitales

19 Octubre, 2011 - 21:54

Tres de cada cuatro pacientes internados en los hospitales del

país están ahí por enfermedades relacionadas con la obesidad,

lamentó Rafael Álvarez Cordero, presidente honorario del Colegio

Mexicano de Cirugía para la Obesidad y Enfermedades

Metabólicas.

http://eleconomista.com.mx/obesidad-mexico

Dic 2011, En México, D.F, de los detenidos por la campaña de

alcoholímetro en primer lugar lo ocupan los ingenieros, segundo

lugar los abogados y tercer lugar los choferes; en contraparte, los

menos detenidos fueron arquitectos, médicos y diseñadores

http://www.eluniversal.com.mx/notas/818884.html

En las campañas de vacaciones de semana Santa, en los

anuncios para promover el manejo con precaución para no causar

accidentes, es común escuchar, No formes parte de las

estadísticas!!!

4

Importancia de la Estadística

La estadística es una herramienta muy útil que nos ayuda a tomar decisiones en un ambiente de incertidumbre, es decir, dónde esta presente la variabilidad.

Ejemplos: en Planeación de la producción, saber cuánto voy a comprar de materiales de acuerdo a lo que se espera sean las ventas (pronóstico estadístico).

5

Relación Probabilidad Estadística

Probabilidad: Propiedades de población conocidas, se formulan y

responden preguntas en relación con una muestra tomada de la población.

Estadística: Características de la muestra conocidas, se deducen

propiedades de la población.

Muestra

Probabilidad

Estadística

Población

6

¿Qué tienen en común estos objetivos? El valor de la característica de interés cambia de individuo a

individuo (la inflación, el número de glóbulos rojos, la puntuación en matemáticas, la evaluación a los profesores de cursos en el área de las matemáticas, el clima organizacional, el nivel de desempeño laboral).

A estas características les llamaremos variables. Se representan con letras mayúsculas, y los valores que toma con letras minúsculas

X = Número de estudiantes que llegan tarde x=0, 1, 2, ., 15

El individuo puede ser una persona, un país, un producto de la línea de producción, etc.

Dato: Es el valor de la variable observado en un individuo

Ejemplo de variable: temperatura promedio en Monterrey en un día de Enero

0°C, 17°C representan dos datos diferentes.

7

Estadística

inferencial

(se apoya en la

probabilidad)

Estadística

descriptiva

Ramas de la Estadística

La estadística es la rama de la

investigación científica que proporciona

métodos para organizar y resumir

información

y usar ésta para obtener diversas

conclusiones

8

Estadística Descriptiva

Estadística

Descriptiva

Distribuciones

de frecuencias

Representacione

s gráficas

Medidas

descriptivas

Tabulación

de datos

Tendencia central

Dispersión

Histograma

Diagrama

de barras

Diagrama

de pastel

Diagrama

tallo y hojas

9

¿Cuál es la finalidad de un

gráfico?

Por medio de un gráfico se puede visualizar el comportamiento de un conjunto de datos. Un gráfico habla más que mil palabras. Dependiendo si la variable es cualitativa ó cuantitativa, se selecciona el tipo de gráfico.

10

Resúmenes gráficos

Reflexión

Observa la escala en cada gráfica.

11

Nivel Educativo Número de casos

(frecuencia

absoluta)

Frecuencia

Relativa

Número

ACUMULADO de

casos (frecuencia

ACUMULADA)

Frecuencia

Relativa

ACUMULADA

Primaria o menos

12 0.12 12 0.12

Secundaria 26 0.26 38 0.38 Preparatoria

45 0.45 83 0.83

Profesional o postgrado

17 0.17 100 1.00

Total 100 1.00

¿Qué información brinda una tabla de frecuencias?

¿Para qué tipos de variables, cualitativas ó cuantitativas, se puede usar una

tabla de frecuencias?

¿Qué es frecuencia absoluta?, ¿Qué es frecuencia relativa? ¿Qué es frecuencia

Acumulada?

Para la siguiente tabla, distingue qué tipo de variable es el nivel educativo.

¿Qué proporción de individuos tiene al menos estudios de preparatoria?

GRAFICOS

DATOS

CATEGORICOS

DATOS

NUMERICOS

(para ambas

escalas)

Pastel

Barras

Pareto

No agrupados

Agrupados

Tallo y hoja

De puntos

Histograma

Escala Nominal

Escala Ordinal

De dispersión

Diagrama de Caja

13

Histograma El objetivo de un

histograma es resumir la información de una variable cuantitativa.

Pasos: Se secciona la

información en clases ó intervalos

Se cuenta el número de datos en cada clase. Esta se llama frecuencia

Se puede calcular la frecuencia relativa

Se grafica un histograma, teniendo como eje “x” las clases, como eje “y” las frecuencias ó frecuencias relativas. En cada clase se dibuja un rectángulo que tiene como altura su frecuencia ó frecuencia relativa.

Sesgo a la derecha

14

¿Cómo construir un

histograma?

1. Ordenar los datos

2. Obtener el Rango: Max-Min

3. Definer el número de clases.

3. Definir la amplitud de clase

4. Generar la tabla de Frecuencia

5. Dibujar el histograma

nclasesn .

n

MinMaxAmplitud

Dato

Hemoglobina

(gr/cm3)

1 18.5

2 8.2

3 10.6

4 16.7

5 6.2

6 16.9

7 13

8 10.1

9 9.1

10 11.9

11 14.1

12 15.8

13 14.4

14 10.7

15 11.6

16 11.9

17 9.3

18 12.1

19 15

20 14.7

Paso 1. Determine la cantidad

de datos (n)

n=20

Distribución de Frecuencias

Paso 2. Ordene los datos de

menor a mayor

Distribución de Frecuencias

Dato

Hemoglobina

(gr/cm3)

Hemoglobina

(ordenados)

1 18.5 6.2

2 8.2 8.2

3 10.6 9.1

4 16.7 9.3

5 6.2 10.1

6 16.9 10.6

7 13 10.7

8 10.1 11.6

9 9.1 11.9

10 11.9 11.9

11 14.1 12.1

12 15.8 13

13 14.4 14.1

14 10.7 14.4

15 11.6 14.7

16 11.9 15

17 9.3 15.8

18 12.1 16.7

19 15 16.9

20 14.7 18.5

En Excel:

Seleccione los Datos

Menú: Datos>Ordenar

Paso 3. Identifique el Valor

Mayor (VM) y el Valor menor

(Vm)

VM =18.5

Vm = 6.2

Distribución de Frecuencias

Dato

Hemoglobina

(gr/cm3)

Hemoglobina

(ordenados)

1 18.5 6.2

2 8.2 8.2

3 10.6 9.1

4 16.7 9.3

5 6.2 10.1

6 16.9 10.6

7 13 10.7

8 10.1 11.6

9 9.1 11.9

10 11.9 11.9

11 14.1 12.1

12 15.8 13

13 14.4 14.1

14 10.7 14.4

15 11.6 14.7

16 11.9 15

17 9.3 15.8

18 12.1 16.7

19 15 16.9

20 14.7 18.5

Distribución de Frecuencias

Representación Gráfica

Se establecen los límites entre los que se

encuentran todos los datos de la muestra.

6.2 VM= 18.5 Vm=

Paso 4. Obtenga el Rango (R)

R = VM - Vm

R = 18.5 - 6.2

R = 12.3

Distribución de Frecuencias

Dato

Hemoglobina

(gr/cm3)

Hemoglobina

(ordenados)

1 18.5 6.2

2 8.2 8.2

3 10.6 9.1

4 16.7 9.3

5 6.2 10.1

6 16.9 10.6

7 13 10.7

8 10.1 11.6

9 9.1 11.9

10 11.9 11.9

11 14.1 12.1

12 15.8 13

13 14.4 14.1

14 10.7 14.4

15 11.6 14.7

16 11.9 15

17 9.3 15.8

18 12.1 16.7

19 15 16.9

20 14.7 18.5

Distribución de Frecuencias

Representación Gráfica

Se obtiene la distancia que hay entre el

límite inferior y el límite superior.

6.2 VM= 18.5 Vm=

R= VM – Vm

R= 18.5 - 6.2

R= 12.3

Paso 5. Obtenga el número

aproximado de intervalos (k)

k = sqrt(n)

Tenemos que n=20 por lo tanto

k = sqrt(20)

k = 4.47

Redondeando

k ≈ 5

Distribución de Frecuencias

Dato

Hemoglobina

(gr/cm3)

Hemoglobina

(ordenados)

1 18.5 6.2

2 8.2 8.2

3 10.6 9.1

4 16.7 9.3

5 6.2 10.1

6 16.9 10.6

7 13 10.7

8 10.1 11.6

9 9.1 11.9

10 11.9 11.9

11 14.1 12.1

12 15.8 13

13 14.4 14.1

14 10.7 14.4

15 11.6 14.7

16 11.9 15

17 9.3 15.8

18 12.1 16.7

19 15 16.9

20 14.7 18.5

Distribución de Frecuencias

Representación Gráfica

Se divide la sección que tenemos entre el

número de grupos (clases) que se obtuvo

con la fórmula (5 grupos)

6.2

1 2 4 3

18.5

5

R = 12.3

Paso 5. Obtenga la longitud

de cada intervalo (W)

Distribución de Frecuencias Dato Hemoglobina

1 6.2

2 8.2

3 9.1

4 9.3

5 10.1

6 10.6

7 10.7

8 11.6

9 11.9

10 11.9

11 12.1

12 13

13 14.1

14 14.4

15 14.7

16 15

17 15.8

18 16.7

19 16.9

20 18.5

k

RW

46.25

3.12W

Dado que R = 12.3 y k ≈ 5

Distribución de Frecuencias

Representación Gráfica

Se calcula el ancho que debe tener cada

grupo (clase).

6.2

1 2 4 3

18.5

5

R=12.3

2.46 2.46 2.46 2.46 2.46

Paso 6. Construya los 5

intervalos con una longitud

de 2.46.

Distribución de Frecuencias

Dato Hemoglobina

1 6.2

2 8.2

3 9.1

4 9.3

5 10.1

6 10.6

7 10.7

8 11.6

9 11.9

10 11.9

11 12.1

12 13

13 14.1

14 14.4

15 14.7

16 15

17 15.8

18 16.7

19 16.9

20 18.5

[6.2,8.66)

[8.66,11.12)

[11.12,13.58)

[13.58,16.04)

[16.04,18.5]

Corchetes [ ]: Se

incluye el valor

en el Intervalo

Paréntesis (): No

se Incluye el

valor en el

Intervalo

Distribución de Frecuencias

Representación Gráfica

Se establecen los valores que separan

un grupo (clase) de otro.

6.2 18.5

2.46 2.46 2.46 2.46 2.46

8.66 11.12 16.04 13.58

R=12.3

Paso 7. Identifique y cuente

los datos que caen dentro de

cada Intervalo.

Distribución de Frecuencias

Dato Hemoglobina

1 6.2

2 8.2

3 9.1

4 9.3

5 10.1

6 10.6

7 10.7

8 11.6

9 11.9

10 11.9

11 12.1

12 13

13 14.1

14 14.4

15 14.7

16 15

17 15.8

18 16.7

19 16.9

20 18.5

Intervalo Datos fi

[6.2,8.66) 6.2,8.2 2

[8.66,11.12) 9.1,9.3,10.1,10.6,10.7 5

[11.12,13.58) 11.6,11.9,11.9,12.9,13 5

[13.58,16.04) 14.1,14.4,14.7,15,15.8 5

[16.04,18.5] 16.7,16.9,18.5 3

fi : Frecuencia Absoluta

De esta manera se obtiene la distribución de

Frecuencia Absolutas

Distribución de Frecuencias

fi : Frecuencia Absoluta

Intervalo fi

[6.2,8.66) 2

[8.66,11.12) 5

[11.12,13.58) 5

[13.58,16.04) 5

[16.04,18.5] 3

Total 20

Distribución de Frecuencias Representación Gráfica

A esta gráfica se le conoce como histograma

de frecuencias absolutas.

6.2

1 2 3 4 5 6 7

8.66 11.12 16.04 13.58 18.5

Fre

cu

en

cia

Niveles de Hemoglobina en la Sangre (gr/cm3)

Para obtener las frecuencia relativas (hi )

divida cada frecuencia absoluta entre el Total

Distribución de Frecuencias

fi : Frecuencia Absoluta

Intervalo fi hi

[6.2,8.66) 2 2/20 0.1

[8.66,11.12) 5 5/20 0.25

[11.12,13.58) 5 5/20 0.25

[13.58,16.04) 5 5/20 0.25

[16.04,18.5] 3 3/20 0.15

Total 20 20/20 1

Distribución de Frecuencias

Representación Gráfica

Cuando se grafican las frecuencias relativas

se conoce como histograma de frecuencias

relativas y se representan en porcentajes.

6.2

5 10 15 20 25

8.66 11.12 16.04 13.58 18.5

Fre

cu

en

cia

Rela

tiva (

%)

Niveles de Hemoglobina en la Sangre (gr/cm3)

30 35

La frecuencia absoluta acumulada (fai) y la

frecuencia relativa acumulada (hai ) es la

suma de las frecuencias anteriores

Distribución de Frecuencias

Intervalo fi fai hi hai

[6.2,8.66) 2 2 0.1 0.1

[8.66,11.12) 5 7 0.25 0.35

[11.12,13.58) 5 12 0.25 0.6

[13.58,16.04) 5 17 0.25 0.85

[16.04,18.5] 3 20 0.15 1

Total 20 1

Distribución de Frecuencias

Representación Gráfica

6.2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

8.66 11.12 16.04 13.58 18.5 Niveles de Hemoglobina en la Sangre (gr/cm3

Fre

cu

en

cia

Ab

so

luta

Acu

mu

lad

a

Cuando se

grafican las

frecuencias

absolutas

acumuladas se

conoce como

histograma de

frecuencias

absolutas

acumuladas

34

Completa los espacios en blanco en la siguiente tabla de frecuencias.

La variable de estudios son los años de escolaridad de los adultos de

cierta colonia.

frecuencia frecuencia

acumulada

frecuencia

relativa

frecuencia

relativa

acumulada

0 - 6 años 36 10.7%

7 - 9 años 38.5%

10 - 12 años 72.5%

13 - 17 años 97.0%

18 - 22 años 100.0%

Total 335 -- 100% --

35

Solución:

frecuencia frecuencia

acumulada

frecuencia

relativa

frecuencia

relativa

acumulada

0 - 6 años 36 36 10.7% 10.7%

7 - 9 años 93 129 27.8% 38.5%

10 - 12 años 114 243 34.0% 72.5%

13 - 17 años 82 325 24.5% 97.0%

18 - 22 años 10 335 3.0% 100.0%

Total 335 -- 100% --

Realice el siguiente ejercicio:

La prueba de hemoglobina A1c, que es una

prueba de sangre aplicada a los diabéticos

durante sus chequeos periódicos, indica el

nivel de control de azúcar en la sangre

durante los dos o tres meses pasados. Los

datos siguientes se obtuvieron de 40

diabéticos distintos en una clínica

universitaria que atiende a pacientes

diabéticos.

Distribución de Frecuencias

1. Construya una distribución de frecuencias

2. Represente gráficamente la distribución de frecuencias

(Histograma) utilizando:

1. Frecuencias absolutas (fi)

2. Frecuencias relativas (hi)

3. Frecuencias absoluta acumuladas (fai)

4. Frecuencias relativa acumuladas (hai )

Distribución de Frecuencias 6.5 5.0 5.6 7.6 4.8 8.0 7.5 7.9 8.0 9.2

6.4 6.0 5.6 6.0 5.7 9.2 8.1 8.0 6.5 6.6

5.0 8.0 6.5 6.1 6.4 6.6 7.2 5.9 4.0 5.7

7.9 6.0 5.6 6.0 6.2 7.7 6.7 7.7 8.2 9.0

Medidas de

centralización

Medidas de

dispersión

Ejemplo de Estadística Descriptiva

131211109

Median

Mean

11.111.010.910.810.710.6

A nderson-Darling Normality Test

V ariance 0.873

Skewness -0.380871

Kurtosis 0.456289

N 90

Minimum 8.270

A -Squared

1st Q uartile 10.490

Median 11.000

3rd Q uartile 11.540

Maximum 13.000

95% C onfidence Interv al for Mean

10.670

0.77

11.062

95% C onfidence Interv al for Median

10.610 11.000

95% C onfidence Interv al for StDev

0.815 1.095

P-V alue 0.045

Mean 10.866

StDev 0.935

95% Confidence Intervals

Summary for ph

Asociadas a ideas como:

valor esperado,

representante de los datos,

punto de equilibrio.

Medidas de

centralización

Media aritmética

Mediana

Moda También llamadas

medidas de localización.

Media aritmética Se representa por x y se calcula sumando todos los datos y

dividiéndolos entre el total de ellos.

muestra para n

xx

Ejemplo,

2,2, 3, 3, 4, 5, 5, 7 su media es 31/8 = 3.875

suma

dato x

datos de número N on

aritmética Media o x

población para N

x

El Vaticano tiene un promedio de dos

Papas por kilómetro cuadrado.

Valor de los datos que ocupa la posición central cuando los

datos se ordenan según su tamaño.

Ejemplos,

2,2, 3, 3, 4, 5, 5, 7 su mediana es 3 ó 4, o bien 3.5 si tiene sentido, según el

tipo de datos.

A, A, A, A, B, B, B, C, C, C, C, D, D, D, F Su mediana es C

7 datos 7 datos

Mediana

Mediana

•Mediana Muestral: se obtiene al ordenar primeramente las n observaciones de menor a mayor, (incluyendo valores repetidos). Entonces:

•Si n es impar = (n + 1)/2 valor ordenado

•Si n es par = promedio de (n/2)ésimo y (n/2 + 1)ésimo valores ordenados

Ejemplo salarios en dolares

30.70 34.1 33.8 32.50 32.90 34.5 36.0

•Moda: Es el valor que más se repite en conjunto de datos

Ejemplo,

2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7 en este caso es bimodal

(hay dos modas) y son 3 y 5.

A, A, A, A, A, B, B, B, C, C, C, C, D, D, D, F

La moda es A

Moda

Una distribución simétrica es la que se puede dividir en dos

partes iguales. En estas distribuciones el valor de la media,

mediana y moda son iguales.

¿Qué es una distribución simétrica?

Distribución Normal

Características:

Simetría alrededor de

Forma de campana

La mayoría de los datos se encuentran a una distancia de tres desviaciones estándar de la media.

Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una

variable son desiguales y muchos de los sujetos tienen datos sumamente altos ó

sumamente bajos.

Algunas preguntas que te pueden surgir son:

¿Qué significa sesgo?

¿Qué tipos de sesgo puede haber?

¿Cómo identificar los diferentes tipos de sesgo?

¿Por qué es de utilidad identificar el sesgo en una distribución?

¿Qué es una distribución sesgada?

¿Cómo es una distribución sesgada hacia la derecha ó con

sesgo positivo?

En este caso, la media es mayor que la mediana.

La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los

datos menores a la mediana están más concentrados y el 50% de los datos mayor

a ella, están más alejados entre sí.

¿Cómo es una distribución sesgada hacia la izquierda ó con sesgo

negativo?

En este caso, la media es menor que la mediana.

La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los

datos menores a la mediana están más alejados entre sí y el 50% de los datos

mayor a ella, están más concentrados.

Medidas de

dispersión

Asociadas a ideas como:

variación, dispersión entre los

datos, distancia de los datos

respecto a una medida de

centralización, …

Rango

Varianza

Desviación estándar

Rango intercuartílico

Medidas de Dispersión

También se conocen como medidas de variabilidad.

Las medidas de tendencia central pueden no ser suficientes para

describir totalmente un conjunto de datos.

0 1 2 3 4 5 6 7 8 9 10 11

• ¿Cuál es la diferencia?

• ¿Qué se puede hacer

para describir mejor cada

muestra?

1:

2:

3:

Estas 3 muestras son idénticas en su media y su mediana,

Rango

Es la diferencia entre el mayor y el menor de los datos.

Rango R = Max – Min

Ejemplo

De los datos 2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7

El rango es R=7 – 2 = 5

Varianza

1

)( 2

2

n

xxs

N

x

2

2)(

muestra Población

s2 = varianza

x = dato

= media aritmética de la muestra

n = tamaño de la muestra x

= varianza

x = dato

= media aritmética de la

población

n = tamaño de la población

2

Desviación estándar

1

)( 2

n

xxs

N

x

2)(

muestra Población

s = desv. Estándar

x = dato

= media aritmética de la muestra

n = tamaño de la muestra x

= desv. estándar

x = dato

= media aritmética de la

población

n = tamaño de la población

55

1. Determina el rango, la varianza y la desviación estándar para los

siguientes datos:

2 4 3 5 2 2 0 1

R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980

2. Determina el rango, la varianza y la desviación estándar para los

siguientes datos:

-2 -4 -3 -5 -2 -2 0 -1

R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980

3. Determina el rango, la varianza y la desviación estándar para los

siguientes datos:

6 12 9 15 6 6 0 3

R = Rango 15; Varianza 22.9821 y Desviación Estándar 4.7940

Ejercicio:

56

1. La mitad de los datos están por debajo de la media.

2. Cuando hay dos valores que se repiten más que los demás se dice que la

moda no existe.

3. La mediana es el dato que se presenta en un 50% de las veces.

4. Al comparar dos grupos de datos del mismo tipo de medición, el grupo que

tiene menor varianza es el que tiene una mayor concentración de datos

cerca de su media.

5. En un tabla de frecuencias, la suma de las frecuencias relativas es 1.0.

6. La media y la mediana son medidas de tendencia central e indican la

ubicación (locación) central de los datos.

Indica si las siguientes expresiones son siempre verdaderas (V) o no

necesariamente verdaderas (F):

57

7. Si la media aritmética de un grupo de n datos es positiva, entonces los

n datos son no-negativos.

8. La varianza de cualquier base de datos debe ser no negativa.

9. La desviación estándar entre los datos: 8, 8, 8, 8, 8, 8, 8, es mayor a

cero. (Sin realizar cálculos).

10. El rango no puede tomar valores negativos.

Indica si las siguientes expresiones son siempre verdaderas (V) o no

necesariamente verdaderas (F):