1 Estadística descriptiva Probabilidad Inferencia

47
1 Tema 1 Estadística descriptiva An Análisis de datos y gesti lisis de datos y gestión veterinaria n veterinaria Prof. Dr. José Manuel Perea Muñoz Departamento de Producción Animal – Facultad de Veterinaria Universidad de Córdoba Córdoba, 22 de Septiembre de 2011 Sistematización, recogida y presentación de los datos referentes a un fenómeno que presenta variabilidad, con el objetivo de deducir las leyes que rigen ese fenómeno y poder extraer conclusiones y predecir el comportamiento del fenómeno Estadística descriptiva Probabilidad Inferencia

Transcript of 1 Estadística descriptiva Probabilidad Inferencia

Page 1: 1 Estadística descriptiva Probabilidad Inferencia

1

Tema 1

Estadística descriptiva

AnAnáálisis de datos y gestilisis de datos y gestióón veterinarian veterinaria

Prof. Dr. José Manuel Perea MuñozDepartamento de Producción Animal – Facultad de Veterinaria

Universidad de Córdoba

Córdoba, 22 de Septiembre de 2011

Sistematización, recogida y presentación de los datos referentes a un fenómeno que presenta variabilidad, con el objetivo de

deducir las leyes que rigen ese fenómeno

y poder extraer conclusiones y predecir el comportamiento del fenómeno

Estadística descriptiva

Probabilidad

Inferencia

Page 2: 1 Estadística descriptiva Probabilidad Inferencia

2

¿y esto para qué sirve?

los clientes del barrio Ciudad Jardín gastan más en la clínica

Plantear la hipótesis sobre una poblaciónLos clientes de Ciudad Jardín gastan más en la clínica veterinaria

Decidir qué datos recoger (diseño de experimentos)Qué individuos pertenecerán al estudio (muestra)

todos los clientes de la clínicaQué datos recoger de los mismos (variables)

barrio, número de visitas, gasto en cada visita

Recoger los datos (muestreo)

Describir los datos obtenidosGasto medio anual, visitas anuales, gasto por consulta, etc.

Analizar los datos obtenidos (contraste de hipótesis)¿es diferente el gasto medio anual? ¿puedo “confiar” en los datos?

Extraer conclusiones (inferencia)Los clientes de Ciudad Jardín gastan 100 € más al año (30% más)Los clientes de Ciudad Jardín visitan 2,5 veces más la clínica

Tomar decisiones (inferencia)Potenciar nuevos clientes de Ciudad Jardín

Page 3: 1 Estadística descriptiva Probabilidad Inferencia

3

Población y muestra

Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones.

Variable

Variable. Característica observable que varía entre los individuos de una población.

Producción lechera

Medir. Proceso de asociación de números o símbolos a determinadas características de los objetos según reglas preestablecidas.

Page 4: 1 Estadística descriptiva Probabilidad Inferencia

4

Población y muestra

8.543 kg

11.438 kg 10.321 kg

9.318 kg

9.231 kg

Población y muestraNormalmente, la población suele ser es demasiado grande para abarcarla completamente

10.341 kg

9.231 kg

8.764 kg11.543 kg

12.232 kg

Muestra. Subconjunto de los valores poblacionales observados.

Page 5: 1 Estadística descriptiva Probabilidad Inferencia

5

Población y muestra

Población Muestra

Conjunto completo de individuos sobre el que se está interesado en extraer conclusiones.

Subconjunto de la población al que se tiene acceso y sobre el que realmente se hacen las observaciones (mediciones).

Normalmente es demasiado grande para abarcarla completamente.

Debe ser representativa.

“Confiamos” en que los valores de la muestra sean similares a los de la población.

Tipos y medición de variables

Producción lechera

Variable. Característica observable que varía entre los individuos de una población.

Page 6: 1 Estadística descriptiva Probabilidad Inferencia

6

Tipos y medición de variables

kg/año

l/día

0 a 15.000 kg

0 a 40 l

Escala. Conjunto de valores (o modalidades) que puede tomar la variable.

Producción lechera

Tipos y medición de variables

kg/año 0 a 15.000 kgProducción lechera

ha 0 a milesSuperficie

€/animal 0 a milesGasto en alimentación

Page 7: 1 Estadística descriptiva Probabilidad Inferencia

7

Tipos y medición de variables

Capacitación dela mano de obra

0 a 5 (0 peor, 5 mejor)

adecuada / inadecuada

Visibilidad delnegocio

muy visible / visible / poco visible / nula

si / no

Definir y medir bien las variables es fundamental para el éxito de la investigación.

Tipos y medición de variables

Producción lechera kg/año 0 a 15.000 kg

mediana 3.001 a 7.000 kg

grande más de 7.001 kg

pequeña 0 a 3.000 kg

Producción lechera

Los posibles valores que puede tomar la variables se denomina modalidades.

Las modalidades pueden agruparse en clases (intervalos).

Page 8: 1 Estadística descriptiva Probabilidad Inferencia

8

Tipos y medición de variables

Las modalidades/clases deben formar un sistema exhaustivo y excluyente

Exhaustivo: No se puede olvidar ningún valor posible de la variable

Color de ojosmarrón / azul

marrón / azul / verde

Tipos y medición de variables

Las modalidades/clases deben formar un sistema exhaustivo y excluyente

Excluyente: Ningún individuo puede presentar dos valores simultáneos para la misma variable

Número de hijosNinguno / más de 2 / más de 4

Ninguno / de 1 a 2 / más de 2

Page 9: 1 Estadística descriptiva Probabilidad Inferencia

9

Tipos y medición de variables

Estado civilsoltero / casado / divorciado / viudo

soltero / casado / divorciado / separado / viudo

Enfermedadsano / enfermo / enfermo asintomático

sano / enfermo

Tipos y medición de variables

No métricas Métricas

- Cualitativas

- Los valores son categorías

- Los números son etiquetas

- Cuantitativas

- Los valores son números

- Los números no son etiquetas

Nominal Ordinal Intervalo Razón

Page 10: 1 Estadística descriptiva Probabilidad Inferencia

10

Tipos y medición de variables

Métricas

- Cuantitativas

- Los valores son números

- Los números no son etiquetas

Producción lecherakg/año

0 a 15.000 kg Intervalo Razón

Tipos y medición de variables

Presencia de cuernos

Si / No

No métricas

- Cualitativas

- Los valores son categorías

- Los números son etiquetas

Nominal OrdinalNominal

Page 11: 1 Estadística descriptiva Probabilidad Inferencia

11

Tipos y medición de variables

Presencia de cuernos

Si / No

Los valores son categorías diferentes por una cualidad, no por una cantidad.

Todos los casos deben clasificarse en categorías mutuamente excluyentes y exhaustivas.

Se suelen usar etiquetas numéricas:

Si = 1

No = 2

Nominal

Tipos y medición de variables

Orientación productiva

1 2 3

Page 12: 1 Estadística descriptiva Probabilidad Inferencia

12

Tipos y medición de variables

Nivel de estudios

Primaria1

Secundaria2

Grado3

Doctorado4< < <

Orientación productiva

< <

Tipos y medición de variables

Nivel de estudios

Primaria / Secundaria / Grado / Doctorado

No métricas

- Cualitativas

- Los valores son categorías

- Los números son etiquetas

Nominal OrdinalOrdinal

Page 13: 1 Estadística descriptiva Probabilidad Inferencia

13

Tipos y medición de variables

Los valores son categorías ordenadas diferentes por una cualidad, no por una cantidad.

Todos los casos deben clasificarse en categorías mutuamente excluyentes y exhaustivas.

Se suelen usar etiquetas numéricas.

Se pueden establecer jerarquías.

Ordinal

Tipos y medición de variables

Nivel de estudios

Primaria1

Secundaria2

Grado3

Doctorado4< < <

Doctorado es mejor que Primaria, pero no es cuatro veces mejor que primaria

Los valores son categorías ordenadas diferentes por una cualidad, no por una cantidad, por lo que las diferencias no tienen sentido

Page 14: 1 Estadística descriptiva Probabilidad Inferencia

14

Tipos y medición de variables

Métricas

- Cuantitativas

- Los valores son números

- Los números no son etiquetas

Producción lecherakg/año

0 a 15.000 kg Intervalo RazónRazón

Tipos y medición de variables

La escala es absoluta.

Los valores son números cuyas diferencias y razones tienen sentido.

10.000 kg 5.000 kg

Razón

10.000 – 5.000 = 5.000 kgproduce másla vaca roja

10.000 / 5.000 = 2la vaca roja produce

el doble que la vaca azul

Page 15: 1 Estadística descriptiva Probabilidad Inferencia

15

Tipos y medición de variables

Métricas

- Cuantitativas

- Los valores son números

- Los números no son etiquetas

Producción lecherakg/año

0 a 15.000 kg Intervalo RazónIntervalo

Tipos y medición de variables

La escala no es absoluta, sino arbitraria.

Los valores son números cuyas diferencias tienen sentido, pero las razones no.

Intervalo

A40 ºC

B10 ºC

40 – 10 = 30 ºC

A está 30 ºC máscaliente que B

Page 16: 1 Estadística descriptiva Probabilidad Inferencia

16

Tipos y medición de variables

0 ºC

40 ºC

10 ºC

A40 ºC

B10 ºC

Tipos y medición de variables

Temperatura ºC

A40 ºC

B10 ºC

Temperatura ºK

A313 ºK

TemperaturaºC

40 – 10 = 30 ºC

A está 30 ºC máscaliente que B

TemperaturaºC

313 – 283 = 30 ºK

A está 30 ºK máscaliente que B

40 / 10 = 4

A está 4 veces máscaliente que B

313 / 283 = 1,1

A está 1,1 veces máscaliente que B

Page 17: 1 Estadística descriptiva Probabilidad Inferencia

17

Tipos y medición de variables

No métricas Métricas

- Cualitativas

- Los valores son categorías

- Los números son etiquetas

- Cuantitativas

- Los valores son números

- Los números no son etiquetas

Nominal Ordinal

Se pueden

establecer

jerarquías

No se pueden

establecer

jerarquías

Escala absoluta

Diferencias

Razones

Escala arbitraria

Diferencias

No razones

Intervalo Razón

Tipos y medición de variables

Producción lecherakg/año

0 a muchos

Número de vacas0 a muchas

Intervalo. Número de valores que puede tomar la variable entre dos valores cualquiera.

Intervalo infinito: Variable continua.

Intervalo finito: Variable discreta.

Page 18: 1 Estadística descriptiva Probabilidad Inferencia

18

Tipos y medición de variables

No métricas Métricas

- Cualitativas

- Los valores son categorías

- Los números son etiquetas

- Cuantitativas

- Los valores son números

- Los números no son etiquetas

Nominal Ordinal

Se pueden

establecer

jerarquías

No se pueden

establecer

jerarquías

Escala absoluta

Diferencias

Razones

Escala arbitraria

Diferencias

No razones

Intervalo Razón

Discretas Continuas

Tablas de frecuencias

Para conocer la actitud de los ganaderos bovinos sobre el recorte de las ayudas PAC se plantea una encuesta de N ganaderos

opinión sobre el recorte de ayudasescala ordinal

1 a 9 (1, total acuerdo, 9 total desacuerdo)

Respuestas: 7 5 6 8 6 5 9 5 8 6 5 7 5 5 4 5 8 5 4 2 6 6 4 6 4 8 4 3 4 3 3 1

4 5 6 5 8 5 4 7 4 3 5 3 4 9 4 2 6 3 4 2 4 1 3 6 3 1 2 4 4 6 2 4 7 4 2 4 6

4 4 6 7 5 8 5 7 6 5 6 5 7 5 6 4 5 4 1 6 5 6 5 5 5 4 6 2 5 5 6 5 4 4 3 5

5 9 4 3 6 5 7 3 2 4 4 7 4 2 1 8 2 7 4 5 5 7 5 5 1 5 8 5 6 7 6 6

7 7 5 2 5 6 5 8 5 3 6 5 5

Page 19: 1 Estadística descriptiva Probabilidad Inferencia

19

Tablas de frecuencias

Respuestas: 7 5 6 8 6 5 9 5 8 6 5 7 5 5 4 5 8 5 4 2 6 6 4 6 4 8 4 3 4 3 3 1

4 5 6 5 8 5 4 7 4 3 5 3 4 9 4 2 6 3 4 2 4 1 3 6 3 1 2 4 4 6 2 4 7 4 2 4 6

4 4 6 7 5 8 5 7 6 5 6 5 7 5 6 4 5 4 1 6 5 6 5 5 5 4 6 2 5 5 6 5 4 4 3 5

5 9 4 3 6 5 7 3 2 4 4 7 4 2 1 8 2 7 4 5 5 7 5 5 1 5 8 5 6 7 6 6

7 7 5 2 5 6 5 8 5 3 6 5 5

Respuestas: 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 34 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 67 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 9 9 9

Respuestas: 1 (6), 2 (11), 3 (12), 4 (30), 5 (40), 6 (25), 7 (14), 8 (9), 9 (3)

Tablas de frecuencias

Primer paso.Organizar los datos en clases y frecuencias.

¿Cuál fue la respuesta más frecuente?

Frecuencia absoluta (fi). Número de observaciones en

cada clase.

¿Cuántos ganaderos fueron preguntados?

¿Cuántos ganaderos no quieren que se recorten las ayudas?

X f i

1 62 113 124 305 406 257 148 99 3

Page 20: 1 Estadística descriptiva Probabilidad Inferencia

20

Tablas de frecuencias

X f i F i

1 6 62 11 173 12 294 30 595 40 996 25 1247 14 1388 9 1479 3 150

Frecuencia absoluta

acumulada (Fi). Número de

observaciones iguales o

menores a la clase.

¿Cuál fue la respuesta más frecuente?¿Cuántos ganaderos fueron preguntados?

X f i

1 62 113 124 305 406 257 148 99 3

Tablas de frecuencias

¿Cuál fue la respuesta más frecuente?

Ha cambiado la importancia relativa de la frecuencia(f=40 frente a N=150 es diferente a f=40 frente a N=1140)

X f i F i

1 6 62 11 173 12 294 30 595 40 996 25 1247 14 1388 9 1479 3 150

X f i

1 2002 1703 1204 605 406 607 1208 1709 200

X f i F i

1 6 62 11 173 12 294 30 595 40 996 25 1247 14 1388 9 1479 3 150

Page 21: 1 Estadística descriptiva Probabilidad Inferencia

21

Tablas de frecuencias

Frecuencia relativa (fi/N). Proporción de observaciones en cada clase.

X f i F i f i /N1 6 6 0,042 11 17 0,073 12 29 0,084 30 59 0,205 40 99 0,276 25 124 0,177 14 138 0,098 9 147 0,069 3 150 0,02

Tablas de frecuencias

X f i F i f i /N1 6 6 0,042 11 17 0,073 12 29 0,084 30 59 0,205 40 99 0,276 25 124 0,177 14 138 0,098 9 147 0,069 3 150 0,02

f i F i f i /N200 200 0,18170 370 0,15120 490 0,1160 550 0,0540 590 0,0460 650 0,05120 770 0,11170 940 0,15200 1140 0,18

Frecuencia relativa (fi/N). Proporción de observaciones en cada clase.

Page 22: 1 Estadística descriptiva Probabilidad Inferencia

22

Tablas de frecuencias

X f i F i f i /N F i /N1 6 6 0,04 0,042 11 17 0,07 0,113 12 29 0,08 0,194 30 59 0,20 0,395 40 99 0,27 0,666 25 124 0,17 0,837 14 138 0,09 0,928 9 147 0,06 0,989 3 150 0,02 1,00

opinión sobre el recorte de ayudasescala ordinal

1 a 9 (1, total acuerdo, 9 total desacuerdo)

De acuerdo

Indiferente

En desacuerdo

Tablas de frecuencias

Clases X f i F i f i /N F i /N1 a 3 2 29 29 0,19 0,194 a 6 5 95 124 0,63 0,837 a 9 8 26 150 0,17 1,00

Deben tener amplitud uniforme

No más de 20 clases

Se suele elegir √N

Marca de clase (X): valor central del intervalo [Li, Lj]

Page 23: 1 Estadística descriptiva Probabilidad Inferencia

23

Tablas de frecuencias

Marca de clase (X): valor central del intervalo [Li, Lj]

Frecuencia relativa (fi/N). Proporción de observaciones en cada clase.

Frecuencia relativa acumulada (Fi/N). Proporción de observaciones iguales o menores a la clase.

Frecuencia absoluta acumulada (Fi). Número de observaciones iguales o menores a la clase.

Frecuencia absoluta (fi). Número de observaciones en cada clase.

Gráficos

Diagrama de barras

- para variables discretas- altura proporcional a la frecuencia (absoluta o relativa)

05

1015202530354045

1 2 3 4 5 6 7 8 9

Opinión cese ayudas

Frec

uenc

ia a

bsol

uta

0,00

0,05

0,10

0,15

0,20

0,25

0,30

1 2 3 4 5 6 7 8 9

Opinión cese ayudas

Frec

uenc

ia re

lativ

a

Page 24: 1 Estadística descriptiva Probabilidad Inferencia

24

Gráficos

Histogramas

- para variables continuas- área proporcional a la frecuencia (absoluta, relativa, acumulada)

Producción lechera (kg/año)

Frec

uenc

ia a

bsol

uta

7900 8200 8500 8800 9100 9400 97000

2

4

6

8

Producción lechera (kg/año)

Frec

uenc

ia re

lativ

a

7900 8200 8500 8800 9100 9400 97000

10

20

30

40

50

Producción lechera (kg/año)

Frec

. abs

. acu

mul

ada

7900 8200 8500 8800 9100 9400 97000

3

6

9

12

15

Parámetros y estadísticos

- Cantidad numérica calculada sobre una población.

- Resumen la información poblacional en unos pocos números.

- Por ejemplo, el peso medio de los individuos de un país.

- Cantidad numérica calculada sobre una muestra.

- Resumen la información muestral en unos pocos números.

- Por ejemplo, el peso medio de los individuos de este aula.

Los estadísticos se utilizan para estimar parámetros y “confiamos”en que sean próximos.

Parámetro.

Estadístico.

Page 25: 1 Estadística descriptiva Probabilidad Inferencia

25

Centralización

centro

Indican valores entorno a los que los datos parecen agruparse

media, mediana, moda

Centralización

Media aritmética

1 1 2 ...

n

ii n

xx x xx

n n

Page 26: 1 Estadística descriptiva Probabilidad Inferencia

26

Centralización

Media aritmética

1 1 2 ...

n

ii n

xx x xx

n n

Ingresos anuales (miles de euros)

Frec

uenc

ia re

lativ

a

0 1 2 3 40

10

20

30

40

50

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingreso medio = 20.000 € anuales

Centralización

0 1 2 3 40

10

20

30

40

50

1 1 2 ...

n

ii n

xx x xx

n n

Page 27: 1 Estadística descriptiva Probabilidad Inferencia

27

Centralización

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €. 30.000 € y 1.000.000 €

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingreso anual medio = 20.000 €

Muy sensible a valores extremos

1 1 2 ...

n

ii n

xx x xx

n n

Ingreso anual medio = 141.250 €

Centralización

Media de goles en las últimas 5 ligasJugador A: 30 golesJugador B: 30 goles

Jugador A

Frec

uenc

ia

24 26 28 30 32 34 360

0,5

1

1,5

2

2,5

3

Jugador B

Frec

uenc

ia

0 20 40 60 80 1000

0,5

1

1,5

2

2,5

3

1 1 2 ...

n

ii n

xx x xx

n n

Page 28: 1 Estadística descriptiva Probabilidad Inferencia

28

Centralización

- Conveniente cuando los datos se concentran simétricamente respecto a ese valor.

- Muy sensible a valores extremos.

- Valor central de la distribución.

- No es sensible a valores extremos.

- Conveniente cuando los datos son muy asimétricos.

12 2mediana

2me

n n

x

1 1 2 ...

n

ii n

xx x xx

n n

Media aritmética.

Mediana.

Centralización

Ingresos anuales (miles de euros)

Frec

uenc

ia re

lativ

a

0 1 2 3 40

10

20

30

40

50

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingreso medio = 20.000 € anuales

12 2mediana

2me

n n

x

Page 29: 1 Estadística descriptiva Probabilidad Inferencia

29

Centralización

Ingresos anuales (miles de euros)

Frec

uenc

ia re

lativ

a

0 1 2 3 40

10

20

30

40

50

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingreso medio = 20.000 € anuales

12 2mediana

2me

n n

x

Mediana = 20.000 € anuales

Media y mediana tienden a coincidir con la simetría

Centralización

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €. 30.000 € y 1.000.000 €

Ingreso anual medio = 141.250 €

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingreso anual medio = 20.000 €

12 2mediana

2me

n n

x

Mediana = 20.000 € anuales

Mediana = 20.000 € anuales

Page 30: 1 Estadística descriptiva Probabilidad Inferencia

30

Centralización

Media de goles en las últimas 5 ligasJugador A: 30 golesJugador B: 30 goles

Jugador A

Frec

uenc

ia

24 26 28 30 32 34 360

0,5

1

1,5

2

2,5

3

Jugador B

Frec

uenc

ia

0 20 40 60 80 1000

0,5

1

1,5

2

2,5

3

Mediana de goles en las últimas 5 ligasJugador A: 30 golesJugador B: 5 goles

12 2mediana

2me

n n

x

Centralización1 1 2 ...

n

ii n

xx x xx

n n

- Conveniente cuando los datos se concentran simétricamente respecto a ese valor.

- Muy sensible a valores extremos.

- Valor central de la distribución.

- No es sensible a valores extremos.

- Conveniente cuando los datos son muy asimétricos.

12 2mediana

2me

n n

x

- Valor o valores donde la distribución de frecuencias alcanza un máximo.

Media aritmética.

Mediana.

Moda.

Page 31: 1 Estadística descriptiva Probabilidad Inferencia

31

Posición

Dividen la distribución en grupos con la misma cantidad de datos.

cuantiles, cuartiles, percentiles, etc.

centro

Posición

25 % 75 %

50 %

Dividen la distribución en grupos con la misma cantidad de datos.

cuantiles, cuartiles, percentiles, etc.Cuartiles. Dividen la distribución en 4 grupos que contienen el 25% de los datos cada uno (Q1, Q2, Q3)

Page 32: 1 Estadística descriptiva Probabilidad Inferencia

32

Posición

- Divide la distribución en 4 grupos que contienen el 25% de los datos cada uno.- Q1, Q2 (o mediana), Q3

- Divide la distribución en 100 grupos.- P25 = Q1; P50 = Q2 = mediana

- Cuantil de orden α. Es un valor de la variable por debajo del cual queda una frecuencia acumulada de α.

Cuartil.

Percentil.

Cuantil.

Gráfico de caja y bigotes

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingresos anuales (miles de euros)

Frec

uenc

ia re

lativ

a

0 1 2 3 40

10

20

30

40

50

Page 33: 1 Estadística descriptiva Probabilidad Inferencia

33

Gráfico de caja y bigotes

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Ingresos anuales (miles de euros)

Frec

uenc

ia re

lativ

a

0 1 2 3 40

10

20

30

40

50

Ingresos anuales (€)1 1,5 2 2,5 3

(X 10000)

Dispersión

centro

Indican la concentración de los datos entorno a las medidas de centralización

dispersión

Page 34: 1 Estadística descriptiva Probabilidad Inferencia

34

Dispersión

dispersión

Dispersión

No referidas a promedios

Absolutas(unidades de la variable)

Referidas a promedios

Relativas(sin unidades)

Absolutas Relativas

recorrido,recorrido intercuartílico

coeficiente de apertura,recorrido relativo

varianza,desviación típica

coeficiente de variación

Page 35: 1 Estadística descriptiva Probabilidad Inferencia

35

Dispersión

Recorrido. Valor máximo – valor mínimo

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Recorrido = 30.000 € - 10.000 € = 20.000 €

Ingresos anuales (€)

Frec

uenc

ia a

bsol

uta

9 13 17 21 25 29 33(X 1000)

0

1

2

3

4

Dispersión

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €. 30.000 € y 1.000.000 €

Recorrido = 1.000.000 € - 10.000 € = 990.000 €

Ingresos anuales (€)

Frec

uenc

ia a

bsol

uta

0 2 4 6 8 10 12(X 100000)

0

2

4

6

8

Recorrido. Valor máximo – valor mínimo

Page 36: 1 Estadística descriptiva Probabilidad Inferencia

36

Dispersión

Recorrido intercuartílico. Q3 – Q1Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Q1 = 15.000 €Q3 = 25.000 €Recorrido intercuartílico = 10.000 €

Ingresos anuales (€)1 1,5 2 2,5 3

(X 10000)

Dispersión

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 1.000.000 €

Q1 = 15.000 €Q3 = 25.000 €Recorrido intercuartílico = 10.000 €

Ingresos anuales (€)0 2 4 6 8 10

(X 100000)

Recorrido intercuartílico. Q3 – Q1

Page 37: 1 Estadística descriptiva Probabilidad Inferencia

37

Dispersión

No referidas a promedios.Absolutas (mismas unidades que la variable)

Recorrido: Valor máximo – Valor mínimo

Recorrido intercuartílico: Q3 – Q1

Muy sensible a valores extremos

Menos sensible a valores extremos

Dispersión

No referidas a promedios

Absolutas(unidades de la variable)

Relativas(sin unidades)

recorrido,recorrido intercuartílico

coeficiente de apertura,recorrido relativo

Page 38: 1 Estadística descriptiva Probabilidad Inferencia

38

Dispersión

Coeficiente de apertura. Valor máximo / valor mínimo

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Coeficiente de apertura = 3

Ingresos anuales (€)

Frec

uenc

ia a

bsol

uta

9 13 17 21 25 29 33(X 1000)

0

1

2

3

4

Dispersión

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 1.000.000 €

Coeficiente de apertura = 100.000

Ingresos anuales (€)

Frec

uenc

ia a

bsol

uta

0 2 4 6 8 10 12(X 100000)

0

2

4

6

8

Coeficiente de apertura. Valor máximo / valor mínimo

Page 39: 1 Estadística descriptiva Probabilidad Inferencia

39

Dispersión

Recorrido relativo: Recorrido / media

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

Recorrido relativo = 20.000 € / 20.000 € = 1

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 1.000.000 €

Recorrido relativo = 990.000 € / 141.250 € = 7

Dispersión

No referidas a promedios

Absolutas(unidades de la variable)

Referidas a promedios

Relativas(sin unidades)

Absolutas Relativas

recorrido,recorrido intercuartílico

coeficiente de apertura,recorrido relativo

varianza,desviación típica

coeficiente de variación

Page 40: 1 Estadística descriptiva Probabilidad Inferencia

40

Dispersión

Varianza.

2

2 1( )

varianza 1

n

ii

x xS

n

Mide el promedio de las desviaciones (al cuadrado) de las observaciones respecto a la media

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

2 2

20000€57142900€

xS

Dispersión

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 30.000 €

2 2

20000€57142900€

xS

Ingresos anuales de 8 veterinarios:

10.000 €, 10.000 €, 20.000 €, 20.000 €, 20.000 €, 20.000 €, 30.000 €, 1.000.000 €

2 2

141250€120441071428€

xS

Varianza.

2

2 1( )

varianza 1

n

ii

x xS

n

Page 41: 1 Estadística descriptiva Probabilidad Inferencia

41

Dispersión

Media de goles en las últimas 5 ligasJugador A: 30 golesJugador B: 30 goles

Mediana de goles en las últimas 5 ligasJugador A: 30 golesJugador B: 5 goles

Varianza de goles en las últimas 5 ligasJugador A: 13 goles al cuadrado

Jugador B: 1.250 goles al cuadrado

Varianza.

2

2 1( )

varianza 1

n

ii

x xS

n

Dispersión

Desviación típica.

1n

2n típica S S

Tiene las mismas unidades que la variable.

Media de goles en las últimas 5 ligasJugador A: 30 golesJugador B: 30 goles

MedianaJugador A: 30 golesJugador B: 5 goles

VarianzaJugador A: 13 goles al cuadrado

Jugador B: 1.250 goles al cuadrado

Desviación típicaJugador A: 3,6 golesJugador B: 35,4 goles

Jugador A: 30 + 3,6 golesJugador B: 30 + 35,4 goles

x S

Page 42: 1 Estadística descriptiva Probabilidad Inferencia

42

Dispersión

x S68,5 %

Desviación típica.

1n

2n típica S S

Dispersión

2x S95 %

Desviación típica.

1n

2n típica S S

Page 43: 1 Estadística descriptiva Probabilidad Inferencia

43

Dispersión

Coeficiente de variación.

Mide el “tamaño” de la desviación típica respecto a la media.

SCVx

Sin unidades, variabilidad relativa.

Útil para comparar variables.

CV * 100 = Coeficiente de variación en p. 100

No utilizar si la variable tiene números negativos.

No utilizar en variables de intervalo.

Dispersión

Variable peso: 83,0 + 10,6

Variable altura: 176,0 + 9,6

CV peso: 12,75%

CV altura: 5,46%

Variable peso (kg): 83,0 + 10,6

Variable peso (g): 83000 + 10583

CV peso (kg): 12,75%

CV peso (g): 12,75%

Coeficiente de variación.

SCVx

Page 44: 1 Estadística descriptiva Probabilidad Inferencia

44

Dispersión

No referidas a promedios

Absolutas(unidades de la variable)

Referidas a promedios

Relativas(sin unidades)

Absolutas Relativas

recorrido,recorrido intercuartílico

coeficiente de apertura,recorrido relativo

varianza,desviación típica

coeficiente de variación

Forma

AsimetríaCurtosis

Page 45: 1 Estadística descriptiva Probabilidad Inferencia

45

Forma

AsimetríaCurtosis

Forma

AsimetríaCurtosis

Page 46: 1 Estadística descriptiva Probabilidad Inferencia

46

Forma

Asimetría.

Una distribución es simétrica si su mitad izquierda es una imagen especular de su mitad derecha.

Las discrepancias entre las medidas de centralización indican asimetría.

Asimetría negativa Asimetría positiva

Forma

Coeficiente de Fisher.

< 0 asimetría negativa= 0 simétrica> 0 asimetría positiva

Asimetría negativaAsimetría positiva

3

1 3Coeficiente de asimetría de Fisher

31 3

1

Coeficiente de asimetría de Fisher

1 ( )k

i ii

g x x fS

Asimetría.

Page 47: 1 Estadística descriptiva Probabilidad Inferencia

47

Forma

Curtosis.

Indica el aplanamiento.

Coeficiente de curtosis de Fisher 4

2 4

42 4

1

1 ( )k

i ii

g x x fS

< 0 platicúrtica (aplanada)= 0 mesocúrtica> 0 leptocúrtica (apuntada)

Centralización.

Posición.

Dispersión.

Forma.

media, mediana, moda

valores entorno a los que los datos parecen agruparse

cuantil, cuartil, percentil

dividen la distribución en grupos con la misma cantidad de datos

relativas, absolutas, referidaso no a promedios

Indican la concentración de los datos entorno a valores centrales

asimetría, curtosis

Parámetros y estadísticos