Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y...

46
Tema 1: Introducción a la estadística

Transcript of Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y...

Page 1: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Tema 1: Introducción a la estadística

Page 2: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Plantear hipótesis

Obtenerconclusiones

Recoger datosy analizarlos

Diseñar experimento

Método científico y estadística

Page 3: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Definición de Estadística

Es un conjunto de teorías y métodos que han sido desarrollados para tratar la recopilación, organización, presentación, análisis, interpretación y descripciones de datos muestrales con el fin de extraer conclusiones útiles de ellos.

Page 4: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Definición de Estadística Descriptiva

Es la parte de la Estadística que se ocupa de la recopilación de datos y el tratamiento y análisis de los mismos.

Page 5: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Definición de Estadística Inferencial

Es la parte de la Estadística que trata de inducir o inferir, a través de la muestra obtenida, que ley, distribución o modelo sigue la población de la cual se ha extraído aquella

Page 6: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Fases o etapas de los métodos estadísticos

RecolecciónOrganizaciónPresentaciónAnálisisInterpretación

Page 7: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Conceptos claves

• Muestra: es parte de una población de objetos, personas, empresas o cosas, que es representativa del total de elementos que conforman el universo.

• Población: es la totalidad de las posibles observaciones o medidas que se estén considerando en alguna investigación, de cuyo conjunto se toma una muestra.

• Parámetro: es una medida que describe alguna característica de la población.

• Estadígrafo o estadístico: es una medida que describe alguna característica de la muestra.

Page 8: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Conceptos claves

Page 9: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Tema 2: Estadígrafos Básicos

Adaptado de Curso de Bioestadística

Universidad de Málaga

Page 10: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Un brevísimo resumen sobre estadísticos

• Centralización o Tendencia central o promedios– Indican valores con respecto a los que los datos

parecen agruparse.• Media, mediana y moda

• Posición– Dividen un conjunto ordenado de datos en grupos

con la misma cantidad de individuos.• Cuantiles, percentiles, cuartiles, deciles, quintiles...

• Forma– Asimetría– Apuntamiento o curtosis

• Dispersión o Variabilidad– Indican la mayor o menor concentración de los

datos con respecto a las medidas de centralización.• Desviación típica, coeficiente de variación, rango,

varianza

Page 11: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.
Page 12: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

La media aritmética[=promedio(rango)]

La media aritmética de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por

y se calcula mediante las expresiones, según el caso:x

n

i

iin

i

iin

i

i

n

nc

n

nx

n

xx

111

xi representa el valor de la variable; ci representa la marca de clase.

Para TDNA TF TI

Page 13: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

La media como punto de equilibrio

Page 14: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

La mediana[=mediana(rango)]

Tendremos en cuenta el tamaño de la muestra. Si N es Impar, hay un término central, el término

Cálculo de la mediana en el caso de variables discretas

que será el valor de la mediana.2

1nX

Ejemplo: El conjunto de números 3,4,4,5,6,8,8,8 y 10 tiene mediana 6.

La mediana de un conjunto de números ordenados en magnitud es o el valor central o la media de los dos valores centrales.

Page 15: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

La mediana

Si N es Par, hay dos términos centrales,

la mediana será la media de esos dos valores

Cálculo de la mediana en el caso de variables discretas

122

n

Xyn

X

2

122

nX

nX

Ejemplo: El conjunto de números 5,5,7,9,11,12,15 y18 tiene mediana 10

Page 16: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Ejemplo con variables continuas

Peso M. Clase

frec Fr. acum.

40 – 50 45 5 5

50 – 60 55 10 15

60 – 70 65 21 36

70 - 80 75 11 47

80 - 90 85 5 52

90 - 100 95 3 55

100 – 130 115 3 58

En el histograma se identifica “unidad de área” con “individuo”.

Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase.

La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese masa.

Page 17: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Ejemplo (continuación)

Peso M. Clase Fr. Fr. ac.

40 – 50 45 5 5

50 – 60 55 10 15

60 – 70 65 21 36

70 - 80 75 11 47

80 - 90 85 5 52

90 - 100 95 3 55

100 – 130 115 3 58

58

• Moda = marca de clase de (60,70] = 65

3,6958

31151055545

n

nxx i ii

6,66)10(21

15585,060

)(585,0 1

15,0

ii

ii a

n

NLCMediana

8,76)10(11

365,4370)(

5875,0 1175,075

ii

ii a

n

NLCP

Page 18: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Altura mediana

Page 19: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

La moda[=moda(rango)]

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo.

Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o polimodal según el caso.

Page 20: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

La moda

Page 21: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Estadígrafos de Posición• Se define el cuantil de orden como un valor de la variable por debajo del cual

se encuentra una frecuencia acumulada

• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Page 22: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Los cuantiles son generalizaciones de la mediana. Los cuartiles dividen a los datos en cuatro partes iguales,los deciles en diez, los quintiles en cinco, los percentiles en cien.

Cuantil de orden α[=percentil(rango;k)]

k

rnC

X

kr

5,314

342

43

X

Q

Page 23: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

• Cuartiles (Q): Dividen a la muestra en 4 grupos con frecuencias similares.– Primer cuartil = Percentil 25 = Cuantil 0,25– Segundo cuartil = Percentil 50 = Cuantil 0,50 = mediana– Tercer cuartil = Percentil 75 = Cuantil 0,75

• Quintiles (K): Dividen a la muestra en 5 grupos con frecuencias similares.– Primer quintil = Percentil 20 = Cuantil 0,20– Segundo quintil = Percentil 40 = Cuantil 0,40– Tercer quintil = Percentil 60 = Cuantil 0,60– Cuarto quintil = Percentil 80 = Cuantil 0,80

• Deciles (D): Dividen a la muestra en 10 grupos con frecuencias similares.– Tercer decil = Percentil 30 = Cuantil 0,30– Quinto decil = Percentil 50 = Cuantil 0,50 = mediana– Séptimo decil = Percentil 70 = Cuantil 0,70

• Percentiles (P) : Dividen a la muestra en 100 grupos con frecuencias similares.– La mediana es el percentil 50– El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda

el 85%

Page 24: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

• ¿Qué peso no llega a alcanzar el 25% de los individuos?– Primer cuartil = percentil 25 = 60 Kg.

• ¿Qué peso es superado por el 25% de los individuos?– Tercer cuartil= percentil 75= 80 kg.

• ¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”?

– Entre el primer y tercer cuartil = entre 60 y 80 kg.– Obsérvar que indica cómo de dispersos están los

individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico.

– Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo más).

Ejemplo

Estadísticos

PESO60,00

70,00

80,00

25

50

75

Percentiles

25% 25%25%25%

50%

100

90

80

70

60

50

40

Page 25: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Ejemplo

25%25%

25%25%

50%

Page 26: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Medidas de variabilidadRango, Rango Intercuartílico, Desviación Media, Varianza,

Desviación Estándar y Coeficiente de Variación

Algunos datos han sido adaptados de

Pedro Juan Rodríguez Esquerdo

Departamento de Matemáticas

UPR Río Piedras

Page 27: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Estadígrafos deVariabilidad o dispersión

• Los estudiantes de Metodología de la Investigación obtienen diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?

– Diferencias individuales en el conocimiento de la materia.

• ¿Podría haber otras razones (fuentes de variabilidad)?

• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

– Dormir poco el día de la prueba, el café estaba con somnífero...• Diferencias individuales en la habilidad para hacer un examen.

– El examen no es una medida perfecta del conocimiento.• Variabilidad por error de medida.

– En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala

• Variabilidad por azar, aleatoriedad.

Page 28: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Miden el grado de dispersión (variabilidad) de losdatos, independientemente de su causa.

• Amplitud o Rango [=max(rango)-min(rango)]

• La diferencia entre las observaciones extremas.– 2,1,4,3,8,4. El rango es 8-1=7– Es muy sensible a los valores extremos.

• Rango intercuartílico• [=CUARTIL(rango;3)-CUARTIL(rango;1)]

– Es la distancia entre el primer y tercer cuartil.• Rango intercuartílico = Q3 – Q1 = P75 - P25 = C0.75 – C0,25

– Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.

– No es tan sensible a valores extremos.

Medidas de dispersión

25% 25%25%25%

Page 29: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Muestra de edades de cinco niños

• En una muestra de cinco niños se observa que éstos tienen las siguientes edades:

• 1, 1, 4, 8 y 9 .• En promedio tienen 4.6 años.• ¿Cuánta variabilidad hay en las edades de

los niños?• ¿A qué distancia quedan las edades

observadas de la media muestral 4.6 años?

Page 30: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Diferencias de valores observados a la media muestral

Distribucion de cinco observaciones

0

1

2

3

1 2 3 4 5 6 7 8 9 More

Edades observadas

Fre

cu

en

cia

Media muestral-3.6

-3.6

4.4

3.4-.6

Page 31: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Desviación Absoluta Media[=desvprom(rango)]

• -3.6 + -3.6 + -.6 + 3.4 + 4.4 = 0• |-3.6| + |-3.6| + |-.6| + |3.4| + |4.4| = 15.6• Distancia promedio = 15.6 / 5 = 3.12• En general:

n

ii xx

nDAM

1

||1

n

i

i

n

xxDAM

1

||

Page 32: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Otra medida: Varianza

0

1

2

3

1 2 3 4 5 6 7 8 9 More

Area observada

Fre

cu

en

cia

4.4x4.4

3.6x3.6

3.6x3.6

3.4x3.4

.6x.6

Media Muestral

Page 33: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Varianza [=var(rango)]

• -3.6 + -3.6 + -.6 + 3.4 + 4.4 = 0• 3.6(3.6) + 3.6(3.6) + .6(.6) + 3.4(3.4) +

4.4(4.4) = 57.2• área promedio = 57.2 / 4 = 14.3• En general:

n

ii xx

ns

1

22 )(1

1

n

i

i

n

xxs

1

22

1

)(

Page 34: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Grados de libertad

• ¿Por qué calculamos la varianza dividiendo por n - 1, en lugar de dividir por n?

• Como la suma de las desviaciones es 0, la última desviación es una combinación lineal de las n - 1 desviaciones restantes.

• Por lo tanto, no estamos calculando el promedio de n números independientes (los desvíos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por ello, promediamos la suma de los desvíos al cuadrado dividiendo por n -1.

• Al numero n -1 se lo denomina grados de libertad de la varianza o de la desviación típica.

Page 35: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Desviación estándar [=desvest(rango)]

2ss Así s = 3.78

Page 36: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Desviación estándar

S2=14.3 años2

SS=3.78 años

Page 37: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Asimetría y Curtosis

En los temas anteriores hemos visto las medidas de tendencia central, de posición y las medidas de variabilidad.

Si bien la obtención de tales medidas es clave para describir una muestra y efectuar inferencias sobre la población de origen, es también fundamental saber obtener una caracterización adecuada de los datos.

Medidas de forma.

Page 38: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

AsimetríaSi bien es fácil tener una idea de si la distribución es simétrica o no tras ver la representación gráfica, es importante cuantificar la posible asimetría de una distribución.

Recordemos que cuando la distribución de los datos es simétrica, la media, la mediana y la moda coinciden. (Y la distribución tiene la misma forma a la izquierda y la derecha del centro)

Page 39: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Índices de asimetría1. Índice de asimetría de Pearson

Muy sencillo de calcular. Está basado en la relación entre la media y la moda en distribuciones simétricas y asimétricas:

Si la distribución es simétrica As será 0

Si la distribución es asimétrica positiva, As será mayor que 0

Si la distribución es asimétrica negativa, As será menor que 0

xS S

MoXA

__

Page 40: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Índices de asimetría2. Índice de asimetría de Fisher

Está basado en la diferencia de los datos sobre la media, como la varianza, si bien esta vez se elevan los coeficientes al cubo

Si la distribución es simétrica As será 0

Si la distribución es asimétrica positiva, As será mayor que 0

Si la distribución es asimétrica negativa, As será menor que 0Desventaja: Muy influida por puntuaciones atípicas (ya lo volveremos a comentar en el último punto de este tema).

sA

x

n

i

i

S

nXx

31

3__

)(

Page 41: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Índices de asimetría3. Expresión en Excel

En el software Excel, la función =COEFICIENTE.ASIMETRIA(A3:A14) se basa en la siguiente expresión:

Si la distribución es simétrica As será 0

Si la distribución es asimétrica positiva, As será mayor que 0

Si la distribución es asimétrica negativa, As será menor que 0Desventaja: Muy influida por puntuaciones atípicas (ya lo volveremos a comentar en el último punto de este tema).

sA

x

i

s

Xx

nn

n3

3__

)(

)2()1(

Page 42: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

AsimetríaAsimetría hacia la derecha

(asimetría positiva)Asimetría hacia la izquierda

(asimetría negativa)

Al ser positiva significa que la gráfica es asimétrica por la derecha de la media y por tanto los valores mayores que ella están más dispersos que los menores.

Al ser negativa significa que la gráfica es asimétrica por la izquierda de la media y por tanto los valores menores que ella están más dispersos que los mayores.

Page 43: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Curtosis o apuntamiento

La curtosis representa la elevación o achatamiento de una distribución, comparada con la distribución normal. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana.

El estándar es la distribución normal: distribución mesocúrtica.

Si la distribución es más apuntada que la distribución normal tenemos una distribución leptocúrtica.

Si la distribución es más achatada que la distribución normal tenemos una distribución platicúrtica.

Page 44: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Índice de curtosisPara una distribución normal (mesocúrtica) sabemos que

Y esta va a ser la referencia para el índice de curtosis que vamos a emplear

Si la distribución es normal (mesocúrtica), el índice vale 0

Si la distribución es leptocúrtica, el índice es superior a 0

Si la distribución es platicúrtica, el índice es inferior a 0

3)(

41

4__

sx

n

i

i nXx

3)(

41

4__

sC

x

n

i

i

r

nXx

Page 45: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

Índice de curtosis

Si la distribución es normal (mesocúrtica), el índice vale 0

Si la distribución es leptocúrtica, el índice es superior a 0

Si la distribución es platicúrtica, el índice es inferior a 0

)3)(2(

)1(3)(

)3)(2)(1(

)1( 2

4

4__

nn

nXx

nnn

nn

sC

x

i

r

En el software Excel, la función =CURTOSIS(A3:A14) se basa en la siguiente expresión:

Page 46: Tema 1: Introducción a la estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento Método científico y estadística.

CurtosisLeptocúrtica Platicúrtica

Al ser negativa significa que la gráfica es menos apuntada que la gráfica de la distribución normal y por tanto los valores alrededor de la media están menosconcentrados que en la Distribución Normal.

Al ser positiva significa que la gráfica es más apuntada que la gráfica de la distribución normal y por tanto los valores alrededor de la media están masconcentrados que en la Distribución Normal.