Introducción Al Análisis Estadístico de Data

44
Introducción al Análisis de Data Estadística Probabilidad y Estadística

Transcript of Introducción Al Análisis Estadístico de Data

Page 1: Introducción Al Análisis Estadístico de Data

Introducción al Análisis de Data Estadística

Probabilidad y Estadística

Page 2: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

Page 3: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

Page 4: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

• Clasificando Variables– Población

• Es el grupo entero que se está estudiando.

– Unidad• Cada miembro de la población.

– Variables• Características de las cuales se recoge información.

• Tipos de variables– Categóricas (Cualitativas)

– Numéricas (Cuantitativas)

Page 5: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

Page 6: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

• Las variables también se pueden clasificar como:

– Discreta

– Continua

Page 7: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

• Población vs. Muestra

– Muestra

• Grupo representativo de la población

– Parámetro

• Valor real de la variable de una población

– Estadístico (a)

• Estimado de un parámetro basado en la muestra

Page 8: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

• Errores en Muestreo

– “Sampling error”

• La diferencia potencial entre el parámetro verdadero y la estadística obtenida al utilizar la muestra.

– “Bias”

• Cuando se favorece, voluntaria o involuntariamente, algún resultado en particular.

Page 9: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

Page 10: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

Page 11: Introducción Al Análisis Estadístico de Data

Definiciones de Terminología Estadística

Page 12: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Niveles de Medida

– Nominal

– Ordinal

– Intervalo

– Ratio (Razón)

Page 13: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Medida Nominal– Este es el tipo de medidas en el cual los valores de

las variables son nombres y no del todo numéricos.

• Medida Ordinal– Este tipo de medida envuelve recolectar

información en el cual el orden es en alguna forma significativo

– En la medida ordinal, la distancia entre dos valores consecutivos no tiene significado.

Page 14: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Medida de Intervalo

– En este tipo de medida, además de dar un orden como en la medida ordinal, le da significado a la distancia entre dos valores cualesquiera.

• Medida de Ratio (Razón)

– Este tipo de medida incluye los conceptos de orden e intervalo, como en la medida de intervalo, pero añade la idea de “la nada” o cero absoluto.

Page 15: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Ejemplo: Supongamos que la escuela quiere recolectar información (data) sobre todos los estudiantes en la escuela.– Nominal: Podemos recolectar información sobre el

genero de los estudiantes, pueblo en el que viven, raza u opiniones políticas.

– Ordinal: Podemos recolectar data sobre el grado en que se encuentran los estudiantes.

– Intervalo: Podemos recolectar data de los resultados de College Board en la parte de matemáticas.

– Ratio: Data sobre la edad, peso y altura de los estudiantes.

Page 16: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

Page 17: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Estudios Observacionales

– En un estudio observacional, el investigador observa la población de interés y anota los resultados sin hacer intento alguno de controlar los resultados.

– Un estudio observacional de periodo largo en el cual el grupo de sujetos es observado por largos periodos de tiempo es llamado un estudio longitudinal.

Page 18: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Experimentos

– En un experimento, el investigador impone un tratamiento en un grupo de sujetos en un esfuerzo por determinar una relación “causa y efecto” entre las variables.

– En este método el investigador necesitará asegurarse que cualquier otra cosa que pueda influenciar la variable a ser investigada sea controlada.

Page 19: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Medidas de Centro y Esparcimiento

– Si queremos utilizar un número o valor para resumir la data, podemos mirar hacia donde la data está centrada.

• Las variables que son medidas a nivel nominal pueden ser resumidas fácilmente identificando el valor más común (moda)

• Las variables que son medidas a nivel de ratio se pueden resumir utilizando el promedio (media) o el número del medio (mediana)

Page 20: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

• Medidas de Centro y Esparcimiento

– Otro elemento importante del conjunto de data es como esta esparcida.

– Otras medidas que nos brindan información sobre el esparcimiento los son:

• Rango intercuartil

• Desviación estándar

Page 21: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

Page 22: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

Page 23: Introducción Al Análisis Estadístico de Data

Una Visión General de Data

Page 24: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Moda– La moda se define como el número que más

frecuentemente aparece en un conjunto de data.

– La moda es más útil en situaciones que envuelven data categórica (cualitativa) que es medida al nivel nominal.

– Ejemplo• Se le preguntó a los estudiantes en la clase de estadística que

dijeran cuantos niñ@s viven en sus casa. La data es la siguiente:1, 3, 4, 3, 1, 2, 2, 2, 1, 2, 2, 3, 4, 5, 1, 2, 3, 2, 1, 2, 3, 6

– Dos asuntos con la moda• Bimodal

• “No hay moda”

Page 25: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Media

– Media es el nombre que los estadísticos le dan a lo que comúnmente conocemos como promedio.

– La media es “el punto de balance” numérico del conjunto de datos.

Page 26: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

Page 27: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Ejemplo con bloques.

• Ejemplo con calculadora.

Page 28: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Mediana

– La mediana es el número que está en medio de un conjunto de data.

– Ejemplos:

• 80, 94, 75, 90, 96

• 91, 83, 97, 89

Page 29: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• “Outliers” y Resistencia

– “Outliers” o valores atípicos son valores extremos, ya sean muy grandes o pequeños.

– La media es afectada por la presencia de un “outlier”, pero la mediana no.

– Una estadística que no es afectada por los “outliers” es llamada resistente.

Page 30: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Media de la Población vs. Media de la Muestra

1 2

Media de la Muestra

nx x xx

n

1 2

Media de la Población

NX X X

N

En general, los estadísticos dicen que , la media de una porción

de la población es un estimado de , la media de la población,

la cual es usualmente desconocida.

x

Page 31: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Otras medidas de Tendencia Central– Midrange

• Es la media de los valores máximos y mínimos del conjunto de data

– Trimmed Mean• Es la media de los datos removiendo los valores

máximo y el mínimo.

– n% Trimmed Mead• Es la media cuando se remueve un porciento específico

de los datos, la mitad a cada lado.

Page 32: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Encuentra el midrange y el trimmed mean de los siguientes datos:

94, 80,75, 96, 90

• Encuentra el 20% trimmed mean de los siguientes datos:

1, 3, 4, 3, 1, 2, 2, 2, 1, 2, 2, 3, 4, 5, 1, 2, 3, 2, 1, 2, 3, 6

Page 33: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Weighted Mean (Media Ponderada)

– Este es un método de calcular la media cuando algunos de los datos se cuentan frecuentemente.

– Se multiplica la frecuencia de cada dato por el valor del dato se suman y se divide entre la cantidad de datos.

• Determina la media para los siguientes datos utilizando weighted mean.

1, 3, 4, 3, 1, 2, 2, 2, 1, 2, 2, 3, 4, 5, 1, 2, 3, 2, 1, 2, 3, 6

Page 34: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Percentiles y Cuartiles– Un percentil es un estadístico, que identifica el

porciento de la data que es menor que el valor dado.• La mediana es el percentil 50.

• Dos percentiles usados comúnmente son el percentil 25 y el 75 y se le refiere a estos como cuartil inferior (Q1) y cuartil superior (Q3).

– Encuentra Q1, Q2 y Q3 para los siguientes datos:

73, 75, 80, 84, 90, 92, 93, 94, 96

Page 35: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Medianas y Cuartiles en la Calculadora Gráfica

Datos Frecuencia

1 5

2 8

3 5

4 2

5 1

6 1

Page 36: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

Page 37: Introducción Al Análisis Estadístico de Data

Medidas de Tendencia Central

• Para esta data, calcula lo siguiente:

a) Moda

b) Mediana

c) Media

d) 10% trimmed mean

e) Midrange

f) Q1 y Q3

Page 38: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

• Rango– Es la diferencia entre el valor mínimo y el valor máximo.

• Rango Intercuartil (IQR)– Es la diferencia entre los cuartiles.

Page 39: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

Determina el rango y el IQR de la data.

Page 40: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

• Desviación Estándar

– La desviación estándar es una medida de esparcimiento que se basa en la media, esta nos da información sobre cuan lejos están los datos de la media.

– La diferencia entre el valor actual y la media es llamada desviación.

Desviación x x

Page 41: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

• Ejemplo;

– Seleccionamos al azar a tres personas y le preguntamos su tamaño de zapato.

9½, 11½ y 12

– La media es 11.

La suma de las desviaciones siempre va a dar a cero.

Page 42: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

Dato observado Desviaciones

9.5 -1.5 2.25

11.5 0.5 0.25

12 1 1

2x x

Suma de las desviaciones cuadradas = 3.5

Este resultado se divide entre n – 1; lo que nos da lo que se conoce como la varianza.

3.51.75

2

Por último le tomamos la raíz cuadrada a la varianza y obtenemos la desviación estándar.

1.75 1.32

Page 43: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

• Desviación Estándar

2

1

1

n

i

i

x x

sn

Page 44: Introducción Al Análisis Estadístico de Data

Medidas de Esparcimiento

• Para la información provista:

a) Calcula la media.

b) Completa la tabla.

c) Calcula la varianza y la desviación estándar.