Análisis de datos

23
Wilfredo Bulege Metodología de la investigación: Análisis de datos Metodología de la Investigación: por Wilfredo Bulege se encuentra bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 3.0 Unported

Transcript of Análisis de datos

Page 1: Análisis de datos

Wilfredo Bulege

Metodología de la investigación: Análisis de datos

Metodología de la Investigación: por Wilfredo Bulege se encuentra bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 3.0 Unported

Page 2: Análisis de datos

2

Análisis de datos

En primer término, se describe los datos; posteriormente se efectúa análisis estadísticos para relacionar las variables; es decir, realizar análisis de estadística descriptiva para cada una de las variables, luego se describe la relación entre éstas.

Page 4: Análisis de datos

4

Recolecta, ordena, analiza y representa un conjunto de datos, con el fin de describir apropiadamente las características de ese conjunto.

Este análisis es básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central.

Estadística descriptiva

Page 5: Análisis de datos

5

Medidas de tendencia central: La moda: es el valor más

común en nuestro conjunto de datos.

La mediana: es el valor en el medio de la selección, si todos los valores están dispuestos de menor a mayor.

La media aritmética: es la suma de todos los valores dividido por su número.

Estadígrafos más utilizados

Page 6: Análisis de datos

6

Medidas de variabilidad: Rango Desviación estándar Varianza

Otros: Coeficiente de Asimetría Coeficiente de Curtosis

Page 7: Análisis de datos

7

Ejemplo con R Project: Determinar la media, mediana, rango, varianza y desviación estándar de las edades de un grupo de personas: edad <- c(22,22,23,24,25,25,26,27,28,29,29,29,29,

29,31,31,32,33,34,35,35,35,36,38,39,39,42,42,44,44, 45,45, 45,47,48,52,59,66,67,69,69) Asigna valores de un vector al objeto edad.

mean(edad) Determina la media aritmética de las edades del vector edad.

Page 8: Análisis de datos

8

median(edad) Determina el valor medio de las edades del vector.

range(edad) Determina los valores mínimo y máximo de edad.

var(edad) Determina la varianza de edad.

sd(edad) Determina la desviación estándar de las edades del vector.

Page 9: Análisis de datos

9

Distribución de frecuencias y representaciones gráficas: Histograma de

frecuencia: es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados.

Page 10: Análisis de datos

10

Polígono de frecuencia: es un gráfico de líneas de las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.

Page 11: Análisis de datos

11

Ejemplo 1: Elaborar un histograma con las edades ingresadas en el vector edad. edad <- c(22,22,23,24,25,25,26,27,28,29,29,29,29,

29,31,31,32,33,34,35,35,35,36,38,39,39,42,42,44,44, 45,45, 45,47,48,52,59,66,67,69,69)

hist(edad,main="Edades de candidatos a

regidurias de Huancayo", xlab="Edad (años)",ylab="Frecuencia", col=15) Se genera el histograma.

Page 12: Análisis de datos

12

Ejemplo 2: Elaborar un polígono sobre la relación de dos variables, independiente y dependiente. x<- c(1,2,3,4,5,6,7,8,9,10,11,12,13,15)

y <-c(20,24,30,45,38,32,21,34,23,24,15, 18,13,24)

Se define objetos con valores de la VI y VD.

plot(x,y,type="n",xlab="Time",ylab="Distance") Se genera el gráfico.

polygon(x,y, col="gray", border = "red")

Page 13: Análisis de datos

13

Ejemplo 3: Elaborar un gráfico de barras sobre preferencias electorales regionales. select <- c(28,26,21,13,8,4)

eelect <- c("Unchupaico","Cerrón","Vilchez",

"Garcia", "Rodriguez", "Vargas")

barplot(select, width=1, col=rainbow(6), lwd=3, main="Elecciones Regionales, Perú, 2014", xlab="Candidatos", ylab="%", names.arg=eelect)

Page 14: Análisis de datos

14

Son métodos y procedimientos que por medio de la inducción determinan propiedades de una población estadística, a partir de una pequeña parte de la misma.

La estadística inferencial se utiliza para probar hipótesis y estimar parámetros.

Estadística inferencial

Page 15: Análisis de datos

15

Es un conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño.

Distribución muestral

Page 16: Análisis de datos

16

El nivel de significancia y el intervalo de confianza son niveles de probabilidad de cometer un error o equivocarse en la prueba de hipótesis o la estimación de parámetros.

Nivel de significancia

Page 17: Análisis de datos

17

El nivel de significancia se expresa en términos de probabilidad (0.5 y 0.1) y la distribución muestral también se expresa como probabilidad (el área total de ésta como 1.00). Así, el nivel de significancia representa áreas de riesgo o confianza en la distribución muestral.

Distribución muestral y nivel de significancia

Page 18: Análisis de datos

18

Una hipótesis en el contexto de la estadística inferencial es una proposición respecto a uno o varios parámetros, y lo que el investigador hace a través de la prueba de hipótesis es determinar si la hipótesis es congruente con los datos obtenidos en la muestra.

Prueba de hipótesis

Page 19: Análisis de datos

19

Para realizar análisis paramétricos debe partirse de los siguientes supuestos:

La distribución poblacional de la variable dependiente es normal: el universo tiene una distribución normal.

El nivel de medición de la variable dependiente es por intervalos o razón.

Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones en cuestión tienen una dispersión similar en sus distribuciones.

Análisis paramétrico

Page 20: Análisis de datos

20

Pruebas estadísticas paramétricas más utilizadas

Prueba Tipo de hipótesis Coeficiente de correlación de Pearson

Correlacional

Regresión lineal Correlacional / causal Prueba t Diferencia de grupos Prueba de contraste de la diferencia de proporciones

Diferencia de grupos

Análisis de varianza unidireccional (ANOVA one way)

Diferencia de grupos / causal

Análisis de varianza factorial (ANOVA)

Diferencia de grupos / causal

Análisis de covarianza (ANOVA) Correlacional / causal

Page 21: Análisis de datos

21

Para realizar análisis no paramétricos debe partirse de los siguientes supuestos:

La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional. Aceptan distribuciones no normales.

Las variables no necesariamente tienen que estar medidas en un nivel de intervalos o de razón; pueden analizar datos nominales u ordinales. De hecho, si se requieren aplicar análisis no paramétricos a datos por intervalos o razón, éstos se resumen a categorías discretas. Las variables deben ser categóricas.

Análisis no paramétrico

Page 22: Análisis de datos

22

Pruebas estadísticas no paramétricas más utilizadas

Prueba Tipo de hipótesis Chi cuadrada o X2. Diferencia de grupos para

establecer correlación Coeficientes de correlación e independencia para tabulaciones cruzadas: phi, C de Pearson, V de Cramer, lambda, gamma, tau, somers, etc.

Correlacional

Coeficientes de correlación por rangos ordenados de Spearman y Kendall.

Correlacional

Coeficiente eta para relaciones no lineales.

Correlacional

Page 23: Análisis de datos

23

Mg. Wilfredo Bulege Gutiérrez

[email protected]

www.wbulege.blogspot.com

www.twitter.com/wbulege

www.youtube.com/wbulege