Análisis de datos

Wilfredo Bulege

Metodología de la investigación: Análisis de datos

Metodología de la Investigación: por Wilfredo Bulege se encuentra bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 3.0 Unported

http://creativecommons.org/licenses/by-nc-sa/3.0/deed.es

http://creativecommons.org/licenses/by-nc-sa/3.0/deed.es

2

Análisis de datos

En primer término, se describe los datos; posteriormente se efectúa análisis estadísticos para relacionar las variables; es decir, realizar análisis de estadística descriptiva para cada una de las variables, luego se describe la relación entre éstas.

3

Software para la investigación científica

www.decisionanalyst.com/Download.aspx

www.atlasti.com www.r-project.org

www.stata.com

www-01.ibm.com /software/analytics/spss/

www.zotero.org/download/

http://www.decisionanalyst.com/Download.aspx

http://www.decisionanalyst.com/Download.aspx

http://www.atlasti.com/

http://www.r-project.org/



http://www.atlasti.com/

http://www-01.ibm.com/software/analytics/spss/








https://www.zotero.org/download/

https://www.zotero.org/download/

4

Recolecta, ordena, analiza y representa un conjunto de datos, con el fin de describir apropiadamente las características de ese conjunto.

Este análisis es básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central.

Estadística descriptiva

5

Medidas de tendencia central: La moda: es el valor más

común en nuestro conjunto de datos.

La mediana: es el valor en el medio de la selección, si todos los valores están dispuestos de menor a mayor.

La media aritmética: es la suma de todos los valores dividido por su número.

Estadígrafos más utilizados

6

Medidas de variabilidad: Rango Desviación estándar Varianza

Otros: Coeficiente de Asimetría Coeficiente de Curtosis

7

Ejemplo con R Project: Determinar la media, mediana, rango, varianza y desviación estándar de las edades de un grupo de personas: edad <- c(22,22,23,24,25,25,26,27,28,29,29,29,29,

29,31,31,32,33,34,35,35,35,36,38,39,39,42,42,44,44, 45,45, 45,47,48,52,59,66,67,69,69) Asigna valores de un vector al objeto edad.

mean(edad) Determina la media aritmética de las edades del vector edad.

8

median(edad) Determina el valor medio de las edades del vector.

range(edad) Determina los valores mínimo y máximo de edad.

var(edad) Determina la varianza de edad.

sd(edad) Determina la desviación estándar de las edades del vector.

9

Distribución de frecuencias y representaciones gráficas: Histograma de

frecuencia: es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados.

10

Polígono de frecuencia: es un gráfico de líneas de las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.

11

Ejemplo 1: Elaborar un histograma con las edades ingresadas en el vector edad. edad <- c(22,22,23,24,25,25,26,27,28,29,29,29,29,

29,31,31,32,33,34,35,35,35,36,38,39,39,42,42,44,44, 45,45, 45,47,48,52,59,66,67,69,69)

hist(edad,main="Edades de candidatos a

regidurias de Huancayo", xlab="Edad (años)",ylab="Frecuencia", col=15) Se genera el histograma.

12

Ejemplo 2: Elaborar un polígono sobre la relación de dos variables, independiente y dependiente. x<- c(1,2,3,4,5,6,7,8,9,10,11,12,13,15)

y <-c(20,24,30,45,38,32,21,34,23,24,15, 18,13,24)

Se define objetos con valores de la VI y VD.

plot(x,y,type="n",xlab="Time",ylab="Distance") Se genera el gráfico.

polygon(x,y, col="gray", border = "red")

13

Ejemplo 3: Elaborar un gráfico de barras sobre preferencias electorales regionales. select <- c(28,26,21,13,8,4)

eelect <- c("Unchupaico","Cerrón","Vilchez",

"Garcia", "Rodriguez", "Vargas")

barplot(select, width=1, col=rainbow(6), lwd=3, main="Elecciones Regionales, Perú, 2014", xlab="Candidatos", ylab="%", names.arg=eelect)

14

Son métodos y procedimientos que por medio de la inducción determinan propiedades de una población estadística, a partir de una pequeña parte de la misma.

La estadística inferencial se utiliza para probar hipótesis y estimar parámetros.

Estadística inferencial

15

Es un conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño.

Distribución muestral

16

El nivel de significancia y el intervalo de confianza son niveles de probabilidad de cometer un error o equivocarse en la prueba de hipótesis o la estimación de parámetros.

Nivel de significancia

17

El nivel de significancia se expresa en términos de probabilidad (0.5 y 0.1) y la distribución muestral también se expresa como probabilidad (el área total de ésta como 1.00). Así, el nivel de significancia representa áreas de riesgo o confianza en la distribución muestral.

Distribución muestral y nivel de significancia

18

Una hipótesis en el contexto de la estadística inferencial es una proposición respecto a uno o varios parámetros, y lo que el investigador hace a través de la prueba de hipótesis es determinar si la hipótesis es congruente con los datos obtenidos en la muestra.

Prueba de hipótesis

19

Para realizar análisis paramétricos debe partirse de los siguientes supuestos:

La distribución poblacional de la variable dependiente es normal: el universo tiene una distribución normal.

El nivel de medición de la variable dependiente es por intervalos o razón.

Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones en cuestión tienen una dispersión similar en sus distribuciones.

Análisis paramétrico

20

Pruebas estadísticas paramétricas más utilizadas

Prueba Tipo de hipótesis Coeficiente de correlación de Pearson

Correlacional

Regresión lineal Correlacional / causal Prueba t Diferencia de grupos Prueba de contraste de la diferencia de proporciones

Diferencia de grupos

Análisis de varianza unidireccional (ANOVA one way)

Diferencia de grupos / causal

Análisis de varianza factorial (ANOVA)

Diferencia de grupos / causal

Análisis de covarianza (ANOVA) Correlacional / causal

21

Para realizar análisis no paramétricos debe partirse de los siguientes supuestos:

La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional. Aceptan distribuciones no normales.

Las variables no necesariamente tienen que estar medidas en un nivel de intervalos o de razón; pueden analizar datos nominales u ordinales. De hecho, si se requieren aplicar análisis no paramétricos a datos por intervalos o razón, éstos se resumen a categorías discretas. Las variables deben ser categóricas.

Análisis no paramétrico

22

Pruebas estadísticas no paramétricas más utilizadas

Prueba Tipo de hipótesis Chi cuadrada o X2. Diferencia de grupos para

establecer correlación Coeficientes de correlación e independencia para tabulaciones cruzadas: phi, C de Pearson, V de Cramer, lambda, gamma, tau, somers, etc.

Correlacional

Coeficientes de correlación por rangos ordenados de Spearman y Kendall.

Correlacional

Coeficiente eta para relaciones no lineales.

Correlacional

23

Mg. Wilfredo Bulege Gutiérrez

[email protected]

www.wbulege.blogspot.com

www.twitter.com/wbulege

www.youtube.com/wbulege

Análisis de datos

Education

Transcript of Análisis de datos