Seminario 6
-
Upload
beatriz-rojas-jimenez -
Category
Technology
-
view
40 -
download
0
Transcript of Seminario 6
![Page 1: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/1.jpg)
Seminario VI: Análisis
exploratorio de datos.
BEATRIZ ROJAS JIMÉNEZ1º ENFERMERÍA VIRGEN DEL ROCÍO; SUBGRUPO 16
CURSO: 2015/16
![Page 2: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/2.jpg)
Introducción
En este seminario vamos a trabajar con R Commander la primera parte de los análisis estadísticos: los análisis descriptivos o exploratorios.
![Page 3: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/3.jpg)
Primer ejercicio:
Selecciona dos variables cualitativas-factor del fichero “activossalud.rdata”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.
![Page 4: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/4.jpg)
Antes de comenzar con el ejercicio debemos: ABRIR R JUNTO A R COMMANDER Y ESPECIFICAR EL DIRECTORIO DE TRABAJO.Fichero Cambiar directorio de trabajo… Elegir carpeta
![Page 5: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/5.jpg)
CARGAR LOS DATOS CON LOS QUE VAMOS A TRABAJAR:Datos Cargar conjunto de datos… Elegir archivo [activossalud(1)]
![Page 6: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/6.jpg)
1) Comenzamos con el primer ejercicio: primero debemos buscar las distribuciones de los datosEstadísticos Resúmenes Distribución de frecuencias… elegir las dos variables que utilizaremos (edad y botellón)
![Page 7: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/7.jpg)
2) Nos aparece la tabla de frecuencias de las variables botellón y edad, vamos a interpretarlas.
BOTELLÓN EDAD
Beben solo 3 personas a diario (1,05%).
El 38,41% de las personas del estudio tienen 18 años (111 personas).
Solo los fines de semana beben 90 personas (31,58%).
Entre 21 – 22 años hay el 21,11% (61 personas).
Nunca beben 51 personas (17,89 %)
El 10,03 % de los estudiados tenían más de 25 años (29 personas).
![Page 8: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/8.jpg)
Segundo ejercicio:
Selecciona dos variables numéricas del fichero “activossalud.rdata”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.
![Page 9: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/9.jpg)
1) Buscamos la tabla de frecuencias de datos cuantitativos.Estadística Resúmenes Resúmenes numéricos
2) Elegimos las variables que queremos describir de la tabla de frecuencias (altura y peso).
En estadísticos podemos seleccionar las medidas que queremos.
![Page 10: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/10.jpg)
3) Describimos las dos variables:
ALTURA (metros) PESO (kg)La mediana coincide con el segundo cuartil (Q2) y sería 1,655.
La mediana coincidirá con Q2 y sería 60.
Sería una distribución asimétrica ya que la media no coincide con la mediana (1,667 ≠ 1,655).
Es una distribución asimétrica porque la media y la mediana no coinciden (62,75571 ≠ 60)
Tiene una desviación típica (sd) de 0,0807… Tiene una desviación típica de 12,6598…La muestra es de 290 individuos de los cuales, solo 1 no ha contestado.
La muestra consta de 275 individuos de los cuales, 16 no han constestado.
Rango intercuartílico (IQR) = 0,12Primer cuartil (Q1) = 1,6Tercer cuartil (Q3) = 1,72Altura máxima = 2 metrosAltura mínima = 1,46 metros
Rango intercuartílico (IQR) = 14Primer cuartil (Q1) = 54Tercer cuartil (Q3) = 68Peso Máximo = 130 KgPeso Mínimo = 38 Kg
![Page 11: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/11.jpg)
Tercer ejercicio:
Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.rdata”, describe e interpreta la distribución los mismos.
![Page 12: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/12.jpg)
GRÁFICO DE SECTORESGráficas Gráfica de sectores… Elegimos la variable (botellón)
![Page 13: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/13.jpg)
a diario
solo los fines de semana2 o 3 veces a la semana
2 o 3 veces al mes
Algunas veces anual
Nunca
botellon
De esta muestra podemos sacar varias conclusiones:
• La mayoría de la muestra bebo sólo los fines de semana.
• Una mínima parte de la muestra bebe todos los días.
• Existe un gran número de la muestra que no bebe nunca.
![Page 14: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/14.jpg)
DIAGRAMA DE BARRASGráficas Gráficas de barras Elegir varible (cerveza)
![Page 15: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/15.jpg)
De la variable de cerveza podemos destacar que:• El primer hecho más
representativo es que una parte muy representativa de la muestra nunca bebe cerveza.
• Y el segundo, es que una mínima parte de la muestra bebe a diario cerveza.
diario 2 o 3 veces semana alguna vez nunca
cervezaFr
eque
ncy
020
4060
8010
0
![Page 16: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/16.jpg)
HISTOGRAMAGráficas Histograma Elegir variable (altura)
![Page 17: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/17.jpg)
altura
frequ
ency
1.5 1.6 1.7 1.8 1.9 2.0
010
2030
4050
6070
De esta variable de dulces podemos sacar varias conclusiones:• Es una distribución asimétrica, un poco
sesgada hacia la izquierda.• La altura más representativa se encuentra
entre 1,6 y 1,7 metros.• Existen pocos individuos que midan menos
de 1,5 metros y más de 1,9 metros-
![Page 18: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/18.jpg)
DIAGRAMA DE CAJASGráficas Diagrama de cajas elegir variable (peso)
![Page 19: Seminario 6](https://reader038.fdocuments.co/reader038/viewer/2022103010/58a7979e1a28ab5f6c8b630b/html5/thumbnails/19.jpg)
4060
8010
012
0
peso
103152
158
183193
199
259
266
De la variable peso podemos destacar que:• El peso máximo está alrededor de
90 Kg y el mínimo en 40 Kg.• La mediana se encontraría en 60.
Esta correspondería con Q2.• Q1 = 65• Q3 = 55• Las observaciones aberrantes o
datos atípicos serían todos los que se encuentran fuera de la caja.