Seminario 10

7
ESTADISTICA INFERENCIAL CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS En primer lugar, en la base de datos vamos a ver la relación que existe entre talla y peso, para ello, vamos a proponer una hipótesis de investigación: H1: Existe relacion entre talla y peso de adolescentes. Ho: No existe relacion entre talla y peso de adolescentes. Para comprobar esta hipótesis hemos utilizado el coeficiente de correlación de Pearson, siempre y cuando se cumpan las dos asunciones: que sea lineal y que se cumpla el criterio de normalidad. COMPROBACION DE LA PRIMERA ASUNCIÓN Se utiliza el coeficiente de correlación de Pearson para comprobar las asunciones. Son las dos cuantitativas, por tanto, se utiliza un gráfico de dispersión para saber si es lineal. Existe relacion lineal, por tanto, asumimos la PRIMERA ASUNCION.

Transcript of Seminario 10

Page 1: Seminario 10

ESTADISTICA INFERENCIAL

CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS

En primer lugar, en la base de datos vamos a ver la relación que existe entre talla y peso, para

ello, vamos a proponer una hipótesis de investigación:

H1: Existe relacion entre talla y peso de adolescentes.

Ho: No existe relacion entre talla y peso de adolescentes.

Para comprobar esta hipótesis hemos utilizado el coeficiente de correlación de Pearson,

siempre y cuando se cumpan las dos asunciones: que sea lineal y que se cumpla el criterio de

normalidad.

COMPROBACION DE LA PRIMERA ASUNCIÓN

Se utiliza el coeficiente de correlación de Pearson para comprobar las asunciones. Son las dos

cuantitativas, por tanto, se utiliza un gráfico de dispersión para saber si es lineal.

Existe relacion lineal, por tanto, asumimos la PRIMERA ASUNCION.

Page 2: Seminario 10

COMPROBACIÓN DE LA SEGUNDA ASUNCIÓN

Para saber si cumple el criterio de normalidad, es decir, si la talla y el peso siguen una

distribucion normal, hemos propuesto en primer luga, nuevas hipótesis:

H1: Existen diferencias entre nuestra distribución y la normal.

Ho: No existen diferencias entre nuestra distribución y la normal.

Como la muestra es mayor a 30 vamos a utilizar Kolmogorov-Smirnov

De la tabla podemos deducir que al ser sig=P<0.05, la Ho es nula, por lo que aceptamos la H1,

es decir, existen diferencias entre nuestra distribucion y la normal.

Sin embargo, debido a que la muestra es demasiado grande y que estas muestras no son del

todo fiables en estas condiciones, hemos recurrido tambien a diferentes graficos para

comprobarlo.

En primer lugar analizaremos los graficos del peso:

Page 3: Seminario 10

De todos ellos podemos deducir que, excepcionando algun caso muy puntual, la distribucion

es normal en cuanto a la variable peso.

Para comprobar la variable talla, tambien observaremos las graficas, pero ahora en funcion de

ésta.

Page 4: Seminario 10

Al igual que en el caso de la variable peso, podemos deducir que la talla presenta una

distribucion normal, exceptuando algun caso muy puntual.

Tras la comprobacion, aceptamos que si se cumple el criterio de normalidad (SEGUNDA

ASUNCION) y, por tanto, podemos utilizar el coeficiente de correlacion de Pearson.

CORRELACIÓN

Se trata de una tabla de doble salida: la información esta repetida porque relaciona las dos

variables en las dos direcciones. Lo primero que hace es correlacionar a una variable consigo

misma: autocorrelación= 1.

La correlacion entre ambas variables es de 0.646, por lo que es alta, ya que es >0.5, por tanto,

nos encontramos en una correlacion positiva (relacion directa). Por otro lado, podemos

deducir que sig=P: 0.00, es significativa ya que es <0.05. Por tanto, aceptamos la hipotesis de la

investigacion: existe relacion entre peso y talla de los adolescentes.

Correlación no paramétrica

Tau_b de Kendall: es más conservadora, es decir, si no se quieren asumir riesgos. No

quiere rechazar la H0 pudiendo ser verdadera. Es una forma de disminuir el error tipo

I.

Rho de Spearman: Es potente ya que el coeficiente de correlación es igual que en las

pruebas paramétricas. También es más fácil aceptar la H0 en esta prueba. También se

utiliza con variables ordinales que tengan 5 o más categorías.

En la correlación normal se utiliza las pruebas de Pearson.

Page 5: Seminario 10

CORRELACION ENTRE VARIABLES CUALITATIVAS

Una variable dicotómica puede ser el sexo y una cuantitativa podría ser la frecuencia semanal

de actividad física de 0-8 (ordinal, pero se puede considerar cuantitativa en el analisis).

Proponemos una hipotesis:

H1: existe relacion entre el sexo y la frecuencia de la actividad fisica.

Ho: no existe relacion entre el sexo y la frecuencia de la actividad fisica.

Debido a que es una gran muestra hemos considerado que cumple la normalidad, por lo que

podemos hacer el coeficiente de correlacion de Pearson.

La correlacion entre ambas variables es -0.303, por lo que es una correlacion negativa (a mas

sexo menos actividad fisica); ademas, se trata de una correlacion de efecto medio, ya que

tiene un valor proximo a 0.3. Por otro lado, podemos deducir que sig=P: 0.00, es significativa

ya que es <0.05, por tanto, aceptamos nuestra H1.

Al sexo masculino le habiamos atribuido el valor 1 y al femenino el valor 2, por tanto, decimos

que a más sexo (femenino) menos actividad fisica.

Page 6: Seminario 10

VARIABLES CATEGORICAS DICOTOMICAS

Las variables sexo y tabaco son variables dicotomicas, ya que solo hay opcion a dos posibles

respuestas: mujer/hombre; si/no. Utilizamos PHI.

Proponemos una hipotesis:

H1: existe relacion entre el sexo y el consumo de tabaco.

Ho: no existe relacion entre el sexo y el consumo de tabaco.

Debido a que sig=P: 0.648 > 0.05, podemos deducir que es poco significativa, por lo que

rechazamos la H1. No existe relacion entre el sexo y el consumo de tabaco.

VARIABLES CATEGORICAS NO DICOTOMICAS

Para este caso vamos a analizar la relacion entre el grado de funcionalidad Apgar (familias de

adolescentes): normofuncional, disfuncional leve, disfuncional grave; y la frecuencia del

consumo de tabaco.

Proponemos la hipotesis:

H1: existe relacion entre el grado de funcionalidad familiar y la frecuencia de consumo

de tabaco.

Ho: no existe relacion entre el grado de funcionalidad familiar y la frecuencia de

consumo de tabaco.

No podemos usar ni Phi ni Pearson porque no son cuantitativas ni ordinales, se utiliza V de

Cramer o el coeficiente de contingencia.

Page 7: Seminario 10

Debido a que sig=P: 0.001< 0.05, podemos deducir que es significativa.el coeficiente de

contingencia es relativamente bajo: 0.195.

En la frecuencia esperada se parte de un modelo hipotético. Vamos a comparar lo que hemos

observado con ese modelo hipotético y así ver donde hay diferencias.

Aquellos que tenían un grado de disfuncional grave y fumaron todos los días, la frecuencia fue

mayor a la esperada 5>1,5. De los normofuncionales que no fumaron se ve una frecuencia

mayor de la esperada 348>336.