Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe...

40
Correlación Juan José Hernández Ocaña

Transcript of Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe...

Page 1: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Correlación

Juan José Hernández Ocaña

Page 2: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

• Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar una posible relación entre variables.

• Podemos decir que hay una correlación entre dos variables “si cuando una de ellas se relaciona con la otra de alguna manera”

Correlación

Page 3: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Conceptos

• Análisis de correlación

– Conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables

– Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas)

Page 4: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Diagrama de dispersión

• Es una gráfica que representa la relación entre dos variables.• Los datos muestrales apareados (x,y) se grafican en un

eje horizontal (x) y un eje vertical (y). Cada par individual (x, y) se grafica como un solo punto.• Podemos encontrar tres tipos de relación entre las

variables– Positiva– Negativa– Sin relación

Page 5: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Coeficiente de correlación

• El coeficiente de correlación r mide la fuerza de la relación lineal entre los valores cuantitativos apareados x y y.

• El coeficiente de correlación expresa de manera cuantitativa la magnitud y dirección de una relación

– Condiciones • La muestra de datos apareados (x, y) es una muestra aleatoria

de datos cuantitativos• Los pares de datos ( x, y) tienen una distribución normal

bivariada

Page 6: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Conceptos Correlación

Coeficiente de correlación Este coeficiente expresa de manera cuantitativa la magnitud y dirección

de una relación lineal La dirección se refiere a si la relación es positiva o negativa El grado de la relación se refiere a la magnitud Una correlación puede variar de +1 a - 1 Hay que considerar que la gráfica de dispersión está formada por

parejas de valores de x y Si se desea conocer la relación simple entre una variable x y ,

podemos emplear La r de Pearson r2 Nos mide la proporción de la variación de y , que se explica por

relación lineal de x

Page 7: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

∑X Es la suma de todos los valores de x∑X2 indica que cada valor de x debe elevarse al cuadrado y después dichos cuadrados se suman∑(X)2 indica que los valores de x deben sumarse y el total elevarse al cuadrado∑XY indica que cada valor de x debe multiplicarse por su correspondiente de y después hacer la suma de todos los productos.

Page 8: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Ejercicios

• Considere los siguiente valores para la variable x y para la variable y. Calcule el valor de la r de Pearson Calcule el valor de r2

Cuál es la hipótesis nula Cuál es la hipótesis alternativa Establezca criterio de decisión de acuerdo a t Rechace Ho de acuerdo a los criterios anteriores Cuáles son sus conclusiones

x 1 2 3 4

y 3 5 8 13

Page 9: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

x y

1 3

2 5

3 8

4 13

xy

3

10

24

52

x2

1

4

9

16

y2

9

25

64

169

SUMATORIAS ∑x =10 ∑y=29 ∑xy=89 ∑ x2= 30 ∑ y2 =267

Page 10: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Grafico de dispersión

0.5 1 1.5 2 2.5 3 3.5 4 4.50

2

4

6

8

10

12

14

Series1

Page 11: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Regresión lineal

• En el modelo de regresión lineal simple, se supone que la relación entre la variable dependiente (y) y la variable independiente (x) es casi una recta

Page 12: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Regresión Conceptos

• La regresión mide la relación entre dos variables y se basa en el uso de la misma relación para elaborar una predicción.

• Esto resultaría sencillo siempre y cuando se considere una recta perfecta en la relación entre dos variables

• En el caso de relaciones imperfectas la solución consiste en construir una recta que minimice los errores de predicción de acuerdo a un criterio llamado mínimos cuadrados

Page 13: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

EJEMPLO

Se quiere conocer si existe una relación entre el numero de las llamadas que los empleados realizan a los clientes potenciales y el número de equipos vendidos

llamadas Equipos vendidos

Keller 20 30

Hall 40 60

Vinist 20 40

Fish 30 60

Welch 10 30

Ramirez 10 40

Niles 20 40

Kiel 20 50

Reynols 20 30

Jones 30 70

Page 14: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

5 10 15 20 25 30 35 40 450

10

20

30

40

50

60

70

80

Equipos vendidos

La media de X ( llamadas ) es 22La media de Y ( equipos vendido) es 45

Page 15: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión lineal simple

– E(y) = βo + β 1x

– βo es la ordenada al origen

– β 1 es la pendiente– E(y) es el valor esperado de y para determinado

valor de x

Page 16: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

– y = bx + a

– donde a es la ordenada al origen –Donde b es la pendiente

–El valor de y sería el valor estimado de y a partir del valor de x empleando la ecuación

La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión

estimada

Page 17: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Supuestos

• Se investiga únicamente relaciones lineales• Para cada valor de (x, y) es una variable aleatoria con una

distribución normal y se considera que todas estas distribuciones de y tienen la misma varianza.

• Si existe una correlación lineal, el mejor valor predicho de y se calcula sustituyendo el valor de x en la ecuación de regresión.– Si no existe una correlación lineal, no debe utilizar la ecuación de

regresión para hacer predicciones.• Cuando utilice la ecuación de regresión para hacer

predicciones, debe permanecer en el ámbito de los datos muestrales disponibles.

Page 18: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

PENDIENTE DE LA RECTA

• La pendiente nos representa la cantidad que cambia la variable dependiente cuando la variable independiente cambia exactamente una unidad, esto es conocido como cambio marginal

• Una recta satisface la propiedad de mínimos cuadrados sí la suma de los cuadrados de los residuales es la menor posible– Un residual es la diferencia entre el valor observado muestral

de y, y el valor de y predicho por la ecuación de regresión. – Es necesario realizar una prueba de hipótesis para verificar la

fiabilidad de la predicción mediante el uso de la ecuación

Page 19: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.
Page 20: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.
Page 21: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

PREDICCIÓN

Page 22: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

• Se puede pronosticar el valor de y siempre y cuando se tenga una recta

– 1.-Se puede dar confiabilidad a la estimación mediante la prueba de hipótesis.• nos dice en términos de probabilidad la certeza de

tener o no un recta.

– 2.- Se puede emplear también el calculo del error estándar de estimación. • Nos dice cuán preciso es el pronóstico

Page 23: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Error estándar de estimación

• Es la medida de la dispersión de los valores observados respecto a la recta de regresión– calcular residuos y a partir de allí el error estándar de medición

• Si su valor es pequeño ello significa que los datos están relativamente cercanos a la recta de regresión y la ecuación sirve para predecir con un margen de error pequeño

• Se emplea el método de la recta de mínimos cuadrados– No hay otra recta que pase por el valor de los datos donde la

suma de las desviaciones al cuadrado sea menor

Page 24: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

• 1.-calcular valores estimados de la variable dependiente (y)

• 2.- Calcular los residuos• 3.- calcular el cuadrado

de los residuos• 4.- Calcular error

estándar de medición • 5.- Comparar con regla

de distribución empírica– Se considera como muy

confiable si se encuentra dentro de +/- un valor del error estándar

– se considera confiable si se encuentra dentro de +/- 2 valores del error estándar.

5 10 15 20 25 30 35 40 450

10

20

30

40

50

60

70

80

Series1Linear (Series1)

Axis Title

Axis Title

Page 25: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Coeficiente de determinación r2

• Es una medida de la bondad de ajuste para una ecuación de regresión– Esto es , qué tan bien se ajusta a los datos la

ecuación de regresión– los valores van desde 0 a 1– se puede emplear para relaciones que tengan dos

o más variables independientes

Page 26: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

EJERCICIOS

Page 27: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

AÑO AUTOS(MILLONES)

% GM

1950 6 50.2

1955 7.8 50.4

1960 7.3 44

1965 10.3 49.9

1970 10.1 39.5

1975 10.8 43.1

1980 11.5 44

1985 15.4 40.1

1990 13.5 36

1995 15.5 31.

2000 17.4 28.6

2003 17.1 27.8

Se desea terminar si existe una relación entre la cantidad de autos vendidos durante varios años y el porcentaje de participación de la compañía General Motors

Page 28: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

Series1

Page 29: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

1 2 3 4 5 6 7 8 9 10 11 120

10

20

30

40

50

60

Series1Series2

Page 30: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

0 2 4 6 8 10 12 14 160

5

10

15

20

25

30

35

40

numero de rechazo

numero de rechazo

• Coeficiente de correlación ( r) = - 0.7852– conforme aumentan las semanas de experiencia,

disminuye el número de rechazos• Coeficiente de determinación (r2)= 0.6165– EL 61.65% de los cambios de y se deben a la variable x,

esto es, el 61.65% de la disminución en el número de los defectos es atribuible a la experiencia del operador

Page 31: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

0 2 4 6 8 10 12 14 160

5

10

15

20

25

30

35

40

numero de rechazo

numero de rechazo

Pendiente de la recta ( b)= -1.408, lo que significa que cada semana de experiencia en el operador se refleja en una disminución en el número

de defectos de 1.408 .

El valor de la intersección (a) es de 34.71, se puede inferir que 34.71 unidades son independiente de la experiencia del operador y se deben a

otros factores ( materia prima, maquinaria). Para un análisis más especifico se deberá centrar el proceso al valor medio de x

Page 32: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Observación Pronóstico para Y Residuos R21 24.85546875 1.14453125 1.309951782 22.0390625 -2.0390625 4.157775883 26.26367188 1.73632813 3.014835364 14.99804688 1.00195313 1.003910065 23.44726563 -11.4472656 131.039896 17.81445313 0.18554687 0.034427647 20.63085938 3.36914063 11.35110868 29.08007813 -3.08007813 9.486881269 31.89648438 6.10351563 37.252903

10 19.22265625 2.77734375 7.7136383111 33.3046875 -1.3046875 1.7022094712 23.44726563 1.55273438 2.41098404

210.478516

El error estándar de medición es = 4.587=

Por lo que podemos decir que es confiable ya que solo dos datos están fuera del 68% y ningún dato se encuentra fuera del 95% de los mismos de acuerdo a regla empírica

Page 33: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

REGRESIÓN Y CORRELACIÓNejercicios

Page 34: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

• Un gerente de una empresa que comercializa cosméticos desea saber qué relación existe entre los ingresos de varias semanas y sus respectivos costos variables, para lo cual, registra estas variables durante 8 semanas, dando como resultado los siguientes datos

• Calcule el coeficiente de correlación• Calcule la ecuación de regresión.

– Valor de b y el valor de a

• Si tiene un valor DE X DE 140 CUAL SERÍA EL VALOR DE Y

• Calcule el coeficiente de determinación • Pruebe la hipótesis de la fiabilidad de la

predicción de la ecuación

semana ingresoCosto variable

1 157 52

2 150 52

3 143 48

4 139 49

5 163 53

6 165 54

7 167 57

8 173 58

Page 35: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

semana ingresocosto var XY X2 Y2

1 157 52 8164 24649 27042 150 52 7800 22500 27043 143 48 6864 20449 23044 139 49 6811 19321 24015 163 53 8639 26569 28096 165 54 8910 27225 29167 167 57 9519 27889 32498 173 58 10034 29929 3364

sumas 1257 423 66741 198531 22451

Page 36: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

SST SSR SSE

semana ingreso costo var y estimada (y1 -y prom)2 (y est- y pro)2 (y1-yest)2 (x-xpro)2

1 157 52 52.8412001 0.765625 0.00114243 0.70761769 0.015625

2 150 52 50.9484083 0.765625 3.71175541 1.10584501 50.765625

3 143 48 49.0556165 23.765625 14.58769 1.11432628 199.515625

4 139 49 47.9740212 15.015625 24.019593 1.05263245 328.515625

5 163 53 54.4635931 0.015625 2.5236281 2.14210482 34.515625

6 165 54 55.0043908 1.265625 4.53430509 1.00880084 62.015625

7 167 57 55.5451884 17.015625 7.12990629 2.11647668 97.515625

8 173 58 57.1675814 26.265625 18.4262552 0.69292071 252.015625

suma 1257 423 423 84.875 74.9342755 9.94072448 1024.875

Page 37: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

• En la asociación de hoteleros de la zona de Naucalpan existe una preocupación por los bajos niveles de ocupación durante el año. Ellos están por plantear una solución al problema, realizando una diagnóstico del mismo, para lo cual registran los niveles de ocupación promedio al año y las tarifas por persona que se cobran por noche en habitación doble

• 1.- Determine el coeficiente de correlación• 2.- Determine la ecuación de regresión• 3.- Calcule el coeficiente de determinación• 4.- Realice la prueba de hipótesis para

determinar la fiabilidad de predicción de la ecuación. Sí la tarifa por persona fuera 270, cuál sería el % de ocupación esperado?

• 5.- De acuerdo a los resultado, cuáles serían sus conclusiones?

TARIFA POR PERSONA

% DEL NIVEL DE OCUPACIÓN

185. 19.69176. 20.45201. 18.1194. 14.5240. 15.23314. 6.6187. 15.9267. 9.2250 9.96170. 19.2

Page 38: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

Marca Desempeño Evaluación global

AMS 115 67

CPM 191 78

COMNT 153 79

DELL37 194 80

DELL75 236 84

DELLA3 184 76

ENP 184 77

GATEW 216 92

HP 185 83

IBM 183 78

MICROE 189 77

MICROT 202 78

NEC 192 78

SCET 141 73

SONY 187 77

PC WORLD publicó las evaluaciones para las 15 computadoras portátiles más vendidas. Las puntuaciones de desempeño es una medida de qué tan rápido una PC corre en combinación de aplicaciones de negocios en comparación con una maquina de referencia. Por ejemplo, una PC ´con una puntuación de desempeño de 200 es dos veces más rápida que la máquina de referencia. Se utilizó una escala de 100 puntos para asignar una evaluación global a cada computadora portátil que se probó en el estudio. 1.- Obtenga la ecuación de regresión 2.- Estime la evaluación global para una nueva PC que tiene una puntuación de desempeño de 225

Page 39: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

sujetonivel de serotonina

numero de actos agresivos

1 0.32 6

2 0.35 3.8

3 0.38 3

4 0.41 5.1

5 0.43 3

6 0.51 3.8

7 0.53 2.4

8 0.6 3.5

9 0.63 2.2

Una neuróloga sospecha que los bajos niveles de serotonina pueden estar relacionados con el comportamiento agresivo. Como primer paso de su investigación, decide realizar un estudio de correlación con nueve macacos de la India. Los monos son observados durante 6 meses y se registra en número de actos agresivos que realizan. El número de actos agresivos por cada animal es el promedio de 6 meses, expresados sobre base diariaa.- Obtenga la recta de regresión por mínimos cuadrados para predecir el número de actos agresivos a partir del nivel de serotoninab.- Cuál es el número de actos agresivos por día que se podría predecir si el nivel se serotonina es de 0.46 microgramos/gramo

Page 40: Correlación Juan José Hernández Ocaña. Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar.

• Una Psicóloga del desarrollo está interesada en determinar si es posible utilizar la estatura de los niños como base para predecir su posible estatura en la edad adulta.

• A.-Determine el coeficiente de correlación• Empleando una alfa de 0.05, determine si

tiene una relación lineal• Cuáles son sus conclusiones • a.- Si los datos están relacionados de

manera lineal, deduzca la recta de regresión por mínimos cuadrados ( calcular la pendiente y la coordenada al origen)

• b.- Qué estatura podría predecir para una persona de 20 años si a los tres años tuvo una estatura de 42 pulgadas

INDIVIDUO EST 3 AÑOS

EST. 20 AÑOS

1 30 59

2 30 63

3 32 62

4 33 67

5 34 65

6 35 61

7 36 69

8 38 66

9 40 68

10 41 65

11 41 73

12 43 68

13 45 71

14 45 74

15 47 71

16 48 75