REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de...
Transcript of REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de...
![Page 1: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/1.jpg)
1
REGRESION Y CORRELACION
LINEALES
![Page 2: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/2.jpg)
2
Relaciones entre variables y regresión
• El término regresión fue introducido por Galton (1889) refiriéndose a la “ley de la regresión universal”:
– “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.”
• Regresión a la media – Su trabajo se centraba en la descripción de los rasgos
físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).
– Pearson realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:
• Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
• Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.
Francis Galton
Karl Pearson
![Page 3: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/3.jpg)
3
Regresión
• Describir la relación entre dos variables numéricas
• El análisis de regresión sirve para predecir una medida en función
de otra medida (o varias).
– Y = Variable dependiente
• predicha
• explicada
– X = Variable independiente
• predictora
• explicativa
– ¿Es posible descubrir una relación?
• Y = f(X) + error
– f es una función de un tipo determinado
– el error es aleatorio, pequeño, y no depende de X
![Page 4: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/4.jpg)
4
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersión , nube de puntos o “Scaterplot”
Mid
e 1
87 c
m.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
Variable independiente x (altura)
Variable dependiente y (peso)
![Page 5: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/5.jpg)
5
REGRESION LINEAL SIMPLE
Finalidad
Estimar los valores de y (variable
dependiente) a partir de los valores
de x (variable independiente)
Modelo
xy
y
x
y
a q
Ordenada en
el origen
(intercepto)
=tg q coeficiente de regresión
(pendiente)
x
y x
yb
![Page 6: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/6.jpg)
6
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
No hay relacion
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relación directa e inversa
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la
media tenemos valores de Y por
encima y por debajo en proporciones
similares.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relación inversa o
decreciente.
•Para los valores de X mayores que la media
le corresponden valores de Y mayores
también.
•Para los valores de X menores que la media
le corresponden valores de Y menores
también. : relación directa.
![Page 7: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/7.jpg)
7
COVARIANZA
Es una medida de la variación lineal conjunta de dos variables
+
+ y
x
N
xμx
yμy
xy
))((s
s xy < 0 asociación lineal con pendiente negativa
s xy = 0 ausencia de asociación lineal
s xy > 0 asociación lineal con pendiente positiva
n
xxyy
))((cov
Estimación de s xy
Es un estimador sesgado
centroide
x
y
xx
yy
![Page 8: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/8.jpg)
8
El signo de la covarianza nos dice si el aspecto
de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relación entre
las variables.
Coef. de correlación lineal de Pearson
El coeficiente de correlación lineal de Pearson de dos variables, r,
indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).
r
r (Rho ) en la poblaciòn
Valor en la muestra
![Page 9: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/9.jpg)
9
yxxy sssr /
CORRELACION LINEAL
Finalidad
Medir la intensidad de la asociación lineal entre dos variables
aleatorias
coeficiente de correlación
covarianza poblacional
coeficiente de
determinación
Proporción de varianza compartida por las
dos variables
r 2
yxxy sssr /
r 2
![Page 10: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/10.jpg)
10
• Es adimensional
• Sólo toma valores entre -1y +1
• Las variables NO estàn correlacionadas r=0
• Relación lineal perfecta entre dos variables r = +1 o r=-1
– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
– Siempre que no existan observaciones anómalas.
Propiedades de r
-1 +1 0
Relación
inversa
perfecta Relación
directa
casi
perfecta
Variables
NO correlacionadas
![Page 11: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/11.jpg)
11
Y = 0.134 X + 2.1220
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90X
Y
Y = 0.134 X + 2.122
0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90
X
Y
Y = X
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16
X
Y
Y = X0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16X
Y
Correlación positiva
Correlación negativa
r = + 1 0 r +1
-1 r 0 r = - 1
![Page 12: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/12.jpg)
12
#¡DIV/0!
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6
X
YY = 0.093 X + 4.335
0
2
4
6
8
10
12
14
16
20 25 30 35 40 45 50 55 60
X
Y
Y = 4
0
1
2
3
4
5
6
7
8
20 25 30 35 40 45 50 55 60
X
Y
r = 0
Ausencia de correlación
![Page 13: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/13.jpg)
13
Animación: Evolución de r y diagrama de dispersión
![Page 14: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/14.jpg)
14
21
2
r
nrtcalc
ESTIMACION DE r (rho)
Los residuos ( e ) deben ser :
Se compara con el valor
critico (t tabulado)
CONSIDERACIONES PARA LA VALIDEZ DEL TEST
yx ssCovr
.
0: rHo
PRUEBA DE
Normales
Homocedasticos
Independientes
Testar la Ho: r = 0 equivale a ensayar la Ho: = 0
![Page 15: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/15.jpg)
15
Animación: Residuos del modelo de regresión
![Page 16: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/16.jpg)
16
ESTADISTICOS USUALES
Varianza residual (insesgada)
2
2
2
2)ˆ(2.
ˆ
nn
yyxys
Error tipico de estimación de y 2.
ˆ.
ˆxysxys
Error tipico de estimación de b SCXxysb
s .ˆˆ
Coeficiente
de Determinación R2 )12
R(0 SCtotal
nSCRegresió2R
2
22 1
Y
e
S
SR
![Page 17: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/17.jpg)
17
¿Cómo medir la bondad de una regresión?
Imaginemos un diagrama de dispersión, y vamos
a tratar de comprender en primer lugar qué es
el error residual, su relación con la varianza de Y,
y de ahí, cómo medir la bondad de un ajuste.
![Page 18: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/18.jpg)
18
Interpretación de la variabilidad en Y
Y En primer lugar olvidemos que existe
la variable X. Veamos cuál es la
variabilidad en el eje Y.
La franja sombreada indica la zona
donde varían los valores de Y.
Proyección sobre el eje Y = olvidar X
2 YS
![Page 19: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/19.jpg)
19
Interpretación del residuo ( )
Y
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el
eje Y.
Se observa que los errores de predicción,
residuos, están menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los
residuos,
mejor será la bondad del ajuste.
yy ˆ
2
eS
![Page 20: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/20.jpg)
20
Resumiendo: La dispersión del error residual será una fracción de
la dispersión original de Y
Cuanto menor sea la dispersión del error
residual mejor será el ajuste de regresión.
Bondad de un ajuste
2
22 1
Y
e
S
SR
Y
22 Ye SS
Eso hace que definamos
como medida de
bondad de un ajuste de
regresión, o coeficiente
de determinación a:
![Page 21: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/21.jpg)
21
A medida que los valores se alejan del centroide ( , )
las estimaciones de y son más imprecisas
Consecuencia sobre las estimaciones de y
y
x
xy
faja de
confianza
para
y
x
faja de
confianza
para
xy
x y
bstb ˆ
bstb ˆb
![Page 22: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/22.jpg)
22
P Q
Buen ajuste a la recta en el intervalo PQ
NO implica que la relación sea lineal fuera del mismo
![Page 23: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/23.jpg)
23
La recta de regresión de y sobre x no es la misma que la de x sobre y , salvo
que todos los puntos estén sobre la recta
y
x
xey
x
ye
![Page 24: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/24.jpg)
24
Precauciones en la interpretación de r
r significativo NO implica relación de causalidad entre las
variables
r = 0 NO implica ausencia de asociación entre las variables
t x
y
x
y y
x
r = 0 r = 0
![Page 25: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/25.jpg)
25
Los problemas de regresión y de correlación lineales
se parecen pero difieren
En la finalidad
En las variables
REGRESION CORRELACION
x variable
independiente fija
NO hay distinción entre
variable dependiente e
independiente
y variable
dependiente aleatoria
x e y son variables
aleatorias
![Page 26: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia](https://reader030.fdocuments.co/reader030/viewer/2022033118/5e472be1cf8f1d618c3b8fe3/html5/thumbnails/26.jpg)
26
Cálculos en correlación y regresión
Entrar x Hallar y Borrar la memoria estadística x xs
Entrar y Hallar y Borrar la memoria estadística y ys
Entrar los productos (x y) Hallar yx
Calcular: yxyxCov .
yx ssCovr
. Testar: 0: rHo
bxay xbya x
ys
rsb