COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
REGRESION LINEAL II Mario Briones L. MV, MSc. 2005.
-
Upload
alba-cortes-cordero -
Category
Documents
-
view
239 -
download
0
Transcript of REGRESION LINEAL II Mario Briones L. MV, MSc. 2005.
REGRESION LINEAL II
Mario Briones L.MV, MSc.
2005
Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto
Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.
Observaron que los niños tenían mayor incidencia de leucemia.
Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al
gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.
Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la
revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.
Errores comunes respecto a la correlación Se debe tener cuidado de evitar
concluir que la correlación implica causalidad Variables ocultas
No utilizar tasas o promedios Pérdida de variación entre individuos
Supuesto de linearidad de la relación
Pautas para utilizar la ecuación de regresión Si no existe una correlación lineal
significativa, no utilice la ecuación de regresión para hacer predicciones
En la formulación de predicciones (valores predichos de Y), no efectuar estas predicciones fuera del ámbito de valores observados de X
y = 2,4721x + 16,311
020406080
100120140160
0 10 20 30
días de edad
pe
so
en
gra
mo
sRelación entre la edad en días y el peso en gramos, en perdices(Notoprocta perdicaria)
y = 2,4721x + 16,311
050
100150200250300350400
0 50 100 150
días de edad
pe
so
en
gra
mo
sRelación entre la edad en días y el peso en gramos, en perdices(Notoprocta perdicaria)
Pautas para utilizar la ecuación de regresión Una ecuación de regresión basada
en datos viejos no necesariamente sigue siendo válida en el presente
No se deben efectuar predicciones para una población diferente de aquella desde la cual se extrajo la muestra de datos.
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8
valores de X
va
lore
s d
e Y
Promedio de Y
Desviación totalY- Y
Y= b0+b1X^
Desviación explicada
Y-Y^
Desviación no explicada
Y-Y^
Error estándar de la regresión
El error estándar de una regresión lineal es una medida de la desviación de los puntos de datos a partir de la línea de regresión
2
)( 2
n
yyEEregresión
Error estándar de la regresión Fórmula equivalente:
210
2
n
XYbYbYEEregresión
estatura (pulgadas) peso (libras) XY53 80 4240,0
67,5 344 23220,072 416 29952,072 348 25056,0
73,5 262 19257,068,5 360 24660,073 332 24236,037 34 1258,0
suma 516,5 2176 151879
suma2 34525,75 728520
b0b1
error estándar
-351,669,66
66,60
Error estándar de la regresiónEjemplo de cálculo
Error de los estimadores b0 y b1
También es posible determinar un error estándar para la pendiente y para la constante, de modo que es posible construir intervalos de confianza para estos estimadores.
Error de los estimadores b0 y b1
Al calcular el intervalo de confianza de una probabilidad dada (ej.95%) para la pendiente de la recta, es posible comprobar directamente la hipótesis nula respecto de este estimador:
H0: la pendiente es igual a cero
HA: la pendiente es distinta de cero
Error de los estimadores b0 y b1
Si con un nivel de probabilidad predeterminado se puede decir que la pendiente de una ecuación de regresión lineal es diferente de cero, entonces la regresión puede considerarse significativa (significativamente diferente de cero)
Error de los estimadores b0 y b1
Al ser diferente de cero, la pendiente indica una relación “real” entre la variable X y la variable Y.
Puede interpretarse como “un efecto significativo” de la varianza de X sobre la varianza de Y
y = -0,0882x + 733,72
R2 = 0,0213
480
530
580
630
680
730
780
830
350 400 450 500 550 600 650 700 750 800 850
notas Enseñanza Media
Pu
nta
je P
AA
Mat
emát
icas
y = -3,6081x + 7863,3
R2 = 0,1295
500
550
600
650
700
750
800
1970 1975 1980 1985 1990 1995 2000 2005
año de egreso de la enseñanza media
pu
nta
je e
n la
PA
A M
ate
má
tic
as
Resumen
Estadísticas de la regresiónCoeficiente de correlación múltiple0,359927926Coeficiente de determinación R 2̂0,129548112R 2̂ ajustado 0,128722256Error típico 46,13564205Observaciones 1056
ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F
Regresión 1 333887,427 333887,427 156,865315 1,1939E-33Residuos 1054 2243436,33 2128,49747Total 1055 2577323,76
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Intercepción 7863,250796 573,574772 13,7091992 1,7529E-39 6737,77284 8988,72875Agno Egreso -3,608128092 0,28808357 -12,5245884 1,1939E-33 -4,17341045 -3,04284573
Coeficiente de determinación
Al elevar al cuadrado el coeficiente de correlación lineal de Pearson se obtiene el COEFICIENTE DE DETERMINACIÓN, que indica, en proporción, la magnitud de la varianza total de Y que es explicada por la varianza de X