Regresión lineal en spss para ciencias agrarias y forestales

84

Transcript of Regresión lineal en spss para ciencias agrarias y forestales

Correlación y Regresión

Marcelo Rodríguez, MScIngeniero Estadístico

Universidad Católica del Maule

Facultad de Ciencias Básicas

Diseño de Experimentos y Modelos de Regresión lineal: Aplicaciones en SPSS.MÓDULO 5 y 6

26 de noviembre de 2010

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 1 / 84

Introducción

Comúnmente, cuando se realiza un estudio estadístico, se miden a unamisma unidad de análisis, más de una variable.

De�nición (Variable Dependiente)

Es la variable por predecir (o por modelar) y se denota con la letra Y .

De�nición (Variable Independiente)

Son las variables que se utilizan para predecir y se denota con la letra X.

De�nición (Relación entre variables)

Se dice que dos variables están relacionadas, si cambios producidos (causa)en la variable independiente producen un efecto en la variable dependiente.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 2 / 84

Relación entre las variables

De�nición (Covarianza)

La covarianza entre dos variables cuantitativas, nos indica si la posiblerelación entre dos variables es directa o inversa. La covarianza muestral secalcula de la siguiente manera:

covxy =

n∑i=1

(xi − x)(yi − y)

n− 1=

Sxyn− 1

Si la covarianza es negativa, entonces la relación es inversa.

Si la covarianza es positiva, entonces la relación es directa.

Si la covarianza es cero, entonces la relación es nula (no relacionados).

El signo de la covarianza nos dice si el aspecto de la nube de puntos escreciente o no, pero no nos dice nada sobre el grado de relación entre lasvariables.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 3 / 84

Relación entre las variables

Ejemplo

Considere un estudio donde se mide el DAP (X) en centímetros y la Altura(Y ) en metros. Se considera una muestra de 10 árboles, los datos son:

DAP (xi) Altura (yi) (xi − x) (yi − y) (xi − x)(xi − x)15,6 17,4 2,05 0,75 1,537514,8 18,4 1,25 1,75 2,187515,5 16,5 1,95 -0,15 -0,292512,5 15,2 -1,05 -1,45 1,522514,2 19,9 0,65 3,25 2,112515,7 22,1 2,15 5,45 11,717512,3 14,8 -1,25 -1,85 2,312514,2 17,3 0,65 0,65 0,42258,8 10,3 -4,75 -6,35 30,162511,9 14,6 -1,65 -2,05 3,3825

Promedio 13,55 16,65 Suma 55,065

La covarianza sería covxy =55,065

9 = 6, 118. Lo que indica es que el DAC yla altura están relacionados, de forma directa (a medida que aumenta elDAP aumenta la altura).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 4 / 84

Grado de relación entre las variablesCoe�ciente de correlación de Pearson

De�nición (Correlación)

El coe�ciente de correlación de Pearson, indica la fuerza y la dirección deuna relación lineal entre dos variables aleatorias. Se considera que dosvariables cuantitativas están correlacionadas cuando los valores de una deellas varían sistemáticamente con respecto a los valores de la otra.

r =

n∑i=1

(xi − x)(yi − y)√√√√ n∑i=1

(xi − x)2 ·n∑i=1

(yi − y)2=

Sxy√SxxSyy

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 5 / 84

Grado de relación entre las variablesCoe�ciente de correlación de Pearson

Indica si los puntos tienen una tendencia a disponerse alineadamente(excluyendo rectas horizontales y verticales). Es útil para determinar sihay relación lineal (y = β0 + β1 · x) entre dos variables.Tiene el mismo signo que Covxy. La diferencia radica en que r estáacotado en [−1, 1].Si está cercana a -1, indica que las variables están relacionadas enforma inversa, si está cercana a +1, la relación es directa y si estácercana a 0, las variables no están relacionadas.Cuanto más cerca esté r de −1 o +1 mejor será el grado de relaciónlineal. Siempre que no existan observaciones atípicas.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 6 / 84

Grado de relación entre las variablesCoe�ciente de correlación de Pearson

Ejemplo

Con los datos anteriores, calcule e interprete la correlación.

DAP (xi) Altura (yi) (xi − x)2 (yi − y)215,6 17,4 4,2025 0,562514,8 18,4 1,5625 3,062515,5 16,5 3,8025 0,022512,5 15,2 1,1025 2,102514,2 19,9 0,4225 10,562515,7 22,1 4,6225 29,702512,3 14,8 1,5625 3,422514,2 17,3 0,4225 0,42258,8 10,3 22,5625 40,322511,9 14,6 2,7225 4,2025

Promedio 13,55 16,65 Suma 42,985 94,385

La correlación sería r = 55,065√42,985·94,385 = 0, 865. Lo que indica es que el

DAC y la altura están relacionados, de forma directa casi perfecta (rcercana a 1).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 7 / 84

Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signi�cativa

Para probar la hipótesis de que la correlación es signi�cativamente distinta(mayor o menor) que cero, se debe seguí el siguiente procedimiento.Comúnmente cuando el valor−p es menor que 0,05 se dice que essigni�cativa, si es menor que 0,01 es altamente signi�cativa.

Estadística de prueba: tc =r ·√n− 2√

1− r2

Hip. Nula Hip. Alternativa Rechace H0 si Valor−pH0 : ρ = 0 H1 : ρ 6= 0 |tc| > t1−α/2(n− 2) 2[1− P(T < |tc|)]H0 : ρ = 0 H1 : ρ > 0 tc > t1−α(n− 2) 1− P(T < |tc|)H0 : ρ = 0 H1 : ρ < 0 tc < −t1−α(n− 2) 1− P(T < |tc|)

T se distribuye t−student con n− 2 grados de libertad.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 8 / 84

Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signi�cativa

Ejemplo

Pruebe la hipótesis de que la correlación es signi�cativa.

Hipótesis: H0 : ρ = 0 v/s H1 : ρ 6= 0

Estadístico de prueba: tc =0, 865 ·

√8√

1− 0, 8652= 4, 865.

Región de Rechazo: Si α = 0, 05. Entonces rechace H0, si|tc| > t0,975(8) = 2, 306.

Signi�cancia:valor−p = 2[1− P(T < |4, 865|)] ∼= 2[1− 0, 99925] = 0, 0015

Conclusión: Como |tc| = 4, 865 > 2, 306 o equivalentementevalor−p < 0, 05. Entonces, existe su�ciente evidencia muestral paraa�rmar que el DAP y la altura están signi�cativamente correlacionadas(en rigor estricto es altamente signi�cativa, pues el valor−p < 0, 01).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 9 / 84

Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signi�cativa en SPSS

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 10 / 84

Grado de relación entre las variablesPrueba de hipótesis para probar si la correlación es signi�cativa en SPSS

AlturaDAP

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

DAP

Altura

1010

,001

1,865**

1010

,001

,865**

1

Correlaciones

**. La correlación es significativa al nivel 0,01 (bilateral).

Página 1

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 11 / 84

Regresión Lineal SimpleIntroducción

(Regresión Lineal Simple)

El término regresión fue introducido por Galton en su libro �Naturalinheritance� (1889) re�riéndose a la �ley de la regresión universal�.

Se supone que se tiene una muestra (x1, y1), (x2, y2), . . . , (xn, yn)correspondiente a la observación conjunta de las variables X e Y .

El objetivo será encontrar una relación entre ambas variables, estarelación podría estar dada por una recta (ecuación de regresión:y = β0 + β0 · x).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 12 / 84

Regresión Lineal SimpleDiagrama de dispersión

En un diagrama de dispersión, cada unidad de análisis es un punto cuyascoordenadas son los valores de las variables. El error aleatorio; ε son lasdesviaciones de los verdaderos valores de Y con respecto a los valoresestimados y (recta).

Resultados creados

Comentarios

Datos

Conjunto de datos activo

Filtro

Peso

Segmentar archivo

Núm. de filas del archivo de trabajo

Sintaxis

Tiempo de procesador

Tiempo transcurrido

Entrada

Recursos

00:00:00,530

00:00:00,500

GRAPH /SCATTERPLOT(BIVAR)=DAP WITH Altura /MISSING=LISTWISE.

10

<ninguno>

<ninguno>

<ninguno>

Conjunto_de_datos1

D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\eje_corr.sav

19-nov-2010 13:31:28

Notas

[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental

 y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac

ión y Regresión Lineal Simple)\datos\eje_corr.sav

DAP

161412108

Alt

ura

22

20

18

16

14

12

10 R2 Lineal = 0,747

Página 3

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 13 / 84

Regresión Lineal SimpleLa ecuación de regresión

La ecuación de predicción esperada está dada por

y = β0 + β1 · x.

Donde, las estimaciones de los parámetros β1 y β0 son:

β1 =SxySxx

; y β0 = y − β1x

Intercepto (β0): es la estimación de y cuando x = 0.

Pendiente (β1): es la estimación de la pendiente de la recta (magnituddel incremento (o decremento) de y por cada unidad de incremento enx.)

Además, se de�ne el coe�ciente de determinación r2, como el porcentajede la variabilidad total que explica el modelo.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 14 / 84

Regresión Lineal SimpleLa ecuación de regresión

Ejemplo

Considerando los datos del problema anterior, encuentre la ecuación deregresión entre el DAP y la altura.La ecuación de predicción esperada está dada por

y = β0 + β1x,

Altura = β0 + β1 · DAP,

Donde, las estimaciones de los parámetros β1 y β0 son:

β1 =55, 065

42, 985= 1, 281; y β0 = 16, 65− 1, 281 · 13, 55 = −0, 708.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 15 / 84

Regresión Lineal SimpleLa ecuación de regresión

Ejemplo

Entonces, la ecuación sería:

Altura = −0, 708 + 1, 281 · DAP,

Pendiente: Por cada centímetro que se incrementa el DAP, la altura seincrementa en 1,281 metros.

Intercepto: Un árbol con un DAP muy pequeño (0), se estima que suAltura será de -0,708. En este caso no tiene sentido.

Esta recta, puede servir para predecir, suponga que tiene un árbol con unDAP=8cm, entonces se estima que su altura sería deAltura = −0, 708 + 1, 281 · 8 = 9, 54 metros.Además el porcentaje de la variabilidad total que explica el modelo es de74,7% (r2 = 0, 8652 = 0, 747).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 16 / 84

Regresión Lineal SimplePrueba de hipótesis para la pendiente

Para probar la hipótesis de que la pendiente es signi�cativamente distinta(mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al serla pendiente distinta de cero, esto indicaría que las variables estánrelacionadas.

Estadística de prueba: tc =β1 ·√Sxx

se

Hip. Nula Hip. Alternativa Rechace H0 si Valor−pH0 : β1 = 0 H1 : β1 6= 0 |tc| > t1−α/2(n− 2) 2[1− P(T < |tc|)]H0 : β1 = 0 H1 : β1 > 0 tc > t1−α(n− 2) 1− P(T < |tc|)H0 : β1 = 0 H1 : β1 < 0 tc < −t1−α(n− 2) 1− P(T < |tc|)

T se distribuye t−student con n− 2 grados de libertad. Además

sε =√∑n

i=1(yi−yi)2n−2 =

√Syy−β1Sxy

n−2 es la desviación estándar del error,también llamado, error estándar (típico) de la estimación.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 17 / 84

Regresión Lineal SimplePrueba de hipótesis para la pendiente

Ejemplo

Pruebe la hipótesis de que la pendiente es distinta de cero.

Hipótesis: H0 : β1 = 0 v/s H1 : β1 6= 0

Estadístico de prueba: tc =1, 281 ·

√42, 985

1, 726= 4, 865.

Región de Rechazo: Si α = 0, 05. Entonces rechace H0, si|tc| > t0,975(8) = 2, 306.

Signi�cancia:valor−p = 2[1− P(T < |4, 865|)] ∼= 2[1− 0, 99925] = 0, 0015

Conclusión: Como |tc| = 4, 865 > 2, 306 o equivalentementevalor−p < 0, 05. Entonces, existe su�ciente evidencia muestral paraa�rmar que el DAP y la altura están signi�cativamente relacionadas.(Esta prueba es equivalente a la prueba de hipótesis para lacorrelación).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 18 / 84

Regresión Lineal SimpleRegresión Lineal Simple en SPSS

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 19 / 84

Regresión Lineal SimpleRegresión Lineal Simple en SPSS

[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental

 y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac

ión y Regresión Lineal Simple)\datos\eje_corr.sav

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 1,726,716,747,865a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), DAP

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

DAP

1

,0014,865,865,2631,281

,849-,1963,610-,708

ModeloModelo

Coeficientesa

a. Variable dependiente: Altura

Página 1

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 20 / 84

RegresiónEstimación curvilínea: Modelo Exponencial

Un modelo de regresión se dice que es exponencial si

y = β0 · exp[β1 · x]Por ejemplo, considere el problema donde se mide el DAP=X y elVolumen=Y. Los datos y la grá�ca son:

DAP=X Volumen=Y16,9 ,1178,9 ,02517,7 ,1312,1 ,00111,5 ,03719,9 ,1986,2 ,01217,1 ,12714,7 ,08918,6 ,167

b1Constante

Estimaciones de los parámetros

Exponencial ,266,001

EcuaciónEcuación

Resumen del modelo y estimaciones de los parámetros

La variable independiente esDAP.

Variable dependiente:Volumen

DAP

20,015,010,05,00,0

0,200

0,150

0,100

0,050

0,000

Volumen

Página 8

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 21 / 84

RegresiónEstimación curvilínea: Modelo Exponencial

(Modelo exponencial)

El modelo exponencial, se puede solucionar mediante una regresiónlineal simple.

Aplicar el logaritmo natural a la ecuación

y = β0 · exp[β1 · x]

.

Tendríamosw = ln[y] = ln[β0] + β1 · x

.

Encuentre la ecuación de regresión lineal simple entre X y W .

Luego se debe aplicar la exponencial a w para despejar y.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 22 / 84

RegresiónEstimación curvilínea: Modelo Exponencial

Ejemplo

Para los datos de DAP= X y Volumen= Y, encuentre la ecuación deregresión y = β0 · exp[β1 · x]. Considere lo siguiente:

DAP=X Volumen=Y W = ln[Y ]16,9 0,117 -2,14568,9 0,025 -3,688917,7 0,131 -2,03262,1 0,001 -6,907811,5 0,037 -3,296819,9 0,198 -1,61956,2 0,012 -4,422817,1 0,127 -2,063614,7 0,089 -2,419118,6 0,167 -1,7898

La ecuación de regresión entre X y W esw = −6, 588 + 0, 266x.

Además el r2xw = 0, 934.

Aplicando la exponencial y considerandoque w = ln[y], tenemosy = exp[−6, 588] exp[0, 266x]y = 0, 001 exp[0, 266x].

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 23 / 84

RegresiónEstimación curvilínea: Modelo Exponencial

Ejemplo

También podemos encontrar la ecuación de regresión lineal simpleentre X e Y. La cual sería, y = −0, 055 + 0, 011x, con r2xy = 0, 890.

El modelo exponencial es y = 0, 001 exp[0, 266x], con r2xw = 0, 934.

En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Siutilizamos estos dos modelos para predecir el volumen de un árbol conDAP=14,7, tenemos

Con el modelo de regresión lineal simple:

y = −0, 055 + 0, 011 · 14, 7 = 0, 105.Con el modelo exponencial:

y = 0, 001 exp[0, 266 · 14, 7] = 0, 068.

Ambas estimaciones del volumen están cercanas a 0, 089, pero la delmodelo exponencial (0,068), está más cercana. Además, el r2 delmodelo exponencial está más cercano al 100%.

En conclusión, entre estos dos modelos el mejor es el [email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 24 / 84

RegresiónEstimación curvilínea: Modelo Exponencial en SPSS

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 25 / 84

RegresiónEstimación curvilínea: Modelo Exponencial en SPSS

Sig.gl2gl1FR cuadrado b1Constante

Estimaciones de los parámetrosResumen del modelo

Lineal

Exponencial ,266,001,00081112,799,934

,011-,055,0008164,951,890

EcuaciónEcuación

Resumen del modelo y estimaciones de los parámetros

La variable independiente esDAP.

Variable dependiente:Volumen

DAP

20,015,010,05,00,0

0,200

0,150

0,100

0,050

0,000

Volumen

ExponencialLinealObservado

Página [email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 26 / 84

RegresiónEstimación curvilínea: Algunos modelos clásicos

Modelo Ecuación Comentario

Lineal y = β0 + β1 · x Este modelo ya se analizó con todo detalle.Logarítmico y = β0 + β1 · ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y.

Luego, en la ecuación y = β0 + β1 · t, reemplace t por ln[x].

Inverso y = β0 + β1 ·1

xCalcule T = 1

X , encuentre la ecuación de regresión lineal entre T e Y.

Luego, en la ecuación y = β0 + β1 · t, reemplace t por 1x .

Cuadrático y = β0 + β1 · x+ β2 · x2 Calcule X2 y realice una regresión múltiple.Cúbico y = β0 + β1 · x+ β2 · x2 + β3 · x3 Calcule X2, X3 y realice una regresión múltiple.Potencia Calcule T = ln[X],W = ln[Y ]. Encuentre la ecuación de regresión entre

y = β0 · xβ1 T y W . En la ecuación w = b+m · t, reemplace t = ln[x] y w = ln[y].

Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = m.

Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W .y = β0 · β1

xEn la ecuación w = b+m · x, reemplace w = ln[y]. Luego despeje y.Entonces, los parámetros serían β0 = exp[b] y β1 = exp[m].

G Calcule T = 1X ,W = ln[Y ]. Encuentre la ecuación de regresión entre

y = exp

[β0 + β1 ·

1

x

]T y W . En la ecuación w = b+m · t, reemplace t = 1

x y w = ln[y].

Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m.

Logística y =1

(β0 + β1 · βx2 )Solución por sistemas no lineales. Ingresar n◦ máx. de iteraciones, usar 1000.

Crecimiento Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W.y = exp[β0 + β1 · x] En la ecuación w = b+m · x, reemplace w = ln[y]. Luego despeje y.

Entonces, los parámetros serían β0 = b y β1 = m.

Exponencial y = β0 · exp[β1 · x] Este modelo ya se analizó con todo detalle.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 27 / 84

RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS

Encontraremos todos losmodelos de regresión quepropone SPSS.

Un modelo es bueno si elvalor−p < 0, 05.

El mejor modelo es el que tieneel menor valor−p, mayor r2,mayor F y menor número deparámetros.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 28 / 84

RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 29 / 84

RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS

Lineal: V olumen = −0, 055 + 0, 011 ·DAP, r2 = 89, 0%.

Inversa: V olumen = 0, 130− 0, 338 · 1

DAP, r2 = 41, 3%.

Potencia: V olumen = 0, 000166 ·DAP 2,329, r2 = 99, 5%.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 30 / 84

RegresiónEstimación curvilínea: Algunos modelos clásicos en SPSS

Lineal: V olumen = −0, 055 + 0, 011 ·DAP, r2 = 89, 0%.

Inversa: V olumen = 0, 130− 0, 338 · 1

DAP, r2 = 41, 3%.

Potencia: V olumen = 0, 000166 ·DAP 2,329, r2 = 99, 5%.

DAP

20,015,010,05,00,0

0,200

0,150

0,100

0,050

0,000

Volumen

PotenciaInversoLinealObservado

Página 20

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 31 / 84

Regresión Lineal MúltipleIntroducción

Arena

50,045,0

40,035,0

30,0

Índ

ice

de

siti

o

28,0

26,0

24,0

22,0

20,0

18,0

Densidad 1,501,45

1,401,35

1,301,25

1,20

REGRESSION

  /MISSING LISTWISE

  /STATISTICS COEFF OUTS R ANOVA

  /CRITERIA=PIN(.05) POUT(.10)

  /NOORIGIN

  /DEPENDENT IS

  /METHOD=ENTER Arena Densidad.

Regresión

Página 8

Técnica de dependencia que puedeutilizarse para analizar la relación entreuna única variable dependiente (Y ) yvarias variables independientes x1, x2,. . . , xk.

Cada variable independiente esponderada (βj), de forma que lasponderaciones indican su contribuciónrelativa a la predicción conjunta.

El objetivo es usar las variablesindependientes cuyos valores sonconocidos para predecir la únicavariable dependiente seleccionada porel investigador.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 32 / 84

Regresión Lineal MúltipleEl modelo lineal general

El modelo de regresión lineal sería

yi = β0 + β1 · xi1 + β2 · xi2, . . . , βk · xik + εi.

Donde

Y =

y1y2...yn

, X =

1 x11 x12 . . . x1n1 x21 x22 . . . x2k...

......

...1 xn1 xn2 . . . xnk

, β =

β0β1...βk

, ε =

ε1ε2...εn

,

βj , son los parámetros desconocidos, j = 1, . . . , k. El n◦ total deparámetros es p = k + 1.

εi es el i−ésimo error aleatorio asociado con yi, i = 1, . . . , n.

El objetivo es estimar βj , a esta estimación la llamaremos βj .

La estimación se los parámetros sería β = (XTX)−1XTY. Entoncesel modelo estimado sería yi = β0 + β1 · xi1 + β2 · xi2, . . . , βk · xik.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 33 / 84

Regresión Lineal MúltipleEjemplo de estimación de los parámetros.

Ejemplo

Se desea conocer la tasa de crecimiento de un cultivo bajo diferentescondiciones de sitio y manejo. En el caso del Eucaliptus Globulus esprácticamente desconocida, es por ello que se toman muestras de suelo decada rodal, midiendo el y = índice de sitio (altura promedio alcanzadapor árboles dominantes a una edad determinada), x1 = % de arena, x2 =% de arcilla y la x3 = densidad aparente (gr/cc).

Índice de sitio (y) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2% Arena (x1) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2% Arcilla (x2) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5Densidad (x3) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 34 / 84

Regresión Lineal MúltipleEjemplo de estimación de los parámetros.

Se propone el siguiente modelo

y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + ε.

Se desea estimar los parámetros del modelo (βj). Por ejemplo, si laestimación del parámetro β2 es muy cercano a 0, quiere decir que el %de arcilla (x2) no in�uye en la predicción del índice de sitio (y).

Los parámetros estimados serían:β0 = 43, 037, β1 = 0, 121, β2 = −0, 066, y β3 = −16, 604.Entonces el modelo estimado sería

y = 43, 037 + 0, 121 · x1 − 0, 066 · x2 − 16, 604 · x3.

Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 35 / 84

Regresión Lineal MúltiplePrueba de hipótesis para los parámetros.

(Prueba de hipótesis para los parámetros del modelo)

Hipótesis:H0 : β0 = β1 = · · · = βk = 0 v/s H1 : βj 6= 0, para algún j.

Estadístico de prueba:

Modelo Suma de Grados de Media Fccuadrados libertad cuadrática

Regresiónn∑i=1

(yi − y)2 p− 1SCReg(p− 1)

MCRegMCRes

Residualn∑i=1

(yi − yi)2 n− p SCRes(n− p)

Totaln∑i=1

(yi − y)2 n− 1

Región de rechazo: Rechace H0 si Fc > F1−α(p− 1, n− p).Signi�cancia: Valor-p = 1− P(F < Fc). Donde F se distribuyeFisher con p− 1 y n− p grados de libertad.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 36 / 84

Regresión Lineal MúltipleEjemplo de estimación de los parámetros.

Para veri�car si las variables independientes (xj) tienen un aportesigni�cativo en la predicción del Índice de sitio (y), debe probar:H0 : β0 = β1 = β2 = β3 = 0 v/s H1 : βj 6= 0, para algún j.

Obser. y y (yi − y)2 (yi − y)2 (yi − yi)21 25,4 24,268 4,703 1,075 1,2822 24,0 24,202 0,591 0,942 0,0413 22,9 23,758 0,110 0,278 0,7364 25,3 25,007 4,280 3,154 0,0865 21,4 22,296 3,353 0,874 0,8036 24,5 24,448 1,610 1,480 0,0037 22,1 23,745 1,280 0,264 2,7078 19,6 19,854 13,186 11,402 0,0659 26,9 26,161 13,460 8,582 0,54610 24,0 23,722 0,591 0,241 0,07711 20,3 21,906 8,592 1,757 2,57812 23,6 21,554 0,136 2,814 4,18713 23,4 21,825 0,028 1,977 2,48014 24,0 24,692 0,591 2,134 0,47915 23,1 22,338 0,017 0,797 0,58016 21,2 21,923 4,126 1,710 0,523

Suma 371,700 371,700 56,654 39,481 17,173

Modelo Suma de Grados de Media Fccuadrados libertad cuadrática

Regresión 39,481 3 13,160 9,196Residual 17,173 12 1,431Total 56,654 15

Si α = 0, 05. Rechace H0 siFc > F0,95(3, 12) = 3, 49.

El valor−p = 0, 002.

R2 = 39,48156,654 = 0, 697.

Entonces, se rechaza H0, enfavor de H1.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 37 / 84

Regresión Lineal MúltipleBondad de ajuste

(Coe�ciente de Determinación (R2))

Expresa la proporción de varianza de la variable dependiente que estáexplicada por las variables independientes.

R2 =SCRegSCT

.

R2 corregida es una corrección a la baja de R2 que se basa en el númerode casos y de variables independientes:

R2correjida = R2 −

[k(1−R2)

(n− k + 1)

].

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 38 / 84

Regresión Lineal MúltipleBondad de ajuste

(Coe�ciente de correlación múltiple (R))

Es la raíz de R2. Si tenemos dos variables el Coe�ciente de correlaciónmúltiple es el valor absoluto del coe�ciente de correlación de Pearson, esdecir, R = |r|.

(Error (residuo) estándar de la estimación)

Es la desviación media que existe entre la variable dependiente y y suestimación y (el residuo es εi = yi − yi).

sε =

√√√√√√n∑i=1

(yi − yi)2

n− p=√MCRes.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 39 / 84

Regresión Lineal MúltiplePrueba de hipótesis para cada uno de los parámetros

Hipótesis: H0 : βj = 0 v/s H1 : βj 6= 0, para j = 0, 1, . . . , k.

Estadística de prueba: tc =βj

s(βj)

Hip. Nula Hip. Altern. Rechace H0 si Valor−pH0 : βj = 0 H1 : βj 6= 0 |tc| > t1−α/2(n− p) 2[1− P(T < |tc|)]H0 : βj = 0 H1 : βj > 0 tc > t1−α(n− p) 1− P(T < |tc|)H0 : βj = 0 H1 : βj < 0 tc < −t1−α(n− p) 1− P(T < |tc|)

T se distribuye t−student con n− p grados de libertad. Ademáss(βj) =

√cj+1 · sε, donde cj+1 es el elemento (j + 1) de la diagonal de

(XTX)−1.

Un intervalo de con�anza del 100(1− α)% para el parámetro βj es

βj ± t1−α/2(n− p) · s(βj)

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 40 / 84

Regresión Lineal MúltipleParámetros estandarizados (coe�cientes tipi�cados)

1 Los coe�cientes tipi�cados, se obtienen de la ecuación de regresióntras estandarizar las variables originales. Es decir, debe a cada variablerestarle su promedio y dividirlo por su desviación estándar, y luegoencontrar los parámetros de la ecuación de regresión con esas nuevasvariables.

2 Permiten valorar la importancia relativa de cada variable independientedentro de la ecuación. En general, una variable independiente tienetanto más peso (importancia) en la ecuación de regresión cuantomayor (en valor absoluto) es su coe�ciente de regresión estandarizado.

3 Indican la cantidad de cambio, en puntuaciones estándar, que seproducirá en la variable dependiente por cada cambio de una unidaden la correspondiente variable independiente (manteniendo constantesel resto de variables independientes).

4 En regresión simple, el coe�ciente estandarizado, coincide con elcoe�ciente de correlación de Pearson.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 41 / 84

Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 42 / 84

Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS

MétodoVariables

eliminadasVariables

introducidas

1 Introducir.Densidad, Arena, Arcilla

a

ModeloModelo

Variables introducidas/eliminadasb

a. Todas las variables solicitadas introducidas.

b. Variable dependiente: Índice de sitio

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 1,1963,621,697,835a

ModeloModelo

Resumen del modelob

a. Variables predictoras: (Constante), Densidad, Arena, Arcilla

b. Variable dependiente: Índice de sitio

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

1556,654

1,4311217,173

,002a

9,19613,160339,481

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), Densidad, Arena, Arcilla

b. Variable dependiente: Índice de sitio

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Arena

Arcilla

Densidad

1

,000-4,734-,7533,507-16,604

,360-,953-,168,069-,066

,1671,473,259,082,121

,0006,1177,03643,037

ModeloModelo

Coeficientesa

a. Variable dependiente: Índice de sitio

Página 2

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 43 / 84

Regresión Lineal MúltipleRegresión Lineal Múltiple en SPSS

No existe su�ciente evidencia muestral, para a�rmar que el % de arena(t = 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953,valor−p = 0, 360), in�uyen en la estimación del índice de sitio.

La muestra proporciona evidencia para a�rmar que la densidad incideen la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000).

La relación entre la densidad y el índice de sitios es inversa (signo delestadístico de prueba).

Según los coe�cientes estadarizados, la variable independiente másimportante en la predicción del índice de sitios, es la densidad, luego elporcentaje de arena y por último el porcentaje de arcilla.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 44 / 84

Regresión Lineal MúltipleCorrelaciones parciales y semiparciales

(Correlaciones parciales)

Es la correlación lineal entre dos variables mientras se mantienen constantesotras variables. En el contexto del análisis de regresión, los coe�cientes decorrelación parcial expresan el grado de relación existente entre cadavariable independiente y la variable dependiente tras eliminar de ambas elefecto debido al resto de variables independientes incluidas en la ecuación.El coe�ciente de correlación parcial de primer orden, anotado aquí rAB/C ,permite conocer el valor de la correlación entre dos variables A y B, si lavariable C había permanecido constante para la serie de observacionesconsideradas.

rAB/C =rAB − rAC · rBC√1− r2AC ·

√1− r2BC

.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 45 / 84

Regresión Lineal MúltiplePuntos de in�uencia

La distancia de Cook (1977) mide el cambio que se produce en lasestimaciones de los coe�cientes de regresión al ir eliminando cada caso dela ecuación de regresión. Una distancia de Cook grande indica que ese casotiene un peso considerable en la estimación de los coe�cientes de regresión.Para evaluar estas distancias puede utilizarse la distribución F con p yn− p grados de libertad. En general, un caso con una distancia de Cooksuperior a 1 debe ser revisado.

Di =

n∑j=1

[yj − yj(i)

]2p ·MCRes

.

Donde yj(i), es una estimación sin considerar el dato i−ésimo.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 46 / 84

Regresión Lineal MúltipleDistancia de Cook en SPSS

En la base de datos, quedaránguardas las distancias, luego se debehacer un grá�co de dispersión en-tre las observaciones y las distancias.

Observación

16151413121110987654321

Co

ok'

s D

ista

nce

1,25000

1,00000

0,75000

0,50000

0,25000

0,00000

SAVE OUTFILE='D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Mode

los de Regresión '+

    'Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lin

eal '+

    'Simple)\datos\eje_reg_mult_indice de sitio.sav'

 /COMPRESSED.

Página 8

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 47 / 84

Regresión Lineal MúltipleSupuestos del Modelo

(Supuestos del Modelo de Regresión)

Los supuestos de un modelo estadístico se re�eren a una serie decondiciones que deben darse para garantizar la validez del modelo.

Linealidad: La variable dependiente es la suma de un conjunto deelementos: el origen de la recta, una combinación lineal de variablesindependientes y los residuos.

Independencia: Los residuos son independientes entre sí.

Homocedasticidad: Para cada valor de la variable independiente, lavarianza de los residuos es constante.

Normalidad: Para cada valor de la variable independiente, losresiduos se distribuyen normalmente con media cero.

No-colinealidad: No existe relación lineal exacta entre ninguna de lasvariables independientes.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 48 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Linealidad

Los diagramas de regresión parcialpermiten examinar la relación exis-tente entre la variable dependiente ycada una de las variables independi-entes por separado, tras eliminar deellas el efecto del resto de las vari-ables independientes incluidas en elanálisis. Estos diagramas son sim-ilares a los de dispersión ya estu-diados, pero no están basados enlas puntuaciones originales de lasdos variables representadas, sino enlos residuos obtenidos al efectuar unanálisis de regresión con el resto delas variables independientes.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 49 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Linealidad

Por ejemplo, en el diagrama de regre-sión parcial de índice de sitio y densi-dad están representados los residuosque resultan de efectuar un análisisde regresión sobre índice de sitio in-cluyendo todas las variables indepen-dientes excepto densidad(y = β0 + β1x1 + β2x2), y losresiduos que resultan de efectuar unanálisis de regresión sobre densidadincluyendo el resto de variables in-dependientes (x3 = β3 + β4x1 +β5x2). Se tendrán tantos grá�coscomo variables independientes.

La relación entre densidad e índicede sitio tras eliminar el efectodel resto de variables independi-entes, es claramente lineal e inversa.

Densidad

0,200,100,00-0,10-0,20

Índ

ice

de

siti

o

4,0

2,0

0,0

-2,0

Gráfico de regresión parcial

Variable dependiente: Índice de sitio

Página 12

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 50 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Independencia

Para veri�car el supuesto de independencia entre los residuos εi = yi − yiuse el estadístico de Durbin-Watson (DW ), el cual está dado por:

DW =

n∑i=1

(εi − εi−1)2

n∑i=1

ε2i

.

El estadístico DW toma el valor 2 cuando los residuos sonindependientes, valores menores que 2 indican autocorrelación positivay los mayores que 2 autocorrelación negativa.

Podemos asumir independencia entre los residuos cuando DW tomavalores entre 1,5 y 2,5.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 51 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Linealidad

Como el estadístico de DW estáentre 1,5 y 2,5. No podemosrechazar la hipótesis de que losresiduos son independientes, esdecir no están auto correlacionados.

MétodoVariables

eliminadasVariables

introducidas

1 Introducir.Densidad, Arena, Arcilla

a

ModeloModelo

Variables introducidas/eliminadasb

a. Todas las variables solicitadas introducidas.

b. Variable dependiente: Índice de sitio

Durbin-Watson

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 2,2381,1963,621,697,835a

ModeloModelo

Resumen del modelob

a. Variables predictoras: (Constante), Densidad, Arena, Arcilla

b. Variable dependiente: Índice de sitio

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

1556,654

1,4311217,173

,002a

9,19613,160339,481

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), Densidad, Arena, Arcilla

b. Variable dependiente: Índice de sitio

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Arena

Arcilla

Densidad

1

,000-4,734-,7533,507-16,604

,360-,953-,168,069-,066

,1671,473,259,082,121

,0006,1177,03643,037

ModeloModelo

Coeficientesa

a. Variable dependiente: Índice de sitio

NDesviación

típicaMediaMáximoMínimo

Valor pronosticado

Residual

Valor pronosticado tip.

Residuo típ. 16,894,0001,710-1,375

161,000,0001,806-2,081

161,0700,00002,0461-1,6452

161,622423,23126,16119,854

Estadísticos sobre los residuosa

a. Variable dependiente: Índice de sitio

Página 14

Entonces se estaría cumpliendo essupuesto de independencia.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 52 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Normalidad

Los residuos (o los residuos tipi�-cados) deben cumplir el supuestode normalidad. El recuadro Grá�-cos de los residuos tipi�cados (es-tandarizados) contiene dos opcionesgrá�cas que informan sobre el gradoen el que los residuos tipi�cados seaproximan a una distribución normal:El histograma (debe ser simétrico)y el grá�co de probabilidad nor-mal (deben estar los puntos sobrela recta). También con los residuosse puede realizar una prueba de nor-malidad como Kolmogorov-Smirnov(n > 50) o Shapiro-Wilk (n ≤ 50).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 53 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Normalidad

Estos grá�cos indicaría, por lo menos en forma visual, que los residuos,tienden a distribuirse como la normal.Gráficos

Regresión Residuo tipificado

210-1-2

Fre

cuen

cia

4

3

2

1

0

Histograma

Variable dependiente: Índice de sitio

Media = -2,08E-16Desviación típica = 0,894N = 16

Página 4

Prob acum observada

1,00,80,60,40,20,0

Pro

b a

cum

esp

erad

a

1,0

0,8

0,6

0,4

0,2

0,0

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: Índice de sitio

Página 5

Esta a�rmación no es concluyente, por lo tanto se realizará una prueba dehipótesis.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 54 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Normalidad

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 55 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Normalidad

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 56 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Normalidad

No existe su�ciente evidencia muestral para rechazar que los residuos seencuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871).

Unstandardized Residual

3,00000

2,00000

1,00000

0,00000

-1,00000

-2,00000

EXAMINE VARIABLES=RES_1

  /PLOT BOXPLOT NPPLOT

  /COMPARE GROUPS

  /STATISTICS DESCRIPTIVES

  /CINTERVAL 95

  /MISSING LISTWISE

  /NOTOTAL.

Explorar

Página 16

PD: Si el n > 50, se puede utilizar KS, en este caso ambos estadísticos,nos indican que se cumple el supuesto de normalidad.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 57 / 84

Regresión Lineal MúltipleSupuestos del Modelo: Homocedasticidad

Comúnmente este supuesto se veri�ca mediante una grá�ca. Se debengra�car los valores pronosticados (ZPRED) con los valores residuales(ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos dehomocedasticidad.

Gráficos

Regresión Valor pronosticado tipificado

210-1-2-3

Reg

resi

ón

Res

idu

o t

ipif

icad

o

2

1

0

-1

-2

Gráfico de dispersión

Variable dependiente: Índice de sitio

Página 9

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 58 / 84

Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad

Existe colinealidad perfecta cuando una de las variables independientesse relaciona de forma perfectamente lineal con una o más del resto devariables independientes de la ecuación.Hablamos de colinealidad parcial o, simplemente, colinealidad, cuandoentre las variables independientes de una ecuación existencorrelaciones altas.En términos generales, cuantas más variables hay en una ecuación,más fácil es que exista colinealidad (aunque, en principio, bastan dosvariables).Es un problema porque, en el caso de colinealidad perfecta, no esposible estimar los coe�cientes de la ecuación de regresión; y en elcaso de colinealidad parcial, aumenta el tamaño de los residuostípi�cados y esto produce coe�cientes de regresión muy inestables:pequeños cambios en los datos (añadir o quitar un caso, por ejemplo)produce cambios muy grandes en los coe�cientes de regresión.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 59 / 84

Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad

El nivel de tolerancia de una variable se obtiene restando a 1 elcoe�ciente de determinación (R2) que resulta al regresar esa variablesobre el resto de variables independientes. Valores de tolerancia muypequeños indican que esa variable puede ser explicada por unacombinación lineal del resto de variables, lo cual signi�ca que existecolinealidad.

Los factores de in�ación de la varianza (FIV) son los inversos de losniveles de tolerancia. Cuanto mayor es el FIV de una variable, mayores la varianza del correspondiente coe�ciente de regresión. De ahí queuno de los problemas de la presencia de colinealidad (toleranciaspequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de loscoe�cientes de regresión.

Como regla se puede utilizar: Las variables independientes soncolineales si FIV> 10. Las variables que tienen FIV alto y parecidosestán altamente correlacionadas.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 60 / 84

Regresión Lineal MúltipleSupuestos del Modelo: No-colinealidad

Como los FVI's son menoresque 10, entonces se cumpleel supuesto de no-colinealidad.

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Arena

Arcilla

Densidad

1

,000-4,734-,7533,507-16,604

,360-,953-,168,069-,066

,1671,473,259,082,121

,0006,1177,03643,037

ModeloModelo

Coeficientesa

a. Variable dependiente: Índice de sitio

FIVTolerancia

Estadísticos de colinealidad

(Constante)

Arena

Arcilla

Densidad

1

1,0001,000

1,229,814

1,229,814

ModeloModelo

Coeficientesa

a. Variable dependiente: Índice de sitio

Índice de condiciónAutovalores DensidadArcillaArena(Constante)

Proporciones de la varianza

1

2

3

4

1

,58,25,37,9955,226,001

,41,24,53,0128,401,005

,00,51,10,0013,781,021

,00,00,00,001,0003,973

Modelo DimensiónModelo Dimensión

Diagnósticos de colinealidada

a. Variable dependiente: Índice de sitio

Página 3

Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño dela muestra; ii) crear indicadores múltiples combinando variables; iii) excluirvariables redundantes, quedándonos con las que consideremos másimportantes.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 61 / 84

Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresión

La regresión por pasos (stepwise) es una método para seleccionar lasvariables independientes que debe incluir un modelo de regresión. Seseleccionan de acuerdo al siguiente criterio estadístico.Criterio de entrada: El valor−p < 0, 05 y se debe seleccionar las variablescon menor valor−p en la ANOVA.Método Hacia adelante:

Las variables se incorporan al modelo de regresión una a una.

En el primer paso se selecciona la variable independiente que, ademásde superar los criterios de entrada, tiene la más alta correlación.

En los siguientes pasos se utiliza como criterio de selección elcoe�ciente de correlación parcial: van siendo seleccionadas una a unalas variables que, además de superar los criterios de entrada, poseen elcoe�ciente de correlación parcial más alto en valor absoluto.

La selección de variables se detiene cuando no quedan variables quesuperen el criterio de entrada.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 62 / 84

Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresión

En el ejemplo anterior, se realizarán todas las regresiones posible,identi�cando, las variables independientes, el R2, estadístico de prueba F, yel valor−p. El mejor modelo es el que tiene, menos variables, mayor R2,mayor F y menor valor−p.

Variables R2 F valor−px1 0,112 1,773 0,20427x2 0,711 1,072 0,31799x3 0,564 18,096 0,00080

x1, x2 0,131 0,978 0,40227x1, x3 0,674 13,436 0,00069

x2, x3 0,642 11,662 0,00126x1, x2, x3 0,697 9,196 0,00196

El mejor modelo sería y = β0 + β3 · x3.Aunque y = β0 + β1 · x1 + β3 · x3, también es un muy buen modelo.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 63 / 84

Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresión

Por defecto SPSS elige como elmejor modelo y = β0 + β3 · x3.

Sintaxis

Tiempo de procesador

Tiempo transcurrido

Memoria necesaria

Memoria adicional requerida para los diagramas de residuos

Recursos

0 bytes

1972 bytes

00:00:00,031

00:00:00,031

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT IS /METHOD=FORWARD Densidad Arena Arcilla.

Notas

[Conjunto_de_datos1] D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental

 y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlac

ión y Regresión Lineal Simple)\datos\eje_reg_mult_indice de sitio.sav

MétodoVariables

eliminadasVariables

introducidas

1 Hacia adelante (criterio: Prob. de F para entrar <= ,050)

.Densidad

ModeloModelo

Variables introducidas/eliminadasa

a. Variable dependiente: Índice de sitio

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 1,3286,533,564,751a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), Densidad

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

1556,654

1,7651424,712

,001a

18,09631,942131,942

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), Densidad

b. Variable dependiente: Índice de sitio

Página 30

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 64 / 84

Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresión

Para que coincida con los cálculos efectuados antes, debemos ser menosrestrictivos con el valor−p. Fíjese que la arena es signi�cativa para valoressuperiores a 0,056. Utilizaremos el valor de 0,06.

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Densidad

1

,001-4,254-,7513,894-16,566

,0008,5785,36245,999

ModeloModelo

Coeficientesa

a. Variable dependiente: Índice de sitio

Correlación parcialSig.tBeta dentro Tolerancia

Estadísticos de

colinealidad

Arena

Arcilla

1

1,000-,424,116-1,686-,280a

1,000,503,0562,096,332a

ModeloModelo

Variables excluidasb

a. Variables predictoras en el modelo: (Constante), Densidad

b. Variable dependiente: Índice de sitio

REGRESSION

  /MISSING LISTWISE

  /STATISTICS COEFF OUTS R ANOVA

  /CRITERIA=PIN(.06) POUT(.10)

  /NOORIGIN

  /DEPENDENT IS

  /METHOD=FORWARD Densidad Arena Arcilla.

Regresión

Página 31

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 65 / 84

Regresión Lineal MúltipleRegresión por pasos: Qué variables debe incluir la ecuación de regresión

Los resultados considerando la nueva con�guración, sería

MétodoVariables

eliminadasVariables

introducidas

1

2 Hacia adelante (criterio: Prob. de F para entrar <= ,060)

.Arena

Hacia adelante (criterio: Prob. de F para entrar <= ,060)

.Densidad

ModeloModelo

Variables introducidas/eliminadasa

a. Variable dependiente: Índice de sitio

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1

2 1,1920,624,674,821b

1,3286,533,564,751a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), Densidad

b. Variables predictoras: (Constante), Densidad, Arena

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

Regresión

Residual

Total

1

2

1556,654

1,4211318,472

,001b

13,43619,091238,182

1556,654

1,7651424,712

,001a

18,09631,942131,942

ModeloModelo

ANOVAc

a. Variables predictoras: (Constante), Densidad

b. Variables predictoras: (Constante), Densidad, Arena

c. Variable dependiente: Índice de sitio

Página 33

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Densidad

(Constante)

Densidad

Arena

1

2

,0562,096,332,074,155

,000-4,732-,7493,494-16,533

,0006,7825,78839,256

,001-4,254-,7513,894-16,566

,0008,5785,36245,999

ModeloModelo

Coeficientesa

a. Variable dependiente: Índice de sitio

Correlación parcialSig.tBeta dentro Tolerancia

Estadísticos de

colinealidad

Arena

Arcilla

Arcilla

1

2 ,814-,265,360-,953-,168b

1,000-,424,116-1,686-,280a

1,000,503,0562,096,332a

ModeloModelo

Variables excluidasc

a. Variables predictoras en el modelo: (Constante), Densidad

b. Variables predictoras en el modelo: (Constante), Densidad, Arena

c. Variable dependiente: Índice de sitio

Página 34

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 66 / 84

Regresión Lineal MúltipleCreación de Modelos: Regresión polinomial

(Polinomio de grado k)

Un polinomio de grado k, con una variable independiente, sería

y = β0 + β1 · x1 + β2 · x21 + β3 · x31 + . . .+ βk · xk1.

Basándonos en la regresión lineal múltiple, podemos ajustar cualquiermodelo lineal, por ejemplo un polinomio.Considerando el ejemplo anterior del DAP= x y Volumen= y,podemos ajustar el siguiente modelo:

y = β0 + β1 · x1 + β2 · x21Mediante la regresión curvilínea, ya encontramos la estimación de losparámetros. También podemos solucionar este problema con laregresión multiple. Basta tan solo crear una nueva variable x2 = x21.Luego se debe ajustar una regresión lineal múltiple.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 67 / 84

Regresión Lineal MúltipleCreación de Modelos: Regresión polinomial

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 68 / 84

Regresión Lineal MúltipleCreación de Modelos: Regresión polinomial

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 69 / 84

Regresión Lineal MúltipleCreación de Modelos: Regresión polinomial

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 70 / 84

Regresión Lineal MúltipleCreación de Modelos: Regresión polinomial

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 ,007777,987,990,995a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), DAP2, DAP

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

9,042

,0007,000

,000a

347,089,0212,042

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), DAP2, DAP

b. Variable dependiente: Volumen

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

DAP

DAP2

1

,0008,3601,555,000,001

,017-3,111-,579,002-,007

,1601,573,011,017

ModeloModelo

Coeficientesa

a. Variable dependiente: Volumen

Página 3

El modelo estimado sería

y = 0, 017− 0, 07x1 + 0, 01x21.

Estos cálculos coinciden losobtenidos anteriormente, con laregresión curvilínea. Con estametodología se podría ajustarcualquier polinomio.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 71 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con interacción

(Modelo de interacción de segundo orden)

Un Modelo de interacción de segundo orden, con dos variablesindependientes, sería

y = β0 + β1 · x1︸ ︷︷ ︸Efecto principal

+ β2 · x2︸ ︷︷ ︸Efecto principal

+ β3 · x1 · x2︸ ︷︷ ︸Interacción

.

Ejemplo

Considere un problema donde se mide a 16 plantas, la Biomasa Total (y),el DAC (x1) y la Altura (x2). Los datos son:DAC 2,64 2,92 2,72 2,63 2,77 2,83 2,63 2,62 2,89 2,62 2,17 2,17 1,89 3,25 3,64 2,82Altura 10,5 16,1 16,1 13,8 14,8 16,2 14,6 15,9 12,1 14,0 10,9 11,5 10,9 11,9 18,3 9,0BT 3,18 4,30 3,86 4,09 3,84 4,33 4,26 4,06 3,76 3,83 3,25 2,89 3,08 3,94 3,98 3,64

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 72 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con interacción

Primero ajustaremos un modelo sin interacción, los resultados son:

Regresión

Resultados creados

Comentarios

Datos

Conjunto de datos activo

Filtro

Peso

Segmentar archivo

Núm. de filas del archivo de trabajo

Definición de perdidos

Casos utilizados

Sintaxis

Tiempo de procesador

Tiempo transcurrido

Memoria necesaria

Memoria adicional requerida para los diagramas de residuos

Entrada

Tratamiento de los datos perdidos

Recursos

0 bytes

1652 bytes

00:00:00,000

00:00:00,000

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT BT /METHOD=ENTER DAC Altura.

Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas.

Los valores perdidos definidos por el usuario se tratarán como perdidos.

16

<ninguno>

<ninguno>

<ninguno>

Conjunto_de_datos1

D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\Modelo con interacción.sav

01-dic-2010 18:43:05

Notas

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 ,30397,537,599,774a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), Altura (cm), Diámetro a la altura del cuello (mm)

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

152,997

,092131,201

,003a

9,716,89821,795

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), Altura (cm), Diámetro a la altura del cuello (mm)

b. Variable dependiente: Biomasa Total

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Diámetro a la altura del cuello (mm)

Altura (cm)

1

,0212,620,534,035,091

,1091,721,351,221,380

,0162,778,5451,514

ModeloModelo

Coeficientesa

a. Variable dependiente: Biomasa Total

Página 1

R2 es de 59,9% y no existe evidenciamuestral para a�rmar que el DACaporta en la predicción de la Biomasa(t = 1, 721, valor−p=0,109). →←

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 73 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con interacción

Ahora ajustaremos el siguiente modelo con interacción:

Biomasa = β0 + β1 · DAC+ β2 · Altura+ β3 · DAC · Altura.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 74 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con interacción

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 75 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con interacción

El modelo estimado sería

Biomasa = −4, 594 + 2, 534 · DAC+ 0, 557 · Altura− 0, 162 · DAC · Altura

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 ,22443,748,798,893a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), DAC*Altura, Diámetro a la altura del cuello (mm), Altura (cm)

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

152,997

,05012,604

,000a

15,832,79732,392

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), DAC*Altura, Diámetro a la altura del cuello (mm), Altura (cm)

b. Variable dependiente: Biomasa Total

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Diámetro a la altura del cuello (mm)

Altura (cm)

DAC*Altura

1

,005-3,442-4,153,047-,162

,0024,0403,282,138,557

,0023,9192,338,6472,534

,027-2,5251,819-4,594

ModeloModelo

Coeficientesa

a. Variable dependiente: Biomasa Total

Página 2

El R2, considerando la inter-acción, ha mejorado, ahoraes de un 79,8%. Tanto elDAP (t = 3, 919, valor−p =0, 002) como la Altura (t =4, 040, valor−p = 0, 002) in-�uyen en la predicción de laBiomasa. Además existe unefecto conjunto entre el DAPy la Altura (t = −3, 442,valor−p = 0, 005).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 76 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con variables indicadoras

(Modelos con variables indicadoras)

Los modelos con variables indicadoras se utilizan cuando una de lasvariables independientes es cualitativa, la metodología trata de recodi�caresta variable en variables que tomen el valor 0 o 1 (ausencia o presencia deuna característica).

Ejemplo

Considere un problema donde se mide a 16 plantas, la Biomasa Total, elDAC y el origen (1=Central, 2=Precordillera y 3=valle central). Los datosson:DAC (x1) 2,64 2,92 2,72 2,63 2,77 2,83 2,63 2,62 2,89 2,62 2,17 2,17 1,89 3,25 3,64 2,82BT (y) 3,18 4,30 3,86 4,09 3,84 4,33 4,26 4,06 3,76 3,83 3,25 2,89 3,08 3,94 3,98 3,64Origen 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 77 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con variables indicadoras

Dado que se tienen tres orígenes, se de�nen dos variables indicadoras x2 yx3 tales, que

x2 =

{1, Si la semilla provenia de la Costa0, En otro caso.

x3 =

{1, Si la semilla provenia de la Precordillera0, En otro caso.

El modelo sería

y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + β4 · x1 · x2 + β5 · x1 · x3

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 78 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con variables indicadoras

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 79 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con variables indicadoras

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 80 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con variables indicadoras

Resultados creados

Comentarios

Datos

Conjunto de datos activo

Filtro

Peso

Segmentar archivo

Núm. de filas del archivo de trabajo

Definición de perdidos

Casos utilizados

Sintaxis

Tiempo de procesador

Tiempo transcurrido

Memoria necesaria

Memoria adicional requerida para los diagramas de residuos

Entrada

Tratamiento de los datos perdidos

Recursos

0 bytes

2748 bytes

00:00:00,000

00:00:00,000

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT BT /METHOD=ENTER DAC x2 x3 x1x2 x1x3.

Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas.

Los valores perdidos definidos por el usuario se tratarán como perdidos.

16

<ninguno>

<ninguno>

<ninguno>

Conjunto_de_datos1

D:\Archivos de Marcelo\Proyectos 2010\Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)\Módulo 5 ( Correlación y Regresión Lineal Simple)\datos\Modelo con interacción.sav

02-dic-2010 00:56:41

Notas

Error típ. de la estimación

R cuadrado corregidaR cuadradoR

1 ,30943,521,680,825a

ModeloModelo

Resumen del modelo

a. Variables predictoras: (Constante), x1x3, Diámetro a la altura del cuello (mm), x1x2, x3, x2

Sig.FMedia

cuadráticaglSuma de

cuadrados

Regresión

Residual

Total

1

152,997

,09610,957

,025a

4,260,40852,039

ModeloModelo

ANOVAb

a. Variables predictoras: (Constante), x1x3, Diámetro a la altura del cuello (mm), x1x2, x3, x2

b. Variable dependiente: Biomasa Total

Error típ.B Beta Sig.t

Coeficientes tipificadosCoeficientes no estandarizados

(Constante)

Diámetro a la altura del cuello (mm)

x2

x3

x1x2

x1x3

1

,468,7551,311,587,444

,2761,1514,4841,3281,529

,676-,431-,7541,564-,674

,318-1,050-4,0943,639-3,823

,0123,043,596,212,646

,0172,872,6011,726

ModeloModelo

Coeficientesa

a. Variable dependiente: Biomasa Total

Página 1

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 81 / 84

Regresión Lineal MúltipleCreación de Modelos: Modelo con variables indicadoras

Diámetro a la altura del cuello (mm)

4,003,503,002,502,001,50

Bio

mas

a T

ota

l

4,50

4,00

3,50

3,00

2,50

Valle centralPrecordilleraCostaValle centralPrecordilleraCosta

Origen

Costa;Costa: R2 Lineal = 0,372Precordillera;Precordillera: R2

Lineal = 0,483Valle central;Valle central: R 2

Lineal = 0,894

Página 7

Modelo para la costa(x2 = 1 y x3 = 0):y = (1, 726− 3, 823) + (1, 529 + 0, 646) · x1

= −2, 096 + 2, 175 · x1Modelo para la Precordillera(x2 = 0 y x3 = 1):y = (1, 726−, 674) + (0, 646 + 0, 444) · x1

= 1, 053 + 1, 090 · x1Modelo para la Valle central(x2 = 0 y x3 = 0):y = 1, 726 + 0, 646 · x1

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 82 / 84

Regresión Lineal MúltipleProceso de decisión para el análisis de regresión múltiple

Paso 1: Objetivos. El investigador debe considerar tres asuntosfundamentales: la conveniencia del programa de investigación, laespeci�cación de una relación estadística y la selección de las variablesdependientes e independientes.

Paso 2: Diseño de la investigación. El investigador debe considerarasuntos tales como el tamaño muestral, el R2, la naturaleza de lasvariables independientes y la posible creación de nueva variables pararepresentar las especiales relaciones entre las variables dependientes eindependientes.

Paso 3: Supuestos del modelo. Veri�car que cumplen las variablesindividuales los supuestos de: Normalidad, Linealidad,Homocedasticidad e Independencia.

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 83 / 84

Regresión Lineal MúltipleProceso de decisión para el análisis de regresión múltiple

Paso 4: Estimación del modelo de regresión y valoración. (1)Seleccionar un método para especi�car el modelo de regresión aestimar, (2) evaluar la signi�cación estadística del modelo conjunto enla predicción de la variable criterio y (3) determinar si cualquiera de lasobservaciones ejerce una indebida in�uencia sobre los resultados.Paso 5: Interpretación del valor teórico de la regresión. (1)Evaluar la ecuación de predicción con los coe�cientes de regresión, (2)Evaluar la importancia relativa de las variables independientes con loscoe�cientes beta estandarizados y (3) Valoración de lamulticolinealidad y sus efectos.Paso 6: Validación de los resultados. Después de identi�carnuestro mejor modelo de regresión, el paso �nal consiste en asegurarsede que represente a la población general (generalización) y que seaapropiada para situaciones en las cuales será utilizada(transferibilidad).

[email protected] (UCM) Marcelo Rodríguez G. 22/10/2010 84 / 84