Docente: Luis Zapatel Arriaga
Curso: Estadística Aplicada
Tema: Análisis de Regresión Lineal
Múltiple
AGENDA
Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple.
Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación.
Interpretar una matriz de correlación.Establecer y explicar una tabla ANOVA.Realizar una prueba de hipótesis para determinar si los
de coeficientes de regresión son diferentes de cero. Realizar una prueba de hipótesis para cada uno de los
coeficientes de regresión.
INTRODUCCIÓN
En el análisis de regresión lineal simple buscamos
la relación entre la variable dependiente Y y una
sola variable independiente, demostrando su
empleo para determinar una ecuación que
describa la relación entre dos variables. A
continuación presentaremos el estudio del análisis
de regresión examinando casos en los que
intervienen dos o más variables independientes.
INTRODUCCIÓN
El análisis de regresión múltiple es el estudio de la forma en
que una variable dependiente, , se relaciona con dos o más
variables independientes. En el caso general emplearemos k
para representar la cantidad de variables independientes.
Los conceptos de un modelo de regresión y una ecuación de
regresión que presentamos en el tema anterior se pueden
aplicar al caso de la regresión múltiple. La ecuación que
describe la forma en que la variable dependiente, , se
relaciona con las variables independientes 1, 2 ,...,k y un
término de error se llama modelo de regresión. El modelo de
regresión múltiple tiene la forma siguiente:
kk xbxbxbby ...ˆ 22110
EJEMPLOS
VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES (X1,X2,......)
Volumen de ventas, en unidades Precio unitarioGasto de Propaganda
Peso de los estudiantes EstaturaEdad
Consumo de bienes industriales por año
Ingreso disponibleImportación de bienes de consumo
Unidades consumidas de un bien por familia
Precio unitario del bienIngresoNúmero de integrantes por familia
Precio de una vivienda Nº de habitacionesNº de pisosÁrea construidaÁrea techada , etc.
Análisis de regresión múltiple para 2 variables independientes
Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:
X1 y X2 son las variables independientes.
a es la intercepción en Y. b1 es el cambio neto en Y para cada cambio unitario en X1,
manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.
b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1 constante. Se denomina coeficiente de regresión parcial o bien coeficiente de regresión.
El cálculo de éstos valores es por demás laborioso a mano…
Y a b X b X' 1 1 2 2
…. Por ejemplo para el caso de las dos variables
independientes, para poder resolver y obtener y en
una ecuación de regresión múltiple el cálculo se
presenta muy tediosa porque se tiene atender 3
ecuaciones que se generan por el método de
mínimo de cuadrados:
Análisis de regresión múltiple con k variables independientes La ecuación general de regresión múltiple con k variables independientes es:
El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.
Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.
Y a b X b X b Xk k' ... 1 1 2 2
Error estándar múltiple de la estimación
El error estándar múltiple de la estimación
es la medida de la eficiencia de la
ecuación de regresión.
Está medida en las mismas unidades que
la variable dependiente.
Es difícil determinar cuál es un valor
grande y cuál es uno pequeño para el
error estándar.
Error estándar múltiple de la estimación La fórmula es:
Donde Y es la observación. Y’ es el valor estimado en la ecuación
de regresión. n es el número de observaciones y k es
el número de variables independientes.
)1()1(
)'( 2
12
kn
SSEkn
YYS kY
Regresión y correlación múltiples (suposiciones) Las variables independientes y dependientes
tienen una relación lineal. La variable dependiente debe ser continua y
al menos con escala de intervalo. La variación en (Y - Y’) o residuo debe ser la
misma para todos los valores de Y. Cuando éste es el caso, se dice que la diferencia presenta homoscedasticidad.
Los residuos deben tener distribución normal con media igual a 0.
Las observaciones sucesivas de la variable dependiente no deben estar correlacionadas.
Matriz de correlación
La matriz de correlación se usa para mostrar todos los posibles coeficientes de correlación simple entre todas las variables. La matriz también es útil para analizar localizar la
correlación de las variables independientes. En la matriz se muestra, qué tan fuerte están
correlacionadas las variables independientes, con la variable dependiente.
También es útil para verificar si existe correlación entre las variables independientes Multicolinealidad, lo cuál distorsionaría el error estándar y llevaría a conclusiones incorrectas (se tolera valores entre -0.7 y 0.7), de ser mayor se elimina una variable y se recalcula la ecuación de regresión.
ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA ECUACION DE REGRESION
Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones matemáticas en forma matricial. Supongamos que existen k variables independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el modelo que relaciona las variables independientes y la variable dependiente es:
ikkiii xbxbxbby ...ˆ 22110
Xy
Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como:
ENFOQUE MATRICIAL
Donde:
1
3
2
1
.
.
.
xnny
y
y
y
y
pnnkiii
k
k
k
x
xxxx
xxxx
xxxx
xxxx
X
.......1
........................
........................
........................
.......1
.......1
.......1
321
3333231
2232221
1131211
1
2
1
0
.
.
.
xpkb
b
b
b
donde: p = k+1, número de parámetros
Una vez estimado el modelo es conveniente
obtener una medida acerca de la bondad del
ajuste realizado. Un estadístico que facilita esta
medida es el coeficiente de determinación (R2),
que se define:
Coeficiente de Determinación Múltiple r2
Prueba global
Ayuda a determinar si es posible que todas las Variables Independientes tengan coeficientes de regresión neta iguales a 0.
En otras palabras ¿podría la cantidad de variación explicada R2, ocurrir al azar?
La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos. Las hipótesis son:
Ha : al menos uno de los coeficientes de regresión no es cero.
0...: 3210 kH
Prueba global continuación
El estadístico de prueba es la distribución F
con k (número de variables independientes)
y n - (k + 1) grados de libertad, donde n es
el tamaño de la muestra.
El estadístico de prueba se calcula con: F = [(SSR) /(k)] /[(SSE) /(n-
k+1)].
Tabla ANOVA
La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que está explicada por la ecuación de regresión como de la que no lo está).
Fuente de Variación
Suma de cuadrados
Grados de libertad
Cuadro medio F
Regresión SSR K SSR/k= MSRMSRMSE
Error SSE n-(k+1) SSE/(n-(k+1))= MSE
Total SSTotal n-1
Ejemplo: El propietario de La cadena de cines CINE PLANET desea estimar el ingreso semanal neto en función de los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:
Ingresos Brutos semanales (en miles de dólares)
Anuncios en TV(en miles de dólares)
Anuncios en periódicos
(en miles de dólares)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5
Planteando matricialmente los datos
1894
94
94
95
92
95
90
96
x
y
1 5.0 1.5
1 2.0 2.0
1 4.0 1.5
1 2.5 2.5
1 3.0 3.3
1 3.5 2.3
1 2.5 4.2
1 3.0 2.5
X
132
1
0
x
b
b
b
8x3
Determinando la ecuación de regresión El modelo es:
22110ˆ xbxbby
yXXX 1)(
Entonces primero resolvemos las matrices para encontrar los parámetros:
0,24910,1313-1,0353
0,13130,2239-1,0389
-1,0353-1,03895,9989
2
1
0
3010.1
2902.2
2301.83
1856
2401
750
b
b
b
1)( XX yX
• Interpretemos los parámetros estimados de las variables independientes:
Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los gastos de anunciar en periódicos se mantienen constantes, los ingresos brutos semanales se incrementarán en 2.2902 miles de dólares.
Para b2: Cuando los gastos de anunciar en televisión se mantienen constantes y los gastos de anunciar en periódicos varían una unidad, los ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.
Finalmente la ecuación es:
213010.12902.22301.83ˆ XXy
Coeficientesa
83.230 1.574 52.882 .000 79.184 87.276
2.290 .304 1.153 7.532 .001 1.509 3.072
1.301 .321 .621 4.057 .010 .477 2.125
(Constante)
Anuncios en TV (enmiles de dólares)
Anuncios en periódicos(en miles de dólares)
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig. Límite inferiorLímite
superior
Intervalo de confianza paraB al 95%
Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.
Para lo cual usaremos la fórmula abreviada para dos variables independientes la cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula es la siguiente:
64.021. XXyS
Hallando el error estándar de estimación
322110
2
. 21
n
yXbyXbybyS
XXy
Reemplazando los valores previamente encontrados y tomando el denominador al valor 3 por ser el número de parámetros q intervienen en la ecuación:
Interpretación: La distancia promedio de los valores observados alrededor de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores observados es 0.64.
Resumen del modelo
.959a .919 .887 .64259Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)
a.
Hallando el Coef. de Determinación
919.0
959.02
r
r
Elevamos al cuadrado el coeficiente de correlación y encontraremos el coeficiente de determinación:
Resumen del modelo
.959a .919 .887 .64259Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)
a.
Interpretación: Aproximadamente el 91.9% de los
cambios producidos en los ingresos brutos semanales
son explicados por los cambios producidos en los gastos
de publicidad (en televisión y periódicos)
919.0
959.02
r
r
MATRIZ DE CORRELACIONCorrelaciones
1.000 .808 -.021
.808 1.000 -.556
-.021 -.556 1.000
. .008 .481
.008 . .076
.481 .076 .
8 8 8
8 8 8
8 8 8
Ingresos Brutossemanales (enmiles de dólares)
Anuncios en TV (enmiles de dólares)
Anuncios en periódicos(en miles de dólares)
Ingresos Brutossemanales (enmiles de dólares)
Anuncios en TV (enmiles de dólares)
Anuncios en periódicos(en miles de dólares)
Ingresos Brutossemanales (enmiles de dólares)
Anuncios en TV (enmiles de dólares)
Anuncios en periódicos(en miles de dólares)
Correlación de Pearson
Sig. (unilateral)
N
IngresosBrutos
semanales (en miles de
dólares)
Anuncios enTV (en milesde dólares)
Anuncios enperiódicos
(en miles dedólares)
ANOVAb
23.435 2 11.718 28.378 .002a
2.065 5 .413
25.500 7
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Anuncios en periódicos (en miles de dólares),Anuncios en TV (en miles de dólares)
a.
Variable dependiente: Ingresos Brutos semanales (en miles de dólares)b.
Anova
0:1 iunmenosloPorH
0...: 3210 kH
En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, lo que ratifica la relación entre las variables.
En la Facultad de Ciencias Contables, Económicas y Financieras de la Universidad“ Santo Toribio de Mogrovejo” quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de Gestión de Proyectos, para lo cual se escoge al azar una muestra de 7 alumnos y ellos registran notas promedios en las asignaturas de Contabilidad Básica, Doctrina Contable y Macroeconomía como se muestran en el siguiente cuadro.
AlumnoGestión de Proyectos
Contabilidad Básica
Doctrina Contable
Macroeconomía
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
Determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de Métodos Cuantitativos, conociendo las notas de las asignaturas Contabilidad Básica, Doctrina Contable II y Macroeconomía, con un nivel de significancia del 5%
Calculamos los coeficientes de regresión utilizando las fórmulas de las ecuaciones o en el programa SPSS: Coeficientesa
3.140 2.529 1.241 .303
.054 .309 .088 .175 .872
.189 .189 .248 .999 .391
.501 .390 .739 1.284 .289
(Constante)
Contabilidad Basica
Doctrina Contable
Macroeconomia
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Metodos Cuantitativosa.
Por lo tanto podemos construir la ecuación de regresión que buscamos:
Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3
En el análisis de regresión múltiple la constante es el valor de la ecuación de regresión de la variable dependiente Y dado que todas las variables independientes sean iguales a cero.
Resumen del modelo
.967a .935 .869 .529Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Macroeconomia,Doctrina Contable, Contabilidad Basica
a.
En los resultados de SPSS se llama error típico y para explicar la relación del aprendizaje de Métodos Cuantitativos que se viene desarrollando es de 0.529
Calculando el coeficiente de Determinación en el ejercicio (con variable independiente).
12.018 = 0.934 = R2…..Interprete¡¡¡
12.857
R = ……; Interprete
Trabajando con el ejemplo del curso de Gestión de Proyectos, veremos que aplicando SPSS, nos saldría como resultado:
ANOVAb
12.018 3 4.006 14.314 .028a
.840 3 .280
12.857 6
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,Contabilidad Basica
a.
Variable dependiente: Metodos Cuantitativosb.
¿A que conclusión podemos llegar al 3% de error?