Download - Regresion Multiple2

Docente: Luis Zapatel Arriaga

Curso: Estadística Aplicada

Tema: Análisis de Regresión Lineal

Múltiple

AGENDA

Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple.

Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación.

Interpretar una matriz de correlación.Establecer y explicar una tabla ANOVA.Realizar una prueba de hipótesis para determinar si los

de coeficientes de regresión son diferentes de cero. Realizar una prueba de hipótesis para cada uno de los

coeficientes de regresión.

INTRODUCCIÓN

En el análisis de regresión lineal simple buscamos

la relación entre la variable dependiente Y y una

sola variable independiente, demostrando su

empleo para determinar una ecuación que

describa la relación entre dos variables. A

continuación presentaremos el estudio del análisis

de regresión examinando casos en los que

intervienen dos o más variables independientes.

INTRODUCCIÓN

El análisis de regresión múltiple es el estudio de la forma en

que una variable dependiente, , se relaciona con dos o más

variables independientes. En el caso general emplearemos k

para representar la cantidad de variables independientes.

Los conceptos de un modelo de regresión y una ecuación de

regresión que presentamos en el tema anterior se pueden

aplicar al caso de la regresión múltiple. La ecuación que

describe la forma en que la variable dependiente, , se

relaciona con las variables independientes 1, 2 ,...,k y un

término de error se llama modelo de regresión. El modelo de

regresión múltiple tiene la forma siguiente:

kk xbxbxbby ...ˆ 22110

EJEMPLOS

VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES (X1,X2,......)

Volumen de ventas, en unidades Precio unitarioGasto de Propaganda

Peso de los estudiantes EstaturaEdad

Consumo de bienes industriales por año

Ingreso disponibleImportación de bienes de consumo

Unidades consumidas de un bien por familia

Precio unitario del bienIngresoNúmero de integrantes por familia

Precio de una vivienda Nº de habitacionesNº de pisosÁrea construidaÁrea techada , etc.

Análisis de regresión múltiple para 2 variables independientes

Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:

X1 y X2 son las variables independientes.

a es la intercepción en Y. b1 es el cambio neto en Y para cada cambio unitario en X1,

manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1 constante. Se denomina coeficiente de regresión parcial o bien coeficiente de regresión.

El cálculo de éstos valores es por demás laborioso a mano…

Y a b X b X' 1 1 2 2

…. Por ejemplo para el caso de las dos variables

independientes, para poder resolver y obtener y en

una ecuación de regresión múltiple el cálculo se

presenta muy tediosa porque se tiene atender 3

ecuaciones que se generan por el método de

mínimo de cuadrados:

Análisis de regresión múltiple con k variables independientes La ecuación general de regresión múltiple con k variables independientes es:

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

Y a b X b X b Xk k' ... 1 1 2 2

Error estándar múltiple de la estimación

El error estándar múltiple de la estimación

es la medida de la eficiencia de la

ecuación de regresión.

Está medida en las mismas unidades que

la variable dependiente.

Es difícil determinar cuál es un valor

grande y cuál es uno pequeño para el

error estándar.

Error estándar múltiple de la estimación La fórmula es:

Donde Y es la observación. Y’ es el valor estimado en la ecuación

de regresión. n es el número de observaciones y k es

el número de variables independientes.

)1()1(

)'( 2

12

kn

SSEkn

YYS kY

Regresión y correlación múltiples (suposiciones) Las variables independientes y dependientes

tienen una relación lineal. La variable dependiente debe ser continua y

al menos con escala de intervalo. La variación en (Y - Y’) o residuo debe ser la

misma para todos los valores de Y. Cuando éste es el caso, se dice que la diferencia presenta homoscedasticidad.

Los residuos deben tener distribución normal con media igual a 0.

Las observaciones sucesivas de la variable dependiente no deben estar correlacionadas.

Matriz de correlación

La matriz de correlación se usa para mostrar todos los posibles coeficientes de correlación simple entre todas las variables. La matriz también es útil para analizar localizar la

correlación de las variables independientes. En la matriz se muestra, qué tan fuerte están

correlacionadas las variables independientes, con la variable dependiente.

También es útil para verificar si existe correlación entre las variables independientes Multicolinealidad, lo cuál distorsionaría el error estándar y llevaría a conclusiones incorrectas (se tolera valores entre -0.7 y 0.7), de ser mayor se elimina una variable y se recalcula la ecuación de regresión.

ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA ECUACION DE REGRESION

Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones matemáticas en forma matricial. Supongamos que existen k variables independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el modelo que relaciona las variables independientes y la variable dependiente es:

ikkiii xbxbxbby ...ˆ 22110

Xy

Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como:

ENFOQUE MATRICIAL

Donde:

1

3

2

1

.

.

.

xnny

y

y

y

y

pnnkiii

k

k

k

x

xxxx

xxxx

xxxx

xxxx

X

.......1

........................

........................

........................

.......1

.......1

.......1

321

3333231

2232221

1131211

1

2

1

0

.

.

.

xpkb

b

b

b

donde: p = k+1, número de parámetros

Una vez estimado el modelo es conveniente

obtener una medida acerca de la bondad del

ajuste realizado. Un estadístico que facilita esta

medida es el coeficiente de determinación (R2),

que se define:

Coeficiente de Determinación Múltiple r2

Prueba global

Ayuda a determinar si es posible que todas las Variables Independientes tengan coeficientes de regresión neta iguales a 0.

En otras palabras ¿podría la cantidad de variación explicada R2, ocurrir al azar?

La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos. Las hipótesis son:

Ha : al menos uno de los coeficientes de regresión no es cero.

0...: 3210 kH

Prueba global continuación

El estadístico de prueba es la distribución F

con k (número de variables independientes)

y n - (k + 1) grados de libertad, donde n es

el tamaño de la muestra.

El estadístico de prueba se calcula con: F = [(SSR) /(k)] /[(SSE) /(n-

k+1)].

Tabla ANOVA

La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que está explicada por la ecuación de regresión como de la que no lo está).

Fuente de Variación

Suma de cuadrados

Grados de libertad

Cuadro medio F

Regresión SSR K SSR/k= MSRMSRMSE

Error SSE n-(k+1) SSE/(n-(k+1))= MSE

Total SSTotal n-1

Ejemplo: El propietario de La cadena de cines CINE PLANET desea estimar el ingreso semanal neto en función de los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:

Ingresos Brutos semanales (en miles de dólares)

Anuncios en TV(en miles de dólares)

Anuncios en periódicos

(en miles de dólares)

96 5.0 1.5

90 2.0 2.0

95 4.0 1.5

92 2.5 2.5

95 3.0 3.3

94 3.5 2.3

94 2.5 4.2

94 3.0 2.5

Planteando matricialmente los datos

1894

94

94

95

92

95

90

96

x

y

1 5.0 1.5

1 2.0 2.0

1 4.0 1.5

1 2.5 2.5

1 3.0 3.3

1 3.5 2.3

1 2.5 4.2

1 3.0 2.5

X

132

1

0

x

b

b

b

8x3

Determinando la ecuación de regresión El modelo es:

22110ˆ xbxbby

yXXX 1)(

Entonces primero resolvemos las matrices para encontrar los parámetros:

0,24910,1313-1,0353

0,13130,2239-1,0389

-1,0353-1,03895,9989

2

1

0

3010.1

2902.2

2301.83

1856

2401

750

b

b

b

1)( XX yX

• Interpretemos los parámetros estimados de las variables independientes:

Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los gastos de anunciar en periódicos se mantienen constantes, los ingresos brutos semanales se incrementarán en 2.2902 miles de dólares.

Para b2: Cuando los gastos de anunciar en televisión se mantienen constantes y los gastos de anunciar en periódicos varían una unidad, los ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.

Finalmente la ecuación es:

213010.12902.22301.83ˆ XXy

Coeficientesa

83.230 1.574 52.882 .000 79.184 87.276

2.290 .304 1.153 7.532 .001 1.509 3.072

1.301 .321 .621 4.057 .010 .477 2.125

(Constante)

Anuncios en TV (enmiles de dólares)

Anuncios en periódicos(en miles de dólares)

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.

Para lo cual usaremos la fórmula abreviada para dos variables independientes la cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula es la siguiente:

64.021. XXyS

Hallando el error estándar de estimación

322110

2

. 21

n

yXbyXbybyS

XXy

Reemplazando los valores previamente encontrados y tomando el denominador al valor 3 por ser el número de parámetros q intervienen en la ecuación:

Interpretación: La distancia promedio de los valores observados alrededor de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores observados es 0.64.

Resumen del modelo

.959a .919 .887 .64259Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

Hallando el Coef. de Determinación

919.0

959.02

r

r

Elevamos al cuadrado el coeficiente de correlación y encontraremos el coeficiente de determinación:

Resumen del modelo

.959a .919 .887 .64259Modelo1



Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

Interpretación: Aproximadamente el 91.9% de los

cambios producidos en los ingresos brutos semanales

son explicados por los cambios producidos en los gastos

de publicidad (en televisión y periódicos)

919.0

959.02

r

r

MATRIZ DE CORRELACIONCorrelaciones

1.000 .808 -.021

.808 1.000 -.556

-.021 -.556 1.000

. .008 .481

.008 . .076

.481 .076 .

8 8 8

8 8 8

8 8 8

Ingresos Brutossemanales (enmiles de dólares)









Correlación de Pearson

Sig. (unilateral)

N

IngresosBrutos

semanales (en miles de

dólares)

Anuncios enTV (en milesde dólares)

Anuncios enperiódicos

(en miles dedólares)

ANOVAb

23.435 2 11.718 28.378 .002a

2.065 5 .413

25.500 7

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Anuncios en periódicos (en miles de dólares),Anuncios en TV (en miles de dólares)

a.

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)b.

Anova

0:1 iunmenosloPorH

0...: 3210 kH

En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, lo que ratifica la relación entre las variables.

En la Facultad de Ciencias Contables, Económicas y Financieras de la Universidad“ Santo Toribio de Mogrovejo” quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de Gestión de Proyectos, para lo cual se escoge al azar una muestra de 7 alumnos y ellos registran notas promedios en las asignaturas de Contabilidad Básica, Doctrina Contable y Macroeconomía como se muestran en el siguiente cuadro.

AlumnoGestión de Proyectos

Contabilidad Básica

Doctrina Contable

Macroeconomía

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

Determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de Métodos Cuantitativos, conociendo las notas de las asignaturas Contabilidad Básica, Doctrina Contable II y Macroeconomía, con un nivel de significancia del 5%

Calculamos los coeficientes de regresión utilizando las fórmulas de las ecuaciones o en el programa SPSS: Coeficientesa

3.140 2.529 1.241 .303

.054 .309 .088 .175 .872

.189 .189 .248 .999 .391

.501 .390 .739 1.284 .289

(Constante)

Contabilidad Basica

Doctrina Contable

Macroeconomia

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Metodos Cuantitativosa.

Por lo tanto podemos construir la ecuación de regresión que buscamos:

Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3

En el análisis de regresión múltiple la constante es el valor de la ecuación de regresión de la variable dependiente Y dado que todas las variables independientes sean iguales a cero.

Resumen del modelo

.967a .935 .869 .529Modelo1



Variables predictoras: (Constante), Macroeconomia,Doctrina Contable, Contabilidad Basica

a.

En los resultados de SPSS se llama error típico y para explicar la relación del aprendizaje de Métodos Cuantitativos que se viene desarrollando es de 0.529

Calculando el coeficiente de Determinación en el ejercicio (con variable independiente).

12.018 = 0.934 = R2…..Interprete¡¡¡

12.857

R = ……; Interprete

Trabajando con el ejemplo del curso de Gestión de Proyectos, veremos que aplicando SPSS, nos saldría como resultado:

ANOVAb

12.018 3 4.006 14.314 .028a

.840 3 .280

12.857 6

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,Contabilidad Basica

a.

Variable dependiente: Metodos Cuantitativosb.

¿A que conclusión podemos llegar al 3% de error?