Análisis de Regresión Múltiple

15
INTRODUCCIÓN Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple. Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

description

Deficion, características, objetivos

Transcript of Análisis de Regresión Múltiple

Page 1: Análisis de Regresión Múltiple

INTRODUCCIÓN

Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple.

Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

Page 2: Análisis de Regresión Múltiple

OBJETIVOS

Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple.

Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación.

PROCEDIMIENTO

o Seleccionar una muestra a partir de una población.o Listar pares de datos para cada observación.o Dibujar un diagrama de puntos para dar una imagen visual de la relación.o Determinar la ecuación de regresión.

CONCEPTOS BÁSICOS

Análisis de RegresiónEs un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la(s) otra(s).

Regresión MúltipleIntervienen dos o más variables independientes.

Variable Dependiente(Respuesta, predicha, endógena) es la variable que se desea predecir o estimar.

Variable Independiente(Predictoras, explicativas, exógenas), son las variables que proveen las bases para estimar.

ANÁLISIS DE REGRESIÓN MÚLTIPLE

El análisis de regresión múltiple es el estudio de la forma en que una variable dependiente, y, se relaciona con dos o más variables independientes. En el caso general emplearemos k para representar la cantidad de variables independientes.

Los conceptos de un modelo de regresión y una ecuación de regresión que presentamos en el tema anterior se pueden aplicar al caso de la regresión múltiple. La ecuación que describe la forma en que la variable dependiente, y se relaciona con las variables independientes x1 , x2 ,… xky un término de error se llama modelo de regresión. El modelo de regresión múltiple tiene la forma siguiente:

Page 3: Análisis de Regresión Múltiple

Ejemplos:

VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES (X1,X2,......)

Volumen de ventas, en unidades Precio unitario

Gasto de Propaganda

Peso de los estudiantes Estatura

Edad

Consumo de bienes industriales por año

Ingreso disponible

Importación de bienes de consumo

Unidades consumidas de un bien por familia

Precio unitario del bien

Ingreso

Número de integrantes por familia

Precio de una vivienda Nº de habitaciones

Nº de pisos

Área construida

Área techada , etc.

La técnica de regresión múltiple se usa frecuentemente en investigación, se aplica al caso en que la variable respuesta es de tipo numérico. Cuando la respuesta es de tipo dicotómico (muere/vive; enferma/no enferma), usamos otra técnica denominada regresión logística.

ANÁLISIS DE REGRESIÓN MÚLTIPLE PARA 2 VARIABLES INDEPENDIENTES

Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:

Y '=a+b1X1+b2X2 X1 y X2 son las variables independientes.

a es la intercepción en Y.

Page 4: Análisis de Regresión Múltiple

b1 es el cambio neto en Y para cada cambio unitario en X1, manteniendo X2

constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1

constante. Se denomina coeficiente de regresión parcial o bien coeficiente de regresión.

El cálculo de estos valores es por demás laborioso a mano, por ejemplo para el caso de las dos variables independientes, para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:

ANÁLISIS DE REGRESIÓN MÚLTIPLE CON K VARIABLES INDEPENDIENTES

La ecuación general de regresión múltiple con k variables independientes es:

Y a b X b X b Xk k' ... 1 1 2 2

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

ERROR ESTÁNDAR MÚLTIPLE DE LA ESTIMACIÓN

El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión.

Está medida en las mismas unidades que la variable dependiente, es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar. La fórmula es:

Page 5: Análisis de Regresión Múltiple

SY⋅12⋅¿⋅k= √∑ (Y−Y ' )2

n−( k+1)=√ SSE

n−(k+1 )

Donde:

Y es la observación.

Y’ es el valor estimado en la ecuación de regresión.

n es el número de observaciones y k es el número de variables independientes.

ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA ECUACION DE REGRESION

Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones matemáticas en forma matricial. Supongamos que existen k variables independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el modelo que relaciona las variables independientes y la variable dependiente es:

y i=b0+b1 x i1+b2 xi2+ .. .+bk x ikEste modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como:

y=Xβ

o ENFOQUE MATRICIAL

Donde:

y=¿ [ y1¿ ] [ y2¿ ] [ y3 ¿ ] [. ¿ ] [. ¿ ] [. ¿ ] ¿¿

¿¿

X=¿ [1x11 x12 x13 . . .. .. .x1 k ¿ ] [1x21 x22 x23 . .. .. . .x2 k ¿ ] [1x31 x32 x33 .. .. . .. x3k ¿ ] [. .. . .. .. .. . .. .. . .. .. . .. .¿ ] [ .. . .. .. . .. .. .. . .. .. . .. .. ¿ ] [. . .. .. . .. .. . .. .. . .. .. .. . ¿ ]¿¿

¿¿

β=¿ [b0 ¿ ] [b1 ¿ ] [b2 ¿ ] [. ¿ ] [. ¿ ] [. ¿ ]¿¿

¿¿

Page 6: Análisis de Regresión Múltiple

Dónde: p = k+1, número de parámetros

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2

Mide la tasa porcentual de los cambios de “y” que pueden ser explicados por: X1, X2, X3,… simultáneamente.

Una vez estimado el modelo es conveniente obtener una medida acerca de la bondad del ajuste realizado. Un estadístico que facilita esta medida es el coeficiente de determinación (R2), que se define:

ANÁLISIS DE VARIANZA

Ecuación Básica para análisis de Varianza

Page 7: Análisis de Regresión Múltiple

PRUEBA GLOBAL

Ayuda a determinar si es posible que todas las Variables Independientes tengan coeficientes de regresión neta iguales a 0. En otras palabras ¿podría la cantidad de variación explicada R2, ocurrir al azar?

La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos. Las hipótesis son:

H0 : β1=β2=β3=. ..=βk=0

El estadístico de prueba es la distribución F con k (número de variables independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.

El estadístico de prueba se calcula con:

F = [(SCR) /(k)] /[(SCE) /(n-k+1)].

TABLA ANOVA

La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que está explicada por la ecuación de regresión como de la que no lo está).

http://dm.udc.es/asignaturas/estadistica2/secprac_5_2.html

Page 8: Análisis de Regresión Múltiple

1. El propietario de La cadena de cines CINE PLANET desea estimar el ingreso semanal neto en función de los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:

Ingresos Brutos semanales (en miles de dólares)

Anuncios en TV(en miles de dólares)

Anuncios en periódicos(en miles de dólares)

96 5.0 1.5

90 2.0 2.0

95 4.0 1.5

92 2.5 2.5

95 3.0 3.3

94 3.5 2.3

94 2.5 4.2

94 3.0 2.5

Planteando matricialmente los datos

1 5.0 1.5

1 2.0 2.0

1 4.0 1.5

1 2.5 2.5

1 3.0 3.3

1 3.5 2.3

1 2.5 4.2

1 3.0 2.5

1894

94

94

95

92

95

90

96

x

y

X

132

1

0

x

b

b

b

Page 9: Análisis de Regresión Múltiple

Determinando la ecuación de regresión

El modelo es:

y=b0+b1 x1+b2 x2Entonces primero resolvemos las matrices para encontrar los parámetros:

Finalmente la ecuación es:

1894

94

94

95

92

95

90

96

x

y

132

1

0

x

b

b

b

yXXX 1)(

5,9989 -1,0389 -1,0353

-1,0389 0,2239 0,1313

-1,0353 0,1313 0,2491

2

1

0

3010.1

2902.2

2301.83

1856

2401

750

b

b

b

1)( XX yX

Page 10: Análisis de Regresión Múltiple

y=83.2301+2 .2902 X1+1.3010 X2

Interpretemos los parámetros estimados de las variables independientes:

Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los gastos de anunciar en periódicos se mantienen constantes, los ingresos brutos semanales se incrementarán en 2.2902 miles de dólares.

Para b2: Cuando los gastos de anunciar en televisión se mantienen constantes y los gastos de anunciar en periódicos varían una unidad, los ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.

Hallando el error estándar de estimación

Para lo cual usaremos la fórmula abreviada para dos variables independientes la cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula es la siguiente:

S y . X1 X2=√∑ y2−b0∑ y−b1∑ X1 y−b2∑ X2 y

n−3

S y . X1 X2=0 .64

o Interpretación: La distancia promedio de los valores observados alrededor de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores observados es 0.64.

Hallando el Coeficiente de Determinación

Coeficientesa

83.230 1.574 52.882 .000 79.184 87.276

2.290 .304 1.153 7.532 .001 1.509 3.072

1.301 .321 .621 4.057 .010 .477 2.125

(Constante)

Anuncios en TV (enmiles de dólares)

Anuncios en periódicos(en miles de dólares)

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.

Resumen del modelo

.959a .919 .887 .64259Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Anuncios en periódicos(en miles de dólares), Anuncios en TV (en miles de dólares)

a.

919.0

959.02

r

r

Page 11: Análisis de Regresión Múltiple

o Interpretación: Aproximadamente el 91.9% de los cambios producidos en los ingresos brutos semanales son explicados por los cambios producidos en los gastos de publicidad (en televisión y periódicos).

2. “Una desea estimar los gastos en alimentación de una familia (Y) en base a la información que proporcionan las variables regresoras X1 =“ingresos mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta (El gasto e ingreso está dado en cientos de miles de pesetas)”

GASTO INGRESO TAMAÑO043 21 3031 11 4032 09 5046 16 4125 62 4044 23 3052 18 6029 10 5129 89 3035 24 2035 12 4078 47 3043 35 2047 29 3038 14 4

Solución

Page 12: Análisis de Regresión Múltiple

Con estos datos se obtiene:n=15 ,∑ x1 i=42 ∑ x2 i

Gasto=−0' 160+0' . Ingreso+0' .Tamaño+error

Page 13: Análisis de Regresión Múltiple

A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observación x1=2'1 ; x2=3; y=0' 43 se obtiene:

y 1=−0 '160+0' .2' 1+0' .3=0' 3839e1= y1− y 1=0' 43−0'3839=0' 0461

PREDICCIONES0’38 0’41 0’330’31 0’57 0’770’36 0’37 0’510’39 1’39 0’501’07 0’35 0’36