Download - TP ESTADÍSTICA

Transcript
Page 1: TP ESTADÍSTICA

9/22/2014

1

UNIVERSIDAD NACIONAL DE LA PLATA

FACULTAD DE CIENCIAS NATURALES Y MUSEO

CÁTEDRA DE ESTADÍSTICA

CLASE ESPECIAL

Tema:

Correlación múltiple y parcial.

Ecuaciones y planos de regresión

La Plata, septiembre de 2014

UNLP - FCNyM - ESTADÍSTICA

Correlación múltiple y parcial.

Ecuaciones y planos de regresión

Contenido:

Correlación y regresión simple

Introducción al análisis multivariado

Correlación múltiple y parcial

Ecuaciones y planos de regresión

Page 2: TP ESTADÍSTICA

9/22/2014

2

UNLP - FCNyM - ESTADÍSTICA

Correlación y regresión simple.

El análisis bivariado analiza la relación entre 2 variables.

(Correlación y regresión)

Correlación lineal:

Mide el grado de relación entre 2 variables (X e Y).

Coeficiente de correlación lineal (r), o del producto momento de

Pearson (varía entre ± 1 y 0)

rxy = Sxy /SxSy

Donde: Sxy es la covarianza de x e y; Sx y Sy son los desvíos estándar

de x e y (raíz cuadrara de las varianzas).

UNLP - FCNyM - ESTADÍSTICA

Ecuación de la regresión lineal simple (ecuación de la recta):

Yi = α + βXi

Donde: Y: var dependiente X: var. Independiente

α: ordenada al origen (intersección)

β: pendiente (coeficiente de regresión)

(α y β con parámetros poblacionales)

Como en una población es improbable que los datos se ubiquen en una recta:

Yi = α + βXi + εi (donde εi: error o residuo)

Ecuación de regresión muestral: Ŷi = a + bXi

Los estadísticos a y b son estimadores de α y β (parámetros poblacionales).

Page 3: TP ESTADÍSTICA

9/22/2014

3

UNLP - FCNyM - ESTADÍSTICA

ANOVA de la regresión: Evalúa la significancia del modelo de regresión.

Var Explicada

F =

Var Residual (no explicada)

(Y – Y)2 = (Ŷ – Y)2 + (Y – Ŷ)2

Variación total = Variación explicada + Variación no explicada

Y: valor observado o real Y: media aritmética de X

Ŷ: valor estimado de X con la ecuación de la recta de regresión

r = ± 𝑉𝑎𝑟 𝐸𝑥𝑝𝑙/𝑉𝑎𝑟 𝑇𝑜𝑡𝑎𝑙

Coeficiente de determinación (R2 ):

Porcentaje de variación explicado por el modelo de regresión

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 1: Análisis de regresión lineal simple

x y ŷ 2 5 5,9

4 7 8,3

6 14 10,8

8 12 13,2

10 18 15,7

12 16 18,2

7 12

a = 3,40

b = 1,23

r = 0,90

R2= 0,81

y = 3,4 + 1,23 x

Page 4: TP ESTADÍSTICA

9/22/2014

4

UNLP - FCNyM - ESTADÍSTICA

Análisis multivariado

Cuando tenemos más de 3 variables y queremos analizar su relación

podemos realizar un análisis de la correlación y regresión múltiple.

Ejemplos:

Crecimiento de una planta en función de variables climáticas y edáficas.

Contenido de materia orgánica de una laguna en función de la temperatura del

agua, pH, vientos, etc.

Tasa de reproducción de un insecto en función del alimento, la humedad, el

tiempo de desarrollo, etc.

Nivel de contaminación de un área en función de características climáticas,

urbanísticas e industriales.

Tenor extraíble de un oligoelemento en función de las características del

sustrato (materia orgánica, pH, arcillas).

UNLP - FCNyM - ESTADÍSTICA

Correlación múltiple y parcial:

La correlación múltiple mide el grado de correlación que existe

entre 3 o más variables. Se asume distribución normal multivariada.

Coeficiente de Correlación Múltiple (Ry.1…k): mide la covariación

conjunta de una variable (Y) con otras variables (X1, X2).

R = 1 −𝑆21.23

𝑆²1

Donde S1 es la desviación típica de la variable dependiente (Y).

S1.23 es el error típico de la estimaciones de Y a partir de las dos

variables independientes (X1 y X2) utilizando la ecuación de regresión

múltiple.

Page 5: TP ESTADÍSTICA

9/22/2014

5

UNLP - FCNyM - ESTADÍSTICA

Correlación múltiple y parcial:

En el análisis de regresión múltiple R mide el grado de ajuste entre los

valores reales y los valores estimados (0 y +1).

El coeficiente de correlación múltiple (R) es la raíz cuadrada positiva

(+) del Coeficiente de Determinación Múltiple (R²).

Debido a que R² no está ajustado al número de grados de libertad,

tiende a sobreestimar al parámetro poblacional ρ²y.1…k. Puede

mejorarse si se calcula:

R²aj = 1 – (1 - R²)(n-1/n-k-1)

Donde:

R²aj: Coeficiente de Determinación ajustado.

n: número de observaciones; k: número de variables independientes

en el modelo.

UNLP - FCNyM - ESTADÍSTICA

Correlación múltiple y parcial:

Coeficiente de correlación parcial: Mide la correlación entre un par de

variables (1 y 2) manteniendo las demás variables (3) constantes.

r12 - r13r2

r12.3 =

√ (1 - r213) (1 - r2

23)

Donde: r12.3 es el coeficiente de correlación parcial entre las variables 1 y 2,

manteniendo la variable 3 constante; y r12, r13, r23 son los coeficientes de

correlación simple entre cada par de variables.

Page 6: TP ESTADÍSTICA

9/22/2014

6

UNLP - FCNyM - ESTADÍSTICA

Ejemplo de cálculo de la correlación parcial:

X1: longitud de antena X2: longitud de Ala X3: longitud de tórax

r12 = 0,85 r13 = 0,75 r23 = 0,86

rA12 - r13r23 0,85 – (0,75)(0,86)

r12.3 = ___________________ = _______________________ = 0,61

√ (1 - r213) (1 - r2

23) √ (1 – 0,752)(1 – 0,862)

La correlación parcial entre la variable longitud de la antena (X1) y longitud

del ala (X2), manteniendo constante la variable longitud de tórax (X3) es de

0,61. A pesar de que la longitud del tórax podría explicar el tamaño general, no

es suficiente para explicar la correlación entre la antena y el ala.

UNLP - FCNyM - ESTADÍSTICA

Interpretación de la correlación parcial:

La correlación entre Y1 y Y2 (r12) se debe a una causa común (Y4), pero como

otras variables (Y3, Y5) también determinan su valor, la correlación entre estas

variables no será perfecta.

La correlación parcial r12.4, debiera dar un valor de r cercano a 0 (cero), ya

que no existe covariación entre las variables Y1 y Y2 cuando Y4 no varía.

Ejemplo: puede ser interesante analiza la relación entre distintas partes de un

organismo (cabeza, tórax, alas, brazos, piernas), manteniendo el tamaño total

del mismo constante.

Page 7: TP ESTADÍSTICA

9/22/2014

7

UNLP - FCNyM - ESTADÍSTICA

Ecuaciones y planos de regresión:

El análisis de estimación de una variable dependiente (Y) en función de varias

variables independientes (X1, X2, …, Xn), se denomina regresión múltiple.

Permite analizar de qué modo una variable depende de las variaciones en

otras variables.

Ecuación de regresión lineal múltiple para estimar una variable dependiente

(Y) a partir de dos variables independientes (X1; X2):

Yj = α + β1X1j + β2X2j

Donde: Yj es la variable dependiente

X1 y X2: son las variables independientes.

α : constante, intersección, valor de Y cuando X1, y X2 son igual a cero.

β1 y β2: coeficientes de regresión parcial.

Expresan cuanto cambia Y en respuesta a un cambio en X1 o X2 manteniendo

las otras constantes o invariantes.

UNLP - FCNyM - ESTADÍSTICA

Ecuaciones y planos de regresión:

Podemos definir la ecuación en su forma muestral:

Ŷj = a + b1X1j + b2X2j

Donde : a es estimador de α; y

b1 y b2 son estimadores de β1 y β2 respectivamente.

Este modelo se denomina regresión lineal múltiple debido a la naturaleza lineal

(aditiva) de los parámetros de la ecuación (α y β).

Page 8: TP ESTADÍSTICA

9/22/2014

8

UNLP - FCNyM - ESTADÍSTICA

Ecuaciones y planos de regresión:

Un modelo de regresión múltiple (Y; X1 y X2) en un sistema de coordenadas

rectangulares tridimensional, se representa con un plano de regresión de Y

sobre X1 y X2. Con n variables independientes, se define un espacio

multidimensional (“ superficie de respuesta” o “hiperplano”).

UNLP - FCNyM - ESTADÍSTICA

Ecuaciones y planos de regresión:

Del mismo que en el caso de la regresión simple, no todos los datos

poblacionales se ubicarán sobre el plano, por lo que incluimos un error (εi).

Yj = α + β1X1j + β2X2j + εi

εi: es una medida del error o diferencia entre el valor real y el valor estimado

por la ecuación (su suma también es cero).

Page 9: TP ESTADÍSTICA

9/22/2014

9

UNLP - FCNyM - ESTADÍSTICA

Análisis de regresión múltiple (ARM):

Analiza la relación entre una variable dependiente (Y) respecto a o en función

de un conjunto de variables independientes (X1 a Xn) en forma simultánea,

computando la función lineal que mejor ajuste a los datos (por mínimos

cuadrados).

Los objetivos del ARM son:

i) Establecer una ecuación lineal que permita predecir una porción

significativa de la varianza de una variable dependiente (Y) en función de un

conjunto reducido de variables independientes (X1, …, Xn).

ii) Estimar y ajustar un modelo estructural que explique las variaciones

observadas en la variable dependiente (Y) en función de las variables

independientes consideradas.

UNLP - FCNyM - ESTADÍSTICA

Ejemplo: Análisis de regresión múltiple (Y; X1; X2)

Y: concentración media anual de SO2 (ug/m3)

4 variables climáticas:

X1: temperatura media anual (º F)

X4: velocidad media anual del viento (millas/hora).

X5: precipitación media anual (pulgadas)

X6: número de días con precipitación al año

2 variables antrópicas:

X2: número de fábricas con más de 20 empleados.

X3: tamaño poblacional humana (en miles)

Datos de Sokal & Rohlf (1995). Procesados con Statistica (7.1)

Page 10: TP ESTADÍSTICA

9/22/2014

10

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 2: Análisis de regresión múltiple (Y; X1; X2).

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 2: Análisis de regresión múltiple (Y; X1; X2).

Ŷ = 77,24 – 1,05 X1 + 0,02 X2

R² = 11,374,09 / 22,037,90 = 0,516

R = √ R² = √ 0,5161 = 0,7184

R²aj = 1 – (1 - R²)(n-1/n-k-1) = 1 – (1 – 0,516)(41-1/41-2-1) = 0,4906

Page 11: TP ESTADÍSTICA

9/22/2014

11

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 3: Análisis de regresión múltiple (Y; X1; X2; X3).

Ŷ = 58,20 – 0,59 X1 + 0,07 X2 – 0,05 X3

R² = 13,499,25 / 22,037,90 = 0,613

R = √ R² = √ 0,613 = 0,783

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 3: Análisis de regresión múltiple (Y; X1; X2; X3)

Estimación de Y a partir del modelo:

Ŷ = 58,20 – 0,59 X1 + 0,07 X2 – 0,05 X3

Ciudad 1:

X1 (Temperatura media anual): 70,3 º F

X2 (Número de fábricas con más de 20 empleados): 213

X3 (Tamaño poblacional humana, en miles): 582.00’0 hab.

Ŷ = 58,183 – (0,5868)(70,3) + (0,07128)(213) – (0,04670)(582) =

Y’ = 4,9 ug SO2/m3

Ŷ (estimado) = 4,9 ug SO2/m3

Y (observado) = 10 ug SO2/m3

Page 12: TP ESTADÍSTICA

9/22/2014

12

UNLP - FCNyM - ESTADÍSTICA

Resultados Análisis de Regresión Múltiple

Ejemplo 2: ARM (Y; X1; X2)

Y = 77,24 – 1,05 X1 + 0,02 X2

R² = 11,374,09 / 22,037,90 = 0,516

R = √ R² = 0,7184

Ejemplo 3: ARM (Y; X1; X2; X3)

Y = 58,20 – 0,59 X1 + 0,07 X2 – 0,05 X3

R² = 13,499,25 / 22,037,90 = 0,613

R = √ R² = √ 0,613 = 0,783

A medida que incremento el número de variables mejora el ajuste del modelo,

lo que significa que las nuevas variables independientes muestran una

correlación parcial con la variable dependiente.

UNLP - FCNyM - ESTADÍSTICA

Análisis de regresión múltiple paso a paso

A medida que aumentamos el número de variables independientes en un

modelo se espera que se incremente el valor del coeficiente de correlación

múltiple ( R), salvo que las nuevas variables no estén asociadas con la variable

dependiente.

¿Todas las variables aportan por igual al modelo?

¿Cómo seleccionar aquellas que tienen mayor peso relativo?

Análisis de regresión múltiple paso a paso:

Forward (agregando) or Backward (eliminando) progresivamente.

Page 13: TP ESTADÍSTICA

9/22/2014

13

UNLP - FCNyM - ESTADÍSTICA

Análisis de regresión múltiple paso a paso

Los criterios de selección de variables pueden ser (Forward):

i) Aquellas que producen un incremento significativo en el valor de R²

(Coeficiente de determinación múltiple). A tal fin, se puede seleccionar aquella

variable que tiene el mayor valor de correlación parcial (ry.1…k).

ii) Calcular el valor de F correspondiente al test de significancia del

incremento de R² debido a la inclusión de la nueva variable (“valor de F para

entrar”). Se incorpora aquella variable que tenga el mayor valor, sólo si es

significativo a un nivel especificado.

Ambos criterios son coincidentes.

El proceso se detiene cuando el valor de F es no significativo en relación a un

nivel nominal de P (“valor de P para entrar”).

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 4: Análisis de regresión múltiple paso a paso

(Stepwise: Forward) (Y; Xn).

Page 14: TP ESTADÍSTICA

9/22/2014

14

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 4: Análisis de regresión múltiple paso a paso

(Stepwise: Forward) (Y; Xn).

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 4: Análisis de regresión múltiple paso a paso

(Stepwise: Forward) (Y; Xn).

Page 15: TP ESTADÍSTICA

9/22/2014

15

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 4: Análisis de regresión múltiple paso a paso

(Stepwise: Forward) (Y; Xn).

UNLP - FCNyM - ESTADÍSTICA

Ejemplo 4: Análisis de regresión múltiple paso a paso

A medida que aumentamos el número de variables independientes en un

modelo se incrementa el valor del coeficiente de correlación múltiple ( R),

salvo que las nuevas variables no estén asociadas con la variable dependiente.

Podemos observar el incremento de la varianza explicada y la reducción

progresiva de la varianza NO explicada a medida que incluimos nuevas

variables independientes (Forward).

Del mismo modo podemos ver el efecto de eliminar progresivamente

variables independientes del análisis sobre la varianza No explicada (errores o

residual), eliminando del modelo aquellas variables que no aporten

significativamente al modelo (Backward).

De este modo podemos definir aquel modelo de regresión múltiple que tenga

el mejor ajuste con el menor número de variables independientes.

Page 16: TP ESTADÍSTICA

9/22/2014

16

UNLP – FCNYM

CLASE ESPECIAL

MUCHAS GRACIAS

La Plata, septiembre de 2014

UNLP - FCNyM - ESTADÍSTICA

Interpretación geométrica de la correlación parcial.

Se observa un elipsoide tridimensional con sus respectivas proyecciones bidimensionales

(sombreadas). El elipsoide se corta para Y2 = C, generando una elipse que representa la

covariación de las variables Y1 y Y3 cuando la variable Y2 se mantiene constante (e igual a

C), a medida que esa elipse sea más alargada, mayor será la correlación parcial entre Y1 y

Y3.