TP ESTADÍSTICA
Embed Size (px)
description
Transcript of TP ESTADÍSTICA

9/22/2014
1
UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE CIENCIAS NATURALES Y MUSEO
CÁTEDRA DE ESTADÍSTICA
CLASE ESPECIAL
Tema:
Correlación múltiple y parcial.
Ecuaciones y planos de regresión
La Plata, septiembre de 2014
UNLP - FCNyM - ESTADÍSTICA
Correlación múltiple y parcial.
Ecuaciones y planos de regresión
Contenido:
Correlación y regresión simple
Introducción al análisis multivariado
Correlación múltiple y parcial
Ecuaciones y planos de regresión

9/22/2014
2
UNLP - FCNyM - ESTADÍSTICA
Correlación y regresión simple.
El análisis bivariado analiza la relación entre 2 variables.
(Correlación y regresión)
Correlación lineal:
Mide el grado de relación entre 2 variables (X e Y).
Coeficiente de correlación lineal (r), o del producto momento de
Pearson (varía entre ± 1 y 0)
rxy = Sxy /SxSy
Donde: Sxy es la covarianza de x e y; Sx y Sy son los desvíos estándar
de x e y (raíz cuadrara de las varianzas).
UNLP - FCNyM - ESTADÍSTICA
Ecuación de la regresión lineal simple (ecuación de la recta):
Yi = α + βXi
Donde: Y: var dependiente X: var. Independiente
α: ordenada al origen (intersección)
β: pendiente (coeficiente de regresión)
(α y β con parámetros poblacionales)
Como en una población es improbable que los datos se ubiquen en una recta:
Yi = α + βXi + εi (donde εi: error o residuo)
Ecuación de regresión muestral: Ŷi = a + bXi
Los estadísticos a y b son estimadores de α y β (parámetros poblacionales).

9/22/2014
3
UNLP - FCNyM - ESTADÍSTICA
ANOVA de la regresión: Evalúa la significancia del modelo de regresión.
Var Explicada
F =
Var Residual (no explicada)
(Y – Y)2 = (Ŷ – Y)2 + (Y – Ŷ)2
Variación total = Variación explicada + Variación no explicada
Y: valor observado o real Y: media aritmética de X
Ŷ: valor estimado de X con la ecuación de la recta de regresión
r = ± 𝑉𝑎𝑟 𝐸𝑥𝑝𝑙/𝑉𝑎𝑟 𝑇𝑜𝑡𝑎𝑙
Coeficiente de determinación (R2 ):
Porcentaje de variación explicado por el modelo de regresión
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 1: Análisis de regresión lineal simple
x y ŷ 2 5 5,9
4 7 8,3
6 14 10,8
8 12 13,2
10 18 15,7
12 16 18,2
7 12
a = 3,40
b = 1,23
r = 0,90
R2= 0,81
y = 3,4 + 1,23 x

9/22/2014
4
UNLP - FCNyM - ESTADÍSTICA
Análisis multivariado
Cuando tenemos más de 3 variables y queremos analizar su relación
podemos realizar un análisis de la correlación y regresión múltiple.
Ejemplos:
Crecimiento de una planta en función de variables climáticas y edáficas.
Contenido de materia orgánica de una laguna en función de la temperatura del
agua, pH, vientos, etc.
Tasa de reproducción de un insecto en función del alimento, la humedad, el
tiempo de desarrollo, etc.
Nivel de contaminación de un área en función de características climáticas,
urbanísticas e industriales.
Tenor extraíble de un oligoelemento en función de las características del
sustrato (materia orgánica, pH, arcillas).
UNLP - FCNyM - ESTADÍSTICA
Correlación múltiple y parcial:
La correlación múltiple mide el grado de correlación que existe
entre 3 o más variables. Se asume distribución normal multivariada.
Coeficiente de Correlación Múltiple (Ry.1…k): mide la covariación
conjunta de una variable (Y) con otras variables (X1, X2).
R = 1 −𝑆21.23
𝑆²1
Donde S1 es la desviación típica de la variable dependiente (Y).
S1.23 es el error típico de la estimaciones de Y a partir de las dos
variables independientes (X1 y X2) utilizando la ecuación de regresión
múltiple.

9/22/2014
5
UNLP - FCNyM - ESTADÍSTICA
Correlación múltiple y parcial:
En el análisis de regresión múltiple R mide el grado de ajuste entre los
valores reales y los valores estimados (0 y +1).
El coeficiente de correlación múltiple (R) es la raíz cuadrada positiva
(+) del Coeficiente de Determinación Múltiple (R²).
Debido a que R² no está ajustado al número de grados de libertad,
tiende a sobreestimar al parámetro poblacional ρ²y.1…k. Puede
mejorarse si se calcula:
R²aj = 1 – (1 - R²)(n-1/n-k-1)
Donde:
R²aj: Coeficiente de Determinación ajustado.
n: número de observaciones; k: número de variables independientes
en el modelo.
UNLP - FCNyM - ESTADÍSTICA
Correlación múltiple y parcial:
Coeficiente de correlación parcial: Mide la correlación entre un par de
variables (1 y 2) manteniendo las demás variables (3) constantes.
r12 - r13r2
r12.3 =
√ (1 - r213) (1 - r2
23)
Donde: r12.3 es el coeficiente de correlación parcial entre las variables 1 y 2,
manteniendo la variable 3 constante; y r12, r13, r23 son los coeficientes de
correlación simple entre cada par de variables.

9/22/2014
6
UNLP - FCNyM - ESTADÍSTICA
Ejemplo de cálculo de la correlación parcial:
X1: longitud de antena X2: longitud de Ala X3: longitud de tórax
r12 = 0,85 r13 = 0,75 r23 = 0,86
rA12 - r13r23 0,85 – (0,75)(0,86)
r12.3 = ___________________ = _______________________ = 0,61
√ (1 - r213) (1 - r2
23) √ (1 – 0,752)(1 – 0,862)
La correlación parcial entre la variable longitud de la antena (X1) y longitud
del ala (X2), manteniendo constante la variable longitud de tórax (X3) es de
0,61. A pesar de que la longitud del tórax podría explicar el tamaño general, no
es suficiente para explicar la correlación entre la antena y el ala.
UNLP - FCNyM - ESTADÍSTICA
Interpretación de la correlación parcial:
La correlación entre Y1 y Y2 (r12) se debe a una causa común (Y4), pero como
otras variables (Y3, Y5) también determinan su valor, la correlación entre estas
variables no será perfecta.
La correlación parcial r12.4, debiera dar un valor de r cercano a 0 (cero), ya
que no existe covariación entre las variables Y1 y Y2 cuando Y4 no varía.
Ejemplo: puede ser interesante analiza la relación entre distintas partes de un
organismo (cabeza, tórax, alas, brazos, piernas), manteniendo el tamaño total
del mismo constante.

9/22/2014
7
UNLP - FCNyM - ESTADÍSTICA
Ecuaciones y planos de regresión:
El análisis de estimación de una variable dependiente (Y) en función de varias
variables independientes (X1, X2, …, Xn), se denomina regresión múltiple.
Permite analizar de qué modo una variable depende de las variaciones en
otras variables.
Ecuación de regresión lineal múltiple para estimar una variable dependiente
(Y) a partir de dos variables independientes (X1; X2):
Yj = α + β1X1j + β2X2j
Donde: Yj es la variable dependiente
X1 y X2: son las variables independientes.
α : constante, intersección, valor de Y cuando X1, y X2 son igual a cero.
β1 y β2: coeficientes de regresión parcial.
Expresan cuanto cambia Y en respuesta a un cambio en X1 o X2 manteniendo
las otras constantes o invariantes.
UNLP - FCNyM - ESTADÍSTICA
Ecuaciones y planos de regresión:
Podemos definir la ecuación en su forma muestral:
Ŷj = a + b1X1j + b2X2j
Donde : a es estimador de α; y
b1 y b2 son estimadores de β1 y β2 respectivamente.
Este modelo se denomina regresión lineal múltiple debido a la naturaleza lineal
(aditiva) de los parámetros de la ecuación (α y β).

9/22/2014
8
UNLP - FCNyM - ESTADÍSTICA
Ecuaciones y planos de regresión:
Un modelo de regresión múltiple (Y; X1 y X2) en un sistema de coordenadas
rectangulares tridimensional, se representa con un plano de regresión de Y
sobre X1 y X2. Con n variables independientes, se define un espacio
multidimensional (“ superficie de respuesta” o “hiperplano”).
UNLP - FCNyM - ESTADÍSTICA
Ecuaciones y planos de regresión:
Del mismo que en el caso de la regresión simple, no todos los datos
poblacionales se ubicarán sobre el plano, por lo que incluimos un error (εi).
Yj = α + β1X1j + β2X2j + εi
εi: es una medida del error o diferencia entre el valor real y el valor estimado
por la ecuación (su suma también es cero).

9/22/2014
9
UNLP - FCNyM - ESTADÍSTICA
Análisis de regresión múltiple (ARM):
Analiza la relación entre una variable dependiente (Y) respecto a o en función
de un conjunto de variables independientes (X1 a Xn) en forma simultánea,
computando la función lineal que mejor ajuste a los datos (por mínimos
cuadrados).
Los objetivos del ARM son:
i) Establecer una ecuación lineal que permita predecir una porción
significativa de la varianza de una variable dependiente (Y) en función de un
conjunto reducido de variables independientes (X1, …, Xn).
ii) Estimar y ajustar un modelo estructural que explique las variaciones
observadas en la variable dependiente (Y) en función de las variables
independientes consideradas.
UNLP - FCNyM - ESTADÍSTICA
Ejemplo: Análisis de regresión múltiple (Y; X1; X2)
Y: concentración media anual de SO2 (ug/m3)
4 variables climáticas:
X1: temperatura media anual (º F)
X4: velocidad media anual del viento (millas/hora).
X5: precipitación media anual (pulgadas)
X6: número de días con precipitación al año
2 variables antrópicas:
X2: número de fábricas con más de 20 empleados.
X3: tamaño poblacional humana (en miles)
Datos de Sokal & Rohlf (1995). Procesados con Statistica (7.1)

9/22/2014
10
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 2: Análisis de regresión múltiple (Y; X1; X2).
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 2: Análisis de regresión múltiple (Y; X1; X2).
Ŷ = 77,24 – 1,05 X1 + 0,02 X2
R² = 11,374,09 / 22,037,90 = 0,516
R = √ R² = √ 0,5161 = 0,7184
R²aj = 1 – (1 - R²)(n-1/n-k-1) = 1 – (1 – 0,516)(41-1/41-2-1) = 0,4906

9/22/2014
11
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 3: Análisis de regresión múltiple (Y; X1; X2; X3).
Ŷ = 58,20 – 0,59 X1 + 0,07 X2 – 0,05 X3
R² = 13,499,25 / 22,037,90 = 0,613
R = √ R² = √ 0,613 = 0,783
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 3: Análisis de regresión múltiple (Y; X1; X2; X3)
Estimación de Y a partir del modelo:
Ŷ = 58,20 – 0,59 X1 + 0,07 X2 – 0,05 X3
Ciudad 1:
X1 (Temperatura media anual): 70,3 º F
X2 (Número de fábricas con más de 20 empleados): 213
X3 (Tamaño poblacional humana, en miles): 582.00’0 hab.
Ŷ = 58,183 – (0,5868)(70,3) + (0,07128)(213) – (0,04670)(582) =
Y’ = 4,9 ug SO2/m3
Ŷ (estimado) = 4,9 ug SO2/m3
Y (observado) = 10 ug SO2/m3

9/22/2014
12
UNLP - FCNyM - ESTADÍSTICA
Resultados Análisis de Regresión Múltiple
Ejemplo 2: ARM (Y; X1; X2)
Y = 77,24 – 1,05 X1 + 0,02 X2
R² = 11,374,09 / 22,037,90 = 0,516
R = √ R² = 0,7184
Ejemplo 3: ARM (Y; X1; X2; X3)
Y = 58,20 – 0,59 X1 + 0,07 X2 – 0,05 X3
R² = 13,499,25 / 22,037,90 = 0,613
R = √ R² = √ 0,613 = 0,783
A medida que incremento el número de variables mejora el ajuste del modelo,
lo que significa que las nuevas variables independientes muestran una
correlación parcial con la variable dependiente.
UNLP - FCNyM - ESTADÍSTICA
Análisis de regresión múltiple paso a paso
A medida que aumentamos el número de variables independientes en un
modelo se espera que se incremente el valor del coeficiente de correlación
múltiple ( R), salvo que las nuevas variables no estén asociadas con la variable
dependiente.
¿Todas las variables aportan por igual al modelo?
¿Cómo seleccionar aquellas que tienen mayor peso relativo?
Análisis de regresión múltiple paso a paso:
Forward (agregando) or Backward (eliminando) progresivamente.

9/22/2014
13
UNLP - FCNyM - ESTADÍSTICA
Análisis de regresión múltiple paso a paso
Los criterios de selección de variables pueden ser (Forward):
i) Aquellas que producen un incremento significativo en el valor de R²
(Coeficiente de determinación múltiple). A tal fin, se puede seleccionar aquella
variable que tiene el mayor valor de correlación parcial (ry.1…k).
ii) Calcular el valor de F correspondiente al test de significancia del
incremento de R² debido a la inclusión de la nueva variable (“valor de F para
entrar”). Se incorpora aquella variable que tenga el mayor valor, sólo si es
significativo a un nivel especificado.
Ambos criterios son coincidentes.
El proceso se detiene cuando el valor de F es no significativo en relación a un
nivel nominal de P (“valor de P para entrar”).
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 4: Análisis de regresión múltiple paso a paso
(Stepwise: Forward) (Y; Xn).

9/22/2014
14
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 4: Análisis de regresión múltiple paso a paso
(Stepwise: Forward) (Y; Xn).
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 4: Análisis de regresión múltiple paso a paso
(Stepwise: Forward) (Y; Xn).

9/22/2014
15
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 4: Análisis de regresión múltiple paso a paso
(Stepwise: Forward) (Y; Xn).
UNLP - FCNyM - ESTADÍSTICA
Ejemplo 4: Análisis de regresión múltiple paso a paso
A medida que aumentamos el número de variables independientes en un
modelo se incrementa el valor del coeficiente de correlación múltiple ( R),
salvo que las nuevas variables no estén asociadas con la variable dependiente.
Podemos observar el incremento de la varianza explicada y la reducción
progresiva de la varianza NO explicada a medida que incluimos nuevas
variables independientes (Forward).
Del mismo modo podemos ver el efecto de eliminar progresivamente
variables independientes del análisis sobre la varianza No explicada (errores o
residual), eliminando del modelo aquellas variables que no aporten
significativamente al modelo (Backward).
De este modo podemos definir aquel modelo de regresión múltiple que tenga
el mejor ajuste con el menor número de variables independientes.

9/22/2014
16
UNLP – FCNYM
CLASE ESPECIAL
MUCHAS GRACIAS
La Plata, septiembre de 2014
UNLP - FCNyM - ESTADÍSTICA
Interpretación geométrica de la correlación parcial.
Se observa un elipsoide tridimensional con sus respectivas proyecciones bidimensionales
(sombreadas). El elipsoide se corta para Y2 = C, generando una elipse que representa la
covariación de las variables Y1 y Y3 cuando la variable Y2 se mantiene constante (e igual a
C), a medida que esa elipse sea más alargada, mayor será la correlación parcial entre Y1 y
Y3.