Análisis de Regresión LinealAnálisis de Regresión LinealLa construcción de un modelo de...

42
METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Análisis de Regresión Lineal Análisis de Regresión Lineal Mª Dolores Cubiles de la Vega Departamento de Estadística e Mª Dolores Cubiles de la Vega Departamento de Estadística e Departamento de Estadística e Investigación Operativa Universidad de Sevilla Departamento de Estadística e Investigación Operativa Universidad de Sevilla 1 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación METODOLOGÍA ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES 9El Análisis de Regresión es un conjunto de técnicas estadísticas cuyo objetivo es investigar la posible relación existente entre una variable Y llamada variable dependiente o 9El Análisis de Regresión es un conjunto de técnicas estadísticas cuyo objetivo es investigar la posible relación existente entre una variable Y llamada variable dependiente o existente entre una variable Y, llamada variable dependiente o respuesta, y un conjunto de p variables X 1 ,...,X p llamadas variables independientes, tomando valores en R las p+1 existente entre una variable Y, llamada variable dependiente o respuesta, y un conjunto de p variables X 1 ,...,X p llamadas variables independientes, tomando valores en R las p+1 variables consideradas. variables consideradas. 9Se aplica en numerosas áreas como la Economía, Ingeniería, Medicina, Ciencias Sociales, y en particular dentro de las 9Se aplica en numerosas áreas como la Economía, Ingeniería, Medicina, Ciencias Sociales, y en particular dentro de las Tecnologías de la Información. Tecnologías de la Información. 9Cuando p=1 se tiene una sola variable independiente, que se denotará por X, hablándose en tal caso de Análisis de Regresión Si l 9Cuando p=1 se tiene una sola variable independiente, que se denotará por X, hablándose en tal caso de Análisis de Regresión Si l Simple. Simple. 2 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

Transcript of Análisis de Regresión LinealAnálisis de Regresión LinealLa construcción de un modelo de...

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Análisis de Regresión LinealAnálisis de Regresión Lineal

Mª Dolores Cubiles de la Vega

Departamento de Estadística e

Mª Dolores Cubiles de la Vega

Departamento de Estadística eDepartamento de Estadística e Investigación Operativa

Universidad de Sevilla

Departamento de Estadística e Investigación Operativa

Universidad de Sevilla

1MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

El Análisis de Regresión es un conjunto de técnicasestadísticas cuyo objetivo es investigar la posible relaciónexistente entre una variable Y llamada variable dependiente o

El Análisis de Regresión es un conjunto de técnicasestadísticas cuyo objetivo es investigar la posible relaciónexistente entre una variable Y llamada variable dependiente oexistente entre una variable Y, llamada variable dependiente orespuesta, y un conjunto de p variables X1,...,Xp llamadasvariables independientes, tomando valores en R las p+1

existente entre una variable Y, llamada variable dependiente orespuesta, y un conjunto de p variables X1,...,Xp llamadasvariables independientes, tomando valores en R las p+1v b es depe d e es, o do v o es e s pvariables consideradas.v b es depe d e es, o do v o es e s pvariables consideradas.

Se aplica en numerosas áreas como la Economía, Ingeniería,Medicina, Ciencias Sociales, y en particular dentro de las

Se aplica en numerosas áreas como la Economía, Ingeniería,Medicina, Ciencias Sociales, y en particular dentro de lasTecnologías de la Información.Tecnologías de la Información.

Cuando p=1 se tiene una sola variable independiente, que sedenotará por X, hablándose en tal caso de Análisis de RegresiónSi l

Cuando p=1 se tiene una sola variable independiente, que sedenotará por X, hablándose en tal caso de Análisis de RegresiónSi lSimple.Simple.

2MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

D t d l A áli i d R ió Si l d di ti iDentro del Análisis de Regresión Simple  puede distinguirse, según Cramer (1970): 

Análisis de Regresión Simple I: cuyo objetivo es el de construir una función ϕ(X) que permita obtener la mejor representación posible de la variable Y, en el sentido del siguiente principio de mínimos cuadrados:

Se demuestra que la solución a este problema se obtiene para

  [ ]2)(XYEMin ϕϕ

Se demuestra que la solución a este problema se obtiene para 

  [ ]xXYEx == /)(ϕllamándose curva de regresión a la curva obtenida al representar los puntos 

  [ ]( ){ }RxYEx X ∈/

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 3

[ ]( ){ }RxYEx xX ∈= ,/,

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Análisis de Regresión II: se restringe la búsqueda de la función ϕ(x) a una determinada clase de funcionesϕ(x) a una determinada clase de funciones Si la clase       es la formada por todas las funciones lineales posibles, 

 Φpos b es,

  { }RxxxR ∈∀+=∈∃=Φ ,)(:,/ 1010 ββϕββϕ

se estará efectuando un Análisis de Regresión Lineal Simple.

Cuando la curva de regresión sea una recta, ésta coincidirá con la función lineal obtenida por el procedimiento de mínimos p pcuadrados.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 4

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

El estudio de la nube de puntos, correspondiente a una muestral i i l d l i bl (X Y) d i laleatoria simple de la variable (X,Y), puede sugerir la

conveniencia de transformar alguna de estas variables, para queel Análisis de Regresión Lineal Simple proporcione un modelo loel Análisis de Regresión Lineal Simple proporcione un modelo lomás representativo posible de las nuevas variables resultantes.

La realización de un Análisis de Regresión Lineal Simple nosuele ser automática, sino que requiere un proceso iterativo en el

d id i d l t átique se pueden considerar varios modelos matemáticosalternativos. Para cada uno de estos modelos alternativos deberealizarse su diagnosis y validación proceso que consiste en larealizarse su diagnosis y validación, proceso que consiste en lacomprobación de las hipótesis asociadas, así como evaluar lacalidad de la aproximación.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 5

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Diagrama de flujo de este proceso iterativo.g j p

C o m ie n z o

F o r m u la r u n m o d e lo

E s t im a c ió n d elo s p a r á m e t ro slo s p a r á m e t ro s

D ia g n o s is yv a l id a c ió n

¿ C o r r e c to ?N o

S í

E v a lu a r e la ju s t e

S í

N o

¿ C o r r e c to ?

S í

F in

6MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

La construcción de un modelo de aproximación mediante unAnálisis de Regresión Lineal Simple permite efectuar dos tiposAnálisis de Regresión Lineal Simple permite efectuar dos tiposde análisis:

Análisis de Predicción, donde a partir del descubrimiento deasociaciones, y la habilidad para expresar tales asociaciones enuna forma matemática precisa, se pueden obtener prediccionesde un valor no observable de la variable Y a partir del valor de lavariable Xvariable X.

Análisis de Correlación, cuyo objetivo es caracterizar la, y jforma de la asociación existente, así como medir su fuerza ointensidad.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 7

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

El ét d d í i d d di i t l tEl método de mínimos cuadrados, procedimiento usualmenteempleado para estimar los parámetros en los modelos deregresión fue propuesto independientemente por Carl Friedrichregresión, fue propuesto independientemente por Carl FriedrichGauss en Alemania, sobre 1795 y por Adrien Marie Legendre enFrancia, sobre 1805.

Las primeras aplicaciones del método se hicieron enastronomía y geodesia.

L i bli ió l i d t tLa primera publicación relacionada con este tema aparece en1805 en un apéndice del libro de Legendre que trata sobre ladeterminación de las órbitas de los planetas describiendo eldeterminación de las órbitas de los planetas, describiendo elmétodo de mínimos cuadrados como un procedimientoalgebraico (no probabilístico) para ajustar una ecuación lineal alos datos.

Posteriormente, entre 1809 y 1828, Gauss y Laplace dieronl f d t b bilí ti d t ét d

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 8

los fundamentos probabilísticos de este método.

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Modelo de RegresiónModelo de Regresión Lineal Simplep

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 9

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Se considera el modelo de Regresión Lineal Simplepoblacional siguiente:

Y = β0 + β1X + ε

Donde Y denota la variable dependiente (también llamadarespuesta), X es la variable independiente (también llamadarespuesta), X es la variable independiente (también llamadapredictora), ε representa una perturbación aleatoria o errorcuya presencia representa la no existencia de una relaciónexacta, y β0, β1 son coeficientes ó parámetros desconocidos.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 10

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

En este modelo teórico se suponen las siguientescondiciones:

a) E[ε]=0.b) V[ ] E[ 2] 2b) V[ε]=E[ε2]=σ2.c) Cov(ε,X)=0.

Para estimar los parámetros y estudiar la validez del modelo,se dispondrá de una muestra aleatoria simple (X1,Y1),...,(X Y ) S t d á t t l i i t d l d R ió(Xn,Yn). Se tendrá por tanto el siguiente modelo de RegresiónLineal Simple Muestral:

Yi = β0 + β1Xi + εi i=1,...,n

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 11

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

El método más empleado de estimación de los parámetros, es elde mínimos cuadrados. Supondremos conocida una realización(x y ) (x y )(x1, y1),...,(xn, yn).

Definición 1. Dado el par (xi,yi), y dados β0, β1, se define laefinición . ado e pa (xi,yi), y dados β0, β1, se de e apredicción de mediante 

ixXY =/  ii xy 10ˆ ββ +=

Definición 2. Se define el error de predicción o residuo para la observación i-ésima como  

iii yye ˆ−=

El objetivo del método de mínimos cuadrados consiste en minimizar la suma de los cuadrados de los residuos.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 12

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Definición 3. Se definen los estimadores mínimo-cuadráticosde los parámetros β0, β1 como aquellos estimadores quep β0, β1 q qminimizan la suma de los residuos cuadráticos.

d l l i i blSe tratará por tanto de resolver el siguiente problema:

 ∑∑ =

nn

xyMineMin 22 )( ββ

PROPOSICIÓN 1. Supuesto que , los estimadores

∑∑==

−−=i

iii

i xyMineMin1

10,1,

)(1010

ββββββ

  02 ≠xSp q ,mínimo cuadráticos de los parámetros β0, β1 vienen dados por las siguientes expresiones:

x

xy ˆˆ ββ −= xy 10 ββ =

21ˆ xy

S

S=β

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 13

21

xSβ

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Intervalos de Confianza.Se van a construir mediante el método de la cantidad pivotal.

ˆˆ

Para β0:

)ˆ(ˆ02/1,20 ββ α EStn −−m

Para β :

)ˆ(ˆ12/1,21 ββ α EStn −−m

Para β1:

⎟⎞

⎜⎛ −− 22 ˆ)2(ˆ)2( σσ nn

Para σ2:

⎟⎟⎠

⎜⎜⎝ −−−

22/,2

22/1,2

)2(,

)2(

αα χσ

χσ

nn

nn

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 14

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

⎨⎧ = 0: 00 βH

Contrastes de Hipótesis.Para β0:

⎩⎨ ≠ 0: 01 βH

β̂El estadístico a utilizar es:

)ˆ( 0

0

ββ

EST =

B j H T l l ió í iBajo H0, T~tn-2, por lo que la región crítica para un contraste con nivel de significación α es:

2/1,2 α−−> ntT

El p-valor o probabilidad de observar una desviación de la hipótesisEl p-valor, o probabilidad de observar una desviación de la hipótesisnula igual o mayor a una desviación observada T0 es:

{ }TtPp >=

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 15

{ }02 TtPp n >= −

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Análogamente se tiene el siguiente contraste para β1:

⎨⎧ = 0: 10 βH

⎩⎨⎧

≠ 0: 11

10

ββ

H

El estadístico a utilizar es:El estadístico a utilizar es:

)ˆ(

ˆ

1

1

ββ

EST =

Bajo H0, T~tn-2, por lo que la región crítica para un contraste connivel de significación α es:

2/1,2 α−−> ntT

Similarmente al caso anterior, el p-valor viene dado por:

{ }02 TtPp >=

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 16

{ }02 TtPp n >= −

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

La tabla de análisis de la varianza (tabla ANOVA) donde seLa tabla de análisis de la varianza (tabla ANOVA), donde sedescompone la suma de cuadrados total de la variable dependiente Ysegún las fuentes de variación. La estructura de esta tabla es la

Fuente de Sumas de Grados de Cuadrados Estadístico

gsiguiente:

Fuente de

Variación

Sumas de

Cuadrados

Grados de

Libertad

Cuadrados

Medios

Estadístico

F

Regresión 1∑=

−=n

iiR yySC

1

2)ˆ(

1R

R

SCCM =

E

R

CM

CMF =

n

Error n-2

Total n-1

∑=

−=n

iiiE yySC

1

2)ˆ(

2−=

n

SCCM E

E

∑ −=n

iT yySC 2)(=i 1

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 17

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Coeficiente de DeterminaciónCoeficiente de Determinación.A partir de la tabla del análisis de la varianza se puede calcular unamedida de la bondad del ajuste proporcionado por el modelo dej p p pregresión lineal simple.

ÓDEFINICIÓN. Se define el coeficiente de determinación R2 comola proporción, respecto a la variación total observada de Y,explicada por el modelo de regresión lineal:explicada por el modelo de regresión lineal:

ER

SC

SC

SC

SCR −== 12

TT SCSC

R2 carece de unidad de medida, por lo que permite comparar rectasd ió l l d i bl di ti t E lde regresión calculadas con variables distintas. En general,mientras más próximo a 1 esté el coeficiente de determinación,cabe esperar un mejor ajuste de la recta de mínimos cuadrados a la

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 18

cabe esperar un mejor ajuste de la recta de mínimos cuadrados a lanube de puntos.

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Sin embargo, la utilización exclusiva del coeficiente R2 comomedida de la bondad del ajuste puede conducir ocasionalmente ainterpretaciones erróneas sobre la relación entre las variables X e Yinterpretaciones erróneas sobre la relación entre las variables X e Y,por lo que debe examinarse siempre la nube de puntos, ya que R2

puede ser grande aunque X e Y no estén relacionadas linealmente.puede se g de u que e o es é e c o d s e e e.Así, las siguientes gráficas, presentan dos nubes de puntos, extraídasde Anscombe (1973), ambas con R2=0.6856, pero con relaciones denaturaleza muy distintas.

11

10

10

Y

10

9

8

7Y

9

8

7

6

161412108642

6

5

4

161412108642

6

5

4

3

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 19

X

161412108642

X

161412108642

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Obtención de predicciones.

P di ió t l

.

Predicción puntualUna de las principales aplicaciones de cualquier ajustefuncional es la de predecir valores de la variable dependiente

0/ xXY =

funcional es la de predecir valores de la variable dependientepara un determinado valor X=x0. En el modelo de RegresiónLineal Simple, una predicción puntual para el valor de

0100ˆˆˆ xy ββ +=

i d dviene dada por

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 20

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

.

Estimaciones por intervalos: Intervalos de Confianzaun intervalo de confianza al 100(1-α)% para [ ]/YEun intervalo de confianza al 100(1 α)% para [ ]

0/ xXYE =

20 )(1 xx −

20

2/1,20

)(1ˆˆ

x

nnS

xx

nty +−− σαm

Estimaciones por intervalos : Intervalos de predicciónun intervalo de confianza al 100(1-α)% para / XYu e va o de co a a a 00( α)% pa a

0/ xXY =

20 )(1

1ˆˆxx

ty−

++σm22/1,20 1x

n nSnty ++−− σαm

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 21

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

A áli i d C l ióAnálisis de CorrelaciónEl coeficiente de correlación lineal ρ entre las variables X e Yviene dado por 12σviene dado por

21

12

σσσ

ρ =

Este coeficiente toma valores en el intervalo [-1 1] siendoEste coeficiente toma valores en el intervalo [ 1,1] siendouna medida de la intensidad y el signo de la relación linealentre las dos variables.La estimación de máxima verosimilitud de ρ es:

( )( )∑ −−n

ii YYXX

( ) ( )∑∑==

=

−−==

n

ii

n

ii

i

YYXX

r

1

2

1

2

1ρ̂

Por tanto la estimación de máxima verosimilitud delcoeficiente de correlación lineal poblacional coincide con el

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 22

coeficiente de correlación lineal muestral r.

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Modelo de Regresión LinealModelo de Regresión Lineal Múltiplep

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 23

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Modelo Teórico

En primer lugar planteamos desde el punto de vista teóricop e uga p a ea os desde e pu o de v s a eó coel modelo poblacional:

El modelo que nos permite realizar una predicción se

0 1 1 .p pY X Xβ β β ε= + + + +L

El modelo que nos permite realizar una predicción seobtiene a partir de la estimación de los parámetros queaparecen, es decir, de los coeficientes.

pp XXY βββ)))

+++= ...110*

pp XXY βββ +++ ...110

24MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Modelo TeóricoModelo Teórico

Para realizar la estimación de los coeficientes, es necesarioconsiderar una muestra de la población a la que se le medirála variable objetivo o dependiente, yi y las variablesexplicativasexplicativas.

Una vez obtenidos estos datos, se pueden definir los residuoscomo la diferencia entre el valor observado de la variablecomo la diferencia entre el valor observado de la variableobjetivo y el valor que se predeciría con el modelo propuesto.

25MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión se estima minimizando el errorcuadrático medio (ECM), es decir, la media de los erroresl d d S b l fi i t t l

 ( )21i i

n

ECM β β β∑

al cuadrado. Se buscan los coeficientes tales que

( )

( )0 1

0 1 1, , ,

1

22

1min min

1 1

pi i p ip

i

n n

ECM y x xn

e y x x

β β ββ β β

β β β

=

= − − − − =∑

∑ ∑

KL

( )10 11 1

.i i i ippi i

e y x xn n

β β β= =

= = − − − −∑ ∑ L

26MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Los supuestos que se deben verificar en este modelo son:

Variables cuantitativas tanto la objetivo como lasVariables cuantitativas, tanto la objetivo como lasexplicativas.

Para cada valor de la variable o variables explicativas, lac d v o de v b e o v b es e p c v s,distribución de la variable objetivo debe ser normal. Al serdifícil de comprobar esta hipótesis se sustituye por que losresiduos deben poseer una distribución normal de media 0 yvarianza constante.

La varianza de la distribución de la variable explicativaLa varianza de la distribución de la variable explicativadebe ser la misma para todos los valores de la variableobjetivo.j

Relación lineal entre las variables explicativas y laobjetivo.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 27

Observaciones independientes.

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Caso práctico (SPSS)

• Los datos del fichero “arboles.sav” proporcionan elvolumen (pies cúbicos), altura (pies) y diámetro( l d ) d d 31 á b l d l i(pulgadas) de una muestra de 31 árboles del tipo cerezonegro, en Pensilvania.

• Objetivo realizar un estudio sobre el rendimiento de la• Objetivo: realizar un estudio sobre el rendimiento de lamadera, para ello, se ajusta un modelo de regresiónlineal que permita predecir el volumen de un árbollineal que permita predecir el volumen de un árbolcuando se conoce su altura y diámetro.

28MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Analizar + Regresión + Lineales

29MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Variable dependiente: volumenVariables independientes : altura y diámetro

30MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Variable dependiente: volumenVariables independientes : altura y diámetro

Se puede también en el cuadro de diálogo:

i bl i d di bl ifi di iAgrupar variables independientes en bloques y especificar distintosmétodos de entrada para diferentes subconjuntos de variables.

Elegir una variable de selección para limitar el análisis a un subconjuntode casos que tengan valores particulares para esta variable.

Seleccionar una variable de identificación de casos para identificar lospuntos en los diagramas.p g

31MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Opción Estadísticos: p

32MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

A áli i d l R lt dAnálisis de los Resultados

33MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Coeficiente de determinación R2, se define como la proporción, respecto a

la variación total observada de Y, explicada por el modelo de regresiónlineal:

ER SCSC

R 12

T

E

T

R

SCSCR −== 1

El modelo ajustado explica el 94,8% dela variabilidad.

34MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Tabla de Análisis de la Varianza.Para el análisis de los resultados obtenidos en el ajuste de un modelo de regresiónlineal suele construirse la tabla de análisis de la varianza (tabla ANOVA), donde sedescompone la suma de cuadrados total de la variable dependiente Y según lasfuentes de variación. La estructura de esta tabla desde el punto de vista teórico es lasiguiente:

Fuente de

Variación

Sumas deCuadrados

Grados de

Libertad

Cuadrados

Medios

Estadístico

F

Regresión

p

∑=

−=n

iiR yySC

1

2)ˆ(

p

SCCM R

R = R

C

CMF =

Error

n-p-1

∑=

−=n

iiiE yySC

1

2)ˆ(

p

1−−=

pn

SCCM E

E

ECM

Total

n-1

i 1

∑=

−=n

iiT yySC

1

2)(

1pn

i 1

35MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

El resultado de esta tabla obtenido para el ejemplo que estamosutilizando corresponde a la siguiente:

⎧ == 0:H ββ

Contraste Fundamental

⎩⎨⎧

≠==

0lg:

0:

1

210

iúnaH

H

βββ

F = 254,972 y el p-valor = 0,000 nos indica que el conjunto formado por las variablesindependientes están relacionadas linealmente con la variable dependiente volumen.

36MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Estimación de los coeficientesEstimación de los coeficientes

La estimación de los coeficientes del modelo de regresión a partir de la tabla anterior nos daría el modelo estimado:

Volumen = ‐57,988 + 4,708 diámetro + 0,339 altura

37MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Intervalos de ConfianzaSe pueden construir mediante el método de la cantidad pivotal, losintervalos de confianza para los coeficientes:intervalos de confianza para los coeficientes:

)ˆ(ˆ2/1,1 ipni ESt ββ α−−−±

⎟⎟⎠

⎞⎜⎜⎝

⎛ −−−−2

2/1

2

22/11

2 ˆ)1(,

ˆ)1(

αα χσ

χσ

pnpn

pnpnVarianza:

Aplicando estos intervalos a los datos de nuestro ejemplo, obtenemos lossiguientes resultados:

⎠⎝ −−−−− 2/,12/1,1 αα χχ pnpn

gIC (β0) al 95% = (-75,682, -40,293)IC (β1) al 95% = (4,167, 5,249)IC (β2) al 95% = (0,073, 0,606)IC (β2) al 95% (0,073, 0,606)

Para σ2 tendríamos que calcularlo, utilizando la SCE que tenemos en latabla ANOVA, obteniendo:

IC(σ2) al 95% = (10,1930, 24,939)

38MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

C t t d Hi ót isContrastes de Hipótesis

⎩⎨⎧

≠=

0:

0:

1

0

i

i

H

H

ββ

ˆ

)ˆ( i

i

EST

ββ

=Estadístico

Bajo H T~t por lo que la región crítica para un contraste con

2/11> tT

Bajo H0, T~tn-p-1, por lo que la región crítica para un contraste con nivel de significación α es:

2/1,1 α−−−> pntT

{ }01 TtPp pn >=

p-valor viene dado por:

{ }01p pn −−

En nuestro ejemplo el p-valor correspondiente a este coeficiente es 0.000,con lo cual podemos decir que la variable diámetro está relacionadalinealmente con la variable volumenlinealmente con la variable volumen.De la misma forma se plantea el contraste para el coeficiente β2, de formaque el p-valor obtenido en la tabla del SPSS corresponde a 0.014 con lo quepodemos afirmar que la variable altura está relacionada linealmente con lapodemos afirmar que la variable altura está relacionada linealmente con lavariable volumen.

39MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Diagnosis y Validación del Modelo de RegresiónDiagnosis y Validación del Modelo de Regresión

lid ió d l hi ó ilid ió d l hi ó iValidación de las hipótesis

Linealidad

Validación de las hipótesis

Linealidad

Homocedasticidad

Normalidad

Homocedasticidad

NormalidadNormalidad

Estudio de la calidad de las observaciones

Normalidad

Estudio de la calidad de las observaciones

40MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Para comprobar que se verifican las hipótesis del modelo nos basamosl di d l id U áli i id d d l iden el estudio de los residuos. Un análisis cuidadoso de los residuos

puede informarnos sobre el cumplimiento de los mismos. En algunoscasos usaremos análisis gráficos y en otros numéricos.

ResiduosSe definen como las diferencias entre los valoresSe definen como las diferencias entre los valorescalculados por el modelo y los realmente observados en lavariable dependientep

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 41

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Ti d R idTipos de Residuos

• Residuo (No tipificado)  : diferencia entre el valor observado y el valor pronosticado por el modelopronosticado por el modelo.

iiiii xyyye 10ˆˆˆ ββ −−=−=

• Residuo Tipificado : el residuo dividido por una estimación de su error típico. (También conocidos como residuos de Pearson) Tienen media 0 y desviación típica 1. e

• Residuo eliminado estudentizado : Residuo para un caso cuando ese

ii

ii

h

er

−=

1σ̂

Residuo eliminado estudentizado : Residuo para un caso cuando ese caso se excluye del cálculo de los coeficientes, dividido por su error típico.

ie

iii

ii

ht

−=

1ˆ )(σ

42MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

i lid d h d i id dLinealidad y homocedasticidad

Las gráficas de los residuos (ei, ri ó ti) frente a laspredicciones son muy útiles para identificar posiblesviolaciones de las hipótesis iniciales en cuanto a lalinealidad y la homogeneidad de las varianzas.

La interpretación a partir de la nube de puntos obtenidadebe ser simétrica respecto al eje horizontal (para verificarp j (pla linealidad de la relación) y de anchura constante (paraconfirmar la homogeneidad de las varianzas).

43MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Ej lEjemplos

( )3

(a)

ti

2

1

3

2

1

tti0

-1

0

-1

ti

1086420

-2

-32,01,51,0,50,0-,5-1,0-1,5-2,0

-2

-3

-4

1086420

Predicciones Predicciones

,,,,,,,,,

(a) Comportamiento satisfactorio(b) La varianza crece con la magnitud de las predicciones

44MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

2 3,0

1

0ti

2,5

2,0

1,5ti

-1

2

1,0

,5

0,0

Predicciones

2,01,51,0,50,0-,5-1,0-1,5-2,0

-2

-3

Predicciones

2,01,51,0,50,0-,5-1,0-1,5-2,0

-,5

-1,0

(c )La varianza crece con la magnitud de las predicciones y además se b f l d li lid d

Predicciones Predicciones

observa falta de linealidad

(d) Ausencia de linealidad

45MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

di d l lid dEstudio de la Normalidad

El estudio de la hipótesis de normalidad se basa en elEl estudio de la hipótesis de normalidad se basa en el análisis de la normalidad de los residuos.

Gráficos de probabilidad normal.

Histograma de los residuos tipificados con la curvaHistograma de los residuos tipificados con la curva normal superpuesta.

Métodos numéricos: Test Shapiro-Wilkp

46MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Gráfico de probabilidad NormalGráfico de probabilidad Normal

Se ordenan los residuos tipificados ri de menor aSe ordenan los residuos tipificados, ri, de menor a mayor

)()2()1( ... nrrr <<<

En el gráfico de probabilidad normal se representan los valores

)()()(

n

iPi

)2/1(−=

frente a F(ri), para i=1,2,...,n, siendo F la función de

distribución de la ley N(0,1).distribución de la ley N(0,1).

47MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Continuamos con el ejemplo “arboles”, representamos las gráficas con los residuos. Opciones: Gráficos 

Residuos: ti o ri

Predicciones (pronósticosTipificados)Tipificados)

ZRESID: residuos tipificados (r)

48MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

S es duos t p cados ( )SDRESID: residuos eliminados estudentizados (t)

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Opciones: GuardarEsta opción va a generar nuevas variables en el editor de datos 

ResiduosPredicciones

49MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Hi t d l id ti ifi d l tHistograma de los residuos tipificados con una curva normal superpuesta

50MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Gráfico de probabilidad Normal: en el eje de abcisas está representada laGráfico de probabilidad Normal: en el eje de abcisas está representada laprobabilidad acumulada de los residuos y en el de ordenada la prob. acumulada

teórica de una normal con media 0 y desviación típica 1.

51MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Métodos Numéricos : Test de Shapiro‐Wilk(Analizar + Estadísticos Descriptivos + Explorar + Gráficos con pruebas de Normalidad)(Analizar + Estadísticos Descriptivos + Explorar + Gráficos con pruebas de Normalidad)

P‐valor =0.644  no existen evidenciassignificativas para rechazar la hipótesissignificativas para rechazar la hipótesis de normalidadResiduo estandarizado (ri)

52MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Diagrama de dispersión (Residuos)Validación hipótesis de linealidad y homocedasticidad

53MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Estudio de la calidad de los datos:Estudio de la calidad de los datos:Observación Outlier e Influencia

Los casos con residuos grandes deben ser cuidadosamenteexaminados para averiguar si las puntuaciones asignadasson o no correctas o si difieren de algún modo del resto delos casos.

Se llamará observación outlier a toda observación que sedesvía marcadamente de las demás respecto del modelo deregresión lineal ajustadoregresión lineal ajustado.

Se denominará observación influencia a toda observacióncuya omisión del conjunto de datos produce cambioscuya omisión del conjunto de datos produce cambiossensibles en los resultados obtenidos.

54MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Identificación mediante gráficos de observaciones outlier e influencia

Uno de los métodos más elementales consiste enrepresentar de manera simultánea la recta estimada pormínimos cuadrados y la nube de puntos de los valoresmínimos cuadrados y la nube de puntos de los valores{(xi,yi), i=1,2,...,n}.

55MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

EjemplosEjemplos• El punto A es atípico respecto a los valores de X, pero no

respecto al modelo de regresión lineal, ya que el valorobservado de Y está próximo al punto estimado por la rectaconstruida sin considerar este puntoconstruida sin considerar este punto.

a 20

18

15

13

A

*

Y 10

8

5

1614121086420

5

3

0

X

56MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

• El punto B es atípico para la variable X y para la variable Y, y es también una observación influencia puesto que la rectaes también una observación influencia, puesto que  la recta estimada sin él difiere de manera apreciable  de la recta construida con todos los datos.

30

B

20

Y 10

0

1614121086420

0

-10

X

1614121086420

57MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

• La observación C es atípica respecto a Y, e influye en el cálculo de la recta de mínimos cuadrados En este caso elcálculo de la recta de mínimos cuadrados. En este caso el punto C no es atípico para la variable X.

1414

12

10

C

Y

10

8

6

4

1086420

2

0

X

58MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Método de identificación de observaciones outliersMétodo de identificación de observaciones outliers

Utilizando los residuos eliminados estudentizados, ti

)2/(1,1 npni tt α−−−>

Aplicando al ejemplo, calculamos el valor

)(,p

p j p

mediante Transformar + calcular+ función Gl inversos+ IDF.t

0484,2975.0,28 =t

f f

Observando la columna de los residuos vemos que laobservación 31 toma un valor 2.7656 > 2.0484, luego sepuede considerar observación outlier mediante estecriterio.

59MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Método de identificación de observaciones influenciaUtilizando el estadístico Di de Cook definido

( )2

)(2ˆˆ

ˆ2

1 ∑ −=n

jiji yyDσ 12 =jσ

> 11i FD

Aplicando al ejemplo, calculamos el valor mediante 

α−−−> 1,1, pnpi FD

Transformar + calcular+ función Gl inversos+ IDF.F y

observando la columna del estadístico Di , podemos decirque no existen observaciones influencias.

60MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Finalizada esta etapa, podríamos preguntarnos si:

b l d l d ió j t d ?•¿es bueno el modelo de regresión ajustado?•¿se puede mejorar este modelo?

La respuesta con los datos desarrollados sería que la bondad de ajuste delmodelo de regresión es adecuada (observando el valor de R), sin embargo elcomportamiento de los residuos en las gráficas obtenidas no es del todop gadecuada para verificar la hipótesis de linealidad, junto a la existencia de unvalor atípico (observación 31).

Solución para posibles mejoras del modelo:• ajustar un modelo de regresión introduciendo un término cuadráticopara una de las variables independientes (diámetro altura)para una de las variables independientes (diámetro, altura).• filtrar la existencia de posibles valores atípicos.

61MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Propuesta 1.‐ Se introduce en el modelo la variable diámetro al cuadrado.Variable dependiente volumenVariable dependiente: volumenVariables independientes: altura, diametro2 

Análisis de los Resultados

Resumen del modelo bResumen del modelo b

,986a ,973 ,971 2,7995Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), diametro2, alturaa.

Variable dependiente: volumenb.

Ecuación de Regresión:    

Volumen = ‐27.512 + 0.349 altura + 0.168 diametro2

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 62

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Validación hipótesis con los residuosValidación hipótesis  con los residuos

Pruebas de normalidad

Kolmogorov-Smirnova

Shapiro-Wilk

,116 31 ,200* ,955 31 ,212StudentizedDeleted Residual

Estadístico gl Sig. Estadístico gl Sig.

g p

Este es un límite inferior de la significación verdadera.*.

p‐valor

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 63

Corrección de la significación de Lillieforsa.

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Propuesta 2.‐ Se introduce en el modelo la variable altura al cuadrado.Variable dependiente volumenVariable dependiente: volumenVariables independientes: altura2, diametro

Análisis de los Resultados

bResumen del modelo b

,974a ,949 ,945 3,8468Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Ecuación de Regresión:    

Variables predictoras: (Constante), diámetro, altura2a.

Variable dependiente: volumenb.

Volumen = ‐45.675 + 0.002 altura2 + 4.694 diametro

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 64

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Validación hipótesis iniciales

Pruebas de normalidad

E t dí ti l Si E t dí ti l Si

Kolmogorov-Smirnova

Shapiro-Wilk

,104 31 ,200* ,978 31 ,769StudentizedDeleted Residual

Estadístico gl Sig. Estadístico gl Sig.

Este es un límite inferior de la significación verdadera.*.

Corrección de lasignificacióndeLillieforsa.

p‐valor

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 65

Corrección de la significación de Lillieforsa.

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Propuesta 3.‐ Filtramos la observación 31 (outlier)Variable dependiente volumenVariable dependiente: volumenVariables independientes: altura, diametro

Análisis de los Resultados

Resumen del modelo bResumen del modelo

,971a ,944 ,940 3,4896Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante) altura diámetroa

Ecuación de Regresión:    

Variables predictoras: (Constante), altura, diámetroa.

Variable dependiente: volumenb.

Volumen = ‐52.236 + 0.299 altura + 4.477 diametro

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 66

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Diagrama de dispersión (validación hipótesis iniciales)

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 67

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Test de Shapiro‐Wilk (validación hipótesis de normalidad )

Pruebas de normalidad

StudentizedEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

,118 30 ,200* ,962 30 ,353StudentizedDeleted Residual

Este es un límite inferior de la significación verdadera.*.

Corrección de la significación de Lillieforsa.

Analizadas todas las propuestas posibles, se selecciona la más adecuada que podríap p p , q pser cualquiera de las tres mirando la bondad del ajuste. En cuanto a la validaciónde las hipótesis iniciales observamos que el gráfico de dispersión de la propuesta 1valida de forma más clara las hipótesis de linealidad y homocedasticidad.

MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 68

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Obtención de PrediccionesObtención de Predicciones

Una de las principales aplicaciones de cualquier ajustep p p q jfuncional es la de predecir valores de la variabledependiente para un determinado valor X=x0.0

En el modelo de Regresión Lineal, una predicciónpuntual para el valor de , viene dada porp p p

Intervalos de predicción: estimaciones por intervalos

pp xxy βββ ˆ...ˆˆˆ 1100 +++=

Intervalos de predicción: estimaciones por intervalospara

Intervalos de confianza: estimaciones por intervalos0

/ xXY =

Intervalos de confianza: estimaciones por intervalos para [ ]

0/ xXYE =

69MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Estos resultados en SPSS se obtienen indicando en el menú de Guardar los Valorespronosticados no tipificados como predicción puntual los intervalos de pronósticosseñalando las dos opciones posibles que corresponden a los intervalos de confianza(media) y los intervalos de predicción (individuos) como se muestran en la(media) y los intervalos de predicción (individuos) como se muestran en lasiguiente pantalla:

Predicción puntual

Predicción Por intervalos

70MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Siguiendo con nuestro ejemplo vamos a calcular el volumen medioestimado así como los intervalos de confianza y predicción de los árboles deestimado así como los intervalos de confianza y predicción de los árboles dediámetro 21 y altura 82. Para ello añadimos estos datos en el editor de datosy volvemos a realizar el ajuste de la regresión teniendo en cuenta las

i i di d l á f t i t l t llopciones indicadas en el párrafo anterior, como se muestra en la pantalla.

Nota: Nos quedamos con la propuesta1 por tanto utilizamos la variablediametro2, luego el valor a introducir es diametro2=441Los resultados obtenidos para el modelo inicial:

• Predicción puntual del volumen de 75.3805• Intervalo de confianza para la media (72.1314;78.6297)p ( ; )• Intervalo de predicción para los individuos(68.7896;81.9715).

71MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Representamos el gráfico de dispersión junto a la ecuación de regresiónajustada y los intervalos de confianza y de predicción obteniendo el siguientegráfico:g

72MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Técnicas de selección de variables

En muchas situaciones se dispone de un conjunto grandep j gde variables independientes, nos podemos plantear si todaslas variables son necesarias para realizar el modelo de

ió ó d b j dregresión ó podemos tomar un subconjunto de esasvariables.

La colinealidad o multicolinealidad es una situación nodeseable en la que las variables independientes es unadeseable en la que las variables independientes es unafunción lineal de otras variables independientes, esto haceque los parámetros del modelo sean muy inestables, conq p y ,varianzas muy grandes.

73MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Técnicas de selección de variablesTécnicas de selección de variables

Para solucionar el problema planteado existen diferentesPara solucionar el problema planteado existen diferentesprocedimientos estadísticos: (SPSS)

Introducir

EliminarEliminar

Hacia delante

Hacia atrásHacia atrás

Pasos sucesivos

74MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Introducir : procedimiento para la selección de variables enel que todas las variables de un bloque se introducen en unel que todas las variables de un bloque se introducen en unsolo paso.

Eliminar: Procedimiento para la selección de variables enpel que las variables de un bloque se eliminan en un solopaso.

Hacia delante: las variables se introducen secuencialmente

en el modelo. La primera variable para entrar será la quetenga mayor correlación (valor absoluto) con la variabledependiente y además debe cumplir un criterio deentrada De forma sucesiva irán entrado el resto daentrada. De forma sucesiva irán entrado el resto davariables. El criterio termina cuando ya no quedanvariables que satisfagan el criterio de entrada.q g

75MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Hacia atrás: se introducen todas las variables en la

ecuación y después se van excluyendo una tras otra.Aquella variable que tenga la menor correlación parcial conla variable dependiente será la primera en ser consideradapara su exclusión. Si satisface el criterio de exclusión seráeliminada El procedimiento termina cuando ya no quedaneliminada. El procedimiento termina cuando ya no quedanen la ecuación variables que satisfagan el criterio deexclusión.

76MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

P i E d i t d l i blPasos sucesivos: En cada paso se introduce la variableindependiente que no se encuentre ya en la ecuación yque tenga la probabilidad para F más pequeña si esaque tenga la probabilidad para F más pequeña, si esaprobabilidad es suficientemente pequeña. Las variables yaintroducidas en la ecuación de regresión se eliminan deella si su probabilidad para F llega a ser suficientementegrande. El método termina cuando ya no haya más

i bl did t i l id li i dvariables candidatas a ser incluidas o eliminadas.

77MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Fichero: Airepolu.savVariables explicativas: Cantidad de lluvia registrada (lluvia), nivel deeducación (educa) densidad de población (densidad) porcentaje de etniaseducación (educa), densidad de población (densidad), porcentaje de etniasminoritarias (pormin), nivel de contaminación por nitrógeno (nox), nivel decontaminación por azufre (so2), logaritmo neperiano del nivel de

t i ió it ó (l ) l it i d l i l dcontaminación por nitrógeno (lnox) y logaritmo neperiano del nivel decontaminación por azufre (lnso2).Variable objetivo: Tasa de mortalidad (tasamor).

Objetivos: Estudiar los factores socio-culturales que influyen en la tasa demortalidad de los estados.

78MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Método Paso a Paso(Pasos Sucesivos)

En la entrada de datos añadimos el método de pasos sucesivos, con objeto deseleccionar las variables independientes que deben entrar en el modelo deseleccionar las variables independientes que deben entrar en el modelo deregresión.

79MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

R d l A áli i d R lt d

Variables introducidas/eliminadasa

Resumen del Análisis de Resultados

PORMIN ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=,100).

Modelo1

Variablesintroducidas

Variableseliminadas Método

EDUCA ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=,100).

LNSO2 ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=100)

2

3

,100).

LLUVIA ,Por pasos (criterio: Prob. de F paraentrar <= ,050, Prob. de F para salir >=,100).

4

Variable dependiente: TASAMORa.

Esta tabla nos indica que el algoritmo de pasos sucesivos ha realizado 4 iteracionesen la primera entra la variable pormin y no sale ninguna variable en las siguientesen la primera entra la variable pormin y no sale ninguna variable, en las siguientesetapas van entrando las variables educa, lnso2 y lluvia respectivamente pero no saleninguna de las variables que están dentro.

80MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Variables excluidas eVariables excluidas e

294a 2 815 007 349 829LLUVIAModelo1

Beta dentro t Sig.Correlación

parcial Tolerancia

Estadísticosde

colinealidad

,294 2,815 ,007 ,349 ,829

-,393a -4,385 ,000 -,502 ,956

,270a 2,841 ,006 ,352 1,000

-,089a -,888 ,378 -,117 1,000

,332a 3,576 ,001 ,428 ,975

,371a 4,172 ,000 ,484 ,997

LLUVIA

EDUCA

DENSIDAD

NOX

SO2

LNSO2

1

, , , , ,

,176a 1,752 ,085 ,226 ,964

,129b 1,194 ,238 ,158 ,658

,187b 2,135 ,037 ,274 ,941

,000b ,004 ,997 ,001 ,945

,262b 3,098 ,003 ,382 ,932

LNOX

LLUVIA

DENSIDAD

NOX

SO2

2

,292b 3,535 ,001 ,427 ,934

,200b 2,326 ,024 ,297 ,961

,264c 2,681 ,010 ,340 ,593

,074c ,804 ,425 ,108 ,761

-,159c -1,772 ,082 -,232 ,760

LNSO2

LNOX

LLUVIA

DENSIDAD

NOX

3

,092c ,713 ,479 ,096 ,387

-,061c -,469 ,641 -,063 ,378

,073d ,831 ,410 ,112 ,761

-,073d -,750 ,457 -,102 ,620

,142d 1,159 ,252 ,156 ,379

127d 901 372 122 291

SO2

LNOX

DENSIDAD

NOX

SO2

LNOX

4

,127d ,901 ,372 ,122 ,291LNOX

Variables predictoras en el modelo: (Constante), PORMINa.

Variables predictoras en el modelo: (Constante), PORMIN, EDUCAb.

Variables predictoras en el modelo: (Constante), PORMIN, EDUCA, LNSO2c.

Variables predictoras en el modelo: (Constante), PORMIN, EDUCA, LNSO2, LLUVIAd. p ( )

Variable dependiente: TASAMORe.

81MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Resumen del modelo

,644a ,414 ,404 48,02638

,750b ,562 ,547 41,89180

,801c ,642 ,623 38,21409

Modelo1

2

3

R R cuadradoR cuadradocorregida

Error típ. de laestimación

R2=0,683,801 ,642 ,623 38,21409

,827d ,683 ,660 36,26387

3

4

Variables predictoras: (Constante), PORMINa.

Variables predictoras: (Constante), PORMIN, EDUCAb.

Variables predictoras: (Constante), PORMIN, EDUCA,LNSO2

c.

Variables predictoras: (Constante), PORMIN, EDUCA,LNSO2, LLUVIA

d.

ANOVAe

Contraste fundamental ANOVA

94573,849 1 94573,849 41,003 ,000a

133778,921 58 2306,533

228352,770 59

128322,141 2 64161,070 36,561 ,000b

Regresión

Residual

Total

Regresión

Modelo1

2

Suma decuadrados gl

Mediacuadrática F Sig.

100030,629 57 1754,923

228352,770 59

146575,044 3 48858,348 33,457 ,000c

81777,726 56 1460,317

228352,770 59

156024,026 4 39006,007 29,661 ,000d

Residual

Total

Regresión

Residual

Total

Regresión

3

4

72328,743 55 1315,068

228352,770 59

Residual

Total

Variables predictoras: (Constante), PORMINa.

Variables predictoras: (Constante), PORMIN, EDUCAb.

Variables predictoras: (Constante), PORMIN, EDUCA, LNSO2c.

Variables predictoras: (Constante) PORMIN EDUCA LNSO2 LLUVIAd. Variables predictoras: (Constante), PORMIN, EDUCA, LNSO2, LLUVIAd.

Variable dependiente: TASAMORe.

82MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación

METODOLOGÍA  ESTADISTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS

MODELOS LINEALES Y SERIES TEMPORALES

Coeficientesa

Coeficientes noCoeficientesestandarizad

887,111 10,376 85,500 ,000

4,488 ,701 ,644 6,403 ,000

1211 376 74 496 16 261 000

(Constante)

PORMIN

(Constante)

Modelo1

2

B Error típ.

estandarizados

Beta

os

t Sig.

1211,376 74,496 16,261 ,000

3,916 ,625 ,561 6,264 ,000

-28,931 6,597 -,393 -4,385 ,000

1111,938 73,546 15,119 ,000

3,918 ,570 ,562 6,871 ,000

(Constante)

PORMIN

EDUCA

(Constante)

PORMIN

2

3

3,918 ,570 ,562 6,871 ,000

-23,412 6,217 -,318 -3,766 ,000

12,150 3,437 ,292 3,535 ,001

943,769 93,846 10,057 ,000

3,320 ,585 ,476 5,672 ,000

O

EDUCA

LNSO2

(Constante)

PORMIN

4

-13,885 6,888 -,189 -2,016 ,049

15,043 3,435 ,362 4,379 ,000

1,645 ,614 ,264 2,681 ,010

EDUCA

LNSO2

LLUVIA

Variable dependiente: TASAMORa.

Ecuación de Regresión:

Tasamor =943,765 + 3,320 PORMIN ‐13,885 EDUCA + 15,043 LNSO2 +1,645LLUVIATasamor 943,765 + 3,320 PORMIN  13,885 EDUCA + 15,043 LNSO2 +1,645LLUVIA

83MÁSTER EN ESTADÍSTICA PÚBLICA                              Experto Universitario: Estadística Aplicada y Técnicas de Encuestación