UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y...

92
MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA) UNIDAD 9-Análisis de Datos: perspectiva estadística de la explotación de la encuesta TEMA 9.4 –MODELOS DE RESPUESTA BINARIA y LOG-LINEALES AUTORA: Lídia Montero Mercadé DEIO-UPC Versió 1.2 Buenos Aires, 7 a 11 Diciembre 2009

Transcript of UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y...

Page 1: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO

Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA)

UNIDAD 9-Análisis de Datos: perspectiva estadística de la explotación de la encuesta

TEMA 9.4 –MODELOS DE RESPUESTA BINARIA y LOG-LINEALES

AUTORA:

Lídia Montero Mercadé

DEIO-UPC

Versió 1.2

Buenos Aires, 7 a 11 Diciembre 2009

Page 2: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-2 B. Aires - Diciembre del 2.009

TEMA 9.4: TABLA DE CONTENIDOS

9.4-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL__________________________________________________________ 3

9.4-2. VARIABLES DE RESPUESTA BINOMIALES ______________________________________________________________________________ 10

9.4-2.1 FUNCIONES DE LINK ___________________________________________________________________________________________________ 11 9.4-3. INTERPRETACIÓN DE LOS PARÁMETROS______________________________________________________________________________ 16

9.4-3.1 MEDIDAS DE BONDAD DEL MODELO ______________________________________________________________________________________ 20 9.4-3.2 DIAGNÓSTICO DEL MODELO ____________________________________________________________________________________________ 31 9.4-4. EJEMPLOS DE RESPUESTA BINARIA ___________________________________________________________________________________ 35

9.4-4.1 EJEMPLO 1 (DOBSON) _________________________________________________________________________________________________ 35 9.4-4.2 EJEMPLO 2: ACCIDENTES MORTALES SEGÚN USO DEL CINTURÓN – AGRESTI (2002) ______________________________________________ 48 9.4-5. INTRODUCCIÓN A LOS MODELOS LOG-LINEALES______________________________________________________________________ 77

9.4-5.1 MLGZ DE RESPUESTA POISSONIANA______________________________________________________________________________________ 80 9.4-6. MODELOS LOG-LINEALES Y MODELOS MULTINOMIALES ______________________________________________________________ 85

9.4-7. MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA ________________________________________________________________ 86

9.4-7.1 RESTRICCIÓN SOBRE LA FRECUENCIA TOTAL ______________________________________________________________________________ 88 9.4-7.2 HIPÓTESIS DE INDEPENDENCIA EN TABLAS DE DIMENSIÓN 2 __________________________________________________________________ 90

Page 3: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-3 B. Aires - Diciembre del 2.009

9.4-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

Clasificación de los métodos estadísticos de análisis: Variable de respuesta

Cuantitativa Continua Variables Explicativas Binaria Politómica Cuantitativa

Discreta Normal Tiempo entre eventos

Binaria Tablas de contingencia

Regresión logística Modelos log-lineales

Tablas de contingencia

* Modelos log-lineales

Modelos log-lineales

Tests en medias de 2 grupos:

t.test

Análisis de la Supervivencia

Politómicas Tablas de contingencia

Regresión logística Modelos log-lineales

Tablas de contingencia

Modelos log-lineales

Modelos log-lineales

ONEWAY, ANOVA

Análisis de la Supervivencia

Continuas Regresión logística * Modelos log-lineales

Regresión Múltiple

Análisis de la Supervivencia

Factores y covariables

Regresión logística * Modelos log-lineales

ANCOVA Análisis de la Supervivencia

Efectos Aleatorios

Modelos mixtos Modelos mixtos Modelos mixtos

Modelos mixtos Modelos mixtos

Page 4: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-4 B. Aires - Diciembre del 2.009

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA BINARIA

Estas variables de respuesta suelen aparecer cuando se investiga si un individuo ostenta una característica (Y=1) o no (Y=0).

Por ejemplo, en la selección de modos de transporte, dentro de un colectivo de ciudadanos de un ámbito de estudio, se puede investigar si emplean en sus desplazamientos de movilidad obligada a primera hora de la mañana un modo de transporte privado (moto, coche, etc.) o público (metro, autobús, etc.), de manera que arbitrariamente se puede suponer que el empleo por parte de un individuo de transporte público facilita el valor de la variable de respuesta Y=1 (éxito, genéricamente), y el transporte privado Y=0 (fracaso, genéricamente).

Más adelante, se verá la extensión a más de 2 categorías en la variable de respuesta.

Las probabilidades genéricas de éxito y fracaso se van a notar por la letra griega , de manera que,

kkYP 1 : Probabilidad de respuesta satisfactoria en el individuo k-ésimo.

kkYP 10 : Probabilidad de respuesta NO satisfactoria en el individuo k-ésimo.

Cada individuo de un determinado colectivo, tiene asociado un conjunto de variables explicativas,

factores y covariables: pxx 1Tkx .

Page 5: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-5 B. Aires - Diciembre del 2.009

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

Las variables explicativas pxx 1Tkx pueden ser:

Variables cuantitativas.

Transformaciones de variables cuantitativas.

Regresores polinómicos formados a partir de variables cuantitativas.

Variables mudas (dummies) que representan variables cualitativas.

Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.

Por ejemplo, en el problema del reparto modal público-privado, cada individuo tiene asociadas variables explicativas como: la zona de transporte donde reside, la disponibilidad de vehículo, el nivel de ingresos, el valor del tiempo, su nivel de estudios, etc.

El objetivo que se persigue en el presente tema consiste en investigar la relación entre la probabilidad

de la respuesta y las variables explicativas: x .

En diseño de experimentos suelen definirse grupos de individuos, cada uno sometido a la misma combinación de condiciones experimentales, en general, en este tipo de problemas se suelen considerar factores como variables explicativas, de manera que la combinación experimental k-ésima viene

representada por idénticos valores del vector de variables explicativas pxx 1Tkx aplicadas

a km individuos.

Page 6: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-6 B. Aires - Diciembre del 2.009

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

En total, el número de individuos en el estudio es la suma de los individuos en cada una de las combinaciones de condiciones experimentales, si se definen n combinaciones de condiciones o grupos

de individuos, entonces el número total de individuos es nmmN 1 .

Cada combinación define una covariate class o clase de las covariables y todos los individuos pertenecientes a ella comparten los mismos valores de las covariables.

La anterior diferenciación entre individuos y clases de la covariable (grupos de individuos) es crucial a la hora de especificar los datos a un paquete estadístico, en general, ambas representaciones, por individuos o por clases de covariable, suelen ser posibles:

1. Algunos métodos de análisis son apropiados para datos agrupados en clases de covariables, pero no para datos individualizados, por ejemplo las aproximaciones normales.

2. Las aproximaciones asintóticas aplicadas a datos agrupados se pueden basar en dos tipos distintos de evolución asintótica, sobre el número de individuos en cada clase de covariables o grupo ( m ) o sobre el número total de individuos ( N ). Los datos individualizados únicamente permiten aproximaciones asintóticas del segundo tipo.

Page 7: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-7 B. Aires - Diciembre del 2.009

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

… Diferenciación entre datos por individuos y por clases de la covariable (grupos de individuos) …

Datos por individuo Datos por clase de covariable

Individuo Variables explicativas

Respuesta Clase de Covariable

Tamaño de la clase

Respuestas satisfactorias

1 (1,1) 0 (1,1) 2 1

2 (1,2) 1 (1,2) 3 2

3 (1,2) 0 (2,1) 1 0

4 (2,1) 0 (2,2) 1 1

5 (2,2) 1

6 (1,2) 1

7 (1,1) 1

La tabla anterior ilustra un experimento no balanceado con 2 factores A y C, cada uno de ellos con dos categorías, por tanto n=4=2x2 y un total de individuos N=7 . Por ejemplo, el factor A puede ser una categorización de la edad de un individuo: categoría 1 si es menor de 21 años, categoría 2 el resto. El factor C puede ser la disponibilidad de coche en el hogar: categoría 1 disponible y categoría 2 no disponible.

La simple observación de los datos parece indicar que a más edad y ante disponibilidad de coche en el hogar menor incidencia de la selección modal del transporte público.

Page 8: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-8 B. Aires - Diciembre del 2.009

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

… Representación individual o por clases de covariables …

La representación de los datos en clases de la covariable es más eficiente en cuestión de espacio y facilita la detección de los efectos significativos por inspección visual.

La representación en clases de la covariable implica la pérdida de la información sobre el orden serial de los individuos, es más agregada y no permite reconstruir la información por individuos original, aspecto que en la mayoría de los estudios no resulta relevante.

La representación en clases de la covariable implica que la respuesta tiene la forma

nn mymy ,,11 , donde kk my 0 es el número de resultados satisfactorios (éxitos) en

la clase de la covariable k-ésima entre los km individuos que la constituyen.

El vector de tamaño de las clases de las covariables se denomina vector índice binomial o vector denominador binomial y se nota por nmm 1m .

Los datos en formato individuos constituyen un caso particular de vector de índice binomial constante a

unos: 11 m .

Page 9: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-9 B. Aires - Diciembre del 2.009

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

La información agrupada puede representarse mediante una tabla de contingencia tridimensional, donde los factores que la definen, continuando con el ejemplo anterior, son la respuesta Y (en columnas), el factor A (subtabla) y el factor C (filas):

Y=0 Y=1 Y=0 Y=1 x1=1 x2=1 1 1 x1=2 x2=1 1 0

x2=2 1 2 x2=2 0 1

O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas):

FACTOR C C1 =1 CK=2 =2

FACTOR B – Respuesta Y FACTOR B – Respuesta Y TOTAL FACTOR A B1 Y=0 BJ=2 Y=1 SUBTOTAL B1 Y=0 BJ=2 Y=1 SUBTOTAL

A1 = 1 1 1 2 1 2 3 5

AI=2 =2 1 0 1 0 1 1 2

SUBTOTAL 2 1 1 3

TOTAL 3 4 7

Page 10: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-10 B. Aires - Diciembre del 2.009

9.4-2. VARIABLES DE RESPUESTA BINOMIALES

El contexto y justificación de los procesos binomiales se ha estudiado detalladamente en cursos de Estadística de primer ciclo de las titulaciones:

Si ,mBY entonces la variable aleatoria modeliza el número de respuestas satisfactorias (éxitos) en m repeticiones de experiencias base de Bernoulli mútuamente independientes y de probabilidad individual de éxito común igual a .

1

1

0

0

mYVmY

my

myim

y

yF

ym

yYPyp

y

i

imiY

ymyY

Page 11: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-11 B. Aires - Diciembre del 2.009

RESPUESTAS BINOMIALES. FUNCIONES DE LINK

9.4-2.1 Funciones de link

El objetivo que se persigue es establecer una relación funcional entre la probabilidad de la respuesta

y el vector de variables explicativas o covariables pxx 1Tx : x .

Se va a detallar la construcción de un modelo capaz de describir como los cambios en los valores de las covariables afectan a la probabilidad de la respuesta.

El modelo formal a detallar consiste en las tres componentes habituales en los Modelos Lineales Generalizados:

La componente aleatoria asume independencia de las observaciones de nT YY ,,Y 1 y

pertenencia a la distribución binomial (miembro de la familia exponencial), con Y .

La componente sistemática del modelo consiste en la especificación de un vector , el predictor lineal a partir de un número reducido de parámetros a estimar y regresores; parámetros

pT ,,1 y regresores pXX ,,X 1 .

En notación matricial, X donde es nx1, X es nxp y es px1.

La función de link resulta imprescindible para garantizar la correspondencia entre , que puede tomar valores entre más/menos infinito y el intervalo cerrado 0,1.

Page 12: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-12 B. Aires - Diciembre del 2.009

RESPUESTAS BINOMIALES. FUNCIONES DE LINK

El vector está funcionalmente relacionado con el predictor lineal , a través de la función de link,

notada como g(.), de manera g , es nx1. El link canónico es la función logit: logit .

El link canónico es el más empleado en la práctica rutinaria, por ser el más sencillo de interpretar como el logaritmo de los odds, sin embargo no tiene porqué adaptarse bien a los datos: es importante entender bien el rol de la función de link y no actuar automáticamente.

Las funciones de link más habitualmente empleadas para respuestas binarias son:

1. La función logit o logística:

11 loglogitg .

O bien,

expexp

11

11 g . La ley logística da lugar a esta transformación, la derivada de

2

11 1

exp

exp'

g es la función densidad de probabilidad de la ley logística estándar de media

0 (parámetro de posición) y varianza 32 (parámetro de escala 1), simétrica alrededor de 0.

Page 13: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-13 B. Aires - Diciembre del 2.009

RESPUESTAS BINOMIALES. FUNCIONES DE LINK

… Las funciones de link más habitualmente empleadas para respuestas binarias son:

2. La función probit o función normal estándar inversa: 12

g Y

122 g . La ley normal estándar (media 0 y varianza 1) es la que da lugar a la

definición de esta función de link.

3. La función log-log complementaria 1loglog3g . Donde la función respuesta es,

expexp 1133 g .

La función de link es la inversa de la distribución del valor extremo mínimo (ley de Gompertz), con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de e=-0.577216 (derivada primera de la función gamma evaluada en 1) y una varianza de 62 .

4. La función log-log 1loglog4 g , donde la función respuesta es

expexp1144 g . La f. link es la inversa de la distribución del valor

extremo máximo (ley de Gumbel), con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de - e y una varianza de 62 .

Las funciones de link anteriores pueden obtenerse como las inversas de las probabilidades acumuladas de leyes conocidas.

Page 14: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-14 B. Aires - Diciembre del 2.009

RESPUESTAS BINOMIALES. FUNCIONES DE LINK

El cambio de escala que suponen las funciones de link logit y probit numéricamente es: Probabilidad

Odds

1

Log-odds

x

1log

Probit

x 1

C_log-log

x

1loglog

Log-log

x

loglog

0,01 0,0101 -4,5951 -2,3263 -4,60015 -1,52718

0,05 0,0526 -2,9444 -1,6449 -2,97020 -1,09719

0,10 0,1111 -2,1972 -1,2816 -2,25037 -0,83403

0,15 0,1765 -1,7346 -1,0364 -1,81696 -0,64034

0,20 0,2500 -1,3863 -0,8416 -1,49994 -0,47588

0,25 0,3333 -1,0986 -0,6745 -1,24590 -0,32663

0,30 0,4286 -0,8473 -0,5244 -1,03093 -0,18563

0,50 1,0000 0,0000 0,0000 -0,36651 0,36651

0,70 2,3333 0,8473 0,5244 0,18563 1,03093

0,75 3,0000 1,0986 0,6745 0,32663 1,24590

0,80 4,0000 1,3863 0,8416 0,47588 1,49994

0,85 5,6667 1,7346 1,0364 0,64034 1,81696

0,90 9,0000 2,1972 1,2816 0,83403 2,25037

0,95 19,0000 2,9444 1,6449 1,09719 2,97020

0,99 99,0000 4,5951 2,3263 1,52718 4,60015

Page 15: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-15 B. Aires - Diciembre del 2.009

RESPUESTAS BINOMIALES. FUNCIONES DE LINK

0

0,2

0,4

0,6

0,8

1

1,2

ETA

-3,5

9-3

,17

-2,7

5-2

,33

-1,9

1-1

,49

-1,0

7-0

,65

-0,2

30,

190,

611,

031,

451,

872,

292,

713,

133,

553,

97

PI_1(ETA)PI_2(ETA)PI_3(ETA)PI_4(ETA)

Page 16: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-16 B. Aires - Diciembre del 2.009

9.4-3. INTERPRETACIÓN DE LOS PARÁMETROS

Para resumir las conclusiones de un estudio es conveniente expresar las magnitudes de los efectos estimados en una escala de fácil interpretación, que no tiene porqué coincidir con la escala representada por la función de link.

Si se empleado el link canónico y continuando con el ejemplo de la selección modal público-privado, con 2 factores A y C, el modelo para los log-odds de una respuesta satisfactoria (transporte público):

Txlog

0

211 xx

O bien, en función de los odds de una respuesta positiva (satisfactoria):

22110 xx

expxexpexp T

Lo que permite encontrar la expresión de la probabilidad de una respuesta positiva 11 g

(inversa de la función de link) como,

22110

22110

111 xxxx

expexp

xexpxexp

expexp

T

T

Page 17: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-17 B. Aires - Diciembre del 2.009

INTERPRETACIÓN DE LOS PARÁMETROS

… y por tanto la probabilidad de respuesta negativa es,

2211011

11

11

xx

expXexpexp

La interpretación del modelo en la escala de los log-odds seria:

1. Si se supone que los factores representados por los regresores x1 y x2 son no correlacionados, entonces el efecto de un cambio en una unidad de x2 es incrementar el log-odd de una respuesta

positiva en una cantidad igual a su parámetro 2 .

2. Equivalentemente en la escala de los odds, el efecto de un cambio en una unidad de x2 es incrementar el odd de una respuesta positiva en una cantidad igual a la exponencial de su parámetro

2exp .

3. La interpretación en la escala de las probabilidades de respuesta positiva son más complicadas, ya que el efecto sobre la probabilidad de una unidad de cambio en x2 depende de los valores de x1 y x2.

La derivada parcial de la probabilidad de respuesta positiva respecto es 2

2

x ,

lo que ilustra que el efecto de un pequeño cambio x2 en la probabilidad de respuesta positiva tiene

mayor efecto si está cerca de 0.5 que si está cerca de 0 o de 1.

Page 18: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-18 B. Aires - Diciembre del 2.009

INTERPRETACIÓN DE LOS PARÁMETROS

El gráfico de la derivada de la probabilidad de respuesta positiva respecto ,

1' para expresado en función de , ' ,

ayuda a visualizar las conclusiones, ya que se detecta un máximo en :

0

0,05

0,1

0,15

0,2

0,25

0,3

0,02

0,03

0,04

0,07 0,1

0,15

0,22

0,31

0,42

0,53

0,65

0,74

0,82

0,88

0,92

0,95

0,97

0,98

Page 19: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-19 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS

El procedimiento iterativo método de los scores no suele presentar problemas de convergencia, excepto cuando uno o más estimadores de los parámetros toman valor infinito, en cuyo caso no converge, lo que implica que las probabilidades ajustadas son cero o uno, debido a que hay

observaciones 0iy o ii my . A pesar de que el proceso de estimación de los parámetros no

converge, los valores ajustados si que convergen hacia un valor y la devianza también hacia un valor límite.

La implicación es que la función de log-verosimilitud es muy plana o tiene una asíntota y por tanto ni los estimadores de los parámetros ni las estimaciones de su error estándar deben ser creídos.

Se han demostrado resultados de existencia y unicidad de los estimadores de los parámetros si la función de link empleada es cualquiera de las 4 indicadas en el apartado 9.4-2.1 y si ii my 0 para todas las clases definidas por las covariables.

La calidad del punto inicial no es muy determinante puesto que reduce en pocas iteraciones la convergencia del algoritmo, sin embargo, un valor inicial muy extremo, respecto al óptimo desconocido, puede llevar a la divergencia del algoritmo.

Page 20: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-20 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

9.4-3.1 Medidas de bondad del modelo

Sean los estimadores resultantes del proceso iterativo, estos estimadores determinan un valor del

predictor lineal y a través de la función de link unas probabilidades ajustadas (valores medios ajustados

por clase de covariable): ii g ˆˆ 1 .

La función devianza escalada tiene por expresión, y,ˆy)(y,ˆy,' 22 D .

La devianza se define como la devianza escalada por el parámetro de dispersión y son idénticas en este caso:

ˆy,'ˆy,'ˆy, DDD si iii mBY ,

El modelo maximal y)(y, implica unas probabilidades ajustadas i

ii m

y~ , lo que permite notar el

modelo maximal como y),~( .

Page 21: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-21 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

Quedándonos con el resultado final, la expresión de la devianza resulta:

n

i iii

iiii

ii

ii mm

ymymm

yyDD1

2 ˆ

logˆ

logˆy,ˆy,

En muchos textos específicos de regresión logística, el estadístico D, devianza, suele expresarse como,

negativapostiva

n

i i

ii e

ooD

,log

12

donde,

1. El sumatorio interno indica por ii yo los valores observados en el grupo con respuesta positiva.

2. El sumatorio interno indica por iii ymo los valores observados en el grupo con respuesta negativa.

3. El sumatorio interno indica por iii me los valores esperados en el grupo con respuesta positiva.

4. El sumatorio interno indica por iiii mme los valores observados en el grupo con respuesta negativa.

Page 22: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-22 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

El uso de la devianza como estadístico de bondad del ajuste requiere de resultados asintóticos sobre su distribución y se le suele atribuir a menudo, a la ligera, que ,YD se distribuye asintóticamente

como una 2

pn (no confundir con 2

pN ).

Recordar que el p valor de la Devianza (Escalada y siempre entendida como residual) es la probabilidad que la distribución de referencia tome un valor superior a la devianza. Si el p valor supera el límite del 5% habitual, entonces no hay evidencia para rechazar la hipótesis nula y por tanto la discrepancia entre valores observados y predichos es ‘pequeña’ y se acepta la bondad del modelo.

Semejante al Cp Mallows se emplea para valorar la calidad de modelos, el AIC, definido por Akaike

(1974). Sea MB el modelo con p parámetros pAIC B y,ˆ2 B . Se busca el mínimo AIC.

Dentro de la misma línea y con idea de penalizar la log-V a medida que aumenta p, se calcula el estadístico BIC (Bayesian Information Criteria) (en SAS©), también denominado criterio de Schwartz

npBIC B logy,ˆ2 B . Se da preferencia a modelos con mínimo BIC.

Tanto el AIC, como el BIC pueden emplearse para comparar modelos no forzosamente jerárquicos.

Page 23: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-23 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

La distribución asintótica sólo es cierta ante condiciones muy restrictivas y que difícilmente se van a dar en estudios prácticos (McCullagh, para detalles técnicos); por tanto, la devianza no es directamente utilizable como medida de la bondad del ajuste, pero sí para comparar dos modelos jerárquicos: por ejemplo,

Sea MA el modelo actual con q parámetros y sea MB el modelo con p > q parámetros, sean A y

B , las respectivas probabilidades estimadas, es decir TT21 ,

Y T1

con dim( A )=q<p,

La reducción en la devianza ABD se expresa:

y,ˆ2y,ˆ2y,ˆ2y),~(2y,ˆ2y),~(2ˆ,ˆ, ABBABAAB DDD yy

BAAB DDD ˆ,yˆ,y tiene una distribución aproximada de 2

qp si n es grande o bien el

número de observaciones en cada clase de covariable im es grande.

Page 24: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-24 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

El test de la devianza es equivalente al test de Fisher del modelo lineal general clásico.

El test equivalente al test t de Student para los coeficientes del modelo es el test de Wald. El

estadístico de Wald para el contraste de H0: jj ˆ seria: 100 ,ˆ

ˆ.

ˆ

NasintZj

jj

, si

H0 es cierta.

El intervalo de confianza asintótico bilateral a un nivel viene dado por jzj ˆ/ ˆˆ

2 , donde

2/z es el valor de la ley normal estándar que deja una probabilidad por la derecha de 2 .

El contraste de hipótesis múltiples en algunos textos se propone a través del estadístico de Wald, sin embargo tiene poca potencia y el procedimiento sugerido en este curso es a través de la reducción de la devianza.

El estadístico de Wald surge de manera natural en el contexto de estimación de los parámetros por

maximización de verosimilitud, ya que asintóticamente (ver el Tema 1) : 10,ˆ pN ,

donde TUU es la matriz de información esperada de Fisher (varianza de los scores), que se

aproxima por WXXT correspondiente a la convergencia del método de los scores.

Page 25: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-25 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

O equivalentemente, en términos de la ley 2p , 2

p

T ˆˆ , donde el estadístico de

Wald es W= ˆˆ T. Recordar que: ˆˆˆ 1

IOIEIE

V .

00 : puede contrastarse por 20

1

0ˆˆˆ

p

TVW

.

Si TTT21 , con dim( 2 )=q<p y 0 20 : entonces 2

2

1

22ˆˆˆ

qTVW

.

Si dim( 2 )=1 entonces 0: 20 se toma la raíz cuadrada del estadístico de Wald y se trata

habitualmente el cociente como una normal estándar: 1,0ˆ

ˆ

2

2 NV

z

.

La devianza tiene un papel análogo a la suma de cuadrados residual de los modelos lineales generales clásicos, lo que permite definir el análogo al coeficiente de determinación R2 de los modelos lineales, que se define como,

AA

AA

AA DDGdondeDG

GDD

R

,,,,,

,,,

1 00

2 yyyyy

yyy

,

10 2 R

Page 26: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-26 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

…. donde AD ,y es la devianza del modelo A a contrastar (debe contener término

independiente), 0,yD es la devianza del modelo .

La esparsidad en los modelos de respuesta binaria se da cuando el número de observaciones por clase

de covariable es pequeño, en el caso extremo 1im , no habrán problemas en la estimación ni en los

estadísticos de goodness of fit si n (número de clases de covariables) es grande.

Otra medida de bondad del ajuste empleada en muchos textos sobre regresión logística es el

estadístico de Pearson X2, asintóticamente distribuido como una 2

pn , al igual que el estadístico D, devianza. El estadístico de Pearson generalizado coincide en respuesta binaria con el clásico y es:

, 1

2

1

2

1

22

ˆˆˆ

ˆˆˆ n

i i

iin

i iii

iiin

i iii

iii

eeo

mym

1mmy

X

Entre paréntesis aparece la expresión habitual en muchos textos, en función de términos de valores observados y esperados de respuestas positivas en cada grupo (clase definida por las covariables).

Ante esparsidad la reducción de la devianza se puede todavía aproximar por una distribución de 2 .

La extrapolación o predicción fuera del rango de las observaciones de las covariables es delicada, ya que es altamente dependiente de la calidad de la adaptación de la función de link empleada a los datos.

Page 27: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-27 B. Aires - Diciembre del 2.009

ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

Hosmer y Lemeshow (1980,1989) han propuesto un estadístico alternativo que no requiere de agrupaciones en clases de la covariable, la idea consiste en usar las probabilidades predichas por el modelo para crear 10 grupos 0–0.1, 0.1–0.2, hasta el último grupo de 0.9–1. Para cada grupo se cuentan las respuestas positivas y negativas observadas y predichas por el modelo, mediante el estadístico de Pearson tradicional (valores observados menos predichos al cuadrado dividido por valor predicho), que

mediante simulaciones se ha comprobado tiende a una ley de 2 con el número de grupos menos 2

grados de libertad.

Otra manera de establecer una valoración de un modelo se base en sus errores de predicción. Supongamos que se usa el modelo para predecir las respuestas positivas si la probabilidad estimada excede el valor 0.5 y las respuestas negativas si está por debajo. Posteriormente se puede construir una tabla de contingencia con las respuestas observadas y predichas y calcular la proporción de casos correctamente predichos. Como se puede intuir, un modelo que ajusta bien los datos, no necesariamente puede resultar un buen modelo predictor, ya que este hecho depende de cuan predecible es la respuesta. Si la predicción fuera el único objetivo de un MLGz, la proporción de clasificaciones correctas debería ser el criterio ideal para la comparación de modelos y no la devianza.

Page 28: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-28 B. Aires - Diciembre del 2.009

BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

Se va a definir en general una tabla de clasificación donde se contabilicen para todas las clases de la covariable n, el número de efectivos en las categorías cruzadas de valor observado (1 o 0) y valor predicho

(1 o 0), donde se considera 1ˆ iy si si ~ , donde s es un umbral entre 0 y 1. Para cada valor del umbral s que se desee tantear se puede escribir una tabla:

Y=1 Y=0 Total 1ˆ iy a b a+b 0ˆ iy c d c+d

a+c b+d n

La sensibilidad es la proporción de verdaderos valores 1 que son estimados 1 : Sn =a/(a+c).

La especificidad es la proporción de verdaderos valores 0 que son estimados 0: Sp = d/(b+d).

Los valores predictivos positivos y negativos del modelo se definen como: P+=a/(a+b) y P- =d/(c+d).

La curva ROC (Receiver Operating Characteristic) permite representar las repercusiones de la selección del umbral s respecto la sensibilidad y la especificidad. En abcisas se pone para cada valor s, 1-Sp y en ordenadas Sn. Si para todo s, la proporción de 1ˆ iy es la misma para las observaciones 1 o 0, entonces Sn=1-Sp, la curva ROC es la diagonal y el modelo no es informativo (área bajo la curva ½). Un umbral s es ideal si permite separar totalmente las observaciones 1 y 0, es decir, si c=b=0 y por tanto Sn=1 y 1-Sp=0. Una buena referencia electrónica para trabajar el tema se encuentra en http://gim.unmc.edu/dxtests/ROC1.htm.

Page 29: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-29 B. Aires - Diciembre del 2.009

BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

1ˆ y

0ˆ y

1y

Parte de Especificidad Sp

0y

Parte de Sensibilidad Sn

El gráfico de la izquierda indica el proceso de construcción de una curva ROC para s fijado y la gráfica de la derecha muestra 3 curvas ROC que representan modelos con capacidades predictivas respectivas excelente, buena y muy mala. La capacidad predictiva depende de cuan bien separe el modelo de grupo de verdaderos positivos y es el área bajo la curva ROC. A título de guía para clasificar la capacidad predictiva del modelo en

cuestión se da el siguiente criterio en función del área bajo la curva ROC:

.90-1 = excelente(A)

.80-.90 = buena (B)

.70-.80 = media (C)

.60-.70 = mala (D)

.50-.60 = muy mala (F)

Page 30: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-30 B. Aires - Diciembre 2.009

BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

Se definen cuatro índices de asociación entre las probabilidades observadas y las probabilidades predichas. Para definirlas se consideran todos los pares de observaciones con valores de Y distintos, son H= (a+c)(b+d).

o … para cada par se calcula la probabilidad predicha y si es superior para la observación y=1 que para y=0 se dice que el par es concordante.

o … si la probabilidad predicha es inferior para la observación y=1 que para y=0 se dice que el par es discordante.

o Y si tiene la misma probabilidad se dice que hay empate (tie).

o Sea C el número de pares concordantes, D el número de pares discordantes y T el número de empates.

Los índices de asociación relativos a la capacidad predictiva del modelo son:

Tau de Kendall = (C-D)/H Gamma = (C-D)/(C+D)

D de Sommer = (C-D)/(C+D+T) C=0.5(1+D de Sommer)

La capacidad predictiva mejora en la medida que los índices se aproximan a 1 y el índice c corresponde al área bajo la curva ROC. Estos índices aparecen en MINITAB.

Page 31: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-31 B. Aires - Diciembre 2.009

ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

9.4-3.2 Diagnóstico del modelo

Los procedimientos de análisis de los residuos y detección de valores influyentes para la diagnosis de la calidad del modelo de regresión lineal normal clásico, han sido extendidos, con mayor o menor fortuna, a los modelos lineales generalizados.

En la presente sección, se presentan los procedimientos de diagnosis del modelo de respuesta binaria (génesis debida a Pregibon (1981), exposición según Fox (1991)): residuos estudentizados, leverages, estadístico de Cook, plots de los residuos, etc.

El residuo se define como la diferencia entre el valor observado y el valor ajustado, para cada

observación: iiiiii myyye ˆ .

El residuo de Pearson o el residuo de la devianza, definidos en el Tema 1, facilitan la noción de contraste entre los valores observados y los valores ajustados por el modelo.

Sin embargo, ninguno de los dos tipos de residuos anteriores tiene una distribución normal y son difíciles de analizar, dadas las características discretas de las observaciones y los residuos por grupos (algo parecido a la dificultad del análisis de los residuos en el análisis de la varianza). De todos modos, combiene examinar cualquier residuo que en valor absoluto supere la magnitud de 2.

Page 32: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-32 B. Aires - Diciembre 2.009

ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La analogía con los mínimos cuadrados ponderados permite a algunos autores definir el valor ajustado en

la escala logit xˆ Tii y el residuo logit iii

ii m

ee

ˆˆ*

1 .

El diagrama bivariante de los valores ajustados en la escala logit (abcisas) frente a los residuos logit (ordenadas), permiten una interpretación similar, pero en la escala logit, a sus homónimos en la regresión lineal normal clásica.

Los problemas de no linealidad en la escala logit pueden detectarse a veces mediante diagramas bivariantes, tantos como regresores, de los residuos logit (en ordenadas) frente a cada regresor.

La matriz sombrero (matriz de proyección, PYY ) empleada para la detección de valores influyentes a priori en la regresión lineal normal clásica a través de cotas a sus valores diagonales, se redefine en los MLGz según Pregibon como,

21T1T21 WXWXXXWP

La matriz P es simétrica e idempotente, con valores diagonal entre 0 y 1 y cuyo valor medio es p/n. Los

valores influyentes a priori pueden detectarse mediante observaciones cuyo valor de la diagonal de P, esté a más de 2 veces la media. Tiene por tanto una interpretación análoga, sin embargo depende de las observaciones y los valores estimados, a través de W.

Page 33: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-33 B. Aires - Diciembre 2.009

ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La matriz W debe corresponder a la iteración en que ha detectado la convergencia del método de los scores en la estimación de los parámetros.

El empleo de la matriz de pseudo- proyección P permite definir los residuos estudentizados, aunque formalmente interesantes a pesar de su compleja justificación, en la práctica como ya se indicó en el Tema 2 no resultan imprescindibles.

Los valores influyentes a posteriori se detectan mediante el análogo al estadístico de Cook de los modelos clásicos que se justifica a partir del estadístico de Wald para el contraste de significación H0:

0 ,

000

1

020

ˆWXXˆˆˆˆˆ TTTVZ

Sea el estadístico de Wald 2

iZ calculado para la prueba de hipótesis H0: i ˆ , es decir, si puede aceptarse la hipótesis que los parámetros son iguales a los estimadores de los parámetros del modelo MLGz donde se ha suprimido la observación i-ésima; en definitiva, es una medida de la “distancia” entre

y i ( i ˆˆdi ).

Es decir,

iTT

iT xWXXxˆˆWXXˆˆ 1

2

22

1

ii

ii

T

ii peZ

Page 34: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-34 B. Aires - Diciembre 2.009

ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La influencia de una observación es directamente proporcional a su residuo y su leverage (diagonal correspondiente en la matriz de pseudo-proyección P). Se realiza:

1. Un diagrama bivariante con el leverage en ordenadas y el número de observación i en abcisas. Se buscan observaciones con valores superiores a 2p/n.

2. Un diagrama bivariante con la “distancia” de Cook en ordenadas y el número de observación i en abcisas.

3. Un diagrama bivariante con los residuos (Pearson o devianza o logit, según gusto y talento interpretativo del estadístico) en ordenadas y el número de observación i en abcisas.

4. Si el paquete estadístico lo permite fácilmente, los 3 gráficos se pueden fusionar en 2: primero, diagrama bivariante de residuos en ordenadas y leverages en abcisas con identificador del número de observación en cada punto del diagrama; segundo, diagrama bivariante de residuos en ordenadas y “distancia” de Cook en abcisas con identificador del número de observación en cada punto del diagrama

Se aconseja detectar valores atípicos por criterios de estadística descriptiva, más que emplear directamente la referencia de la distribución asintótica del estadístico de Wald correspondiente.

Page 35: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-35 B. Aires - Diciembre 2.009

9.4-4. EJEMPLOS DE RESPUESTA BINARIA

9.4-4.1 Ejemplo 1 (Dobson)

Se desea estudiar la germinación de cultivos de algas en base a un factor de almacenamiento que tiene dos categorías, 1 (base-line, sin almacenamiento posterior al cultivo) y 2 (con almacenamiento posterior durante 48 horas a 3ºC); y una covariable X que indica la fuerza centrífuga aplicada durante la preparación del cultivo, de hecho X sólo puede tomar 3 valores, 40, 150 y 300. Los resultados de germinación se ilustran en la siguiente tabla. Se desea determinar el modelo logístico más adecuado.

X’: Fuerza centrífuga Factor

40 150 350

Nada ki yy 1 55 52 57

ki mm 1 102 99 108

Nevera ki yy 2 55 50 50

ki mm 2 76 81 90

Page 36: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-36 B. Aires - Diciembre 2.009

EJEMPLOS. EJEMPLO 1 (DOBSON)

O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas):

FACTOR C

C1 =log 40 C2 =log 150 CK=3 =log 350

FACTOR B – Respuesta Y

FACTOR B – Respuesta Y FACTOR B – Respuesta Y TOTAL FACTOR A

B1

Y=0 BJ=2 Y=1

SUBTOTAL

B1

Y=0

BJ=2 Y=1

SUBTOTAL

B1

Y=0

BJ=2

Y=1

SUBTOTAL

A1 = 1 Nada 47 55 102 47 52 99 51 57 108 309

AI=2 =2 Nevera 21 55 76 31 50 81 40 50 90 247

SUBTOTAL 68 110 178 78 102 180 91 107 198

TOTAL 178 180 198 556

Page 37: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-37 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 1 (DOBSON)

El número de grupos o clases de las covariables es n=6=2x3. Para recuperar la notación habitual en el análisis de la covarianza clásico, la clases i se identificaran por la categoría del factor (j=1- nada, j=2 - nevera) y por valor ascendente de la covariable X’ (k=1 para 40, k=2 para 150 y k=3 para 350) que va a recibir un tratamiento continuo. Sea X=log(X’).

Modelo 3: Interacciones entre factor y covariable, rectas con distintos intercept y pendiente

2

11 2121

11

jxjx

xk

kkjj

jk

jk

log

,

Modelo completo con p=4 parámetros:

2

1

2

1

2211

log

iiii

i xxI.

¿Sabrías escribir la matriz de diseño?

Page 38: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-38 B. Aires - Diciembre 2.009

EJEMPLOS. EJEMPLO 1 (DOBSON)

Modelo 2: Sin interacciones entre factor y covariable, rectas paralelas, kjjk

jk x

1log

,

Modelo con p=3 parámetros:

2

1

211

log iii

i xI.

Modelo 1: Sin efecto del factor, recta única, kjk

jk x

1log

,

Modelo con p=2 parámetros:

ii

i x11

log.

Modelo 0: Constante,

jk

jk

1log . Modelo con p=1 parámetros:

11

i

ilog.

Page 39: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-39 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 1 (DOBSON)

MTB > Name c6 = 'PRES1' c7 = 'DRES1' c8 = 'HI1' MTB > BLogistic 'Yjk' 'm_i' = c1 c5 c1*c5; SUBC> ST; SUBC> Factors c1; SUBC> Logit; SUBC> Reference Factor 1; SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Hi 'HI1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit Response Information Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 3 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 0,2339 0,6284 0,37 0,710 Factor 2 1,9771 0,9980 1,98 0,048 7,22 1,02 51,07 X -0,0227 0,1268 -0,18 0,858 0,98 0,76 1,25 Factor*X 2 -0,3186 0,1989 -1,60 0,109 0,73 0,49 1,07 Log-Likelihood = -374,109

Page 40: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-40 B. Aires - Diciembre 2.009

Test that all slopes are zero: G = 10,424; DF = 3; P-Value = 0,015 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0,028 2 0,986 Deviance 0,028 2 0,986 Hosmer-Lemeshow 0,028 4 1,000 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 56,7 52,5 54,8 49,7 50,4 54,8 Failure Obs 51 47 47 40 31 21 237 Exp 51,3 46,5 47,2 40,3 30,6 21,2 Total 108 99 102 90 81 76 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0% MTB > Name c9 = 'PRES2' c10 = 'DRES2' c11 = 'HI2' MTB > Name c12 = 'PRES3' c13 = 'DRES3' c14 = 'HI3' MTB > BLogistic 'Yjk' 'm_i' = c1 c5 ; SUBC> ST; SUBC> Factors c1; SUBC> Logit; SUBC> Reference Factor 1;

Page 41: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-41 B. Aires - Diciembre 2.009

SUBC> Presiduals 'PRES3'; SUBC> Dresiduals 'DRES3'; SUBC> Hi 'HI3'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit Response Information Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 2 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 0,8767 0,4870 1,80 0,072 Factor 2 0,4068 0,1746 2,33 0,020 1,50 1,07 2,12 X -0,15459 0,09702 -1,59 0,111 0,86 0,71 1,04 Log-Likelihood = -375,404 Test that all slopes are zero: G = 7,833; DF = 2; P-Value = 0,020 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 2,598 3 0,458 Deviance 2,619 3 0,454 Hosmer-Lemeshow 2,598 4 0,627

Page 42: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-42 B. Aires - Diciembre 2.009

Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 53,2 52,0 58,8 53,4 50,6 51,0 Failure Obs 51 47 47 40 31 21 237 Exp 54,8 47,0 43,2 36,6 30,4 25,0 Total 108 99 102 90 81 76 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0% MTB > Name c15 = 'PRES4' c16 = 'DRES4' c17 = 'HI4' MTB > BLogistic 'Yjk' 'm_i' = c5 ; SUBC> ST; SUBC> Logit; SUBC> Presiduals 'PRES4'; SUBC> Dresiduals 'DRES4'; SUBC> Hi 'HI4'; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus X Link Function: Logit Response Information Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 1 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper

Page 43: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-43 B. Aires - Diciembre 2.009

Constant 1,0213 0,4813 2,12 0,034 X -0,14784 0,09650 -1,53 0,125 0,86 0,71 1,04 Log-Likelihood = -378,141 Test that all slopes are zero: G = 2,360; DF = 1; P-Value = 0,124 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0,010 1 0,921 Deviance 0,010 1 0,921 Hosmer-Lemeshow 0,010 1 0,921 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 Total Success Obs 107 102 110 319 Exp 106,7 102,5 109,8 Failure Obs 91 78 68 237 Exp 91,3 77,5 68,2 Total 198 180 178 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 27872 36,9% Somers' D 0,07 Discordant 22558 29,8% Goodman-Kruskal Gamma 0,11 Ties 25173 33,3% Kendall's Tau-a 0,03 Total 75603 100,0% MTB > Save "G:\LIDIA\MLGz2000\MLGZ_00_1\Binari_ex1.mpj"; MTB >

Page 44: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-44 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 1 (DOBSON)

Interpretación de los parámetros:

Modelo 3 Modelo 2 Modelo 1

a1= 0.238 a1 = 0.877 a = 1.021

a2= 1.977 a2 = 0.407

b1= - 0.023 b= - 0.155 b= - 0.148

b2= - 0.319

LogL= -374.109 LogL= -375.404 LogL= -378.141

D3= 0.0277 D2= 2.619 D1= 8.092

591223 .D y 473512 .D deben contrastarse con una 21 .

En el primer caso se aceptaría la hipótesis nula (pendientes idénticas) aunque la potencia del test es muy baja y en el segundo caso se rechazaría la hipótesis nula y se concluiría que el efecto del almacenamiento es relevante.

En base únicamente al análisis de la devianza, el mejor modelo es el Modelo 2 de pendientes paralelas.

Obsérvese que se ha definido la categoría 1 (Nada) del Factor como la categoría de referencia. La categoría de referencia en la respuesta es la positiva (1).

Page 45: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-45 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 1 (DOBSON)

Organización de los contrastes en forma de tabla de análisis de la devianza: La descripción de los modelos se indica de manera sintética, si la salida de Minitab no facilitara la devianza, sinó únicamente el valor de la función de log-verosimilitud en el óptimo, a partir de éste pueden calcularse los incrementos de devianza entre modelos jerárquicos:

qp2D qpqppq y,ˆy,ˆy,ˆyy,y,ˆyy, 22

Análisis de la Devianza Modelo n-p Devianza o

Log-Verosimilitud Devianza g.l. Modelo

0 1 5 ¿? ¿? 1 Constante

1 X 4 -378.141 5.473 1 Recta simple

2 F+X 3 -375.404 2.591 1 Rectas Paralelas

3 F*X 2 -374.109 Interacción Factor-Cov.

749.0

833.7619.2833.7

,,,

22

22

yy

yDG

GR

¿Sabrías cual es el valor de D0?

Page 46: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-46 B. Aires - Diciembre 2.009

1-ESPECIF

Y-D

ata

1,00,80,60,40,20,0

1,0

0,8

0,6

0,4

0,2

0,0

VariableSENSIB1-ESPECIF

0,700000

0,671129

0,624563

0,593385

0,576020

0,525508

0,4927840,250000

0,700000

0,671129

0,624563

0,593385

0,576020

0,525508

0,4927840,250000

Scatterplot of SENSIB; 1-ESPECIF vs 1-ESPECIF

EJEMPLOS BINARIA. EJEMPLO 1 (DOBSON)

La capacidad predictiva del modelo depende del valor c=0.5(1+D Sommer)=0.5*(1+0.13)=0.575, por tanto es muy mala.

Veamos el proceso de construcción de la curva ROC.

Y M X LOG_X FactorA EPRO3 SENSIB 1-ESPECIF S FITY=1/Y=1 FITY=1/Y=0 55 102 40 3,68888 Res 0,576020 1,00000 1,00000 0,250000 319 237 52 99 150 5,01064 Res 0,525508 1,00000 1,00000 0,492784 319 237 57 108 350 5,85793 Res 0,492784 0,82132 0,78481 0,525508 262 186 55 76 40 3,68888 Nevera 0,671129 0,65831 0,58650 0,576020 210 139 50 81 150 5,01064 Nevera 0,624563 0,48589 0,38819 0,593385 155 92 50 90 350 5,85793 Nevera 0,593385 0,32915 0,21941 0,624563 105 52 0,17241 0,08861 0,671129 55 21 0,00000 0,00000 0,700000 0 0

Page 47: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-47 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 1 (DOBSON)

En R, calcular estadístico de X2 de Pearson: suma de cuadrados de los residuos de Pearson:

sum( resid( model, ‘pearson’) ^2 )

También la suma de cuadrados de los residuos de la devianza, da el estadístico devianza residual del modelo (por defecto, facilitado por los paquetes estadísticos habituales):

sum( resid( model, ‘deviance’) ^2 ) == model$deviance

Page 48: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-48 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

9.4-4.2 Ejemplo 2: Accidentes mortales según Uso del Cinturón – Agresti (2002)

Datos de 68694 accidentes sucedidos en el estado de Main. Se recoge la gravedad y las variables explicativas de género, entorno y uso del cinturón. Se estudiará la incidencia en la presencia de heridos de los factores, por tanto se crea un factor dicotómico: Sin – Con Heridos (ref. Sin)genero entorno cinturon gravedad y Mujer Urbano No SinHeridos 7287 Mujer Urbano Si SinHeridos 11587 Mujer NoUrbano No SinHeridos 3246 Mujer NoUrbano Si SinHeridos 6134 Hombre Urbano No SinHeridos 10381 Hombre Urbano Si SinHeridos 10969 Hombre NoUrbano No SinHeridos 6123 Hombre NoUrbano Si SinHeridos 6693 Mujer Urbano No LeveSinHospital 175 Mujer Urbano Si LeveSinHospital 126 Mujer NoUrbano No LeveSinHospital 73 Mujer NoUrbano Si LeveSinHospital 94 Hombre Urbano No LeveSinHospital 136 Hombre Urbano Si LeveSinHospital 83 Hombre NoUrbano No LeveSinHospital 141 Hombre NoUrbano Si LeveSinHospital 74 Mujer Urbano No LeveConHospital 720 Mujer Urbano Si LeveConHospital 577 Mujer NoUrbano No LeveConHospital 710 Mujer NoUrbano Si LeveConHospital 564

genero entorno cinturon gravedad y Hombre Urbano No LeveConHospital 566 Hombre Urbano Si LeveConHospital 259 Hombre NoUrbano No LeveConHospital 710 Hombre NoUrbano Si LeveConHospital 353 Mujer Urbano No Hospitalización 91 Mujer Urbano Si Hospitalización 48 Mujer NoUrbano No Hospitalización 159 Mujer NoUrbano Si Hospitalización 82 Hombre Urbano No Hospitalización 96 Hombre Urbano Si Hospitalización 37 Hombre NoUrbano No Hospitalización 188 Hombre NoUrbano Si Hospitalización 74 Mujer Urbano No Mortal 10 Mujer Urbano Si Mortal 8 Mujer NoUrbano No Mortal 31 Mujer NoUrbano Si Mortal 17 Hombre Urbano No Mortal 14 Hombre Urbano Si Mortal 1 Hombre NoUrbano No Mortal 45 Hombre NoUrbano Si Mortal 12

Page 49: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

EJEMPLOS BINARIA. EJEMPLO 2

> summary(acc) genero entorno cinturon gravedad y f.heridos Hombre:20 NoUrbano:20 Si:20 Hospitalización:8 Min. : 1.00 Sin: 8 Mujer :20 Urbano :20 No:20 LeveConHospital:8 1st Qu.: 66.75 Con:32 LeveSinHospital:8 Median : 138.50 Mortal :8 Mean : 1717.35 SinHeridos :8 3rd Qu.: 710.00 Max. :11587.00 > tapply(acc$y,acc$f.heridos,sum);sum(acc$y) Sin Con 62420 6274 [1] 68694

Tomando como variable de respuesta la presencia de heridos (f.heridos), globalmente se observa 6274 accidentes de un total de 68694, con una probabilidad de 0,0913. El odds es 6274/62420 o 0,1005 a 1 i el log-odds es log(0,1005) = -2.297472.

Se propone comparar inicialmente la presencia de heridos (respuesta) según el Factor Uso del Cinturón (2 niveles, base-line Si).

Cinturón Con Heridos

(respuesta positiva)Sin Heridos

m

Si (ref) 2409 35383 37792

No 3865 27037 30902

6274 62420 68694

P(‘Accidente CON Heridos’)=0.0913=6274/68694

Page 50: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-50 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en el Uso en los dos grupos definidos por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en el Uso entre los dos grupos:

(M1)

i

i

1log (M2) 021

1

,log ii

i

> dfc cinturon m ypos yneg Si Si 37792 2409 35383 No No 30902 3865 27037 > > acc.m1 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=dfc) > summary(acc.m1) Call: glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit), data = dfc) Deviance Residuals: Si No -19.59 19.60 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.29747 0.01324 -173.5 <2e-16 *** ---

Page 51: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-51 B. Aires - Diciembre 2.009

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 768.03 on 1 degrees of freedom Residual deviance: 768.03 on 1 degrees of freedom AIC: 789.55 > > acc.m2 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=dfc) > summary(acc.m2) Call: glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit), data = dfc) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.68702 0.02106 -127.61 <2e-16 *** cinturonNo 0.74178 0.02719 27.29 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 7.6803e+02 on 1 degrees of freedom Residual deviance: -4.3099e-13 on 0 degrees of freedom AIC: 23.523 > residuals(acc.m1,'pearson') Si No -18.61742 20.58856 > xpea<-sum(residuals(acc.m1,'pearson')^2);xpea [1] 770.4972

Page 52: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-52 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión:

2112

2

2,12 4972.770

ˆˆˆ

pniiii

iiiP m

ymX

La devianza de (M2) es 0 y de (M1) toma por expresión:

21122,1

3.768ˆ

logˆ

log2

pni

ii

iiii

i

ii m

ymymyyD .

Ambos estadísticos son altamente significativos, implicando que el modelo no se ajusta bien a los datos.

En (M1) el estimador ˆ , el logit de la proporción muestral.

En (M2), el estimador , es el logit del nivel de referencia (Si) (logit de la proporción de heridos en grupo que Usa cinturón, logit(2409/37792)=-2.687) y el efecto del nivel No sobre el logit de la proporción de heridos (diferencia de logits entre el nivel No y el nivel de referencia Si: logit(3865/30902)-logit(2409/37792)=0.742.

Noee

Yese

i

i

21 2

1.22 eNovsYesratioodds

Los odds de tener heridos entre los accidentes que No usan cinturón es más del doble que el odds de tener heridos entre los que Si usan cinturón.

Page 53: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-53 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Ahora procedamos a analizar la incidencia de accidentes con heridos según el género del conductor accidentado (referencia género hombre).

Genero Con iy Sin ii ym im

Hombre 2789 34166 36955

Mujer 3485 28254 31739

6274 62420 68694 > acc.m2g <-glm(cbind(ypos,yneg)~genero, family=binomial(link=logit), data=dfg) > summary(acc.m2g) Call: glm(formula = cbind(ypos, yneg) ~ genero, family = binomial(link = logit), data = dfg) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.50555 0.01969 -127.23 <2e-16 *** generoMujer 0.41278 0.02665 15.49 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2.4172e+02 on 1 degrees of freedom Residual deviance: -7.0122e-13 on 0 degrees of freedom

Page 54: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-54 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

AIC: 23.571 Number of Fisher Scoring iterations: 2 >> xpea<-sum(residuals(acc.m1g,'pearson')^2);xpea [1] 242.4970 > log(2789 /34166);log(3485 /28254);log(3485 /28254)-log(2789 /34166) [1] -2.505548 [1] -2.092767 [1] 0.4127809 > exp(0.41278) [1] 1.511013 >

Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en la presencia de heridos en accidentes en los 2 grupos definidos por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en los accidentes con heridos entre los 2 grupos:

(M1)

i

i

1log (M2)

Mi

Hi

i

i

21

1log

El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión:

21121

2

212 497.242

ˆˆˆ

niiii

iiiP m

ymX

La devianza de (M2) es 0 y de (M1) toma por expresión:

Page 55: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-55 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

211221

72.241ˆ

logˆ

log2

pni

ii

iiii

i

ii m

ymymyyD . Ambos estadísticos son

altamente significativos, implicando que el modelo no se ajusta bien a los datos.

En (M1) el estimador ˆ , el logit de la proporción muestral.

En (M2), el estimador , es el logit del nivel de referencia (Hombres) (logit de la proporción de heridos en accidentes en hombres a la vista de la tabla, logit(2789/34166)= -2.51) y el efecto del nivel 2 (mujeres) sobre el logit de “H” (diferencia de logits en los grupos: log(3485 /28254)-log(2789 /34166)=0.413.

Hee

Hei

i

i

21

51.1 ieHvsiGruporatioodds

Los odds de accidentes con heridos se incrementan en un 51% en las mujeres respecto los hombres.

Queda por probar el último modelo univariante según Entorno urbano o no urbano: los odds de accidentes con heridos se decrementan en un (1-exp(-0.7158))x100%=51% si sucede en entorno urbano. Los odds de urbano son 0.4887= exp(-0.7158) veces los odds de no urbano.

Page 56: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-56 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

> summary(acc.m2e) Call: glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit), data = dfe) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.89784 0.01859 -102.08 <2e-16 *** entornoUrbano -0.71584 0.02664 -26.87 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 7.1961e+02 on 1 degrees of freedom Residual deviance: 3.9262e-12 on 0 degrees of freedom AIC: 23.564 Number of Fisher Scoring iterations: 2 > xpea<-sum(residuals(acc.m1e,'pearson')^2);xpea [1] 745.0957 >

Page 57: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-57 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Modelos con 2 Predictores: Cinturón y Entorno

Hay 4 grupos o clases de las covariables, sea ijy el número de accidentes con heridos en el grupo de Cinturón i-ésimo y grupo de Entorno j-ésimo, donde los niveles de referencia son ‘Si’ para Cinturón (Factor A) y ‘NoUrbano’ para el Factor C. > df2 cinturon entorno m ypos yneg 1 Si NoUrbano 14097 1270 12827 2 No NoUrbano 11426 2057 9369 3 Si Urbano 23695 1139 22556 4 No Urbano 19476 1808 17668

Hay 5 modelos de interés aplicables a la estructura sistemática de los datos anteriores (M1) a (M5), cuyas devianzas y detalles de la estimación con MINITAB se detallan a continuación.

Modelo n-p Devianza D Contraste g.l. Modelo 1 1 3 1504.1 Todos significativos Constante:

2 A 2 736.11 767.99 (M2) vs (M1) 1 Cinturón: i

3 C 2 784.53 719.57 (M3) vs (M1) 1 Entorno: j

733.4 (M4) vs (M2) 1 4 A+C 1 2.7116

781.8 (M4) vs (M3) 1 Aditivo: ji

5 A*C 0 0 2.7116 (M5) vs (M4) 1 Interacción Factores: ijji

Page 58: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-58 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

> sum(df2[,3]);sum(df2[,4]);sum(df2[,5]) [1] 68694 [1] 6274 [1] 62420 > acc.m20 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=df2) > summary(acc.m20) Call: glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 4 -0.5131 29.4486 -25.2217 0.7247 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.29747 0.01324 -173.5 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.1 on 3 degrees of freedom Residual deviance: 1504.1 on 3 degrees of freedom AIC: 1542.4 Number of Fisher Scoring iterations: 4 > acc.m21 <-glm(cbind(ypos,yneg)~entorno, family=binomial(link=logit), data=df2) > summary(acc.m21)

Page 59: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-59 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Call: glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 4 -14.92 15.04 -12.97 12.94 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.89784 0.01859 -102.08 <2e-16 *** entornoUrbano -0.71584 0.02664 -26.87 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.14 on 3 degrees of freedom Residual deviance: 784.53 on 2 degrees of freedom AIC: 824.76 Number of Fisher Scoring iterations: 4 > acc.m22 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=df2) > summary(acc.m22) Call: glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit), data = df2)

Page 60: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-60 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Deviance Residuals: 1 2 3 4 12.10 16.82 -10.30 -14.17 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.68702 0.02106 -127.61 <2e-16 *** cinturonNo 0.74178 0.02719 27.29 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.14 on 3 degrees of freedom Residual deviance: 736.11 on 2 degrees of freedom AIC: 776.34 Number of Fisher Scoring iterations: 4 > acc.m23 <-glm(cbind(ypos,yneg)~cinturon+entorno, family=binomial(link=logit), data=df2) > summary(acc.m23) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 4 -0.8793 0.7358 0.9220 -0.7396

Page 61: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-61 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.28676 0.02465 -92.78 <2e-16 *** cinturonNo 0.75265 0.02734 27.53 <2e-16 *** entornoUrbano -0.72721 0.02682 -27.12 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.1407 on 3 degrees of freedom Residual deviance: 2.7116 on 1 degrees of freedom AIC: 44.938 Number of Fisher Scoring iterations: 3 > xpea<-sum(residuals(acc.m21,'pearson')^2);xpea [1] 787.0698 > xpea<-sum(residuals(acc.m22,'pearson')^2);xpea [1] 761.8445 > xpea<-sum(residuals(acc.m20,'pearson')^2);xpea [1] 1618.284 > xpea<-sum(residuals(acc.m23,'pearson')^2);xpea [1] 2.712893 > 1-pchisq(xpea,1) [1] 0.09954032 >

Page 62: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-62 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

El modelo aditivo ajusta bien los datos, vamos a interpretar sus parámetros:

1. es el logit de la probabilidad base: accidentes cuando se usa cinturón en entorno rural.

2. 2 muestra un efecto creciente de la incidencia de accidentados cuando No se usa el cinturón.

3. 2 muestra un efecto decreciente de la incidencia de accidentados cuando el accidente ocurre en Entorno urbano.

4. 2 es positivo y el odds de padecer heridos cuando no se usa cinturón es más del doble que entre los accidentes cuando se usa cinturón dentro del mismo grupo de Entorno (all else being equal o ceteris paribus).

Page 63: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-63 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

La tentativa final consiste en considerar todos las variables explicativas disponibles, es decir, considerar tres factores A, C y D (Cinturón, Entorno y Género). Los posibles modelos son 12 ¡!! Se va a cambiar el orden de los niveles del Factor C – Entorno para facilitar la interpretación.

El modelo aditivo ajusta bien los datos, pero todavía queda devianza por explicar: > summary(acc) genero entorno cinturon gravedad y f.heridos heridos Hombre:20 Urbano :20 Si:20 Hospitalización:8 Min. : 1.00 Sin: 8 Min. : 0.0 Mujer :20 NoUrbano:20 No:20 LeveConHospital:8 1st Qu.: 66.75 Con:32 1st Qu.: 9.5 LeveSinHospital:8 Median : 138.50 Median : 74.0 Mortal :8 Mean : 1717.35 Mean :156.8 SinHeridos :8 3rd Qu.: 710.00 3rd Qu.:163.0 Max. :11587.00 Max. :720.0 > > df3 cinturon entorno genero m ypos yneg 1 Si Urbano Hombre 11349 380 10969 2 No Urbano Hombre 11193 812 10381 3 Si NoUrbano Hombre 7206 513 6693 4 No NoUrbano Hombre 7207 1084 6123 5 Si Urbano Mujer 12346 759 11587 6 No Urbano Mujer 8283 996 7287 7 Si NoUrbano Mujer 6891 757 6134 8 No NoUrbano Mujer 4219 973 3246

Page 64: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-64 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

> summary(acc.m331) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero, family = binomial(link = logit), data = df3) Deviance Residuals: 1 2 3 4 5 6 7 8 -0.5055 -0.7976 0.2133 0.9023 1.7426 -0.4639 -1.5365 0.3172 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.33639 0.03114 -107.14 <2e-16 *** cinturonNo 0.81710 0.02765 29.55 <2e-16 *** entornoNoUrbano 0.75806 0.02697 28.11 <2e-16 *** generoMujer 0.54483 0.02727 19.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 7.4645 on 4 degrees of freedom AIC: 82.167 Number of Fisher Scoring iterations: 3

Page 65: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-65 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

El siguiente paso podría ser añadir una interacción entre 2 de los factores: A*C o A*D o C*D.

Modelo n-p Devianza D Contraste g.l. Modelo 1 A+C+D 4 7.4645 Aditivo: kji

2 A*C+D 3 3.5914 3.8730 (M2) vs (M1) 1 Interacción Cinturón-Entorno : ijkji

3 A*D+B 3 7.3826 0.0818 (M3) vs (M1) 1 Interacción Cinturón-Género: ikkji

4 C*D+A 3 4.4909 2.9736 (M4) vs (M1) 1 Interacción Entorno-Género: jkkji

Estrictamente sólo la interacción entre Cinturón y Entorno es estadísticamente significativa, aunque la interacción entre Entorno y Género tiene un pvalor del 8% según el contraste de devianza con el modelo aditivo. Se interpreta el mejor modelo obtenido hasta el momento donde intervienen los 3 factores y una interacción doble entre el Uso de Cinturón y el Entorno donde sucede el accidente.

glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero, family = binomial, data = df3) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.30342 0.03509 -94.149 <2e-16 *** cinturonNo 0.76173 0.03933 19.366 <2e-16 *** entornoNoUrbano 0.69360 0.04239 16.362 <2e-16 *** generoMujer 0.54594 0.02729 20.007 <2e-16 *** cinturonNo:entornoNoUrbano 0.10800 0.05486 1.968 0.049 *

Page 66: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-66 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

La interpretación en la escala lineal de:

Si el conductor es mujer los log odds se incrementan en 0.55 unidades respecto al grupo de referencia hombres dentro del mismo grupo del resto de factores.

No usar el cinturón incrementa la escala lineal en 0.76 unidades en Entorno urbano y 0.76+0.11 en entorno NoUrbano; dentro del mismo grupo de género.

Conducir en entorno No Urbano incrementa la escala lineal en 0.69 unidades si se usa cinturón y 0.69+0.11 si no se uso cinturón.

Tanto el uso del cinturón como el entorno no pueden interpretarse independientemente, ya que hay un término de interacción.

La interpretación en la escala de los odds seria:

Si el conductor es mujer los odds de darse heridos en el accidente se incrementan en un 73% (exp(0.55)=1.73) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.

No usar el cinturón incrementa los odds de darse heridos en el accidente en un 113% (exp(0.76)=2.13) en Entorno urbano y en un 140% (exp(0.76+0.11)=2.387) en entorno NoUrbano; dentro del mismo grupo de género.

Conducir en entorno No Urbano incrementa los odds de darse heridos en el accidente en un 100% (exp(0.69)=1.994) si se usa cinturón y en casi un 125% (exp(0.69+0.11)=2.226) si no se usa cinturón; dentro del mismo grupo de género.

Page 67: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-67 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

La interpretación en la escala de las probabilidades son aproximadas y seria en términos absolutos según una probabilidad marginal de darse heridos en un accidente de P(‘Accidente CON Heridos’)=0.0913=6274/68694: Y de aquí 0.0913x(1-0.0913)=0.083. Si el conductor es mujer la probabilidad de darse heridos en el accidente sube en 0.046

(0.083x0.55=0.046) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.

No usar el cinturón incrementa la probabilidad de darse heridos en el accidente en 0.063 (0.083x0.76=0.063) en Entorno urbano y en un 0.072 (0.083(0.76+0.11)=0.072) en entorno NoUrbano; dentro del mismo grupo de género.

Conducir en entorno No Urbano incrementa la probabilidad de darse heridos en el accidente en 0.057 (0.083x0.69=0.057) si se usa cinturón y en 0.066 (0.083(0.696+0.11)=0.066) si no se usa cinturón; dentro del mismo grupo de género.

Page 68: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-68 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

> summary(acc.m331) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero, family = binomial(link = logit), data = df3) Deviance Residuals: 1 2 3 4 5 6 7 8 -0.5055 -0.7976 0.2133 0.9023 1.7426 -0.4639 -1.5365 0.3172 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.33639 0.03114 -107.14 <2e-16 *** cinturonNo 0.81710 0.02765 29.55 <2e-16 *** entornoNoUrbano 0.75806 0.02697 28.11 <2e-16 *** generoMujer 0.54483 0.02727 19.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 7.4645 on 4 degrees of freedom AIC: 82.167 Number of Fisher Scoring iterations: 3 > summary(acc.m332) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno * genero, family = binomial(link = logit), data = df3)

Page 69: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-69 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

… Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.36383 0.03519 -95.592 <2e-16 *** cinturonNo 0.81618 0.02765 29.521 <2e-16 *** entornoNoUrbano 0.80907 0.04010 20.177 <2e-16 *** generoMujer 0.59306 0.03914 15.152 <2e-16 *** entornoNoUrbano:generoMujer -0.09345 0.05422 -1.724 0.0848 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 4.4909 on 3 degrees of freedom AIC: 81.193 Number of Fisher Scoring iterations: 3 > summary(acc.m333) Call: glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero, family = binomial(link = logit), data = df3) … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.30342 0.03509 -94.149 <2e-16 *** cinturonNo 0.76173 0.03933 19.366 <2e-16 *** entornoNoUrbano 0.69360 0.04239 16.362 <2e-16 *** generoMujer 0.54594 0.02729 20.007 <2e-16 *** cinturonNo:entornoNoUrbano 0.10800 0.05486 1.968 0.049 *

Page 70: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-70 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 3.5914 on 3 degrees of freedom AIC: 80.294 Number of Fisher Scoring iterations: 3 > summary(acc.m334) Call: glm(formula = cbind(ypos, yneg) ~ cinturon * genero + entorno, family = binomial(link = logit), data = df3) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.34236 0.03755 -89.014 <2e-16 *** cinturonNo 0.82621 0.04220 19.579 <2e-16 *** generoMujer 0.55459 0.04370 12.691 <2e-16 *** entornoNoUrbano 0.75792 0.02698 28.096 <2e-16 *** cinturonNo:generoMujer -0.01598 0.05586 -0.286 0.775 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 7.3826 on 3 degrees of freedom AIC: 84.085 Number of Fisher Scoring iterations: 3

Page 71: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-71 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

> anova(acc.m331,acc.m332,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon + entorno * genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 4.4909 1 2.9736 0.0846 > anova(acc.m331,acc.m333,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * entorno + genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 3.5914 1 3.8730 0.0491 > anova(acc.m331,acc.m334,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * genero + entorno Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 7.3826 1 0.0818 0.7748 > xpea<-sum(residuals(acc.m332,'pearson')^2);xpea [1] 4.496567 > 1-pchisq(xpea,3) [1] 0.2125967 > xpea<-sum(residuals(acc.m333,'pearson')^2);xpea [1] 3.580126 > 1-pchisq(xpea,3) [1] 0.3105178

Page 72: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-72 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores, ya que el modelo A*C+D ajusta bien los datos, pero todavía deja una devianza de 3.5914 por explicar en 3 grados de libertad, se podría dar por bueno el modelo.

Modelo n-p Devianza D Contraste g.l. Modelo 1 A*C+A*D 2 3.562410 2.2371 (M1) vs (M4) 1 Interacción Cinturón-Entorno Y

Cinturón-Género : jkijkji

2 A*D+C*D 2 4.371979 3.0467 (M2) vs (M4) 1 Interacción Cinturón-Género Y Entorno-Género

: jkikkji

3 A*C+C*D 2 1.367022 0.04171 (M3) vs (M4) 1 Interacción Cinturón-Entorno Y Entorno-Género

: jkijkji

4 A*C+C*D+A*D

1 1.325317 jkikijkji

El modelo no requiere de más análisis, no hay diferencias significativas entre el modelo con las 3 interacciones dobles y ninguno de los modelos con 2 pares de factores en interacciones.

Page 73: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-73 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores y compararlos con el modelo aditivo, para ver si son significativas 2 interacciones dobles simultáneamente.

Modelo n-p Devianza D Contraste g.l. Modelo 1 A*C+A*D 2 3.562410 3.9021 (M1) vs (M4) 1 Interacción Cinturón-Entorno Y

Cinturón-Género : jkijkji

2 A*D+C*D 2 4.371979 3.0925 (M2) vs (M4) 1 Interacción Cinturón-Género Y Entorno-Género

: jkikkji

3 A*C+C*D 2 1.367022 6.0975 (M3) vs (M4) 1 Interacción Cinturón-Entorno Y Entorno-Género

: jkijkji

4 A+C+D 4 7.4645 kji

El modelo no requiere de más análisis, ya que simultáneamente son significativas 2 interacciones dobles Cinturón-Entorno Y Entorno-Género.

Page 74: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-74 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Comparando el mejor modelo con 1 interacción doble (Cinturón-Entorno) con el modelo que tiene 2 interacciones dobles (Cinturón-Entorno y Entorno-Genero) se cuantifica el p valor del contraste de la devianza de la interacción Entorno-Género con un 0.14, por tanto, no significativa una vez que Cinturón-Entorno está en el modelo, pero con un valor incómodo.

> anova(acc.m333,acc.m43,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon * entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * entorno + entorno * genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 3 3.5914 2 2 1.3670 1 2.2244 0.1358 >

Se propone para finalizar el análisis valorar el modelo con 2 interacciones dobles y el mejor modelo con 1 interacción doble según el criterio de información de Akaike y el método step() en R. Se prefiere mantener las 2 interacciones dobles.

Al final se da una tabla resumen con la devianza residual y el AIC para todos los modelos que se han calculado.

Page 75: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-75 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

> acc.res<-step(acc.m34) Start: AIC=82.7 cbind(ypos, yneg) ~ cinturon * genero * entorno Df Deviance AIC - cinturon:genero:entorno 1 1.325 82.028 <none> 2.411e-12 82.702 Step: AIC=82.03 cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:genero + cinturon:entorno + genero:entorno Df Deviance AIC - cinturon:genero 1 1.367 80.069 <none> 1.325 82.028 - genero:entorno 1 3.562 82.265 - cinturon:entorno 1 4.372 83.074 Step: AIC=80.07 cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:entorno + genero:entorno Df Deviance AIC <none> 1.367 80.069 - genero:entorno 1 3.591 80.294 - cinturon:entorno 1 4.491 81.193 >

Page 76: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-76 B. Aires - Diciembre 2.009

EJEMPLOS BINARIA. EJEMPLO 2

Modelos logit(ijk) Devianza n-p AIC

1 1912.5 7 1981.2 Cinturón - A + i 1144.4 6 1215.1 Entorno - C + j 1192.8 6 1263.5 Género -D + k 1670.7 6 1741.4

A + D + i+ j 795.82 5 868.52 A + C + i+ k 411.02 5 483.73 D + C + j+ k 911.01 5 983.71 A D + i+ j+ ()ij 795.32 4 870.03 A C + i+ k+ ()ik 408.31 4 483.01

A + D + C + i+ j+ k 7.4645 4 82.167 A D + C + i+ j+ k+ ()ij 7.3826 3 84.085 A C + D + i+ j+ k+ ()ik 3.5914 3 80.294 A + D C + i+ j+ k+ ()jk 4.4909 3 81.193 A D + A C + i+ j+ k+ ()ij+ ()ik 3.5624 2 82.265 A D + D C + i+ j+ k+ ()ij+ ()jk 4.372 2 83.074 A C + D C + i+ j+ k+ ()ik+ ()jk 1.3670 2 80.07 A D + A C + D C + i+ j+ k+ ()ij+ ()ik+ ()jk 1.3253 1 82.028

Page 77: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-77 B. Aires - Diciembre 2.009

9.4-5. INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

En este tema se va a abordar la problemática de los contajes, no del tratamiento de proporciones. Los ejemplos más habituales tienen que ver con el contaje de observaciones en procesos poissonianos, por tanto las observaciones son no negativas y en principio no acotadas superiormente.

Un ejemplo curioso, de temática diferencial a los habitualmente ilustrados en los textos, se debe a McCullagh y modeliza el número de incidentes con daños en los barcos de una compañía a lo largo de un periodo de tiempo (cuidado, las diferencias entre barcos, nos llevan a un efecto de sobre-dispersión).

Idealmente, los procesos poissonianos modelizan la aparición de eventos independientes y de tasa constante por unidad de tiempo, por lo que en la práctica es fácil de encontrar situaciones que salgan de

las condiciones ideales de la hipótesis de varianza poissoniana iii YYV .

Nelder y Wedderburn propusieron la posibilidad de especificar la media, la varianza y la relación entre la media y la varianza de las observaciones dentro del proceso iterativo de mínimos cuadrados ponderados, lo que lleva a unos estimadores denominados máximo casi verosímiles (MQLE, maximum quasi-likelihood estimates). Durante la exposición del tema y siempre que sea posible, se evitará la restricción poissoniana

y se asumirá iii YYV .

Page 78: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-78 B. Aires - Diciembre 2.009

INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

Si 1 la varianza coincide con la media nos hallamos ante la hipótesis poissoniana.

Si 1 entonces hay sobre-dispersión y la varianza de los estimadores casi verosímiles es

1 WXXV T , lo que indica que bajo la hipótesis poissoniana la varianza de los estimadores tiende

a ser conservadora en presencia de sobre-dispersión. Diversos autores han propuesto estimar a partir del estadístico de Pearson dividido por sus grados de libertad,

pnX

2

Hay que ir con cuidado, una valor alto de Pearson indica una falta de ajuste y se si emplea Pearson para estimar la sobre-dispersión, lo que se hace es confundir la falta de ajuste con una varianza extra poissoniana e inflar los errores estándar proporcionalmente. Por tanto hay que estar seguro que la falta de ajuste no es debida a la falta de variables explicativas en la componente sistemática del modelo.

En todos los modelos log-lineales, la esperanza matemática de cada una de las variables depende de un vector de covariables de manera multiplicativa, por lo que se suele describir el modelo en la escala logarítmica: …

Page 79: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-79 B. Aires - Diciembre 2.009

TEMA 6: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

… Modelos log-lineales : aspecto funcional …

Sea un vector de observaciones de n componentes, nT yy ,,y 1 , realización de un vector

aleatorio nT YY ,,Y 1 , cuyas componentes son estadísticamente independientes y distribuidas

con medias nT ,,1 : niT

iii ,,xlog 1 .

Si las variables explicativas son factores, entonces existe una clara analogía con los modelos de regresión ordinarios para el análisis de la varianza.

Se ilustrará en el desarrollo del tema, la conexión entre los modelos log-lineales y los modelos de respuesta multinomial y que bajo determinadas condiciones la analogía llega hasta la equivalencia de los modelos.

Las distribuciones binomial y multinomial son adecuadas para modelizar las proporciones, en respuestas binarias y politómicas respectivamente, cuando el número total de observaciones por clase de covariable es fijo y conocido. Los contajes modelizados por MLGz con respuestas poissonianas no están acotados superiormente. La descripción básica de una variable de Poisson de parámetro es:

Función de probabilidad: ,,

!10 ye

yyp

y

Y

, Y y YV .

Page 80: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-80 B. Aires - Diciembre 2.009

TEMA 6: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

9.4-5.1 MLGz de respuesta poissoniana

La componente aleatoria parte de la realización de un vector aleatorio nT YY ,,Y 1 de n

componentes, estadísticamente independientes y distribuidas poissonianamente con esperanzas

nT ,,1 .

La componente sistemática del modelo consiste en la especificación de un vector , el predictor lineal a

partir de un número reducido de parámetros a estimar y regresores; parámetros pT ,,1 y

regresores pT XX ,,X 1 . Esta especificación responde, en notación matricial a X donde

es nx1, X es nxp y es px1.

El vector está habitualmente relacionado con el predictor lineal , a través de la función de link

logarítmica : niTiii ,,xlog 1 . El logaritmo es la función de link canónica para la

ley de Poisson.

Page 81: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-81 B. Aires - Diciembre 2.009

TEMA 6: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

Como ya se ha visto repetidamente en el curso, una distribución pertenece a la familia exponencial si puede escribirse de la siguiente manera:

,exp,, yc

abyyfY

Donde a(.), b(.) y c(.) son funciones específicas con conocido y donde se denomina al único parámetro

: parámetro canónico.

En la distribución de Poisson de parámetro :

!logexp!loglogexpexp

!,, yeyyy

yyf

y

Y

donde 1a , eb ( es decir, log ) y !log, yyc .

Page 82: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-82 B. Aires - Diciembre 2.009

TEMA 6: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

La contribución a la función de log-verosimilitud de una observación dada y es:

!log,,,log,, yeyyc

abyyfy Y

.

log!log,, yyeyy

Las propiedades de los scores se concretan en el caso particular de respuesta poissoniana:

En la distribución de Poisson, Y y exp' b y log .

En la distribución de Poisson, para la varianza, expexp'' baYV y

V .

El link canónico se da cuando g (entiéndase ). Por tanto, para la ley de Poisson, la

función logaritmo es el link canónico: glog .

Page 83: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-83 B. Aires - Diciembre 2.009

TEMA 6: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

La devianza de un conjunto de observaciones es

n

iii

i

ii yyyDD

1

2

ˆˆ

logˆy,ˆy,' .

Dado que para cada observación ii log y la contribución de cada observación a la funció de log-

verosimilitud es iiiy log .

n

iii

i

ii

n

iiiiiiiii

yyy

yyyyyy

D

1

1

2

22

22

ˆˆ

log

!logˆˆlog!loglog

y,,ˆy),(y,ˆy,'

Page 84: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-84 B. Aires - Diciembre 2.009

TEMA 6: INTRODUCCIÓN A LOS MODELOS LOG-LINEALES

… Si se incluye un término constante en el modelo, entonces se puede demostrar:

01

n

iiiy

y

n

i i

ii

n

iii

i

ii

yyyyyD11

22

ˆ

logˆˆ

logˆy,

Una aproximación, debida a Pearson, cuando el parámetro es grande es,

n

i i

iiyD1

22

ˆˆˆy,

Los estimadores máximo verosímiles son asintóticamente consistentes y normales, con matriz de varianzas

y covarianzas asintótica 1 , donde es la matriz de información y el parámetro de dispersión

puede estimarse por pny

pn

n

i i

ii

1

22

ˆ

ˆˆ .

La aproximación normal o por la distribución t-Student si se desconoce la dispersión pueden dar problemas si los valores ajustados tienen mayoritariamente valores por debajo de 1. De todos modos, los grados de libertad en la distribución t-Student aproximada son inferiores a n-p. (la reducción depende de la media del momento de orden 4 de las respuestas, detalle técnico que se omite).

Page 85: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-85 B. Aires - Diciembre 2.009

9.4-6. MODELOS LOG-LINEALES Y MODELOS MULTINOMIALES

La relación entre los modelos log-lineales y los modelos de respuesta multinomial procede del hecho que la ley multinomial (y como caso particular la binomial) puede derivarse a partir de un conjunto de variables de Poisson condicionadas a un número total de observaciones fijado.

El resultado es de interés para la justificación de que ciertos modelos log-lineales son equivalentes a modelos de respuesta multinomial: cuando los parámetros de interés son los cocientes de las medias de las variables poissonianas o equivalentemente, los cocientes de las medias de Poisson respecto los totales, entonces la transformación de la log-verosimilitud de los modelos log-lineales haciendo intervenir el condicionamiento a totales observados nos lleva a un modelo de respuesta multinomial. Los modelos log-lineales vinculados a modelos multinomiales deben llevar un conjunto de parámetros molestos (nuisance paremeters) vinculados a los totales multinomiales.

No todos los modelos log-lineales son equivalentes a modelos multinomiales y el recíproco también es falso.

Page 86: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-86 B. Aires - Diciembre 2.009

9.4-7. MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

Una primera aproximación al análisis de las tablas de contingencia vía modelos log-lineales y su relación con los modelos ANOVA resulta más intuitiva si se trabajan las verosimilitudes en función de los parámetros

n ,,1 , en lugar de los parámetros , .

Sean genéricamente LYY ,,1 , L variables aleatorias independientes de Poisson con esperanzas respectivas

L ,,1 , indexadas l=1, …, L.

Para tablas de dos dimensiones, con I niveles por fila representando el factor A y J niveles por columna representando el factor B, se tendrán índices que corren i=1, … , I (para filas) y j=1,…., J (para columnas).

Para tablas de tres dimensiones, con I niveles por fila representando el factor A , J niveles por columna representando el factor B, para cada subtabla identificativa de un nivel del factor C, de K niveles, se tendrán índices que corren i=1, … , I (para filas), j=1,…., J (para columnas) y índice de las subtablas k=1,…,K.

A continuación se ilustra una tabla de contingencia tridimensional y la terminología de marginales usada…

Page 87: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-87 B. Aires - Diciembre 2.009

MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

FACTOR C

FACTOR B FACTOR B FACTOR B C1 … CK FACTOR

A B1 … BJ TOTAL B1 … BJ TOTAL B1 … BJ TOTAL

A1 Y111 … Y1J1 Y1+1 … … … … Y11K … Y1JK Y1+K

A2 Y211 … Y2J1 Y2+1 … … … … Y21K … Y2JK Y2+K

… … … … … … … … … … … … …

AI YI11 … YIJ1 YI +1 … … … … YI1K … YIJK YI +K

TOTAL Y+11 … Y+J1 Y++1 … … … … Y+1K … Y+JK Y++K

Total marginal univariante del factor A: j k ijki YY . Total marginal bivariante de los factores A y C:

j ijkki YY

Total marginal univariante del factor B: i k ijkj YY Total marginal bivariante de los factores B y C:

i ijkjk YY

Total marginal univariante del factor C: i j ijkk YY Total trivariante de los factores A, B y C: ijkY .

Total marginal bivariante de los factores A y B: k ijkij YY Total: i j k ijkYY .

Page 88: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-88 B. Aires - Diciembre 2.009

MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

9.4-7.1 Restricción sobre la frecuencia total

Sean genéricamente LYY ,,1 , L variables aleatorias independientes de Poisson con esperanzas respectivas

L ,,1 , indexadas l =1, …, L .

LYY ,,1 pueden representar los totales multivariantes, frecuencias por celda, de una tabla de contingencia reescrita en una dimensión. Por ejemplo, una tabla de dimensión 3 y siguiendo la nomenclatura de índices descrita anteriormente vendría representada por L=IxJxK variables de Poisson.

La función de probabilidad conjunta y la verosimilitud de las observaciones en función de L ,,1 es, respectivamente,

L

l l

yl l

l

ey

f1

!

,yY y

L

l l

yl l

l

ey

L1

!

y,

Si la frecuencia total l lyym se fija en el diseño, entonces por la propiedad aditiva de las

variables de Poisson independientes, la suma de LYY ,,1 tiene distribución de Poisson con esperanza

matemática L 1 …

Page 89: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-89 B. Aires - Diciembre 2.009

MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

… Entonces la función de probabilidad conjunta de LYY ,,1 condicionada a un total m es,

L

l l

yl

mL

l l

yl

m yme

me

yf

ll

l

11 !!

!!,yY

donde

l

l.

Pero directamente ,yY mf es la función de probabilidad de una ley multinomial de parámetros m

y LT ,,1 con

l

l y por definición satisface :

1. 1l l 2. 10 l Ll ,,1 3. ll mY Ll ,,1 .

Page 90: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-90 B. Aires - Diciembre 2.009

MODELOS LOG-LINEALES. TABLAS DE CONTINGENCIA

Las tablas de contingencia se emplean para determinar la asociación entre los factores implicados. Todas las hipótesis habituales sobre relaciones entre los factores en tablas de contingencia de dimensión 2 y 3 pueden formularse como modelos multiplicativos donde las frecuencias por celdas se expresan como productos de probabilidades marginales por celda y totales (marginales).

9.4-7.2 Hipótesis de independencia en tablas de dimensión 2

En tablas de dimensión 2, la hipótesis que las filas y las columnas son independientes (factores A y B independientes) puede formularse como probabilidad total igual al producto de probabilidades marginales por la constante fija y conocida m, total de observaciones (distribución multinomial simple):

jiij , donde j ji i y de ahí las frecuencias esperadas en las celdas

jiij mY o desde el punto de vista poissoniano mY jiij .

El modelo log-lineal equivalente se expresaría como A+B

JjIijiijij ,,,,log 11

I+J-1 parámetros indep. (hay que hacer una reparametrización)

Page 91: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-91 B. Aires - Diciembre 2.009

MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

El modelo log-lineal maximal se expresaría por analogía con el análisis de la varianza como A*B

JjIijijiijij ,,,,log 11

IJ parámetros indep. (hay que hacer una reparametrización)

El parámetro correspondiente a la constante m fijada es .

La relación (dependencia) entre los dos factores A y B puede resolverse con el contraste de las interacciones en el modelo log-lineal.

Los modelos log-lineales para el análisis de tablas de contingencia son jerárquicos, en el sentido que los términos de interacciones de orden superior, sólo se pueden incluir en el modelo si los términos de interacciones de orden inferior están presentes.

Los parámetros correspondientes a las constantes fijadas siempre deben incluirse en el modelo.

Page 92: UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación

UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA-UPC

Prof. Lídia Montero © Pàg. 9.4-92 B. Aires - Diciembre 2.009

MODELOS LOG-LINEALES. TABLAS DE CONT. Y ANOVA

RELACIÓN REGRESIÓN LOGÍSTICA Y MODELOS LOG-LINEALES en tablas de dimensión 3: Factor B es la respuesta dicotómica y los Factores A y C las variables explicativas (totales bivariantes A y C fijados),

MODELOS LOG-LINEALES REGRESIÓN LOGÍSTICA

A*C+B Minimal

A*C+A*B A

A*C+B*C C

A*C+A*B+B*C A+C

A*B*C A*C (Maximal)

RELACIÓN MODELO POLITÓMICO NOMINAL Y MODELOS LOG-LINEALES:

jjiijij x Tilog y JJiiJiJ x T

ilog , por tanto,

JjJjiJ

ijiJij x

T

ilogloglog