Post on 22-Feb-2016
description
Como leer y supervisar unaevaluación de Impacto: Métodos de diferencia simple y doublé con apareamiento basado en puntaje de propensión
La estructura del curso1. ¿Por qué preocuparnos por la evaluación del impacto?2. ¿Sobre qué trata una evaluación de impacto?3. ¿Cuál fue el impacto reportado?, ¿Fue este estadísticamente
significativo?4. ¿Cuál fue el método usado por el evaluador para construir los grupos de
tratamiento y comparación?5. ¿Cómo definir si el grupo de comparación usado fue bueno o no?6. ¿Qué tan sensibles son las estimaciones del impacto a los diferentes
métodos usados en el proceso de emparejamiento por Puntaje de Propensión?
7. ¿Tienen sentido los resultados encontrados en la evaluación?
1. ¿Por qué preocuparnos por la evaluación del impacto?
¿Cuáles son las preguntas de una evaluación de impacto?
• ¿Cuál fue el efecto causal de un programa dado (tratamiento) en el resultado(s) de interés?
• ¿Hay un efecto causal de dosificación en programa con diferentes niveles de tratamiento (e.j: mas o menos transferencias de dinero, diferentes periodos del entrenamiento)?
• ¿Hay un efecto causal de multi-tratamiento para programas con diferentes intervenciones?
El método típico antes – después
Tratamiento
Efecto de desarrollo = B -A
Linea finalLinea base
Variable de interés
A
B
A
B
Pero lo que parece, no es
Lo que parece, no es: ej. prevención de crimen
Efecto de desarrollo Impacto
Pero lo que parece, no es: provisión publica y privado de hipotecas y la tasa de mora en pago
Se necesita un contrafactual o grupo de comparación
¿ Impacto?• ATE: impacto promedio, se interpreta como el cambio
promedio en la variable de resultado cuando un individuo escogido al azar pasa aleatoriamente de ser participante a ser no participante. ATE es relevante para evaluar un programa universal.
• ATT: impacto promedio del programa sobre los tratados. Este corresponde a la diferencia entre la media de la variable de resultado en el grupo de los participantes y la media que hubieran obtenido los participantes si el programa no hubiera existido. ATT es relevante para evaluar un programa focalizado.
2. ¿Sobre qué trata una evaluación de impacto usando métodos de diferencia simple y doble con emparejamiento basado en puntaje de propensión?
Diferencia simple (DS) y doble (DD)
Diferencia simple (DS) y doble (DD)
Línea base
Línea final Diferencia
Tratado A B B - A
No tratado C D D - C
Impacto DS = (B – D) DD = (B- A) – (D –C)
Pero no todas las observaciones son usadas
Emparejamiento basado en puntaje de propensión: creación de grupos tratados y de comparación
Emparejamiento sobre el Puntaje de Propensión
NT
NT NT NT NT NT NT NT
NT NT NT NT
NT NT
T T T
T T T
T T T
T T
Fuente: Modified from Bryson (2001)
Valor de
la variable
de
resultado
Puntaje de propensión
Diferencias entre
beneficiarios y
no beneficiarios
Emparejados
Diferencias
observadas entre
beneficiarios y
no beneficiarios
Soporte Común
El método se puede usar solamente si hay soporte común
Soporte Común
Densidad
Puntaje de
Propensión
Soporte Común
Grupo Tratado Grupo de Comparación
Baja probabilidad
de participación
Alta probabilidad
de participación
0 1
PP min PP max
La interpretación de casualidad depende del supuesto de exogeneidad
Exogeneidad
• “Exogeneidad” = “supuesto de independencia condicional” = “no confundido”:
• El impacto, estimado como la diferencia en el promedio de las variables de resultado del grupo de tratamiento y del grupo de comparación esta compuesto por el efecto veredero del programa y el sesgo de selección. Estos dos componentes se pude separar si se asume que el sesgo de selección se debe únicamente a diferencias en características observables. Entonces el sesgo de selección es igual a cero.
3. ¿Cuál fue el impacto reportado?, ¿Fue éste estadísticamente significativo?
Cálculos del Impacto: presentado como cuadro
Variable Muestra Tratados Controles Diferencia Error Estandar Estadístico tPisos de buen material Sin Emparejamiento 1.000 0.904 0.096 0.032 2.980
ATT 1.000 0.928 0.072 0.029 2.530Tasa de participación laboral infantil Sin Emparejamiento 0.052 0.102 -0.050 0.050 -1.000
ATT 0.052 0.193 -0.141 0.075 -1.860Número de personas por dormitorio Sin Emparejamiento 2.295 2.119 0.176 0.127 1.390
ATT 2.295 2.268 0.027 0.180 0.150
Efectos Heterogéneos Efectos Heterogéneos: Estimaciones de Impacto por Género y Quintil : altura-edad
Grupo Toda la Distribución Primer Cuartil Segundo Cuartil
No emparejado Todos Niños Niñas Todos Niños Niñas Todos Niños Niñas
Tratado -1.77 -1.78 -1.74 -3.3 -3.6 -3.68 -2.25 -2.28 -2.22
Comparación -1.66 -1.69 -1.62 -3.37 -3.80 -3.73 -2.26 -2.27 -2.24
Diferencia -0.11 -0.09 -0.13 0.05 0.04 0.05 0.01 -0.01 0.03
(0.02)*** (0.03)*** (0.03)*** (0.02)*** (0.03)* (0.03)* (0.01) (001) (0.03)***
Emparejado Todos Niños Niñas Todos Niños Niñas Todos Niños Niñas
Tratado -1.76 -1.78 -1.74 -3.73 -3.76 -3.68 -2.25 -2.28 -2.22
Comparación -1.86 -1.89 -1.82 -3.78 -3.8 -3.74 -2.27 2.26 -2.26
Diferencias 0.10 0.11 0.08 0.05 0.04 0.07 0.02 -0.02 0.05
(0.02)*** (0.04) (0.04)* (0.02)*** (0.03) (0.03)*** (0.001)** (-0.01 (0.01)***
* P<0.05,** p<0.01, *** p<0.01; Errores resultado del proceso Bootstrap en paréntesis de la Tabla 5 en Kandpal (2009)
Cálculos del Impacto: presentado como gráficas
Tres enfoques de significancia estadística
Pasos Enfoque de Test Estadístico
Enfoque Valor-P Enfoque Intervalo de Confianza
1 Definir Ho and Ha Definir Ho and Ha Definir Ho and Ha
2 Determinar, primero el tamaño del test, es decir, el nivel de significancia; y segundo, encontrar el valor crítico
Determinar el tamaño del test, es decir, el nivel de significancia.
Determinar el tamaño del test, es decir, el nivel de significancia y el valor hipotético.
3 Calcule el test estadístico. Calcule el test estadístico y el valor-p
Construya el intervalo de confianza.
4 Rechace Ho si el valor estimado del test es mayor que el valor crítico
Rechace la Ho si el valor-p es menor que el valor de significancia elegido.
Rechace Ho si el valor hipotético no existe en el interior del intervalo de confianza.
Reglas practicas Ho: promedio de tratado es igual el promedio de grupo de comparación
• “t”: si el valor de “t”> 2 o “t”<-2 se rechaza el hipótesis nula. Hay un impacto.
• Valor de P: si el valor de P < 0.05 se rechaza el hipótesis nula. Hay un impacto. \1
• Intervalo de confianza: si el intervalo de confianza no cruza cero se rechaza el hipótesis nula. Hay un impacto.
\1 por convención * = 0.1; ** = 0.05,*** = 0.01
4. ¿Cuál fue el método usado por el evaluador para construir los grupos de tratamiento y comparación?1. La ecuación de participación2. Algoritmo de emparejamiento
Ecuación de participación
• Objetivo: Estimar el puntaje de propensión para cada sujeto (empresa, hogar, persona, etc)
• Escoger la forma funcional: • 1. Tratamiento binario (estar o no tratado): Logit y/o probit• 2. Tratamientos múltiples (estar tratado por varios tratamientos): Logit
Multinomial o Probit Multinomial• 3. Duración (estar tratado por un periodo de tiempo): modelos de duración• Escoger las variables relevantes: solamente incluir las variables que influyen
simultáneamente la decisión de perticipación y la variable de resultado.• Opciones:• 1. Prueba y error,• 2. Significancia estadística,• 3. Dejar una afuera con validación cruzada
Escoger las variables relevantes:
1.Si d y x2.No x d y3.No d y w4.No d e1 y e2
5.Si-No d w y6. Si-No d y
w
D tratamiento; y variable de interés ; x pre-tratamiento; w post- tratamiento; e cadena de influencia
La ecuación de participación: puntaje de propensión
Balanceo con diferentes algoritmosVecino más Cercano (NN en Inglés)
Fuente: Chen and Zeiser (2008)
Tratados Comparación
0.9
0.8
0.7
Puntaje de Propensión
Pareo por Caliper y Radius.
Grupo de
Tratados
Grupo de
Comparació
n 0.9
0.8
0.7
Puntaje de
Propensión
Otros algoritmos: kernel, radio, estratificado, Mahalanobis, etc.
DilemasEl objetivo de la ecuación de participación es incluir todas las variables relevantes que determinan la participación en el programa, de esta forma, reducir el sesgo. De manera simultánea, el evaluador requiere reducir la varianza. Estos dos objetivos conflictúan dado que reduciendo el sesgo, se incrementa la varianza
El método es más confiables con un mayor número de variables de control en la ecuación, pero esto implica reducir el grado de traslape del soporte común
Dilema (Trade Off) en Términos del Sesgo y la Varianza
Sesgo Varianza
Emparejamiento por Vecino mas Cercano (NN): múltiples vecinos/vecino único
Con Caliper/sin Caliper
(+)/(-)
(-)/(+)
(-)/(+)
(+)/(-)
Emparejamiento NN/Emparejamiento por Radio
(-)/(+) (+)/(-)
KM o método de NN (+)/(-) (-)/(+)
Fuente: Modificado de la tabla 1 en Caliendo M., y S. Kopeinig (2008)
5. ¿Cómo determinar si el grupo de comparación usado fue adecuado?
Enfoques para evaluar el grupo de comparación:
Tabla de balanceo Grafico del sesgo estandarizado de las medias de covariables
individuales Estratificación Prueba de Hotelling Prueba de Kolmogorov-Smirnov de igualdad de distribución Grafico de fracción acumulativa Distribución del puntaje de propensión ante y después del
emparejamiento. Gráficas Q-Q antes y después de emparejamiento
Tabla de balanceo
Variable Muestra Tratados No Tratados %Sesgo |Sesgo| t p>tUrbano Sin emparejar 0.45 0.52 -13.80 -1.19 0.056
emparejado 0.46 0.47 -2.1 85 -0.2 0.839Log Edad Sin emparejar 3.86 3.82 11.70 1.47 0.140
emparejado 3.86 3.85 4.2 64.1 0.43 0.667Log Tamaño del hogar Sin emparejar 1.26 1.18 13.10 1.76 0.079
emparejado 1.24 1.30 -10.20 21.60 -1.08 0.280
Media %Reducción
El sesgo estandarizado de las medias, MSE, de covariables individuales
Regla practica: si la MSE>10%, el emparejamiento está desbalanceado; si la MSE<10% el emparejamiento esta balanceado
Prueba de HotellingHo: el vector de medias es igual entre los dos grupos
Test de HotellingIgualdad de medias entre gruposT-Cuadrado de Hotelling para 2 grupos = 12.400632Test Estadístico F: ((386-27-1)/(386-2)(27)) x 12.400632 = .4281854H0: Los vectores de medias son iguales entre los dos grupos F(26,139) = 0.4282 Prob > F(26,139) = 0.9951
Regla práctica: si P > 0.05 se acepta la hipótesis nula, el emparejamiento ha sido exitoso
Distribución del puntaje de propensión antes y después del emparejamiento
Sin emparejar Emparejados
Regla práctica: si las distribuciones del puntaje de propensión son parecidas (panel derecho), el emparejamiento ha sido exitoso
Fracción Acumulativa
Regla práctica: si las distribuciones del puntaje de propensión son parecidas (panel derecho), el emparejamiento ha sido exitoso
Prueba de Kolmogorov-Smirnov de igualdad de distribución
Sin emparejar Emparejados
Regla práctica: si P > 0.05 en el K-S combinado se acepta la hipótesis nula, el emparejamiento ha sido exitoso
Gráficas Q-Q antes y después de emparejamiento
Sin emparejar Emparejados
Regla práctica: Si los valores del puntaje de propensión para los dos grupos están cercanos a la línea de 45 grados, el emparejamiento ha sido exitoso
6. ¿Qué tan sensibles son las estimaciones del impacto ante los diferentes métodos usados en el proceso de emparejamiento por puntaje de propensión?
Enfoques para evaluar la sensibilidad de los impactos
• Sensibilidad de resultados del balanceo bajo diferentes algoritmos
• Sensibilidad de los cálculos de impacto ante cambios en el algoritmo de emparejamiento
• Sensibilidad del soporte común después de recorte: límites de Lechner
• Sensibilidad a sesgo escondido• Sensibilidad a la atrición
Algoritmo de Emparejamiento
% sesgo | sesgo| % sesgo | sesgo| % sesgo | sesgo| % sesgo | sesgo| % sesgo | sesgo|urbano -2.1 85.0 1.0 92.5 3.0 77.9 3.9 72.0 -2.9 79.3log edad 4.2 64.1 3.2 72.4 -1.5 86.8 1.1 90.2 5.5 53.2log miembros del hogar -10.2 21.6 -9.6 26.5 13.9 -7.9 -1.9 85.2 4.7 64.3minoría étnica 0.0 100.0 2.0 94.3 1.9 94.4 -4.7 86.3 17.9 48.3Test de Hotelling F(27,385) Prob>F(27,385) F(27,536) Prob>F(27,536) F(27,6308) Prob>F(27,6308) F(27,362) Prob>F(27,362) F(27,6312) Prob>F(27,6312)
0.428 0.995 0.607 0.943 2.426 0.000 0.060 0.843 0.366 0.000Test de K-S D Corregido D Corregido D Corregido D Corregido D Corregido
0.010 1.000 0.017 1.000 0.365 0.000 0.060 0.843 0.366 0.000
%Reducción %Reducción %Reducción %Reducción %ReducciónM1. NN1 sin remplazamiento (1 a 1) M2. NN2 (2 a 1) M3. Mahlanobis M4. Radio M5. Kernel
Sensibilidad de resultados del balanceo bajo diferentes algoritmos
Sensibilidad de los cálculos de impacto ante cambios en el algoritmo de
emparejamiento
Algorítmo de Emparejamiento Impacto (ATT) EEM1. NN1 sin remplazamiento (1 a 1) 0.140 0.026 0.089 0.191M2. NN2 (2 a 1) 0.153 0.020 0.113 0.192M3. Mahalanobis 0.162 0.028 0.107 0.216M4. Radio 0.172 0.009 0.154 0.190M5. Kernel 0.940 0.008 0.179 0.210M6. estratificado 0.169 0.008 0.154 0.184
[Intervalo de Confianza al 95%]
Regla práctica: Si los resultados de ATT no cambian de signo y si son estadísticamente significativos, los resultados no son sensibles a cambios en el algoritmo usado
Soporte común: desechando observaciones extremas Opciones:
• 1. El investigador desecha todas aquellas observaciones para las cuales el puntaje de propensión es menor al mínimo del puntaje de los tratados y mayor al máximo del puntaje de los no tratados
• 2. El investigador desecha todas las observaciones (en los grupos de tratados y no tratados) tal que el soporte común sólo incluye los puntajes de propensión que tienen una densidad positiva
• 3. El investigador desecha las observaciones con puntaje de propensión menor a α, donde α es definida como una distancia desde los puntos extremos de la distribución [0, 1]
Densidad
Tratados No tratados
1 Puntaje de
Propensión
q
q Soporte Común A
Soporte Común C
Soporte Común B
α α
Sensibilidad del soporte común después de recorte: límites de Lechner
Interpretación de la tabla. Para cada programa , la columna I tiene la información sobre el signo y la significancia estadística del efecto estimado (donde ++/-- indica que los resultados son significativos al 0.01, mientras que si es +/- la significancia es la 0.05). Columna II tiene la misma información pero toma en cuenta los límites de Lechner. Si los resultados en las dos columnas difiere para un programa dado entonces el efecto del tratamiento estimado es sensible al problema del soporte común. En el cuadro se resalta con un color gris suave los resultados que tienen un gran efecto cuando se usa el enfoque de los límites de Lechner.
Regla práctica: si la tendencia de la variable de interés difiere entre los dos grupos, hay un sesgo escondido
Sensibilidad a sesgo escondido: tendencias comunes
Sensibilidad a sesgo escondido: limites de Rosembaum
Regla práctica: Mientras el límite inferior y el límite superior tengan el mismo signo, el Gama (influencia de una variable no observada) no tiene efecto en las estimaciones. Si hay una diferencia de signo, en el presente caso Gama=1.55, la variable no observada tiene influencia (la variable no observada necesita aumentar la verosimilitud de selección en el grupo tratado por 51%) y hay un sesgo escondido con Gama=1.55 .
1. G * 2. Mínimopunto Estimado1/
3.Límite inferior del intervalo de confianza2/
4.Límite superior del intervalo de confianza 3/
1 0.23305 0.19083 0.27492
1.05 0.25541 0.16824 0.29678
1.1 0.27586 0.14712 0.318
1.45 0.40127 0.02039 0.44467
1.5 0.41698 0.00428 0.4601
1.55 0.43191 -0.0106 0.47529
1.6 0.4464 -0.02539 0.49041
2.1 0.56972 -0.15159 0.61569
2.8 0.69849 -0.28387 0.74582
Parámetros de los Límites de Rosembaum para 4 auditorios grandes vs. Auditors pequeños (model 1)
Estimativos de los límites de Hodges-Lehmann
Notas: * Posibilidades de asignación dados factoresinobservables. 1/Punto estimado del límite inferior(Asumiendo que hay una subestimación del efecto deltratamiento). 2/ Intervalo de confianza del 95% del puntoestimado del límite superior. 3/Intervalo de confianza del95% del Punto estimado del límite inferior
Placebo
• Placebo I, o sea usando un grupo de control : si el impacto no es cero el impacto calculado es dudoso
• Placebo II, o sea usando una variable de interés que no puede ser influida por el tratamiento
Exogeneidad: Prueba de Casualidad de Granger (por cada variable de interés)
Para una interpretación causal de resultados, en una regresión de los valores pasados y futuros de la variable de interés, se espera que los valores del pasado sean estadísticamente iguales a cero. Si en los valores del futuro hay significancia estadística, entonces hubo un impacto.
Sesgo debido a la atrición
• Comparación univariada de medias de grupos salientes y que permanecen
• Regresión logística: factores que contribuyen al atrición.• Regresión de Cox: información de probabilidad de atrición en
el tiempo y los factores que contribuyen al atrición.
Sesgo debido a la atrición: Comparación univariada
Edad (años) Duración de la estadía en hospital (días)Salientes 78.62 6.09
(3.84) (4.12)Permanecen 77.72 6.01
(5.56) (3.45)Estadístico t 1.13 0.15Valor-p >0.5 >0.5
Sesgo debido a la atrición:Regresión Cox
VariableProporción de Posibilidades
Edad 1.04 1 3.57Estadía en ICU 5.51 0.75 2.83Desnutridos 0.57 0.34 4.67Género 1.3 0.77 0.93Duración de la estadía 1.01 0.34 0.12Grupo Comparación 1.13 0.68 0.22
Intervalo de Confianza
Sesgo debido a la atrición:Regresión logística
VariableProporción de Posibilidades
Edad 0.96 0.91 1.01Estadía en ICU 0.08 0.02 1.23Desnutridos 1.84 0.98 3.48Género 0.68 0.34 1.33Duración de la estadía 0.98 0.9 1.06Grupo Comparación 0.84 0.45 1.57
Intervalo de Confianza
Bondad de ajuste de Hosmer y Lemeshow = 4.91. Valor P = 0.77. Todas las proporciones de posibilidades tiene valor P:0.5
7. ¿Tienen sentido los resultados encontrados en la evaluación?
Validación externa: el mismo resultado para varios estudios sobre programas similares
Meta-evaluaciónLos resultados de una Meta-evaluación comunmente se presentan en un “Gráfico de Bosque” donde el eje horizontal mide el efecto del tratamiento, mientras que la línea vertical representa el estudio donde los grupos de tratamiento y comparación tienen la misma media, es decir donde no hay diferencia entre ambos. Para cada estudio individual, la estimación es representada por un cuadrado y a su vez, la línea horizontal representa el intervalo de confianza al 5%. El análisis agrupado es representado por un diamante, cuyo centro es localizado en el punto estimado y el ancho del mismo representa el intervalo de confianza
“Caja Negra”: Cadena de causalidad