Sesión I Inferencia Causal -...

Post on 20-Oct-2018

214 views 0 download

Transcript of Sesión I Inferencia Causal -...

SesiSesióónn IIInferenciaInferencia CausalCausal

Sebastian GalianiSebastian Galiani

NoviembreNoviembre 20062006

2WBIFPSILACHDN

Justificaciónp Las preguntas de investigación que

motivan la mayoría de los estudios en las ciencias de la salud son de naturaleza causal. Por ejemplo:

p ¿Cuál es la eficacia de un medicamento en una población dada? ¿Qué fracción de muertes de una enfermedad dada podrían haberse evitado por un tratamiento o política dada?

3WBIFPSILACHDN

Justificación

p Las preguntas empíricas más difíciles en economía también involucran relaciones causa-efecto:

p ¿La descentralizacion de las escuelas mejora la calidad de las mismas?

4WBIFPSILACHDN

Justificaciónp El interés en estas preguntas está motivado por:

n Preocupaciones políticas

n La privatización de los sistemas de aguamejora la salud del niño?

n Consideraciones teóricas

n Problemas que enfrentan los tomadores de decisiones.

5WBIFPSILACHDN

Análisis Causal p El objetivo del análisis estadístico estándar,

típicamente probabilidad y otras técnicas de estimación, es inferir parámetros de una distribución, a partir de muestras obtenidas de esa distribución.

p Con la ayuda de tales parámetros, uno puede:

1. Inferir asociación entre variables,

2. Estimar la probabilidad de eventos pasados y futuros,

3. Así como actualizar la probabilidad de eventos a la luz de nueva evidencia o nuevas mediciones.

6WBIFPSILACHDN

Análisis Causal p Estas tareas pueden llevarse a cabo

adecuadamente por el análisis estadístico estándar, si las condiciones experimentales se mantienen.

p El análisis causal va un paso adelante: p Su objetivo es inferir aspectos del proceso de

generación de datos. p Con la ayuda de tales aspectos, uno puede

deducir no solamente la probabilidad de eventos bajo condiciones estáticas, sino también la dinámica de eventos bajo condiciones cambiantes.

7WBIFPSILACHDN

Análisis Causal p Esta capacidad incluye:

1. Predecir los efectos de intervenciones

2. Predecir los efectos de cambios espontáneos

3. Identificar las causas de eventos reportados

p Esta distinción implica que los conceptoscausales y de asociación no se mezclan.

8WBIFPSILACHDN

Análisis Causal La palabra causa no está en el vocabulario de la

teoría de probabilidad estándar.

p Toda teoría de probabilidad nos permite decirque dos eventos están mutuamentecorrelacionados, o son dependientes – lo quesignifica que, si encontramos uno, podemosesperar encontrar el otro.

p Los científicos que buscan explicaciones causalespara fenómenos complejos o racionales paradecisiones políticas deben, por tanto, suplir el término de probabilidad con un vocabulario paracausalidad.

9WBIFPSILACHDN

Análisis Causal

p Se han propuesto dos términos paracausalidad :

1. Structural equation modeling (ESM) (Haavelmo 1943).

2. The Neyman-Rubin potential outcome model (RCM) (Neyman, 1923; Rubin, 1974).

10WBIFPSILACHDN

Modelo Causal de Rubin

p Define a la población por la letra U. Cada unidad en U es denotada por u.

p Para cada u ∈ U, hay asociado un valor Y(u) de la variable de interés Y, la cual llamamos: variable de respuesta.

p Sea A una segunda variable definida en U. Llamamos a A un atributo de las unidades en U.

11WBIFPSILACHDN

p La idea clave es el potencial para exponer o no cada unidad a la acción de una causa:

p Cada unidad tiene que ser potencialmente expuesta a cualquiera de las causas.

p Así, Rubin toma la posición de que las causas son cosas que podrían ser tratamientos en experimentos hipotéticos.

p Un atributo no puede ser una causa en un experimento, porque la idea de exposición potencial no aplica a éste.

12WBIFPSILACHDN

p Por simplicidad, asumimos que hay solo 2 causas o nivel de tratamiento.

p Sea D una variable que indica la causa a la cual cada unidad en U es expuesta:

=controla expuestaesuunidadla si

to tratamiena expuestaesu unidad la sict

D

En un estudio controlado, D es construido por el experimentador. En un estudio sin control, éste es determinado por factores que están más allá del control del experimentador.

13WBIFPSILACHDN

p Los valores de Y son potencialmente afectadospor la causa particular, t o c, a la cual la unidades expuesta.

p Así, necesitamos dos variables de respuesta:

Yt(u), Yc(u)

p Yt es el valor de la respuesta que seríaobservada si la unidad fuera expuesta a t y

p Yc es el valor que sería observado en la mismaunidad si ésta fuera expuesta a c.

14WBIFPSILACHDN

p Expresando también a D como unavariable binaria:

D = 1 si D = t y D = 0 si D = c

p Entonces, el resultado de cada indivuduopuede ser escrito como:

Y(U) = D Y1 + (1 – D) Y0

15WBIFPSILACHDN

p Definición: Para cada unidad u de tratamiento {Du = 1 en vez de Du = 0} causa el efecto

δu = Y1(u) – Y0(u)

p Esta definición de un efecto causal asume que el estado de tratamiento de un individuo no afecta los resultados potencialesde otros individuos.

p Problema Fundamental de Inferencia Causal: Es imposible observar el valor de Y1(u) y Y0(u) en la misma unidad y, por lo tanto, es imposible observar el efecto de t en u.

p Otra forma de expresar este problema es decir que no podemos inferir el efecto de tratamiento por que no tenemos la evidenciacontrafactual p. ejem. ¿qué hubiera sucedido en ausencia de tratamiento?.

16WBIFPSILACHDN

p Dado que el efecto causal para una sola unidad u no puede ser observada, intentamos identificar el efecto causal promedio para la población entera o para las sub-poblaciones.

p El efecto de tratamiento promedio –(ATE) de t (relativo a c) sobre U (o cualquier sub-población) está dado por:

ATE =E [Y1(u) – Y0(u)] = E [Y1(u)] – E [Y0(u)]

(1)01 YY −== δ

17WBIFPSILACHDN

p La solución estadística reemplaza el efecto causal imposible de observar de t en una unidad específica con la posibilidad de estimar el efecto causal promedio de t sobre una población de unidades.

p Aunque E(Y1) y E(Y0) no pueden ser calculados, sípueden ser estimados.

p La mayoría de los métodos econométricos intentan construir de datos observacionalesestimaciones consistentes de

01 YyY

18WBIFPSILACHDN

p Considere el siguiente estimador simple de ATE:

(2)0]D|Y[-1]D|Y[ˆ01 ===δ

• Nótese que la ecuación (1) está definida para la población completa, mientras que la ecuación (2) representa un estimador a ser evaluado en una muestra obtenida de esa población.

19WBIFPSILACHDN

p Nótese que (2) es también el estimador MCO en la siguiente regresión:

(3)ˆˆ iii uDY ++= δα

20WBIFPSILACHDN

p Sea π igual a la proporción de la población que sería asignada al grupo de tratamiento.

p Descomponiendo ATE, tenemos:

( )[ ] ( )[ ]0D|YY)1(1D|YY 0101 =−−+=−= ππδ

[ ][ ] 0100

11

YY]0D|Y[)1(]1D|Y[

]0D|Y[)1(]1D|Y[

−==−+=

+=−+==

ππ

ππδ

}0{}1{ )1( == −+= DD δπδπδ

21WBIFPSILACHDN

p Si suponemos que

[ ][ ]]0D|Y[)1(]0D|Y[

]1D|Y[)1(]1D|Y[

00

11

=−+=

+=−+==

ππ

ππδ0]D|Y[1]D|Y[y0]D|Y[1]D|Y[ 0011 ======

0]D|Y[-1]D|Y[ˆ01 ===δ

0]D|Y[-1]D|Y[ 01 ===δ

• El cual es consistentemente estimado por su estimador muestral análogo:

22WBIFPSILACHDN

p Así, una condición suficiente para el estimador estándar para estimar consistentemente el ATE verdadero es que:

0]D|Y[1]D|Y[and0]D|Y[1]D|Y[ 0011 ======• En esta situación, el resultado promedio bajo el

tratamiento y el resultado promedio bajo control no difiere entre los grupos de tratamiento y de control.

• A fin de satisfacer estas condiciones, es suficiente que la asignación del tratamiento D no esté correlacionado con las potenciales distribuciones resultantes de Y1 and Y2.

• La forma principal de conseguir esta no-correlación es a través de la asignación aleatoria del tratamiento

23WBIFPSILACHDN

p En la mayoría de los casos, simplemente no hay información disponible sobre cómo aquellos individuos en el grupo control habrían reaccionado si hubieran recibido el tratamiento.

p Ésta es la base para comprender los potenciales sesgos del estimador estándar (2).

p Después de un poco de algebra, se puede mostrar que:

( ) ( )44 344 214444 34444 21

ityHeterogeneTreatment

0}{D1}{D

DifferenceBaseline

00 )1(0]D|Y[1]D|Y[ˆ== −−+=−=+= δδπδδ

24WBIFPSILACHDN

p Esta ecuación especifica las dos fuentes de sesgo que necesitan ser eliminadas de las estimaciones de efectos causales de estudios observacionales.

1. Sesgo de Selección: diferencias basales. 2. Heterogeneidad del tratamiento

p La mayoría de los métodos disponibles solamente se enfocan al sesgo de selección, asumiendo que el efecto del tratamiento es constante en la población o redefiniendo los parámetros de interés en la población.

25WBIFPSILACHDN

Tratamiento en los tratadosp ATE no siempre es el parámetro de interés.

p En una variedad de contextos de política, el efecto de tratamiento promedio para la persona bajo intervención es de sumo interés:

TOT =E [Y1(u) – Y0(u)| D = 1] = E [Y1(u)| D = 1] – E [Y0(u)| D = 1]

26WBIFPSILACHDN

Tratamiento en la persona tratada

p El estimador estándar (2) estima consistentemente TOT si:

0]D|Y[1]D|Y[ 00 ===

27WBIFPSILACHDN

Modelado de la Ecuación Estructural

p El modelaje de la ecuación estructural fue originalmente desarrollada por genetistas (Wright1921) y economistas (Haavelmo 1943).

28WBIFPSILACHDN

Ecuaciones Estructuralesp Definición: Una ecuación

y = ß x + e (8)

se dice que es estructural si ésta se interpreta como sigue:En un experimento ideal en donde controlamos X para x y cualquier otro conjunto Z de variables (que no contengan X o Y) para z, el valor y de Y está dado por ß x + e, donde e no es un a función de los conjuntos x y z.

p Esta definición Haavelmo (1943), quien explícitamente interpretó cada ecuación estructural como una declaración acerca de un experimento hipotéticamente controlado.

29WBIFPSILACHDN

p Así, para la pregunta frecuente “¿Bajo quécondiciones podemos dar interpretaciones causales a coeficientes estructurales?”

p Haavelmo habría respondido : ¡ Siempre !

p De acuerdo con el padre fundador de SEM, las condiciones que vuelven la ecuación y = ß x + e estructural son precisamente aquellas que hacen que la conexión causal entre X y Y no tengan otro valor que ß, y que aseguran que nada acerca de la relación estadística entre x y e pueda cambiar nunca esta interpretación de ß.

30WBIFPSILACHDN

p El efecto causal promedio: El efecto causal promedio en Y del nivel de tratamiento x es la diferencia en la esperanza condicional:

E(Y|X = x) – E(Y|X = 0)

p En el contexto de intervenciones dicotómicas (x = 1), este efecto causal es llamado el efecto de tratamiento promedio (ATE).

31WBIFPSILACHDN

Representación de Intervenciones

p Considerando el modelo estructural M:

z = fz(w)x = fx(z, ν)y = fy(x, u)

p Representamos una intervención en el modelo a través de un operador matemático denotado por d0(x).

p d0(x) simula las intervenciones físicas eliminando ciertas funciones del modelo, reemplazándolas por una constante X=x, mientras el resto del modelo se mantiene sin cambio.

32WBIFPSILACHDN

p Para emular una intervención d0(x0) que mantiene constante X (en X = x0) en el modelo M, se reemplaza la ecuación por x con x = x0, y se obtiene un nuevo modelo, Mx0

z = fz(w)x = x0

y = fy(x, u)

p La distribución conjunta asociada con el modelo modificado, denotado por P(z, y| d0(x0)) describe la distribución de la post-intervención (“experimental”).

p De esta distribución, uno puede evaluar la eficacia del tratamiento comparando aspectos de esta distribución a diferentes niveles de x0.

33WBIFPSILACHDN

Parámetros Estructurales

pDefinición: La interpretación de una ecuación estructural como una declaración acerca del comportamiento de Y bajo una intervención hipotética produce una sola definición para los parámetros estructurales.

El significado de ß en la ecuación y = ß x + e es simplemente:

(x)]d|E[Yx o∂∂

34WBIFPSILACHDN

Análisis Contrafactuales en ModelosEstructurales

p Considerando otra vez el modelo Mxo. Llamemos la solución de Y la respuesta potencial de Y para x0.

p Denotamos a ésta como Yx0(u, ν, w).

p A esta entidad puede dársele una interpretación contrafactual, lo cual significa la manera en que un individuo con características (u, ν, w) podría responder, si el tratamiento realmente recibido por el individuo hubiera sido x0 en lugar de x = fx(z, ν).

35WBIFPSILACHDN

p En nuestro ejemplo,

Yx0(u, ν, w) = Yx0(u) = y = fy(x0, u)

• Esta interpretación de contrafactuales, arroja como soluciones a los sistemas modificados de ecuaciones, provee el enlace conceptual y formal entre el modelaje de la ecuación estructural y el marco de resultado potencial de Rubin.

• Esto nos asegura que los resultados finales de las dos aproximaciones serán los mismos.

• Así, la elección del modelo es estrictamente una cuestión de conveniencia o perspicacia.

36WBIFPSILACHDN

MCO y causalidad

yi = b + a Di + ei

yi

C

Ec yt

Ec ynt

T

yi

C

Et yt

Et ynt

T

α

-a

sesg

o

Contrafactual

37WBIFPSILACHDN

MCO y causalidad

b = Et ynt

a = Et yt -Et ynt

α = Et yt - Ec yt = Et yt - Et ynt - (Ec yt - Et ynt)

= a - (Ec yt - Ec ynt)

= a - Ec (yt - ynt)

por tanto

a = α + Ec (yt - ynt)

38WBIFPSILACHDN

Referenciasp Judea Pearl (2000): Causality: Models, Reasoning and

Inference, CUP. Chapters 1, 5 and 7. p Trygve Haavelmo (1944): “The probability approach in

econometrics”, Econometrica 12, pp. iii-vi+1-115. p Arthur Goldberger (1972): “Structural Equations Methods in

the Social Sciences”, Econometrica 40, pp. 979-1002. p Donald B. Rubin (1974): “Estimating causal effects of

treatments in randomized and nonrandomized experiments”, Journal of Educational Psychology 66, pp. 688-701.

p Paul W. Holland (1986): “Statistics and Causal Inference”, Journal of the American Statistical Association 81, pp. 945-70, with discussion.