Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden...

46
Evaluación Aleatoria de Principio a Fin -Servicio País en Educación- Ryan Cooper J-PAL LAC

Transcript of Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden...

Page 1: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Evaluación Aleatoria de Principio a Fin -Servicio País en Educación-

Ryan Cooper

J-PAL LAC

Page 2: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

1. Introducción a las Evaluaciones de Impacto

2. Teoría de Cambio e Indicadores

3. Por qué y Cómo Aleatorizar

4. Tamaño de Muestra y Cálculos de Poder

5. Inferencia Causal

6. Evaluaciones Experimentales y Políticas

Públicas

7. Evidencia de Evaluaciones Experimentales

8. Evaluación Experimental de Principio a Fin

Contexto del Curso

Page 3: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Antes de Empezar la Evaluación 1. Importancia de Políticas Públicas

1. ¿Es una pregunta importante?

2. ¿Está el programa lo suficientemente maduro como para

evaluarlo?

3. ¿Se podrán generalizar los resultados?

2. Confiabilidad del Impacto Estimado

1. Estrategia de identificación adecuada.

2. Poder estadístico

3. Protocolos de análisis

3. Calidad de Datos

1. Pilotajes

2. Monitoreo y control de calidad

Page 4: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

5 Tareas Durante la Evaluación

1. Análisis de necesidades

2. Teoría de Cambio

3. Evaluación de Procesos

4. Evaluación de Impacto

5. Análisis costo-efectividad

¿Cuál es el problema?

¿Cómo corregirlo?

¿Se implementó bien?

¿Metas alcanzadas?

¿Magnitud?

¿Qué tan barato?

Page 5: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Contexto de la Evaluación

Programa: Servicio País en Educación

¿Cómo podemos mejorar la educación en contextos vulnerables?

• Se ha invertido mucho dinero, pero las mejorías han sido escasas.

• Una de las preguntas de políticas públicas más importantes del

momento.

Dos perspectivas:

1) Sólo las intervenciones tempranas funcionan.

2) Intervenciones tardías también pueden mejorar resultados de

educación.

Page 6: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

El Programa

Servicio País en Educación (SPE)

• Intervención en Chile dirigida a

estudiantes en el cuarto grado

(10 años).

• Objetivo: Mejorar niveles de

lectura y actitudes hacia la

lectura.

• Consistía de 15 sesiones durante

horas de clases durante 3 meses.

Page 7: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Pregunta: Problema/Solución

Piense sobre:

• ¿Qué queremos aprender con la evaluación?

• ¿Qué tan importante es la pregunta?

• ¿Ha sido contestada la pregunta?

La evaluación de SPE tenía dos preguntas principales:

• ¿Puede el programa mejorar habilidades cognitivas y no cognitivas

relacionadas a la lectura?

• ¿Qué tan costo-efectivo es el programa?

Page 8: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Teoría de Cambio

Análisis de Necesidades

Intervención/Insumo

Producto

Resultados Intermedios

Impacto

Bajos niveles de lectura

Tutorías dadas por voluntarios

universitarios

Estudiantes reciben tutorías

Mejores habilidades cognitivas y no cognitivas

Mejor rendimiento académico

Una teoría de cambio

simplificada

Page 9: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Diseñar el Programa

SPE:

• Diseñado después de varias visitas de terreno,

conversaciones con profesores, estudiantes y grupo

focales.

• Programa implementado por la Fundación para la

Superación de la Pobreza.

• 15 sesiones de tutorías durante horario de clases.

• Tutores eran voluntarios universitarios.

• Alrededor de 6 estudiante por tutor.

• Enfocado en estudiantes vulnerables

Page 10: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Importancia de la Evaluación

Factores que considerar:

1. Importancia de política pública.

2. Madurez del programa.

3. Validez externa de los resultados

Otras cosas:

1. Muestra representativa.

2. Costos.

3. Evaluación de procesos.

Page 11: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Diseñar la Evaluación

Necesitamos medidas confiables del impacto:

Diseño de evaluación y selección de metodología es clave.

- Variación exógena de la intervención.

- Control o conocer bien los criterios de selección al

programa.

Escoger metodología que de mejores resultados y que sea

viable:

• Experimental

• Cuasi-experimental

Page 12: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Para evaluar SPE, escogimos una evaluación

experimental:

– Esto nos permitió identificar los efectos causales

de las tutorías en los resultados de interés.

Ahora veremos cómo se implementó la

evaluación experimental.

• Algunas cosas son únicas a las evaluaciones experimentales.

• Pero muchos conceptos se pueden aplicar a otros tipos de

evaluaciones.

Diseñar la Evaluación

Page 13: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Definir la muestra: quién, dónde.

Para SPE:

• Escuelas con bajo rendimiento académico.

• 10 municipalidades en 2 regiones de Chile.

• Escuelas con más de 100 estudiantes en el cuarto grado o pares de

escuelas cercanas que juntas tengan más de 100 estudiantes.

Generamos aleatoriamente una lista de reemplazo en caso que una

escuela no quisiera participar en la evaluación.

Diseñar la Evaluación

Page 14: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Unidad de Aleatorización

Para SPE:

• Es difícil excluir a estudiantes individuales del

programa si sus escuelas están recibiendo el

programa.

• Aleatorizamos al nivel de la escuela.

Diseñar la Evaluación

Page 15: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Estratificación

Para SPE:

• Estratificamos por:

– Vecindario de la escuela

– Nivel socio-económico de la escuela.

– Rendimiento académico de la escuela.

Diseñar la Evaluación

Page 16: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Pero, ¿cuántas escuelas necesito en cada

grupo para poder detectar un efecto del

programa?

Necesitamos realizar cálculos de poder estadístico

para saber esto.

Los cálculos de poder nos ayudarán a:

– Evitar recolectar demasiada información (puede ser muy

caro).

– Evitar recolectar muy poca información.

Diseñar la Evaluación

Page 17: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

¿Por qué es importante calcular poder al momento

de evaluar políticas públicas?

Si la muestra es muy pequeña, la evaluación puede no

detectar un efecto y puede concluir que no hay un

impacto.

En base a esto, los encargados de políticas públicas

pueden cancelar un programa, lo cuál puede perjudicar a

personas que se habrían beneficiado del programa.

Pero no es que no haya efecto, sino que no se pudo

detectar.

Diseñar la Evaluación

Page 18: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Al hacer una decisión de políticas públicas,

tenemos que preguntarnos:

– ¿Se realizaron cálculos de poder para determinar

el tamaño de la muestra?

– ¿Puede la ausencia de un efecto ser atribuida a

una muestra pequeña?

– ¿Podríamos encontrar un efecto si se incrementa

el tamaño de la muestra?

Diseñar la Evaluación

Page 19: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Tenemos que aleatorizar antes que comienze el

programa.

Aleatoriamente asignar escuelas a grupos de

tratamiento o control.

¿Cómo?

Excel, Stata tienen comandos para aleatorizar.

Diseñar la Evaluación

Page 20: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Determinar qué grupos incluir en la evaluación.

Esto depende de la pregunta principal.

En esta caso, nuestra pregunta es: ¿cuál es el

impacto de SPE en las habilidades lectoras de

los estudiantes?

Tratamiento Estudiantes que reciben

tutorías de SPE.

Control Estudiantes que no reciben

las tutorías. v.

Diseñar la Evaluación

Page 21: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Aleatorización de SPE:

Diseñar la Evaluación

Page 22: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Verificar Balance:

Datos administrativos o de la línea de base pueden ayudar

a verificar que los grupos de tratamiento y control sean

comparables.

Esto es clave para cualquier tipo de evaluación.

Queremos asegurarnos que estamos comparando

manzanas con manzanas y no peras con manzanas.

Diseñar la Evaluación

Page 23: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Verificar Balance

Diseñar la Evaluación

Page 24: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Población

Objetivo

Fuera de

Evaluación

Muestra

(85

Escuelas)

Población Total

(Total de

Escuelas)

Asignación

Aleatoria

Tratamiento

(45)

Control

(40)

Muestra para SPE

Page 25: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Encuestas de Líneas de Base y Finales

Línea de Base

• Útil para obtener datos antes del comienzo del

programa.

• Aunque no son estrictamente necesarias para una

prueba aleatoria, pueden ser muy útiles.

– Verificar balance entre grupos.

Línea Final

• Para obtener datos después de que el programa

termine.

• Estrictamente necesarios: con esto medimos el impacto.

Page 26: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Implementar y Monitorear

Monitoreo y Evaluación

Evaluación

Ev de Programa

Ev.de Impacto

Monitoreo

Page 27: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Monitoreo y Evaluación:

Para SPE:

• Documentamos todo lo que hicimos.

• Obtuvimos aprobación de un comité de ética.

• Desarrollamos guías y manuales detallados.

• Seleccionamos y capacitamos a todas las personas

involucradas en la evaluación.

• Monitoreamos todas las etapas de la evaluación.

Implementar y Monitorear

Page 28: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

En la evaluación de SPE, el monitoreo

consistió de:

• Visitas sorpresas a las escuelas

• Supervisión de los tutores

• Encuestas a tutores

• Encuestas a profesores

• También obtuvimos datos administrativos sobre la

asistencia de los estudiantes y los tutores.

Implementar y Monitorear

Page 29: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Encontramos que hubo mucha

heterogeneidad en la implementación del

programa:

Implementar y Monitorear

Page 30: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

El programa se implementó mejor en una región

que en la otra:

Implementar y Monitorear

Page 31: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

¿Dónde conseguimos nuestros datos?

• Datos administrativos (si existen)

• Encuestas

– Es importante monitorear el proceso de recolección de datos.

– Datos Malos = Evaluación Mala

– ¿Cómo proteger los datos?

• Usar instrumentos válidos

• Pilotear instrumentos

• Capacitar a encuestadores

• Verificar datos encuestando una segunda vez a una sub-muestra

• Doble digitación de datos

Recolección de Datos

Page 32: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Medimos nuestros resultado de interés

usando 4 fuentes:

1. Prueba de Comprensión Lectora y Producción de

Texto (CL-PT)

– Prueba estandarizada que mide habilidades cognitivas:

• Comprensión Lectora (RC)

• Uso de Lenguaje (UL)

• Producción de Texto (TP)

Recolección de Datos

Page 33: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Medimos nuestros resultados de interés

usando 4 fuentes:

2. Placer por la lectura: Instrumento basado en otros

instrumentos que miden:

– Interés en la lectura (IR)

– Placer en la lectura (ER)

– Auto-percepción como lector (SPR)

– Percepción de Lectura en la Escuela (PRS)

Recolección de Datos

Page 34: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Medimos nuestros resultados de interés

usando 4 fuentes:

3. Información de procesos del programa.

4. Datos administrativos del Ministerio de Educación de

Chile.

Recolección de Datos

Page 35: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Línea de Tiempo

Primeras Semanas de

agosto

Diseñar instrumento

Agosto/ Septiembre

Línea Base

Octuber/ Noviembre

Programa y Monitoreo

Diciembre

Línea Final

Recolección de Datos

Page 36: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Midiendo Impacto

Tenemos que definir estrategia estadística y

econométrica (mucho más complicado para

métodos cuasi-experimentales).

Definir muestras en las que se medirá impacto:

En SPE, medimos impacto en las siguientes sub-muestras:

– Por Región

– Por nivel de vulnerabilidad

– Por nivel de educación

Page 37: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Midiendo Impacto

Habilidades Cognitivas

• Usamos la asignación al tratamiento como variable

independiente (Intención de Tratar).

• Usamos la asignación aleatoria como instrumento

para la exposición al programa (Tratamiento en los

Tratados).

Page 38: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Midiendo Impactos: Resultados

Habilidades Cognitivas

• Comprensión Lectora

– Impacto promedio de 0.08 Desv. Est, pero marginalmente significante.

– 0.18 Desv. Est. en escuelas en la región del Bío Bío en Chile.

– 0.12 Desv. Est. en escuelas vulnerables en la región del Bío Bío en Chile.

• Uso de Lenguaje

– 0.28 Desv. Est en escuela en Bío Bío.

– 0.38 Desv. Est en escuelas vulnerables en Bío Bío.

¡Implementación del Programa importa!

Impacto mayor en escuelas vulnerables.

Page 39: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Midiendo Impacto

Externalidades

Tenemos que pensar sobre posibles efectos

indirectos del programa:

• SPE puede mejorar aprendizaje en otras áreas, no

sólo lectura.

• SPE puede perjudicar a los estudiantes al quitarles

tiempo valioso de clases.

Encontramos que el programa no tuvo externalidades

negativas.

Page 40: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Costo-Efectividad

Las evaluaciones son útiles para comparar

diferentes políticas con la ayuda de análisis de

costo-efectividad.

Uniforman el impacto de diferentes

programas.

Pero tienen algunas desventajas:

• No consideran impactos múltiples

• Se basan en supuestos

Page 41: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Costo-Efectividad

Análisis de Costo-Efectividad para SPE:

Page 42: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Costo-Efectividad

Comparando con otros programas:

Page 43: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Difundiendo Resultados

Se escribió una publicación académica en

base a esta evaluación.

Tuvimos seminarios y eventos para comunicar

los resultados de la evaluación.

Page 44: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Conclusiones

SPE fue una intervención corta que tuvo un

impacto importante en los niveles de lectura de

los estudiantes de escuelas vulnerables,

especialmente en aquellas escuelas donde el

programa se implementó correctamente.

No encontramos externalidades negativas.

Page 45: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

Conclusiones Generales

Evaluar Impacto

• Toma tiempo y esfuerzo

• Requiere de muchos recursos

• Requiere creatividad

But…

• Es posible evaluar y es importante hacerlo ya que:

– Genera evidencia para avanzar la ciencia.

– Mejora el proceso de toma de decisiones entre los encargados

de políticas públicas.

– Promueve el uso efectivo de recursos escasos.

Page 46: Evaluación Aleatoria de Principio a Fin -Servicio País … · • Pero muchos conceptos se pueden aplicar a otros tipos de evaluaciones. Diseñar la Evaluación . Definir la muestra:

¡Gracias!