LA EVALUACIÓN EN EL AULA
PROMESAS Y DESAFÍOS DE LA EVALUACIÓN FORMATIVA
Universidad Autónoma de Aguascalientes
2011
1
CONTENIDO
PRESENTACIÓN
INTRODUCCIÓN GENERAL
CAPÍTULO PRIMERO. LA EVALUACIÓN DEL APRENDIZAJE ESCOLAR
Introducción
Precisiones conceptuales
La evaluación desde la antigüedad hasta principios del siglo XX
La evaluación del aprendizaje durante la primera mitad del siglo XX
La evaluación del aprendizaje en la segunda mitad del siglo XX
Conclusión
CAPÍTULO SEGUNDO. LA EVALUACIÓN FORMATIVA
Introducción
Desarrollo de la noción de evaluación formativa
Difusión de la evaluación formativa en otros países
Trabajos empíricos sobre el impacto de la evaluación formativa
Perspectivas de la evaluación formativa
Conclusión
CAPÍTULO TERCERO. IMPLICACIONES PARA LA IMPLEMENTACIÓN
Introducción
Potencial de la evaluación formativa y dificultad de su implementación
Factores que influyen en la implementación de la evaluación formativa
Lecciones para las intervenciones en la práctica docente
Conclusión
CONCLUSIÓN GENERAL
2
3
PRESENTACIÓN
Este documento es el primer producto del proyecto de investigación Uso formativo
de la evaluación para mejorar el aprendizaje: estado actual del conocimiento y
diagnóstico de prácticas de maestros de primaria en Nuevo León.
El trabajo comenzó a gestarse en 2009. En un primer momento se llevó a cabo
una búsqueda de referencias sobre el tema, con la colaboración del Instituto de
Investigación, Innovación y Estudios de Posgrado para la Educación (IIIEPE) de
Monterrey, así como tres estudiantes de la Maestría en Investigación Educativa de
la Universidad Autónoma de Aguascalientes: Gustavo Mejía Pérez, Rocío Angélica
Sepúlveda Hernández y Mario González Magdaleno.
El trabajo comenzó formalmente en el segundo semestre de 2010, con la revisión
de la bibliografía localizada, en la que participaron los tesistas mencionados y dos
asistentes de investigación: Verónica Hernández Payán y Adriana Mercado Salas.
Con la información obtenida, en el primer semestre de 2011 el suscrito redactó
este documento, cuyo primer borrador fue revisado por la corresponsable del
proyecto, Guadalupe Ruiz Cuellar. Se recibieron también comentarios de un grupo
de profesores de la Escuela Normal Profr. Serafín Peña de Montemorelos, N. L.,
coordinado por el Prof. Ricardo J. Hernández Dimas; del Mtro. Efraín Alcalá López
del Instituto de Educación de Aguascalientes; y de investigadores de otras
instituciones, en particular Pedro A. Ravela Casmayou, del Instituto de Evaluación
Educativa de la Universidad Católica de Uruguay; Annette Santos del Real, Adán
Moisés García Medina, Gabriela Barba Martínez y Antonieta Aguilera García del
Instituto Nacional para la Evaluación de la Educación; y Guadalupe Pérez
Martínez, en su momento también de ese Instituto.
Para elaborar esta obra se utilizó una buena parte de las más de 700 referencias
localizadas, pero no todas; como esa bibliografía es valiosa por sí misma, se
incluye un CD con dos versiones de ella: una con todas las referencias en orden
alfabético y otra que las presenta ordenadas de manera sistemática, por lengua y
tipo de publicación. La mayor parte de las citas que se incluyen se refieren a
textos en inglés o francés, y su traducción es responsabilidad del autor.
4
Como se podrá apreciar en este documento y revisando los listados de referencias
mencionados, el campo de la evaluación formativa es hoy muy rico y está en pleno
desarrollo. También se podrá apreciar que el avance en México y, en general, en
el mundo de habla hispana, es menor. Por ello se considera que este documento
podrá ser de utilidad para todas las personas que se interesen en este tema, que
ofrece prometedoras opciones para la mejora de la calidad educativa.
Como resultado del proyecto se prepara un Volumen II, con una presentación de
los acercamientos metodológicos al estudio de las prácticas docentes, resultados
del diagnóstico de prácticas de evaluación de maestros de primaria de Nuevo
León y síntesis de los resultados de las tesis asociadas al proyecto principal.
Esperamos que esta obra y la que seguirá aporten elementos útiles para que las
prácticas docentes y, en especial, las prácticas de evaluación de los maestros
puedan enriquecerse de manera importante, con lo que su contribución a la
mejora del aprendizaje de sus alumnos deberá también incrementarse. Por ello
esperamos que las dos obras sean de interés para maestros de educación básica,
para asesores técnico-pedagógicos, directores y supervisores, así como para
docentes de instituciones formadoras de maestros.
Agradecemos al CONACYT el apoyo concedido al proyecto en el marco de la
convocatoria 2008 del Fondo SEP-SEB-CONACYT sobre educación básica.
Felipe Martínez Rizo
Universidad Autónoma de Aguascalientes
Julio de 2011
5
INTRODUCCIÓN GENERAL
6
7
Pocos educadores pondrán en tela de juicio que la evaluación –y en concreto la
del aprendizaje— es parte esencial del quehacer de maestros y alumnos, y que la
manera de realizarla tiene una influencia considerable sobre el desempeño de los
estudiantes. Las formas en que se lleva a cabo esa tarea, por otra parte, han
cambiado, aunque ciertos rasgos persisten mucho tiempo.
En lo que se refiere a las formas que ha adoptado la evaluación del aprendizaje de
los alumnos en educación básica, que es el foco de interés de este libro, se
pueden identificar unas cuantas grandes etapas:
Desde los inicios de los sistemas educativos modernos, y al menos hasta
fines del siglo XIX, la evaluación se reducía a la que hacía cada maestro,
basada en sus preguntas y su observación del desempeño de cada alumno
en el aula, así como en los ejercicios y trabajos que hacía. Esas
evaluaciones hechas por los docentes tenían la ventaja de considerar el
contexto de cada estudiante, pero también serias limitaciones que se
hicieron más evidentes a medida que accedían a la escuela alumnos
procedentes de familias de condiciones cada vez más desfavorables.
A principios del siglo XX surgieron formas de evaluación llamadas objetivas,
consistentes en conjuntos de preguntas que requieren de una respuesta
muy corta, o bien solamente de seleccionar entre opciones de respuesta
predefinidas. Esos instrumentos se difundieron primero en el país en el que
aparecieron, los Estados Unidos, y luego en muchos otros, y su influencia
fue grande tanto en sus versiones para aplicación en gran escala, como por
el considerable peso que tuvieron sobre las prácticas docentes.
En la última parte del siglo XX muchos educadores y especialistas en
evaluación manifestaron insatisfacción con respecto a esas herramientas,
cuyas limitaciones se ponían de manifiesto por el creciente número de usos
inadecuados derivados de su proliferación. Comenzaron también a surgir
formas alternativas de evaluar el aprendizaje, derivadas de los avances de
la psicología cognitiva, y que se designaron con expresiones como
evaluación formativa, auténtica, para el aprendizaje, como aprendizaje, etc.
8
El panorama de la evaluación del aprendizaje en educación básica a principios del
siglo XXI, en muchos países y en México en particular, presenta varias facetas:
Las prácticas tradicionales siguen presentes en no pocos salones de clase.
Muchos maestros siguen tratando de que sus evaluaciones se asemejen a
las pruebas surgidas en la primera mitad del siglo pasado, o adquiriendo
instrumentos de ese tipo para sus evaluaciones bimestrales y otras.
Se han extendido aplicaciones masivas de esos tipos de pruebas, cuyos
resultados suelen entenderse mal, lo que ha llevado a usos inadecuados
con consecuencias cada vez más visibles.
Los enfoques novedosos de evaluación formativa y similares comienzan a
considerarse en el currículo y a recomendarse a los maestros, pero sin el
sustento y los procesos que serían necesarios para transformar en
profundidad y en sentido positivo las prácticas.
De hecho, algunos esfuerzos en marcha en México se refieren precisamente a
nuevas formas de evaluación, cuyo uso se busca promover entre los maestros,
pero muchas veces en forma insuficientemente sustentada. Es importante que
esos esfuerzos tengan en cuenta lo que se puede esperar realmente de esas
innovaciones y conozcan también los errores a evitar. Para ello hay que
aprovechar la experiencia de los sistemas educativos que han avanzado más en
esa dirección, lo que esta obra permitirá hacer, al poner al alcance de los lectores
la amplísima literatura revisada, producida sobre todo en países en los que se
hace más investigación sobre los sistemas educativos y su problemática pero que,
con el debido cuidado, es ampliamente aplicable a nuestro sistema educativo.
Como pretende indicar el subtítulo –promesas y desafíos— se parte de la idea de
que quienes quieran apostar a nuevas formas de evaluación, como un elemento
que podría contribuir significativamente a mejorar la calidad educativa, deben ser
conscientes de las dificultades de la tarea y de las múltiples aristas que deberán
atender para tener éxito en la empresa.
9
Por ello se espera que esta obra sea de utilidad especialmente para quienes se
dedican a la actualización de docentes en servicio, para las personas que trabajan
en instituciones formadoras de maestros, autoridades educativas y estudiosos de
la educación y, sobre todo, para los maestros mismos, que tienen en sus manos la
interesante y desafiante tarea de formar a las nuevas generaciones de mexicanos.
La obra se organiza en tres capítulos, según la lógica siguiente:
El primero presenta la evolución de las prácticas de evaluación utilizadas
por los maestros de educación primaria a lo largo del tiempo, desarrollando
en detalle las etapas mencionadas sintéticamente párrafos atrás. No se
trata todavía de evaluación formativa, sino de evaluación del aprendizaje,
en las formas previas al surgimiento de los actuales enfoques formativos.
El capítulo segundo se dedica al desarrollo de esos nuevos enfoques, en
dos versiones: la más antigua, surgida en los Estados Unidos y el Reino
Unido, y la que se ha desarrollado en medios francófonos, inspirada en la
anterior, pero que ha tomado rumbos propios. Se menciona la difusión de
la evaluación formativa en otros lugares pero brevemente, porque no se
aprecia que en ellos haya habido aportaciones originales al desarrollo del
concepto. En cambio se incluye una revisión de estudios empíricos sobre el
impacto de esa forma de evaluación en el rendimiento de los alumnos,
contrastando trabajos que llegan a conclusiones abiertamente optimistas
con los que advierten limitaciones que invitan a la prudencia. Se plantean,
por último, dos perspectivas en cuanto al futuro de estas tendencias.
A partir de ello, el tercer capítulo retoma la idea del potencial de la
evaluación formativa y, al mismo tiempo, de la dificultad de implementarla
adecuadamente; analiza los factores que influyen en el trabajo de los
maestros, cuyo número y variedad explican la dificultad para modificar
profundamente tales prácticas; y sintetiza lecciones que se pueden sacar
de la experiencia internacional en cuanto a los esfuerzos que busquen
precisamente tales cambios.
10
11
CAPÍTULO PRIMERO
LA EVALUACIÓN DEL APRENDIZAJE ESCOLAR
12
13
Introducción
Este capítulo ofrece un panorama de la forma en que ha evolucionado la manera
en que los maestros de educación básica evalúan el avance de sus alumnos en su
esfuerzo por alcanzar los aprendizajes estipulados en el currículo.
Después de un apartado dedicado a precisar el sentido en que se utilizan en este
trabajo los conceptos básicos sobre evaluación en general, evaluación del
aprendizaje y evaluación formativa, los apartados siguientes desarrollan en detalle
las tres grandes etapas mencionadas en la Introducción General:
La que llega hasta principios del siglo XX, con las formas tradicionales de
evaluación que, pese al tiempo transcurrido, todavía se manifiestan en las
prácticas actuales.
La que comenzó en las primeras décadas del siglo XX y se extendió hasta
la segunda mitad del mismo, caracterizada por la invención de pruebas
llamadas objetivas, adoptadas por muchos como alternativas preferibles a
las evaluaciones que hacían tradicionalmente los maestros y que marcaron
la práctica de muchas generaciones de docentes.
Y la que comenzó en la segunda mitad del siglo pasado y se extiende hasta
nuestros días, con los avances que llevaron a la proliferación de
aplicaciones en escala nacional e internacional, con consecuencias fuertes
para las escuelas y los maestros.
En la conclusión del capítulo se reflexiona sobre las consecuencias de esa
extensión de las evaluaciones en gran escala y su impacto sobre las prácticas de
los docentes, como punto de partida para el siguiente capítulo, en el que se
presentará lo relativo a la evaluación formativa, como alternativa y complemento
de las pruebas.
En cada etapa se presentan algunos elementos del contexto social, así como del
avance de la psicología y la psicometría, que explican los desarrollos que tuvieron
lugar en el campo de la evaluación.
14
1. Precisiones conceptuales
1.1. El campo semántico: medición, pruebas, evaluación
Con base en trabajos previos, en este documento la noción de evaluación se
define, de manera general, como el juicio de valor que resulta de contrastar el
resultado de la medición de una realidad empírica con un parámetro normativo
previamente definido. (Cfr. INEE, 2006: 18)
Evaluar una realidad cualquiera implica primeramente medirla, pero no se reduce
a ello. Para ilustrar esta idea puede ser útil el siguiente ejemplo: si se toma la
temperatura de una persona y el termómetro marca 41° C se considera que hay
un problema, que la salud de la persona no es buena; en otras palabras, se hace
un juicio valorativo sobre la salud de la persona, lo que implica más que la sola
medición. Para llegar al juicio es necesario dar tres pasos: medir la temperatura
corporal actual (41° C); conocer la temperatura normal de una persona sana (±
36.5° C); y comparar los dos valores anteriores.
Así ocurre en toda evaluación. En el caso del aprendizaje se puede pensar que se
le ha evaluado sólo porque se ha aplicado una prueba de rendimiento, cuando en
realidad lo único que se ha hecho es medirlo, con más o menos precisión. Para
que haya evaluación se debe llegar a un juicio sobre lo adecuado o inadecuado
del aprendizaje observado, lo que implica definir lo que los alumnos deberían
saber (definir un estándar), para comparar con ese referente el resultado de la
medición y así llegar al juicio sobre lo adecuado o inadecuado del aprendizaje
observado. Adviértase además que la noción de calidad es indisociable de la de
evaluación, ya que siempre que se evalúa algo se trata de llegar a un juicio sobre
su calidad, sobre qué tan bueno o malo, adecuado o inadecuado es, en algún
sentido particular, pues la calidad es también una noción multidimensional.
Por su estrecha relación, los términos medición y evaluación pertenecen a un
mismo campo semántico; en el ámbito educativo y, de nuevo en el caso del nivel
de aprendizaje, el término pruebas también pertenece a ese campo, debido a que
la medición del aprendizaje suele hacerse con ese tipo de instrumentos.
15
En inglés measurement y test equivalen a las palabras en español medición y
pruebas, pero hay dos términos que se relacionan con el de evaluación: evaluation
y assessment.
Originalmente el sentido del verbo to assess y el sustantivo assessment era el de
estimar el valor de un bien material, como un terreno, una casa o joya. Evaluation
y assessment se distinguen en inglés como en español evaluación y valuación o
avalúo, pero hay otro campo en el que evaluación se opone más bien a valoración.
Valoración alude al uso de to assess y assessment en el campo de la medicina y
la salud, y marca más claramente el sentido actual de los términos en el ámbito
educativo, ya que hacen referencia al sentido en que un médico valora o lleva a
cabo la valoración del estado de salud de un paciente.
El verbo to assess parece derivar etimológicamente del latín ad sedere o assidere,
que quiere decir sentarse al lado de alguien. Para valorar al paciente el médico
debe sentarse a su lado, como ocurre también en el caso de evaluaciones
formativas en el contexto del aula, cuando el maestro se sienta (literal o
metafóricamente) al lado del alumno, captando lo que sabe o puede hacer para
ayudarle a avanzar en su aprendizaje, sentido muy distante del que
correspondería a la imagen típica de una situación de evaluación sumativa, con la
imagen familiar de una sala de examen en la que los alumnos escriben
silenciosamente en pupitres separados. (James, 2010: 161)
Como resultado final de estos diversos sentidos de los términos, en educación
assessment denota hoy evaluación (valoración) de sujetos individuales, en
particular la evaluación del aprendizaje de los alumnos, mientras evaluation alude
a evaluandos impersonales, como el currículo, las políticas, programas o
proyectos educativos. (Cfr. Choppin, 1985: 1747-1748; James, 2010: 161)
Sin embargo, en español, como en francés (Cfr. Laveault, 2010: 432), tanto
evaluation como assessment pueden y suelen traducirse como evaluación, por lo
que siempre conviene precisar el objeto al que se refiere en cada caso la acción
de evaluar, diciendo por ejemplo evaluación de aprendizaje, evaluación de
escuelas, evaluación de programas, etcétera.
16
Esta precisión es necesaria también para formas particulares de la evaluación de
personas o de entidades impersonales, como la formativa y la sumativa.
En los medios especializados de habla inglesa no habrá probablemente dificultad
para entender que la expresión formative evaluation no se refiere al aprendizaje de
alumnos individuales, para lo que se utilizará formative assessment. Mientras que
en español no bastará traducir ninguna de las dos expresiones como evaluación
formativa, sino que habrá que añadir, según sea el caso, del currículo, del
aprendizaje, etcétera.
En este estado del conocimiento, como el objeto de estudio del proyecto en cuyo
marco se inscribe el documento es el que constituyen las prácticas que llevan a
cabo los maestros de primaria para valorar, precisamente, el aprendizaje de sus
alumnos, se usarán las expresiones evaluación en aula y evaluación formativa, sin
precisar que se refieren al aprendizaje, como traducciones abreviadas,
respectivamente, de classroom assessment y formative assessment.
1.2. Tipos de evaluación
La evaluación puede presentar muchas variantes, que se pueden clasificar con
base en diversos criterios (Cfr., por ejemplo, Casanova, 1998). Sin pretensiones
de exhaustividad, se pueden distinguir, entre otros, los tipos siguientes.
Según el objeto de la evaluación o evaluando. En el medio educativo es
frecuente que la evaluación se identifique con la que tiene por objeto el
aprendizaje que alcanzan los estudiantes, pero en realidad se puede referir
a muchos otros objetos o evaluandos, como otros aspectos relativos a los
alumnos (por ejemplo el grado en que respetan las normas de disciplina, la
regularidad de su asistencia, entre otros) pero también se puede evaluar el
desempeño de los docentes y de los directores de escuela, los plateles
escolares como unidades organizacionales, la infraestructura educativa, o
el sistema educativo mismo como tal.
Según el agente evaluador, pudiendo distinguirse evaluación interna o
externa, y también autoevaluación, coevaluación y heteroevaluación.
17
Según el contenido que, en el caso del aprendizaje, puede consistir en
aspectos cognitivos y no cognitivos. En cuanto a los aspectos cognitivos, se
puede tratar del aprendizaje de la lengua, las matemáticas, las ciencias
naturales, etc. Y en un mismo campo hay diversos contenidos, niveles
cognitivos de mayor o menor complejidad, etc.
Según la forma, en función de la metodología y los instrumentos utilizados;
en evaluación de aprendizajes se pueden distinguir pruebas objetivas o de
ensayo, portafolios de evidencias, etc. En este punto se puede distinguir
también si se utilizan preguntas de respuesta estructurada o construida,
breve (monosilábica) o larga, así como el nivel de dificultad de las pruebas.
Una variante particular tiene en cuenta la distancia que separe las
evaluaciones de las tareas que se presentan en la vida real: evaluación
auténtica o artificial.
Según el referente con el que se comparen los resultados de la medición
para llegar al juicio: evaluación ipsativa (el mismo sujeto a lo largo del
tiempo), normativa (el grupo de referencia) o criterial (ciertos estándares
curriculares u otros).
Según el número de sujetos a los que se refiere, que permite distinguir
entre evaluaciones en grande y en pequeña escala.
Según el momento en que se lleve a cabo, sentido en el que se puede
distinguir evaluación inicial, intermedia o final.
Según el propósito que se persiga: evaluación diagnóstica (para
información inicial), sumativa (para valoración final) y formativa (para
retroalimentar); pruebas de selección o ingreso, de certificación, etc.
Según las consecuencias que tenga: evaluación de alto y bajo impacto.
Como ocurre en toda tipología, las variantes que se identifican según cada uno de
los diferentes criterios utilizados se pueden combinar, de manera que puede haber
evaluaciones internas o externas de alumnos o de maestros, evaluaciones
normativas o criteriales en grande o en pequeña escala, etc.
18
De especial interés para los propósitos de este trabajo es la precisión de que no
toda evaluación intermedia es necesariamente formativa, ni toda evaluación final
obligadamente sumativa. Tampoco todas las evaluaciones en aula son formativas
ni todas las evaluaciones formativas son en aula. (Cfr. Black y Wiliam 2004)
El carácter formativo de una evaluación no depende principalmente del momento y
la escala en que se haga, sino del propósito que la oriente y la manera en que se
lleve a cabo y se utilicen sus resultados, aunque es obvio que algunos momentos
y escalas se prestan más que otros para que haya formas y usos congruentes con
un propósito formativo.
2. La evaluación desde la antigüedad hasta principios del siglo XX
La evaluación del aprendizaje que alcanzan los alumnos es un componente
indisociable de la tarea de enseñar, por lo que su historia se remonta a épocas
muy remotas, de manera menos sistemática con los exámenes de Sócrates y los
sofistas, y con un alto grado de estandarización con los exámenes utilizados en
China para la selección de funcionarios imperiales, al parecer desde el siglo
tercero antes de nuestra era, durante la dinastía Han. (Herman, 2010: 506)
Hasta que se desarrollaron los sistemas educativos de tipo moderno –de carácter
público, universales, obligatorios, gratuitos y, muchas veces, laicos— lo que
comenzó a ocurrir hasta el siglo XVIII, primero en Prusia y luego en otros países
europeos, la enseñanza de las primeras letras se daba en el seno de los hogares
acomodados, a cargo de preceptores, o en pequeñas escuelas parroquiales o
gremiales. En todos los casos el número de alumnos era muy reducido y no existía
la noción de grado escolar.
La evaluación de los conocimientos que alcanzaban los alumnos no implicaba, por
lo tanto, el uso de procedimientos dotados de cierta formalidad, sino que bastaba
el juicio del maestro que, a su vez, no necesitaba apoyarse en instrumentos
especiales, sino que se basaba en sus preguntas y la observación cotidiana que el
docente tenía del progreso de cada uno de sus estudiantes. Tampoco se debía
decidir anualmente si un alumno debía o no ser promovido al siguiente grado o
nivel, puesto que no existían estos elementos de la estructura del sistema escolar.
19
Philipp Aries recuerda que hasta el siglo XVII no existía enseñanza en lengua
vulgar que correspondiera al actual nivel de primaria… en la Edad Media, y al
menos hasta el siglo XVI, sólo existía una escuela en latín, la escuela de
gramática (1973: 318).
A diferencia de las escuelas elementales que hoy conocemos, las escuelas de
gramática no se destinaban a niños, sino a jóvenes, y tampoco a toda la
población, sino sólo a una minoría que llegaría a la universidad para estudiar
filosofía, teología, derecho o medicina. (Cfr. Martínez Rizo, 2006)
Se daba por sentado que la gran mayoría de la población no necesitaba saber leer
y escribir, ya que se dedicaría a actividades manuales que no lo requerían. En
momentos muy posteriores la situación no había cambiado mucho. En Francia, el
Decreto Real del 13 de diciembre de 1698 establece:
Artículo 9. Queremos que se establezcan maestros y maestras, hasta
donde sea posible, en todas las parroquias donde no haya, para instruir a
todos los niños, sobre todo a aquellos cuyos padres y madres hayan
profesado la religión que se dice reformada, enseñándoles el catecismo y
las oraciones necesarias, llevándolos a misa todos los días hábiles… y
también para enseñarles a leer, e incluso a escribir a los que pudieran
necesitarlo… (Cfr. Gaulupeau, 1992: 158)
Las escuelas de primeras letras de esa época no se parecían a las primarias de
organización completa o con grados (graded) con las que estamos familiarizados,
sino a nuestras escuelas de organización incompleta o multigrado.
Aries señala que, todavía en el siglo XVI y en los nacientes liceos o gimnasios, la
noción de grados era discutida, y cita como evidencia el siguiente curioso pasaje
de la memoria de J. Sturm sobre el proyecto de organización del gimansio de
Estrasburgo, en 1538:
Vale más las clases en un solo lugar, en vez de dispersarlas en varios. Si
se tienen diez ovejas sería insensato asigna un pastor y una pradera a cada
una… no lo sería menos confiar a muchos maestros aislados los alumnos
que uno solo puede instruir… (Aries, 1973: 199)
20
La masificación de la enseñanza elemental, al volverse una necesidad social y
verse luego como un derecho de todo futuro ciudadano, trajo consigo la necesidad
de formas de organización escolar que permitieran atender a números grandes de
alumnos en forma eficiente.
El sistema de organización que consiste en agrupar a los alumnos de la misma
edad o nivel de avance similar en grupos relativamente homogéneos surgió en
Prusia en el siglo XVIII, y tiempo después se impuso como la forma preferente de
organización escolar, con preferencia al sistema monitorial o tutorial, mejor
conocido en nuestro medio como lancasteriano, desarrollado en Inglaterra y
Escocia a principios del XIX Las escuelas organizadas por grados fueron un
desarrollo natural del sistema de Bell y Lancaster. (Cfr. Thomas y Shaw, 1992: 1)
En Estados Unidos Horace Mann impulsó lo que sería el modelo por antonomasia
de escuela con grados, tras una visita a Prusia en 1843. En 1848 se inauguró la
Grammar School de Quincy, Massachussets, con cuatro plantas, un aula separada
para cada maestro y un patio amplio para reuniones generales. El número de
alumnos permitía agruparlos en forma homogénea y los maestros no debían
ocuparse ya de toda la gama de edades y niveles, sino que cada uno atendía un
solo grado; al final del curso los alumnos pasaban o reprobaban. (Cfr. Goodlad y
Anderson, 1987: 45-48)
En las antiguas escuelas sin grados la enseñanza y la evaluación se desarrollaban
en forma muy distinta a la que hoy se considera deseable, y el papel del maestro
consistía mucho más en evaluar que en enseñar. La misma diversidad de edades
y niveles de avance de los alumnos dificultaba una enseñanza grupal, que se
extendió sólo tras la introducción de la organización por grados. Antes cada
alumno debía leer y releer por su cuenta los pasajes indicados por el maestro, que
luego llamaba a cada uno y lo hacía recitar lo que había aprendido. Si el resultado
de esa toma de lección era favorable, el maestro indicaba nuevos pasajes a
estudiar; en caso contrario, el estudiante regresaba a repasar los mismos pasajes
una y otra vez, hasta que consiguiera aprenderlos a satisfacción del docente.
21
La masificación de los sistemas educativos derivados de la modernidad, a lo largo
del siglo XIX se entiende pues, al menos en parte, como respuesta a la necesidad
social de contar con trabajadores algo más preparados para una economía
basada en la industria y con crecientes intercambios comerciales. Como se ha
mostrado, además, la necesidad de atender grupos numerosos de alumnos trajo
consigo nuevas exigencias que llevaron al desarrollo de sistemas pedagógicos
como el lancasteriano y las escuelas organizadas por grados, así como a la
creación de instituciones especializadas para la preparación de los futuros
maestros: las escuelas normales.
El desarrollo de la psicología y otras ciencias que tienen por objeto de estudio el
comportamiento de los individuos y las sociedades humanas, por otra parte, se dio
hasta la segunda mitad del siglo XIX, por lo que se entiende que las concepciones
pedagógicas que prevalecían en las escuelas de la modernidad incluyeran las
ideas de algunos precursores ilustres, como Vives, Comenio y Pestalozzi, pero
conservaran muchos rasgos debidos a influencias anteriores precisas, en concreto
las inspiradas en una forma de instrucción elemental que se desarrolla oralmente,
en la forma de preguntas y respuestas, y se conoce como catecismo (Resnick et
al., 2010: 400), siguiendo las huellas de Lutero en los países de la Reforma, y las
de jesuitas como Ripalda en los de la Contrarreforma.
Una consecuencia menos analizada de la masificación de los sistemas educativos
es la que tuvo que ver con los sistemas de evaluación.
Además de que la organización por grados trajo consigo nuevas formas de
enseñar, otra implicación es que cuando los niños que aprendían a leer y escribir
eran una minoría, su nivel era también menos heterogéneo que en la actualidad, y
los estándares de calidad que los maestros utilizaban implícitamente al formular
juicios de evaluación eran también relativamente simples, ya que sólo debían
referirse a las habilidades básicas de leer, escribir y contar.
Al generalizarse el acceso a la educación, en cambio, creció también la
heterogeneidad de los alumnos, y fue más difícil mantener estándares de calidad
comparables.
22
Una de las formas en que los nacientes sistemas educativos enfrentaron esta
dificultad fue mediante la creación de cuerpos especiales de supervisores o
inspectores, que en muchos casos siguen existiendo y cuya tarea fundamental
incluye el asegurar que en todos los planteles a su cargo se tuvieran niveles
mínimos de calidad.
En el siglo XX otra reacción ante las limitaciones de las evaluaciones tradicionales
a cargo del maestro consistió en el desarrollo de nuevas formas de evaluación,
basadas en pruebas estandarizadas, como se verá en el apartado siguiente.
3. La evaluación del aprendizaje durante la primera mitad del siglo XX
Los cambios en las formas de evaluar el aprendizaje de los alumnos a los que se
referirá este apartado se entienden en el marco de transformaciones mayores que
ocurrieron en los sistemas educativos y en su entorno social y económico.
Durante la primera mitad del siglo XX, y hasta la Segunda Guerra Mundial, en
paralelo a la maduración de las sociedades industriales los sistemas educativos se
desarrollaron también distinguiendo, con numerosas variantes, tres etapas:
educación primaria, secundaria y terciaria, o básica, media y superior.
En la enseñanza media o secundaria se suelen distinguir dos etapas: secundaria o
media básica y superior. En la enseñanza terciaria o superior hay más variantes
de duración y nivel, distinguiéndose en especial los estudios de orientación más
técnica y los orientados al ejercicio de profesiones liberales, la investigación o los
puestos directivos de mayor jerarquía.
En las sociedades preindustriales sólo una pequeña minoría de la población sabía
leer y escribir y se consideraba normal que el grueso de la población no fuera a la
escuela. En la modernidad, hija de la ilustración y la revolución industrial, se veía
necesaria la alfabetización universal y por ello surgieron los sistemas educativos
que conocemos.
Hasta entrado el siglo XX, sin embargo, en casi todas partes los sistemas
educativos estaban estructurados con base en el supuesto implícito de que era
natural que sólo pocos alumnos tuvieran altos niveles de aprendizaje en la escuela
23
primaria o elemental y accedieran a niveles superiores, en tanto que el grueso del
alumnado no lo conseguía y debía dejar la escuela al final de la primaria, para
dedicarse a ocupaciones de tipo manual.
Lo anterior se refleja en el hecho de que la expansión de los sistemas educativos
durante el siglo XIX se caracterizó en general por la temprana separación de las
trayectorias corta y larga de la escolaridad, con lo que se suele denominar un
sistema educativo dual.
La opción contraria la constituyen los sistemas educativos de tipo comprensivo,
que se distinguen porque en ellos, al menos en principio, todos los alumnos siguen
asistiendo a escuelas similares durante la educación secundaria, al menos en su
parte básica y luego, en diferente medida, también en la superior.
La excepción a la tendencia general apuntada antes la constituyeron los Estados
Unidos de América que, desde el siglo XIX, adoptaron un enfoque comprensivo
para su educación secundaria; en Europa la adopción de un modelo comprensivo
se dio por vez primera hasta mediados del siglo XX, en Suecia. (Cfr. Husén, 1986)
Con la sociedad y su sistema educativo las ideas psicológicas evolucionaron
también y el conductismo (behaviorism) se impuso como corriente dominante, no
sin relación con el desarrollo de sistemas taylorianos de producción industrial. Con
el conductismo se relacionan las concepciones asociacionistas del aprendizaje
que, junto con resabios de las concepciones derivadas del uso de catecismos,
siguieron marcando el trabajo de muchos maestros.
Resnick y otros señalan que al masificarse los sistemas educativos la enseñanza
tipo catecismo pasó a las aulas laicas. Los contenidos se ampliaron, incluyendo
elementos de aritmética, la lectura de una gama de textos, la redacción y la
historia patria, pero la forma de interacción permaneció notablemente constante.
Después de que los alumnos leían un texto o resolvían algunos ejercicios
aritméticos, el profesor les hacía una serie de preguntas, para verificar si habían
leído el texto y recordaban su contenido o si sus respuestas a los ejercicios eran
correctas. Esos autores señalan que la forma del catecismo todavía está presente
en lo que ahora llamamos “enseñanza estándar basada en recitación” y añaden:
24
En 1979, Hugh Mehan, buscando ofrecer una descripción estructurada de la
enseñanza que había observado en aulas de primer grado de primaria,
describía una secuencia que ha llegado a ser conocida como I-R-E (Mehan,
1979). El maestro iniciaba (I) un intercambio en tres pasos; un alumno –que
podía ofrecerse voluntariamente o ser designado por el maestro—respondía
(R); luego el maestro evaluaba la respuesta, sea aceptándola como
correcta o indicando que no lo era (E). (Resnick et al., 2010: 400)
En forma paralela a los cambios de la sociedad y las escuelas, se desarrolló otra
tendencia del mayor interés para este trabajo: la revolución en la medición de
fenómenos psicológicos y sociales que representó la psicometría, que tuvo lugar
fundamentalmente en los Estados Unidos, donde las ideas seminales de
estudiosos europeos como Wundt y Binet encontraron un terreno favorable.
En 1890 J. McKeen Cattell, discípulo de Wundt, inventó la palabra test y publicó
un texto fundacional con el artículo Mental Tests and Measurements,. Las pruebas
de inteligencia desarrolladas por Binet fueron adaptadas por Terman en Stanford
en 1916 y se extendieron al ser utilizadas por el ejército americano, con el Army
Test de Yerkes, Terman y otros en 1917 (de Landsheere, 1996: 56-71)
Como se ha apuntado ya, los Estados Unidos desarrollaron antes que los países
europeos un sistema de educación de cobertura masiva, primero en los niveles
básicos, con educadores como Horace Mann, y luego en la educación media y
superior, sobre todo a partir de la Ley Morrill de 1862.
Por ello no sorprende que fuera en ese país donde se desarrollaron versiones
tempranas de evaluaciones en gran escala, con la aplicación de pruebas impresas
de historia a poco más de 500 escolares de 19 escuelas de Boston en 1845. Entre
1895 y 1897 J. M. Rice aplicó una prueba de ortografía a 16,000 alumnos, y más
tarde una de aritmética a 13,000 y otra de comprensión de lectura a 8,300.
El enfoque comprensivo de la educación norteamericana llevó también, décadas
antes que en Europa, a un fuerte crecimiento del alumnado de la educación
superior que explica el nacimiento del College Board (originalmente College
Entrance Examination Board) el 17 de noviembre de 1900.
25
Los procesos de selección para ingreso a las universidades se hicieron complejos
debido al incremento de la proporción de jóvenes que terminaban la educación
media superior (senior high school) y a la proliferación de instituciones (colleges)
de muy diverso perfil. Debe tenerse en cuenta que hacia 1900 en los grandes
países europeos las universidades se contaban por unidades, mientras que en
Estados Unidos eran ya cerca de mil.
El primer historiador del College Board, Claude M. Fuess, señala que la fundación
de esta institución fue el primer intento organizado de introducir la ley y el orden en
una anarquía educativa que, a fines del siglo XIX, había llegado a ser
exasperante, sin duda casi intolerable, para los directores de escuelas, y añade
que había un consenso preocupantemente reducido entre los colleges en cuanto
al tipo de preparación en ciertas áreas de contenido y en cuanto a los estándares
de desempeño que debían pedirse a los aspirantes. (Citado en Donlon, 1984: 1)
Las primeras pruebas del College Board eran exámenes de tipo ensayo en nueve
áreas, acordes con las concepciones curriculares de la época: inglés, francés,
alemán, latín, griego, historia, matemáticas, química, física. Como los sustentantes
se presentaban en distintos lugares, se cuidaba la comparabilidad aplicándolos en
forma simultánea y asegurando la uniformidad de contenido, de condiciones de
administración y de calificación de las respuestas. La primera aplicación, en junio
de 1901, implicó a 973 aspirantes. En 1902 se aplicaron 1,362 pruebas y para
1910 el número llegó a 3,731. (Donlon, 1984: 1)
La dificultad de calificar de manera rápida y confiable cantidades crecientes de
exámenes de tipo ensayo llevó a la búsqueda de alternativas y se desarrollaron
las pruebas objetivas, de respuesta abierta breve o previamente estructurada,
especialmente de opción múltiple, con varias posibles respuestas predefinidas,
entre las cuales el alumno debe únicamente escoger y marcar la que crea
correcta. Diseñadas por Yerkes y Moore, que habían adquirido experiencia con el
Army Test, y bajo la coordinación de Carl Brigham, las pruebas del Scholastic
Aptitude Test (SAT) se gestaron a partir de 1925 y se administraron por primera
vez el 23 de junio de 1926, a 8,040 sustentantes. (Donlon, 1984: 2)
26
La constatación de que el porcentaje de sustentantes con puntajes aprobatorios
variaba mucho de un año a otro hizo pensar que lo que cambiaba en realidad era
el grado de dificultad de la prueba, y no el nivel promedio de los sustentantes, que
se podía suponer más estable. Por ello a principios de los años 30 se decidió
establecer una proporción fija de aprobados, ajustando las puntuaciones del
conjunto de sustentantes de cada año en consecuencia. La equiparación de
versiones y el cuidado de la estabilidad de la prueba a lo largo del tiempo
comenzaron a hacerse en 1941. (Donlon, 1984: 3-8)
Desde la década de 1920, una de las universidades americanas en donde los
trabajos de construcción de pruebas estandarizadas se desarrolló con fuerza fue
la de Princeton, a cuyo personal académico pertenecía Carl Brigham, el principal
autor del SAT. En 1948, la oficina de Princeton que se dedicaba a la elaboración
de tests se separó de la universidad, constituyéndose formalmente como una
entidad privada diferente, el Educational Testing Service, sin duda el centro
especializado en producción de instrumentos psicométricos más fuerte del mundo.
(De Landsheere 1986:150).
Además del College Board y el ETS, en la segunda mitad del siglo XX otras
organizaciones de Estados Unidos, como el American College Testing (ACT) y la
de Universidad Iowa, desarrollaron pruebas en gran escala. Fuera de ese país,
especialmente en las primeras décadas del siglo, fue casi únicamente en el ámbito
anglosajón donde hubo avances similares, y en escala menor, al grado de que la
psicometría se llegó a considerar una disciplina meramente estadounidense.
Las difíciles circunstancias europeas desde antes de la Primera Guerra Mundial
hasta después de la Segunda explican, sin duda, el menor avance de estos temas
en países de gran tradición académica como Alemania y Francia. Lo anterior llegó
a ser tan marcado que en 1931, al escuchar que los participantes en un congreso
internacional se referían a la psicometría como estadounidense, E. L. Thorndike
consideró necesario protestar, diciendo que por el bien de la ciencia y por nuestro
bienestar, sería preferible que las pruebas estandarizadas no fueran denominadas
'exámenes estadounidenses. (Joncich, 1968, citado por De Landsheere, 1986: 68)
27
Así pues, en los primeros años del siglo XX comenzó el desarrollo de lo que se
conoce ahora como la Teoría Clásica de las Pruebas, a partir de la teoría de la
confiabilidad y el modelo estadístico de las puntuaciones, con las nociones de
puntaje verdadero, error de medida y confiabilidad (Keeves, 1997: 707). Los
fundamentos estadísticos de la disciplina se debieron a ingleses como Spearman,
pero la obra fundacional del nuevo campo teórico fue la del norteamericano
Edward L. Thorndike, An introduction to theory of mental and social measurement,
publicada en Nueva York en 1904. (Martínez Arias, 1995: 40)
En la cuarta década del siglo, con publicaciones como Psychometrika (1935) y
Educational and Psychological Measurement (1941), la teoría de las pruebas en
su versión clásica puede considerarse completa con la aparición del libro de
Gulliksen, Theory of mental tests, en 1950 (Martínez Arias, 1995: 42).
La primera edición del Mental Measurement Yearbook del Instituto Buros es de
1938 y la Psychometric Society fue fundada a iniciativa de Thurstone en 1935. En
1946 Stevens formuló la clasificación ahora canónica de los niveles de medición
nominal, ordinal, de intervalo y de razón. (de Landsheere, 1986: 68)
Los pioneros del desarrollo de las pruebas estandarizadas estaban convencidos
de que las escuelas americanas tenían serios problemas de calidad, y de que las
evaluaciones que hacían los maestros tenían deficiencias graves, por lo que no
eran útiles para sustentar diagnósticos que dieran bases sólidas para estrategias
de mejora. Recordemos que, junto al conductismo y el asociacionismo, la vieja
influencia del catecismo seguía presente en las escuelas, con la enseñanza
estándar basada en recitación y la secuencia inicio por el maestro-respuesta del
alumno-evaluación por el maestro a la que ya se ha hecho alusión.
Por ello los educadores de los inicios de la psicometría se propusieron desarrollar
otro tipo de instrumentos, cuyos resultados permitieran comparar los niveles de
rendimiento de alumnos de diferentes escuelas. Shepard cita la opinión de
Thorndike, en el sentido de que las nuevas pruebas serían un remedio para la
escandalosa falta de confiabilidad de los exámenes aplicados por los maestros,
demostrada en varios estudios previos. (Shepard, 2006: 623)
28
La ventaja de la comparabilidad que ofrecían los nuevos instrumentos era clara,
pero sus limitaciones, hoy ampliamente aceptadas, fueron advertidas desde
entonces. Ya en 1923 B. D. Word se quejaba de que las pruebas estandarizadas
medían sólo hechos aislados y piezas de información, en lugar de capacidad de
razonamiento, habilidad organizadora, etc. Otro impulsor de estos instrumentos,
Ralph Tyler, subrayó también desde los primeros años la necesidad de verlos no
como un proceso separado de la enseñanza, sino como parte integral de ésta.
Pese a ello, la tendencia dominante fue la de considerar las pruebas en gran
escala como la forma preferida de evaluación, en tanto que la que realizan
diariamente los maestros en las aulas se veía como una forma secundaria, que
debería subordinarse a la primera, cuyos principios metodológicos debía imitar.
El contenido de los textos sobre evaluación utilizados en las instituciones
formadoras de maestros así lo muestra: según estas obras, las evaluaciones que
deberían aplicar en el aula los maestros debían ser réplicas de las evaluaciones
en gran escala, por lo que los maestros debían aprender a elaborar preguntas
estructuradas y a analizar los resultados de instrumentos formados con ellas
estadísticamente, cuidando la validez y la confiabilidad en la misma forma en que
debe hacerse en gran escala. (Cfr. Shepard, 2006: 623-625)
La influencia de las pruebas estandarizadas sobre las evaluaciones que llevan a
cabo día a día los maestros en las aulas se dejó sentir primero en el sistema
educativo norteamericano, lo que fue una consecuencia lógica del hecho de que
las pruebas estandarizadas como formas de evaluación se introdujeron en ese
país antes que en todos los demás, pero aún antes de que se extendiera la
aplicación de pruebas en gran escala la influencia de tales instrumentos se dejó
sentir en muchos países.
En relación con México y América Latina, en otro lugar se ha señalado que:
El desarrollo de pruebas estandarizadas de aprovechamiento escolar
comenzó a principios del siglo XX. A lo largo de la primera mitad del mismo
el movimiento adquirió fuerza, al grado que las evaluaciones de los
maestros comenzaron a incorporarlas. En América Latina la influencia de
29
esos desarrollos se sentía a mediados del siglo, cuando comenzó a pedirse
a los maestros que prepararan pruebas de opción múltiple. Se les pedía
también que estandarizaran las puntuaciones de sus alumnos, lo que se
llamaba “calificar por curva”, pero como no se ofrecía preparación especial
para ello, la calidad de las pruebas hechas por los maestros era pobre.
(Martínez Rizo, 2010a: 479)
Como muestra de que algo similar ocurría en sistemas educativos de mayor
consolidación, la autora del artículo que presenta una visión de conjunto del tema
Educational Assessment en la tercera edición de la Enciclopedia Internacional de
Educación, señala, refiriéndose expresamente al párrafo anterior:
Esta limitada práctica no se limitaba a un tiempo o un lugar; esta autora
confiesa que ella hacía lo mismo, como maestra recién calificada en
Inglaterra, en la década de 1970, creyendo erróneamente que así actuaba
como científica. (James, 2010: 162)
4. La evaluación del aprendizaje en la segunda mitad del siglo XX
4.1. El contexto social
El avance de la evaluación en la segunda mitad del siglo tuvo que ver con el
desarrollo de la sociedad postindustrial y el comercio internacional, con lo que la
tímida apertura de las economías del XIX y principios del XX dio lugar al mundo
globalizado en que vivimos, lo que trajo consigo importantes cambios en los
sistemas educativos, que cada vez más se valoran en relación con su contribución
al desarrollo científico y técnico y la competitividad económica, concibiendo su
función no como la de preparar una élite, sino la de llevar a todos los futuros
ciudadanos a alcanzar niveles básicos de competencia.
A partir de la segunda mitad del siglo XX, los sistemas educativos de estructura
dual, con una vía que llegaba hasta la universidad para la élite y otra que conducía
rápidamente al mercado laboral a la mayoría de los alumnos, fueron dejando el
lugar a sistemas de enfoque comprehensivo, que pretenden llevar a todos los
jóvenes al menos hasta el fin de educación media, hacia los 18 años de edad.
30
Sin contar la excepción temprana de los Estados Unidos, el modelo comprensivo
se dio por vez primera en Suecia, a partir del fin de la Segunda Guerra Mundial, en
el marco del desarrollo del estado de bienestar. Progresivamente otros países han
dado un enfoque comprensivo a sus sistemas educativos, al tiempo que han
aumentado el lapso comprendido por la escolaridad obligatoria. Este ha sido el
caso de los demás países escandinavos, los anglosajones, no pocos del Asia
oriental y, más recientemente, de los países iberoamericanos, incluido México.
Las razones de esta evolución pueden agruparse en dos rubros: por una parte, las
necesidades de las economías modernas, que cada vez ocupan más personas
con competencias complejas; por otra, los avances de la investigación, que
muestran cada vez con mayor claridad la falta de sustento de la antigua creencia
en que sólo una pequeña parte de las personas tienen capacidad para hacer con
éxito estudios superiores o, en general, para adquirir competencias complejas.
En cuanto al primer grupo de razones, la evolución de los mercados laborales en
Estados Unidos, similar a la de otras economías avanzadas, muestra cómo ha
disminuido la proporción de puestos de trabajo manual, en tanto que aumenta la
de puestos gerenciales, administrativos y de servicios, lo que significa que la
demanda de competencias manuales y rutinarias disminuye, mientras aumenta la
de competencias complejas y de tipo analítico. La consecuencia para los sistemas
educativos es clara: cada vez es más necesario que, tras su paso por la escuela,
los jóvenes tengan conocimientos y habilidades para cuyo desarrollo no basta la
educación básica. (Cfr. Levy y Murnane, 2010; Autor, Levy y Murnane, 2003)
Sin limitarse a la dimensión económica, la vida en una democracia que funcione
efectivamente supone también ciudadanos con una formación que no se limite a la
elemental, lo que también enriquecerá su vida cultural y favorecerá la comprensión
internacional tan necesaria en un mundo global.
En cuanto al escaso sustento de la opinión de que sólo pocos alumnos tendrían
aptitudes para aprendizajes complejos, la Comisión del Parlamento sueco creada
en 1946 para definir cómo se debería organizar el sistema educativo comenzó
encargando estudios sobre el desarrollo de las habilidades de los chicos de 7 a 16
31
años. Diversos trabajos mostraron que los medios utilizados para supuestamente
detectar la aptitud académica eran poco confiables y con fuerte sesgo
sociocultural; que muchos chicos así seleccionados fracasaban posteriormente en
los estudios; y que no era cierto que los chicos con mayores aptitudes académicas
tuvieran menos habilidades prácticas y viceversa. (Husén, 1986: 156)
La investigación contemporánea ha vuelto obsoletas las posturas sobre el carácter
hereditario y no modificable de la capacidad intelectual. Un balance reciente dice:
A fines del siglo XX muchos expertos creían que la inteligencia y el talento
estaban substancialmente bajo control genético… eran escépticos en
cuanto al posible éxito de cualquier esfuerzo por mejorar la inteligencia, y
no se sorprendían cuando intervenciones de educación temprana no tenían
efectos duraderos… Sin embargo, los resultados de las recientes
investigaciones en psicología, genética y neurociencia, junto con los
actuales estudios sobre la eficacia de las intervenciones educativas han
puesto de cabeza la fuerte postura hereditaria sobre la inteligencia. Ahora
se considera claro que la inteligencia es altamente modificable por el medio
…que el IQ de cualquier persona, así como sus resultados académicos y su
éxito ocupacional sean altos o bajos depende en buena medida de factores
ambientales que no tienen nada que ver con sus genes. (Nisbett, 2009: 1-2)
4.2. Avances de la psicometría
En paralelo a los cambios de la sociedad, los sistemas educativos y las ideas
psicológicas, en la segunda mitad del siglo XX los avances en medición y pruebas
continuaron. Los fundamentos de las décadas anteriores se vieron enriquecidos
por aportaciones importantes, en especial modelos derivados de la teoría de
respuesta a los ítems, las pruebas criteriales, las basadas en estándares y los
mapas de progreso, además de la teoría de la generalizabilidad y otros avances.
Las teorías de respuesta a los ítems (TRI) o de las curvas características de un
ítem, intentan fundamentar probabilísticamente el problema de la medición de
rasgos y constructos no observables (rasgos latentes), considerando al ítem, y no
al puntaje global, como unidad básica de análisis. (Martínez Arias, 1995: 237-243)
32
Con antecedentes en Binet, Thurstone y otros, se considera que el inicio formal de
estos modelos fue un artículo publicado por Lord en 1952 con el título de A theory
of tests scores. En 1957-58 Birnbaum desarrolló los modelos de dos y tres
parámetros y, en 1960, Rasch propuso el de un parámetro que, pese a su mayor
simplicidad, o tal vez por ello, y con el entusiasta apoyo de Benjamín Wright, de
Chicago, se extendió más rápidamente. La obra de Lord y Novick Statistical
theories of mental test scores (1968) difunde una versión madura de la TRI.
Con la difusión de las computadoras, los cálculos necesarios para aplicar la TRI se
volvieron accesibles, con lo que se impuso como paradigma en la psicometría. En
1985 el libro de Hambleton y Swaminathan, Item response theory. Principles and
applications, mostraba la amplitud de sus aplicaciones. (Cfr. Muñiz, 1997)
Otro avance fue el de las pruebas referidas a un dominio o criterio, según la
terminología introducida por Glaser en 1963, como alternativa a las pruebas
diseñadas en relación con una norma estadística. Con el nuevo enfoque se busca
medir si un sujeto alcanza un nivel de rendimiento definido, en lugar de fijar su
posición en relación con otros sustentantes. La idea de Glaser fue desarrollada por
Popham, Husek y Hambleton (Martínez Arias, 1995: 653-693); las pruebas
basadas en estándares se relaciona con ella. Posteriormente la diferencia entre
pruebas con referencia a una norma estadística o a ciertos criterios o estándares
perdió importancia, con las pruebas basadas en las nociones de evaluación del
desarrollo del aprendizaje (developmental assessment) y los mapas de progreso,
utilizadas inicialmente en trabajos del Australian Council for Educational
Measurement, ACER (Forster y Masters, 2010: 369). Estos autores afirman:
Los “mapas de progreso” describen el avance típico en cierta área de
aprendizaje, o sea los conocimientos, habilidades y comprensiones en
desarrollo en comparación con los cuales se puede evaluar y monitorear a
lo largo del tiempo el aprendizaje de los estudiantes. Ofrecen un marco que
franquea el aparente abismo conceptual entre las evaluaciones en aula a
cargo de los maestros y las evaluaciones del sistema educativo con
propósitos de rendición de cuentas. (2010:371-372)
33
Forster y Masters ven esos avances como tal vez el desarrollo singular más
importante de la medición en educación durante el siglo XX. En su opinión:
Durante la mayor parte del siglo XX la medición educativa y psicológica se
basaba en la construcción de instrumentos (tests, cuestionarios, exámenes)
y el desarrollo de normas para cada uno. Cada instrumento y las tablas
normativas que lo acompañaban permitían comparar a los estudiantes entre
sí. La segunda mitad del siglo vio el desarrollo de métodos para construir y
utilizar marcos para reportar resultados que no están asociados a ningún
instrumento en particular… El nivel de desempeño de un individuo puede
interpretarse en referencia al marco de reporte subyacente (o sea con
referencia a criterios o estándares) o con referencia al desempeño de otros
estudiantes (o sea con referencia a una norma estadística), pero con el uso
de mapas de progreso estas distintas interpretaciones no implican
diferentes acercamientos a la evaluación. (2010: 371-372)
En una dirección diferente, la Teoría Clásica de las Pruebas fue desarrollada por
la Teoría de la Generalizabilidad, de Cronbach y colaboradores. Este enfoque
atiende en forma más comprensiva la problemática de la confiabilidad, con la
noción de generalizabilidad, que substituye el concepto de puntaje verdadero por
el de puntaje del universo y, en lugar de manejar el error de medición en forma
global, identifica diversas fuentes posibles de error o facetas y mide su influencia
con técnicas estadísticas multivariadas. Con antecedentes en décadas previas, el
trabajo fundacional fue publicado en 1963: Theory of generalizability. A liberation
of reliability theory (Martínez Arias, 1995: 170). Una década más tarde se publicó
la obra que contiene la versión madura de la teoría. (Cronbach,1972)
Otras novedades de las últimas décadas del siglo XX incluyen técnicas para
valorar el sesgo o funcionamiento diferencial de los ítems; pruebas que incluyen
respuesta construida, de ejecución o desempeño; pruebas auténticas; pruebas
adaptativas por computadora; pruebas matriciales o en espiral; adaptaciones
(accomodations), o sea variaciones controladas de una prueba para atender las
condiciones particulares de algunos sustentantes, como discapacitados, etcétera.
34
Estos y otros avances permiten hablar de una nueva generación de pruebas, muy
distintas de las de mediados del siglo XX, que típicamente consistían en conjuntos
de preguntas de opción múltiple aplicadas en forma uniforme y controlada, cuyos
resultados se analizaban únicamente con la teoría clásica y muchas veces se
reportaban solamente en la forma de porcentaje de respuestas correctas.
4.3. La difusión de las pruebas hasta principios del siglo XXI
Las transformaciones sociales, las de los sistemas educativos y las metodologías
de medición que surgieron durante la segunda mitad del siglo XX, se combinaron
para producir un fenómeno sin precedentes en el terreno educativo: el que
consistió en una difusión amplísima y muy rápida de las pruebas estandarizadas
en gran escala en un gran número de países.
El caso de los Estados Unidos
Al comenzar la segunda mitad del siglo XX varios acontecimientos contribuyeron a
generar preocupación sobre la calidad de las escuelas norteamericanas; se puede
mencionar el Informe Coleman, en 1966; una tendencia a la baja de los resultados
promedio obtenidos año tras año en el SAT por los aspirantes a ingresar a la
educación superior; y, de manera destacada, el impacto del lanzamiento del
Sputnik por la Unión Soviética, en 1957.
La ley titulada significativamente National Defense Education Act, aprobada por el
Congreso en 1958 (Mathison y Ross, 2008, xvii-xviii), muestra la lectura que se dio
del hecho en el contexto de la guerra fría, como indicio de que la URSS estaría
adelantando a los Estados Unidos en la carrera espacial, lo que querría decir que
en aquel país había mejores científicos e ingenieros y, en última instancia, una
educación de mejor calidad, especialmente en matemáticas y ciencias.
Más tarde, en la era post-Sputnik y post Coleman, las legislaturas de California,
Florida y Oregon establecieron la obligación de evaluar regularmente a los
alumnos de diversos grados de la educación preuniversitaria, mediante pruebas
de rendimiento construidas en relación con estándares mínimos de desempeño.
35
Estos programas de minimum competency testing fueron parte de una estrategia
de mejora adoptada por muchos estados. No era evidente que hubiera realmente
un deterioro en los promedios del SAT, dados los cambios en el alumnado de High
School y, sobre todo, en la población de aspirantes a ingresar a las universidades;
sin embargo, los motivos de preocupación resultaron suficientemente fuertes para
que la tendencia se fortaleciera, y de hecho prácticamente todos los estados
americanos implantaron una u otra variante de esas pruebas.
Según Baker y Choppin (1990), en 1982 42 de los 50 estados tenían programas
obligatorios de esa naturaleza. Esos autores señalan que, al generalizarse, los
programas de pruebas de competencias mínimas muchas veces se aplicaron de
manera deficiente, por lo que su impacto se redujo y las expectativas depositadas
en ellos no se cumplieron. Se multiplicaron también demandas judiciales que
cuestionan a las pruebas por discriminatorias, sesgadas y poco fiables. En 1978
(Bracey, Brikell, Cawelti, Ebel, McClung, Mecklenburger y Pipho) y 1979 (Boes y
Pipho) la revista Phi Delta Kappan publicó varios textos polémicos sobre las
pruebas de competencias mínimas. (Cfr. Latapí, 1991).
En el contexto de la preocupación por la calidad de las escuelas americanas, la
década de 1960 vio también el nacimiento del programa National Assessment of
Education Progress (NAEP), con el propósito de tener información sobre el nivel
de la educación a escala nacional (cfr. Walberg 1990). El programa ha sido punto
de referencia para los sistemas de pruebas para el monitoreo de la calidad
educativa de otros países, como Australia (ACER) y Holanda (CITO).
El NAEP se gestó en 1963, cuando una comisión presidida por Ralph Tyler
(Exploratory Committee on Assessing the Progress of Education) llevó a cabo un
trabajo que terminó en 1969, y fue asumido para ser continuado por la Education
Commission of the States. A partir de 1983 la realización de los estudios del
programa NAEP fue confiada al ETS, el cual creó en su seno el Center for the
Assessment of Educational Progress (CAEP) para ello. Con esta medida la calidad
técnica de los trabajos del NAEP se incrementó. (Walberg, 1990 y De Landsheere,
1994:50-51)
36
La lectura y las matemáticas se evalúan cada dos años; la expresión escrita y las
ciencias cada cuatro. Las pruebas tienen un diseño matricial o en espiral, pues no
se pretenden resultados para el nivel individual, sino para el subsistema, y se
aplican a muestras representativas de niños de 9, 13 y 17 años, edades que
corresponden a etapas importantes del proceso escolar.
Inicialmente los resultados permitían comparaciones entre cuatro regiones del país
(noreste, sureste, centro y oeste), así como entre tipos de comunidades, grupos
de alumnos con padres de diferente nivel de escolaridad, raza y sexo. Desde 1990
los resultados permiten también comparaciones entre estados. Las escalas del
NAEP para evaluar las áreas de contenido manejan cinco niveles: rudimentario,
150 puntos; básico, 200; intermedio, 250; apto, 300; avanzado, 350.
La publicación del informe A Nation at a Risk, en 1983, fue indicio de la
continuidad de la preocupación americana por la calidad educativa en una
perspectiva de seguridad nacional, militar o económica; con dicho informe inició el
movimiento de estándares educativos, que se manifestó con fuerza durante la
década de 1990. (Cfr. Mathison y Ross, 2008)
En 1989, en la llamada Cumbre Educativa de Charlottesville, los gobernadores de
los 50 estados norteamericanos, convocados por el presidente, adoptaron un
conjunto de metas en la perspectiva del año 2000. Una meta establecía que para
esa fecha los estudiantes americanos deberían terminar los grados 4°, 8° y 12°
demostrando competencia en temas exigentes (challenging) de inglés,
matemáticas, ciencias, historia y geografía. En 1990 se establecieron
procedimientos apoyados con fondos federales para avanzar hacia esas metas, y
se crearon el National Education Goals Panel y el National Council on Education
Standards and Testing. (Mathison, 2008: 9)
A lo largo de la década muchas organizaciones profesionales participaron en el
desarrollo de estándares para diversas áreas curriculares, de manera que durante
los años 90 virtualmente cada área temática que se enseña en las escuelas fue
codificada en un conjunto de estándares promulgados por una asociación
profesional (Mathison, 2008: 9).
37
Otras cumbres educativas (education summits) de gobernadores se llevaron a
cabo también en los años 1990, y el desarrollo de estándares se vio acompañado
por el de pruebas para evaluar su cumplimiento, en un proceso que alcanzó su
máxima expresión a partir de 2002.
Como se ha señalado, las pruebas del NAEP ofrecen resultados confiables sobre
el sistema educativo del país, pero no dan resultados individuales, ni tampoco de
cada escuela o distrito. Para tener resultados confiables en esos niveles más finos
se buscaron otras soluciones: la prueba nacional voluntaria (Voluntary National
Test, VNT), propuesta por el Presidente Clinton en su mensaje sobre el Estado de
la Unión de 1997, o un gran sistema de pruebas adaptativas computarizadas,
aplicado por internet, que propuso la Rand Corporation. (Klein y Hamilton, 1999)
En 2002 el presidente Georges W. Bush firmó una nueva legislación educativa en
el nivel federal, que se designa con la expresión que ningún niño se quede atrás
(No Child Left Behind, NCLB). Esta legislación implicó cambios importantes en las
políticas educativas en general, y en particular en lo que se refiere a la evaluación
del rendimiento de los alumnos. Para entender las motivaciones y los alcances de
estos cambios conviene recordar algunas cosas.
Los resultados obtenidos en las pruebas PISA aplicadas en 2000, como había
ocurrido con el TIMSS y otras evaluaciones de la IEA, situaron a Estados Unidos a
media tabla entre los países desarrollados, lejos de los primeros puestos que les
gustaría ocupar, y que ahora acaparan países como Finlandia o Canadá, así como
Corea del Sur, Singapur o Japón. Los alumnos norteamericanos estuvieron lejos
de la meta fijada en 1989 por los gobernadores, en el sentido de que en esa fecha
serían los primeros del mundo en matemáticas y ciencias (PISA 2001). También
era claro que eso no ocurriría en tanto no mejoraran los resultados de los alumnos
de condiciones más desfavorables, los más pobres, masivamente negros e
hispanos y, en muchos casos, de lengua materna distinta del inglés.
La Ley NCLB pretendía revertir la situación en un plazo de doce años (en 2014),
con medidas que incluían reforzar los mecanismos de evaluación: todos los
estados deberían definir estándares educativos claros y crear sistemas estatales
38
de evaluación alineados con esos estándares, con pruebas anuales de inglés,
matemáticas y ciencias para todos los alumnos de 4° a 8° grado. Además, la
participación en las pruebas del NAEP pasó a ser condición obligatoria para
acceder a los fondos federales para apoyar programas de mejora educativa.
La nueva ley hizo pasar de una situación en que había muchas evaluaciones en
gran escala de impacto reducido, a otra en la que las evaluaciones se volvieron de
alto impacto, porque los resultados de los alumnos en las pruebas son el criterio
para definir si una escuela consigue o no el avance estipulados para recibir apoyo
(Adequate Yearly Progress, AYP) y puede incluso ser cerrada si no lo consigue.
Pese a lo anterior, la última aplicación de PISA mostró poco avance de los
alumnos norteamericanos, esta vez frente a un sorprendente desempeño de la
provincia china de Shanghai (PISA 2009) que, en la primera ocasión en que
participó en las pruebas de la OCDE, apareció por delante de todos los países, en
las tres áreas evaluadas y con diferencia significativa respecto a sus seguidores
más cercanos (Hong Kong, Finlandia y Corea del Sur), en lo que debería ser un
nuevo momento Sputnik para el sistema educativo de los Estados Unidos, según
expresión del presidente Obama. (UPI, 2009)
Las evaluaciones internacionales
La preocupación por la calidad educativa no ha sido exclusiva de los Estados
Unidos. Los hechos que agudizaron esa preocupación, en especial el lanzamiento
del Sputnik, produjeron también reacciones que llevaron al surgimiento de las
evaluaciones internacionales a lo largo de la segunda mitad del siglo XX.
Aun si cada país tuviera un sistema nacional de evaluación, la comparación de los
resultados no sería fácil dadas las diferencias de los sistemas educativos en
estructura, currículos y calendarios escolares, además de las diferencias de
contenido, grado de dificultad y enfoque de los instrumentos de evaluación que se
utilizan en cada uno. Por ello los trabajos pioneros de la International Association
for the Evaluation of Educational Achievement (IEA) fueron notables. (Cfr.
Postlethwaite, 1985; de Landsheere, 1994; Husén y Postlethwaite, 1996).
39
Ante la insatisfacción con las tasas de egreso o eficiencia terminal como único
indicador comparable de calidad, investigadores educativos de varios países, con
el liderazgo del sueco Torsten Husén, se planteó en 1958 la posibilidad de una
evaluación que diera resultados comparables a nivel internacional, con pruebas
equivalentes en contenido y dificultad.
En 1959 se organizó un estudio piloto con muestras reducidas de 12 países; los
resultados se difundieron en 1962. Con base en ello se diseñó un trabajo en gran
escala sobre matemáticas, con muestras representativas de los mismos países.
La recolección de datos tuvo lugar en 1964.
En 1966 la IEA se constituyó formalmente como organización, y durante el resto
de la década y la de los 70 hizo trabajos sobre ciencias en 19 países; lectura en
15; literatura en 10; educación cívica en 10; francés e inglés como segunda lengua
en 18; matemáticas, ciencias, historia y entorno del aula en 10 países.
En los años de 1980 la IEA llevó a cabo un segundo estudio sobre matemáticas,
en 20 países; un segundo trabajo sobre ciencias en 24 y otro sobre composición
escrita en 14. De fines de los años 80 a mediados de los 90 la IEA condujo un
trabajo más sobre el uso de computadoras en educación en 23 países; otro sobre
pre-primaria en 14; uno más sobre lectura en 31; y el tercer estudio sobre
matemáticas y ciencias en más de 40 países (Third International Mathematics &
Science Study, TIMSS).
Hasta principios de la década de 1990 sólo hubo otro estudio comparativo del
aprendizaje en varios países: el del Educational Testing Service conocido con el
nombre International Assessment of Educational Progress (IAEP) (cfr. Livingstone
1990). El IAEP, sin embargo, no tuvo continuidad, por lo que parece válida la
siguiente afirmación, referida a los trabajos de la IEA en ese lapso:
En el campo de la evaluación comparativa hay pocas dudas de que, desde
sus inicios a principios de la década de los años 60, esta organización ha
sido la principal fuente de comparaciones confiables entre sistemas
educativos. (Goldstein, 1996: 125)
40
A fines del siglo pasado y en lo que va del presente las actividades de la IEA se
fortalecieron: además de los proyectos sobre matemáticas, ciencias y lectura se
desarrollaron otros como el de educación cívica, participan en ellos cada vez más
países, y el intervalo entre aplicaciones se ha reducido: el TIMSS adoptó un ritmo
de aplicaciones cada cuatro años: las siglas ahora quieren decir Trends in
Mathematics and Science Study. El nuevo TIMSS se ha aplicado en 2003 y 2007.
Las evaluaciones sobre lectura (PIRLS) adoptaron una periodicidad de cinco años.
El establecimiento de una periodicidad fija y más corta para las pruebas de la IEA
tuvo que ver con el surgimiento de un proyecto alternativo, que adquirió pronto
más visibilidad que la que tenían aquellas evaluaciones: el que promovió la
Organización para la Cooperación y el Desarrollo Económico (OCDE) y es
conocido con las siglas PISA (Programme for Institutional Student Assessment).
Desde los años de 1980, en el marco de economías cada vez más competitivas en
un mundo crecientemente globalizado, y con la conciencia del valor de una buena
educación en la nueva sociedad del conocimiento, la Organización para la
Cooperación y Desarrollo Económico (OCDE) promovió un importante proyecto de
indicadores educativos, el Indicators of National Education Systems, INES. A
mediados de los 90, buscando tener información sobre resultados de la educación,
con datos comparables sobre el nivel de aprendizaje alcanzado por los alumnos
de los países que la integran, para poder construir indicadores que no se limitaran
a los insumos o los datos más elementales, la OCDE decidió emprender el
proyecto de PISA. (Cfr. Tuijnman y Bottani, 1994; PISA 2001)
Los datos de los estudios de la IEA no eran suficientes para el INES, porque
siendo una iniciativa de investigadores independientes, sólo algunos de los países
miembros de la OCDE participaban en esas evaluaciones; además, como se ha
dicho, el tiempo que pasaba entre una aplicación y otra era muy largo. Por ello, en
1997 la OCDE tomó la decisión de poner en marcha su propio sistema de
evaluación del aprendizaje. Se encargó del desarrollo de instrumentos y aspectos
técnicos un consorcio internacional de instituciones especializadas en pruebas,
encabezadas por el Australian Council for Educational Research.
41
Para hacer frente a los retos que implicaba evaluar estudiantes de sistemas
educativos muy diversos, y además de utilizar las técnicas más avanzadas
disponibles, se tomaron decisiones interesantes: las pruebas no tendrían como
referente los currículos de los países participantes, sino un conjunto de
competencias consideradas fundamentales para una vida exitosa en las modernas
sociedades del conocimiento, en tres ámbitos: lectura, matemáticas y ciencias.
Se utiliza el término literacy para la definición de esas habilidades básicas para la
vida, que puede traducirse como alfabetización (matemática o científica) siempre y
cuando el término no se asocie con niveles elementales de competencia en esos
ámbitos. La población objetivo no se definió por un grado del sistema educativo,
sino por la edad de quince años, a la que los jóvenes de todos los países de la
OCDE deben asistir a la escuela, lo que ocurre en la mayoría de los casos, siendo
México, Turquía y Portugal las excepciones. Las aplicaciones serían cada tres
años y en cada una se evaluarían las tres áreas, pero una sería la principal cada
vez: 2000, lectura; 2003 matemáticas; y 2006 ciencias, para volver a comenzar un
gran ciclo de nueve años en 2009. (PISA 2001)
Los planes se han cumplido puntualmente. Las aplicaciones de 2000, 2003, 2006
y 2009 tuvieron lugar según lo previsto, con una participación creciente de países,
pues a los miembros de la OCDE se han añadido otros en cada aplicación. Los
primeros análisis de los resultados de cada aplicación se han difundido en el mes
de diciembre del año siguiente, con un impacto creciente.
La extensión de las pruebas estandarizadas en otros países
Al comenzar el siglo XXI muchos países han puesto en marcha sistemas de
evaluación educativa en gran escala como los desarrollados previamente en los
Estados Unidos y pocos países más, como el Reino Unido, Australia y Holanda.
En la década de 1990 en varios países se expresaban opiniones en el sentido de
que las pruebas en gran escala estarían siendo abandonadas en Estados Unidos,
al parecer por una creciente conciencia de sus insuperables deficiencias. Como se
acaba de ver, en el caso americano las pruebas están lejos de ser abandonadas.
42
Curiosamente, los opositores norteamericanos a este tipo de instrumentos
utilizaban el mismo argumento, afirmando que las pruebas estarían siendo
abandonadas en otros países, y atribuyendo a la fuerte presencia de este tipo de
evaluaciones muchas fallas de las escuelas estadounidenses. Un artículo de
Richard Phelps menciona cinco publicaciones americanas aparecidas entre 1991 y
1996, en ese sentido. (2000: 11)
Ese artículo señala que las afirmaciones referidas no presentan evidencias, sino
que se limitan a afirmar su posición señalando, por ejemplo, que Bélgica, Grecia,
Portugal y España han eliminado ese tipo de exámenes nacionales. Cuando se
sabe que justamente en 1994 España comenzó a desarrollar evaluaciones en gran
escala, con la creación del Instituto Nacional para la Calidad de la Educación (hoy
Instituto de Evaluación), hay razón para dudar de tales afirmaciones.
El artículo de Phelps analizó la situación de 31 países o provincias, con el
resultado de que, entre 1974 y 1999, el uso de pruebas en gran escala estaba
aumentando en la mayoría: 27 países o provincias habían aumentado sus pruebas
estandarizadas. La cifra incluye 19 países (Alemania, Bélgica, Canadá, China,
Dinamarca, Escocia, España, Finlandia, Francia, Hungría, Inglaterra y Gales,
Irlanda, Japón, Holanda, Nueva Zelanda, Portugal, la República Checa y Suecia),
así como ocho provincias canadienses (Alberta, Columbia Británica, Manitoba,
Nueva Brunswick, Newfoundland, Nueva Escocia, Ontario, Quebec y
Saskatchewan). Corea mantuvo la situación, eliminando unos exámenes e
introduciendo otros. En sentido contrario, sólo Australia, Grecia y la provincia
canadiense de la Isla del Príncipe Eduardo mostraron un decremento en las
pruebas en gran escala. (Phelps, 2000: 13-15)
Además de los países mencionados hasta ahora, de los que se tiene más
información, se sabe que en muchos otros lugares existen sistemas de evaluación
de la calidad educativa más o menos consolidados.
Destacan los de países del Asia Oriental, como Singapur, y otros en el cercano
oriente, en especial en Israel; en países árabes comienzan a implantarse con
apoyo de la UNESCO.
43
En el África sub-sahariana algunos países, con apoyo del Instituto Internacional de
Planificación de la Educación de la UNESCO, unieron esfuerzos a principios de los
90 para desarrollar un sistema de evaluación que incluye el uso de pruebas en
gran escala: el South African Consortium for the Monitoring of Educational Quality,
SACMEQ (Ross, 1994; SACMEQ, 1995). Otra iniciativa regional involucra a los
países francófonos del continente.
En América Latina, una revisión de las experiencias de evaluación en gran escala
lleva a la conclusión de que en casi todos los países se han implantado sistemas
de pruebas en gran escala, comenzando con Chile en la década de 1980, seguido
por casi todos en la de 1990. En muchos casos, en especial en América Central,
influyó en ello el apoyo técnico y financiero norteamericano. (Cfr. Ferrer, 2006;
GTEE 2007-2008; Martínez Rizo 2008)
En las primeras etapas las pruebas utilizadas se construían con un enfoque
normativo, estaban integradas exclusivamente por preguntas de opción múltiple, el
escalamiento de las respuestas y el análisis de los resultados se basaban en la
Teoría Clásica de las Pruebas y los resultados se daban solamente en la forma de
porcentajes de respuestas correctas.
Paulatinamente en muchos países se han incorporado metodologías avanzadas:
Modelos basados en la Teoría de Respuesta al Ítem, especialmente el de Rasch;
difusión de resultados tanto mediante puntuaciones como con porcentajes de
alumnos en niveles de desempeño; en algunos casos diseños matriciales para la
construcción de las pruebas y preguntas de respuesta construida; cuestionarios de
contexto con cuya información los resultados se analizan no sólo por región, sino
también por género, nivel socioeconómico y grupo étnico; análisis más complejos
con modelos multinivel.
En general las pruebas eran de bajo impacto, porque sus resultados no se usaban
para tomar decisiones relativas a individuos, como la aprobación o reprobación de
los alumnos, dar estímulos o tomar medidas correctivas que afectaran a maestros
o escuelas en lo individual. En algunos casos el impacto era de hecho nulo, por la
ausencia de difusión de los resultados.
44
La excepción más destacada fue el SIMCE de Chile, que desde sus inicios se
definió como de alto impacto: su diseño censal se hizo con el propósito de
contribuir a la introducción de cambios mayores en el sistema educativo, con su
municipalización y su relativa privatización. Los resultados del SIMCE se utilizan
para decidir cuáles escuelas pueden recibir fondos públicos, en la forma de bonos
individuales para sus alumnos.
Más recientemente sobresale la tendencia a hacer aplicaciones censales, con la
creencia mal fundada de que sus resultados permiten comparaciones directas y
simples entre escuelas y docentes, con lo que se pueden tomar medidas que
llevarán a mejoras sustanciales en corto plazo. Además de Chile han incursionado
en la aplicación de pruebas censales México, Brasil, Colombia, Costa Rica,
República Dominicana, Ecuador, El Salvador, Guatemala y Perú; Uruguay lo ha
hecho sin volver de alto impacto las pruebas. El riesgo de que aparezcan
consecuencias contraproducentes no es ya sólo teórico, sino una realidad de
presencia cada vez más fuerte en la región. (Cfr. Martínez Rizo 2010a)
El caso de México
Desde la década de 1970 la Secretaría de Educación Pública comenzó
actividades que llevaron a la creación de la Dirección General de Evaluación. Las
primeras pruebas se aplicaron en 1972, para la admisión de alumnos en
secundaria. A fines de esa década se aplicaron las primeras a muestras de
primaria. En los años 80 del siglo pasado no hubo avances cualitativos, que
ocurrieron a principios de la década de 1990, tras la firma del Acuerdo para la
Modernización de la Educación Básica, en mayo de 1992.
En relación con el programa de estímulos económicos para docentes llamado
Carrera Magisterial, se desarrollaron las pruebas del Factor Aprovechamiento
Escolar que, a partir de 1994, se aplicaron masivamente en los cuatro últimos
grados de la primaria y los tres de secundaria básica, a todos los alumnos de los
maestros de escuelas públicas que aspiraban a recibir los estímulos económicos.
Las primeras aplicaciones comprendieron más de cuatro millones de alumnos; en
2005 la cifra llegó a cerca de ocho millones.
45
En 1991, con apoyo del Banco Mundial, se desarrolló el Programa para Abatir el
Rezago Educativo en cuatro estados pobres, que incluyó la aplicación de pruebas
para valorar el aprendizaje de los alumnos. Otros programas similares siguieron,
siempre con evaluaciones de los alumnos. En 1996 se emprendió un trabajo de
definición de estándares curriculares, con el desarrollo de instrumentos de
evaluación, las Pruebas de Estándares Nacionales, que se aplicaron por primera
vez en 1998. Hasta 2004 se aplicaron cada año a muestras nacionales de
alumnos de primaria, y desde 2000 también de secundaria.
4.4. Consecuencias de la proliferación de pruebas y reacciones
Sin considerar las pruebas de acceso a la universidad, los instrumentos usados a
lo largo del siglo XX fueron, en general, de bajo impacto: sus resultados no influían
en las decisiones que se tomaban con respecto a cada alumno, ni a maestros y
escuelas individuales. En Estados Unidos esa situación comenzó a cambiar en la
década de 1980, y la tendencia se acentuó en la de 1990, para culminar en las
disposiciones de la Ley No Child Left Behind, de 2002, con la que las pruebas en
gran escala adquirieron un peso fundamental y sin precedentes en ese tipo de
decisiones relativas a individuos, tanto alumnos como maestros y escuelas.
En muchos otros países ocurrió algo similar. El hecho de que las pruebas se
aplicaran masivamente y sus resultados se difundieran mediante ordenamientos
simples de escuelas, basados en los puntajes obtenidos por los alumnos, sin tener
en cuenta el contexto en que opera cada una (rankings o league tables), volvía de
alto impacto los resultados. Esto ocurre aún en ausencia de disposiciones legales
que impliquen consecuencias fuertes basadas en resultados, como ha ocurrido en
Estados Unidos, Inglaterra o Chile, y ha suscitado muchas reacciones críticas.
Algunas de las críticas a las pruebas en gran escala provienen de personas que
se oponen radicalmente a ellas rechazándolas en bloque y sin tener en cuenta sus
múltiples variantes y los diversos usos que se pueden hacer de sus resultados, por
considerar que todas son esencialmente inapropiadas para el trabajo educativo.
Estas críticas parten, por lo general, de posturas ideológicas preconcebidas, y no
suelen aducir argumentos consistentes ni basarse en datos empíricos precisos.
46
Las críticas que se considerarán en los párrafos siguientes, en cambio, vienen de
personas conocedoras de las pruebas y que, en general, son partidarias de un uso
adecuado de ellas. A diferencia de los críticos radicales, lo que estos juicios
cuestionan son usos de la evaluación que consideran ilegítimos porque no tienen
en cuenta los alcances y límites de las pruebas y, por ello, tienden a hacer un uso
abusivo de sus resultados, con consecuencias negativas que pueden ser serias.
Uno de los críticos más destacados de este grupo es W. James Popham, profesor
emérito de la Universidad de California en Los Ángeles, ampliamente reconocido
como un destacado experto en pruebas y evaluación. A propósito del creciente
peso que la evaluación basada en pruebas estandarizadas estaba adquiriendo en
los Estados Unidos ya en esa fecha, anterior a la Ley No Child Left Behind, y de
los riesgos que ello traía consigo, Popham señalaba:
El público piensa que las escuelas no son tan efectivas como deberían. Yo
puedo compartir esa opinión. Si los jóvenes obtienen diplomas de
enseñanza media superior sin saber leer, escribir o contar bien, eso no es
bueno. Así, los contribuyentes quieren estar seguros de que sus escuelas
funcionan adecuadamente y surgió el movimiento a favor de la rendición de
cuentas… y el papel de las pruebas se volvió predominante… (2001)
Luego Popham se refería a las consecuencias negativas que trae consigo ese
énfasis excesivo y mal enfocado en la importancia de las pruebas de rendimiento:
Por la errónea utilización de pruebas de rendimiento estandarizadas
tradicionales para evaluar la calidad de las escuelas hay cosas realmente
terribles que están ocurriendo en las escuelas de nuestros niños. Una es
que aspectos importantes del currículo se están haciendo a un lado, porque
no son medidos por las pruebas. Otra, que los niños son entrenados sin
descanso para que dominen el contenido de esas pruebas y por ello están
comenzando a odiar la escuela. Y una más es que, en muchos casos, los
maestros se dedican a preparar a sus alumnos para las pruebas, lo que se
parece mucho a hacer trampa, porque inflan los puntajes de los alumnos sin
elevar su competencia en lo que se supone miden las pruebas… (2001)
47
Opinando sobre los planes para extender las pruebas que hizo realidad la ley
NCLB, Popham deja claro que su postura no se refiere a cualquier forma de usar
pruebas, sino a ciertas formas inapropiadas de hacerlo:
No me opongo a las pruebas de alto impacto. Pienso que buenas pruebas
de ese tipo podrían ser muy útiles no sólo para la rendición de cuentas, sino
también para la enseñanza. Pero si tenemos más de lo mismo, dañaremos
a los niños, en vez de ayudarlos… Con buenas pruebas podemos hacer
bien a la educación. Con pruebas inadecuadas podemos hacer estúpida y
corromper la educación de nuestro país… Unas pruebas bien hechas
pueden ser una herramienta maravillosa no sólo para que todo mundo sepa
qué tan bien marchan nuestras escuelas, sino para ayudar a los maestros y
los estudiantes a promover el tipo de conocimientos y habilidades que los
niños deberían dominar. Tenemos que pensar en pruebas distintas de las
tradicionales. Mi crítica no es a las pruebas de alto impacto, sino a las
pruebas construidas según los principios tradicionales… (2001)
Popham añadía expresamente que su postura no es la de un opositor sistemático
a las pruebas que, bien utilizadas, pueden ser de gran valor para la educación:
Está surgiendo en nuestro país una resistencia a cualquier tipo de pruebas.
Pienso que esto no es sano. Creo que hay que usar pruebas bien
construidas, que ayuden a los maestros a mejorar su enseñanza. Pienso
también que el público tiene derecho a saber que tan bien funcionan las
escuelas. Por ello pienso que oponerse a cualquier tipo de pruebas es
negativo para los alumnos. Tenemos que hacer buenas pruebas, que
pueden ser una fuerza poderosa para mejorar la enseñanza, haciendo que
los alumnos aprendan lo que deben aprender… (2001)
En un texto reciente, con la evidencia de que sus temores respecto a la extensión
de las pruebas sin la consideración de sus alcances y límites se habían vuelto
realidad, Popham precisa dos razones por las que una buena idea –conseguir que
los alumnos alcancen altos niveles de competencia, con una educación basada en
estándares— está teniendo las funestas consecuencias que él anticipaba: por una
48
parte, el exceso de contenidos que trae consigo una definición inadecuada de los
estándares; por otra, el uso de pruebas inapropiadas, por su falta de sensibilidad a
la instrucción (instructionally insensitive tests), como instrumentos para verificar el
cumplimiento de los estándares:
Estamos haciendo imposible que los maestros tengan mejores resultados
sin hacer trampa. Si desarrollamos pruebas que fundamentalmente miden
lo que los niños traen de su casa a la escuela, y no lo que aprenden en
ésta, entonces esos niños nunca tendrán resultados mejores a lo que les
permiten sus antecedentes familiares. Tenemos que desarrollar pruebas
que reflejen realmente qué tan bien enseñan los maestros… El desencanto
de la gente con la educación es profundo, y muchos buscan alternativas,
como las charter schools, los vouchers y cosas por el estilo. Yo creo en las
escuelas públicas, y creo que pueden hacerse más efectivas si no son
evaluadas con herramientas inadecuadas, sino que se les dan herramientas
de evaluación que les ayuden a cumplir mejor su función. Yo quiero que
nuestras escuelas públicas subsistan, y pienso que debemos comenzar
buscando una forma distinta de medir su desempeño… (Popham, 2008)
En un trabajo anterior también a la ley citada, Phelps señaló la extraña división de
opiniones respecto a las pruebas, con las de padres de familia y público
mayoritariamente a favor de un uso más importante de ellas, frente a fuertes
críticas de los que se oponían, entre los que se contaban destacados expertos,
cuyos argumentos analizaba Phelps, mostrando también sus debilidades. (1999)
La experiencia de la aplicación de la Ley No Child Left Behind puso en evidencia
serias deficiencias y consecuencias contraproducentes, sobre todo para escuelas
públicas. Varias proyecciones señalan que muy pocas cumplirán las exigencias de
Avance Anual (Adequate Yearly Progress) que establece la Ley, mientras que la
gran mayoría (tal vez más del 95 por ciento en el país) deberán ser clasificadas
como deficientes (failing) y enfrentar las consecuencias de ello, que pueden llegar
teóricamente hasta su desaparición. (Oakes y Lipton, 2007: 451-452).
49
Una conclusión prudente puede ser la siguiente: un uso responsable de pruebas
bien diseñadas, que evite tomar decisiones fuertes con base únicamente en sus
resultados, puede aportar elementos valiosos para la mejora educativa; las
pruebas que se utilizan en muchos estados en el marco de la Ley No Child Left
Behind, sin embargo, distan de reunir las condiciones que las harían adecuadas, y
los usos que se hacen de ellas rebasan con mucho lo que sus resultados
permitirían fundamentar sólidamente.
Un investigador destacado del escenario psicométrico contemporáneo, Robert
Linn, escribía, antes también de la Ley No Child Left Behind:
Me veo llevado a concluir que, en la mayoría de los casos, los instrumentos
y la tecnología no han estado a la altura de lo que esperaba de ellos la
rendición de cuentas de alto impacto. Los sistemas de evaluación basados
en pruebas, que son útiles para propósitos de monitoreo, pierden mucha de
su confiabilidad y credibilidad para ello, cuando se les asocian
consecuencias fuertes. Los efectos negativos inesperados de usos de alto
impacto de la rendición de cuentas frecuentemente son más importantes
que los efectos positivos que se buscaban. (Linn, 2000)
Contemporánea de la Ley es la cita siguiente, sobre lo que probablemente explica
la amplitud de las expectativas que han llevado a los usos inadecuados de las
pruebas de alto impacto que se están cuestionando. Dicen estos autores:
Los sistemas de rendición de cuentas basados en pruebas se basan en la
creencia de que la educación pública puede mejorar gracias a una
estrategia sencilla: haga que todos los alumnos presenten pruebas
estandarizadas de rendimiento, y asocie consecuencias fuertes a las
pruebas, en la forma de premios cuando los resultados suben y sanciones
cuando no ocurra así. (Hamilton, Stecher y Klein, 2002)
Las consideraciones anteriores sobre las consecuencias que puede tener el abuso
de las pruebas, en particular para las escuelas públicas, son relevantes para el
sistema educativo mexicano, en el que casi todos los alumnos de medios
desfavorecidos de la población mexicana son atendidos en ellas.
50
Muchas personas no tienen conciencia de la dificultad que implica obtener buenos
resultados educativos con grupos de alumnos que provienen de un medio social
desfavorable. En México es frecuente que dirigentes del sector empresarial vean
con simpatía las estrategias simplistas a las que alude la cita anterior, pensando
que las fallas de la escuela pública se podrían corregir fácilmente en escuelas
privadas como las que atienden a sus hijos, ignorando que menos del diez por
ciento de los niños mexicanos, de condiciones privilegiadas, asisten a ellas. Es
probable que a ello se deban las opiniones de que bastará con aplicar pruebas
masivamente, y tomar medidas correctivas simples, para que la calidad de la
educación mejore sustancialmente.
La proliferación de pruebas en gran escala, especialmente censales, tanto en
Estados Unidos y otros países de alto nivel de desarrollo, como en muchos de
América Latina, y en particular en México, ha ido acompañada por un creciente
interés porque sus resultados sean utilizados para sustentar decisiones de las que
se espera se deriven mejoras importantes de la calidad educativa.
Hasta principios del siglo XXI se puede decir que en México hubo muchas
actividades relacionadas con la evaluación educativa, pero no verdadera
evaluación. Había muchos datos, pero no se llegaba a juicios de valor sobre el
estado de la educación, integrando datos derivados de pruebas y estadísticas y
contrastándolos con parámetros pertinentes. Mucho menos se llegaba a explorar
explicaciones y utilizar los resultados para sustentar decisiones de mejora.
En la primera década del siglo XXI la situación cambió mucho, con aspectos
favorables y desfavorables. En el lado positivo se deben mencionar tres puntos:
Los avances técnicos y la formación de un grupo pequeño pero sólido de
técnicos y especialistas de muy buen nivel, en contraste con la casi total
ausencia de personas preparadas que prevalecía.
La creciente conciencia ciudadana del derecho a conocer los resultados de
las evaluaciones, que contrasta drásticamente con el hermetismo anterior.
51
El que algunas autoridades, tanto en el nivel federal como en unos estados,
comiencen a hacer uso de los resultados de las evaluaciones (de
resultados de pruebas y otros indicadores) para su toma de decisiones.
También pueden mencionarse al menos tres aspectos desfavorables:
El número ya excesivo y creciente de evaluaciones y su desarticulación,
que pesa cada vez más sobre alumnos, maestros y escuelas.
El predominio de la evaluación en gran escala sobre la que deben hacer los
maestros en el aula, viendo a la primera como sustituto de la segunda, y no
como un complemento a la tarea insustituible de los maestros.
El uso inapropiado cada vez más frecuente de los resultados, y su excesivo
peso en el diseño de políticas públicas. (Cfr. Martínez Rizo y Blanco: 2010)
Hace sólo diez años los resultados de las evaluaciones casi no se difundían; hoy
las aplicaciones proliferan, comienzan a cansar a las escuelas y el público debate
los resultados, muchas veces con escaso conocimiento de su complejidad; atraen
la atención de los medios de comunicación y tienden a convertirse en un referente
importante de las políticas educativas, como ha ocurrido con las pruebas censales
ENLACE de la Secretaría de Educación Pública; PISA, por su parte, se ha vuelto
un referente externo fundamental, como muestra el que la primera meta del
Programa Sectorial de Educación de la administración federal vigente es alcanzar
la cifra de 435 puntos en las pruebas PISA de 2012.
Conclusión
La proliferación de pruebas censales y su excesivo peso en las políticas debido a
su alto impacto están trayendo ya consecuencias negativas:
Banalización del debate público sobre la calidad educativa, reducido a
superficiales debates de ordenamientos discutibles.
Mercadotecnia engañosa de las escuelas, sobre todo de sostenimiento
privado, que buscan atraer alumnos basadas en esos ordenamientos.
52
Empobrecimiento del currículo, que se deriva de la tendencia de muchos
maestros a enseñar para la pruebas, descuidando aspectos fundamentales
que no serán evaluados.
Cansancio y desaliento en muchas escuelas que, pese a sus esfuerzos, no
consiguen resultados comparables con planteles cuyos alumnos tienen
condiciones más favorables.
Rechazo de los alumnos frente a una educación centrada en prepararlos
para la prueba.
Empobrecimiento de las políticas públicas, que tienden a buscar soluciones
fáciles a problemas complejos, descuidando aspectos fundamentales, en
particular la equidad. (Cfr. Martínez Rizo, 2010b)
Esta tendencia se relaciona con la rendición de cuentas (accountability), y cobra
sentido en el marco de corrientes más amplias: búsqueda de transparencia en el
manejo de los asuntos públicos; con frecuencia también, desconfianza respecto a
la educación pública y, en general, a la gestión pública de los servicios. A ello
debe añadirse la escasa cultura que hay en la sociedad en cuanto a evaluación
educativa, y no sólo entre el público en general, sino también entre maestros y
autoridades educativas, e incluso entre investigadores y especialistas. Esto lleva a
esperar resultados casi milagrosos de mejora en las escuelas gracias a la
aplicación de pruebas, sin tener en cuenta sus alcances y límites.
Para que las perspectivas favorables que se asocian con las pruebas se concreten
es necesaria una visión más completa de sus posibilidades, que prevalezca sobre
visiones superficiales. Es fundamental tener claros estos puntos:
Que, por su propia naturaleza, las pruebas en gran escala tienen rasgos
que limitan su capacidad para dar información sobre muchos aspectos
importantes de los que debe incluir el currículo.
Que lo anterior se ve agravado en el caso de aplicaciones censales,
máxime si se pretende cubrir muchos grados y con mucha frecuencia.
53
Y, finalmente, que las pruebas en gran escala nunca podrán sustituir el
trabajo de los maestros.
El último punto tiene especial importancia. Debe entenderse que sólo un buen
maestro puede llevar a cabo la evaluación más importante que se debe hacer de
cada alumno: una que incluya todos los aspectos del currículo y los niveles
cognitivos más complejos, que tenga en cuenta las circunstancias de cada niño, y
se haga con la frecuencia necesaria para ofrecer retroalimentación oportuna para
que el alumno pueda mejorar. Estas evaluaciones son las que deben hacerse en
cada aula, con acercamientos más finos que los viables en gran escala.
Por bien que se hagan, sin embargo, las evaluaciones a cargo de maestros no
pueden dar resultados agregables, por lo que las pruebas en gran escala siempre
serán valiosas para las decisiones sobre políticas educativas en diversos niveles
del sistema educativo, viéndolas siempre como complementos del trabajo de los
maestros y no como sustitutos del mismo.
Seguramente muchos maestros no tienen la preparación necesaria para hacer
bien la evaluación de la que son responsables, pero ninguna prueba en gran
escala podrá ocupar su lugar. Por ello, habrá que ofrecer a los docentes los
apoyos necesarios para que cumplan adecuadamente con su función evaluativa,
viendo a las pruebas en gran escala como uno de esos apoyos.
Por otra parte, en paralelo a los avances de las evaluaciones en gran escala de
las que se ha tratado hasta ahora, desde mediados del siglo pasado y durante la
primera década del actual se han desarrollado formas alternativas de evaluación
en aula, mediante las cuales los maestros pueden acompañar más eficazmente a
sus alumnos a lo largo de su paso por la escuela, monitoreando sus avances y
ofreciéndoles una retroalimentación útil para mejorar. Presentar esos desarrollos,
que se suelen designar con expresiones como evaluación formativa o evaluación
para aprender, será el propósito del capítulo siguiente.
54
Referencias
ARIES, PHILIPPE (1973). L’enfant et la vie familiale sous l’ancien régime. París.
Seuil. (1a. edición Plon, 1960.
ARNAUT, ALBERTO y SILVIA GIORGULI, eds. (2010) Educación. Colección Los
grandes problemas de México, Vol. V. México. El Colegio de México.
AUTOR, DAVID, F. LEVY Y R. J. MURNANE (2003). The Skill Content of Recent
Technological Change: An Empirical Exploration. The Quarterly Journal of
Economics, Vol. 118 N° 4.
BAKER E.L. y B.H. CHOPPIN. (1990). Minimum Competency Testing. En
Walberg-Haertel, 1990: 499-502.
BLACK, PAUL Y D. WILIAM (2004) Classroom assessment is not (necessarily)
formative assessment (and viceversa). En Wilson, 2004:183-188.
BOES N. SH. (1979). Un compendio de puntos importantes dentro del movimiento
de competencia mínima. En Latapí, 1991: 196-202.
BRACEY GERALD W. (1978). Algunas dudas sobre las pruebas de competencia
mínima. En Latapí, 1991: 166-175.
BRENNAN, ROBERT L., ed. (2006). Educational Measurement, 4th Ed. Westport,
Praeger-ACE. Traducción al español INEE, México.
BRIKELL HENRY M. (1978) Siete notas clave sobre la evaluación de la
competencia mínima. En Latapí, 1991: 135-146.
CASANOVA, M. ANTONIA (1998) La evaluación educativa en la escuela básica.
México, SEP.
CAWELTI G. (1978). Prueba nacional de competencia. Una solución falsa. En
Latapí, 1991:147-155.
CHOPPIN, B. H. (1985). Evaluation, Assessment and Measurement. En Husén y
Postlethwaite, 1985: 1747-1748.
CRONBACH, L. J., G. C. GLESSER, H. NANDA y N. RAJARATNAM (1972). The
dependability of behavioral measurements. New York, John Wiley.
55
DONLON, THOMAS F. Ed. (1984). The College Board Technical Handbook for the
Scholastic Aptitude Test and Achievement Tests. New York, College
Entrance Examination Board.
EBEL ROBERT L. (1978) La argumentación a favor de la prueba de competencia
mínima. En Latapí, 1990: 156-165.
FERRER, GUILLERMO (2006). Educational Assessment Systems in Latin
America: Current Practice and Future Challenges. Washington. Programa
de Promoción de la Reforma Educativa en América Latina y el Caribe.
FORSTER, MARGARET y G. MASTERS (2010). Progression and Assessment:
Developmental Assessment. En Peterson, Baker y McGaw, 2010: Vol. 3,
369-377.
GAULUPEAU, YVES (1992). La France a l’école. Paris. Gallimard.
GOLDSTEIN, HARVEY (1996). Introduction. Assessment in Education: principles,
policy & practice. Vol. 3 (July) No. 2, pp. 125-128.
GOODLAD, JOHN I. y ROBERT H. ANDERSON (1987). The Nongraded
Elementary School. Reedición de la edición de 1963, revisada de la original
de 1959. Nueva Cork. Teachers College, Columbia University.
GRUPO DE TRABAJO SOBRE ESTÁNDARES Y EVALUACIÓN (2007-2008).
Evaluaciones nacionales. Observatorio Regional de Políticas de Evaluación
Educativa. Boletines N° 1 a 6. PREAL.
HAMILTON, LAURA S., B. M. STECHER y S. P. KLEIN Eds. (2002). Making
Sense of Test-Based Accountability in Education. Santa Monica, RAND.
HERMAN, JOAN (2010). Impact of Assessment on Classroom Practice. En
Peterson, Baker y McGaw, 2010, Vol. 3, pp. 506-511.
HUSÉN, TORSTEN y T. S. NEVILLE POSTLETHWAITE (1996). A Brief History of
the International Association for the Evaluation of Educational Achievement
(IEA). Assessment in Education: principles, policy & practice. Vol. 3 (July)
No. 2, pp. 129-141.
56
HUSÉN, TORSTEN Y T. S. NEVILLE POSTLETHWAITE, eds. (1985). The
International Encyclopedia of Education. Amsterdam-New York, Elsevier.
HUSÉN, TORSTEN (1986). Why did Sweden Go Comprehensive? Oxford Review
of Education, Vol. 12 (2): 153-163.
INEE (2006). Plan Maestro de Desarrollo 2007-2014. México. Instituto Nacional
para la Evaluación de la Educación.
JAMES, M. (2010). An Overview of Educational Assessment. En Peterson, Baker y
McGaw, 2010: Vol 3, 161-171.
JONCICH-CLIFFORD, G. (1968). The Sane Positivist: A Biography of Edward L.
Thorndike. Middletown, Wesleyan University Press.
KEEVES, JOHN P., ed. (1997). Educational Research, Methodology, and
Measurement. An International Handbook. Oxford-New York, Pergamon.
KEEVES, JOHN P. (1997). Measurement in Educational Research. Introduction:
Advances in Measurement in Education. En Keeves, 1997: 705-712.
KLEIN, STEPHEN P. y LAURA HAMILTON (1999). Large-Scale Testing. Current
Practices and New Directions. Santa Monica, Rand Education.
De LANDSHEERE, GILBERT (1986). La recherche en éducation dans le monde.
Paris. Presses Universitaires de France. Trad. español México, FCE, 1996.
De LANDSHEERE, GILBERT (1994). Le pilotage des systèmes d'éducation.
Bruselas. De Boeck.
LATAPI, PABLO Coord. (1991). Educación y escuela. Lecturas básicas para
investigadores de la educación. II Aprendizaje y rendimiento. México, SEP-
Nueva Imagen.
LAVEAULT, D. (2010). Classroom Assessment Policy Context (French Sources).
En Peterson, Baker y McGaw, 2010, Vol. 3, pp. 432-437.
LEVY, FRANK Y RICHARD J. MURNANE (2010). The New Division of Labor. How
Computers are Creating the Next Job Market. Princeton, Princeton
University Press.
57
LINN, ROBERT (2000). Assessments and Accountability. Educational Researcher.
Vol. 29, N° 2, pp. 4-16.
LIVINGSTONE I. D. (1990). Monitoring National Standards. En WALBERG y
HAERTEL, pp. 435-440.
MARTÍNEZ ARIAS, ROSARIO (1995). Psicometría: teoría de los tests psicológicos
y educativos. Madrid. Síntesis.
MARTÍNEZ RIZO, FELIPE (2010a). Assessment Practice in Policy Context: Latin
American Countries. Peterson, Baker y McGaw, 2010: Vol. 3, 479-485.
MARTÍNEZ RIZO, FELIPE (2010b). Usos y abusos de la evaluación. Este País. N°
232 (agosto), pp. 24-27.
MARTÍNEZ RIZO, FELIPE (2008). Las evaluaciones educativas en América
Latina. Cuadernos de Investigación, N° 32. México, INEE.
MARTÍNEZ RIZO, FELIPE (2006). Las primarias comunitarias y su desempeño.
Cuadernos de Investigación, N° 23. México, INEE.
MARTÍNEZ RIZO, FELIPE y EMILIO BLANCO (2010). La evaluación educativa.
Experiencias, avances y desafíos. En Arnaut y Giorguli, 2010: 89-123.
MATHISON, SANDRA y E. W. ROSS (2008). The Nature and Limits of Standards-
Based Reform and Assessment. New York. Teachers College Press.
MATHISON, SANDRA (2008). A Short History of Educational Assessment and
Standards-Based Educational Reform. En Mathison y Ross, 2008: 3-14.
McCLUNG M.S.(1978). ¿Son justos los programas de pruebas de competencia?
¿Son legales? En Latapí, 1991: 176-187.
MEHAN, H. (1979). Learning Lessons. Cambridge, MA. Harvard University Press.
MECKLENBURGER J. (1978). Exámenes de competencia mínima. Otra vez la
moneda falsa. En Latapí, 1991: 188-195.
MUÑIZ FERNÁNDEZ, JOSÉ (1997). Introducción a la Teoría de Respuesta a los
Ítems. Madrid, Pirámide.
58
NISBETT, RICHARD E. (2009). Intelligence and How to Get It: Why Schools and
Cultures Count. New York, W. W. Horton & Company.
OAKES, JEANNIE y M. LIPTON (2007). Teaching to Change the World, 3rd Ed.
New York. McGraw Hill.
PETERSON, PENELOPE, E. BAKER y B. McGAW, eds. (2010) International
Encyclopedia of Education, 3rd Ed. Amsterdam-New York. Elsevier-
Academic Press.
PHELPS, RICHARD P. (2000). Trends in Large-Scale Testing Outside the United
States. Educational Measurement: Issues and Practice (Spring), pp. 11-21.
PHELPS, RICHARD P. (1999). Why Testing Experts Hate Testing. Fordham
Report 3, N° 1 (January).
PIPHO C. (1978). Exámenes de competencia mínima. Una mirada a los
estándares del estado. En Latapí, 1991: 207-214.
PIPHO, C. (1979). La conferencia de la NAEP sobre las pruebas de competencia
mínima. En Latapí, 1991: 203-206.
PISA (2001). Knowledge and Skills for Life. First Results from PISA 2000. París.
OCDE.
PISA (2009). PISA 2009 Results: What Studenst Know and Can Do. Student
Performance in Reading, Mathematics and Science. Vol. I. París. OCDE.
POPHAM, W. JAMES (2008). Standards-Based EDUCATION: Two Wrongs Don’t
Make a Right. En Mathison y Ross, 2008: 15-25.
POPHAM, W. JAMES W. (2001) Frontline: testing our schools: interviews: James
Popham http://pbs.org/html
POSTLETHWAITE, T. S. N. (1985). International Association for the Evaluation of
Educational Achievement. En Husén y Postlethawite, 1985: 2645-2646.
RESNICK, L. B., D. WILIAM, R. APODACA Y E. S. RANGEL (2010). The
Relationship between Assessment and the Organization and Practice of
Teaching. En Peterson, Baker y McGaw, 2010, Vol. 3, pp. 397-402.
59
ROSS K.N. (1994) The Establisment of a Southern Africa Consortium for the
Monitoring of the Quality of Education. Paris. IIEP.
SACMEQ (1995). Southern Africa Consortium for Monitoring Educational Quality.
París. IIPE.
SHEPARD, LORRIE (2006). Classroom Assessment. En Brennan, 2006: 623-646.
THOMAS, CHRISTOPHER y CHRISTOPHER SHAW (1992). Issues in the
Development of Multigrade Schools. World Bank Technical Paper N° 172.
Washington. The World Bank, IBRD.
TUIJNMAN A. y N. BOTTANI, Eds. (1994). Making Education Count. Developing
and Using International Indicators. Paris. OCDE.
UPI (2009) http://www.upi.com/Top_News/US/2010/12/06/Obama-US-faces-
Sputnik-moment/UPI-42801291635999/ (consultado el 2010-12-21).
WALBERG H. J. y G. D. HAERTEL, eds. (1990). The International Encyclopedia of
Educational Evaluation. Oxford-New York. Pergamon Press.
WALBERG H. J. (1990). National Assessment of Educational Progress: Retrospect
and Prospect. En Walberg y Haertel, 1990: 435-440.
WILSON, MARK, ed. (2004). Towards coherence between classroom assessment
and accountability. 103rd Yearbook, Part 2. Nat. Soc. for the Study of
Education. Chicago. U. of Chicago Press.
60
61
CAPÍTULO SEGUNDO
LA EVALUACIÓN FORMATIVA
62
63
Introducción
Este capítulo se dedica al desarrollo de los nuevos enfoques de la evaluación del
aprendizaje de los alumnos a los que se aplica el calificativo de formativos. Se
distinguirán dos versiones de estos enfoques: la más antigua, surgida en Estados
Unidos y el Reino Unido, y la que se ha desarrollado en medios francófonos,
inspirada en la anterior, pero que ha tomado rumbos propios.
Se hace también referencia a la difusión de la evaluación formativa en otros
países, pero en forma breve porque no se aprecia que en esos lugares haya
habido aportaciones originales al desarrollo del concepto. En cambio se incluye
una revisión de estudios empíricos sobre el impacto de esas formas de evaluación
sobre el rendimiento de los alumnos, contrastando trabajos que llegan a
conclusiones abiertamente optimistas con los que advierten limitaciones que
invitan a la prudencia. Se plantean, por último, dos perspectivas en cuanto al
futuro de estas tendencias.
1. Desarrollo de la noción de evaluación formativa
En un sentido muy amplio, la evaluación formativa ha estado presente desde hace
mucho en la práctica cotidiana de cualquier maestro que, de alguna manera, daba
retroalimentación a sus alumnos cuando verificaban su avance. Esto ocurría tanto
al aplicar pruebas de las llamadas objetivas, como en las formas tradicionales de
toma de lección de las escuelas antiguas y en las de tipo catecismo que siguen
presentes en las escuelas del siglo XXI, como se señaló en el capítulo anterior.
En el mismo sentido, Torrance y Prior citan a Sinclair y Clouthers, que encontraron
en 1975 que la interacción entre maestro y alumno incorpora una secuencia
básica de tres pasos (IRE): Iniciación (por el maestro) Respuesta (por el alumno) y
Evaluación /Retroalimentación (por el maestro). (1995: 312)
En el sentido que aquí nos interesa, sin embargo, se trata de un desarrollo
relativamente reciente, que cobró fuerza a fines del siglo XX y en la actualidad
constituye un tema novedoso y en boga, con todos los riesgos que ello tiene.
64
1.1 El desarrollo original en Estados Unidos y el Reino Unido
El Consejo de Autoridades Educativas Estatales (Council of Chief State School
Officers) de los Estados Unidos define la evaluación formativa como un proceso
utilizado por maestros y alumnos durante el proceso de instrucción, que ofrece
retroalimentación para ajustar la forma en que se desarrollan la enseñanza y el
aprendizaje, con el propósito de mejorar el logro de los objetivos de enseñanza
que se quiere alcanzar.
En varios trabajos recientes, Susan Brookhart (2005, 2007, 2009) propone una
definición alternativa, que distingue cuatro etapas en el desarrollo de la noción, las
que la autora presenta esquemáticamente, mediante un gráfico que se retoma a
continuación, con ligeras variantes.
Figura 1. La definición de evaluación formativa: un concepto en expansión
Scriven, 1967 Información sobre los procesos de enseñanza y de aprendizaje
Bloom et al., 1971
Que los maestros pueden usar para tomar decisiones instruccionales
Sadler, 1983 y 1989
Y los alumnos para mejorar su propio desempeño
Black-Wiliam, Brookhart, Stiggins…
Y que motiva a los alumnos
Fuente: Brookhart, 2009, con adaptaciones del autor.
Combinando los elementos aportados en cada una de las cuatro etapas de
desarrollo de la noción identificados por Brookhart, pues, la evaluación formativa
se puede definir como un proceso mediante el cual se recaba información sobre el
proceso de enseñanza aprendizaje, que los maestros pueden usar para tomar
decisiones instruccionales y los alumnos para mejorar su propio desempeño, y
que es una fuente de motivación para los alumnos. (2009)
65
Cada una de las etapas del desarrollo de la noción esquematizadas por Brookhart
ha aportado algo sustantivo a la noción:
La idea original de Scriven que distingue evaluación al final o en el proceso;
La aplicación explícita de la noción a la evaluación del aprendizaje, y no sólo
del currículo o programas, por Bloom;
La identificación de los alumnos como destinatarios clave de la información,
con Sadler y su planteamiento de los tres elementos básicos del punto de
partida, el de llegada y el recorrido entre uno y otro;
Y el impacto de la revolución cognitiva y la atención a la dimensión afectiva,
con Black y Wiliam, Shepard, Brookhart y Stiggins, entre otros.
El planteamiento inicial de Scriven
La idea original que distingue la información que se usa para mejorar algo que
está en proceso, oponiéndola a la que sirve para valorar el resultado final, la
propuso en 1967 Michael Scriven, refiriéndose en particular a la evaluación de
programas educativos. La idea clave del trabajo seminal de Scriven (1967) era
sencilla: si se evalúa una primera versión de un programa educativo cuando
todavía es posible introducir cambios derivados de dicha evaluación, estamos ante
un caso de evaluación formativa, mientras que cuando se evalúa la versión final,
madura, de un programa educativo para decidir si debe continuar o terminar, se
está ante un ejemplo de evaluación sumativa. (Popham, 2008: 3)
Pronto otros advirtieron la importancia de esa distinción que hoy parece obvia,
pero no se había manejado explícitamente antes del trabajo de Scriven. El primero
en hacerlo, y el que tuvo la influencia más duradera, fue Bloom.
Bloom y el modelo del Mastery Learning
Un año más tarde la idea fue retomada por el autor de la taxonomía de objetivos
conductuales de aprendizaje, Benjamín S. Bloom (1968). Poco después apareció
la obra que difundió la noción aplicada a la evaluación del aprendizaje de los
estudiantes, editada por Bloom, con Thomas Hastings y George Madaus. (1971)
66
En esta obra se precisan las diferencias de las evaluaciones que se usan para
apoyar decisiones instruccionales, distinguiendo los propósitos formativos y los
sumativos, así como los de ubicación y diagnóstico; se presentan técnicas para la
evaluación de objetivos cognitivos y afectivos, se describe la complejidad de los
nuevos sistemas de evaluación en gran escala y, en una extensa Segunda Parte,
se presentan once capítulos con ideas sobre otros tantos campos especializados.
El trabajo de Bloom y socios añade un elemento importante a la idea de Scriven:
que, además de ofrecer información sobre el proceso de aprendizaje y no sólo
sobre resultados finales, lo que aporta la evaluación formativa puede servir a los
maestros para que tomen mejores decisiones instruccionales. (Brookhart 2009: 1)
Thomas R. Guskey señala que Bloom partió de la constatación de que, muchas
veces, el contenido de un examen tiene poco que ver con lo visto previamente en
clase, que es también lo que los alumnos repasan al prepararse para la prueba, lo
que los lleva a la conclusión de que no vale la pena esforzarse y que no conviene
fiarse de los profesores. Según este autor:
Esta experiencia se deriva de la creencia largamente aceptada, pero falsa,
de que las evaluaciones deben guardarse en secreto y de que no es justo
dejar que los alumnos sepan lo que se incluirá en ellas. Lamentablemente
esto lleva al alumno a ver las evaluaciones como adivinanzas, y a creer que
su éxito escolar depende en gran medida de que tanto puede anticipar lo
que sus maestros preguntarán en exámenes y pruebas… es difícil que
estas sean las lecciones que un maestro responsable quiere que aprendan
sus alumnos. En contraste con lo anterior, Bloom recomendaba que los
maestros utilizaran sus evaluaciones como fuentes de información o
retroalimentación para los alumnos. Para destacar el propósito “informativo”
Bloom (1968) recomendaba llamar a estas evaluaciones “formativas”,
tomando el término de Scriven (1967) que, el año anterior, lo había utilizado
para describir los aspectos informativos, más que enjuiciadores, de las
evaluaciones de programas. (Guskey, 2007: 66)
67
Para Bloom la evaluación debía servir a los maestros para mejorar la calidad de su
enseñanza y no podía verse como punto final del proceso: debía ir seguida por
instrucción correctiva de alta calidad, que no es simplemente volver a enseñar, lo
que típicamente quiere decir repetir las explicaciones originales en voz más alta y
más despacio; más bien implica la utilización de enfoques que adapten la
enseñanza a las diferencias de estilos de aprendizaje, modalidades y formas de
inteligencia de los alumnos. (Guskey, 2007: 66-67)
A partir de estas ideas, Bloom desarrolló el sistema de enseñanza conocido con la
expresión Mastery Learning, que propone el uso sistemático de la evaluación de
tipo formativo, al final de períodos cortos de instrucción, seguida por instrucción
correctiva adaptada individualmente, con lo cual el autor esperaba una reducción
substancial de las brechas que separan a los alumnos más y menos avanzados.
El uso de evaluaciones formativas frecuentes se complementa con otro elemento
clave, la diferenciación de la enseñanza según las características y condiciones de
cada alumno; en otras palabras, para que disminuya la variación de los resultados
los maestros deben aumentar la variación de su enseñanza. Al principio esto
implica un avance más lento pero, según los defensores del sistema, en el ciclo
escolar no es necesario reducir los contenidos a cubrir, ya que el tiempo que se
utiliza para instrucción correctiva o enriquecimiento en las primeras unidades trae
consigo importantes beneficios que facilitan las cosas más tarde. El tiempo
adicional utilizado al principio se recupera en las unidades posteriores dedicando
menos a revisiones y avanzando a un ritmo más rápido. (Guskey, 2010: 112, 116)
El sistema de Bloom se extendió ampliamente y, aunque tal vez no en la medida
en que las opiniones más optimistas esperaban, dio resultados interesantes, como
pusieron en evidencia revisiones de literatura que ejemplifican las citas siguientes:
Pocas intervenciones educativas de cualquier tipo se asocian de manera
consistente con efectos en el rendimiento tan grandes como los que
produce el mastery learning… Evaluación tras evaluación los programas
que utilizan este enfoque han producido avances impresionantes. (Kulik,
Kulik y Bangert-Drowns, 1990: 292, en Guskey, 2007: 75)
68
El Mastery Learning es identificado regularmente como una de las
estrategias de enseñanza más efectivas que los maestros pueden utilizar,
en cualquier nivel educativo. (Walberg, 1984, en Guskey 2007: 75)
Avances de los 1980: cómo llegar a la meta dado el punto de partida
Un paso más en el desarrollo de la noción se identifica en los trabajos de Sadler
(1989), que añaden que no sólo los docentes pueden utilizar los resultados de la
evaluación formativa, sino que también los estudiantes pueden hacerlo. Además
de lo anterior, la aportación más significativa de Sadler consiste en el
señalamiento de que, para que una evaluación pueda considerase formativa, es
indispensable que incluya la identificación precisa de tres elementos:
El objetivo a alcanzar al final del proceso de enseñanza y aprendizaje de que
se trate, o sea el punto de llegada, el aprendizaje esperado.
La situación en que se encuentra el alumno según la evaluación realizada, o
sea el punto de partida de todo nuevo esfuerzo.
La forma de pasar del segundo al primero, las indicaciones precisas que
orientarán al estudiante para que logre alcanzar el aprendizaje esperado.
Brookhart precisa que el trabajo de Sadler se refería a estudiantes de educación
superior que, por su edad, están en condiciones óptimas para tomar decisiones
sobre su propio proceso de aprendizaje. Precisa además que con Sadler el
calificativo de formativo se aplica al sustantivo con el que en inglés se designa la
evaluación del aprendizaje de los alumnos (assessment), y ya no, como hacían
tanto Scriven como Bloom, Hastings y Madaus, al sustantivo más genérico de
evaluation, que se refería muchas veces, como se ha apuntado, a la valoración de
currículos y programas. (2009: 1)
Wiliam señala que Sadler retomó la noción de retroalimentación de Ramaprasad,
del campo de la electrónica, con la precisión de que el rasgo fundamental para
considerar que una información constituye retroalimentación es, precisamente,
que tenga algún efecto sobre el sistema en que se general.
En relación con esta idea, dice Wiliam, Sadler comenta:
69
Un elemento importante de la definición de Ramaprasad es que la
información sobre la brecha entre los niveles actuales y los de referencia
podrá considerarse retroalimentación solamente si se usa para modificar
dicha brecha. Si la información simplemente se registra, se transmite a un
tercer actor que no tiene los conocimientos o la capacidad de modificar el
resultado, o si está codificada de manera demasiado profunda para que
conduzca a una acción apropiada (por ejemplo como una calificación
sintética dada por el maestro), entonces el ciclo de control no se puede
cerrar, y en vez de retroalimentación efectiva se tienen solamente datos
sueltos (dangling data). (Citado por Wiliam, 2010, 19)
Es clara la relevancia de estas ideas para precisar lo que caracterizará a una
verdadera evaluación formativa, en el sentido de una que contribuya de manera
efectiva a modificar ciertas prácticas, de los maestros y de los alumnos.
La década de 1990: el impacto de la revolución cognitiva
Otra etapa en el desarrollo de la idea de evaluación formativa refleja el impacto de
la revolución cognitiva, con autores como Black y Wiliam en el Reino Unido, y en
los Estados Unidos Susan Brookhart, Lorrie Shepard y Rick Stiggins, entre otros.
Como hemos visto, la evaluación formativa había comenzado a desarrollarse en el
marco del modelo de Mastery Learning de Bloom, con base en los principios neo-
conductistas del diseño instruccional (enseñanza-prueba-retroalimentación o
corrección). Por ello es importante explorar cómo se transforma cuando se basa
en otras concepciones de la enseñanza y el aprendizaje; cómo se desarrolla si se
basa en principios constructivistas o socio-constructivistas o en las ideas sobre la
participación en comunidades de práctica, como proponen los teóricos del
aprendizaje situado. (Stiggins y Arter, 2002: 4)
Desde los inicios del desarrollo de las pruebas en gran escala algunos de sus
promotores más lúcidos, como Tyler, señalaban que también ese tipo de
evaluaciones debían verse como parte de los procesos de enseñanza y los de
aprendizaje, pero prevaleció un enfoque que en realidad las manejaba como un
elemento adicional que sólo tenía lugar al final del mismo.
70
La Teoría Clásica de los Tests y las pruebas en gran escala de diseño tradicional
se desarrollaron en la primera mitad del siglo XX; ambas estuvieron marcadas por
las concepciones psicológicas de la época, en particular el conductismo. Los
avances de las nuevas concepciones psicométricas se dieron en forma paralela a
la llamada revolución cognitiva. Estos desarrollos coinciden en rechazar el
planteamiento conductista que reduce el campo de estudio de la psicología a los
fenómenos más directamente observables, para intentar abrir la caja negra de la
mente, explorando los procesos que tienen lugar en su interior, con técnicas como
las de pensar en voz alta. La revolución cognitiva, dice Lorrie Shepard, fue:
…una rebelión contra la psicología de las diferencias individuales y el
conductismo, una de cuyas premisas básicas era el centrar la atención en la
adquisición de competencias gracias al refuerzo de conductas observables
y no en tratar de explicar los procesos mentales subyacentes. (2006: 627)
En la medida en que se identifican y exploran los procesos mentales –y los
avances de las ciencias cognitivas muestran que es posible en un grado mucho
mayor que el que consideraban los conductistas— se abren horizontes atractivos
para la pedagogía y para las metodologías de evaluación del aprendizaje, en
especial para las que pretendan servir para propósitos formativos, en el sentido
apuntado, esto es para dar elementos que sirvan para que maestros y alumnos
modifiquen sus acciones en consecuencia, para alcanzar mejores resultados.
Shepard señala que sólo recientemente los especialistas en medición comenzaron
a prestar atención al contexto del aula para entender mejor las necesidades de los
maestros en lo relativo a la preparación para llevar a cabo evaluaciones. Y añade
que otros investigadores, Dorr y Bremme, han concluido que
…los maestros razonan prácticamente y actúan como clínicos, orientando
su actividad evaluadora a sus tareas cotidianas, como decidir qué enseñar,
y cómo hacerlo con alumnos de diversos niveles de desempeño; monitorear
el progreso de los alumnos, para saber cómo ajustar la enseñanza en
consecuencia; y asignar calificaciones a sus alumnos con base en su
desempeño. (Cfr. Shepard, 2006: 625-626)
71
Shepard apunta elementos importantes en lo que se refiere al potencial formativo
de las evaluaciones, señalando que:
…la evaluación no puede promover el aprendizaje si se basa en tareas o
preguntas que distraen la atención de los objetivos reales de la enseñanza.
Históricamente, las pruebas tradicionales muchas veces orientaban la
instrucción en una dirección equivocada, si centraban la atención en lo que
es más fácil de medir, en vez de hacerlo en lo que es más importante de
aprender. (Shepard, 2006: 626)
El interés por la evaluación en aula –especialmente con propósitos formativos—
se deriva en parte de la creciente conciencia de las limitaciones de las pruebas
convencionales en gran escala para tales fines y se relaciona con avances
paralelos debidos a expertos en diversas áreas de contenidos curriculares, que:
…comenzaron también a buscar alternativas a las pruebas estandarizadas
para su uso en evaluaciones en el contexto del aula, movidos tanto por el
rechazo de los efectos de las pruebas utilizadas para rendición de cuentas,
como por los profundos cambios en las concepciones del aprendizaje y del
manejo adecuado de los contenidos. (Shepard, 2006: 626)
Como se ha apuntado, muchos maestros no tienen la competencia necesaria para
hacer pruebas estandarizadas de mejor calidad que las que hacen organismos
especializados, y que además sean adecuadas para retroalimentar su trabajo y el
de sus alumnos. Por ello, desde 1989, Silver y Kilpatrick sostenían que:
…más allá de la práctica prevaleciente según la cual los maestros preparan
sus propias pruebas para que se parezcan en forma y contenido a las de
opción múltiple externas, debería hacerse un serio esfuerzo para
prepararlos más bien para que puedan conducir lecciones de solución de
problemas, y para evaluar la habilidad y las disposiciones de sus alumnos al
respecto en el marco de esas lecciones. (Cfr. Shepard, 2006: 627)
Lorrie Shepard concluye el importante trabajo que se ha citado diciendo:
72
El nuevo modelo de evaluación formativa aspira a hacer de la evaluación
una parte integral de la enseñanza… La diferencia fundamental consiste en
que las nuevas estrategias se basan en un modelo de enseñanza y
aprendizaje muy diferente, y no se basan en instrumentos estandarizados
desarrollados fuera del aula. (2006: 627)
El calificativo de revolucionario que se aplica a las teorías cognitivas se justifica
plenamente, dadas las enormes repercusiones que tiene tanto para la enseñanza
como para la evaluación la idea básica de que es posible explorar los procesos
que tienen lugar en la mente de quienes aprenden o enseñan.
La repetición y el ensayo error no son el mejor modo de desarrollar muchas de las
competencias cognitivas más complejas en matemáticas, ciencias naturales y
sociales, cuestiones tecnológicas, de planeación o gestión avanzada, entre otras.
En estos casos son necesarias acciones más complejas, para que los aprendices
desarrollen (construyan) los nuevos conocimientos, a partir de los previamente
adquiridos, en complejos procesos que pueden implicar abandonar concepciones
previas equivocadas (desaprendizaje o deconstrucción) que impiden que ocurra el
aprendizaje (obstáculos epistemológicos).
En estos casos no sirve mucho que el maestro indique al estudiante que aún no
consigue dominar cierto tema que lo vuelva a intentar una y otra vez, sino que es
necesario explorar los preconceptos erróneos, identificar las etapas del proceso de
construcción del conocimiento nuevo (mapas de progreso), ofrecer ejemplos de
productos que se acerquen más o menos al esperado, etcétera.
Es fácil apreciar que una enseñanza con esas características será diferente de la
tradicional y mucho más rica; también se aprecia con claridad que la diferencia
será similar en lo que se refiere al tipo de evaluación a realizar, y al tipo de
devolución o retroalimentación a ofrecer a los aprendices. Como dice un
importante trabajo de la OCDE sobre el tema, en última instancia, el propósito de
la evaluación formativa es conducir a los estudiantes a desarrollar sus propias
habilidades de “aprender a aprender”, que a veces se denominan también
“estrategias metacognitivas”. (CERI, 2005: 50)
73
Según Mc Millan, si se quiere usar la evaluación formativa para la “comprensión
profunda” (deep understanding), se necesita meta-cognición y auto reflexión.
La meta-cognición se refiere al monitoreo, la reflexión y la dirección de su
propio pensamiento por parte de los estudiantes. Implica monitorear la
comprensión, ser consciente de las estrategias que se usan para aprender
y reconocer cuando ciertos objetivos de aprendizaje se han alcanzado o
necesitan ser revisados y mejorados.
La meta-cognición es similar a la auto regulación, en el sentido de que
supone estudiantes autodirigidos (self-directed)… que se involucran
activamente en su propio aprendizaje y usan habilidades metacognitivas…
Utilizan herramientas de pensamiento como repaso, elaboración y
organización, administran su tiempo durante el aprendizaje, toman notas y
buscan ayuda cuando la necesitan… Los estudiantes aprenden cómo y
cuándo solicitar retroalimentación y tienden a detectar errores y a tener
habilidades correctivas. (McMillan, 2010: 47)
Siempre en el marco de la psicología cognitiva, en ámbitos lingüísticos distintos al
anglosajón las ideas que se manejan en este último con la denominación de
evaluación formativa se han desarrollado en relación con las ideas de regulación y
autorregulación. Por ello esto se retomará más adelante, pero antes se tratará un
punto central de la evaluación formativa, que es el relativo a la retroalimentación
que se da a los alumnos, así como el tema relacionado relativo a la importancia
que tienen los aspectos afectivos en dicha retroalimentación.
Un punto clave: la retroalimentación
Una breve consideración sobre los tres puntos que Sadler plantea como básicos
en la evaluación formativa lleva a destacar el relativo a la retroalimentación que se
debe ofrecer a los alumnos.
La mayoría de los maestros sabe lo que los alumnos deben aprender, identifican a
los que lo consiguen y a los que no lo alcanzan, pero se sienten impotentes para
que los segundos, sobre todo algunos de ellos, los que enfrentan mayores
dificultades, aprendan más.
74
Y lo que define finalmente si una evaluación es formativa o no es precisamente si
contribuye o no a que los alumnos aprendan. Por eso es fundamental dar a los
alumnos buena retroalimentación, en el sentido de una que no se limite a informar
al alumno si domina o no algún tema (devolución), sino que contribuya de manera
efectiva a que el interesado avance en el proceso de aprendizaje, le ayude a
transitar del punto en que se encuentra al que se ha definido como meta del
proceso, en los términos de la definición de evaluación formativa de Sadler.
Aunque implica un esfuerzo particular, no parece especialmente difícil establecer
metas de aprendizaje precisas y hacer que los alumnos las comprendan. Algo más
complejo es detectar si un alumno ha alcanzado ya la meta, o determinar el punto
más o menos alejado de ella en que se encuentra. Lo más complicado es ayudar a
todos los alumnos que no han llegado a la meta a que lo consigan efectivamente.
En el sentido de informar a los alumnos si saben o no algo, el uso de algún tipo de
retroalimentación por los maestros es parte de las prácticas tradicionales, en el
marco de tradiciones pedagógicas todavía presentes en muchas aulas. En el
Capítulo 1 se ha citado ya a Resnick et al., que dicen:
Buena parte de la instrucción de enfoque asociacionista, al menos en las
sociedades occidentales, se origina en formas tempranas de educación
religiosa en la iglesia cristiana. Primero los protestantes y luego los
católicos desarrollaron una forma de instrucción elemental que se desarrolla
oralmente en la forma de preguntas y respuestas, y se conoce como
catecismo… La forma de catecismo todavía está presente en lo que ahora
llamamos “enseñanza estándar basada en recitación”… (2010: 400)
Luego se contrasta ese tipo de interacción verbal con la que tiene lugar en las
aulas actuales, organizada según concepciones interpretativas. Según Resnick et
al., las nuevas formas de conversación constituyen un importante cambio en
comparación con el catecismo y su recitación, aunque reconocen que el papel del
maestro en la conducción del proceso sigue siendo importante y señalan que, por
ello, hay oportunidad para que la evaluación de conocimientos de los alumnos se
integre como parte del proceso. Sin embargo:
75
Lo que cuenta como conocimiento se amplía; los bloques a aprender y de
los que se habla son mucho mayores; hay más oportunidades de que el
maestro se vea sorprendido por las comprensiones (e incomprensiones) de
los alumnos, y es claro que se trata de mucho más que de encontrar la
respuesta única que el maestro espera… Las oportunidades de evaluación
están integradas en las actividades de aprendizaje y es difícil pensar que se
puedan separar como ítems individuales de una prueba. (2010: 401)
Hay que recordar que la retroalimentación tipo catecismo pasó a las aulas laicas y
se desarrolló en los modelos de enseñanza inspirados en el asociacionismo y el
conductismo, con los refuerzos positivos o negativos de las conductas.
Recuérdese también que el neo-conductismo, en especial, con Bloom y su
modelo de Mastery Learning, llegó a una concepción de la retroalimentación que
la identificaba con la diversificación de la instrucción ofrecida por el docente, en
forma tal que se adaptara al ritmo y el estilo de aprendizaje de cada alumno. El
mismo Bloom señalaba que era frecuente que la instrucción diversificada se
redujera a que el maestro repitiera más despacio y en voz más alta lo que había
explicado una primera vez. (Cfr. Guskey, 2007: 67)
Por su parte, Sadler elabora lo relativo a la retroalimentación como sigue:
…en su primera fase, la teoría de estímulo-respuesta identificaba la noción
de retroalimentación con el conocimiento de los resultados, que podía llevar
a corrección (cuando la respuesta era incorrecta) o refuerzo (cuando era
correcta), con lo que la motivación aumentaría y se conseguiría un mejor
rendimiento…
La segunda fase tomó un camino distinto: retroalimentar tenía que ver con
elogiar el esfuerzo, lo que llevaría a mayor auto-estima, más esfuerzo y,
finalmente, mejor rendimiento… en casos más complejos se requieren
formas más sofisticadas de retroalimentación… [incluyendo] descripciones
de rasgos del trabajo del alumno, comentarios evaluativos, sugerencia de
caminos o arreglos alternativos…
76
Una opción alternativa es disociar la retroalimentación relacionada con el
ego y la relativa a la tarea, promoviendo fundamentalmente que se
alcancen logros verdaderos, lo que a su tiempo llevarán a mejorar la
autoestima… es la calidad y no la cantidad de retroalimentación lo que
merece nuestra mayor atención. (1998: 78-84)
En forma similar, Rebeca Anijovich distingue retroalimentación afectiva y cognitiva,
individual y grupal, cantidad y calidad; señala que el maestro usa distintos códigos
para retroalimentar: sólo marcar los errores, o bien además anotar la respuesta
correcta, escribir comentarios al respecto, sugerir como mejorar o incluso dialogar
sobre la retroalimentación con los alumnos, y añade que los estudios indican que:
La retroalimentación que se brinda asume en pocas ocasiones la función de
orientar. No es frecuente el planteo de preguntas o la invitación a compartir
reflexiones con los estudiantes. Un factor crítico es el tiempo disponible de
los docentes para ofrecer retroalimentaciones sustantivas a todas las
producciones, de los alumnos. Para evitar el "todo o nada” es posible, por
ejemplo, definir criterios y determinar en forma explícita, qué trabajos,
rotativamente, van a recibir retroalimentación escrita, con qué frecuencia,
etc. (Anijovich, 2010: 17)
Según esta autora, al hablar del impacto de la retroalimentación hay que indagar
cuál es el objeto del impacto: los conocimientos de los alumnos, sus procesos de
aprendizaje, su autoestima, su motivación o sus acciones futuras. Unos estudios
distinguen retroalimentación centrada en la autoestima o en la tarea:
…se ha observado que este tipo de retroalimentaciones puede provocar
mejoras en el aprendizaje… a partir de un incremento en la autoconfianza y
en la capacidad de logro, pero también puede inducir un efecto contrario, es
decir que, apoyado en comentarios positivos, el alumno no reconozca que
necesita mejorar algunos aspectos de su trabajo. Para superar este
problema, algunos autores señalan que la retroalimentación es más
productiva si se centra en la tarea, en cómo el alumno la resuelve, y cómo
autorregula su aprendizaje. (2010: 16)
77
Por lo que se refiere a la cantidad y calidad de retroalimentación que da el maestro
a distintos tipos de alumnos, la autora señala que según algunos estudios:
…los “buenos alumnos”, con buenas producciones, recibían un comentario
genérico como “muy buen trabajo", "buen nivel de análisis". Estas frases
implican muy poca retroalimentación, vinculada a aspectos específicos de la
producción evaluada. Los alumnos con dificultades importantes también
reciben poca Información específica. Suelen obtener señalamientos
generales como "rehacer el trabajo" o comentarios que sirven más para
justificar la calificación que para retroalimentar la producción o el
desempeño del alumno.
Es llamativo que sean los alumnos de nivel intermedio los que reciben más
cantidad de información en concepto de retroalimentación Esta es además
más específica y contiene indicaciones como “justificar la pregunta 2
apoyándose en la bibliografía” “rehacer el diagrama revisando los
conceptos incluidos”, etc. (Anijovich, 2010: 16-17)
Anijovich se pregunta si la retroalimentación debería ser individual o grupal, y
comenta que, en caso de retroalimentación grupal, si el compromiso del grupo es
bajo posiblemente nadie se sienta dueño de la información que aporta el docente y
esta se perciba como ajena, pasando "inadvertida” para los alumnos. En cambio,
si el compromiso y el conocimiento que tienen los alumnos de sus propias
fortalezas y debilidades es mayor, entonces las devoluciones grupales
enriquecerán el intercambio de ideas, estrategias y recursos. (2010: 17)
En cuanto a los modos en que se ofrece retroalimentación, la autora señala que
dependen de factores como las experiencias anteriores en relación con el tipo de
respuesta obtenida de los alumnos, el tipo de creencia sobre la capacidad de los
estudiantes, la construcción de un clima de confianza en el aula, el tipo de
comunicación y de vínculo establecido entre los educandos. (Anijovich, 2010: 17)
Llegamos así a la manera en que se concibe la retroalimentación en el enfoque de
evaluación formativa, basado en la revolución cognitiva, con su énfasis en la
autorregulación del proceso de aprendizaje por parte de los alumnos.
78
Una buena evaluación formativa no se puede reducir a no dar calificaciones
sumativas, pues con eso no mejora la retroalimentación que necesita el alumno
para orientar sus esfuerzos por avanzar. En un trabajo al que se hará referencia
más adelante se encontró que no dar calificaciones provocó reacciones adversas
de los alumnos, por la suprema ironía que representaba el que, en opinión de loa
chicos, sin calificaciones ellos no contaban con información suficiente sobre su
desempeño, no recibían buena retroalimentación: Quiero conocer mis
calificaciones porque los comentarios no nos dicen mucho. (Stobart, 2005: 4)
Otros autores reflexionan sobre la dificultad de la evaluación formativa y, en
especial, de formular preguntas que permitan dar luego retroalimentación eficaz:
Los alegatos en pro de la evaluación formativa… parecen dar por supuesto
que el proceso de evaluación es enteramente transparente, con profesores
capaces de hacer que los alumnos produzcan respuestas claras en forma
inequívoca. Un buen número de estudios sugieren que no es así, sobre
todo entre alumnos pequeños… esto no quiere decir necesariamente que
los alumnos no supieran la respuesta o no entendieran la pregunta, sino
que pensaban que se les preguntaba algo diferente, o que tenían que
responder más bien una pregunta implícita inferida a partir del contexto, y
no la pregunta explícitamente formulada. (Torrance y Prior, 1995: 309)
Según estos autores los alumnos intentan siempre interpretar las preguntas de los
maestros y “dar sentido” a lo que se les pregunta, más que entender lo que se
podría considerar el significado “obvio” de una pregunta en particular. Además:
…la adquisición de nuevos conceptos parece depender principalmente de
las experiencias previas de aprendizaje y de lo que el aprendiz puede estar
listo para aprender con la ayuda de un adulto o un compañero. Por ello,
para que el aprendizaje sea más efectivo debe tener lugar en la “zona de
desarrollo próximo”… [con una visión constructivista de la educación] la
evaluación debería implicar ofrecer al alumno experiencias que puedan
captar con las ideas y habilidades que ya tiene, pero que también exigen
una extensión o modificación de esas ideas y habilidades. (1995: 316)
79
Estos autores afirman que un requisito para que los alumnos puedan mejorar es
que sean capaces de apreciar qué es un trabajo de buena calidad y que tengan
las habilidades evaluativas necesarias para comparar con objetividad la calidad de
sus propias producciones con el estándar más elevado. (1995: 307)
Para que los alumnos desarrollen esa capacidad de identificar productos de buena
calidad con los cuales contrastar su propio trabajo son muy útiles los mapas de
progreso (learning progressions), citados en el Capítulo 1, que algunos consideran
uno de los avances más importantes en evaluación. Como dice James Popham:
Una “learning progression” es una secuencia de de habilidades particulares
(subskills) y conocimientos habilitadores que se considera que los alumnos
deben manejar en el proceso de llegar a dominar un objetivo curricular más
amplio. En un sentido casi literal, las “learning progressions” constituyen
mapas que orientan sobre la manera de hacer evaluaciones formativas…
¿Qué deben evaluar los maestros? Esas habilidades particulares y cuerpos
de conocimiento habilitador que el mapa de progreso identifica como claves
para que los alumnos lleguen a dominar el objetivo curricular final.
¿Cuándo deben evaluar habilidades y conocimientos habilitadores? Antes
de pasar al siguiente bloque constructivo en el trayecto, cuyo dominio se
supone que depende del dominio de su predecesor. (Popham, 2008: 24-30)
En este punto conviene referirse a una idea importante: la que identifica a los
alumnos mismos como actores clave de la evaluación formativa. Heidi Andrade
dice que, dado su constante e instantáneo acceso a sus propios pensamientos,
acciones y trabajos, los alumnos mismos son la fuente fundamental de una buena
retroalimentación; y añade que esta postura no es novedosa para los estudiosos
que trabajan con el enfoque del aprendizaje auto-regulado, puesto que:
…se sabe desde hace mucho que el aprendiz eficaz tiende a monitorear y
regular su propio aprendizaje y que por ello aprende más y tiene más éxito
académico… Además de tener mucho en común entre sí, las teorías de la
autorregulación y la autoevaluación comparten también muchos puntos con
la reciente investigación sobre evaluación formativa. (Andrade, 2010: 90-95)
80
Tomándolo de un trabajo de Wiliam, Andrade presenta un ejemplo de práctica en
aula que combina las ideas de autorregulación y autoevaluación:
En sus clases de matemáticas y ciencias los alumnos utilizaban objetos de
color verde, naranja y rojo que ponían sobre el escritorio para indicar su
propia apreciación de qué tan bien habían comprendido el contenido que se
estaba estudiando, durante una clase o demostración. El maestro podía así
reaccionar de inmediato a la distinta confianza en su propia comprensión
que manifestaban los alumnos, por ejemplo poniendo a trabajar juntos a
alumnos que hubieran puesto el símbolo verde con los de símbolo naranja,
para que aclararan los puntos confusos comentando entre ellos, mientras el
maestro ayudaba a los alumnos de símbolo rojo. (Andrade, 2010: 99)
Topping comenta que en la mayoría de las aulas hay más alumnos que maestros,
por lo que la retroalimentación de los compañeros puede ser más inmediata,
oportuna e individualizada que la del docente. Señala que será necesario entrenar
a los alumnos para desarrollar habilidades apropiadas, pero sostiene que una
mejor comprensión de cómo se producen los efectos positivos de la coevaluación
permitirá… diseñar formas más efectivas, pero por muchos años la evaluación por
pares… se ha apoyado sólo en antiguos dichos como el que dice que enseñar es
aprender dos veces. (Topping, 2010: 62-63)
Si se acepta que los responsables de las decisiones más importantes que se
toman en el aula son los alumnos y los maestros mismos, entonces unos y otros
deberán manejar bien los tres pasos de Sadler, teniendo claro en qué punto se
encuentra cada aprendiz, a qué distancia está de la meta de aprendizaje
establecida y cómo es posible reducir esa distancia.
Según Stiggins lo anterior puede parecer obvio, pero tomarlo en serio no es
sencillo, pues supone que cada maestro domine las competencias que se espera
alcancen los estudiantes y tenga seguridad al respecto; si los maestros no
cumplen con lo anterior, la consecuencia pueden ser expectativas inadecuadas o
poco claras sobre el rendimiento de los estudiantes, y entonces será imposible
una evaluación confiable. Y añade:
81
Evaluar para el Aprendizaje requiere que se redacten mapas curriculares
basados en estándares, en versiones inteligibles para los alumnos y sus
padres, de manera que a todos quede claro el trayecto de aprendizaje a
recorrer… Otra estrategia es ofrecer a los alumnos de manera regular
retroalimentación descriptiva, en contraposición a evaluativa, o sea
información que les ayude a entender cómo mejorar la calidad de su propio
trabajo. (Stiggins, 2007: 15-18)
La distinción entre los dos tipos de evaluación es elaborada por Davies, para quien
los resultados de la investigación sobre las ventajas de la evaluación formativa, las
formas de retroalimentación, la motivación y la evaluación sumativa, son cuatro
piedras angulares que sustentan la idea de involucrar en forma deliberada a los
alumnos en los procesos de evaluación en aula. Davies distingue dos tipos de
retroalimentación, cada una con diferente impacto sobre el aprendizaje:
Retroalimentación específica, descriptiva
Puede tener lugar durante el aprendizaje o después de él. Es formativa. El
trabajo del alumno se compara con criterios, rúbricas, modelos, ejemplos,
muestras o descripciones de trabajos excelentes. Los alumnos aprenden
qué puntos cumplen las expectativas de calidad y dónde deben aprender
más y mejorar su trabajo. Los alumnos comprenden más fácilmente esta
retroalimentación por su relación con el aprendizaje. Una retroalimentación
menos eficaz simplemente juzga el resultado (por ejemplo “Buen trabajo” o
“Necesita mejorar”), mientras la retroalimentación específica y descriptiva,
relacionada con criterios claros, informa a los aprendices sobre lo que han
hecho bien y lo que necesitan hacer de manera distinta. (2007: 32)
Retroalimentación evaluativa
Este segundo tipo tiene lugar al final del aprendizaje. Es sumativo. Dice al
aprendiz cómo se ha desempeñado en comparación con otros (referencia a
norma estadística) o en relación con lo que se debía aprender (referencia a
un criterio). Se comunica mediante letras, números u otros símbolos que
constituyen un código. El alumno que recibe retroalimentación evaluativa
82
usualmente comprende si necesita mejorar o no; sin embargo, a no ser que
pueda decodificar la retroalimentación podrá no tener suficiente información
para saber cómo mejorar. Los investigadores reportan que las letras,
grados y otros símbolos que comunican retroalimentación evaluativa
pueden tener un efecto negativo sobre el aprendizaje de todos los alumnos
y que esos efectos negativos son más marcados en el caso de alumnos de
bajo rendimiento. (Davies, 2007: 33)
A partir de lo anterior, Davies describe algunas estrategias particulares que los
maestros pueden utilizar para involucrar a los alumnos en el proceso de
evaluación. Se presentan cuatro tipos de estrategias:
Definir los puntos de llegada del aprendizaje de tal manera que los alumnos
entiendan bien los objetivos que deben tratar de alcanzar.
Involucrar a los alumnos como socios en la construcción conjunta de
criterios para evaluar los resultados.
Multiplicar la cantidad de retroalimentación que reciben los alumnos para
prever el desarrollo subsecuente de su aprendizaje.
Involucrar a los alumnos en la recolección, selección, discusión y
presentación de las evidencias de su aprendizaje. (2007: 36)
El impacto afectivo de la evaluación
Desde la década anterior, el trabajo de psicólogos educativos como Crooks (1988)
y Natriello (1987), había mostrado el impacto que tiene dar retroalimentación a los
alumnos sobre su nivel de aprendizaje, a partir de las evaluaciones, en una forma
o en otra. En esta dirección, trabajos como los de Brookhart (1997), Black y Wiliam
(1998) o, más recientemente, Stiggins (2008), subrayan esta dimensión afectiva.
Richard (Rick) Stiggins, del Educational Testing Service, señala que hasta hace
poco los sistemas educativos consideraban normal y aceptable que sólo una parte
de los alumnos alcanzara los objetivos de aprendizaje, mientras un número
importante no lo conseguía.
83
El papel de la evaluación consistía en distinguir unos y otros en forma consistente,
y los criterios fundamentales para valorar la calidad de las evaluaciones eran su
validez y su confiabilidad.
Hoy se espera de las escuelas que hagan que todos los alumnos alcancen los
niveles de competencia necesarios para vivir en la llamada sociedad del
conocimiento, y es necesario reflexionar sobre el papel y las formas apropiadas
para evaluar el aprendizaje en este nuevo contexto. Stiggins dice en este sentido:
Las evaluaciones más válidas y confiables del mundo que tengan como
efecto hacer que los alumnos abandonen la tarea desesperanzados no
pueden ser consideradas productivas, porque hacen más daño que bien...
En el pasado, los marcos de referencia para el control de la calidad de las
evaluaciones no tomaban en cuenta su impacto en el alumno; la nueva
visión de la excelencia en lo relativo a evaluación, en cambio, pone en el
centro de la escena este criterio de calidad. (2008: 2-3)
Más adelante, en referencia al impacto emocional que la evaluación tiene sobre
los alumnos, añade:
Desde los primeros grados, algunos alumnos... obtienen altos puntajes en
las evaluaciones y reciben altas calificaciones. El efecto emocional es que
se ven a sí mismos como capaces de aprender, y se sienten cada vez más
confiados...
…otros alumnos, en cambio, obtienen puntajes bajos en las pruebas y
reciben calificaciones malas. Esto los lleva a dudar de su capacidad como
aprendices. La falta de confianza en sí mismos los priva de las reservas
emocionales para correr el riesgo adicional de seguir intentando. El fracaso
crónico es difícil de ocultar y se vuelve penoso: mejor ya no intentarlo.
...si unos estudiantes trabajan duro y aprenden mucho es un resultado
positivo y ocupan los primeros lugares en los ordenamientos. Y si otros se
resignan a lo que ven como fracaso inevitable, eso es un resultado
aceptable para la institución, y ocupan los últimos lugares. Mientras más
grande sea la distancia entre los primeros y los últimos más confiables son
84
los ordenamientos. Misión cumplida. Si un alumno se rinde y deja de
esforzarse, o incluso si abandona la escuela, eso es visto como un
problema del alumno, no de sus maestros o de la escuela. La
responsabilidad de ésta es ofrecer oportunidades de aprendizaje, si los
alumnos no las aprovechan, no es responsabilidad del sistema. (2008: 7)
Después, Stiggins vuelve sobre las implicaciones que tiene el que hoy los
sistemas educativos aspiren a que todos los alumnos alcancen los estándares
establecidos:
Cuando los que abandonan sin esperanza son los que todavía no alcanzan
los estándares, y cuando los educadores tienen que responder ante la
sociedad de que todos los estudiantes los alcancen, tenemos un problema
serio. Esos alumnos que dejan de esforzarse no dominarán las
competencias básicas de lectura, redacción y resolución de problemas
matemáticos, y no llegarán a ser personas que sigan aprendiendo a lo largo
de su vida.
Si la sociedad quiere que todos los alumnos alcancen los estándares,
entonces todos los estudiantes deben creer que pueden conseguirlo; todos
tienen que tener la confianza suficiente y la disposición necesaria para
enfrentar el riesgo de intentarlo. Cualquier otro estado emocional de
cualquier alumno es inaceptable. (2008: 8)
Stiggins añade que, en su opinión, la importancia del cambio de paradigma
evaluativo que implica el centrar la atención en los alumnos como usuarios
privilegiados de los resultados, y en especial teniendo en cuenta el impacto
afectivo de las evaluaciones, no se puede exagerar.
Durante décadas los expertos en la mejora escolar han cometido el error de
pensar que los adultos del sistema son los usuarios más importantes de las
evaluaciones. Hemos creído que si los adultos toman mejores decisiones
en lo relativo a la enseñanza, las escuelas se volverán más eficaces. Sin
duda los padres de familia, los maestros, los directores de escuela y las
autoridades educativas toman decisiones cruciales que influyen en la
85
calidad de las escuelas, y mientras mejor sustentadas estén esas
decisiones en datos duros, tanto mejor. Pero esta visión pierde de vista la
realidad de que los alumnos pueden ser tomadores de decisiones de
aprendizaje más importantes que los adultos... los estudiantes pueden
hacer que las decisiones de sus maestros sobre la enseñanza sean
irrelevantes; tienen el poder de volver ineficaces a los adultos... Si un
alumno decide que cierto aprendizaje está fuera de su alcance o que el
riesgo de fracaso público es demasiado grande o amenazador, entonces,
hagamos lo que hagamos los adultos, el aprendizaje termina.
Por ello la pregunta fundamental para maestros y directores de escuela es:
¿qué podemos hacer para ayudar a que los alumnos respondan en forma
productiva las preguntas anteriores, que los mantengan con esperanza de
que el éxito está a su alcance si persisten en el intento? (Stiggins, 2008: 8)
Desde otra perspectiva, uno de los investigadores que más importancia ha dado al
alumno, como actor fundamental del aprendizaje ha sido Richard Stiggins, quien
recuerda que si un alumno decide que cierto aprendizaje está fuera de su alcance
o que el riesgo de fracaso público es demasiado grande o amenazador, entonces,
hagamos lo que hagamos los adultos, el aprendizaje termina. (2008: 8)
En otro lugar, por la importancia de la dimensión afectiva de la evaluación, este
autor sostiene que el primer desafío a enfrentar si se quiere que las prácticas
docentes incorporen el enfoque de evaluación formativa no es otro que redefinir la
dinámica motivacional de la evaluación, y de esta premisa deriva consecuencias
claras en cuanto a las exigencias de una buena evaluación formativa.
Desviaciones y avances de la década de 2000
Durante la última década del siglo XX el interés por la evaluación formativa se
extendió ampliamente, pero al mismo tiempo la noción tendió a desvirtuarse, al
grado que ha llegado a ser muy ambigua, al referirse a veces a lo que se puede
considerar estrictamente formativo, pero otras a cualquier forma de utilizar datos
sobre el rendimiento de los alumnos para tomar decisiones sobre la enseñanza.
(Cfr. McMillan, 2007: 1)
86
En este proceso influyeron los esfuerzos de algunas empresas comerciales que,
para promover sus productos, comenzaron a designar con la etiqueta de
formativas a pruebas tradicionales que presentaban como si estuvieran en línea
con las tendencias más actuales en el campo. McMillan dice al respecto:
En una interesante estrategia de mercado, las compañías que desarrollan
pruebas reconocen la importancia de la evaluación formativa, y ahora están
promoviendo evaluaciones que llaman “formativas”, pero que es más exacto
describir como pruebas referidas a ciertos estándares (benchmark), que
ofrecen mediciones periódicas en lectura y matemáticas para monitorear el
avance de los alumnos hacia el logro de lo que cubren las pruebas de alto
impacto que se aplican al fin del año escolar. (2007: 2)
Esas pruebas de medición de avances, monitoreo o intermedias se ofrecen como
si fueran formativas aunque hay grandes diferencias; en general no ofrecen el
detalle necesario para introducir correctivos instruccionales apropiados y tienden a
interrumpir la enseñanza con poca retroalimentación útil. (McMillan 2007: 3)
En el mismo sentido otro autor precisa:
Actualmente hay muchas herramientas computarizadas que pueden usarse
para obtener información sobre el aprendizaje de los alumnos. Sin embargo
si esa información no está bien alineada con los objetivos de aprendizaje y
no es recolectada en momentos cercanos a la instrucción… no cumple los
requisitos de la definición de evaluación formativa. La aplicación periódica
de pruebas para monitorear el avance hacia objetivos de aprendizaje
amplios tampoco cae dentro de esa definición; esas pruebas periódicas son
más bien evaluaciones intermedias (interim assessments). Igualmente, si
bien el resultado de evaluaciones sumativas puede usarse para identificar
temas y habilidades que los alumnos parecen no dominar o que necesitan
más desarrollo, el tiempo que transcurre entre el momento en que se recibe
la información y la siguiente oportunidad de reforzar el desarrollo de
conocimientos y habilidades particulares impide que las pruebas sumativas
se utilicen como formas de evaluación formativa. (Rusell, 2010: 125)
87
Citando a Edwards, Black-Wiliam y Chappuis, Abrams refiere que 34 estados
americanos contaban (hacia 2007) con bases de datos interactivas para
retroalimentar las prácticas de enseñanza, pero añade que, si esos sistemas
…no tienen la capacidad de proporcionar retroalimentación correctiva que
informe los procesos tanto de maestros como de alumnos, se les debería
considerar más bien pruebas “mini-sumativas” o “sumativas para alarma
temprana” (early warning summative), y no herramientas formativas… por la
influencia y la mercadotecnia de los programas de benchmarking se está
redefiniendo el sentido de la expresión “evaluación formativa”, que ha
llegado a significar “evaluación sumativa frecuente”. (Abrams, 2007: 93)
Otros dos de los principales promotores de la evaluación formativa afirman que es
necesario que la noción se defina de manera precisa, porque muchos maestros e
investigadores parecen haberla entendido mal; estos autores dicen que algunos
maestros creen que utilizar portafolios, en lugar de o además de los resultados de
pruebas impuestas externamente, eso constituye evaluación formativa, cuando en
realidad esa práctica nada tiene de formativa a no ser que haya retroalimentación
activa que capacite a los estudiantes para modificar y mejorar su trabajo a medida
que construyen sus portafolios. (Black y Wiliam, 2004: 22)
Por lo anterior, un grupo de promotores de estas tendencias sugiere un cambio de
terminología: proponen usar la expresión Evaluación para el Aprendizaje, EPA
(Assessment for Learning, AFL), en lugar de la ya muy trillada y distorsionada de
evaluación formativa (formative assessment). Entre 2001 y 2009 han tenido lugar
tres reuniones internacionales sobre el tema, la última de ellas en Dunedin, Nueva
Zelanda, de cuyas conclusiones se toman las siguientes ideas.
…evaluación formativa es una frase ampliamente utilizada en el discurso
educativo en Estados Unidos, Canadá, Nueva Zelanda, el Reino Unido y
Europa… pero las formas en que las palabras se interpretan y reflejan en la
política y la práctica educativa revela muchas veces malentendidos en los
principios y distorsiones en la práctica que los ideales originales pretenden
promover. Algunos de esos malentendidos y desafíos derivan de que las
88
definiciones son ambiguas, pero otros surgen de apropiaciones deliberadas,
con intenciones políticas, de principios que han alcanzado un apoyo
significativo por parte de los educadores. (TICAL, 2009: 3)
Se señala que a veces se han interpretado erróneamente los principios de Sadler
(precisar dónde están los aprendices al inicio, a dónde se quiere que lleguen y
como conseguirlo), como si de lo que se tratara fuera de que los maestros
aplicaran pruebas sumativas no sólo una vez al año, sino frecuentemente, para
valorar el grado en que sus alumnos estarían alcanzando los niveles establecidos,
para corregir las fallas y orientarse a alcanzar el siguiente nivel.
Los investigadores reunidos en Dunedin señalaron que, en esos casos, alcanzar
cierto puntaje se vuelve el propósito de la enseñanza, y el aprendizaje real se ve
sacrificado en aras del desempeño en la prueba… La lógica del grupo es que
cuando tiene lugar el aprendizaje verdadero se manifestará en el desempeño,
mientras que lo contrario no se sostiene: el desempeño en una prueba por sí
mismo no significa necesariamente que haya habido realmente aprendizaje. Se
puede enseñar a los aprendices cómo tener buenos puntajes en las pruebas sin
que haya mucho aprendizaje real. (TICAL, 2009: 3)
Tratando de evitar malentendidos como los mencionados, en el documento que
recoge las conclusiones de la reunión se precisa que lo que se pretende designar
con la expresión “evaluación para el aprendizaje” no es una metodología particular
de evaluación, sino la identificación de rasgos del aprendizaje a medida que se
desarrolla para que el aprendizaje mismo pueda mejorar, y que si se consigue esa
mejora es secundaria la estrategia formal o informal que ayude a hacerlo. Se
subraya que la Evaluación para el Aprendizaje:
…busca, analiza y reflexiona sobre información que proviene de los mismos
estudiantes, sus maestros y sus pares, como se revela en el diálogo, la
observación y la respuesta de los aprendices a tareas y preguntas… Es
parte de la enseñanza cotidiana en cada aula; una buena parte ocurre en
tiempo real, pero una parte puede derivar de eventos o episodios de
evaluación más formal… Lo distintivo de la EPA no es el tipo de información
89
o las circunstancias en que se genera, sino su efecto positivo en el
aprendiz. Bien integrada en los contextos de enseñanza/aprendizaje, la
EPA pone en marcha a los aprendices hacia un aprendizaje más amplio, a
lo largo de la vida. (TICAL, 2009: 3)
A partir de lo anterior la conferencia de Dunedin propone la siguiente definción:
La Evaluación Para el Aprendizaje es parte de la práctica cotidiana de
estudiantes, maestros y pares, que busca, reflexiona y responde a
información que proviene del diálogo, la demostración y la observación, en
formas que mejoran el aprendizaje que está en proceso. (TICAL, 2009: 3)
Una reciente definición muestra un propósito análogo de diferenciación:
Una práctica que tenga lugar en el aula será formativa en la medida en que
la evidencia sobre el desempeño del alumno se produzca, interprete y use
por los maestros, los estudiantes o sus pares para tomar decisiones sobre
los pasos siguientes en la instrucción que tienen probabilidad de ser
mejores, o de estar mejor fundamentadas, que las decisiones que se
habrían tomado en ausencia de dicha evidencia. (Black y Wiliam, 2009)
Con todo lo anterior debe quedar claro que no es el uso de algún tipo especial de
evaluación lo que la hace formativa, sino el uso que se hace de los datos. Por lo
tanto, concluye Andrade:
Toda definición de evaluación formativa debe basarse en su propósito, que
deberá incluir informar sobre el aprendizaje de los alumnos a maestros y
directivos para orientarlos en la planeación de la enseñanza y retroalimentar
a los alumnos sobre su propio avance para ayudarlos a definir cómo cerrar
las brechas entre su desempeño y los objetivos establecidos. La esencia de
la evaluación formativa es la acción informada. (Andrade, 2010: 344-351)
En seguida retrocederemos en el tiempo para ver el desarrollo de la evaluación
formativa en ámbitos lingüísticos distintos al anglosajón, en los que el tema ha
sido tratado en menor escala; se destacarán algunas aportaciones relevantes
enmarcadas en corrientes cognitivas más conocidas en los medios francófonos.
90
1.2 Desarrollos conceptuales en el mundo francófono
Más que en Francia, los trabajos a los que se referirá este apartado se han
desarrollado en otros lugares, en especial la provincia canadiense de Quebec y las
regiones francófonas de Suiza y Bélgica.
Tal vez por la influencia cercana del sistema de investigación estadounidense, ha
sido en Canadá donde el trabajo de investigación empírica en evaluación y temas
relacionados se ha desarrollado más, muestra de lo cual fue el surgimiento, en
Montréal, en 1977, de la Association Professionnelle de Mésure en Éducation
(APME), tras dos intentos frustrados en el mismo sentido en 1968 y 1972 (Poulin,
1978: 4-5). Posteriormente la agrupación adoptó el nombre de Association pour le
Développement de la Mésure et l’Évaluation en Éducation. (ADMEE)
En 1978 la APME comenzó a editar el boletín Mésure en Éducation, cuyo primer
número sólo contenía un modesto artículo de seis páginas sobre estaninas
estandarizadas y normalizadas. (Vachon, 1978), además de un texto sobre la
historia de la asociación y los estatutos de la misma. A partir del Volumen 5 (1982)
la publicación adoptó el nombre de Mésure et Évaluation en Éducation, y comenzó
a publicar cinco números al año en vez de cuatro.
Con varios cambios en el número de volúmenes y números publicados al año, la
publicación se mantiene hasta la fecha y, desde los años 1990, es publicada
conjuntamente por la Association pour le Développement de la Mésure et
l’Évaluation en Éducation (ADMEE-Europe, que agrupa a investigadores de
Francia y regiones francófonas de Bélgica y Suiza) y la ADMEE-Canadá, de
Québec, aunque el peso de los trabajos canadienses sigue siendo mayoritario.
Incluso en esta revista, especializada en temas de evaluación, la cantidad de
textos que tienen como tema central la evaluación formativa es reducida: sólo 17
en los 30 años transcurridos de 1978 a 2007.
En el primer artículo publicado en Mésure et Évaluation en Éducation sobre el
tema, Linda Allal menciona el trabajo de Bloom como perspectiva inicial, con un
enfoque centrado en aspectos metodológicos y técnicos.
91
Luego menciona una reunión organizada en Ginebra por ella misma con otros
investigadores europeos (Alla, Cardinet y Perrenoud 1979) en relación con la cual
señala que se analizaron más bien:
…los aspectos conceptuales, en función de perspectivas teóricas
provenientes de varios marcos de referencia: análisis psico-sociológicos de
las desigualdades del éxito escolar, concepciones neoconductistas y
cognitivistas de los procesos de aprendizaje y desarrollos recientes en el
campo de la didáctica de las disciplinas escolares. Desde hace algunos
años se esboza un tercer enfoque: a partir de un análisis de varios
esfuerzos de maestros por poner en práctica la evaluación formativa, se
trata de poner en evidencia los procesos de regulación, toma de decisiones
y comunicación, que caracterizan a la acción pedagógica en su realidad
cotidiana. (Allal, 1983: 37-38)
Esta referencia muestra tanto la influencia inicial, como la línea que tomarían los
trabajos francófonos en los años siguientes, que refleja la revista de la ADMEE
con un textos de 1983 (Cardinet); otro de 1984 (Weiss); dos de 1985 (Scallon y
Huberman et al.); dos de 1988 (Bain y Dassa); uno de 1989 (Scallon); cuatro de
1991 (Perrenoud, Gagné y Thouin, Gadbois et al. y Cazabon); uno de 1992
(Dassa y Vázquez-Abad); dos de Thouin en 1993 y 1995; uno más de 1994 (Van
Nieuwenhoven y Jonnaert); y uno de Richard, Godbout y Picard en 2000.
Llama la atención que de 2001 a 2007 no se encuentren artículos sobre el tema,
cuando el interés sobre el mismo era tan fuerte en los medios anglosajones.
Hay dos visiones de conjunto de los trabajos francófonos sobre evaluación
formativa, una firmada por Linda Allal y Lucie Mottier López en la publicación que
dedicó al tema la Organización para la Cooperación y el Desarrollo Económico
(CERI, 2005), y un capítulo similar, más actualizado, de Mottier López, en la obra
colectiva compilada por Rebeca Anijovich (2010).
En los dos trabajos se señala como punto de partida el modelo Mastery Learning
de Bloom, que en francés se tradujo como Pédagogie de Maitrise, y en la obra de
Anijovich como Pedagogía del Autocontrol o Pedagogía del Dominio.
92
En el capítulo que aportó a esta última obra, Mottier López señala que, aunque
algunos autores formularon diversas reservas frente al modelo de Bloom, se debe
reconocer que introdujo un cambio paradigmático, al dejar de relacionar
únicamente la evaluación con la certificación de conocimientos o la selección de
estudiantes, para verla como un medio para sostener los aprendizajes. El
modelo… se dirige a docentes y apunta una transformación de sus prácticas… se
trata de una verdadera “revolución” en materia de evaluación de los aprendizajes
de los alumnos. (2010: 46)
Según la misma autora, al principio los investigadores francófonos centraron la
atención en aspectos particulares de instrumentación de la evaluación formativa, a
partir del Handbook publicado por Bloom y colaboradores en 1971. La atención se
centraba en la preparación de instrumentos, pruebas y bancos de ítems, así como
en la propuesta de métodos para analizar los tipos de errores que cometían los
alumnos al seleccionar diferentes distractores en pruebas de opción múltiple.
Más tarde se desarrollo una reflexión teórica original sobre la evaluación formativa,
en particular en tres aspectos: la psicología del aprendizaje, la didáctica de las
disciplinas y los abordajes pluridisciplinares. (Mottier López, 2010: 46-47)
En cuanto a teorías del aprendizaje, la concepción de neo-conductista de Bloom
es contrastada por Allal, según Mottier López, con el abordaje constructivista y
cognitivista que lleva a privilegiar modalidades de evaluación formativa centradas
en los procesos cognitivos de aprendizaje y no solo en los rendimientos de los
alumnos y las correcciones. (2010: 47)
Otros trabajos relacionan la evaluación formativa con las teorías socioculturales de
la enseñaza y el aprendizaje, así como con las del aprendizaje situado y con la
zona de desarrollo próximo de Vygotsky. Mottier-López ha utilizado los marcos
teóricos de la cognición y del aprendizaje “situados” para conceptualizar la
evaluación como una práctica situada que se co-constituye con los alumnos en el
contexto social de cada micro-cultura de clase (o comunidad de aprendizaje.
(2010: 47-48)
93
En el campo de la didáctica se analiza la evaluación en tanto componente del
sistema didáctico que pone en relación al docente, al educando y el saber que se
debe enseñar, estudiando la evaluación en términos de “contrato didáctico” que
vincula las expectativas recíprocas del docente y los alumnos en relación con un
contenido o con una tarea dada. (Mottier López, 2010: 48)
Ejemplos de abordaje pluridisciplinario de evaluación formativa son aportaciones
como las de Perrenoud, para quien es necesario articular las orientaciones
cognitivas, comunicativas y didácticas de la evaluación formativa en un marco más
general de la regulación… las de Cardinet, que considera la evaluación formativa
como un proceso de comunicación lograda entre el docente y el alumno sobre los
objetivos, los criterios y las dificultades de aprendizaje… y las de Bonniol y Vial,
que explotan diferentes implicaciones de las teorías cibernéticas, sistémicas y de
la complejidad para pensar la evaluación formativa. (Mottier López, 2010: 49)
Reconociendo como punto de partida el modelo de Mastery Learning de Bloom,
los trabajos de lengua francesa lo han ampliado en al menos cuatro direcciones:
La Integración de la evaluación formativa en el proceso de enseñanza/
aprendizaje, como parte integral del mismo y no un acontecimiento especifico
que tiene lugar después de una fase de enseñanza, lo que implica diversificar
los medios de evaluación, que no deben limitarse a pruebas de opción múltiple
y tareas para verificar si los alumnos han comprendido el contenido de la
lección, sino que incluyen observación de las actividades del alumno…
intercambios entre alumnos, entre otros medios. (Mottier López, 2010: 50)
La diferenciación pedagógica, a la que se da mucha importancia en la literatura
francófona. Se reconoce que los objetivos de base exigen ser alcanzados por
todos los alumnos, pero se ha destacado la cuestión de una posible adaptación
de los objetivos con la finalidad de tener más en cuenta las experiencias
culturales y los centros de interés personales de los alumnos (Mottier López,
2010: 54). Este punto se relaciona con el relativo a la regulación (cfr. infra), ya
que ésta permite identificar diferencias entre los alumnos, las que a su vez
hacen necesario diversificar las actividades de instrucción.
94
El compromiso del alumno en su propia evaluación. La perspectiva ampliada
francófona, a diferencia de Bloom, para quien era el docente el responsable de
la evaluación, alienta un compromiso mayor del alumno en la evaluación
formativa… distinguiendo tres variantes: la autoevaluación en el sentido
estricto, la evaluación mutua entre pares, y la coevaluación que estipula una
confrontación de las evaluación realizadas por el docente y el alumno. (Mottier
López, 2010: 52-53)
La noción de regulación, que constituye posiblemente la aportación
fundamental de la perspectiva ampliada de la literatura en francés al campo de
la evaluación formativa, en el que la idea de remediar las dificultades de
aprendizaje (retroalimentación + corrección) es sustituida por la noción más
amplia de regular el aprendizaje (retroalimentación + adaptación). (Allal y
Mottier López, 2005: 245; Mottier López, 2010: 51)
Según la autora que se viene siguiendo en este apartado, este cambio central fue
originalmente una aportación de Cardinet, que posteriormente fue seguido por la
distinción de Allal de tres formas de regulación, que luego ha sido retomada
ampliamente en los trabajos francófonos
La regulación interactiva, basada en la interacción del estudiante con el otro
polo de la actividad de instrucción que es el maestro, con los demás alumnos
y/o con materiales que permiten un aprendizaje autoregulado.
La regulación retroactiva, que se hace después de terminar una etapa de
instrucción y permite identificar los objetivos alcanzados o no por cada alumno.
Puede ser inmediata (v.gr. on line) o diferida, y es la propuesta por Bloom.
La regulación proactiva aprovecha varias fuentes de información para preparar
nuevas actividades de instrucción que tengan en cuenta las diferencias de los
estudiantes, sea para acciones remediales o, más bien, de diferenciación y
enriquecimiento. (Allal y Mottier López, 2005: 245-246)
95
Otro autor de habla francesa que ha desarrollado en especial el concepto de
regulación, aplicado a la evaluación de enfoque formativo, es Philippe Perrenoud,
muy conocido por su trabajo sobre la noción de competencias.
Según un artículo de la 3ª Edición de la International Encyclopedia of Education,
Perrenoud describe la regulación del aprendizaje como el concepto clave en que
se basa la Evaluación Para el Aprendizaje, y también se relaciona con esta visión
de la evaluación la concepción del aprendizaje de Vygotsky, con su noción de la
Zona de Desarrollo Próximo (ZDP), que es crucial para entender la manera en que
él cree que los alumnos avanzan hacia la autonomía. Se menciona también que la
noción de ZDP se relaciona con la de andamiaje (scafolding) para el aprendizaje
de Bruner. (Marshall, 2010)
Perrenoud dice que la evaluación formativa se vuelve fuente de regulación porque,
para que haya retroalimentación de manera regular, es necesario que haya una
clara comprensión de la forma en que funcionan los alumnos y la manera en que
incorporan elementos ajenos a sus propios procesos de pensamiento. (1998: 87)
Según el mismo autor, la influencia regulatoria de la evaluación formativa es débil
si se reduce a una evaluación aplicada al final de una etapa de instrucción, que
destaque lagunas en el conocimiento, errores y comprensiones insuficientes de un
tema, que lleven a ciertas actividades remediales. (Perrenoud, 1998:91) Además:
Las habilidades involucradas en la regulación dependen tanto de la
capacidad de observación y diálogo del maestro como de la manera en que
comprende los obstáculos cognitivos que hay en la mente del alumno y
analiza lo que impide superarlos.
En esta tarea la empatía y la perspicacia son cualidades útiles, que implican
cierto grado de decentralización: la capacidad de ponerse en el lugar de la
persona que no sabe, no entiende y no ve una solución.
Estas habilidades implican una regulación formativa, en el sentido más
amplio de la expresión. (Perrenoud, 1998: 97)
Por su parte, y de nuevo según Mottier López,
96
Laveault amplía la conceptualización de la autoevaluación, agregando las
regulaciones motivacionales además de las cognitivas y metacognitivas, y
observa que las regulaciones pueden entrañar efectos disfuncionales,
pueden ser insuficientes (underregulation), erróneas (misregulation) o
incluso excesivas (overregulation). (Mottier López, 2010: 46-55)
Nuestra autora concluye señalando que, no sin reconocer el rol esencial de la
autoevaluación con fines de autorregulación, estos trabajos muestran que es
esencial comprender cómo “fracasa” una autoevaluación/ regulación y cuáles son
los límites de las que “triunfan”. (Mottier López, 2010: 46-55)
Laveault señala que los conceptos de regulación y autorregulación han contribuido
ampliamente a redefinir la evaluación formativa como objeto de estudio en las
publicaciones en francés, y que los currículos por competencias que sustituyen a
los objetivos de aprendizaje en varios países tienen una clara influencia de las
teorías socioconstructivistas francesas, que subrayan el papel central del alumno y
de la interacción social en la construcción del conocimiento, y añade:
Los nuevos programas de estudio desarrollados en los países de habla
francesa enfatizan todos, de una u otra forma, el papel fundamental de la
evaluación formativa. Tal énfasis no es nuevo, ya que las prácticas de
evaluación formativa han estado asociadas desde hace tiempo con las
concepciones que valoran la diferenciación de la enseñanza y la igualdad
de oportunidades de aprendizaje para todos los estudiantes.
La introducción de programas basados en competencias, sin embargo, ha
exigido rediseñar los instrumentos de evaluación formativa e incluir métodos
adicionales de reunir información sobre el aprendizaje de los alumnos.
(2010: 433-434)
Este autor advierte que los estudiosos francófonos han hecho mucho en el terreno
teórico, pero han publicado muy poco sobre la verificación del impacto de la
evaluación formativa sobre el aprendizaje y que se necesita mucha más
investigación empírica. (Laveault, 2010: 434)
97
1.3 Difusión de la evaluación formativa en otros países
El interés por la evaluación formativa se extendió a otros países, sobre todo por la
influencia de Bloom, pero la literatura correspondiente no contiene aportaciones
relevantes a la conceptualización del campo. Hay información sobre trabajos en
Autralia (Cumming, 2010); Nueva Zelanda (Crooks, 2010); Hong Kong (Carless,
2010: 438). En cuanto a Europa Oriental se puede ver Bethell, 2010; y sobre
países de África Howie, Zimmerman y Draper, 2010.
En Iberoamérica España destaca por la cantidad de su producción editorial sobre
el tema. Una revisión de publicaciones que tratan expresamente de evaluación
formativa, evaluación en aula, usos pedagógicos de la evaluación, ideas de los
maestros sobre la evaluación, evaluación y procesos cognitivos, muestran un
interés que se remonta a fines de la década de 1980, con claras alusiones a la
inspiración que representaron los trabajos de Benjamin Bloom.
De América Latina la producción más importante –mucho menor a la española--
corresponde a Argentina. Se identificaron también trabajos de Chile, Uruguay,
Guatemala y Venezuela.
Por lo que se refiere a México, ni en los estados del conocimiento que precedieron
al Primer Congreso Nacional de Investigación Educativa (Cámara, coord., 1981),
ni en los que se hicieron en relación con el segundo (Carrión et al., 1993 y 1995;
Martínez Rodríguez et al., 1993 y 1995) se encuentran indicios de trabajos que se
interesaran expresamente por evaluación formativa o, más generalmente, en aula.
En las revisiones de 2003 no se incluyó expresamente el tema de evaluación, y los
pocos trabajos al respecto identificados en otras áreas tampoco incluyeron
estudios sobre evaluación formativa (Cfr. Estévez y de Gunther, 2003; Guzmán et
al., 2003; Zorrilla Fierro, 2003).
Una revisión de textos más recientes permitió identificar solamente dos trabajos:
un estudio hecho en el estado de Nuevo León (Vidales Delgado, et al., 2005); y
otro no publicado realizado en 2008 por el INEE, con alcance nacional.
En el V Congreso Nacional de Investigación Educativa se presentaron dos
ponencias sobre el tema de la evaluación formativa (Cruz, Crispín y Ávila, 1999;
98
Fernández Lomelín, 1999). En los congresos VII y VIII se encontraron tres trabajos
relacionados (López, 2003; Montreal Reyes, 2003; Bonilla y López, 2005).
Por otra parte, la normatividad relativa a la evaluación de los aprendizajes en
educación básica refleja cierta influencia de las tendencias que se desarrollan en
el medio internacional. Las disposiciones de 1978, relacionadas con la reforma
curricular de 1973, aún no muestran estas influencias, que comienzan a aparecer
en forma limitada en la normatividad de 1992 y 1994, relacionada con las reforma
curricular de 1993.
Las normas de evaluación más recientes, de octubre de 2009, no avanzan en este
sentido, pero sí lo hacen algunos otros elementos, en particular los relacionados
con la Reforma de la Educación Básica –que adoptó un enfoque “por
competencias”—y con las actividades de actualización para los maestros
derivadas de ella.
En las escuelas normales, aunque no haya materias orientadas exclusivamente al
tema de la evaluación, y menos al de la evaluación de enfoque formativo, los
contenidos de las materias que se refieren a la enseñanza de los diversos campos
formativos (lengua y comunicación, matemáticas, ciencias, etc.) incluyen temas y
lecturas orientadas en ese sentido.
Así pues, los principales documentos normativos de la educación básica mexicana
incorporan paulatinamente concepciones de enseñanza y evaluación derivadas de
los avances cognitivos: constructivismo, enseñanza por competencias, regulación
y autorregulación, papel activo del alumno y enfoque formativo de la evaluación.
El Módulo 3 del Diplomado para Docentes de Primaria, destinado a miles de
docentes de ese nivel educativo, se dedica al tema de la Evaluación para el
aprendizaje en el aula, y parte expresamente del reconocimiento de la importancia
de transitar hacia una evaluación formativa que favorezca el proceso de
enseñanza aprendizaje. (Díaz Barriga et al., 2010: 1)
Sin embargo el módulo parece reflejar una visión algo esquemática y superficial
del tema. Se manejan autores españoles y francófonos y no se aprovechan las
ricas aportaciones anglosajonas inspiradas en las corrientes cognitivistas.
99
2 Trabajos empíricos sobre el impacto de la evaluación formativa
En la investigación educativa, y con excepción de los Estados Unidos, los estudios
empíricos no suelen abundar. Así ocurre en el caso del posible efecto de las
prácticas de evaluación sobre el rendimiento de los alumnos. En este apartado se
revisarán los trabajos encontrados al respecto.
Se ha apuntado ya que varias síntesis de trabajos de investigación sobre el
sistema Mastery Learning llegaban a la conclusión de que era una de las
estrategias de enseñanza más efectivas que los maestros pueden utilizar, en
cualquier nivel educativo. (Walberg, 1984, en Guskey 2007: 75)
Bloom plantea el tema en términos de lo que llama el problema de las dos sigmas,
en alusión al dato de que la diferencia entre los alumnos de alto y bajo rendimiento
suele situarse en el rango de dos desviaciones estándar; esto quiere decir que el
reto de reducir las brechas del rendimiento de manera significativa en un sistema
educativo consiste en hacer mejorar el desempeño de los alumnos de menor
rendimiento en el equivalente a dos desviaciones estándar (dos sigmas).
Según Bloom, es posible conseguir mejoras de esa importancia con sistemas de
enseñanza en los que se asigna un tutor individual a cada alumno de bajo
rendimiento (enseñanza tutorial uno a uno), lo cual es obviamente muy costoso;
pero el creador del Mastery Learning afirma que con su sistema es posible obtener
resultados similares, con un costo que no difiere significativamente del que
implican las formas tradicionales de enseñanza. (Bloom, 1984a y 1984b)
2.1 Estudios en perspectiva optimista
Este inciso se basa en algunas revisiones de literatura, lo que permite alcanzar
una visión de conjunto del tema sin acudir a cada uno de los estudios revisados,
con las ventajas y limitaciones que ello implica. Sin contar las relativas a
resultados del modelo Mastery Learning, como las que se mencionan en los
párrafos anteriores, seguramente la revisión de literatura que más ha influido en
las ideas que se tienen sobre el efecto de la evaluación formativa es la que
publicaron en 1998 Paul Black y Dylan Wiliam, en el número 1 de 1998 de la
revista Assessment in Education: principles, policy & practice.
100
El artículo no es, obviamente, el punto de partida de una línea, puesto que revisa
un número importante de trabajos publicados anteriormente, entre 1988 y 1997;
sin embargo, como se verá luego, la conclusión tan positiva a la que llega llamó
poderosamente la atención entre los interesados en el tema, algunos de los cuales
lo retomaron sin considerar sus alcances y límites, lo que posiblemente dio lugar a
que se extendiera una visión acrítica de la evaluación formativa, en un medio que
a veces parece ávido de soluciones milagrosas para los problemas que enfrenta.
Black y Wiliam explican que ellos a su vez tomaron como línea de base las
revisiones de Natriello (1987) y Crooks (1988) y que utilizaron otras revisiones
(Black, 1993; Bangert-Drowns et al. 1991a y 1991b; y Kulik et al. 1990; después
hicieron una búsqueda en el banco bibliográfico ERIC; luego un seguimiento de
las referencias citadas en las ya localizadas (snowball approach); y por último una
búsqueda de artículos en 76 revistas. De esta manera identificaron un total de 681
publicaciones que parecían relevantes a primera vista, y que finalmente se
redujeron a unas 250.
La revisión se organizó en siete secciones: Ejemplos destacados; evaluación por
los maestros; perspectiva de los alumnos; papel del maestro; estrategias y tácticas
generales usados por los maestros; sistemas particulares en los que la evaluación
formativa tiene un papel especial; y retroalimentación.
En cada sección los textos identificados se revisan con diferente amplitud, pero la
primera, la de ejemplos destacados, es la que atrae más la atención, tanto por su
ubicación al inicio del artículo, como por la naturaleza positiva de las conclusiones
a que llegan los autores, que sustentan las afirmaciones reiteradas y enfáticas que
se hacen. Así, en el resumen del trabajo, se dice:
…Varios estudios muestran firme evidencia de que las innovaciones
diseñadas para reforzar la retroalimentación frecuente que los estudiantes
reciben sobre su aprendizaje produce ganancias substanciales… (Black y
Wiliam, 1998: 7)
La idea se retoma en la parte final del trabajo, en la que los autores responden la
pregunta relativa a las implicaciones para las políticas de sus hallazgos:
101
La investigación reportada en este trabajo muestra de manera concluyente
que la evaluación formativa mejora el aprendizaje. Las ganancias en el
desempeño parecen muy considerables y, como se ha señalado, son de las
más grandes reportadas para una intervención educativa. Como un ejemplo
de la importancia de esas ganancias, un efecto (size effect) de 0.7, si
pudiera ser alcanzado a escala nacional, equivaldría a elevar el puntaje
promedio en matemáticas de un país “promedio” como Inglaterra, Nueva
Zelanda o los Estados Unidos, al nivel de “los cinco mejores”, detrás de los
países de la cuenca del Pacífico como Singapur, Corea, Japón y Hong
Kong… (Black y Wiliam, 1998: 61)
Los estudios seleccionados por Black y Wiliam para incluir en la primera sección
de su trabajo, de ejemplos destacados, son ocho.
Un proyecto que involucró a 25 profesores portugueses de matemáticas, con
246 alumnos de ocho y nueve años de edad, y 108 más de 10 a 14 años.
La experiencia de un profesor a lo largo de 18 años durante los cuales utilizó el
modelo de Mastery Learning en sus cursos, con unos 7,000 estudiantes.
Otro estudio que utilizó el modelo de Mastery Learning, con 120 estudiantes
universitarios estadounidenses, en cuatro grupos en un diseño 2 x 2.
Uno más con 838 niños de cinco años de edad de medio desfavorecido,
distribuidos en un grupo experimental y otro control.
Un experimento con 48 alumnos de 11 años de edad, de 12 grupos en cuatro
escuelas de Israel, seleccionados de manera que la mitad fueran del cuartil
superior y el resto del inferior, en matemáticas y lengua.
Un estudio con 44 alumnos de nueve o diez años de edad en una escuela
elemental de los Estados Unidos.
Un trabajo con 12 grupos de 30 alumnos cada uno, en dos escuelas
estadounidenses de educación media.
102
Un meta-análisis de 21 estudios con alumnos de preescolar a enseñanza
media superior con necesidades educativas especiales de importancia media.
En varios lugares de su trabajo Black y Wiliam advierten sobre las limitaciones que
encuentran en los estudios revisados. En relación con una revisión sobre la
efectividad de la retroalimentación (Kluger y De Nisi, 1996), por ejemplo, se señala
que de más de 3,000 reportes analizados, la gran mayoría debieron descartarse
por adolecer de fallas metodológicas como falta de controles adecuados, mezcla
de los efectos de la retroalimentación con otros, número demasiado reducido de
sujetos (menos de 10), ausencia de mediciones del rendimiento y datos
insuficientes para poder estimar el tamaño del efecto. Solamente se conservaron
131 reportes que no presentaban las fallas anteriores. (Black y Wiliam, 1998: 48)
Se mencionan efectos de la retroalimentación en sentidos opuestos, según que se
refiera a la tarea o a la persona. Un trabajo reporta que la retroalimentación
referida a la persona parece tener efectos negativos sobre el desempeño, y otro
encuentra que los maestros más eficaces elogian menos a sus alumnos que el
docente promedio, coincidiendo con otros hallazgos en el sentido de que los
elogios verbales y la retroalimentación de apoyo a la persona puede aumentar el
interés y mejorar las actitudes de los alumnos, pero tiene poco impacto, o ninguno,
sobre su desempeño. (Black y Wiliam, 1998: 49-50)
Al leer la descripción que hacen Black y Wiliam de los ocho ejemplos destacados
surgen dudas en cuanto a la solidez de conclusiones tan contundentes como las
antes citadas, que parece difícil desprender sin muchas salvedades de una gama
bastante reducida de trabajos muy diferentes, algunos de los cuales presentan
claras debilidades. Pese a ello, la heterogeneidad misma de los ejemplos es
manejada por los autores citados como argumento a favor de su punto de vista:
…Pese a la existencia de algunos resultados marginales e incluso
negativos, el rango de las condiciones y contextos en los que los estudios
revisados han mostrado que se pueden alcanzar tales ganancias debe
indicar que los principios que subyacen al logro de mejoras sustanciales en
el aprendizaje son robustos… (Black y Wiliam, 1998: 61)
103
Al final de su revisión los autores citados advierten a los lectores sobre la dificultad
que supone modificar en profundidad prácticas muy arraigadas:
…de esta revisión no emerge un modelo óptimo en que se pueda sustentar
una política. Lo que emerge son principios orientadores, con la advertencia
de que los cambios requeridos en la práctica docente son centrales y no
marginales, y deben ser incorporados por cada docente a su propia práctica
en la manera propia de cada uno. En otras palabras, una reforma de tales
dimensiones inevitablemente llevará mucho tiempo y requerirá el continuo
apoyo de educadores e investigadores. (Black y Wiliam, 1998: 62)
En forma muy clara, el trabajo multicitado señala en otro lugar:
Sería deseable, y se podría esperar como lo habitual, que una revisión
como esta tratara de hacer un meta-análisis de los estudios cuantitativos
revisados. El que esto difícilmente parezca posible lleva a reflexionar sobre
este campo de investigación. Esta revisión aprovechó material útil de varios
estudios basados en meta-análisis; éstos, sin embargo, centraban la
atención en aspectos bastante restringidos de la evaluación formativa, por
ejemplo la frecuencia con la que se formulan preguntas. El valor de sus
generalizaciones es también dudoso porque se ignoran aspectos clave de
los estudios sintetizados, por ejemplo la calidad de las preguntas que se
formulan, ya que la mayoría de los investigadores no ofrecen evidencias
sobre estos puntos.
Hay estudios cuantitativos que exploran la evaluación formativa de manera
más comprensiva, y algunos se discuten en el texto, pero el número con un
rigor cuantitativo adecuado y comparable debe situarse, como máximo, en
el orden de 20. Sin embargo, si bien cada estudio es riguroso dentro de su
propio marco y en relación son sus objetivos, y aunque muestran cierta
coherencia en lo que se refiere a las ganancias de aprendizaje asociadas
con las iniciativas de evaluación en aula, las diferencias subyacentes entre
los estudios son tales que cualquier agregación de sus resultados tendría
poco sentido. (Black y Wiliam, 1998: 52-53)
104
Pese a lo anterior, varias lecturas del texto al que se refieren estos comentarios
han retomado únicamente las conclusiones favorables, sin matiz alguno, e incluso
contradiciendo afirmaciones expresas, como en el caso siguiente:
Con base en su síntesis de más de 250 artículos, [Black y Wiliam] reportan
que la respuesta [a preguntas sobre si hay evidencias de que mejorar la
calidad de la evaluación formativa eleva el rendimiento de los alumnos] es
un rotundo sí. De esas fuentes, unas 40 responden la pregunta con diseños
experimentales suficientemente rigurosos para permitir la agregación de los
datos para hacer un meta-análisis que permita estimar el efecto atribuible a
evaluaciones formativas mejoradas sobre el puntaje en pruebas sumativas.
(Stiggins, 2001: 10)
La diferencia entre lo que afirma expresamente el texto de Black y Wiliam y la
lectura del mismo hecha por Stiggins es notable, y explica el tono optimista, al
parecer excesivamente, de esa y otras interpretaciones.
Un importante trabajo sobre evaluación formativa publicado por la OCDE retoma el
texto ya citado de las conclusiones del artículo de Black y Wiliam:
… la evaluación formativa mejora el aprendizaje. Las ganancias en el
desempeño parecen muy considerables y, como se ha señalado, son de las
más grandes reportadas para una intervención educativa. (CERI, 2005: 22)
El trabajo de la OCDE, sin embargo, matiza la afirmación anterior como sigue:
Si bien la evaluación formativa no es una solución mágica (silver bullet)
que puede resolver todos los retos educativos, ofrece un medio poderoso
para alcanzar los objetivos de resultados de alto desempeño y alta
equidad, y ofrece a los alumnos el conocimiento y las habilidades para
seguir aprendiendo a lo largo de la vida. Los sistemas educativos que
enfrenten las tensiones que impiden una práctica más amplia de la
evaluación formativa y fomenten culturas de evaluación probablemente
avanzarán mucho más hacia tales metas. (CERI, 2005: 27)
105
Según las minutas de la Primera Conferencia Internacional sobre Evaluación para
el Aprendizaje, que tuvo lugar en 2001, las discusiones sobre las prioridades de
investigación en torno al tema
…se desarrollaron con plena conciencia del hecho de que contamos ya con
evidencia convincente, basada en investigaciones, en cuanto al impacto de
la “enseñanza para el aprendizaje” sobre el rendimiento de los alumnos: se
pueden conseguir avances sin precedentes. Tenemos también evidencia
convincente, basada en investigaciones, sobre la baja calidad de muchas
evaluaciones que se hacen en el aula, debido a la persistente falta de
oportunidades que tienen los maestros para desarrollar sus competencias
de evaluación (assessment literacy). (Stiggins y Arter, 2002: 3)
En un texto más reciente, Stiggins sigue mostrando su perspectiva optimista: la
evidencia recolectada en todo el mundo revela de manera consistente efectos
directamente atribuibles a la aplicación efectiva de evaluaciones formativas en
aula, que van de media a una y media desviación estándar. (2007: 18)
Stiggins dice que Bloom (1984a) reportaba avances de una a dos desviaciones
estándar gracias a la aplicación de su modelo de mastery learning; menciona las
ganancias de media a una desviación estándar reportadas por Black y William a
partir de la revisión ya mencionada; cita el trabajo de Meisels et al. (2003), con
ganancias de una a una y media desviaciones; y retoma el trabajo de Rodríguez
(2004), con base en los resultados de la aplicación del TIMSS en los Estados
Unidos. Para terminar, dice:
Según estos investigadores, los avances esperados en las puntuaciones de
desempeño rivalizan con la implementación de sistemas de enseñanza
tutorial uno a uno en cuanto a su impacto en el rendimiento de los alumnos,
además de que las mayores ganancias son conseguidas por los de menor
desempeño, con lo que las brechas se reducen. (2007: 19)
Otras revisiones de las que se extraen conclusiones favorables para la evaluación
formativa se refieren a los efectos de la retroalimentación. Marzano presenta así
algunos trabajos sobre el tema:
106
Como resultado de revisar casi 8,000 estudios, Hattie (1992) encontró que,
sin duda, “la modificación singular más poderosa para mejorar el
rendimiento es la retroalimentación”. La receta más sencilla para mejorar la
educación será “cucharadas de retroalimentación”. Más recientemente,
Hattie y Timperley (2007) actualizaron y ampliaron la revisión de la
investigación sobre la retroalimentación y llegaron a la misma conclusión.
Desafortunadamente no todas las formas de retroalimentación son
igualmente efectivas. Un meta-análisis de Bangert-Drowns, Kulik, Kulik y
Morgan (1991) que revisó los hallazgos de 40 estudios sobre evaluación en
aula, encontró que decir simplemente al alumno si sus respuestas son
correctas o incorrectas tenía efecto negativo sobre el aprendizaje, mientras
que explicar la respuesta correcta y/o pedir que siguiera mejorando sus
respuestas se asociaba con ganancias en el desempeño de 20 puntos
percentilares. (Marzano, 2007: 103-104)
2.2 Perspectivas críticas
La experiencia reiterada de la complejidad de los fenómenos educativos, y de la
consiguiente dificultad para introducir cambios que traigan consigo consecuencias
importantes, hace tomar con reservas los textos de la sección anterior, que a
veces parecen promover una panacea más que, tras cierto tiempo, provocará una
desilusión tanto más fuerte cuanto mayores hubieran sido las expectativas
inicialmente despertadas. Esta idea se ve reforzada por algunas salvedades que
contienen, que una lectura atenta de los textos citados no deja de advertir y que
en ocasiones se incluyen de manera tan expresa que sorprende que no sean
atendidas en toda su importancia por algunas lecturas posteriores.
Confirma y refuerza esta reflexión crítica sobre las conclusiones excesivamente
optimistas del apartado anterior el trabajo que dos estudiosos de la Universidad de
Arkansas publicaron recientemente con el título Una revisión crítica de la
investigación sobre evaluación formativa. La limitada evidencia científica del
impacto de la evaluación formativa en la educación. (Dunn y Mulvenon, 2009)
Al principio de su texto los autores señalan que:
107
Una creencia casi nunca cuestionada es que la investigación demuestra en
forma concluyente que el uso de evaluación formativa facilita la mejora de
las prácticas de enseñanza, identifica lagunas en el currículo y contribuye a
aumentar el desempeño de los alumnos. Sin embargo… una revisión de la
literatura reveló la limitada evidencia empírica que demuestra que el uso de
evaluación formativa en el aula resulta directamente en cambios marcados
en los resultados educativos. (Dunn y Mulvenon, 2009: 1)
Después de discutir la forma en que se define la noción de evaluación formativa,
indicando que la heterogeneidad al respecto dificulta la tarea de analizar en forma
rigurosa su posible impacto, el artículo analiza en particular la revisión de Black y
Wiliam referida en el inciso anterior de este documento, cuya influencia se puede
apreciar por el elevado número de veces que se le cita en la revistas académicas
(194 según el Social Science Index revisado por Dunn y Mulvenon (2009: 5).
La revisión de las características de los ocho estudios que Black y Wiliam utilizan
en particular para soportar sus conclusiones (cfr. supra) muestra serias fallas
metodológicas, muy evidentes en algunos y menos claras en otros.
Además que el caso de 25 profesores portugueses no parece suficiente para
conclusiones generalizables, el estudio adoleció de fallas significativas en
cuanto a la calidad del pretest y a la diferencia en la preparación que se dio a
los docentes del grupo control, en comparación con los del experimental.
Más clara aún es la generalizabilidad del segundo estudio citado por Black y
Wiliam, con el caso de un solo profesor durante 18 años.
El tercer estudio, con 120 universitarios en cuatro grupos, involucró sólo a dos
profesores expertos y dos novatos y analizó la frecuencia de las evaluaciones
(una o tres) sin considerar en detalle el contenido y la forma de estas.
A juicio de Dunn y Mulvenon el diseño del cuarto estudio (838 niños de cinco
años) es bueno, pero no toma en cuenta que además de evaluación formativa
el sistema con el que se trabajaba incluía otros aspectos cuya influencia no se
puede distinguir de la que haya podido tener la evaluación misma.
108
Otros tres estudios de Black y Wiliam mostraron problemas similares, siempre
según Dunn y Mulvenon; el quinto estudio, hecho en Israel, además de una
muestra muy chica, se refiere a tareas que no fueron presentadas por el
maestro ni se basaban en el currículo; el sexto caso sólo trabajó con alumnos
de cuarto grado, con una muestra muy pequeña y con énfasis en
autoevaluación; y en el séptimo caso (además de que los resultados van desde
un efecto increíble de tres, hasta de sólo una desviación estándar) no se
informa en qué consistieron las “discusiones generales” en el grupo control y
pareciera que el grupo experimental recibió un trato distinto, más allá de lo que
tenía que ver con la evaluación formativa misma.
El octavo caso de Black y Wiliam, que Dunn y Mulvenon tratan en primer
término, parecería en principio el más sólido, ya que se trata del meta-análisis
de 21 estudios, pero incluso en este caso hay serias deficiencias: 83% de los
alumnos participantes tenían necesidades educativas especiales; 72% de los
efectos encontrados se presentaron en estudios que tenían “no más de dos
problemas metodológicos serios”. (Dunn y Mulvenon, 2009: 5-7)
El texto de los profesores de Arkansas revisa nueve artículos más recientes, que
se refieren en general a trabajos de educación en línea (Thompson et al., 2004;
Wininger, 2005; Wiliam et al., 2004; Ruiz-Primo y Furtak, 2006; Sly, 1999; Henly,
2003; Buchanan, 2000; Wang, 2007; y Velan et al., 2002). Los autores reconocen
que esos trabajos ofrecen apoyo adicional a la evaluación formativa de manera
fragmentada, pero añaden que siguen siendo problemáticos temas metodológicos
similares a los de los revisados por Black y Wiliam. (Dunn y Mulvenon, 2009: 7)
Aunque subrayan las limitaciones de los trabajos revisados, la conclusión a que
llegan estos autores no es totalmente negativa, pero sí afirman que:
En cierta medida, las investigaciones discutidas… apoyan el impacto de la
evaluación formativa sobre el rendimiento de los alumnos, pero en una
medida mayor apoyan la necesidad de hacer investigaciones en las que
diseños y metodologías más eficientes lleven a resultados más
concluyentes…
109
…no argumentamos que la evaluación formativa carezca de importancia,
sino sólo que la evidencia empírica que existe para apoyar “las mejores
prácticas” de evaluación formativa es limitada. (Dunn y Mulvenon, 2009: 9)
Otros trabajos recientes parecen avanzar en la dirección apuntada en el texto
anterior, ya que utilizan acercamientos metodológicos más sólidos.
Así parece mostrar un capítulo de la obra editada por Andrade y Cizek, que
analiza investigaciones sobre las características de los programas de actualización
para maestros en servicio que buscan mejorar sus habilidades en evaluación
formativa. (Schneider y Randel, 2010)
Por el enfoque de este trabajo, las investigaciones que se revisan se refieren a
experiencias de duración considerable, en que la preparación que se dio a los
participantes sobre las técnicas de evaluación formativa implicó muchas horas de
trabajo, lo cual es una ventaja considerable en comparación con varios estudios
revisados antes. Por otra parte, la variable relativa a los resultados de los alumnos
se incluye siempre, lo que permite aprovechar estos trabajos en este apartado;
además, se trata de estudios que involucraron a números importantes de
maestros, alumnos y grupos y que, a falta de diseños experimentales estrictos,
utilizaron acercamientos cuasi-experimentales que cuidaron la comparabilidad de
los grupos con y sin tratamiento, y utilizaron técnicas analíticas avanzadas.
El trabajo concluye con consideraciones sobre los retos metodológicos que se
deben enfrentar en este tipo de investigaciones, incluyendo la atención a los
estándares definidos para juzgar la calidad de las evidencias por el repositorio
llamado What Works Clearinghouse (del Instituto de Ciencias de la Educación del
Departamento de Educación del Gobierno de los Estados Unidos); las dificultades
de manejar diseños experimentales con grupos completos (intact classrooms), las
de las medidas de los resultados, del tamaño de las muestras, la fidelidad de
implementación y la duración del estudio. (Schneider y Randel, 2010: 267-272)
En muchos casos, los resultados resultaron favorables a la hipótesis de que las
prácticas de evaluación formativa contribuyen a mejorar el aprendizaje; en un
número menor no se encontraron diferencias significativas.
110
Nuevamente la evidencia no es concluyente, pero sí parece inclinar
paulatinamente la balanza en el sentido de las opiniones favorables a la
evaluación formativa.
Otro capítulo de la obra de Andrade y Cizek es un ejemplo interesante en el
sentido que se comenta. Se trata del trabajo sobre evaluación formativa,
motivación y aprendizaje de las ciencias naturales, de Ma. Araceli Ruiz Primo y
colaboradores (2010), que los autores describen como sigue:
Se llevó a cabo un estudio de pequeñas dimensiones, aleatorizado, para
someter a prueba la afirmación de Black y Wiliam (1998) de que la
retroalimentación basada en evaluación formativa produce un fuerte efecto
positivo en el aprendizaje de los estudiantes…
…el proyecto ponía a prueba una “gran idea” relacionada con la evaluación
formativa, que “se podría obtener una gran ganancia en el aprendizaje con
una inversión relativamente pequeña: incorporar a un currículo de ciencias
utilizado en todo el país evaluaciones formativas conceptualmente
coherentes”. (Ruiz Primo et al., 2010: 143)
Después de explicar las características del estudio, cuidadosamente diseñado e
implementado, los investigadores reportan los resultados relativos a los cambios
esperados en los niveles de rendimiento de los alumnos como sigue:
Sorprendentemente los resultados no corroboraron la hipótesis… el grupo
experimental no obtuvo resultados significativamente mejores que el grupo
de comparación ni en las pruebas de rendimiento ni en las medidas de
motivación. De hecho los alumnos del grupo de comparación tuvieron
resultados promedio ligeramente mejores que los del grupo experimental,
aunque no estadísticamente significativos… la brecha entre los alumnos de
alto y bajo rendimiento en el grupo experimental no fue tan grande como en
el grupo de comparación… (Ruiz Primo et al., 2010: 151)
La revisión de los videos de clases que se grabaron durante el estudio permitió a
los investigadores buscar una explicación de esos resultados, revisando la
fidelidad de implementación.
111
El estudio de implementación buscaba entender la relación entre el tratamiento (el
currículo prescrito) y las mediciones del aprendizaje de los alumnos (el currículo
logrado), para lo cual primero se sistematizó el currículo prescrito según la guía
que se había dado a los maestros participantes, y luego se analizaron las
grabaciones de las clases para medir en qué grado los maestros realizaron las
evaluaciones formativas como se esperaba que lo hicieran. El resultado fue que
había considerables diferencias en cuanto a la forma de hacer las evaluaciones, lo
cual parece reflejarse en un impacto diferencial en el rendimiento. La conclusión
de los investigadores es la siguiente:
Black y Wiliam (1998) encontraron que era la retroalimentación… la
intervención que tenía impacto sobre el aprendizaje de los estudiantes.
Hattie y Timperley (2007) encontraron además que la calidad de la
retroalimentación impacta el grado en que ayuda a los estudiantes a
mejorar. No debería sorprender, por tanto, que los estudiantes con mejores
resultados en el estudio fueran los que tuvieron maestros que cerraban
mejor el ciclo de la evaluación formativa… el uso de información para
ajustar la enseñanza… fue insuficientemente implementado por muchos
maestros del grupo experimental… con base en la evidencia recogida
durante el estudio de implementación sabemos que, en general, los
maestros conseguían que los alumnos compartieran sus ideas, pero que no
conseguían utilizar la información para ajustar su propia enseñanza.
Obviamente recomendar que se ajuste la enseñanza y se actúe es más fácil
que hacerlo. (Ruiz Primo et al., 2010: 154)
En relación con lo anterior, conviene precisar que la justificación del uso de
estudios basados en diseños experimentales estrictos (que incluyan la asignación
aleatoria de los sujetos a los grupos experimental y control) como soporte para
llegar a conclusiones sobre el impacto de cierta intervención se justifica
plenamente en principio pues sabemos que, en ausencia de tal tipo de diseño, es
problemático sacar conclusiones de tipo causal.
112
Sin embargo, en la investigación educativa y social deben cuidarse otros aspectos
para que un estudio pueda arrojar conclusiones sólidas. En particular, es
indispensable cuidar la llamada fidelidad de implementación a la que han aludido
los dos últimos trabajos utilizados en este documento, y cuyo descuido es, al
parecer, una de las deficiencias que más influyen para que los resultados de los
trabajos sobre el posible impacto de la evaluación formativa no sean concluyentes.
Como ha mostrado Raudenbush (2008), en el caso de la investigación sobre el
efecto de ciertos fármacos sobre el organismo es sencillo garantizar que todos los
sujetos de un grupo experimental recibieron un tratamiento idéntico (por ejemplo
cierta dosis del fármaco) y que ninguno de los sujetos del grupo control lo recibió.
En educación, en cambio, y aunque se haya dado cierta preparación a los
participantes, es difícil asegurar, por ejemplo, que todos los maestros de un grupo
experimental manejaron prácticas de evaluación formativa del mismo tipo y con
idéntica calidad e intensidad, en tanto que ningún docente del grupo control utilizó
prácticas que pudieran producir resultados análogos.
Un elemento más a tener en cuenta al estudiar el impacto de la evaluación
formativa tienen que ver con la dificultad de hacer aceptar prácticas novedosas,
que confrontan tradiciones posiblemente negativas, pero muy arraigadas, como
son las que tienen que ver con las formas tradicionales de evaluar que prevalecen
desde hace tantos años en las aulas de nuestros sistemas educativos.
Al analizar la normatividad sobre las evaluaciones que deben hacer los profesores
mexicanos, hemos visto cómo casi no ha cambiado desde hace casi medio siglo,
pese a que en ese lapso se puso de moda la pedagogía constructivista, surgieron
y proliferaron las pruebas en gran escala y se comenzó a hablar de evaluación
formativa. No debe sorprender que muchos actores, incluyendo a maestros, pero
también a alumnos y padres de familia, se sientan incómodos cuando se quiere
introducir innovaciones como la que es objeto de este trabajo.
El último trabajo empírico que se revisa en esta sección tiene que ver justamente
con esa resistencia, en el contexto de un sistema educativo en el que las nuevas
formas de evaluación está mucho más extendido que en México.
113
Smith y Gorard reportan los resultados de un estudio sobre las reacciones de unos
alumnos que participaban en un proyecto de evaluación formativa que, de acuerdo
con una recomendación frecuente en estos casos, incluía el dejar de entregar
regularmente las calificaciones, para desalentar la tendencia a trabajar en función
de la nota, y no del interés intrínseco por el aprendizaje.
Cuando se preguntaba a esos estudiantes cómo se sentían, las respuestas eran
diversas, pero
…un número considerable de alumnos tenían opiniones bastante negativas,
particularmente porque, en su opinión, el hecho de no recibir calificaciones
no les permitía saber cómo orientar sus esfuerzos.
…cuando se les preguntaba si los comentarios que recibían eran útiles, la
mayoría opinaba que no les daban suficiente información para que pudieran
saber cómo mejorar. Tampoco pensaban que el hecho de dar calificaciones
estigmatizaría a los de bajo rendimiento.
…el deseo de recibir calificaciones era tan fuerte que algunos admitían que
intentaban calcularlas. Esto era particularmente marcado en materias como
matemáticas y lengua, en relación con las cuales los chicos admitían que
sumaban las palabras correctamente deletreadas (correct spellings) en las
pruebas de vocabulario para calcular cual sería la calificación que habrían
recibido. (Smith y Gorard, 2005: 31-33)
Un estudio de implementación de este último trabajo, que hacía que los alumnos
echaran de menos sus calificaciones, probablemente diría que la forma en que se
pusieron en práctica los principios de la evaluación formativa no fue adecuada, y
es que como señala una cita anterior, es más fácil recomendar que se ajuste la
enseñanza y se actúe que hacerlo realmente.
La aplicación en el aula de los principios de la evaluación formativa no es sencilla,
en particular si se trata de habilidades cognitivas complejas y no de simples tareas
memorísticas, ya que para ello no basta que se modifiquen las prácticas de
evaluación, sino que es todo el enfoque de la enseñanza lo que debe cambiar.
114
3 Perspectivas de la evaluación formativa
En las aulas de las escuelas primarias, en México y otros países, se pueden
distinguir tres tipos de prácticas de evaluación del aprendizaje de los alumnos: la
vieja herencia de la enseñanza tradicional inspirada en el catecismo; la influencia
de las pruebas en gran escala que se ha fortalecido debido a la proliferación de
evaluaciones censales de alto impacto; y los esfuerzos incipientes en dirección de
prácticas de orientación formativa, congruentes con la pedagogía constructivista.
Para los años venideros se pueden prever dos escenarios, que dependerán de las
ideas que prevalezcan respecto a las pruebas en gran escala, cuya proliferación
se relaciona con la insatisfacción de muchas personas, en diversos países, en
cuanto a los niveles de aprendizaje que alcanzan los alumnos. Esta preocupación
tiene fundamento, pero también se asocia con una visión simplista del problema,
sus causas y la forma de valorarlo y corregirlo, que se concreta cuatro puntos:
Diagnósticos descriptivos que detectan catástrofes al leer los resultados de
las evaluaciones sin referentes adecuados para ponerlos en perspectiva.
Diagnósticos explicativos que señalan culpables –sobre todo maestros— sin
considerar factores de las escuelas y su contexto que influyen en la calidad.
Medios de valorar la situación que se reducen a la aplicación de pruebas en
gran escala, sin identificar sus alcances y límites ni distinguir si su propósito
y diseño son apropiados para juzgar la calidad de maestros y escuelas.
Recetas fáciles para remediar la situación limitadas a estímulos y sanciones
para escuelas y maestros, con base sólo en los resultados de sus alumnos.
El peso de estas ideas en sectores influyentes de la sociedad, como los medios de
comunicación o las agrupaciones empresariales, así como una amplia aceptación
de las mismas por parte de las más altas autoridades educativas, se refleja en la
mencionada proliferación de pruebas con las que se pretende valorar la calidad de
las escuelas, aunque los instrumentos no hayan sido diseñados de manera
apropiada para tal propósito y aunque, en muchos casos, adolezcan de
deficiencias técnicas que ponen en tela de juicio su validez y/o su confiabilidad.
115
A partir de esto se producen dos reacciones: los maestros se ven impulsados a
orientar su trabajo en función de los contenidos de las pruebas, ya que serán el
medio privilegiado para valorar su trabajo; y entre los mismos maestros y los
estudiosos de la educación se rechazan las pruebas de manera absoluta.
Las ideas mencionadas tienen parte de verdad pero también elementos erróneos.
No estar totalmente de acuerdo con ellas no implica una postura complaciente. Se
puede compartir la preocupación por la calidad de la educación con base en una
concepción más equilibrada del problema, que se puede resumir como sigue.
Diagnóstico descriptivo: el aprendizaje de los mexicanos es inferior al de los
alumnos de países más desarrollados y al deseable, pero es similar, y a veces
mejor, que el de otros comparables; antes de calificarlo como catastrófico, hay
que tener en cuenta muchas cosas, en especial los cambios de un país que
hace medio siglo atendía a la mitad de los niños en edad escolar y hoy atiende
a casi toda la demanda con una población cuatro veces mayor.
Diagnóstico explicativo: las causas de esto son complejas y suficientemente
conocidas (múltiples factores de la escuela y el entorno); los resultados no
deberían sorprender a quien tenga una visión informada del contexto nacional e
internacional, y no se debería caer en la tentación de señalar culpables fáciles,
pero esto no implica dejar de tomar las medidas correctivas que proceda.
Medios de valorar la situación: la complejidad de ésta implica que la evaluación
de la calidad educativa no puede reducirse a pruebas, aunque debe incluirlas, a
condición de que sean de buena calidad y se utilicen de manera parsimoniosa;
debe haber indicadores de otras dimensiones, estadísticas y acercamientos
cualitativos, acordes a la naturaleza de los sujetos y los procesos educativos.
Estrategias de mejora: deberán ser complejas también; los resultados sólo
podrán observarse en el mediano y largo plazo, como fruto de esfuerzos serios
y sostenidos. Deberán incluir la generalización del uso formativo de la
evaluación por parte de los maestros, en el marco de enfoques del proceso de
enseñanza-aprendizaje congruentes con las concepciones actuales.
116
En uno de los dos escenarios posibles las pruebas estandarizadas se conciben
como la herramienta fundamental para evaluar la calidad de la educación, por
encima de otros medios, en especial de las evaluaciones que hacen los maestros
mismos, que serían incapaces de hacer evaluaciones confiables. En el otro
escenario las pruebas se ven como un medio entre otros, que puede aportar
elementos valiosos pero siempre incompletos e insuficientes y que, por lo tanto, es
necesario que sus resultados se complementen con otros elementos, en particular
con los aportados por los maestros, cuyo papel se considera insustituible.
3.1 Las pruebas como sustitutos del trabajo de los maestros
Los sistemas educativos necesitan buenos sistemas de evaluación, que ofrezcan
diagnósticos precisos y confiables para fijar metas y diseñar estrategias de mejora,
pero hay que evitar reducir los sistemas de evaluación a la aplicación masiva de
pruebas de rendimiento, incluso si son de buena calidad técnica.
La extensión de las pruebas va acompañada, en muchas ocasiones, de usos
inapropiados de los resultados, en especial difundiendo ordenamientos simples de
escuelas (rankings) que, supuestamente, reflejarían objetivamente la calidad de
las escuelas mismas; con base en ello las autoridades ofrecerían estímulos a las
escuelas de mejores resultados y los padres de familia decidirían a qué escuela
enviar a sus hijos; la competencia entre escuelas haría mejorar su calidad. Estas
ideas ignoran que, al valorar la calidad de las escuelas con base únicamente en
los resultados de las pruebas estandarizadas, se comete un error grave que pone
en cuestión la validez de las inferencias basadas en tales resultados.
Imaginemos dos escuelas. Una selectiva, admite sólo a los mejores aspirantes, lo
que hace que buena parte provenga de medios favorecidos; además es exigente,
por lo que los alumnos de bajo rendimiento la abandonan para ir a otra escuela o
dedicarse a otras cosas. La otra escuela acepta a todos los solicitantes de nuevo
ingreso, sin selección, lo que hace que una mayoría sea de origen humilde; se
esfuerza por mantener hasta el fin del trayecto a todos los aceptados y lo consigue
en gran medida, aunque no todos alcancen plenamente los objetivos.
117
En una prueba estandarizada, los alumnos de la primera escuela tendrán
seguramente resultados superiores, en promedio, a los de los de la segunda.
¿Sería adecuado concluir por ello que la primera escuela es mejor que la otra?
Sin más datos no debería sacarse tal conclusión. Los mejores resultados de la
primera escuela pueden deberse a la extracción social de su alumnado, en parte
gracias a sus políticas selectivas, y no a un funcionamiento ordenado o mejores
prácticas de enseñanza. Los resultados inferiores de la segunda escuela podrían
ser tales aun en caso de que funcione bien, con trabajo valioso de los docentes,
alta participación de los padres y otras buenas prácticas, que explicarían la
retención de estudiantes, aunque no se obtengan resultados altos.
Las estrategias de mejora basadas en asignar estímulos económicos o establecer
una competencia entre las escuelas con base en los resultados de pruebas parten
de una transferencia poco sustentada de los principios de la economía, y no tienen
en cuenta las peculiaridades de la oferta y la demanda educativas, que no siguen
necesariamente la lógica del mercado. Dichas estrategias ignoran la dificultad que
representa la desigualdad social para el propósito de que los alumnos de todas las
escuelas de un país consigan resultados similares; parten de un supuesto falso:
que hacer buena educación en cualquier contexto es fácil:
Los sistemas de rendición de cuentas basados en pruebas se basan en la
creencia de que la educación pública puede mejorar gracias a una
estrategia sencilla: haga que todos los alumnos presenten pruebas
estandarizadas de rendimiento, y asocie consecuencias fuertes a las
pruebas, en la forma de premios cuando los resultados suben y sanciones
cuando no ocurra así. (Hamilton, Stecher y Klein, 2002)
La asignación de estímulos económicos con base en los resultados, y los
ordenamientos simples o rankings de escuelas, hacen que las pruebas se vuelvan
de alto impacto, lo que propicia que se corrompan, al aparecer prácticas negativas
como preparar a los alumnos para la prueba, subordinar el currículo a la
evaluación, o alterar resultados mediante estrategias más abiertamente
deshonestas.
118
El uso de los modelos de valor agregado es un avance que teóricamente corrige
algunas limitaciones del uso de las pruebas para evaluar escuelas y maestros,
pero los especialistas coinciden en señalar que, en la práctica, e incluso en los
sistemas educativos que cuentan con más elementos para ello, se está lejos de
que tengan la precisión y confiabilidad suficientes para basarse únicamente en
ellas. (Cfr. Goldstein y Spiegelhalter, 1996; Goldstein, 1999; McCaffrey et al.,
2003; Braun, 2005; Leckie y Goldstein, 2009; Martínez Arias, 2009; Glazerman et
al., 2010; Rothstein, 2011)
3.2 Las pruebas como apoyo al trabajo de los maestros
En otra perspectiva las pruebas en gran escala se pueden ver como un medio útil
para complementar el trabajo de los maestros, pero no como sustituto del mismo.
Se parte de la idea de que el trabajo de un buen docente es insustituible, tanto
para que los alumnos alcancen un alto nivel de competencia en los conocimientos
y habilidades que necesitarán para una vida plena, como para valorar el grado en
que tal cosa ocurre, o sea para evaluar.
Valorar el grado en que un alumno tiene los conocimientos y habilidades previstos
al final de un ciclo escolar no es sencillo, si se quiere cubrir de manera suficiente
las diversas materias o áreas del currículo y los temas de cada área o materia. La
tarea se complica si se quiere conocer el avance del alumno –lo que es esencial
para ofrecer retroalimentación— ya que la evaluación deberá hacerse desde el
inicio del ciclo escolar y en varios momentos del mismo, en forma permanente.
Esto último es básico si se quiere que la evaluación sirva no sólo para detectar el
resultado final de un proceso educativo (evaluación sumativa), sino sobre todo
para contribuir a que el proceso de aprendizaje mejore en toda su extensión, a lo
que alude la expresión evaluación formativa.
Si se trata de valorar el avance cotidiano de dos o tres decenas de alumnos, y se
quiere tener información sobre las circunstancias personales, familiares y sociales
de cada uno, para tenerla en cuenta en el momento de tomar decisiones
importantes para el futuro de cada uno de ellos, la tarea evaluativa se antoja difícil.
119
Eso es lo que se espera de los maestros y es crucial para que el trabajo educativo
tenga buenos resultados: para retroalimentar su propio trabajo docente, así como
el esfuerzo de los alumnos mismos, es fundamental que el maestro conozca con
precisión el avance de cada uno de sus alumnos. Por ello la calidad de un sistema
educativo se basa en última instancia en el profesionalismo de sus maestros que,
además de dominar los contenidos a enseñar y los métodos pedagógicos
necesarios para ello, deben también ser capaces de manejar técnicas de
evaluación apropiadas para el trabajo en el aula, que les proporcionen la
información necesaria para retroalimentar su propio trabajo y el de los alumnos.
La experiencia muestra que esto no es sencillo, pero sí posible: la evaluación que
hace un buen maestro del avance de sus alumnos tiene niveles de validez y
confiabilidad suficientes para sustentar las decisiones educativas más delicadas.
La pregunta siguiente es: ¿Podrá evaluarse el aprendizaje con validez y fiabilidad
comparables con pruebas de gran escala? La respuesta es clara: con la finura que
puede alcanzar la evaluación del maestro NO, sin duda con las pruebas que hay
en la actualidad, y tampoco con acercamientos en gran escala más avanzados.
Las evaluaciones de aprendizaje en gran escala pueden, en cambio, dar
información de buena calidad sobre conjuntos grandes de alumnos, en ciertas
áreas del currículo y con intervalos de tiempo amplios.
Las evaluaciones en gran escala suelen utilizar pruebas estandarizadas
compuestas por preguntas de opción múltiple. Con frecuencia menor se utilizan
instrumentos con preguntas de respuesta construida, ejercicios con problemas o
situaciones reales, así como evaluaciones orales y observaciones de las
ejecuciones de los evaluados.
El uso de pruebas de opción múltiple no es accidental: su desarrollo es laborioso,
pero pueden aplicarse a miles de sujetos en forma controlada, lo que se traduce
en costos unitarios bajos. Aunque tengan limitaciones para evaluar niveles
cognitivos complejos su viabilidad en gran escala es mayor que la de herramientas
menos estructuradas, cuyo uso en forma confiable, aún con pocos cientos de
alumnos (por no hablar de decenas o centenares de miles), no es posible.
120
Conclusión
Las posturas simplistas sobre la evaluación en gran escala ignoran la complejidad
del tema y sobreestiman las posibilidades de los instrumentos usuales; pierden de
vista que el maestro y los padres son piezas clave para la mejora educativa. Por
ello se considera que la postura adecuada es la que concibe el papel de las
pruebas en gran escala como complemento del trabajo de los maestros, y no
como sustituto del mismo. Así y sólo así la evaluación contribuirá efectivamente al
mejoramiento de las escuelas.
Como se ha visto ya, una de las motivaciones que impulsaba a los pioneros de las
pruebas en gran escala a principios del siglo XX era, precisamente, su conciencia
de la escandalosa falta de confiabilidad de las evaluaciones que solían hacer los
maestros. Cien años más tarde deficiencias similares siguen presentes en las
aulas, por lo que es comprensible la tentación de utilizar evaluaciones
estandarizadas que sustituyan el trabajo de los maestros, pero un análisis
detallado de la cuestión muestra que esa aparente solución presenta a su vez
problemas insuperables.
No hay solución sencilla ni mucho menos panacea mágica alguna que resuelva el
serio problema de la calidad educativa. Solamente lo conseguirá un trabajo en
profundidad para elevar el nivel profesional del magisterio. Ese trabajo tendrá que
incluir lo relativo a la capacidad de manejar evaluaciones formativas ricas, que no
se limiten a repetir en voz más alta y más despacio las explicaciones que no
comprendieron los alumnos.
Sin embargo, modificar en profundidad las prácticas de los maestros no es cosa
fácil, como muestran los escasos resultados de los programas de actualización
que anualmente involucran a cientos de miles de maestros de educación básica
en un sistema tan grande como el mexicano.
Reflexionar sobre las razones que explican esa dificultad, y sobre la forma de
conseguir los cambios necesarios será el objeto del siguiente capítulo.
121
REFERENCIAS
ABRAMS, LISA M. (2007). Implications of High-Stakes Testing for the Use of
Formative Classroom Assessment. En McMillan, J. H., 2007: 43-62
ALLAL, LINDA y LUCIE MOTTIER LOPEZ (2005). Formative Assessment of
Learning: A Review of Publications in French. En CERI, 2005: 241-264.
ALLAL, LINDA (1983). Évaluation formative: entre l’intuition et l’instrumentation.
Mesure et évaluation en éducation, Vol. 6 (5) : 37-57.
ALLAL, LINDA, J. CARDINET Y P. PERRENOUD, eds. (1979), L ‘évaluation
formative dans un enseignement dfférencié, Lang, Bern.
ANDRADE, HEIDI L. (2010). Summing Up and Moving Forward: Key Challenges
and Future Directions for Research and Development in Formative
Assessment. En Cizek y Andrade, 2010: 344-351.
ANIJOVICH REBECA ed. (2010) La evaluación significativa. Buenos Aires Paidós.
BAIN, D. (1988). L’évaluation formative fait fausse route. Mesure et évaluation en
éducation, Vol. 10 (4): 23-32.
PETERSON, PENELOPE, E. BAKER y B. MCGAW (2010). International
Encyclopedia of Education, 3rd Ed. Amsterdam, Elsevier-Academic Press.
BANGERT-DROWNS, R. L. et al. (1991a). The instructional effect of feedback on
test-like events. Review of Educational Research. Vol. 61 (2): 213-238.
BANGERT-DROWNS, R. L. et al. (1991b). Effects of frequent classroom testing.
Journal of Educational Research, 85: 89-99.
BETHELL, G. (2010). Student Assessment: Policy & Practice in Eastern Europe.
Peterson, Baker y McGaw, 2010, Vol. 3, pp. 472-478.
BLACK, PAUL (1993). Formative and summative assessment by teachers. Studies
in Science Education, 21: 49-97.
BLACK, PAUL y D. WILIAM (2009). Developing a theory of formative assessment,
Educational Assessment, Evaluation and Accountability (in press).
122
BLACK, PAUL y D. WILIAM (2005). Changing Teaching through Formative
Assessment: Research and Practice. En CERI, 2005: 223-240.
BLACK, PAUL y D. WILIAM (2004) The formative purpose: Assessment must first
promote learning. En Wilson, 2004: 20-50.
BLACK, PAUL y D. WILIAM (1998). Assessment and classroom learning.
Assessment in Education. Vol. 5, pp. 7-74.
BLOOM, BENJAMIN S. (1984a). The search for methods of group instruction as
effective as one-to-one tutoring. Educational Leadership, 41(8): 4-17.
BLOOM, BENJAMIN S. (1984b). The 2-sigma problem: The search for methods of
group instruction as effective as one-to-one tutoring. Educational
Researcher, 13(6): 4-16.
BLOOM, BENJAMIN S. (1968). Learning for Mastery. Evaluation Comment, 1 (2).
UCLA-CSEIP.
BLOOM, BENJAMIN S., J. T. HASTINGS, G. F. MADAUS et al. (1971). Handbook
on Formative and Summative Evaluation of Student Learning. New York.
McGraw-Hill.
BONILLA, M. y LÓPEZ, A. (2005). ¿Las concepciones de evaluación de los
docentes están relacionadas con epistemología y aprendizaje? VIII CNIE.
BRAUN HENRY I. (2005). Using Student Progress to Evaluate Teachers: A Primer
on Value-Added Models. Princeton, ETS. Policy Information Perspective.
BROOKHART, SUSAN M. (2009). Editorial. Educational Measurement: Issues and
Practice. Vol. 28, N° 1, pp. 1-2.
BROOKHART, SUSAN M. (2007). Expanding Views About Formative Classroom
Assessment: A Review of the Literature. En McMillan, 2007: 43-62.
Educational Measurement: Issues and Practice. Vol. 28, N° 1, pp. 1-2.
BROOKHART, SUSAN M. (2005). Research on formative classroom assessment:
State-of-the-Art. Ponencia en la Conferencia Annual de la AERA. Montreal.
123
BROOKHART, SUSAN M. (1997). A theoretical framework for the role of
classroom assessment in motivating student effort and achievement.
Applied Measurement in Education. Vol. 10, pp. 161-180.
BUCHANAN, T. (2000). The efficacy of a World-Wide Web mediated formative
assessment. Journal of Computer Assisted Learning. Vol. 16: 193-200.
CÁMARA, GABRIEL, coord. (1981). Documento Base. Evaluación de la Cobertura
y Calidad de la Educación. Documentos Base. Congreso Nacional de
Investigación Educativa. Volumen II. México, autor, pp. 315-343.
CARDINET, J. (1983). Quelques directions de progrès possibles pour
l’appréciation du travail des élèves. Mesure et évaluation en éducation, Vol.
6 (5) : 5-35.
CARLESS, D. (2010). Classroom Assessment in Policy Context (Hong Kong). En
Peterson, Baker y McGaw, 2010: Vol. 3, pp. 438-442.
CARRIÓN CARRANZA, CARMEN et al. (1993). Evaluación de la Educación.
Cuaderno 17. Estados del Conocimiento. La Investigación Educativa en los
Ochenta. Perspectiva para los Noventa. México, COMIE y SNTE.
CARRIÓN CARRANZA, CARMEN et al. (1995). Evaluación de la Educación. En
Díaz Barriga, Ángel, coord. Procesos curriculares, institucionales y
organizacionales. México, COMIE, pp. 293-369.
CAZABON, B. (1991). L’évaluation formative de la communication: l’intégration des
composantes. Mesure et évaluation en éducation, Vol. 14 (3): 5-21.
CENTRE FOR EDUCATIONAL RESEARCH AND INNOVATION (2005). Formative
assessment. Improving learning in secondary classrooms. Paris. OECD.
CIZEK, GREGORY y H. L. ANDRADE, eds. (2010). Handbook of Formative
Assessment. New York, Routledge.
CROOKS, T. J. (2010). Classroom Assessment in Policy Context (New Zeland).
Peterson, Baker y McGaw, 2010: Vol. 3, pp. 443-448.
124
CROOKS, T. J. (1988). The impact of classroom evaluation practices on students.
Review of Educational Research. Vol. 58, pp. 438-481.
CRUZ, I., M. L. CRISPÍN y H. ÁVILA (1999). La evaluación formativa: estrategia
para promover el cambio y mejorar la docencia. V CNIE.
CUMMING, J. J. (2010). Classroom Assessment in Policy Context (Australia). En
Peterson, Baker y McGaw, 2010: Vol. 3, pp. 417-424.
DASSA, CLEMENT (1988). L’intégration du diagnostique pédagogique aux
apprentissages scolaires : de la théorie a la voie informatique. Mesure et
évaluation en éducation, Vol. 11 (1) : 7-26.
DASSA, C. y J. VAZQUEZ-ABAD (1992). De l’évaluation informatisée a
l’intervention pédagogique. Mesure et évaluation en éducation, Vol. 15 (3):
17-24.
DAVIES, A. (2007), Involving Students in the Classroom Assessment Process. En
Reeves, 2007: 31-57.
DÍAZ BARRIGA, ÁNGEL et al. (2010). Reforma Integral de la Educación Básica
2009. Diplomado para Docentes de Primaria. Módulo 3: Evaluación para el
aprendizaje en el aula. México, SEP.
DUNN, KAREE E. y SEAN W. MULVENON (2009). A Critical Review of Research
on Formative Assessment: The Limited Scientific Evidence of the Impact of
Formative Assessment in Education. Practical Assessment Research and
Evaluation. Vol. 14 (7), pp. 1-11.
ESTÉVEZ N. ETTY HAYDEÉ y L. DE GUNTHER D. (2003). Parte II. Cognición y
Educación 1991-2001. En Sánchez E., Pedro, coord. (2003). Aprendizaje y
desarrollo. La Investigación Educativa en México 1992-2002, Volumen 4.
México, COMIE-SEP-CESU, pp. 87-187.
FERNÁNDEZ LOMELÍN, A. (1999). La evaluación como estrategia metacognitiva
para el aprendizaje. V CNIE.
125
GADBOIS, L., R. BURELLE, C. PARENT y S. P. SEGUIN (1991). Un instrument
de mesure des croyances et attitudes des enseignants à I’ égard des
pratiques d’évaluation formative des apprentissages de leurs élèves.
Mesure et évaluation en éducation, Vol. 14 (2): 5-24.
GAGNE, F. y M. THOUIN (1991). L’évaluation formative des apprentissages en
orthographe et attitude des élèves á l’égard de I’ évaluation. Mesure et
évaluation en éducation, Vol. 14 (1): 5-15.
GLAZERMAN, STEVEN et al. (2010). Evaluating Teachers: The Important Role of
Value Added. Washington. Brown Center on Education Policy at Brookings.
GOLDSTEIN, HARVEY (1999). Rank Injustice. Parliamentary Brief Education
Supplement, March, pp. 13-14.
GOLDSTEIN, HARVEY y DAVID J. SPIEGELHALTER (1996). League tables and
their limitations: statistical issues in comparisons of institutional
performance. Journal of the Royal Statistical Society A 159-3, pp. 385-443.
GUSKEY, THOMAS R. (2010). Formative Assessment: The Contributions of B.
Bloom. En Cizek y Andrade, 2010: 106-124.
GUSKEY, THOMAS R. (2007). Formative Classroom Assessment and Benjamin
S. Bloom: Theory, Research and Practice. En McMillan, 2007: 63-78.
GUZMÁN, JESÚS CARLOS, et al. (2003). Capítulo 5. La evaluación curricular en
la década de los noventa. En Díaz Barriga, Ángel, coord. (2003). La
investigación curricular en México. La década de los noventa. La
Investigación Educativa en México 1992-2002, Volumen 5. México, COMIE-
SEP-CESU, pp. 207-257.
HAMILTON, LAURA S., B. M. STECHER y S. P. KLEIN Eds. (2002). Making
Sense of Test-Based Accountability in Education. Santa Monica, CA. Rand.
HATTIE, J. (1992). Measuring the effects of schooling. Australian Journal of
Education. Vol. 36 (1): 5-13.
126
HATTIE, J. y H. TIMPERLEY (2007). The power of feedback. Review of Education
Research. Vol. 77 (1): 81-112.
HENLY, D. C. (2003). Use of Web-based formative assessment to support student
learning in a metabolism/nutrition unit. European Journal of Dental
Education. Vol. 7: 116-122.
HOWIE, S. J., L. ZIMMERMAN y K. DRAPER. (2010). Classroom Assessment in
Policy Context (Sub-Saharan Africa). En Peterson, Baker y McGaw, 2010:
Vol. 3, pp. 449-456.
HUBERMAN, M., P. A. JUGE y P. A. HARI (1985). La pédagogie de maitrise: une
évaluation instructive au niveau gymnasial. Mesure et évaluation en
éducation, Vol. 8 (3): 43-81.
KLUGER, A. N. y A. DENISI (1996). The effects of feedback interventions on
performance: a historical review, a meta-analysis, and a preliminary
feedback intervention theory. Psychological Bulletin. Vol. 119: 254-284.
KULIK, C. C., J. A. KULIK y R. L. BANGERT-DROWNS (1990). Effectiveness of
mastery learning programs : A meta-analysis. Review of Educational
Research. Vol. 60 (2) : 265-299.
LAVEAULT, D. (2010). Classroom Assessment Policy Context (French Sources).
Peterson, Baker y McGaw, 2010: Vol. 3, pp. 432-437.
LECKIE, GEORGE y HARVEY GOLDSTEIN (2009). The limitations of using
school league tables to inform school choice. Journal of the Royal Statistical
Society A 172, pp. 835-851.
LÓPEZ, Á. (2003). Sistemas de análisis categorial para las concepciones de
aprendizaje y evaluación. VII CNIE.
MARSHALL, B. (2010). Formative Assessment and Instructional Planning. En
Peterson, Baker y McGaw, 2010: Vol. 3, pp. 365-368.
MARTÍNEZ A., ROSARIO (2009). Uso, aplicaciones y problemas de los modelos
de valor añadido en educación. Revista de Educación, N° 348: 217-250.
127
MARTÍNEZ RODRÍGUEZ, FÉLIX FCO. et al. (1993). Evaluación del aprendizaje.
Cuaderno 8. Estados del Conocimento. La Investigación Educativa en los
Ochenta. Perspectiva para los Noventa. México, COMIE y SNTE.
MARTÍNEZ RODRÍGUEZ, FÉLIX FCO. et al. (1995). Evaluación del aprendizaje.
En Rueda, Mario, coord. Procesos de enseñanza y aprendizaje I. México,
COMIE y Universidad Veracruzana, pp. 195-260.
MARZANO, R. (2007). Designing a Comprehensive Approach to Classroom
Assessment, en Reeves, 2007: 103-125
McCAFFREY, DANIEL F. et al. (2003). Evaluating Value-Added Models for
Teacher Accountability. Santa Monica, Rand Co.
McMILLAN, JAMES H. (2010). The practical implications of educational aims and
contexts for formative assessment. En Cizek y Andrade, 2010: 41-58.
McMILLAN, JAMES H. Ed. (2007). Formative Classroom Assessment : Theory into
Practice. New York. Teachers College Press.
McMILLAN, JAMES H. (2007). Formative Classroom Assessment: The Key to
Improving Student Achievement. En McMillan, 2007: pp. 1-7
MEISELS, S. et al. (2003). Creating a system of accountability: The impact of
instructional assessment on elementary children’s achievement scores.
Educational Policy Analysis Archives. Vol. 11 (9).
MONTREAL R., J. L. (2003). Formas en que los alumnos de 6° de educación
primaria perciben las prácticas evaluativas de sus maestros. VII CNIE.
MOTTIER LOPEZ, LUCIE (2010). Evaluación formativa de los aprendizajes.
Síntesis crítica de los trabajos francófonos. En Anijovich, 2010: 43-71.
NATRIELLO, G. (1987). The impact of evaluation processes on students.
Educational Psychologist. Vol. 22, pp. 155-175.
PERRENOUD, PHILIPPE (1998). From Formative Evaluation to Controlled
Regulation of Learning Processes. Towards a Wider Conceptual Field.
Assessment in Education, Vol. 5, No. 1
128
PERRENOUD, PHILIPPE. (1991). Pour une approche pragmatique de l’évaluation
formative. Mesure et évaluation en éducation, Vol. 13 (4): 49-81.
POPHAM, W. JAMES (2008). Transformative Assessment. Alexandria. Association
for Supervision and Curriculum Development.
POULIN, BENOIT (1978). Historique de l’Association. Mesure et évaluation en
éducation, Vol. 1 (1) : 4-5.
RAUDENBUSH, STEPHEN W. (2008). Advancing Educational Policy by
Advancing Research on Instruction. American Educational Research
Journal. Vol. 45 (1): 206-230.
REEVES, DOUGLAS, ed. (2007). Ahead of the Curve. The Power of Assessment
to Transform Teaching and Learning. Bloomington, Solution Tree Press.
RESNICK, L. B., D. WILIAM, R. APODACA y E. S. RANGEL (2010). The
Relationship between Assessment and the Organization and Practice of
Teaching. En Peterson, Baker y McGaw, 2010, Vol. 3: 397-402.
RICHARD, J. F., P. GODBOUT y Y. PICARD (2000). La validation d’une procédure
d’évaluation formative en jeux et sports collectifs. Mesure et évaluation en
éducation, Vol. 23 (1): 43-67.
RODRÍGUEZ, M. C. (2004). The role of classroom assessment in pupil
performance in TIMSS. Applied Measurement in Education. Vol. 17(1): 1-24.
ROTHSTEIN, J. (2011). Review of “Learning About Teaching: Initial Findings from
the Measures of Effective Teaching Project.” Boulder, National Education
Policy Center.
RUIZ-PRIMO, M. A. et al. (2010). Formative assessment, motivation and science
learning. En Cizek y Andrade, 2010: 139-158.
RUIZ-PRIMO, M. A. y E. M. FURTAK (2006). Informal formative assessment and
scientific inquiry: Exploring teachers’ practices and student learning.
Educational Assessment. Vol. 11 (3-4): 205-235.
129
RUSSELL, MICHAEL K. (2010). Technology-Aided Formative Assessment of
Learning: New Developments & Applications. En Cizek y Andrade, 2010:
125-138.
SADLER, D. ROYCE (1998). Formative Assessment: Revisiting the Territory.
Assessment in Education: Principles, Policy & Practice, Vol. 5 (1): 77-84.
SADLER, D. ROYCE (1989). Formative assessment and the design of instructional
systems. Instructional Science. Vol. 18, pp. 119-144.
SCALLON, G. (1985). La participation des élèves au diagnostic pédagogique:
exploration avec des élèves de 4e secondaire en mathématiques. Mesure et
évaluation en éducation, Vol. 8 (1-2) : 5-44.
SCALLON, G. (1989). Plaidoyer pour une méthodologie instrumentée d’évaluation
formative. Mesure et évaluation en éducation, Vol. 11 (1): 43-55.
SCHENEIDER, M. C. y RANDEL, B. (2010) Research on characteristics of
effective professional development programs for enhancing educators’ skills
in formative assessment. En Cizek y Andrade, 2010: 251-276.
SCRIVEN, MICHAEL (1967). The Methodology of Evaluation. En R. W. Tyler, R.
M. Gagne y M. Scriven (Eds.). Perspectives of Curriculum Evaluation.
Chicago. Rand McNally.
SHEPARD, LORRIE A. (2006). Classroom Assessment. En Robert L. Brennan, ed.
Educational Measurement. 4th Ed. Westport, CT. Praeger, pp. 623-646.
SLY, L. (1999). Practice tests as formative assessment improve student
performance on computer managed learning assessments. Assessment and
Evaluation in Higher Education. Vol. 24 (3): 339-343.
SMITH, EMMA Y S. GORARD (2005). “They dont’t give us our marks”: the role of
formative feedback in student progress. Assesment in Education: principles,
policy & practice. Vol. 12 (1): 21-38.
STIGGINS, RICHARD J. (2008). Assessment Manifesto: A Call for the
Development of Balanced Assessment Systems. Portland. ETS-ATI.
130
STIGGINS, RICHARD J. (2007). Conquering the Formative Assessment Frontier.
En McMillan, 2007: pp. 8-27.
STIGGINS, RICHARD J. (2001). Unfulfilled Promise of Classroom Assessment.
Educational Measurement: Issues & Practice. Vol. 20 (3): 5-15.
STIGGINS, RICHARD J. y J. ARTER, (2002). Assessment for Learning,
International Perspectives. The Proceedings of an International Conference
(International Conference on Assessment for Learning, Chester, 2001).
Paper presented at the Annual Meeting of the National Council on
Educational Measurement, New Orleans, April 2002.
STOBART, GORDON (2005). Lost in translation: moving from principles to policy
to practice formative assessment. Assessment in Education. Vol. 12 (1): 3-5.
THOMPSON, M. et al. (2004). Study of the California formative assessment and
support system for teachers: Relationship of BTSA/CFASST and student
achievement. Princeton, Educational Testing Service.
THOUIN, M. (1993). L’évaluation des apprentissages en mathématiques: une
perspective constructiviste. Mesure et évaluation en éducation, Vol. 16 (1-
2): 47-64.
THOUIN, M. (1995). Le développement d’instruments de mesure des
apprentissages en sciences de la nature au primaire. Mesure et évaluation
en éducation, Vol. 18 (1): 95-124.
TICAL (2009). Position Paper on Assessment for Learning from the Third
International Conference on Assessment for Learning. Dunedin, New
Zeland, March. En Wiley. Editorial, Appendix. Educational Measurement:
Issues and Practice. Vol. 23 (3): 1-4.
TOPPING, KEITH J. (2010). Peers as a Source of Formative Assessment. En
Cizek y Andrade, 2010: 61-74.
TORRANCE, HARRY y J. PRYOR (1995). Investigating Teaching Assessment in
Infant Classrooms: methodological problems and emerging issues.
Assessment in Education, Vol. 2 N° 3, pp. 305- 320.
131
VACHON, JEAN (1978). Staneuf standardisés et staneufs noramlisés. Mesure et
évaluation en éducation, Vol. 1 (1) : 19-24.
VAN NIEUWENHOVEN, C. y P. JONNAERT (1994). Une approche des
représentations des enseignants du primaire propos de l’évaluation. Mesure
el évaluation en éducation, Vol. 16 (3-4): 41-79.
VELAN, G. M. et al. (2002). Web-based self-assessments in Pathology with
Questionmark Perception. Pathology. Vol. 34: 282-284.
VIDALES DELGADO, ISAMAEL et al. (2005). Prácticas de evaluación escolar en
el nivel de educación primaria en el Estado de Nuevo León. CAEIP. México.
Santillana.
WALBERG, H. J. (1984). Improving the productivity of America’s schools.
Educational Leadership. Vol. 41 (8): 19-27.
WANG, T. H. (2007). What strategies are effective for formative assessment in an
e-learning environment ? Journal of Computer Assisted Learning. Vol. 23 :
171-186.
WEISS, J. (1984). Heurs et malheurs d’un instrument d’évaluation. Mesure et
évaluation en éducation, Vol. 7 (1) : 31-42.
WILIAM, DYLAN (2010). An Integrative Summary of the Research Literature and
Implications for a New Theory of Formative Assessment. En Cizek y
Andrade, 2010: 18-40.
WILIAM, D. et al. (2004). Teachers developing assessment for learning: Impact on
student achievement. Assessment in Education. Vol. 11: 49-65.
WILSON, MARK, ed. (2004). Towards coherence between classroom assessment
and accountability. 103rd Yearbook, Part 2. National Society for the Study of
Education. Chicago. University of Chicago Press.
WILSON, SUSAN. (2004) Student assessment as an opportunity to learn in and
from one’s teaching practice. En Wilson, 2004: 264-271
132
WININGER, R. S. (2005). Using your tests to teach: Formative summative
assessment. Teaching Psychology. Vol. 32 (2): 164-166.
ZORRILLA FIERRO, MARGARITA (2003). Parte I. Educación Básica. En Zorrilla
Fierro, Margarita y Lorenza Villa Lever, coord. Políticas Educativas.
Educación Básica. Educación Media Superior. La Investigación Educativa
en México 1992-2002, Volumen 9. México, COMIE-SEP-CESU, pp. 23-115.
133
CAPÍTULO TERCERO
IMPLICACIONES PARA LA IMPLEMENTACIÓN
134
135
Introducción
Los dos primeros capítulos de la obra han revisado la forma en que evolucionó la
evaluación del aprendizaje que realizan los maestros en las aulas de educación
básica. El Capítulo 1 cubrió la larga etapa del siglo XVI a nuestros días, desde las
formas derivadas del catecismo, hasta las evaluaciones marcadas por las pruebas
estandarizadas. El Capítulo 2 presentó los enfoques denominados de evaluación
formativa, desde que Scriven acuñó el término en 1967 hasta las versiones más
recientes, en el marco de las concepciones constructivistas de la educación.
El tercer capítulo retoma la idea del potencial que encierra la evaluación formativa
para la mejora del aprendizaje y, al mismo tiempo, la dificultad de implementarla
adecuadamente que muestran los trabajos empíricos al respecto. Después de
plantear la cuestión, se trata de entender las razones por las que no es sencillo
transformar en profundidad las prácticas de los maestros, a partir de un análisis de
los factores que influyen en el trabajo de los maestros, cuyo número y variedad
explican la dificultad mencionada. Luego se revisan esfuerzos de intervención
orientados precisamente a las prácticas de los maestros, analizando los rasgos
que explican su mayor o menor impacto
Se concluye que cambiar las prácticas de los maestros no es fácil porque influyen
en ellas muchos factores, profundamente arraigados y, en buena parte, fuera del
control del maestro. Por ello intervenciones cortas y superficiales no bastan para
conseguir cambios importantes: se necesitan trabajos largos y profundos, con
acompañamiento, comunidades de aprendizaje y apoyo institucional.
Una conclusión más es que, en su sentido más rico, las nociones de evaluación
formativa y enseñanza constructivista coinciden. Por ello no se podrá cambiar la
primera si no se modifica simultáneamente la segunda, lo que implica cambiar al
mismo tiempo concepciones y prácticas muy arraigadas. El lado positivo de esta
conclusión es que si se consigue que un maestro enseñe en forma congruente con
los principios constructivistas no tendrá dificultad para evaluar formativamente. Y
si se logra transformar las dos cosas el cambio educativo será profundo y sus
repercusiones en el aprendizaje saltarán a la vista..
136
1. Potencial de la evaluación formativa y dificultad de su implementación
Del capítulo anterior se desprende la conclusión de que la evaluación que se hace
en aulas y escuelas de los avances de los alumnos para alcanzar buenos niveles
de competencia es un componente importante de la enseñanza-aprendizaje. Y, sin
caer en interpretaciones excesivamente optimistas, que ignoren las limitaciones de
la evidencia disponible, se puede concluir también que si dicha evaluación adopta
el enfoque que buscan designar expresiones como formativa, para el aprendizaje
y similares, su impacto puede ser más positivo que con los enfoques habituales.
La literatura revisada muestra que la idea anterior es ampliamente compartida, y
que es congruente con las concepciones psicológicas y pedagógicas actuales,
marcadas por los avances de las ciencias cognoscitivas. También muestra, sin
embargo, que no es sencillo modificar realmente prácticas profundamente
arraigadas, sea que se basen en concepciones científicas anteriores, como las
teorías conductistas y neo-conductistas, sea que simplemente sigan formas
tradicionales de enseñar y verificar si los alumnos aprendieron lo enseñado.
La persistencia de las prácticas tradicionales de evaluación en el aula no debe
sorprender, por lo demás, si se considera que los esfuerzos por transformarlas no
han sido especialmente importantes ni sistemáticos. La atención y los recursos se
han concentrado más bien en las evaluaciones en gran escala, a las que se
dedican cantidades crecientes de recursos, mientras que las evaluaciones que
más influyen en el desempeño de los alumnos se descuidan casi por completo.
Esta es la experiencia en el sistema educativo mexicano y también en otros en los
que se podría esperar mayor avance en este terreno, al menos según la opinión
de Rick Stiggins, quien considera que:
El principal desafío que enfrentamos actualmente en las escuelas en lo
relativo a evaluación es asegurar que las prácticas sanas lleguen a cada
aula, que las evaluaciones se usen para beneficiar a los alumnos… Este
reto ha permanecido sin ser atendido por décadas y parece que ha llegado
el tiempo de conquistar esa última frontera de la evaluación: el uso efectivo
de evaluación formativa para apoyar el aprendizaje. (Stiggins, 2007: 10)
137
La formación inicial que recibieron los maestros que trabajan en las escuelas
mexicanas fue particularmente débil en lo que se refiere a evaluación, y las
actividades de actualización profesional que se ofrecen a los docentes en servicio
han descuidado también este aspecto, que sólo comienza a ser atendido, en
forma limitada, en épocas muy recientes.
Para entender por qué no bastan unas horas de actualización para transformar las
prácticas docentes hay que tener en cuenta el grado de arraigo de conductas que
se han hecho una y otra vez durante mucho tiempo. Debemos a Dylan Wiliam la
siguiente reflexión:
Un maestro o maestra con 20 años de experiencia debe haber formulado
alrededor de medio millón de preguntas a lo largo de su carrera. Cuando
uno ha hecho algo de cierta manera medio millón de veces es muy difícil
hacerlo de otra forma. (2007: 196)
Modificar prácticas de enseñanza y evaluación en aula no se refiere a conductas
que se llevan a cabo de vez en cuando, con tiempo para pensar con calma la
manera de actuar en cada caso; se trata de transformar conductas que se repiten
muchas veces al día, debiendo reaccionar en segundos a lo que se observa en el
grupo y en cuanto a cierto alumno. Esto es mucho más complicado que cambiar
solamente las ideas que se tienen sobre el tema.
Las aulas son lugares ruidosos. Los maestros deben tomar decisiones
rápidamente, con poco tiempo para reflexionar, y su atención es atraída en
múltiples direcciones, por todos y cada uno de los alumnos, por el director y
los demás maestros, por las políticas y mandatos locales y estatales.
(Wilson, 2004: 265)
La obra ya citada de la OCDE desarrolla las barreras que obstaculizan el cambio
de las prácticas de evaluación de los maestros. Señala que, además de problemas
logísticos (por ejemplo grupos muy numerosos), los docentes encuentran difícil
modificar sus prácticas porque implica cambiar muchas cosas, incluyendo la forma
de interactuar con los alumnos, de planear sus clases, la atención a las diferencias
de los alumnos y hasta la manera de concebir el éxito de estos. (CERI, 2005: 71)
138
El CERI destaca otro obstáculo a la extensión de la evaluación formativa:
La tensión entre la evaluación del aprendizaje de enfoque formativo que se
hace en el aula y la visibilidad de las pruebas sumativas, las evaluaciones
nacionales o regionales en gran escala que buscan responsabilizar a las
escuelas por alcanzar ciertos estándares y pueden tener consecuencias
para las de bajo rendimiento. Con demasiada frecuencia estas pruebas de
gran visibilidad determinan lo que sucede en las aulas… y con demasiada
frecuencia la información que se obtiene en el aula se considera irrelevante
para la definición de políticas… Muchos maestros, si es que no todos,
perciben esas evaluaciones externas como algo que está en conflicto o
incluso se opone a las prácticas de evaluación formativa. Pruebas externas
de baja calidad, ordenamientos de escuelas (league tables) difundidos en
los medios que usan un reducido conjunto de datos para comparar el
desempeño de las escuelas, y la desconexión entre pruebas y currículo
también pueden inhibir la innovación. (CERI, 2005: 24)
En otra reflexión sobre las dificultades que se enfrentan para extender las
prácticas de evaluación formativa, Sutton señala que cambiar las rutinas básicas
del aula mostró ser mucho más difícil de lo que los maestros esperaban, al grado
de que se preguntaban si la idea podría funcionar. Los directores también
comprendieron que se trataba de un juego de largo plazo, que requiere objetivos
claros, pasos pequeños, retroalimentación, práctica y perseverancia. (2010: 355)
El mismo autor señala que algunos maestros simplemente se sentían espantados
por las implicaciones que tendría para su carga de trabajo el dar retroalimentación
de buena calidad a todos sus alumnos, y que otros veían que sería inevitable
verse abrumados por las demandas de otros actores, como la exigencia de
calificaciones por los padres de familia y la competencia entre los alumnos por las
calificaciones para acceder a la universidad. Todo eso lleva a los maestros a decir:
Tenemos las manos atadas. Adoptar prácticas de evaluación formativa, por
muy deseable que sea, es imposible en términos pragmáticos. (Sutton,
2010: 356)
139
De modo similar, el Grupo para la Reforma de la Evaluación (Assessment Reform
Group) sistematiza los principales obstáculos que deben enfrentarse como sigue:
Las prácticas prevalecientes que prestan más atención a la calificación y la
asignación de los alumnos a niveles de desempeño que a retroalimentarlos
sobre la forma de mejorar;
La falta de conciencia que prevalece entre los maestros sobre las
necesidades de aprendizaje de los alumnos; y
El alto impacto de los resultados de las pruebas nacionales y estatales, que
animan a los maestros a centrar la atención en el contenido de las pruebas
y en preparar a los alumnos para ellas. (Según Harlen, 2007: 131)
Harlen cita también a Fullan, que dice que cambiar a los maestros es difícil, en
especial cuando se trata de transformaciones tan profundas como las que implica
la adopción de un enfoque formativo para la evaluación, y retoma de Black la
explicación de que modificar así las prácticas puede tener como consecuencia que
un maestro que tiene confianza en sí mismo se sienta incompetente, lo cual es
amenazante. Sin embargo Black añade que, después de trabajar durante bastante
tiempo con maestros que cambiaron sus creencias y sus prácticas, pudieron
observar que tanto maestros como alumnos experimentaban alegría y confianza a
medida que los primeros transferían a los segundos el control sobre su propio
aprendizaje. (Harlen, 2007: 132)
Tierney resume la problemática del cambio en cuestión diciendo que
Cambiar las prácticas de evaluación no es simplemente cuestión de
aumentar los conocimientos de los docentes sobre el tema por medio de
talleres de actualización, sino un proceso mucho más amplio, que exige una
transformación conceptual por parte de todos los involucrados. (2006: 259)
Unos autores señalan que, como el nivel de conocimiento que tienen en general
los maestros sobre temas de evaluación es limitado, para que sus prácticas de
evaluación cambien hay que ofrecerles capacitación, para que adquieran
elementos sobre los nuevos acercamientos al tema.
140
Citando trabajos de varios estudiosos, Green, Smith y Brown señalan que para
documentar fielmente el avance de los alumnos es necesario un sofisticado
conocimiento de las técnicas de evaluación, pero que la investigación muestra que
este aspecto de la formación de los educadores ha sido descuidado:
Los maestros dedican probablemente entre una tercera parte y la mitad de
su vida profesional a actividades asociadas con la evaluación, pero tienen
habilidades inadecuadas al respecto. Sólo la mitad de estados americanos
exigen formación en evaluación como requisito para la certificación de los
docentes y pocos programas de formación de maestros exigen que los
alumnos lleven un curso sobre evaluación, lo que trae como consecuencia
que los maestros se sientan mal preparados para responder a las
exigencias de la evaluación en el aula. (2007: 39)
Otros indican que para que las prácticas cambien no basta con que los profesores
reciban capacitación; hace falta que otros cambios apoyen la actualización.
Retomando el modelo utilizado en la implementación del enfoque de Evaluación
para el Aprendizaje en Hong-Kong, Carless propone un conjunto de factores,
agrupados en tres niveles, para lograr cambios en las prácticas de evaluación:
Nivel de los conocimientos y creencias de los maestros. Conocimiento de
los principios de la evaluación formativa. Congruencia entre valores y
creencias de los profesores y los principios de la evaluación formativa.
Nivel de la escuela (micro). Cambios en los usos de la evaluación y en la
cultura evaluativa; apoyos a profesores, adecuación de aulas, etc. Cambios
en la percepción de las funciones y usos de la evaluación por parte de los
padres de familia. Apoyo a los maestros por parte de las instancias
responsables del currículo.
Nivel del sistema educativo (macro). Existencia de grupos en que los
profesores discutan sus prácticas. Clima de reforma curricular. Iniciativas de
cambio por parte de las instancias pertinentes. Políticas educativas
congruentes con la evaluación formativa (Carless, 2005).
141
La coincidencia de las opiniones en el sentido de que las prácticas de evaluación
formativa están poco presentes en las aulas, pese a que en general se considera
que su uso trae consigo grandes beneficios hace obligado preguntarse por las
razones de esta aparente paradoja. Explorando este tema, otro investigador
plantea lo siguiente:
Las experiencias en evaluación de los maestros consistieron básicamente
en varias formas de enfoque sumativo. Como alumnos en primaria y
secundaria aprendieron que la prioridad era sacar altas puntuaciones en
pruebas externas… Es difícil abandonar esos valores si el maestro se ve
bombardeado constantemente en los medios y por los padres de familia
sobre la necesidad de que sus alumnos consigan otro tanto.
Los directores presionan a los maestros para que se concentren en
alcanzar altos resultados académicos en sus grupos… En algunos países,
como los Estados Unidos… los que no lo consigan enfrentan
consecuencias muy serias, incluyendo el retiro de fondos clave para la
escuela o, en algunos casos, incluso el cierre de ésta.
Las pruebas son hoy extremadamente destacadas en muchos países…
penetran todos los aspectos de la vida social, empresarial y política…
Aunque la intención de tales legislaciones… pueda parecer admirable,
muchos educadores consideran que su impacto sobre alumnos y maestros
es desastroso…
Muchos sistemas dan premios a alumnos de alto desempeño, que casi sin
excepción se conceden con base en resultados en evaluaciones sumativas.
Muchas culturas elogian a los alumnos que alcanzan un resultado o nivel,
pero dan poco reconocimiento a los procesos que implica conseguirlo… Lo
mismo puede decirse de los documentos curriculares que utilizan los
maestros… aunque en ellos se presta algo de atención a los procesos de
aprendizaje, el foco principal se pone sobre los conocimientos y habilidades
medidos por exámenes sumativos. (Marsh, 2007: 27-28)
142
2. Factores que influyen en la implementación de la evaluación formativa
La dificultad para poner en práctica en las aulas los principios de la evaluación
formativa parece deberse, pues, a la influencia sobre las prácticas de factores de
diferente peso y antigüedad, que individualmente podrían considerarse menores,
pero en conjunto conforman un entramado que se ha mostrado muy difícil de
desmontar, y que se trata de describir mediante la gráfica siguiente:
Características personales
Experiencia escolar temprana
Formación inicial y en servicio, experiencia
EXEXPERIE
2.3 VARIABLES
INTERVINIENTES
DE LOS
ALUMNOS
2.4 VARIABLES
INTERVINIENTES
DE LA
ESCUELA
Y EL
AULA
PRÁCTICAS
DE ENSEÑANZA
Y EVALUACIÓN
2.1 VARIABLES REMOTAS
CARACTERÍSTICAS DE LOS MAESTROS
2.2 VARIABLES INTERMEDIAS
CONOCIMIENTOS, CONCEPCIONES Y PERCEPCIONES DE LOS MAESTROS
Sobre sí
mismos
Sobre las
materias
Sobre la
enseñanza
Sobre la
evaluación
Sobre los
alumnos
143
La gráfica muestra cuatro bloques de variables que influyen de manera directa o
indirecta sobre las prácticas de enseñanza y de evaluación de los maestros.
La influencia más directa sobre las variables que se quiere explicar (las prácticas
de enseñanza-evaluación) es la que proviene del segundo bloque (conocimientos,
concepciones y percepciones de los docentes), pero esta relación se ve afectada
por las variables intervinientes de los alumnos, así como por las de la escuela y el
aula. A su vez, las variables del segundo bloque están determinadas por factores
anteriores, que se agrupan en el primer bloque: características personales,
experiencia escolar temprana y formación inicial y en servicio de los maestros.
Los coeficientes de regresión que asocian las variables del primer bloque con las
prácticas docentes suelen ser menores que los de las variables del segundo
bloque, debido simplemente a su posición más distante respecto a las prácticas
docentes; esto no significa que su importancia sea menor sino sólo que no es
directa sino mediada por otras. Además es particularmente difícil modificar esos
aspectos, precisamente porque se deben a experiencias antiguas y, muchas
veces, muy prolongadas. En los siguientes puntos se desarrolla el contenido de
cada uno de esos grupos de variables.
2.1. Variables de los maestros.
Características personales: edad, sexo, estado civil, extracción social y
habilidades cognitivas.
Las investigaciones sobre las prácticas de evaluación de los maestros no suelen
considerar expresamente las variables de este grupo, pero sí son consideradas en
las investigaciones sobre maestros en general, en particular en las que exploran la
posible relación entre ciertas características de los docentes y los resultados de
sus alumnos; sin embargo, los resultados en general han sido poco consistentes.
No parece haber relación sistemática entre variables como edad, sexo o estado
civil de los maestros y el desempeño de sus alumnos, aunque hay tendencias en
el sentido de que algunos rasgos se asocian con cierto tipo de trabajos, como el
sexo femenino con la enseñanza en educación preescolar.
144
Linda Darling-Hammond señala que desde la década de 1940 algunos estudios
encontraron correlaciones positivas entre el desempeño de los maestros y
medidas de su inteligencia o su habilidad académica, pero en general pequeñas y
no significativas estadísticamente. La misma autora señala que se encontraron
relaciones más fuertes con la habilidad verbal, y que se hipotiza que eso puede
deberse a que esta última puede ser una medida más sensible de la capacidad de
los maestros para transmitir ideas en forma clara y convincente. (1999: 6)
En el mismo sentido apuntan otros hallazgos: variables sobre el nivel de habilidad
intelectual de los maestros (por ejemplo de competencia lectora o matemática o su
desempeño en pruebas de acceso a la universidad) se asocian positivamente con
los resultados de los alumnos, pero los resultados tampoco son consistentes.
(Wayne y Youngs, 2003: 97-100)
Experiencia escolar temprana: la que cada maestro vivió a su paso por
la escuela, el tipo de enseñanza que practicaron los maestros que tuvo
y, en especial, las evaluaciones a las que fue sometido.
Con respecto al segundo conjunto de variables de este bloque, en un trabajo ya
citado Dylan Wiliam, después de comentar lo difícil que es que alguien comience a
hacer de manera distinta algo que ha hecho de cierta forma medio millón de
veces, se refiere al peso de la experiencia escolar temprana de los maestros sobre
su futura práctica profesional en los siguientes términos:
Pero hay una razón más profunda por la que el cambio resulta difícil, aún
para maestros sin experiencia. Los maestros aprenden la mayor parte de lo
que saben sobre la enseñanza antes de llegar a los 18 años de edad. Así
como la mayoría de nosotros aprendemos lo que sabemos sobre cómo ser
padres de familia por la experiencia con los nuestros, así también los
maestros han interiorizado los “guiones” de lo que se hace en la escuela a
partir de su experiencia como alumnos. El mejor programa de licenciatura
en educación básica encontrará difícil sobreponerse a los modelos de
práctica que sus alumnos, los futuros docentes, aprendieron en los 13 o 14
años que pasaron en la escuela.(Wiliam, 2007: 196)
145
No se encontraron resultados precisos de estudios sobre la posible influencia en el
desempeño de los maestros de esas experiencias tempranas, pero no debería
sorprender que las relaciones que aparecieran fueran también débiles y poco
consistentes ya que, al igual que las características personales de los docentes,
se trata también de variables muy distantes de las prácticas. Por ello su influencia
sobre otras variables que ocupan posiciones más cercanas a las prácticas puede
ser importante y no se deben de perder de vista, recordando también que se trata
de elementos particularmente difíciles de modificar.
Formación inicial y en servicio, experiencia docente: duración de la
formación, tipo de institución y programa en que se realizó; número de
las actividades de actualización profesional que ha llevado, duración de
las mismas; años de servicio.
La práctica de los maestros también se puede ver influenciada por la formación
que recibieron cuando se preparaban para el trabajo profesional, así como por el
mismo ejercicio de la profesión.
En este punto se considerarán sólo aspectos formales como la duración de la
formación inicial, la de las actividades de actualización y la antigüedad en el
ejercicio profesional, dejando fuera aspectos como el enfoque del programa
vigente cuando el maestro se preparaba para su trabajo, lo establecido en el
currículo y lo realmente cubierto con más o menos profundidad, la proporción de
formación teórica y práctica, la de conocimientos a enseñar y la de elementos
pedagógicos, etc.
Obviamente el enfoque y la calidad de todos estos aspectos es muy importante,
pero los estudios no suelen captarlos. Por ello en el siguiente bloque se tratará lo
relativo a conocimientos, concepciones y percepciones de los maestros, cuya
influencia sobre las prácticas es muy directa, con independencia de si se deben a
la formación inicial recibida, a las actividades de actualización, o bien al esfuerzo
autodidacta de los docentes, a su interacción con otros colegas, o a sus
experiencias tempranas.
146
Según Wayne y Youngs los estudios antiguos sobre la influencia de la formación
de los docentes en su desempeño posterior no dieron resultados concluyentes,
pero tampoco lo consiguen otros más recientes en relación con áreas curriculares
como lectura, escritura e incluso ciencias naturales. Los pocos resultados
consistentes se refieren a matemáticas y a maestros de enseñanza media; en este
caso el hecho de haber llevado más cursos especializados de matemáticas
durante la formación sí parece asociarse consistentemente con mejores resultados
de los alumnos. (Wayne y Youngs, 2003: 101-103). Sin embargo, estos autores
reportan que algunos estudios sí encuentran una relación positiva entre la calidad
del programa en el que se formó un maestro y los resultados de sus estudiantes
(2003: 95-96).
Según Darling-Hammond,
De las variables sobre la calificación de los maestros, la relación más fuerte
se encontró con los exámenes para dar la licencia para enseñar, que miden
tanto habilidades básicas como conocimientos para la docencia… Si se
controlan las características de los alumnos, la relación entre la calificación
de los maestros y el desempeño de los alumnos es aún más fuerte. Un
estudio de escuelas de alto y bajo rendimiento de Nueva York, con alumnos
similares demográficamente, encontró que la diferencia en la calificación de
los maestros (grados en educación, estatus de certificación y experiencia)
explicaban aproximadamente el 90% de la varianza total en el desempeño
de los alumnos, en el nivel de la escuela, en lectura y matemáticas, en
todos los grados estudiados. (Darling-Hammond, 1999: 12-13)
Por lo que se refiere a la experiencia docente, la misma investigadora señala:
Otros estudios… han encontrado relación entre la eficacia del profesor y
sus años de experiencia, pero no siempre significativa ni lineal. Si bien
muchos estudios han establecido que los maestros sin experiencia (menos
de tres años) son típicamente menos efectivos que maestros con más
antigüedad, los beneficios de la experiencia parecen plafonar después de
unos cinco años… (Darling-Hammond, 1999: 9-10)
147
Por lo que se refiere a los cursos de actualización, Wiliam afirma lo siguiente:
Si bien la inversión en actividades de actualización profesional para
maestros ha sido durante muchos años un rasgo del panorama educativo,
la evidencia de que producen alguna diferencia en el desempeño de los
alumnos es deprimentemente escasa. “Nada ha prometido tanto y ha sido
un desperdicio tan frustrante como los miles de talleres y conferencias que
no produjeron cambios significativos en la práctica una vez que los
maestros regresaron a sus aulas (Fullan)”. (Wiliam, 2007: 187)
En el sistema educativo mexicano no se cuenta con información suficiente para
analizar el desempeño de los egresados de diferentes instituciones o programas
que preparan maestros para educación básica.
Sabemos que entre los docentes de primarias públicas casi todos cuentan ya con
licenciatura, pero también que hay sectores del sistema en los que hay muchos
docentes con niveles de preparación inferiores, como en las primarias
comunitarias del CONAFE y algunas telesecundarias. Es relevante señalar
también que, en general, el nivel de los alumnos de programas de formación de
maestros de educación básica suele ser inferior al de los estudiantes de otros
programas de nivel universitario.
También se sabe que año con año se ofrece a los maestros en servicio una gran
cantidad de cursos de actualización, incluyendo los que obligatoriamente deben
llevar todos los maestros durante tres días, en la semana que precede al inicio del
ciclo escolar. Se sabe también que sólo una fracción de los maestros acreditan los
cursos no obligatorios, y hay fundamento para afirmar que, en muchos casos, la
calidad de dicha oferta es muy baja.
2.2. Conocimientos, concepciones y percepciones de los maestros.
Por su ubicación más lejana respecto a la práctica, como se ha dicho, las variables
de los tres grupos del bloque anterior, que se acaba de revisar, influyen en forma
directa sobre los conocimientos, concepciones y percepciones de los maestros,
que forman el segundo bloque; la influencia de estos elementos sobre las
prácticas de los maestros, en cambio, es más directa, como veremos en seguida.
148
Un rasgo en que se aprecia el cambio de los enfoques conductistas prevalecientes
en la investigación educativa hasta la década de 1960 y enfoques más recientes,
derivados de la revolución cognitiva, es precisamente el que se preste atención no
sólo a las conductas de los sujetos estudiados, sino también a aspectos menos
directamente observables, como son las concepciones y las creencias.
Al tratar de las creencias de los maestros, Campbell retoma de Thompson la
definición de los sistemas de creencias como:
estructuras mentales dinámicas y permeables, susceptibles de cambio a la
luz de la experiencia. La relación entre creencias y prácticas no es simple ni
unidireccional de las primeras a las segundas, sino una relación dinámica y
bidireccional, en la que las creencias se ven influenciadas también por la
experiencia práctica. (Campbell et al., 2004: 50)
Campbell cita un estudio de Muijs y Reynolds que utilizó un cuestionario para
explorar las creencias de los maestros. Señala que el estudio no encontró una
relación directa entre las creencias de los maestros y los resultados de sus
alumnos, pero añade que se hizo un análisis adicional para poner a prueba un
modelo de proximidad, según el cual se plantea la hipótesis de que:
los factores más cercanos a la experiencia de los alumnos (por ejemplo las
conductas del maestro) afectan los resultados con más fuerza que los
factores que están menos directamente relacionados con la experiencia de
los alumnos (por ejemplo las creencias de los maestros). (En Campbell et
al., 2004: 52)
Siempre según Campbell et al., los resultados del análisis mostraron en efecto que
los maestros que tienen cierto tipo de creencias tienen más probabilidad de poner
en práctica ciertas conductas, en particular ciertas formas de enseñanza que, a su
vez, resultan asociarse con resultados distintos de los alumnos, esto es que son
más o menos efectivas. (2004: 52)
Las concepciones y creencias de los maestros se pueden referir a varios objetos:
a sí mismos, a las materias que enseñan, a la enseñanza misma, a la evaluación y
a los alumnos.
149
Sobre sí mismos: autopercepción y autoestima del maestro en general,
pero además la manera en que concibe su función docente y, muy
especialmente, su función evaluadora.
Aunque no se cuente con estudios que analicen específicamente estos aspectos,
parece razonable esperar un mejor desempeño de un maestro que se vea a sí
mismo como un profesional y tenga confianza en sí mismo; que considere que su
profesión es digna y atractiva y no la única opción que tuvo a su alcance para
buscar cierta movilidad social; y que conciba su función como docente y como
evaluador como una tarea cuyo fin último es el bien de sus alumnos.
Sobre las materias: concepción del lenguaje, las matemáticas, las
ciencias de la naturaleza y demás áreas curriculares que tenga el
maestro, así como a la valoración que tenga de ellas, su interés,
desinterés o eventual rechazo de algunas, etc.
Lógicamente será difícil que un docente consiga que sus alumnos desarrollen el
hábito de la lectura si él o ella no lo tienen; o que consiga buenos resultados en
matemáticas o ciencias si son alérgicos a los números o tienen una concepción
precientífica del mundo. Sin embargo, los estudios no muestran una relación tan
clara como se esperaría entre los conocimientos del maestro y su práctica.
El conocimiento de la materia es otra variable que se podría pensar se
relaciona con la eficacia del docente. Aunque esta suposición encuentra
algún respaldo, los hallazgos no son tan fuertes y consistentes como uno
podría suponer… La mayoría de los estudios muestra relaciones pequeñas,
no significativas estadísticamente, y tanto positivas como negativas… Los
estudios han mostrado una influencia un poco más fuerte y consistente de
los cursos de contenido pedagógico sobre la efectividad de los docentes.
(Darling-Hammond, 1999: 6-8)
Se ha señalado ya que parece haber una relación más fuerte con el rendimiento
de los alumnos de los conocimientos de su maestro en el caso de matemáticas, y
trabajos recientes muestran también una influencia significativa del conocimiento
que tiene el maestro de las matemáticas, pero no de sus conocimientos “puros”
150
sino muy concretamente de su dominio de lo que Hill, Rowan y Ball (2005) llaman
“conocimiento de las matemáticas para la enseñanza” (Mathematics Knowledge
for Teaching, MKT). (Cfr. Wiliam, 2007: 186)
Sobre la enseñanza: incluyendo tanto las ideas teóricas, más o menos
consistentes, sobre los diferentes enfoques de la enseñanza, como las
concepciones prácticas que el maestro tenga respecto a lo que es viable
o no en las condiciones concretas en que trabaja, lo que funciona, etc.
Sobre la evaluación: ideas del maestro sobre el papel de la evaluación
en el proceso de enseñanza-aprendizaje, sobre las formas de llevarla a
cabo, el uso de resultados tanto para retroalimentar su propia práctica
docente como para dar información a los alumnos y a los padres de
familia, sobre el impacto afectivo de la evaluación, etc.
Sobre los alumnos: la forma como el maestro los percibe en general (por
ejemplo como sujetos activos de su aprendizaje o como receptores
pasivos de conocimientos) y en particular (los de este grupo y este
curso, o incluso este alumno o alumna), como capaz o incapaz, listo o
no, aplicado o negligente, dócil o rebelde, etcétera.
Según Raquel Katzkovicz son muchos los factores que influyen en las prácticas de
evaluación, que dependen en parte de los contenidos con que trabaje el maestro,
los recursos de que disponga, el apoyo de padres de familia y las características
del entorno, entre otras cosas, pero esta autora presta especial atención a la
influencia de las concepciones de los mismos docentes sobre sus propias
decisiones relativas a qué actividades de evaluación asignar a los alumnos, así
como sobre la lectura que hacen luego de los resultados. Según Katzkovicz:
Conocer las concepciones de los profesores a la hora de definir las
actividades de evaluación de los aprendizajes de los alumnos y sus
estrategias de enseñanza nos permitirá comprender sus criterios de
evaluación y la jerarquización que realizan de los contenidos…
151
El conocimiento profesional (asociado al conocimiento pedagógico general,
al disciplinario y al didáctico del contenido) y la experiencia profesional son
elementos importantes en estas construcciones mentales que Influyen en
las prácticas. Estas concepciones serán las que definan las decisiones que
se tomarán en relación con las evaluaciones de aula. (2010: 114-117)
Retomando los resultados de trabajos de otros investigadores sobre las creencias
y concepciones de los maestros en relación con las prácticas de evaluación, la
autora mencionada señala que se ha encontrado que muchos docentes tienen
bajas expectativas en cuanto al rendimiento de los chicos de medio desfavorable
por lo que saben al respecto, pero que eso a su vez incide negativamente en el
rendimiento de esos mismos alumnos.
Otras investigaciones muestran que la forma en que los docentes conciben la
ciencia los lleva a privilegiar el uso de acercamientos que supuestamente miden
con mucha precisión lo que domina cada alumno –aunque se trate de aspectos
superficiales, como ocurre muchas veces con pruebas integradas por preguntas
estructuradas— y a descuidar estrategias de evaluación que pueden dar lugar a
respuestas imprecisas sobre aspectos fundamentales del trabajo científico, como
los que se refieren a las relaciones ciencia-técnica-sociedad-ambiente, entre otras,
contribuyendo a la transmisión de una imagen deformada de la ciencia.
(Katzkovicz, 2010: 115)
La misma autora cita una frase de Moreno y Azcárate que concluye:
Las concepciones docentes se constituyen como organizadores implícitos
referidos a creencias, significados, conceptos, proposiciones, imágenes
mentales y preferencias que influyen tanto la manera de percibir la realidad
como las prácticas que implementan. (Katzkovicz, 2010: 116)
2.3. Variables de los alumnos.
Como muestra el esquema, este bloque de variables y el siguiente ocupan una
posición lateral respecto a la relación principal, que va de las variables remotas
(características de los maestros) y las intermedias (conocimientos, concepciones y
percepciones) a las prácticas.
152
Así pues, las variables de los alumnos, así como las de la escuela y el aula, tienen
un estatus de variables intervinientes, que modifican o modulan la influencia de las
variables independientes, próximas o remotas, sobre la dependiente.
El bloque relativo a las variables de los alumnos comprende las características
reales de los estudiantes –en oposición a la percepción de ellos que tenga el
maestro— y tanto individualmente como en grupo: niños de familias urbanas o
rurales, acomodadas o pobres, indígenas, de rendimiento normal o no; que asisten
con regularidad o faltan con frecuencia; más o menos homogéneos, etc.
La naturaleza interviniente de este grupo de variables respecta a la relación entre
las variables independientes próximas y remotas y las prácticas de los maestros
quiere decir, en concreto, que la forma en que los docentes se conduzcan en el
aula (sus prácticas docentes y de evaluación) depende directamente de sus
características personales y de sus conocimientos y concepciones, pero que se ve
afectada de alguna manera por el tipo de alumnos que tengan. Los maestros
deben ajustar sus prácticas teniendo en cuenta si sus alumnos aprenden con más
o menos rapidez, si son especialmente inquietos o tranquilos, entre otros muchos
aspectos, como el tipo de motivaciones a que son sensibles.
Al respecto Brookhar cita estudios que han encontrado que los alumnos tienen
cuatro tipos de patrones motivacionales, según que estén orientados al
aprendizaje o al éxito, o bien que sean no comprometidos o elusivos (avoidant).
La existencia de diferentes patrones del enfoque de motivación que tienen
los alumnos respecto al aprendizaje tiene consecuencias para la evaluación
formativa en aula. La retroalimentación que se da a los alumnos que no
tienen éxito llega en un momento en que se están sintiendo mal por su
fracaso. La retroalimentación debe hacer algo para tener en cuenta esos
sentimientos negativos si quiere romper el círculo vicioso del fracaso, de lo
contrario la retroalimentación no servirá para hacer que la atención de los
alumnos se concentre en el trabajo (Kluger y DeNisi)… Los alumnos
necesitan tener tanto habilidad para tener éxito en el aula, como voluntad
para ello (skill & will). (Brookhart, 2007: 52-53)
153
2.4. Variables de la escuela y el aula
El cuarto bloque del esquema comprende el otro grupo de variables intervinientes,
por ejemplo si la escuela en que trabaja un profesor es grande o chica; de
organización completa o incompleta; pública o privada; bien o mal dotada de
infraestructura, mobiliario, equipamiento y material didáctico; ubicada en un medio
favorable u hostil; en la que los padres de familia participan activamente o no; con
maestros que trabajan en equipo o no; que cuentan con apoyo del director y de las
instancias de supervisión, etc. Igualmente, si en los alumnos con los que tiene que
trabajar en el aula son muchos o pocos; de un solo grado o varios; con muchos o
pocos con necesidades especiales, de bajo rendimiento, repetidores, etc.
Es claro el carácter modulador o mediador de este tipo de variables en la relación
que va de las características, conocimientos y concepciones del profesor a su
práctica: aunque el maestro tenga ideas muy buenas sobre cómo enseñar o cómo
evaluar, no lo podrá hacer de la forma que quisiera con un grupo muy grande, o
sin un mínimo de materiales y apoyos.
Además de los aspectos mencionados, un tipo de variables de gran importancia
que forman parte de este grupo es el que se refiere a las orientaciones que debe
seguir en su trabajo el maestro, tanto las establecidas en las normas aplicables,
como las que se derivan de las directrices marcadas por el director de la escuela y
por las instancias de supervisión.
En este sentido se debe mencionar en primer lugar el currículo, que muchas veces
es demasiado amplio y comprende una cantidad excesiva de conocimientos
particulares, lo que propicia que los maestros traten de enseñarlos de manera
superficial, en vez de tomarse el tiempo necesario para desarrollar habilidades
cognitivas de mayor complejidad.
De manera relacionada con lo anterior, en lo relativo a evaluación es frecuente
que las orientaciones sean congruentes con concepciones que privilegian los usos
sumativos y los instrumentos estandarizados, tanto los que se aplican en escala
nacional o estatal por parte de las autoridades, como los que se manejan en
escala menor y de manera menos formal, pero no por ello menos influyente.
154
Por lo que se refiere al currículo, Rindone y McQuarrie afirman que
…sigue habiendo serios obstáculos a la implementación de prácticas de
evaluación formativa en la enseñanza cotidiana. Hasta cierto punto esto se
debe a la confusión sobre lo que es la evaluación formativa, pero el mayor
obstáculo es el antiquísimo problema de la amplitud versus la profundidad.
Los maestros de educación básica o superior deben cubrir demasiados
contenidos con poca o ninguna profundidad, sin tiempo para la práctica y
sin evaluación formativa. (2010: 325)
En cuanto a la evaluación, Black señala el peso que tienen en muchos sistemas
educativos las pruebas sumativas externas de consecuencias fuertes y añade:
La necesidad de enseñar tácticas superficiales que mejoren el desempeño
en pruebas igualmente superficiales limita la libertad de maniobra del
maestro, así como la confianza en él para que desempeñe un papel más
responsable en la evaluación de sus alumnos. (Black, 2010: 363).
La participación de los padres de familia, si bien considerada generalmente como
positiva, puede tener también consecuencias negativas en cuanto a las prácticas
de evaluación, pues los maestros se pueden ver presionados a utilizar formas de
evaluación más distantes del enfoque formativo pero, al menos a juicio de los
padres, más “objetivas”, con lo que las decisiones derivadas de ellas parecen más
defendibles y evitan conflictos. (McMillan, 2003: 38)
3. Lecciones para las intervenciones en la práctica docente
En el Capítulo 2 se presentaron ya algunas perspectivas críticas que, en oposición
a posturas más optimistas, subrayan las dificultades que deben enfrentarse para
poner en práctica los principios teóricos de la evaluación formativa. En los
términos de Gordon Stobart, es fácil perderse en el paso de los principios a la
política y de ésta a la práctica de la evaluación formativa. (2005: 3)
El texto de Stobart introduce un conjunto de trabajos que coinciden en mostrar la
complejidad de la puesta en práctica de propuestas ambiciosas, y la insuficiencia
de estrategias como la de utilizar una terminología nueva (assessment for learning
155
en lugar de formative assessment) cuando se constata que los esfuerzos previos
no han dado los resultados esperados, con la improbable esperanza de que el
nuevo término no se asocie con los fracasos anteriores.
Utilizando como ejemplo el trabajo de Smith y Gorard comentado en el Capítulo 2,
Stobart señala que el evitar calificar el trabajo de los alumnos, dándoles sólo
comentarios (típicamente elogiosos o animadores) refleja una pobre concepción
de la noción de retroalimentación lo que, además de no dar resultados, condujo a
la suprema ironía del alumno que dijo: Maestra, yo quiero conocer mis
calificaciones porque los comentarios no nos dicen mucho. (2005: 4)
A continuación se retoman de la literatura experiencias que podrán orientar los
esfuerzos de intervención que busquen modificar las prácticas de los maestros en
el campo de la evaluación, para no caer en errores detectados en esfuerzos
anteriores, y para aprovechar las experiencias más positivas.
3.1. Limitaciones de esfuerzos por introducir nuevas prácticas
La experiencia de dos sistemas educativos muy distintos, como son el del Reino
Unido y el de Francia coinciden en que en ambos se ha encontrado considerable
dificultad para que los nuevos enfoques de la evaluación se generalicen.
Muchos maestros ingleses creían que podrían hacer que sus evaluaciones fueran
formativas pero que en los primeros tiempos de las reformas las dimensiones y la
complejidad de la tarea de llevar registros y recoger las evidencias amenazaban
con abrumar a los maestros, de manera que se reportaba que los cambios en las
evaluaciones seguían siendo intuitivos, más que basados en evidencias.
En Francia, las leyes de 1989 y 2005 intentaron provocar un cambio cultural para
pasar de una concepción de la evaluación sumativa a una formativa, pero hasta
ahora estas iniciativas de arriba hacia abajo parecen haber tenido escaso impacto
sobre las prácticas de aula, según describen la investigación académica y los
informes de los supervisores. (Osborn y Raveaud, 2010: 425)
Al tratar de las variables relacionadas con la formación de maestros se han citado
opiniones sobre el frustrante resultado de muchas actividades de actualización
156
profesional de los maestros. En este sentido Dylan Wiliam se pregunta cómo
podremos hacer que el desempeño de los alumnos mejore y responde:
Muchas veces confiamos en soluciones rápidas, que rara vez tienen éxito.
Para elevar exitosamente el desempeño de los alumnos debemos mejorar
la calidad de los maestros… en particular los que ya están en las escuelas.
Tenemos que analizar cuidadosamente los costos y los beneficios de las
posibles reformas. (Wiliam, 2007: 184)
Luego Wiliam considera dos estrategias: una gradual, elevando los requisitos que
se exigen para aceptar a los nuevos docentes en la profesión, lo que llevará
muchos años para tener efectos; otra rápida, permitiendo el acceso a la profesión
de maestro a personas que no hayan recibido formación para ello, pero señala
que la investigación ha mostrado que este tipo de docentes no resulta mejor que
los formados de la manera tradicional (2007: 186-187).
Una estrategia más tiene como elemento clave ayudar a los maestros a desarrollar
prácticas de evaluación formativa lo que, según Wiliam, tiene una relación costo-
beneficio mejor, pero cambiar lo que los profesores hacen día a día no se puede
lograr efectivamente con métodos tradicionales, como talleres de verano y añade:
Ahora es claro que la principal razón por la que la actualización profesional
no ha conseguido en general tener impacto en el rendimiento de los
alumnos es porque no ha implementado lo que la investigación muestra que
hace la diferencia en cuanto al aprendizaje de los alumnos. (2007: 187)
Después de estas consideraciones, nuestro autor concluye:
Después de muchos falsos comienzos y callejones sin salida he llegado al
convencimiento de que la mejor forma de apoyar a los maestros a adoptar
evaluaciones formativas… es mediante comunidades de aprendizaje de
maestros basadas en la escuela. (Wiliam, 2007: 196)
A una conclusión idéntica, en contexto latinoamericano, llega Rebeca Katzkovicz
que, tras analizar la importancia que tienen las concepciones de los maestros
sobre sus prácticas, subraya la necesidad de contar con ámbitos de formación y
157
reflexión profesional para los docentes para mejorar sus estrategias en el aula y, a
través de ellas, los aprendizajes de todos sus alumnos y sus posibilidades de éxito
escolar. En concreto recomienda:
Favorecer los espacios de reflexión profesionales en las instituciones para
trabajar la cultura de la evaluación en ellas, así como para develar las
creencias, las racionalidades y las concepciones de los profesores en
relación con sus prácticas de enseñanza y evaluación. (2010: 123-124)
3.2. Necesidad de procesos más adecuados de capacitación
Después de todas las consideraciones anteriores, podemos tratar de responder la
pregunta sobre qué características deberán tener las actividades de actualización
para maestros que busquen modificar en profundidad las prácticas de evaluación,
como parte de una reorientación más amplia de la enseñanza en dirección de
enfoques más congruentes con lo que dicen los avances de las ciencias
cognitivas, con el propósito final de ayudar a que los estudiantes alcancen niveles
adecuados en las competencias que hoy se consideran necesarias para la vida en
las sociedades contemporáneas.
Paul Black sintetiza algunos problemas para implementar evaluaciones formativas:
falta de una definición clara del concepto; conflicto entre la evaluación formativa y
las presiones de las pruebas sumativas en dirección de la responsabilización de
las escuelas; no aceptar que la evaluación formativa exige un cambio radical y
difícil en cuanto al papel de los maestros. (2010: 359)
Black da ejemplos de interpretaciones superficiales de la evaluación formativa: un
docente puede formular preguntas abiertas, pero luego califica las respuestas en
términos de correcta o incorrecta, en vez de usarlas para reorientar el trabajo de
los alumnos; puede pedir a los alumnos que se autoevalúen, pero no usar la
información resultante para dar retroalimentación. (2010: 363)
Finalmente, Black señala que el obstáculo más grande es que implementar
prácticas formativas nuevas es una tarea muy demandante para los maestros que,
en muchos casos, implica un cambio profundo de sus creencias sobre su papel en
el aula, y que esos cambios no se pueden conseguir con una breve sesión de
158
entrenamiento, sino que necesitan el apoyo sostenido de la colaboración
colegiada. Un obstáculo más es que los maestros necesitan una formación básica
en temas de evaluación, que incluya una buena comprensión de los criterios de
validez y confiabilidad. (Black, 2010: 363)
Conviene reflexionar sobre este punto, porque una inadecuada comprensión del
mismo puede llevar a una orientación equivocada de los esfuerzos de formación.
La idea de que implementar evaluaciones formativas supone un suficiente dominio
de temas de evaluación en general por parte de los maestros debe precisarse.
Un autor que ha promovido la mejora de las evaluaciones es W. James Popham,
que en un trabajo reciente se pregunta si la alfabetización en evaluación que se
espera tengan los maestros es una moda o realmente algo importante. (2009)
Popham distingue los conocimientos sobre evaluación que se refieren al aula y
los que tratan de pruebas en gran escala, para responsabilización de escuelas y
maestros. En su opinión en ambos casos un conocimiento inadecuado puede traer
consigo efectos negativos para la calidad, por lo que un conocimiento básico
(literacy) al respecto parece una condición sine qua non para los educadores.
Nuestro autor propone 13 temas a incluir en las actividades de actualización
profesional, y señala que este tipo de formación en servicio será indispensable
hasta el momento en que los programas de formación inicial la hagan innecesaria
porque todos los futuros docentes salgan con una buena preparación sobre estos
aspectos. Añade que el uso de comunidades profesionales de aprendizaje (con la
práctica reflexiva de los profesores) puede complementar las actividades
tradicionales de actualización o sustituirlas. (Popham, 2009:8-10)
El error en cuanto al enfoque que se debe dar a este tipo de formación es el de
orientarlo como si se dirigiera a investigadores que quieran especializarse en
temas de evaluación, y no a maestros, cuyas necesidades al respecto son
distintas de las de un investigador. Hace ya una década Richard Stiggins había
hecho una crítica fundamental al respecto, que los organizadores de actividades
de actualización sobre evaluación para maestros deberán tener muy presente.
159
Después de repasar el preocupante panorama que presentaban las evaluaciones
que se hacían en el aula, en contraste con los sofisticados avances de las pruebas
en gran escala, Stiggins rechaza que el especialista en pruebas eluda su parte de
responsabilidad al respecto, atribuyendo todo el fenómeno al desinterés de otros
actores, en especial maestros y autoridades educativas. En su opinión, es cierto
que los especialistas han planteado el tema, pero se pregunta y responde:
¿Por qué no hemos sido escuchados en las salas de las escuelas? En mi
opinión porque no nos hemos educado nosotros mismos en las realidades
de la vida de las aulas, de manera que seamos capaces de traducir
nuestras ideas a aplicaciones que puedan ser puestas en práctica por los
maestros, en beneficio de sus alumnos. (Stiggins, 2001: 6-7)
Con base en los resultados de su propio trabajo empírico (Stigglins y Conklin,
1992) sobre lo que pasa en las aulas, y en relación con las actividades de
desarrollo profesional sobre evaluación dirigidas a maestros, dice:
Los resultados dejaron claro el reto a enfrentar. Comprendimos lo que los
maestros necesitan saber sobre evaluación y no era lo que tratábamos de
enseñarles, sin éxito, según reflejan los tradicionales textos de introducción
a la medición… Durante décadas hemos escrito textos para maestros que
incluyen una expectativa de que ellos van a estimar la confiabilidad de una
prueba, a calcular índices de validez de la misma y a hacer análisis de
ítems para determinar su dificultad y poder de discriminación. Pienso que
los autores que tienen tales expectativas revelan su propia ingenuidad
sobre la vida en las escuelas y las aulas. (Stiggins, 2001: 9-14)
Stiggins afirma que sería formidable que los maestros hicieran tales cosas, pero
que no va a ocurrir, y añade:
¿Quiere esto decir que los maestros no pueden aprender lo relativo a las
fuentes que afectan la confiabilidad o la validez y a evitarlas? Por supuesto
que no. Los maestros pueden y deben aprender esas cosas, pero tenemos
que ayudarles a hacerlo en términos que puedan entender y aplicar en su
contexto. Nuestro reto es entender su contexto de evaluación. (2001: 14)
160
La fundamentación más profunda, en el plano epistemológico, de la distinción
fundamental entre el enfoque del científico y el del maestro, es retomada por
nuestro autor de un texto de hace casi 70 años:
La ciencia tiene que ver fundamentalmente con la abstracción de elementos
particulares de un todo complejo, aislando algo que es común a un grupo
de sujetos, liberándolo de las restricciones de las circunstancias inmediatas.
La preocupación de un maestro es justamente la opuesta: trabaja con
individuos variables para construir un producto variable. (Scates, 1943: 3,
citado por Stiggins, 2001: 7)
En pocas palabras quedamos muy sensibilizados a las diferencias entre la
paleta de colores que los maestros necesitan para manejar el arte de la
evaluación en aula y las herramientas que subyacen a la ciencia de la
evaluación… (Stiggins, 2001: 9)
Esta concepción de lo que los maestros deberían saber sobre evaluación –más
cerca de lo que manejan los especialistas en el tema que de lo que realmente
necesitan los docentes para su trabajo con los alumnos en el contexto del aula—
se confirma si se revisan los lineamientos que se definieron al respecto, en un
momento en que la preocupación por la calidad de las escuelas ya había hecho
que se prestara atención al tema de la evaluación, pero todavía no en el sentido
que proponen las corrientes de evaluación formativa.
En 1990 tres organizaciones norteamericanas, relacionadas de diversa forma con
el tema de la evaluación que hacen los maestros del aprendizaje que alcanzan sus
alumnos (American Federation of Teachers, National Council on Measurement in
Education y National Education Associaton) adoptaron un conjunto de estándares
relativos precisamente a las competencias que consideraban debería tener todo
maestro, en lo que respecta a la evaluación de los alumnos (Standards for
Teacher Competence in Educational Assessment of Students).
Los estándares adoptados fueron siete y, en su versión más sintética, estipulan
que los maestros deberán dominar las competencias necesarias para:
161
1) Seleccionar métodos de evaluación apropiados para sustentar decisiones
de enseñanza.
2) Desarrollar métodos de evaluación apropiados para lo mismo.
3) Aplicar, calificar e interpretar los resultados de métodos de evaluación,
tanto externos como desarrollados por el maestro mismo.
4) Utilizar resultados de las evaluaciones al tomar decisiones sobre alumnos
en lo individual, así como para planear la enseñanza, desarrollar el currículo
y realizar actividades para la mejora de la escuela.
5) Desarrollar procedimientos válidos para la asignación de calificaciones,
utilizando las evaluaciones.
6) Comunicar los resultados de las evaluaciones a los alumnos, sus padres,
otras audiencias no especializadas así como a otros educadores.
7) Identificar métodos de evaluación no éticos, ilegales o inapropiados por
otras razones, así como usos inadecuados de la información derivada.
Recientemente Susan Brookhart (2011) propuso un nuevo grupo de estándares,
que buscan tener en cuenta los cambios en evaluación educativa ocurridos en los
20 últimos años, en especial en dos puntos: por una parte, las nuevas ideas sobre
evaluación formativa –o evaluación para el aprendizaje— y la indisociable relación
entre evaluación y enseñanza que suponen; por otra, los cambios en lo relativo a
la concepción de los estándares de aprendizaje, el papel de las pruebas
estandarizadas, el movimiento en pro de la rendición de cuentas y el tránsito de
tales evaluaciones de bajo impacto a uno considerablemente mayor.
Estos nuevos estándares son 11 y, en forma igualmente sintética, establecen que
los maestros deberán:
1) Entender el aprendizaje en el marco del área de contenido que enseñan.
2) Articular propósitos de aprendizaje claros, congruentes tanto con el
contenido y la profundidad de pensamiento que impliquen los estándares y
162
objetivos curriculares con los que se relacionen, de tal manera que sean
tanto alcanzables como evaluables.
3) Tener un repertorio de estrategias para comunicar a los alumnos en que
consistirá el logro de los propósitos de aprendizaje.
4) Comprender los propósitos y usos de la gama de opciones de evaluación
disponibles, y tener las habilidades necesarias para usarlas.
5) Tener habilidades para analizar preguntas de aula, ítems de pruebas y
tareas de evaluaciones de ejecución de manera que identifiquen los
conocimientos específicos y las habilidades de pensamiento que deban
manejar los alumnos para responder o realizar esas tareas.
6) Tener habilidades para ofrecer retroalimentación efectiva y útil para el
trabajo de los alumnos.
7) Construir esquemas de calificación que cuantifiquen el desempeño de los
alumnos en las evaluaciones en aula, de manera que se vuelva información
útil para tomar decisiones sobre alumnos, grupos, escuelas y distritos; esas
decisiones deberán llevar a un mejor aprendizaje, crecimiento o desarrollo
de los alumnos.
8) Aplicar evaluaciones externas e interpretar sus resultados para que
sustenten decisiones sobre alumnos, grupos, escuelas y distritos.
9) Comunicar articuladamente sus interpretaciones de los resultados de las
evaluaciones, así como sus razonamientos sobre las decisiones educativas
basadas en los resultados, a las poblaciones educativas a las que sirven:
los alumnos y sus familias, los grupos, las escuelas y la comunidad.
10) Ayudar a los alumnos para que usen la información derivada de las
evaluaciones para tomar decisiones educativas consistentes.
11) Comprender y cumplir sus responsabilidades éticas y legales relativas a
evaluación al realizar su trabajo. (Brookhart, 2011: 7)
163
Es fácilmente apreciable la coincidencia de estos últimos estándares con los
adoptados en 1990 en algunos puntos, sobre todo si los de hace 20 años se
entienden en forma general.
Nadie estará en contra de que los maestros sean capaces de seleccionar métodos
de evaluación apropiados, desarrollarlos, aplicarlos e interpretar sus resultados y
utilizarlos para tomar decisiones, así como de asignar válidamente calificaciones,
comunicar correctamente los resultados y actuar ética y legalmente.
En el sentido que hoy se da a la expresión, es claro también que lo anterior no es
suficiente para que el maestro haga evaluación realmente formativa. Como se
mostró en el Capítulo 2, para ello no basta tener propósitos de aprendizaje claros
y detectar si los alumnos los han logrado o no; lo esencial es usar la evaluación de
tal suerte que ayude al alumno a alcanzar los propósitos, a partir del punto en que
se encuentra. Por ello las habilidades clave que un maestro debe dominar para
hacer evaluación realmente formativa son las que se incluyen en los puntos 5, 6 y
7 del listado que propone Brookhart: las que le permitan identificar lo que debe
manejar un alumno para responder cierta pregunta o realizar una tarea, ofrecer
retroalimentación efectiva y útil para mejorar y construir esquemas de calificación
que sean información útil para tomar decisiones que lleven a un mejor aprendizaje.
3.3 Consideraciones prácticas
De lo dicho en este capítulo se puede concluir que, dada la multiplicidad de
variables que inciden en las prácticas docentes y de evaluación de los maestros,
las profundas raíces de algunas de ellas, y el que modificar otras no esté al
alcance de los maestros mismos, sino que involucre a otras instancias del sistema
educativo y a los padres de familia, las actividades de actualización que tengan
como propósito transformar en profundidad las prácticas de evaluación de los
maestros no podrán consistir únicamente en talleres breves, esporádicos y
superficiales, como tantas veces ocurre con lo que se ofrece a los maestros.
La conclusión sobre el particular a que llega el trabajo ya citado de Schneider y
Randel, es que:
164
…los esfuerzos de actualización sobre evaluación formativa en aula deben
tener una duración sostenida con suficientes horas de contacto para
presentar los conceptos, y ofrecer apoyo sustancial que permita poner en
práctica la aplicación de nuevas habilidades. La duración óptima de los
programas de actualización está por determinarse. Supovitz y Turner han
encontrado que los maestros necesitan entre 40 y 79 horas de actualización
para que sus prácticas cambien respecto a las del promedio… los maestros
que trabajan en escuelas de bajos resultados pueden modificar su base de
conocimientos sobre evaluación formativa en aula en 30 a 41 horas; sin
embargo, el número de horas necesario para cambiar los conocimientos de
los maestros no es necesariamente el mismo que bastará para que el
rendimiento de los alumnos aumente. (Schneider y Randel, 2010: 272-273.
La última parte de la cita anterior es fundamental: modificar los conocimientos de
los maestros sobre la evaluación es necesario para que sus prácticas cambien,
pero no es suficiente. Por ello talleres de contenido sólido, de 40 o incluso 80
horas de duración tampoco serán suficientes, sino que será indispensable un
esfuerzo continuado durante uno o dos ciclos escolares completos, basado en el
trabajo conjunto de una comunidad de aprendizaje formada por los maestros de
una o varias escuelas.
En este sentido, Black y Wiliam dicen:
Los maestros necesitan una variedad de ejemplos vivos de la
implementación de tales prácticas, por parte de colegas con los que puedan
identificarse y de los que puedan derivar la convicción y la confianza de que
ellos también pueden hacerlo mejor, pudiendo ver qué quiere decir en la
práctica “hacerlo mejor”. (2004: 21)
Los autores citados presentan estrategias que los maestros pueden aprender unos
de otros. Un ejemplo consiste en que cuando el maestro pide a los alumnos que
aporten ideas sobre un tema, antes de pedirles que lo hagan se les hace trabajar
en grupos de dos o tres para que hagan una tormenta de ideas sobre el tema, con
lo cual sus aportaciones serán más ricas y darán una idea más completa al
165
maestro de lo que saben los alumnos, así como sobre cualquier laguna o
concepción errónea, con lo que las acciones siguientes podrán tener en cuenta
mejor las necesidades reales de los alumnos. (2004: 26)
Por su parte, James recuerda que en general son fallas de implementación lo que
impide el éxito de iniciativas para implantar prácticas efectivas de evaluación, y
que por ello hay que estudias las condiciones necesarias para hacerlo bien.
Según este autor, para generalizar en un sistema educativo ciertas innovaciones
probadas en experimentos en pequeña escala, hay que prever que se deberá
conseguir con un apoyo mucho menos intensivo. A su juicio las condiciones
adecuadas incluyen el desarrollo profesional de los maestros así como estructuras
organizacionales y procesos culturales adecuados. (James, 2010: 169)
Entre las advertencias de este autor en relación con la difusión de prácticas de
evaluación formativa se pueden mencionar las siguientes:
Si bien los maestros aprecian las recomendaciones prácticas, las acciones
de evaluación formativa se pueden volver mecánicas y rituales si no se
promueve la reflexión sobre los principios que las sustentan. Los valores,
las creencias y las prácticas no son uniformes entre los maestros; aunque la
mayoría tiene valores educativos claros y positivos la mayoría encontró
dificultad para alinear las nuevas prácticas y sus valores.
La influencia más importante resultó ser la indagación colaborativa entre los
maestros sobre sus prácticas… que se puede extender más allá del aula
por medio de redes dentro de la escuela y entre escuelas. Lo anterior
depende en buena medida de las estructuras organizacionales, la cultura y
el liderazgo. El reto clave para los directivos es, pues, crear el espacio y el
clima para que el personal de las escuelas pueda reflexionar sobre su
práctica y compartir esa reflexión. (James, 2010: 169-170)
Para que puedan extenderse las nuevas prácticas será necesario, pues, que las
instancias de dirección y supervisión ofrezcan un apoyo consistente, además de
que estén presentes condiciones de trabajo y recursos de la escuela y el aula
mínimamente suficientes, y que se remuevan los obstáculos que representan una
166
normatividad inadecuada y evaluaciones externas de enfoque incompatible con el
de evaluación formativa bien entendido. Así mismo, habrá que contar con el apoyo
de unos padres de familia enterados de la importancia y el sentido de los cambios.
Un rasgo que aparece en todas las recomendaciones sobre las características de
un buen proceso de actualización para maestros en servicio es el que consiste en
la conformación de una comunidad profesional de aprendizaje que, como hemos
visto en la propuesta de Popham, debe ser un complemento fundamental de las
actividades tradicionales, o incluso puede sustituirlas.
En este sentido Aschbacher sostiene que el punto de partida para modificar las
prácticas de evaluación debe ser un proceso participativo de reflexión que
involucre a maestros, directores y otros actores educativos en comunidades de
aprendizaje en que sea posible cuestionar los conocimientos previos y entender
suficientemente los nuevos enfoques y su sustento, teniendo en cuenta que el
cambio no solamente debe referirse a los conocimientos de los profesores, sino
también a sus actitudes, de tal forma que estén dispuestos a experimentar nuevas
formas de trabajo, con el riesgo que ello supone. (Aschbacher, 1993).
Otro punto fundamental es que la actualización para la evaluación formativa no se
puede quedar en aspectos teóricos. Ya se han visto ejemplos de comprensiones
superficiales de conceptos clave, que ocultan la ausencia de cambios reales bajo
la apariencia superficial de una nueva terminología. Allal y Mottier López señalan:
La búsqueda de referentes teóricos puede llevar a una visión cada vez más
abstracta de la evaluación formativa, alejada de las realidades de la práctica
en el aula. Por ello es esencial articular el trabajo teórico con el estudio de
cómo se pone en práctica realmente la evaluación en el aula. (2005: 251)
La obra de la OCDE en la que aparece el texto anterior precisa:
Los maestros necesitan traducir ideas abstractas –como las del aprendizaje
centrado en el niño— en prácticas concretas. Programas vagos puramente
conceptuales tienen pocas probabilidades de llegar lejos o durar mucho,
especialmente porque los maestros son personas ocupadas que enfrentan
demandas crecientes sobre su tiempo. (CERI, 2005: 89)
167
Conclusión
Para terminar este capítulo conviene subrayar tres puntos:
Que poner en práctica buenas evaluaciones formativas es incompatible con
un currículo demasiado extenso, sobrecargado de contenidos, que obliga a
los maestros a dedicar poco tiempo a cada tema y les impide los complejos
procesos que implica cambiar las concepciones de los alumnos, desarrollar
la confianza en sus propias posibilidades de aprendizaje y las habilidades
de autoerregulación fundamentales para que jueguen un papel activo y
productivo como corresponsables de la evaluación.
Que una buena evaluación formativa no se distingue de una buena
enseñanza, una que sea verdaderamente congruente con los principios de
la pedagogía derivada de la revolución cognitiva, el constructivismo.
Que la buena evaluación formativa y/o la buena enseñanza constructivista
suponen que el maestro pueda identificar la etapa de desarrollo cognitivo
en que se encuentran sus alumnos y sustituir estructuras y preconceptos
inadecuados por otros mejores.
En muchos casos no se puede dar por hecho que estos tres puntos se cumplen, y
conseguirlo constituye un reto mayúsculo. No es otra cosa lo que implica hacer
buenas evaluaciones formativas.
¿Y cómo se podrá saber si los esfuerzos están dando resultados? Brookhart nos
habla de lo que se puede considerar un indicio inequívoco al respecto:
Con buenas evaluaciones formativas basadas en el desempeño la pregunta
clave que plantean los alumnos deja de ser si cierto contenido vendrá en la
prueba, para dar lugar a otra: ¿ahora qué más puedo aprender? (2007: 56)
No habrá que olvidar, en todo caso, que
…la mejor evaluación anual del mundo no puede superar los problemas
producidos por evaluaciones cotidianas de baja calidad. (Stiggins, 2001: 13)
168
Referencias
ALLAL, LINDA y LUCIE MOTTIER LOPEZ (2005). Formative Assessment of
Learning: A Review of Publications in French. En CERI, 2005: 241-264.
ANIJOVICH, REBECA ed. (2010). Evaluación significativa. Buenos Aires, Paidós.
ASCHBACHER, PAMELA R. (1993) Issues in Innovative Assessment for
Classroom Practice: Barriers and Facilitators. CSE 359. CRESST, UCLA.
BLACK, PAUL (2010). Formative Assessment. En Peterson, Baker y McGaw,
2010: Vol. 3, 359-364.
BLACK, PAUL y D. WILIAM (2004). The formative purpose: Assessment must first
promote learning. En Wilson, 2004: 20-50.
BROOKHART, SUSAN M. (2011). Educational Assessment Knowledge and Skills
for Teachers. Educational Measurement: Issues & Practice. Vol. 30(1): 3-12.
BROOKHART, SUSAN M. (2007). Expanding Views about Formative Classroom
Assessment: A review of the Literature. En McMillan, 2007: 43-62.
CARLESS, D. (2005) Prospects for the implementation of assessment for learning.
Assessment in Education: Principles, Policy & Practice. Vol. 12 (1): 39–54.
CAMPBELL, R. J., KYRIAKIDES, L., MUIJS, R. D. y ROBINSON, W. (2004).
Assessing teacher effectiveness: A differentiated model. London, Routledge
Falmer. Ch. 4 Review of current research in teacher effectiveness, pp. 41-58
CENTRE FOR EDUCATIONAL RESEARCH AND INNOVATION (2005). Formative
assessment. Improving learning in secondary classrooms. Paris. OECD.
DARLING-HAMMOND, LINDA (1999). Teacher Quality and Student Achievement:
A Review of State Policy Evidence. Document R-99-1. Center for the Study
of Teaching and Policy. Seattle, University of Washington.
GREEN, SUSAN K., J. SMITH y E. K. BROWN (2007). Using Quick Writes as a
Classroom Assessment Tool: Prospects and Problems. Journal of
Educational Research & Policy Studies, Vol. 7 (2): 38-52.
169
HARLEN, W. (2007). Formative Classroom Assessment in Science and
Mathematics. En McMillan, 2007: 99-115.
HILL, H. C., B. ROWAN y D. L. BALL (2005). Effects of teachers’ mathematical
knowledge for teaching on student achievement. American Educational
Research Journal, Vol. 42 (2): 371-406.
JAMES, M. (2010). An Overview of Educational Assessment. En Peterson, Baker y
McGaw, 2010, Vol 3: 161-171.
KATZKOWICZ, R. (2010). Diversidad y Evaluación. En Anijovich, 2010: 114-122.
MARSH, COLIN J. (2007). A critical analysis of the use of formative assessment in
schools. Educational Research Policy & Practice, Vol. 6: 25–29.
MCMILLAN, JAMES H., ed. (2007). Formative Classroom Assessment: Theory into
Practice. New York. Teachers College Press.
MCMILLAN, JAMES H. (2003). Understanding and Improving Teachers’
Classroom Assessment Decision making: Implications for Theory and
Practice. Educational Measurement: Issues and Practice. Vol. 22 (4): 34-43.
OSBORN, M. Y M. RAVEAUD (2010). Classroom Assessment in Policy Context
(England and France). En Peterson, Baker y McGaw, 2010, Vol. 3: 425-431.
PETERSON, PENELOPE, E. BAKER y B. McGAW, eds. (2010). International
Encyclopedia of Education, 3rd Ed. Amsterdam, Elsevier-Academic Press.
POPHAM, W. JAMES (2009). Assessmetn Literacy for Teachers: Faddish or
Fundamental? Theory into Practice. Vol. 48: 4-11.
REEVES, DOUGLAS, ed. (2007). Ahead of the Curve. The Power of Assessment
to Transform Teaching and Learning. Bloomington, Solution Tree Press.
RESNICK, L. B., D. WILIAM, R. APODACA y E. S. RANGEL (2010). The
Relationship between Assessment and the Organization and Practice of
Teaching. En Peterson, Baker y McGaw, 2010, Vol. 3: 397-402.
170
RINDONE, DOUGLAS A. Y DUNCAN MCQUARRIE (2010). Strategies and
Policies for Incorporating Formative Assessment into Comprehensive and
Balanced State Assessment Systems. En Cizek y Andrade 2010: 316-327.
SADLER, D. ROYCE (1998). Formative Assessment: Revisiting the Territory.
Assessment in Education: Principles, Policy & Practice, Vol. 5 (1): 77-84.
SCATES, D. E. (1943). Difference between measurement criteria of pure scientists
and of classroom teachers. Journal of Educational Research. Vol. 37: 1-13.
SCHENEIDER, M. C. y RANDEL, B. (2010) Research on characteristics of
effective professional development programs for enhancing educators’ skills
in formative assessment. En Cizek y Andrade, 2010: 251-276.
SMITH, EMMA Y S. GORARD (2005). “They dont’t give us our marks”: the role of
formative feedback in student progress. Assesment in Education: principles,
policy & practice. Vol. 12 (1): 21-38.
STIGGINS, RICHARD J. (2008). Assessment Manifesto: A Call for the
Development of Balanced Assessment Systems. Portland. ETS-ATI.
STIGGINS, RICHARD J. (2007). Conquering the Formative Assessment Frontier.
En McMillan, 2007: 8-27.
STIGGINS, RICHARD J. (2001). Unfulfilled Promise of Classroom Assessment.
Educational Measurement: Issues & Practice. Vol. 20 (3): 5-15.
STIGGINS, RICHARD J. y N. F. CONKLIN (1992). In teachers’hands: Investigating
the practice of classroom assessment. Albany, SUNY Press.
STOBART, GORDON (2005). Lost in translation: moving from principles to policy
to practice formative assessment. Assessment in Education. Vol. 12 (1): 3-5.
SUTTON, R. (2010). Challenges of Developing and Implementing Formative
Assessment Practices in Schools. En Peterson, Baker y McGaw, 2010: Vol.
3, 353-358.
TIERNEY, ROBIN D. (2006). Changing practices: influences on classroom
assessment. Assessment in Education, Vol. 13 N° 3, pp. 239-264.
171
WAYNE, ANDREW J. y P. YOUNGS (2003). Teacher Characteristics and Student
Achievement Gains: A Review. Review of Educational Research. Vol. 73
(1): 89-122.
WILIAM, DYLAN (2007). Content Then Process: Teacher Learning Communities in
the Service of Formative Assessment, en Reeves, 2007: 183-204.
WILSON, MARK, ed. (2004). Towards coherence between classroom assessment
and accountability. 103rd Yearbook, Part 2. National Society for the Study of
Education. Chicago. University of Chicago Press.
WILSON, SUZANNE. (2004) Student assessment as an opportunity to learn in and
from one’s teaching practice. En Wilson, 2004: 264-271
172
173
CONCLUSIÓN GENERAL
174
175
A lo largo de la historia las sociedades han estado formadas por grupos que se
dedican a actividades diferentes y tienen acceso a satisfactores muy distintos en
cantidad y calidad. La estratificación o las clases sociales son omnipresentes. Los
sistemas educativos, en forma consistente con lo anterior, se han organizado con
base en el supuesto de que no todos los niños tienen la capacidad necesaria para
alcanzar niveles complejos de competencia en lectura y escritura, matemáticas,
ciencias y otras disciplinas que integran el currículo.
Hasta principios del siglo XX esto se reflejaba en la distinción entre enseñanza de
primeras letras, a la que todo niño debía acceder, y la media y superior reservadas
a una minoría. La expansión de los sistemas educativos ha consistido en un largo
proceso por el que el acceso a la educación media primero, y luego la superior, se
ha incrementado paulatinamente. Esta tendencia forma parte de una mayor que,
sin negar las diferencias individuales, postula que la gran mayoría de las personas
tienen capacidad suficiente para desarrollar las competencias intelectuales de
complejidad considerable que las modernas economías y las democracias
maduras esperan de cada trabajador y cada ciudadano.
Lo anterior ha traído consigo importantes consecuencias para los sistemas
educativos y, en particular, para las concepciones de la evaluación. Según Raquel
Katzkovicz, el educador francés Philippe Perrenoud sostiene que:
…hasta un período reciente la noción de igualdad de oportunidades no
significaba otra cosa que el hecho de que cada uno tuviera acceso a la
enseñanza, sin trabas geográficas o económicas, sin que se tuviera en
cuenta su sexo o su condición de origen. La escuela no se sentía
responsable de los aprendizajes; se limitaba a ofrecer a todos la ocasión de
aprender y ¡a cada uno le tocaba aprovecharla! Cuando Bloom, en los años
sesenta del siglo XX, propuso una pedagogía del dominio, señaló que, por
lo menos en el nivel de la escuela obligatoria, "todo el mundo puede
aprender", y esto a condición de que se organice la enseñanza de manera
de individualizar el contenido, el ritmo y las modalidades de aprendizaje en
función de objetivos definidos con claridad.
176
De pronto… la evaluación llegaba a ser el instrumento privilegiado para una
regulación continua de las intervenciones y las situaciones didácticas. En la
perspectiva de una pedagogía del dominio su papel ya no era el de fabricar
jerarquías, sino el de tener en cuenta las adquisiciones y los modos de
razonar de cada alumno en la medida necesaria como para ayudarlo a
progresar en el sentido de los objetivos. Contando con esta evaluación
formativa, el profesor podría desplazar la regulación de su acción en el aula,
no en función del grupo todo, sino en función de los aprendizajes de cada
alumno en particular. (Katzkowicz, 2010: 122)
Perrenoud sostiene que, para tener sentido pleno, es necesario que la evaluación
formativa se desarrolle en el marco de una estrategia pedagógica de lucha contra
el fracaso y las desigualdades, pero que este nuevo enfoque no siempre se lleva a
la práctica en forma coherente y con la necesaria continuidad, porque para ello es
necesario el marco de una pedagogía diferenciada basada en una política
perseverante de democratización de la enseñanza. (Katzkowicz, 2010: 122)
Otros promotores de la evaluación formativa depositan grandes esperanzas en
estos nuevos enfoques, de los que esperan efectos notables en cuanto a la mejora
del aprendizaje. Richard Stiggins, por ejemplo, se refiere a los cambios que la
evaluación formativa implica en cuanto al papel tanto de maestros como de
alumnos de la manera siguiente: en la evaluación del aprendizaje el papel del
maestro es el tradicional: hacer evaluaciones cuidadosas y emplear prácticas
correctas para calificar, pero en la evaluación para el aprendizaje su papel debe
incluir una secuencia que comienza con la confianza del docente en que domina
los estándares que deberán satisfacer sus alumnos; sigue con la desagregación
de cada estándar en metas parciales de aprendizaje que constituyan el andamiaje
que permita alcanzar el estándar; luego la formulación de una versión
comprensible para compartirla con los alumnos desde el primer momento del
proceso; en seguida la aplicación de evaluaciones de buena calidad que reflejen
las metas parciales; y por fin el uso de la evaluación junto con los alumnos para
monitorear su avance a lo largo del tiempo.
177
En cuanto a los alumnos, Stiggins dice que en la evaluación del aprendizaje su
papel es el de siempre: estudiar duro y tratar de obtener las mejores calificaciones;
en la evaluación para el aprendizaje, en cambio, su papel se vuelve tratar de
entender qué es exactamente un producto bien logrado, y utilizar la evaluación
para entender qué hay que hacer mejor en la siguiente oportunidad. Concluye que
lo anterior lleva a una redefinición fundamental de la relación entre la evaluación y
la motivación de los alumnos:
En lugar de basarse en la evaluación como fuente de información para
decidir quién merece premio o castigo, o sea para distinguir los ganadores
de los perdedores, la evaluación se usará como un mapa que dirija a los
alumnos al éxito, con señales a lo largo del camino tanto para los alumnos
como para sus maestros. El éxito en avanzar en el aprendizaje se vuelve
por sí mismo el premio, fomentando la confianza y la persistencia. Esto
cambia la dinámica emocional de la experiencia de evaluación en formas
inmensamente productivas para todos los alumnos, especialmente los que
aún no alcanzan los estándares. El chico se vuelve bueno para escribir no
para sacar una buena calificación, sino porque cree que puede hacerlo y es
precisamente esta creencia lo que lo motiva. (Stiggins, 2007: 71-72)
En el Capítulo 2 se comentó que las visiones más optimistas sobre los resultados
de la evaluación formativa parecen sustentadas en evidencia no muy consistente,
y que una perspectiva más crítica muestra que en muchas ocasiones la puesta en
práctica de estos nuevos enfoques no da los notables resultados que textos como
los de Richard Stiggins permitirían esperar. En el Capítulo 3 se reflexionó sobre
los muchos factores que inciden en las prácticas de los maestros, cuya compleja
interacción hace comprensible la dificultad de modificarlas.
El problema que enfrenta todo maestro es que, una vez que detecta lo que un
alumno ha logrado o no aprender, no por ello sabe cómo hacer que aprenda lo
que le falta. Es aquí donde radica la limitación fundamental de la evaluación,
formativa o sumativa: no basta detectar el problema para resolverlo.
178
En unos casos la solución no es difícil en sentido pedagógico, aunque sea muy
seria en el terreno práctico, por ejemplo si se trata de que el alumno no tuvo
oportunidad de aprender cierto contenido porque él mismo o el maestro estuvieron
ausentes, o porque el tema no fue cubierto o ni siquiera lo incluye el currículo.
En otros casos el problema es más difícil de resolver por razones pedagógicas:
cuando, pese a reiterados esfuerzos de maestro y alumno, este último no puede
alcanzar ciertas competencias cognitivas, en especial las más complejas. No se
trata de que recuerde ciertos datos, sino de que sea capaz de inferir, relacionar,
analizar, sintetizar, contrastar, concluir… Independientemente de que se deba a
factores personales, familiares o escolares, hay alumnos que, pese a los mayores
esfuerzos, no consiguen alcanzar los niveles de aprendizaje deseables.
Los resultados de los programas compensatorios de la década de 1960 mostraron
que para mejorar en forma duradera los resultados de los niños más pobres no
bastan apoyos especiales durante algunas horas a la semana y durante pocos
meses. Esfuerzos más recientes muestran también que apoyos que comiencen a
aplicarse desde edades tempranas, y se ofrezcan con intensidad suficiente y
durante períodos de tiempo amplios, dan mejores resultados.
La investigación muestra también que una enseñanza que se apegue realmente a
los principios de la pedagogía constructivista consigue resultados superiores a los
que se obtienen con las prácticas tradicionales. Los nuevos enfoques pedagógicos
implican un trabajo muy diferente al habitual por parte de los docentes, que deben
ser capaces de detectar los puntos débiles en los procesos cognitivos de cada
alumno, para deconstruir los preconceptos y otros obstáculos que se oponen a los
conocimientos más adecuados que el alumno debe construir.
Lo anterior permitirá evitar un error en el que se puede incurrir fácilmente en
relación con la evaluación formativa. Un componente de ésta es el que tiene que
ver con el impacto afectivo al que tanta importancia da Stiggins. Es indudable que
un impacto negativo puede ser demoledor para un estudiante, y que uno positivo
favorece la autoestima y la continuidad de los esfuerzos de los aprendices, pero
es necesario no sobredimensionar estos aspectos.
179
La confianza en sí mismo no siempre es suficiente para alcanzar ciertas metas, e
incluso puede ser engañosa y, a mediano plazo, decepcionante. La investigación
ofrece bases sólidas para sostener que la motivación y la autoestima no bastan
para producir desempeños sobresalientes.
Es el caso, sin duda, cuando se trata de alcanzar metas ambiciosas, en especial
en contextos de carácter competitivo, en los que finalmente sólo una persona, o un
equipo, pueden alcanzar el triunfo. Sin un muy buen entrenador, excelentes
jugadores, intensa preparación, e incluso algo de suerte, ningún equipo ganará
una copa del mundo, por mucha motivación que tengan sus integrantes. Tampoco
será suficiente el mejor esfuerzo (echarle muchas ganas, se diría coloquialmente)
para dominar los aspectos más complejos de cualquier disciplina. Por ello la
selección al ingreso de un programa de posgrado es razonable, ya que importa
verificar el dominio de ciertos prerrequisitos por parte de los aspirantes; por ello
también en estudios profesionales no son aceptables las prácticas de no
reprobación (social promotion) que en educación primaria tienen mucho sentido.
Pero en el terreno educativo y, sobre todo, en los niveles básicos, no hay razón
para trabajar con un enfoque competitivo similar al que prevalece en los deportes,
ya que el propósito no es identificar al alumno que supere a los demás, sino lograr
que todos alcancen al menos un nivel satisfactorio. Los objetivos de la educación
básica no tienen que ver con los niveles de complejidad más altos, sino que se
refieren a los conocimientos y habilidades que todo ciudadano debería manejar
para poder participar adecuada y fructíferamente en la sociedad en que vive.
No todo ciudadano tiene que dominar las sutilezas de la filología, pero todos
deberían tener competencias básicas en lectura y escritura. Al terminar secundaria
todo joven debería ser capaz, por ejemplo, de captar el contenido de un diario o
revista con suficiente comprensión para formarse un juicio propio sobre el asunto
de que se trate, y de redactar una página expresando en forma coherente algunas
ideas. También debería haberse aficionado a la lectura en un grado tal que,
además de lo indispensable por motivos laborales, le dedique una parte de su
tiempo libre simplemente por el gusto de hacerlo.
180
En forma similar, no todo ciudadano tiene que dominar temas avanzados de
matemáticas, ciencias naturales o ciencias sociales, pero todos deberían tener
competencias básicas en esas áreas. Al terminar secundaria los jóvenes no
necesitan dominar el álgebra superior o el cálculo infinitesimal, ni tampoco la
teoría de la relatividad o la bioquímica, ni tomar posición entre las disputas
teóricas de historiadores y sociólogos, pero todos debería ser capaces, por
ejemplo, de entender datos expresados en porcentajes o conceptos estadísticos
básicos; de comprender y disfrutar un texto de divulgación científica; de distinguir
la consistencia de un argumento científico de la charlatanería de los productores
de horóscopos o los que ven alienígenas por todas partes; y de comprender los
elementos básicos de un sistema democrático, las instituciones del estado y los
derechos humanos.
Para alcanzar esos niveles de competencia lectora, más allá de los enfoques que
adopten sus maestros, desde los primeros años de la primaria los chicos deberán
leer mucho, para que hacia el 3° o 4° grado logren hacer la transición de aprender
a leer a leer para aprender, y para ello es necesario que la enseñanza –y la
evaluación— no los lleven a perder la esperanza de alcanzar esas metas.
Algo similar debe decirse de las demás áreas curriculares; para ello los maestros
no necesitan conocimientos matemáticos y científicos avanzados, pero sí las
competencias necesarias para emplear modelos de enseñanza acordes con la
pedagogía constructivista. Además deberán utilizar evaluaciones formativas, para
que sus alumnos reciban una retroalimentación adecuada para seguir avanzando,
reafirmen la esperanza de que son capaces de aprender y adquieran el gusto por
conseguirlo en todas las áreas.
Una ciudadanía formada por egresados de secundaria con ese perfil estaría, sin
duda, mejor preparada que la actual para enfrentar los retos del mundo del
mañana, pero una educación básica con esas características prepararía mejor a
los jóvenes para acceder con buenas perspectivas de éxito a la educación media
superior, y luego a la superior.
181
Para que lo anterior pueda hacerse realidad, teniendo en cuenta el contexto actual
de la educación mexicana, y limitándonos a lo relativo a evaluación en el aula, es
necesaria una estrategia que integre varios elementos que, retomando lo dicho en
el Capítulo 3 y para terminar, pueden sintetizarse así:
Actividades de actualización para maestros en servicio que den una visión
adecuada de los enfoques de evaluación y la formación necesaria para
desarrollar las competencias propuestas por Brookhart, así como para
modificar las concepciones de los docentes.
Actividades de actualización para maestros en servicio en lo que se refiere
al conocimiento para la enseñanza de las áreas curriculares.
Acciones orientadas a la transformación de las prácticas de los maestros en
servicio, basadas en las actividades de actualización anteriores, pero de
mayor duración, en comunidades de aprendizaje y con acompañamiento de
asesores técnico-pedagógicos calificados.
Medidas de apoyo en el nivel de escuela y zona escolar que permitan la
puesta en práctica de las competencias adquiridas, por ejemplo adecuación
del tamaño de los grupos, aseguramiento de tiempo para los maestros, etc.
Medidas de apoyo en el nivel nacional y estatal que no obstaculicen la
puesta en práctica de las competencias adquiridas, en particular flexibilidad
curricular para que no se exija al maestro agotar los temas de un currículo
excesivamente cargado, y abandono de los usos desafortunados de las
evaluaciones en gran escala que van en sentido contrario a la concepción
educativa que supone la evaluación formativa.
Actividades de formación inicial para futuros maestros similares a las antes
descritas para los maestros en servicio.
182
Referencias
KATZKOWICZ, R. (2010). Diversidad y evaluación. En Anijovich, Rebeca, ed.
Evaluación significativa. Buenos Aires, Paidós, pp. 114-122
STIGGINS, RICHARD J. (2007), Assessment for Learning: An Essential
Foundation of Productive Instruction. En Reves, Douglas, ed. (2007). Ahead
of the Curve. The Power of Assessment to Transform Teaching and
Learning. Bloomington, Solution Tree Press, pp. 59-76.
Top Related