Download - LA EVALUACIÓN EN EL AULA PROMESAS Y ... - | … 50 2012 La evaluacion en el... · en el aula, así como en los ... evaluaciones hechas por los docentes tenían la ventaja de ...

LA EVALUACIÓN EN EL AULA

PROMESAS Y DESAFÍOS DE LA EVALUACIÓN FORMATIVA

Universidad Autónoma de Aguascalientes

2011

1

CONTENIDO

PRESENTACIÓN

INTRODUCCIÓN GENERAL

CAPÍTULO PRIMERO. LA EVALUACIÓN DEL APRENDIZAJE ESCOLAR

Introducción

Precisiones conceptuales

La evaluación desde la antigüedad hasta principios del siglo XX

La evaluación del aprendizaje durante la primera mitad del siglo XX

La evaluación del aprendizaje en la segunda mitad del siglo XX

Conclusión

CAPÍTULO SEGUNDO. LA EVALUACIÓN FORMATIVA

Introducción

Desarrollo de la noción de evaluación formativa

Difusión de la evaluación formativa en otros países

Trabajos empíricos sobre el impacto de la evaluación formativa

Perspectivas de la evaluación formativa

Conclusión

CAPÍTULO TERCERO. IMPLICACIONES PARA LA IMPLEMENTACIÓN

Introducción

Potencial de la evaluación formativa y dificultad de su implementación

Factores que influyen en la implementación de la evaluación formativa

Lecciones para las intervenciones en la práctica docente

Conclusión

CONCLUSIÓN GENERAL

3

PRESENTACIÓN

Este documento es el primer producto del proyecto de investigación Uso formativo

de la evaluación para mejorar el aprendizaje: estado actual del conocimiento y

diagnóstico de prácticas de maestros de primaria en Nuevo León.

El trabajo comenzó a gestarse en 2009. En un primer momento se llevó a cabo

una búsqueda de referencias sobre el tema, con la colaboración del Instituto de

Investigación, Innovación y Estudios de Posgrado para la Educación (IIIEPE) de

Monterrey, así como tres estudiantes de la Maestría en Investigación Educativa de

la Universidad Autónoma de Aguascalientes: Gustavo Mejía Pérez, Rocío Angélica

Sepúlveda Hernández y Mario González Magdaleno.

El trabajo comenzó formalmente en el segundo semestre de 2010, con la revisión

de la bibliografía localizada, en la que participaron los tesistas mencionados y dos

asistentes de investigación: Verónica Hernández Payán y Adriana Mercado Salas.

Con la información obtenida, en el primer semestre de 2011 el suscrito redactó

este documento, cuyo primer borrador fue revisado por la corresponsable del

proyecto, Guadalupe Ruiz Cuellar. Se recibieron también comentarios de un grupo

de profesores de la Escuela Normal Profr. Serafín Peña de Montemorelos, N. L.,

coordinado por el Prof. Ricardo J. Hernández Dimas; del Mtro. Efraín Alcalá López

del Instituto de Educación de Aguascalientes; y de investigadores de otras

instituciones, en particular Pedro A. Ravela Casmayou, del Instituto de Evaluación

Educativa de la Universidad Católica de Uruguay; Annette Santos del Real, Adán

Moisés García Medina, Gabriela Barba Martínez y Antonieta Aguilera García del

Instituto Nacional para la Evaluación de la Educación; y Guadalupe Pérez

Martínez, en su momento también de ese Instituto.

Para elaborar esta obra se utilizó una buena parte de las más de 700 referencias

localizadas, pero no todas; como esa bibliografía es valiosa por sí misma, se

incluye un CD con dos versiones de ella: una con todas las referencias en orden

alfabético y otra que las presenta ordenadas de manera sistemática, por lengua y

tipo de publicación. La mayor parte de las citas que se incluyen se refieren a

textos en inglés o francés, y su traducción es responsabilidad del autor.

4

Como se podrá apreciar en este documento y revisando los listados de referencias

mencionados, el campo de la evaluación formativa es hoy muy rico y está en pleno

desarrollo. También se podrá apreciar que el avance en México y, en general, en

el mundo de habla hispana, es menor. Por ello se considera que este documento

podrá ser de utilidad para todas las personas que se interesen en este tema, que

ofrece prometedoras opciones para la mejora de la calidad educativa.

Como resultado del proyecto se prepara un Volumen II, con una presentación de

los acercamientos metodológicos al estudio de las prácticas docentes, resultados

del diagnóstico de prácticas de evaluación de maestros de primaria de Nuevo

León y síntesis de los resultados de las tesis asociadas al proyecto principal.

Esperamos que esta obra y la que seguirá aporten elementos útiles para que las

prácticas docentes y, en especial, las prácticas de evaluación de los maestros

puedan enriquecerse de manera importante, con lo que su contribución a la

mejora del aprendizaje de sus alumnos deberá también incrementarse. Por ello

esperamos que las dos obras sean de interés para maestros de educación básica,

para asesores técnico-pedagógicos, directores y supervisores, así como para

docentes de instituciones formadoras de maestros.

Agradecemos al CONACYT el apoyo concedido al proyecto en el marco de la

convocatoria 2008 del Fondo SEP-SEB-CONACYT sobre educación básica.

Felipe Martínez Rizo

Universidad Autónoma de Aguascalientes

Julio de 2011

5

INTRODUCCIÓN GENERAL

7

Pocos educadores pondrán en tela de juicio que la evaluación –y en concreto la

del aprendizaje— es parte esencial del quehacer de maestros y alumnos, y que la

manera de realizarla tiene una influencia considerable sobre el desempeño de los

estudiantes. Las formas en que se lleva a cabo esa tarea, por otra parte, han

cambiado, aunque ciertos rasgos persisten mucho tiempo.

En lo que se refiere a las formas que ha adoptado la evaluación del aprendizaje de

los alumnos en educación básica, que es el foco de interés de este libro, se

pueden identificar unas cuantas grandes etapas:

Desde los inicios de los sistemas educativos modernos, y al menos hasta

fines del siglo XIX, la evaluación se reducía a la que hacía cada maestro,

basada en sus preguntas y su observación del desempeño de cada alumno

en el aula, así como en los ejercicios y trabajos que hacía. Esas

evaluaciones hechas por los docentes tenían la ventaja de considerar el

contexto de cada estudiante, pero también serias limitaciones que se

hicieron más evidentes a medida que accedían a la escuela alumnos

procedentes de familias de condiciones cada vez más desfavorables.

A principios del siglo XX surgieron formas de evaluación llamadas objetivas,

consistentes en conjuntos de preguntas que requieren de una respuesta

muy corta, o bien solamente de seleccionar entre opciones de respuesta

predefinidas. Esos instrumentos se difundieron primero en el país en el que

aparecieron, los Estados Unidos, y luego en muchos otros, y su influencia

fue grande tanto en sus versiones para aplicación en gran escala, como por

el considerable peso que tuvieron sobre las prácticas docentes.

En la última parte del siglo XX muchos educadores y especialistas en

evaluación manifestaron insatisfacción con respecto a esas herramientas,

cuyas limitaciones se ponían de manifiesto por el creciente número de usos

inadecuados derivados de su proliferación. Comenzaron también a surgir

formas alternativas de evaluar el aprendizaje, derivadas de los avances de

la psicología cognitiva, y que se designaron con expresiones como

evaluación formativa, auténtica, para el aprendizaje, como aprendizaje, etc.

8

El panorama de la evaluación del aprendizaje en educación básica a principios del

siglo XXI, en muchos países y en México en particular, presenta varias facetas:

Las prácticas tradicionales siguen presentes en no pocos salones de clase.

Muchos maestros siguen tratando de que sus evaluaciones se asemejen a

las pruebas surgidas en la primera mitad del siglo pasado, o adquiriendo

instrumentos de ese tipo para sus evaluaciones bimestrales y otras.

Se han extendido aplicaciones masivas de esos tipos de pruebas, cuyos

resultados suelen entenderse mal, lo que ha llevado a usos inadecuados

con consecuencias cada vez más visibles.

Los enfoques novedosos de evaluación formativa y similares comienzan a

considerarse en el currículo y a recomendarse a los maestros, pero sin el

sustento y los procesos que serían necesarios para transformar en

profundidad y en sentido positivo las prácticas.

De hecho, algunos esfuerzos en marcha en México se refieren precisamente a

nuevas formas de evaluación, cuyo uso se busca promover entre los maestros,

pero muchas veces en forma insuficientemente sustentada. Es importante que

esos esfuerzos tengan en cuenta lo que se puede esperar realmente de esas

innovaciones y conozcan también los errores a evitar. Para ello hay que

aprovechar la experiencia de los sistemas educativos que han avanzado más en

esa dirección, lo que esta obra permitirá hacer, al poner al alcance de los lectores

la amplísima literatura revisada, producida sobre todo en países en los que se

hace más investigación sobre los sistemas educativos y su problemática pero que,

con el debido cuidado, es ampliamente aplicable a nuestro sistema educativo.

Como pretende indicar el subtítulo –promesas y desafíos— se parte de la idea de

que quienes quieran apostar a nuevas formas de evaluación, como un elemento

que podría contribuir significativamente a mejorar la calidad educativa, deben ser

conscientes de las dificultades de la tarea y de las múltiples aristas que deberán

atender para tener éxito en la empresa.

9

Por ello se espera que esta obra sea de utilidad especialmente para quienes se

dedican a la actualización de docentes en servicio, para las personas que trabajan

en instituciones formadoras de maestros, autoridades educativas y estudiosos de

la educación y, sobre todo, para los maestros mismos, que tienen en sus manos la

interesante y desafiante tarea de formar a las nuevas generaciones de mexicanos.

La obra se organiza en tres capítulos, según la lógica siguiente:

El primero presenta la evolución de las prácticas de evaluación utilizadas

por los maestros de educación primaria a lo largo del tiempo, desarrollando

en detalle las etapas mencionadas sintéticamente párrafos atrás. No se

trata todavía de evaluación formativa, sino de evaluación del aprendizaje,

en las formas previas al surgimiento de los actuales enfoques formativos.

El capítulo segundo se dedica al desarrollo de esos nuevos enfoques, en

dos versiones: la más antigua, surgida en los Estados Unidos y el Reino

Unido, y la que se ha desarrollado en medios francófonos, inspirada en la

anterior, pero que ha tomado rumbos propios. Se menciona la difusión de

la evaluación formativa en otros lugares pero brevemente, porque no se

aprecia que en ellos haya habido aportaciones originales al desarrollo del

concepto. En cambio se incluye una revisión de estudios empíricos sobre el

impacto de esa forma de evaluación en el rendimiento de los alumnos,

contrastando trabajos que llegan a conclusiones abiertamente optimistas

con los que advierten limitaciones que invitan a la prudencia. Se plantean,

por último, dos perspectivas en cuanto al futuro de estas tendencias.

A partir de ello, el tercer capítulo retoma la idea del potencial de la

evaluación formativa y, al mismo tiempo, de la dificultad de implementarla

adecuadamente; analiza los factores que influyen en el trabajo de los

maestros, cuyo número y variedad explican la dificultad para modificar

profundamente tales prácticas; y sintetiza lecciones que se pueden sacar

de la experiencia internacional en cuanto a los esfuerzos que busquen

precisamente tales cambios.

11

CAPÍTULO PRIMERO

LA EVALUACIÓN DEL APRENDIZAJE ESCOLAR

13

Introducción

Este capítulo ofrece un panorama de la forma en que ha evolucionado la manera

en que los maestros de educación básica evalúan el avance de sus alumnos en su

esfuerzo por alcanzar los aprendizajes estipulados en el currículo.

Después de un apartado dedicado a precisar el sentido en que se utilizan en este

trabajo los conceptos básicos sobre evaluación en general, evaluación del

aprendizaje y evaluación formativa, los apartados siguientes desarrollan en detalle

las tres grandes etapas mencionadas en la Introducción General:

La que llega hasta principios del siglo XX, con las formas tradicionales de

evaluación que, pese al tiempo transcurrido, todavía se manifiestan en las

prácticas actuales.

La que comenzó en las primeras décadas del siglo XX y se extendió hasta

la segunda mitad del mismo, caracterizada por la invención de pruebas

llamadas objetivas, adoptadas por muchos como alternativas preferibles a

las evaluaciones que hacían tradicionalmente los maestros y que marcaron

la práctica de muchas generaciones de docentes.

Y la que comenzó en la segunda mitad del siglo pasado y se extiende hasta

nuestros días, con los avances que llevaron a la proliferación de

aplicaciones en escala nacional e internacional, con consecuencias fuertes

para las escuelas y los maestros.

En la conclusión del capítulo se reflexiona sobre las consecuencias de esa

extensión de las evaluaciones en gran escala y su impacto sobre las prácticas de

los docentes, como punto de partida para el siguiente capítulo, en el que se

presentará lo relativo a la evaluación formativa, como alternativa y complemento

de las pruebas.

En cada etapa se presentan algunos elementos del contexto social, así como del

avance de la psicología y la psicometría, que explican los desarrollos que tuvieron

lugar en el campo de la evaluación.

14

1. Precisiones conceptuales

1.1. El campo semántico: medición, pruebas, evaluación

Con base en trabajos previos, en este documento la noción de evaluación se

define, de manera general, como el juicio de valor que resulta de contrastar el

resultado de la medición de una realidad empírica con un parámetro normativo

previamente definido. (Cfr. INEE, 2006: 18)

Evaluar una realidad cualquiera implica primeramente medirla, pero no se reduce

a ello. Para ilustrar esta idea puede ser útil el siguiente ejemplo: si se toma la

temperatura de una persona y el termómetro marca 41° C se considera que hay

un problema, que la salud de la persona no es buena; en otras palabras, se hace

un juicio valorativo sobre la salud de la persona, lo que implica más que la sola

medición. Para llegar al juicio es necesario dar tres pasos: medir la temperatura

corporal actual (41° C); conocer la temperatura normal de una persona sana (±

36.5° C); y comparar los dos valores anteriores.

Así ocurre en toda evaluación. En el caso del aprendizaje se puede pensar que se

le ha evaluado sólo porque se ha aplicado una prueba de rendimiento, cuando en

realidad lo único que se ha hecho es medirlo, con más o menos precisión. Para

que haya evaluación se debe llegar a un juicio sobre lo adecuado o inadecuado

del aprendizaje observado, lo que implica definir lo que los alumnos deberían

saber (definir un estándar), para comparar con ese referente el resultado de la

medición y así llegar al juicio sobre lo adecuado o inadecuado del aprendizaje

observado. Adviértase además que la noción de calidad es indisociable de la de

evaluación, ya que siempre que se evalúa algo se trata de llegar a un juicio sobre

su calidad, sobre qué tan bueno o malo, adecuado o inadecuado es, en algún

sentido particular, pues la calidad es también una noción multidimensional.

Por su estrecha relación, los términos medición y evaluación pertenecen a un

mismo campo semántico; en el ámbito educativo y, de nuevo en el caso del nivel

de aprendizaje, el término pruebas también pertenece a ese campo, debido a que

la medición del aprendizaje suele hacerse con ese tipo de instrumentos.

15

En inglés measurement y test equivalen a las palabras en español medición y

pruebas, pero hay dos términos que se relacionan con el de evaluación: evaluation

y assessment.

Originalmente el sentido del verbo to assess y el sustantivo assessment era el de

estimar el valor de un bien material, como un terreno, una casa o joya. Evaluation

y assessment se distinguen en inglés como en español evaluación y valuación o

avalúo, pero hay otro campo en el que evaluación se opone más bien a valoración.

Valoración alude al uso de to assess y assessment en el campo de la medicina y

la salud, y marca más claramente el sentido actual de los términos en el ámbito

educativo, ya que hacen referencia al sentido en que un médico valora o lleva a

cabo la valoración del estado de salud de un paciente.

El verbo to assess parece derivar etimológicamente del latín ad sedere o assidere,

que quiere decir sentarse al lado de alguien. Para valorar al paciente el médico

debe sentarse a su lado, como ocurre también en el caso de evaluaciones

formativas en el contexto del aula, cuando el maestro se sienta (literal o

metafóricamente) al lado del alumno, captando lo que sabe o puede hacer para

ayudarle a avanzar en su aprendizaje, sentido muy distante del que

correspondería a la imagen típica de una situación de evaluación sumativa, con la

imagen familiar de una sala de examen en la que los alumnos escriben

silenciosamente en pupitres separados. (James, 2010: 161)

Como resultado final de estos diversos sentidos de los términos, en educación

assessment denota hoy evaluación (valoración) de sujetos individuales, en

particular la evaluación del aprendizaje de los alumnos, mientras evaluation alude

a evaluandos impersonales, como el currículo, las políticas, programas o

proyectos educativos. (Cfr. Choppin, 1985: 1747-1748; James, 2010: 161)

Sin embargo, en español, como en francés (Cfr. Laveault, 2010: 432), tanto

evaluation como assessment pueden y suelen traducirse como evaluación, por lo

que siempre conviene precisar el objeto al que se refiere en cada caso la acción

de evaluar, diciendo por ejemplo evaluación de aprendizaje, evaluación de

escuelas, evaluación de programas, etcétera.

16

Esta precisión es necesaria también para formas particulares de la evaluación de

personas o de entidades impersonales, como la formativa y la sumativa.

En los medios especializados de habla inglesa no habrá probablemente dificultad

para entender que la expresión formative evaluation no se refiere al aprendizaje de

alumnos individuales, para lo que se utilizará formative assessment. Mientras que

en español no bastará traducir ninguna de las dos expresiones como evaluación

formativa, sino que habrá que añadir, según sea el caso, del currículo, del

aprendizaje, etcétera.

En este estado del conocimiento, como el objeto de estudio del proyecto en cuyo

marco se inscribe el documento es el que constituyen las prácticas que llevan a

cabo los maestros de primaria para valorar, precisamente, el aprendizaje de sus

alumnos, se usarán las expresiones evaluación en aula y evaluación formativa, sin

precisar que se refieren al aprendizaje, como traducciones abreviadas,

respectivamente, de classroom assessment y formative assessment.

1.2. Tipos de evaluación

La evaluación puede presentar muchas variantes, que se pueden clasificar con

base en diversos criterios (Cfr., por ejemplo, Casanova, 1998). Sin pretensiones

de exhaustividad, se pueden distinguir, entre otros, los tipos siguientes.

Según el objeto de la evaluación o evaluando. En el medio educativo es

frecuente que la evaluación se identifique con la que tiene por objeto el

aprendizaje que alcanzan los estudiantes, pero en realidad se puede referir

a muchos otros objetos o evaluandos, como otros aspectos relativos a los

alumnos (por ejemplo el grado en que respetan las normas de disciplina, la

regularidad de su asistencia, entre otros) pero también se puede evaluar el

desempeño de los docentes y de los directores de escuela, los plateles

escolares como unidades organizacionales, la infraestructura educativa, o

el sistema educativo mismo como tal.

Según el agente evaluador, pudiendo distinguirse evaluación interna o

externa, y también autoevaluación, coevaluación y heteroevaluación.

17

Según el contenido que, en el caso del aprendizaje, puede consistir en

aspectos cognitivos y no cognitivos. En cuanto a los aspectos cognitivos, se

puede tratar del aprendizaje de la lengua, las matemáticas, las ciencias

naturales, etc. Y en un mismo campo hay diversos contenidos, niveles

cognitivos de mayor o menor complejidad, etc.

Según la forma, en función de la metodología y los instrumentos utilizados;

en evaluación de aprendizajes se pueden distinguir pruebas objetivas o de

ensayo, portafolios de evidencias, etc. En este punto se puede distinguir

también si se utilizan preguntas de respuesta estructurada o construida,

breve (monosilábica) o larga, así como el nivel de dificultad de las pruebas.

Una variante particular tiene en cuenta la distancia que separe las

evaluaciones de las tareas que se presentan en la vida real: evaluación

auténtica o artificial.

Según el referente con el que se comparen los resultados de la medición

para llegar al juicio: evaluación ipsativa (el mismo sujeto a lo largo del

tiempo), normativa (el grupo de referencia) o criterial (ciertos estándares

curriculares u otros).

Según el número de sujetos a los que se refiere, que permite distinguir

entre evaluaciones en grande y en pequeña escala.

Según el momento en que se lleve a cabo, sentido en el que se puede

distinguir evaluación inicial, intermedia o final.

Según el propósito que se persiga: evaluación diagnóstica (para

información inicial), sumativa (para valoración final) y formativa (para

retroalimentar); pruebas de selección o ingreso, de certificación, etc.

Según las consecuencias que tenga: evaluación de alto y bajo impacto.

Como ocurre en toda tipología, las variantes que se identifican según cada uno de

los diferentes criterios utilizados se pueden combinar, de manera que puede haber

evaluaciones internas o externas de alumnos o de maestros, evaluaciones

normativas o criteriales en grande o en pequeña escala, etc.

18

De especial interés para los propósitos de este trabajo es la precisión de que no

toda evaluación intermedia es necesariamente formativa, ni toda evaluación final

obligadamente sumativa. Tampoco todas las evaluaciones en aula son formativas

ni todas las evaluaciones formativas son en aula. (Cfr. Black y Wiliam 2004)

El carácter formativo de una evaluación no depende principalmente del momento y

la escala en que se haga, sino del propósito que la oriente y la manera en que se

lleve a cabo y se utilicen sus resultados, aunque es obvio que algunos momentos

y escalas se prestan más que otros para que haya formas y usos congruentes con

un propósito formativo.

2. La evaluación desde la antigüedad hasta principios del siglo XX

La evaluación del aprendizaje que alcanzan los alumnos es un componente

indisociable de la tarea de enseñar, por lo que su historia se remonta a épocas

muy remotas, de manera menos sistemática con los exámenes de Sócrates y los

sofistas, y con un alto grado de estandarización con los exámenes utilizados en

China para la selección de funcionarios imperiales, al parecer desde el siglo

tercero antes de nuestra era, durante la dinastía Han. (Herman, 2010: 506)

Hasta que se desarrollaron los sistemas educativos de tipo moderno –de carácter

público, universales, obligatorios, gratuitos y, muchas veces, laicos— lo que

comenzó a ocurrir hasta el siglo XVIII, primero en Prusia y luego en otros países

europeos, la enseñanza de las primeras letras se daba en el seno de los hogares

acomodados, a cargo de preceptores, o en pequeñas escuelas parroquiales o

gremiales. En todos los casos el número de alumnos era muy reducido y no existía

la noción de grado escolar.

La evaluación de los conocimientos que alcanzaban los alumnos no implicaba, por

lo tanto, el uso de procedimientos dotados de cierta formalidad, sino que bastaba

el juicio del maestro que, a su vez, no necesitaba apoyarse en instrumentos

especiales, sino que se basaba en sus preguntas y la observación cotidiana que el

docente tenía del progreso de cada uno de sus estudiantes. Tampoco se debía

decidir anualmente si un alumno debía o no ser promovido al siguiente grado o

nivel, puesto que no existían estos elementos de la estructura del sistema escolar.

19

Philipp Aries recuerda que hasta el siglo XVII no existía enseñanza en lengua

vulgar que correspondiera al actual nivel de primaria… en la Edad Media, y al

menos hasta el siglo XVI, sólo existía una escuela en latín, la escuela de

gramática (1973: 318).

A diferencia de las escuelas elementales que hoy conocemos, las escuelas de

gramática no se destinaban a niños, sino a jóvenes, y tampoco a toda la

población, sino sólo a una minoría que llegaría a la universidad para estudiar

filosofía, teología, derecho o medicina. (Cfr. Martínez Rizo, 2006)

Se daba por sentado que la gran mayoría de la población no necesitaba saber leer

y escribir, ya que se dedicaría a actividades manuales que no lo requerían. En

momentos muy posteriores la situación no había cambiado mucho. En Francia, el

Decreto Real del 13 de diciembre de 1698 establece:

Artículo 9. Queremos que se establezcan maestros y maestras, hasta

donde sea posible, en todas las parroquias donde no haya, para instruir a

todos los niños, sobre todo a aquellos cuyos padres y madres hayan

profesado la religión que se dice reformada, enseñándoles el catecismo y

las oraciones necesarias, llevándolos a misa todos los días hábiles… y

también para enseñarles a leer, e incluso a escribir a los que pudieran

necesitarlo… (Cfr. Gaulupeau, 1992: 158)

Las escuelas de primeras letras de esa época no se parecían a las primarias de

organización completa o con grados (graded) con las que estamos familiarizados,

sino a nuestras escuelas de organización incompleta o multigrado.

Aries señala que, todavía en el siglo XVI y en los nacientes liceos o gimnasios, la

noción de grados era discutida, y cita como evidencia el siguiente curioso pasaje

de la memoria de J. Sturm sobre el proyecto de organización del gimansio de

Estrasburgo, en 1538:

Vale más las clases en un solo lugar, en vez de dispersarlas en varios. Si

se tienen diez ovejas sería insensato asigna un pastor y una pradera a cada

una… no lo sería menos confiar a muchos maestros aislados los alumnos

que uno solo puede instruir… (Aries, 1973: 199)

20

La masificación de la enseñanza elemental, al volverse una necesidad social y

verse luego como un derecho de todo futuro ciudadano, trajo consigo la necesidad

de formas de organización escolar que permitieran atender a números grandes de

alumnos en forma eficiente.

El sistema de organización que consiste en agrupar a los alumnos de la misma

edad o nivel de avance similar en grupos relativamente homogéneos surgió en

Prusia en el siglo XVIII, y tiempo después se impuso como la forma preferente de

organización escolar, con preferencia al sistema monitorial o tutorial, mejor

conocido en nuestro medio como lancasteriano, desarrollado en Inglaterra y

Escocia a principios del XIX Las escuelas organizadas por grados fueron un

desarrollo natural del sistema de Bell y Lancaster. (Cfr. Thomas y Shaw, 1992: 1)

En Estados Unidos Horace Mann impulsó lo que sería el modelo por antonomasia

de escuela con grados, tras una visita a Prusia en 1843. En 1848 se inauguró la

Grammar School de Quincy, Massachussets, con cuatro plantas, un aula separada

para cada maestro y un patio amplio para reuniones generales. El número de

alumnos permitía agruparlos en forma homogénea y los maestros no debían

ocuparse ya de toda la gama de edades y niveles, sino que cada uno atendía un

solo grado; al final del curso los alumnos pasaban o reprobaban. (Cfr. Goodlad y

Anderson, 1987: 45-48)

En las antiguas escuelas sin grados la enseñanza y la evaluación se desarrollaban

en forma muy distinta a la que hoy se considera deseable, y el papel del maestro

consistía mucho más en evaluar que en enseñar. La misma diversidad de edades

y niveles de avance de los alumnos dificultaba una enseñanza grupal, que se

extendió sólo tras la introducción de la organización por grados. Antes cada

alumno debía leer y releer por su cuenta los pasajes indicados por el maestro, que

luego llamaba a cada uno y lo hacía recitar lo que había aprendido. Si el resultado

de esa toma de lección era favorable, el maestro indicaba nuevos pasajes a

estudiar; en caso contrario, el estudiante regresaba a repasar los mismos pasajes

una y otra vez, hasta que consiguiera aprenderlos a satisfacción del docente.

21

La masificación de los sistemas educativos derivados de la modernidad, a lo largo

del siglo XIX se entiende pues, al menos en parte, como respuesta a la necesidad

social de contar con trabajadores algo más preparados para una economía

basada en la industria y con crecientes intercambios comerciales. Como se ha

mostrado, además, la necesidad de atender grupos numerosos de alumnos trajo

consigo nuevas exigencias que llevaron al desarrollo de sistemas pedagógicos

como el lancasteriano y las escuelas organizadas por grados, así como a la

creación de instituciones especializadas para la preparación de los futuros

maestros: las escuelas normales.

El desarrollo de la psicología y otras ciencias que tienen por objeto de estudio el

comportamiento de los individuos y las sociedades humanas, por otra parte, se dio

hasta la segunda mitad del siglo XIX, por lo que se entiende que las concepciones

pedagógicas que prevalecían en las escuelas de la modernidad incluyeran las

ideas de algunos precursores ilustres, como Vives, Comenio y Pestalozzi, pero

conservaran muchos rasgos debidos a influencias anteriores precisas, en concreto

las inspiradas en una forma de instrucción elemental que se desarrolla oralmente,

en la forma de preguntas y respuestas, y se conoce como catecismo (Resnick et

al., 2010: 400), siguiendo las huellas de Lutero en los países de la Reforma, y las

de jesuitas como Ripalda en los de la Contrarreforma.

Una consecuencia menos analizada de la masificación de los sistemas educativos

es la que tuvo que ver con los sistemas de evaluación.

Además de que la organización por grados trajo consigo nuevas formas de

enseñar, otra implicación es que cuando los niños que aprendían a leer y escribir

eran una minoría, su nivel era también menos heterogéneo que en la actualidad, y

los estándares de calidad que los maestros utilizaban implícitamente al formular

juicios de evaluación eran también relativamente simples, ya que sólo debían

referirse a las habilidades básicas de leer, escribir y contar.

Al generalizarse el acceso a la educación, en cambio, creció también la

heterogeneidad de los alumnos, y fue más difícil mantener estándares de calidad

comparables.

22

Una de las formas en que los nacientes sistemas educativos enfrentaron esta

dificultad fue mediante la creación de cuerpos especiales de supervisores o

inspectores, que en muchos casos siguen existiendo y cuya tarea fundamental

incluye el asegurar que en todos los planteles a su cargo se tuvieran niveles

mínimos de calidad.

En el siglo XX otra reacción ante las limitaciones de las evaluaciones tradicionales

a cargo del maestro consistió en el desarrollo de nuevas formas de evaluación,

basadas en pruebas estandarizadas, como se verá en el apartado siguiente.

3. La evaluación del aprendizaje durante la primera mitad del siglo XX

Los cambios en las formas de evaluar el aprendizaje de los alumnos a los que se

referirá este apartado se entienden en el marco de transformaciones mayores que

ocurrieron en los sistemas educativos y en su entorno social y económico.

Durante la primera mitad del siglo XX, y hasta la Segunda Guerra Mundial, en

paralelo a la maduración de las sociedades industriales los sistemas educativos se

desarrollaron también distinguiendo, con numerosas variantes, tres etapas:

educación primaria, secundaria y terciaria, o básica, media y superior.

En la enseñanza media o secundaria se suelen distinguir dos etapas: secundaria o

media básica y superior. En la enseñanza terciaria o superior hay más variantes

de duración y nivel, distinguiéndose en especial los estudios de orientación más

técnica y los orientados al ejercicio de profesiones liberales, la investigación o los

puestos directivos de mayor jerarquía.

En las sociedades preindustriales sólo una pequeña minoría de la población sabía

leer y escribir y se consideraba normal que el grueso de la población no fuera a la

escuela. En la modernidad, hija de la ilustración y la revolución industrial, se veía

necesaria la alfabetización universal y por ello surgieron los sistemas educativos

que conocemos.

Hasta entrado el siglo XX, sin embargo, en casi todas partes los sistemas

educativos estaban estructurados con base en el supuesto implícito de que era

natural que sólo pocos alumnos tuvieran altos niveles de aprendizaje en la escuela

23

primaria o elemental y accedieran a niveles superiores, en tanto que el grueso del

alumnado no lo conseguía y debía dejar la escuela al final de la primaria, para

dedicarse a ocupaciones de tipo manual.

Lo anterior se refleja en el hecho de que la expansión de los sistemas educativos

durante el siglo XIX se caracterizó en general por la temprana separación de las

trayectorias corta y larga de la escolaridad, con lo que se suele denominar un

sistema educativo dual.

La opción contraria la constituyen los sistemas educativos de tipo comprensivo,

que se distinguen porque en ellos, al menos en principio, todos los alumnos siguen

asistiendo a escuelas similares durante la educación secundaria, al menos en su

parte básica y luego, en diferente medida, también en la superior.

La excepción a la tendencia general apuntada antes la constituyeron los Estados

Unidos de América que, desde el siglo XIX, adoptaron un enfoque comprensivo

para su educación secundaria; en Europa la adopción de un modelo comprensivo

se dio por vez primera hasta mediados del siglo XX, en Suecia. (Cfr. Husén, 1986)

Con la sociedad y su sistema educativo las ideas psicológicas evolucionaron

también y el conductismo (behaviorism) se impuso como corriente dominante, no

sin relación con el desarrollo de sistemas taylorianos de producción industrial. Con

el conductismo se relacionan las concepciones asociacionistas del aprendizaje

que, junto con resabios de las concepciones derivadas del uso de catecismos,

siguieron marcando el trabajo de muchos maestros.

Resnick y otros señalan que al masificarse los sistemas educativos la enseñanza

tipo catecismo pasó a las aulas laicas. Los contenidos se ampliaron, incluyendo

elementos de aritmética, la lectura de una gama de textos, la redacción y la

historia patria, pero la forma de interacción permaneció notablemente constante.

Después de que los alumnos leían un texto o resolvían algunos ejercicios

aritméticos, el profesor les hacía una serie de preguntas, para verificar si habían

leído el texto y recordaban su contenido o si sus respuestas a los ejercicios eran

correctas. Esos autores señalan que la forma del catecismo todavía está presente

en lo que ahora llamamos “enseñanza estándar basada en recitación” y añaden:

24

En 1979, Hugh Mehan, buscando ofrecer una descripción estructurada de la

enseñanza que había observado en aulas de primer grado de primaria,

describía una secuencia que ha llegado a ser conocida como I-R-E (Mehan,

1979). El maestro iniciaba (I) un intercambio en tres pasos; un alumno –que

podía ofrecerse voluntariamente o ser designado por el maestro—respondía

(R); luego el maestro evaluaba la respuesta, sea aceptándola como

correcta o indicando que no lo era (E). (Resnick et al., 2010: 400)

En forma paralela a los cambios de la sociedad y las escuelas, se desarrolló otra

tendencia del mayor interés para este trabajo: la revolución en la medición de

fenómenos psicológicos y sociales que representó la psicometría, que tuvo lugar

fundamentalmente en los Estados Unidos, donde las ideas seminales de

estudiosos europeos como Wundt y Binet encontraron un terreno favorable.

En 1890 J. McKeen Cattell, discípulo de Wundt, inventó la palabra test y publicó

un texto fundacional con el artículo Mental Tests and Measurements,. Las pruebas

de inteligencia desarrolladas por Binet fueron adaptadas por Terman en Stanford

en 1916 y se extendieron al ser utilizadas por el ejército americano, con el Army

Test de Yerkes, Terman y otros en 1917 (de Landsheere, 1996: 56-71)

Como se ha apuntado ya, los Estados Unidos desarrollaron antes que los países

europeos un sistema de educación de cobertura masiva, primero en los niveles

básicos, con educadores como Horace Mann, y luego en la educación media y

superior, sobre todo a partir de la Ley Morrill de 1862.

Por ello no sorprende que fuera en ese país donde se desarrollaron versiones

tempranas de evaluaciones en gran escala, con la aplicación de pruebas impresas

de historia a poco más de 500 escolares de 19 escuelas de Boston en 1845. Entre

1895 y 1897 J. M. Rice aplicó una prueba de ortografía a 16,000 alumnos, y más

tarde una de aritmética a 13,000 y otra de comprensión de lectura a 8,300.

El enfoque comprensivo de la educación norteamericana llevó también, décadas

antes que en Europa, a un fuerte crecimiento del alumnado de la educación

superior que explica el nacimiento del College Board (originalmente College

Entrance Examination Board) el 17 de noviembre de 1900.

25

Los procesos de selección para ingreso a las universidades se hicieron complejos

debido al incremento de la proporción de jóvenes que terminaban la educación

media superior (senior high school) y a la proliferación de instituciones (colleges)

de muy diverso perfil. Debe tenerse en cuenta que hacia 1900 en los grandes

países europeos las universidades se contaban por unidades, mientras que en

Estados Unidos eran ya cerca de mil.

El primer historiador del College Board, Claude M. Fuess, señala que la fundación

de esta institución fue el primer intento organizado de introducir la ley y el orden en

una anarquía educativa que, a fines del siglo XIX, había llegado a ser

exasperante, sin duda casi intolerable, para los directores de escuelas, y añade

que había un consenso preocupantemente reducido entre los colleges en cuanto

al tipo de preparación en ciertas áreas de contenido y en cuanto a los estándares

de desempeño que debían pedirse a los aspirantes. (Citado en Donlon, 1984: 1)

Las primeras pruebas del College Board eran exámenes de tipo ensayo en nueve

áreas, acordes con las concepciones curriculares de la época: inglés, francés,

alemán, latín, griego, historia, matemáticas, química, física. Como los sustentantes

se presentaban en distintos lugares, se cuidaba la comparabilidad aplicándolos en

forma simultánea y asegurando la uniformidad de contenido, de condiciones de

administración y de calificación de las respuestas. La primera aplicación, en junio

de 1901, implicó a 973 aspirantes. En 1902 se aplicaron 1,362 pruebas y para

1910 el número llegó a 3,731. (Donlon, 1984: 1)

La dificultad de calificar de manera rápida y confiable cantidades crecientes de

exámenes de tipo ensayo llevó a la búsqueda de alternativas y se desarrollaron

las pruebas objetivas, de respuesta abierta breve o previamente estructurada,

especialmente de opción múltiple, con varias posibles respuestas predefinidas,

entre las cuales el alumno debe únicamente escoger y marcar la que crea

correcta. Diseñadas por Yerkes y Moore, que habían adquirido experiencia con el

Army Test, y bajo la coordinación de Carl Brigham, las pruebas del Scholastic

Aptitude Test (SAT) se gestaron a partir de 1925 y se administraron por primera

vez el 23 de junio de 1926, a 8,040 sustentantes. (Donlon, 1984: 2)

26

La constatación de que el porcentaje de sustentantes con puntajes aprobatorios

variaba mucho de un año a otro hizo pensar que lo que cambiaba en realidad era

el grado de dificultad de la prueba, y no el nivel promedio de los sustentantes, que

se podía suponer más estable. Por ello a principios de los años 30 se decidió

establecer una proporción fija de aprobados, ajustando las puntuaciones del

conjunto de sustentantes de cada año en consecuencia. La equiparación de

versiones y el cuidado de la estabilidad de la prueba a lo largo del tiempo

comenzaron a hacerse en 1941. (Donlon, 1984: 3-8)

Desde la década de 1920, una de las universidades americanas en donde los

trabajos de construcción de pruebas estandarizadas se desarrolló con fuerza fue

la de Princeton, a cuyo personal académico pertenecía Carl Brigham, el principal

autor del SAT. En 1948, la oficina de Princeton que se dedicaba a la elaboración

de tests se separó de la universidad, constituyéndose formalmente como una

entidad privada diferente, el Educational Testing Service, sin duda el centro

especializado en producción de instrumentos psicométricos más fuerte del mundo.

(De Landsheere 1986:150).

Además del College Board y el ETS, en la segunda mitad del siglo XX otras

organizaciones de Estados Unidos, como el American College Testing (ACT) y la

de Universidad Iowa, desarrollaron pruebas en gran escala. Fuera de ese país,

especialmente en las primeras décadas del siglo, fue casi únicamente en el ámbito

anglosajón donde hubo avances similares, y en escala menor, al grado de que la

psicometría se llegó a considerar una disciplina meramente estadounidense.

Las difíciles circunstancias europeas desde antes de la Primera Guerra Mundial

hasta después de la Segunda explican, sin duda, el menor avance de estos temas

en países de gran tradición académica como Alemania y Francia. Lo anterior llegó

a ser tan marcado que en 1931, al escuchar que los participantes en un congreso

internacional se referían a la psicometría como estadounidense, E. L. Thorndike

consideró necesario protestar, diciendo que por el bien de la ciencia y por nuestro

bienestar, sería preferible que las pruebas estandarizadas no fueran denominadas

'exámenes estadounidenses. (Joncich, 1968, citado por De Landsheere, 1986: 68)

27

Así pues, en los primeros años del siglo XX comenzó el desarrollo de lo que se

conoce ahora como la Teoría Clásica de las Pruebas, a partir de la teoría de la

confiabilidad y el modelo estadístico de las puntuaciones, con las nociones de

puntaje verdadero, error de medida y confiabilidad (Keeves, 1997: 707). Los

fundamentos estadísticos de la disciplina se debieron a ingleses como Spearman,

pero la obra fundacional del nuevo campo teórico fue la del norteamericano

Edward L. Thorndike, An introduction to theory of mental and social measurement,

publicada en Nueva York en 1904. (Martínez Arias, 1995: 40)

En la cuarta década del siglo, con publicaciones como Psychometrika (1935) y

Educational and Psychological Measurement (1941), la teoría de las pruebas en

su versión clásica puede considerarse completa con la aparición del libro de

Gulliksen, Theory of mental tests, en 1950 (Martínez Arias, 1995: 42).

La primera edición del Mental Measurement Yearbook del Instituto Buros es de

1938 y la Psychometric Society fue fundada a iniciativa de Thurstone en 1935. En

1946 Stevens formuló la clasificación ahora canónica de los niveles de medición

nominal, ordinal, de intervalo y de razón. (de Landsheere, 1986: 68)

Los pioneros del desarrollo de las pruebas estandarizadas estaban convencidos

de que las escuelas americanas tenían serios problemas de calidad, y de que las

evaluaciones que hacían los maestros tenían deficiencias graves, por lo que no

eran útiles para sustentar diagnósticos que dieran bases sólidas para estrategias

de mejora. Recordemos que, junto al conductismo y el asociacionismo, la vieja

influencia del catecismo seguía presente en las escuelas, con la enseñanza

estándar basada en recitación y la secuencia inicio por el maestro-respuesta del

alumno-evaluación por el maestro a la que ya se ha hecho alusión.

Por ello los educadores de los inicios de la psicometría se propusieron desarrollar

otro tipo de instrumentos, cuyos resultados permitieran comparar los niveles de

rendimiento de alumnos de diferentes escuelas. Shepard cita la opinión de

Thorndike, en el sentido de que las nuevas pruebas serían un remedio para la

escandalosa falta de confiabilidad de los exámenes aplicados por los maestros,

demostrada en varios estudios previos. (Shepard, 2006: 623)

28

La ventaja de la comparabilidad que ofrecían los nuevos instrumentos era clara,

pero sus limitaciones, hoy ampliamente aceptadas, fueron advertidas desde

entonces. Ya en 1923 B. D. Word se quejaba de que las pruebas estandarizadas

medían sólo hechos aislados y piezas de información, en lugar de capacidad de

razonamiento, habilidad organizadora, etc. Otro impulsor de estos instrumentos,

Ralph Tyler, subrayó también desde los primeros años la necesidad de verlos no

como un proceso separado de la enseñanza, sino como parte integral de ésta.

Pese a ello, la tendencia dominante fue la de considerar las pruebas en gran

escala como la forma preferida de evaluación, en tanto que la que realizan

diariamente los maestros en las aulas se veía como una forma secundaria, que

debería subordinarse a la primera, cuyos principios metodológicos debía imitar.

El contenido de los textos sobre evaluación utilizados en las instituciones

formadoras de maestros así lo muestra: según estas obras, las evaluaciones que

deberían aplicar en el aula los maestros debían ser réplicas de las evaluaciones

en gran escala, por lo que los maestros debían aprender a elaborar preguntas

estructuradas y a analizar los resultados de instrumentos formados con ellas

estadísticamente, cuidando la validez y la confiabilidad en la misma forma en que

debe hacerse en gran escala. (Cfr. Shepard, 2006: 623-625)

La influencia de las pruebas estandarizadas sobre las evaluaciones que llevan a

cabo día a día los maestros en las aulas se dejó sentir primero en el sistema

educativo norteamericano, lo que fue una consecuencia lógica del hecho de que

las pruebas estandarizadas como formas de evaluación se introdujeron en ese

país antes que en todos los demás, pero aún antes de que se extendiera la

aplicación de pruebas en gran escala la influencia de tales instrumentos se dejó

sentir en muchos países.

En relación con México y América Latina, en otro lugar se ha señalado que:

El desarrollo de pruebas estandarizadas de aprovechamiento escolar

comenzó a principios del siglo XX. A lo largo de la primera mitad del mismo

el movimiento adquirió fuerza, al grado que las evaluaciones de los

maestros comenzaron a incorporarlas. En América Latina la influencia de

29

esos desarrollos se sentía a mediados del siglo, cuando comenzó a pedirse

a los maestros que prepararan pruebas de opción múltiple. Se les pedía

también que estandarizaran las puntuaciones de sus alumnos, lo que se

llamaba “calificar por curva”, pero como no se ofrecía preparación especial

para ello, la calidad de las pruebas hechas por los maestros era pobre.

(Martínez Rizo, 2010a: 479)

Como muestra de que algo similar ocurría en sistemas educativos de mayor

consolidación, la autora del artículo que presenta una visión de conjunto del tema

Educational Assessment en la tercera edición de la Enciclopedia Internacional de

Educación, señala, refiriéndose expresamente al párrafo anterior:

Esta limitada práctica no se limitaba a un tiempo o un lugar; esta autora

confiesa que ella hacía lo mismo, como maestra recién calificada en

Inglaterra, en la década de 1970, creyendo erróneamente que así actuaba

como científica. (James, 2010: 162)

4. La evaluación del aprendizaje en la segunda mitad del siglo XX

4.1. El contexto social

El avance de la evaluación en la segunda mitad del siglo tuvo que ver con el

desarrollo de la sociedad postindustrial y el comercio internacional, con lo que la

tímida apertura de las economías del XIX y principios del XX dio lugar al mundo

globalizado en que vivimos, lo que trajo consigo importantes cambios en los

sistemas educativos, que cada vez más se valoran en relación con su contribución

al desarrollo científico y técnico y la competitividad económica, concibiendo su

función no como la de preparar una élite, sino la de llevar a todos los futuros

ciudadanos a alcanzar niveles básicos de competencia.

A partir de la segunda mitad del siglo XX, los sistemas educativos de estructura

dual, con una vía que llegaba hasta la universidad para la élite y otra que conducía

rápidamente al mercado laboral a la mayoría de los alumnos, fueron dejando el

lugar a sistemas de enfoque comprehensivo, que pretenden llevar a todos los

jóvenes al menos hasta el fin de educación media, hacia los 18 años de edad.

30

Sin contar la excepción temprana de los Estados Unidos, el modelo comprensivo

se dio por vez primera en Suecia, a partir del fin de la Segunda Guerra Mundial, en

el marco del desarrollo del estado de bienestar. Progresivamente otros países han

dado un enfoque comprensivo a sus sistemas educativos, al tiempo que han

aumentado el lapso comprendido por la escolaridad obligatoria. Este ha sido el

caso de los demás países escandinavos, los anglosajones, no pocos del Asia

oriental y, más recientemente, de los países iberoamericanos, incluido México.

Las razones de esta evolución pueden agruparse en dos rubros: por una parte, las

necesidades de las economías modernas, que cada vez ocupan más personas

con competencias complejas; por otra, los avances de la investigación, que

muestran cada vez con mayor claridad la falta de sustento de la antigua creencia

en que sólo una pequeña parte de las personas tienen capacidad para hacer con

éxito estudios superiores o, en general, para adquirir competencias complejas.

En cuanto al primer grupo de razones, la evolución de los mercados laborales en

Estados Unidos, similar a la de otras economías avanzadas, muestra cómo ha

disminuido la proporción de puestos de trabajo manual, en tanto que aumenta la

de puestos gerenciales, administrativos y de servicios, lo que significa que la

demanda de competencias manuales y rutinarias disminuye, mientras aumenta la

de competencias complejas y de tipo analítico. La consecuencia para los sistemas

educativos es clara: cada vez es más necesario que, tras su paso por la escuela,

los jóvenes tengan conocimientos y habilidades para cuyo desarrollo no basta la

educación básica. (Cfr. Levy y Murnane, 2010; Autor, Levy y Murnane, 2003)

Sin limitarse a la dimensión económica, la vida en una democracia que funcione

efectivamente supone también ciudadanos con una formación que no se limite a la

elemental, lo que también enriquecerá su vida cultural y favorecerá la comprensión

internacional tan necesaria en un mundo global.

En cuanto al escaso sustento de la opinión de que sólo pocos alumnos tendrían

aptitudes para aprendizajes complejos, la Comisión del Parlamento sueco creada

en 1946 para definir cómo se debería organizar el sistema educativo comenzó

encargando estudios sobre el desarrollo de las habilidades de los chicos de 7 a 16

31

años. Diversos trabajos mostraron que los medios utilizados para supuestamente

detectar la aptitud académica eran poco confiables y con fuerte sesgo

sociocultural; que muchos chicos así seleccionados fracasaban posteriormente en

los estudios; y que no era cierto que los chicos con mayores aptitudes académicas

tuvieran menos habilidades prácticas y viceversa. (Husén, 1986: 156)

La investigación contemporánea ha vuelto obsoletas las posturas sobre el carácter

hereditario y no modificable de la capacidad intelectual. Un balance reciente dice:

A fines del siglo XX muchos expertos creían que la inteligencia y el talento

estaban substancialmente bajo control genético… eran escépticos en

cuanto al posible éxito de cualquier esfuerzo por mejorar la inteligencia, y

no se sorprendían cuando intervenciones de educación temprana no tenían

efectos duraderos… Sin embargo, los resultados de las recientes

investigaciones en psicología, genética y neurociencia, junto con los

actuales estudios sobre la eficacia de las intervenciones educativas han

puesto de cabeza la fuerte postura hereditaria sobre la inteligencia. Ahora

se considera claro que la inteligencia es altamente modificable por el medio

…que el IQ de cualquier persona, así como sus resultados académicos y su

éxito ocupacional sean altos o bajos depende en buena medida de factores

ambientales que no tienen nada que ver con sus genes. (Nisbett, 2009: 1-2)

4.2. Avances de la psicometría

En paralelo a los cambios de la sociedad, los sistemas educativos y las ideas

psicológicas, en la segunda mitad del siglo XX los avances en medición y pruebas

continuaron. Los fundamentos de las décadas anteriores se vieron enriquecidos

por aportaciones importantes, en especial modelos derivados de la teoría de

respuesta a los ítems, las pruebas criteriales, las basadas en estándares y los

mapas de progreso, además de la teoría de la generalizabilidad y otros avances.

Las teorías de respuesta a los ítems (TRI) o de las curvas características de un

ítem, intentan fundamentar probabilísticamente el problema de la medición de

rasgos y constructos no observables (rasgos latentes), considerando al ítem, y no

al puntaje global, como unidad básica de análisis. (Martínez Arias, 1995: 237-243)

32

Con antecedentes en Binet, Thurstone y otros, se considera que el inicio formal de

estos modelos fue un artículo publicado por Lord en 1952 con el título de A theory

of tests scores. En 1957-58 Birnbaum desarrolló los modelos de dos y tres

parámetros y, en 1960, Rasch propuso el de un parámetro que, pese a su mayor

simplicidad, o tal vez por ello, y con el entusiasta apoyo de Benjamín Wright, de

Chicago, se extendió más rápidamente. La obra de Lord y Novick Statistical

theories of mental test scores (1968) difunde una versión madura de la TRI.

Con la difusión de las computadoras, los cálculos necesarios para aplicar la TRI se

volvieron accesibles, con lo que se impuso como paradigma en la psicometría. En

1985 el libro de Hambleton y Swaminathan, Item response theory. Principles and

applications, mostraba la amplitud de sus aplicaciones. (Cfr. Muñiz, 1997)

Otro avance fue el de las pruebas referidas a un dominio o criterio, según la

terminología introducida por Glaser en 1963, como alternativa a las pruebas

diseñadas en relación con una norma estadística. Con el nuevo enfoque se busca

medir si un sujeto alcanza un nivel de rendimiento definido, en lugar de fijar su

posición en relación con otros sustentantes. La idea de Glaser fue desarrollada por

Popham, Husek y Hambleton (Martínez Arias, 1995: 653-693); las pruebas

basadas en estándares se relaciona con ella. Posteriormente la diferencia entre

pruebas con referencia a una norma estadística o a ciertos criterios o estándares

perdió importancia, con las pruebas basadas en las nociones de evaluación del

desarrollo del aprendizaje (developmental assessment) y los mapas de progreso,

utilizadas inicialmente en trabajos del Australian Council for Educational

Measurement, ACER (Forster y Masters, 2010: 369). Estos autores afirman:

Los “mapas de progreso” describen el avance típico en cierta área de

aprendizaje, o sea los conocimientos, habilidades y comprensiones en

desarrollo en comparación con los cuales se puede evaluar y monitorear a

lo largo del tiempo el aprendizaje de los estudiantes. Ofrecen un marco que

franquea el aparente abismo conceptual entre las evaluaciones en aula a

cargo de los maestros y las evaluaciones del sistema educativo con

propósitos de rendición de cuentas. (2010:371-372)

33

Forster y Masters ven esos avances como tal vez el desarrollo singular más

importante de la medición en educación durante el siglo XX. En su opinión:

Durante la mayor parte del siglo XX la medición educativa y psicológica se

basaba en la construcción de instrumentos (tests, cuestionarios, exámenes)

y el desarrollo de normas para cada uno. Cada instrumento y las tablas

normativas que lo acompañaban permitían comparar a los estudiantes entre

sí. La segunda mitad del siglo vio el desarrollo de métodos para construir y

utilizar marcos para reportar resultados que no están asociados a ningún

instrumento en particular… El nivel de desempeño de un individuo puede

interpretarse en referencia al marco de reporte subyacente (o sea con

referencia a criterios o estándares) o con referencia al desempeño de otros

estudiantes (o sea con referencia a una norma estadística), pero con el uso

de mapas de progreso estas distintas interpretaciones no implican

diferentes acercamientos a la evaluación. (2010: 371-372)

En una dirección diferente, la Teoría Clásica de las Pruebas fue desarrollada por

la Teoría de la Generalizabilidad, de Cronbach y colaboradores. Este enfoque

atiende en forma más comprensiva la problemática de la confiabilidad, con la

noción de generalizabilidad, que substituye el concepto de puntaje verdadero por

el de puntaje del universo y, en lugar de manejar el error de medición en forma

global, identifica diversas fuentes posibles de error o facetas y mide su influencia

con técnicas estadísticas multivariadas. Con antecedentes en décadas previas, el

trabajo fundacional fue publicado en 1963: Theory of generalizability. A liberation

of reliability theory (Martínez Arias, 1995: 170). Una década más tarde se publicó

la obra que contiene la versión madura de la teoría. (Cronbach,1972)

Otras novedades de las últimas décadas del siglo XX incluyen técnicas para

valorar el sesgo o funcionamiento diferencial de los ítems; pruebas que incluyen

respuesta construida, de ejecución o desempeño; pruebas auténticas; pruebas

adaptativas por computadora; pruebas matriciales o en espiral; adaptaciones

(accomodations), o sea variaciones controladas de una prueba para atender las

condiciones particulares de algunos sustentantes, como discapacitados, etcétera.

34

Estos y otros avances permiten hablar de una nueva generación de pruebas, muy

distintas de las de mediados del siglo XX, que típicamente consistían en conjuntos

de preguntas de opción múltiple aplicadas en forma uniforme y controlada, cuyos

resultados se analizaban únicamente con la teoría clásica y muchas veces se

reportaban solamente en la forma de porcentaje de respuestas correctas.

4.3. La difusión de las pruebas hasta principios del siglo XXI

Las transformaciones sociales, las de los sistemas educativos y las metodologías

de medición que surgieron durante la segunda mitad del siglo XX, se combinaron

para producir un fenómeno sin precedentes en el terreno educativo: el que

consistió en una difusión amplísima y muy rápida de las pruebas estandarizadas

en gran escala en un gran número de países.

El caso de los Estados Unidos

Al comenzar la segunda mitad del siglo XX varios acontecimientos contribuyeron a

generar preocupación sobre la calidad de las escuelas norteamericanas; se puede

mencionar el Informe Coleman, en 1966; una tendencia a la baja de los resultados

promedio obtenidos año tras año en el SAT por los aspirantes a ingresar a la

educación superior; y, de manera destacada, el impacto del lanzamiento del

Sputnik por la Unión Soviética, en 1957.

La ley titulada significativamente National Defense Education Act, aprobada por el

Congreso en 1958 (Mathison y Ross, 2008, xvii-xviii), muestra la lectura que se dio

del hecho en el contexto de la guerra fría, como indicio de que la URSS estaría

adelantando a los Estados Unidos en la carrera espacial, lo que querría decir que

en aquel país había mejores científicos e ingenieros y, en última instancia, una

educación de mejor calidad, especialmente en matemáticas y ciencias.

Más tarde, en la era post-Sputnik y post Coleman, las legislaturas de California,

Florida y Oregon establecieron la obligación de evaluar regularmente a los

alumnos de diversos grados de la educación preuniversitaria, mediante pruebas

de rendimiento construidas en relación con estándares mínimos de desempeño.

35

Estos programas de minimum competency testing fueron parte de una estrategia

de mejora adoptada por muchos estados. No era evidente que hubiera realmente

un deterioro en los promedios del SAT, dados los cambios en el alumnado de High

School y, sobre todo, en la población de aspirantes a ingresar a las universidades;

sin embargo, los motivos de preocupación resultaron suficientemente fuertes para

que la tendencia se fortaleciera, y de hecho prácticamente todos los estados

americanos implantaron una u otra variante de esas pruebas.

Según Baker y Choppin (1990), en 1982 42 de los 50 estados tenían programas

obligatorios de esa naturaleza. Esos autores señalan que, al generalizarse, los

programas de pruebas de competencias mínimas muchas veces se aplicaron de

manera deficiente, por lo que su impacto se redujo y las expectativas depositadas

en ellos no se cumplieron. Se multiplicaron también demandas judiciales que

cuestionan a las pruebas por discriminatorias, sesgadas y poco fiables. En 1978

(Bracey, Brikell, Cawelti, Ebel, McClung, Mecklenburger y Pipho) y 1979 (Boes y

Pipho) la revista Phi Delta Kappan publicó varios textos polémicos sobre las

pruebas de competencias mínimas. (Cfr. Latapí, 1991).

En el contexto de la preocupación por la calidad de las escuelas americanas, la

década de 1960 vio también el nacimiento del programa National Assessment of

Education Progress (NAEP), con el propósito de tener información sobre el nivel

de la educación a escala nacional (cfr. Walberg 1990). El programa ha sido punto

de referencia para los sistemas de pruebas para el monitoreo de la calidad

educativa de otros países, como Australia (ACER) y Holanda (CITO).

El NAEP se gestó en 1963, cuando una comisión presidida por Ralph Tyler

(Exploratory Committee on Assessing the Progress of Education) llevó a cabo un

trabajo que terminó en 1969, y fue asumido para ser continuado por la Education

Commission of the States. A partir de 1983 la realización de los estudios del

programa NAEP fue confiada al ETS, el cual creó en su seno el Center for the

Assessment of Educational Progress (CAEP) para ello. Con esta medida la calidad

técnica de los trabajos del NAEP se incrementó. (Walberg, 1990 y De Landsheere,

1994:50-51)

36

La lectura y las matemáticas se evalúan cada dos años; la expresión escrita y las

ciencias cada cuatro. Las pruebas tienen un diseño matricial o en espiral, pues no

se pretenden resultados para el nivel individual, sino para el subsistema, y se

aplican a muestras representativas de niños de 9, 13 y 17 años, edades que

corresponden a etapas importantes del proceso escolar.

Inicialmente los resultados permitían comparaciones entre cuatro regiones del país

(noreste, sureste, centro y oeste), así como entre tipos de comunidades, grupos

de alumnos con padres de diferente nivel de escolaridad, raza y sexo. Desde 1990

los resultados permiten también comparaciones entre estados. Las escalas del

NAEP para evaluar las áreas de contenido manejan cinco niveles: rudimentario,

150 puntos; básico, 200; intermedio, 250; apto, 300; avanzado, 350.

La publicación del informe A Nation at a Risk, en 1983, fue indicio de la

continuidad de la preocupación americana por la calidad educativa en una

perspectiva de seguridad nacional, militar o económica; con dicho informe inició el

movimiento de estándares educativos, que se manifestó con fuerza durante la

década de 1990. (Cfr. Mathison y Ross, 2008)

En 1989, en la llamada Cumbre Educativa de Charlottesville, los gobernadores de

los 50 estados norteamericanos, convocados por el presidente, adoptaron un

conjunto de metas en la perspectiva del año 2000. Una meta establecía que para

esa fecha los estudiantes americanos deberían terminar los grados 4°, 8° y 12°

demostrando competencia en temas exigentes (challenging) de inglés,

matemáticas, ciencias, historia y geografía. En 1990 se establecieron

procedimientos apoyados con fondos federales para avanzar hacia esas metas, y

se crearon el National Education Goals Panel y el National Council on Education

Standards and Testing. (Mathison, 2008: 9)

A lo largo de la década muchas organizaciones profesionales participaron en el

desarrollo de estándares para diversas áreas curriculares, de manera que durante

los años 90 virtualmente cada área temática que se enseña en las escuelas fue

codificada en un conjunto de estándares promulgados por una asociación

profesional (Mathison, 2008: 9).

37

Otras cumbres educativas (education summits) de gobernadores se llevaron a

cabo también en los años 1990, y el desarrollo de estándares se vio acompañado

por el de pruebas para evaluar su cumplimiento, en un proceso que alcanzó su

máxima expresión a partir de 2002.

Como se ha señalado, las pruebas del NAEP ofrecen resultados confiables sobre

el sistema educativo del país, pero no dan resultados individuales, ni tampoco de

cada escuela o distrito. Para tener resultados confiables en esos niveles más finos

se buscaron otras soluciones: la prueba nacional voluntaria (Voluntary National

Test, VNT), propuesta por el Presidente Clinton en su mensaje sobre el Estado de

la Unión de 1997, o un gran sistema de pruebas adaptativas computarizadas,

aplicado por internet, que propuso la Rand Corporation. (Klein y Hamilton, 1999)

En 2002 el presidente Georges W. Bush firmó una nueva legislación educativa en

el nivel federal, que se designa con la expresión que ningún niño se quede atrás

(No Child Left Behind, NCLB). Esta legislación implicó cambios importantes en las

políticas educativas en general, y en particular en lo que se refiere a la evaluación

del rendimiento de los alumnos. Para entender las motivaciones y los alcances de

estos cambios conviene recordar algunas cosas.

Los resultados obtenidos en las pruebas PISA aplicadas en 2000, como había

ocurrido con el TIMSS y otras evaluaciones de la IEA, situaron a Estados Unidos a

media tabla entre los países desarrollados, lejos de los primeros puestos que les

gustaría ocupar, y que ahora acaparan países como Finlandia o Canadá, así como

Corea del Sur, Singapur o Japón. Los alumnos norteamericanos estuvieron lejos

de la meta fijada en 1989 por los gobernadores, en el sentido de que en esa fecha

serían los primeros del mundo en matemáticas y ciencias (PISA 2001). También

era claro que eso no ocurriría en tanto no mejoraran los resultados de los alumnos

de condiciones más desfavorables, los más pobres, masivamente negros e

hispanos y, en muchos casos, de lengua materna distinta del inglés.

La Ley NCLB pretendía revertir la situación en un plazo de doce años (en 2014),

con medidas que incluían reforzar los mecanismos de evaluación: todos los

estados deberían definir estándares educativos claros y crear sistemas estatales

38

de evaluación alineados con esos estándares, con pruebas anuales de inglés,

matemáticas y ciencias para todos los alumnos de 4° a 8° grado. Además, la

participación en las pruebas del NAEP pasó a ser condición obligatoria para

acceder a los fondos federales para apoyar programas de mejora educativa.

La nueva ley hizo pasar de una situación en que había muchas evaluaciones en

gran escala de impacto reducido, a otra en la que las evaluaciones se volvieron de

alto impacto, porque los resultados de los alumnos en las pruebas son el criterio

para definir si una escuela consigue o no el avance estipulados para recibir apoyo

(Adequate Yearly Progress, AYP) y puede incluso ser cerrada si no lo consigue.

Pese a lo anterior, la última aplicación de PISA mostró poco avance de los

alumnos norteamericanos, esta vez frente a un sorprendente desempeño de la

provincia china de Shanghai (PISA 2009) que, en la primera ocasión en que

participó en las pruebas de la OCDE, apareció por delante de todos los países, en

las tres áreas evaluadas y con diferencia significativa respecto a sus seguidores

más cercanos (Hong Kong, Finlandia y Corea del Sur), en lo que debería ser un

nuevo momento Sputnik para el sistema educativo de los Estados Unidos, según

expresión del presidente Obama. (UPI, 2009)

Las evaluaciones internacionales

La preocupación por la calidad educativa no ha sido exclusiva de los Estados

Unidos. Los hechos que agudizaron esa preocupación, en especial el lanzamiento

del Sputnik, produjeron también reacciones que llevaron al surgimiento de las

evaluaciones internacionales a lo largo de la segunda mitad del siglo XX.

Aun si cada país tuviera un sistema nacional de evaluación, la comparación de los

resultados no sería fácil dadas las diferencias de los sistemas educativos en

estructura, currículos y calendarios escolares, además de las diferencias de

contenido, grado de dificultad y enfoque de los instrumentos de evaluación que se

utilizan en cada uno. Por ello los trabajos pioneros de la International Association

for the Evaluation of Educational Achievement (IEA) fueron notables. (Cfr.

Postlethwaite, 1985; de Landsheere, 1994; Husén y Postlethwaite, 1996).

39

Ante la insatisfacción con las tasas de egreso o eficiencia terminal como único

indicador comparable de calidad, investigadores educativos de varios países, con

el liderazgo del sueco Torsten Husén, se planteó en 1958 la posibilidad de una

evaluación que diera resultados comparables a nivel internacional, con pruebas

equivalentes en contenido y dificultad.

En 1959 se organizó un estudio piloto con muestras reducidas de 12 países; los

resultados se difundieron en 1962. Con base en ello se diseñó un trabajo en gran

escala sobre matemáticas, con muestras representativas de los mismos países.

La recolección de datos tuvo lugar en 1964.

En 1966 la IEA se constituyó formalmente como organización, y durante el resto

de la década y la de los 70 hizo trabajos sobre ciencias en 19 países; lectura en

15; literatura en 10; educación cívica en 10; francés e inglés como segunda lengua

en 18; matemáticas, ciencias, historia y entorno del aula en 10 países.

En los años de 1980 la IEA llevó a cabo un segundo estudio sobre matemáticas,

en 20 países; un segundo trabajo sobre ciencias en 24 y otro sobre composición

escrita en 14. De fines de los años 80 a mediados de los 90 la IEA condujo un

trabajo más sobre el uso de computadoras en educación en 23 países; otro sobre

pre-primaria en 14; uno más sobre lectura en 31; y el tercer estudio sobre

matemáticas y ciencias en más de 40 países (Third International Mathematics &

Science Study, TIMSS).

Hasta principios de la década de 1990 sólo hubo otro estudio comparativo del

aprendizaje en varios países: el del Educational Testing Service conocido con el

nombre International Assessment of Educational Progress (IAEP) (cfr. Livingstone

1990). El IAEP, sin embargo, no tuvo continuidad, por lo que parece válida la

siguiente afirmación, referida a los trabajos de la IEA en ese lapso:

En el campo de la evaluación comparativa hay pocas dudas de que, desde

sus inicios a principios de la década de los años 60, esta organización ha

sido la principal fuente de comparaciones confiables entre sistemas

educativos. (Goldstein, 1996: 125)

40

A fines del siglo pasado y en lo que va del presente las actividades de la IEA se

fortalecieron: además de los proyectos sobre matemáticas, ciencias y lectura se

desarrollaron otros como el de educación cívica, participan en ellos cada vez más

países, y el intervalo entre aplicaciones se ha reducido: el TIMSS adoptó un ritmo

de aplicaciones cada cuatro años: las siglas ahora quieren decir Trends in

Mathematics and Science Study. El nuevo TIMSS se ha aplicado en 2003 y 2007.

Las evaluaciones sobre lectura (PIRLS) adoptaron una periodicidad de cinco años.

El establecimiento de una periodicidad fija y más corta para las pruebas de la IEA

tuvo que ver con el surgimiento de un proyecto alternativo, que adquirió pronto

más visibilidad que la que tenían aquellas evaluaciones: el que promovió la

Organización para la Cooperación y el Desarrollo Económico (OCDE) y es

conocido con las siglas PISA (Programme for Institutional Student Assessment).

Desde los años de 1980, en el marco de economías cada vez más competitivas en

un mundo crecientemente globalizado, y con la conciencia del valor de una buena

educación en la nueva sociedad del conocimiento, la Organización para la

Cooperación y Desarrollo Económico (OCDE) promovió un importante proyecto de

indicadores educativos, el Indicators of National Education Systems, INES. A

mediados de los 90, buscando tener información sobre resultados de la educación,

con datos comparables sobre el nivel de aprendizaje alcanzado por los alumnos

de los países que la integran, para poder construir indicadores que no se limitaran

a los insumos o los datos más elementales, la OCDE decidió emprender el

proyecto de PISA. (Cfr. Tuijnman y Bottani, 1994; PISA 2001)

Los datos de los estudios de la IEA no eran suficientes para el INES, porque

siendo una iniciativa de investigadores independientes, sólo algunos de los países

miembros de la OCDE participaban en esas evaluaciones; además, como se ha

dicho, el tiempo que pasaba entre una aplicación y otra era muy largo. Por ello, en

1997 la OCDE tomó la decisión de poner en marcha su propio sistema de

evaluación del aprendizaje. Se encargó del desarrollo de instrumentos y aspectos

técnicos un consorcio internacional de instituciones especializadas en pruebas,

encabezadas por el Australian Council for Educational Research.

41

Para hacer frente a los retos que implicaba evaluar estudiantes de sistemas

educativos muy diversos, y además de utilizar las técnicas más avanzadas

disponibles, se tomaron decisiones interesantes: las pruebas no tendrían como

referente los currículos de los países participantes, sino un conjunto de

competencias consideradas fundamentales para una vida exitosa en las modernas

sociedades del conocimiento, en tres ámbitos: lectura, matemáticas y ciencias.

Se utiliza el término literacy para la definición de esas habilidades básicas para la

vida, que puede traducirse como alfabetización (matemática o científica) siempre y

cuando el término no se asocie con niveles elementales de competencia en esos

ámbitos. La población objetivo no se definió por un grado del sistema educativo,

sino por la edad de quince años, a la que los jóvenes de todos los países de la

OCDE deben asistir a la escuela, lo que ocurre en la mayoría de los casos, siendo

México, Turquía y Portugal las excepciones. Las aplicaciones serían cada tres

años y en cada una se evaluarían las tres áreas, pero una sería la principal cada

vez: 2000, lectura; 2003 matemáticas; y 2006 ciencias, para volver a comenzar un

gran ciclo de nueve años en 2009. (PISA 2001)

Los planes se han cumplido puntualmente. Las aplicaciones de 2000, 2003, 2006

y 2009 tuvieron lugar según lo previsto, con una participación creciente de países,

pues a los miembros de la OCDE se han añadido otros en cada aplicación. Los

primeros análisis de los resultados de cada aplicación se han difundido en el mes

de diciembre del año siguiente, con un impacto creciente.

La extensión de las pruebas estandarizadas en otros países

Al comenzar el siglo XXI muchos países han puesto en marcha sistemas de

evaluación educativa en gran escala como los desarrollados previamente en los

Estados Unidos y pocos países más, como el Reino Unido, Australia y Holanda.

En la década de 1990 en varios países se expresaban opiniones en el sentido de

que las pruebas en gran escala estarían siendo abandonadas en Estados Unidos,

al parecer por una creciente conciencia de sus insuperables deficiencias. Como se

acaba de ver, en el caso americano las pruebas están lejos de ser abandonadas.

42

Curiosamente, los opositores norteamericanos a este tipo de instrumentos

utilizaban el mismo argumento, afirmando que las pruebas estarían siendo

abandonadas en otros países, y atribuyendo a la fuerte presencia de este tipo de

evaluaciones muchas fallas de las escuelas estadounidenses. Un artículo de

Richard Phelps menciona cinco publicaciones americanas aparecidas entre 1991 y

1996, en ese sentido. (2000: 11)

Ese artículo señala que las afirmaciones referidas no presentan evidencias, sino

que se limitan a afirmar su posición señalando, por ejemplo, que Bélgica, Grecia,

Portugal y España han eliminado ese tipo de exámenes nacionales. Cuando se

sabe que justamente en 1994 España comenzó a desarrollar evaluaciones en gran

escala, con la creación del Instituto Nacional para la Calidad de la Educación (hoy

Instituto de Evaluación), hay razón para dudar de tales afirmaciones.

El artículo de Phelps analizó la situación de 31 países o provincias, con el

resultado de que, entre 1974 y 1999, el uso de pruebas en gran escala estaba

aumentando en la mayoría: 27 países o provincias habían aumentado sus pruebas

estandarizadas. La cifra incluye 19 países (Alemania, Bélgica, Canadá, China,

Dinamarca, Escocia, España, Finlandia, Francia, Hungría, Inglaterra y Gales,

Irlanda, Japón, Holanda, Nueva Zelanda, Portugal, la República Checa y Suecia),

así como ocho provincias canadienses (Alberta, Columbia Británica, Manitoba,

Nueva Brunswick, Newfoundland, Nueva Escocia, Ontario, Quebec y

Saskatchewan). Corea mantuvo la situación, eliminando unos exámenes e

introduciendo otros. En sentido contrario, sólo Australia, Grecia y la provincia

canadiense de la Isla del Príncipe Eduardo mostraron un decremento en las

pruebas en gran escala. (Phelps, 2000: 13-15)

Además de los países mencionados hasta ahora, de los que se tiene más

información, se sabe que en muchos otros lugares existen sistemas de evaluación

de la calidad educativa más o menos consolidados.

Destacan los de países del Asia Oriental, como Singapur, y otros en el cercano

oriente, en especial en Israel; en países árabes comienzan a implantarse con

apoyo de la UNESCO.

43

En el África sub-sahariana algunos países, con apoyo del Instituto Internacional de

Planificación de la Educación de la UNESCO, unieron esfuerzos a principios de los

90 para desarrollar un sistema de evaluación que incluye el uso de pruebas en

gran escala: el South African Consortium for the Monitoring of Educational Quality,

SACMEQ (Ross, 1994; SACMEQ, 1995). Otra iniciativa regional involucra a los

países francófonos del continente.

En América Latina, una revisión de las experiencias de evaluación en gran escala

lleva a la conclusión de que en casi todos los países se han implantado sistemas

de pruebas en gran escala, comenzando con Chile en la década de 1980, seguido

por casi todos en la de 1990. En muchos casos, en especial en América Central,

influyó en ello el apoyo técnico y financiero norteamericano. (Cfr. Ferrer, 2006;

GTEE 2007-2008; Martínez Rizo 2008)

En las primeras etapas las pruebas utilizadas se construían con un enfoque

normativo, estaban integradas exclusivamente por preguntas de opción múltiple, el

escalamiento de las respuestas y el análisis de los resultados se basaban en la

Teoría Clásica de las Pruebas y los resultados se daban solamente en la forma de

porcentajes de respuestas correctas.

Paulatinamente en muchos países se han incorporado metodologías avanzadas:

Modelos basados en la Teoría de Respuesta al Ítem, especialmente el de Rasch;

difusión de resultados tanto mediante puntuaciones como con porcentajes de

alumnos en niveles de desempeño; en algunos casos diseños matriciales para la

construcción de las pruebas y preguntas de respuesta construida; cuestionarios de

contexto con cuya información los resultados se analizan no sólo por región, sino

también por género, nivel socioeconómico y grupo étnico; análisis más complejos

con modelos multinivel.

En general las pruebas eran de bajo impacto, porque sus resultados no se usaban

para tomar decisiones relativas a individuos, como la aprobación o reprobación de

los alumnos, dar estímulos o tomar medidas correctivas que afectaran a maestros

o escuelas en lo individual. En algunos casos el impacto era de hecho nulo, por la

ausencia de difusión de los resultados.

44

La excepción más destacada fue el SIMCE de Chile, que desde sus inicios se

definió como de alto impacto: su diseño censal se hizo con el propósito de

contribuir a la introducción de cambios mayores en el sistema educativo, con su

municipalización y su relativa privatización. Los resultados del SIMCE se utilizan

para decidir cuáles escuelas pueden recibir fondos públicos, en la forma de bonos

individuales para sus alumnos.

Más recientemente sobresale la tendencia a hacer aplicaciones censales, con la

creencia mal fundada de que sus resultados permiten comparaciones directas y

simples entre escuelas y docentes, con lo que se pueden tomar medidas que

llevarán a mejoras sustanciales en corto plazo. Además de Chile han incursionado

en la aplicación de pruebas censales México, Brasil, Colombia, Costa Rica,

República Dominicana, Ecuador, El Salvador, Guatemala y Perú; Uruguay lo ha

hecho sin volver de alto impacto las pruebas. El riesgo de que aparezcan

consecuencias contraproducentes no es ya sólo teórico, sino una realidad de

presencia cada vez más fuerte en la región. (Cfr. Martínez Rizo 2010a)

El caso de México

Desde la década de 1970 la Secretaría de Educación Pública comenzó

actividades que llevaron a la creación de la Dirección General de Evaluación. Las

primeras pruebas se aplicaron en 1972, para la admisión de alumnos en

secundaria. A fines de esa década se aplicaron las primeras a muestras de

primaria. En los años 80 del siglo pasado no hubo avances cualitativos, que

ocurrieron a principios de la década de 1990, tras la firma del Acuerdo para la

Modernización de la Educación Básica, en mayo de 1992.

En relación con el programa de estímulos económicos para docentes llamado

Carrera Magisterial, se desarrollaron las pruebas del Factor Aprovechamiento

Escolar que, a partir de 1994, se aplicaron masivamente en los cuatro últimos

grados de la primaria y los tres de secundaria básica, a todos los alumnos de los

maestros de escuelas públicas que aspiraban a recibir los estímulos económicos.

Las primeras aplicaciones comprendieron más de cuatro millones de alumnos; en

2005 la cifra llegó a cerca de ocho millones.

45

En 1991, con apoyo del Banco Mundial, se desarrolló el Programa para Abatir el

Rezago Educativo en cuatro estados pobres, que incluyó la aplicación de pruebas

para valorar el aprendizaje de los alumnos. Otros programas similares siguieron,

siempre con evaluaciones de los alumnos. En 1996 se emprendió un trabajo de

definición de estándares curriculares, con el desarrollo de instrumentos de

evaluación, las Pruebas de Estándares Nacionales, que se aplicaron por primera

vez en 1998. Hasta 2004 se aplicaron cada año a muestras nacionales de

alumnos de primaria, y desde 2000 también de secundaria.

4.4. Consecuencias de la proliferación de pruebas y reacciones

Sin considerar las pruebas de acceso a la universidad, los instrumentos usados a

lo largo del siglo XX fueron, en general, de bajo impacto: sus resultados no influían

en las decisiones que se tomaban con respecto a cada alumno, ni a maestros y

escuelas individuales. En Estados Unidos esa situación comenzó a cambiar en la

década de 1980, y la tendencia se acentuó en la de 1990, para culminar en las

disposiciones de la Ley No Child Left Behind, de 2002, con la que las pruebas en

gran escala adquirieron un peso fundamental y sin precedentes en ese tipo de

decisiones relativas a individuos, tanto alumnos como maestros y escuelas.

En muchos otros países ocurrió algo similar. El hecho de que las pruebas se

aplicaran masivamente y sus resultados se difundieran mediante ordenamientos

simples de escuelas, basados en los puntajes obtenidos por los alumnos, sin tener

en cuenta el contexto en que opera cada una (rankings o league tables), volvía de

alto impacto los resultados. Esto ocurre aún en ausencia de disposiciones legales

que impliquen consecuencias fuertes basadas en resultados, como ha ocurrido en

Estados Unidos, Inglaterra o Chile, y ha suscitado muchas reacciones críticas.

Algunas de las críticas a las pruebas en gran escala provienen de personas que

se oponen radicalmente a ellas rechazándolas en bloque y sin tener en cuenta sus

múltiples variantes y los diversos usos que se pueden hacer de sus resultados, por

considerar que todas son esencialmente inapropiadas para el trabajo educativo.

Estas críticas parten, por lo general, de posturas ideológicas preconcebidas, y no

suelen aducir argumentos consistentes ni basarse en datos empíricos precisos.

46

Las críticas que se considerarán en los párrafos siguientes, en cambio, vienen de

personas conocedoras de las pruebas y que, en general, son partidarias de un uso

adecuado de ellas. A diferencia de los críticos radicales, lo que estos juicios

cuestionan son usos de la evaluación que consideran ilegítimos porque no tienen

en cuenta los alcances y límites de las pruebas y, por ello, tienden a hacer un uso

abusivo de sus resultados, con consecuencias negativas que pueden ser serias.

Uno de los críticos más destacados de este grupo es W. James Popham, profesor

emérito de la Universidad de California en Los Ángeles, ampliamente reconocido

como un destacado experto en pruebas y evaluación. A propósito del creciente

peso que la evaluación basada en pruebas estandarizadas estaba adquiriendo en

los Estados Unidos ya en esa fecha, anterior a la Ley No Child Left Behind, y de

los riesgos que ello traía consigo, Popham señalaba:

El público piensa que las escuelas no son tan efectivas como deberían. Yo

puedo compartir esa opinión. Si los jóvenes obtienen diplomas de

enseñanza media superior sin saber leer, escribir o contar bien, eso no es

bueno. Así, los contribuyentes quieren estar seguros de que sus escuelas

funcionan adecuadamente y surgió el movimiento a favor de la rendición de

cuentas… y el papel de las pruebas se volvió predominante… (2001)

Luego Popham se refería a las consecuencias negativas que trae consigo ese

énfasis excesivo y mal enfocado en la importancia de las pruebas de rendimiento:

Por la errónea utilización de pruebas de rendimiento estandarizadas

tradicionales para evaluar la calidad de las escuelas hay cosas realmente

terribles que están ocurriendo en las escuelas de nuestros niños. Una es

que aspectos importantes del currículo se están haciendo a un lado, porque

no son medidos por las pruebas. Otra, que los niños son entrenados sin

descanso para que dominen el contenido de esas pruebas y por ello están

comenzando a odiar la escuela. Y una más es que, en muchos casos, los

maestros se dedican a preparar a sus alumnos para las pruebas, lo que se

parece mucho a hacer trampa, porque inflan los puntajes de los alumnos sin

elevar su competencia en lo que se supone miden las pruebas… (2001)

47

Opinando sobre los planes para extender las pruebas que hizo realidad la ley

NCLB, Popham deja claro que su postura no se refiere a cualquier forma de usar

pruebas, sino a ciertas formas inapropiadas de hacerlo:

No me opongo a las pruebas de alto impacto. Pienso que buenas pruebas

de ese tipo podrían ser muy útiles no sólo para la rendición de cuentas, sino

también para la enseñanza. Pero si tenemos más de lo mismo, dañaremos

a los niños, en vez de ayudarlos… Con buenas pruebas podemos hacer

bien a la educación. Con pruebas inadecuadas podemos hacer estúpida y

corromper la educación de nuestro país… Unas pruebas bien hechas

pueden ser una herramienta maravillosa no sólo para que todo mundo sepa

qué tan bien marchan nuestras escuelas, sino para ayudar a los maestros y

los estudiantes a promover el tipo de conocimientos y habilidades que los

niños deberían dominar. Tenemos que pensar en pruebas distintas de las

tradicionales. Mi crítica no es a las pruebas de alto impacto, sino a las

pruebas construidas según los principios tradicionales… (2001)

Popham añadía expresamente que su postura no es la de un opositor sistemático

a las pruebas que, bien utilizadas, pueden ser de gran valor para la educación:

Está surgiendo en nuestro país una resistencia a cualquier tipo de pruebas.

Pienso que esto no es sano. Creo que hay que usar pruebas bien

construidas, que ayuden a los maestros a mejorar su enseñanza. Pienso

también que el público tiene derecho a saber que tan bien funcionan las

escuelas. Por ello pienso que oponerse a cualquier tipo de pruebas es

negativo para los alumnos. Tenemos que hacer buenas pruebas, que

pueden ser una fuerza poderosa para mejorar la enseñanza, haciendo que

los alumnos aprendan lo que deben aprender… (2001)

En un texto reciente, con la evidencia de que sus temores respecto a la extensión

de las pruebas sin la consideración de sus alcances y límites se habían vuelto

realidad, Popham precisa dos razones por las que una buena idea –conseguir que

los alumnos alcancen altos niveles de competencia, con una educación basada en

estándares— está teniendo las funestas consecuencias que él anticipaba: por una

48

parte, el exceso de contenidos que trae consigo una definición inadecuada de los

estándares; por otra, el uso de pruebas inapropiadas, por su falta de sensibilidad a

la instrucción (instructionally insensitive tests), como instrumentos para verificar el

cumplimiento de los estándares:

Estamos haciendo imposible que los maestros tengan mejores resultados

sin hacer trampa. Si desarrollamos pruebas que fundamentalmente miden

lo que los niños traen de su casa a la escuela, y no lo que aprenden en

ésta, entonces esos niños nunca tendrán resultados mejores a lo que les

permiten sus antecedentes familiares. Tenemos que desarrollar pruebas

que reflejen realmente qué tan bien enseñan los maestros… El desencanto

de la gente con la educación es profundo, y muchos buscan alternativas,

como las charter schools, los vouchers y cosas por el estilo. Yo creo en las

escuelas públicas, y creo que pueden hacerse más efectivas si no son

evaluadas con herramientas inadecuadas, sino que se les dan herramientas

de evaluación que les ayuden a cumplir mejor su función. Yo quiero que

nuestras escuelas públicas subsistan, y pienso que debemos comenzar

buscando una forma distinta de medir su desempeño… (Popham, 2008)

En un trabajo anterior también a la ley citada, Phelps señaló la extraña división de

opiniones respecto a las pruebas, con las de padres de familia y público

mayoritariamente a favor de un uso más importante de ellas, frente a fuertes

críticas de los que se oponían, entre los que se contaban destacados expertos,

cuyos argumentos analizaba Phelps, mostrando también sus debilidades. (1999)

La experiencia de la aplicación de la Ley No Child Left Behind puso en evidencia

serias deficiencias y consecuencias contraproducentes, sobre todo para escuelas

públicas. Varias proyecciones señalan que muy pocas cumplirán las exigencias de

Avance Anual (Adequate Yearly Progress) que establece la Ley, mientras que la

gran mayoría (tal vez más del 95 por ciento en el país) deberán ser clasificadas

como deficientes (failing) y enfrentar las consecuencias de ello, que pueden llegar

teóricamente hasta su desaparición. (Oakes y Lipton, 2007: 451-452).

49

Una conclusión prudente puede ser la siguiente: un uso responsable de pruebas

bien diseñadas, que evite tomar decisiones fuertes con base únicamente en sus

resultados, puede aportar elementos valiosos para la mejora educativa; las

pruebas que se utilizan en muchos estados en el marco de la Ley No Child Left

Behind, sin embargo, distan de reunir las condiciones que las harían adecuadas, y

los usos que se hacen de ellas rebasan con mucho lo que sus resultados

permitirían fundamentar sólidamente.

Un investigador destacado del escenario psicométrico contemporáneo, Robert

Linn, escribía, antes también de la Ley No Child Left Behind:

Me veo llevado a concluir que, en la mayoría de los casos, los instrumentos

y la tecnología no han estado a la altura de lo que esperaba de ellos la

rendición de cuentas de alto impacto. Los sistemas de evaluación basados

en pruebas, que son útiles para propósitos de monitoreo, pierden mucha de

su confiabilidad y credibilidad para ello, cuando se les asocian

consecuencias fuertes. Los efectos negativos inesperados de usos de alto

impacto de la rendición de cuentas frecuentemente son más importantes

que los efectos positivos que se buscaban. (Linn, 2000)

Contemporánea de la Ley es la cita siguiente, sobre lo que probablemente explica

la amplitud de las expectativas que han llevado a los usos inadecuados de las

pruebas de alto impacto que se están cuestionando. Dicen estos autores:

Los sistemas de rendición de cuentas basados en pruebas se basan en la

creencia de que la educación pública puede mejorar gracias a una

estrategia sencilla: haga que todos los alumnos presenten pruebas

estandarizadas de rendimiento, y asocie consecuencias fuertes a las

pruebas, en la forma de premios cuando los resultados suben y sanciones

cuando no ocurra así. (Hamilton, Stecher y Klein, 2002)

Las consideraciones anteriores sobre las consecuencias que puede tener el abuso

de las pruebas, en particular para las escuelas públicas, son relevantes para el

sistema educativo mexicano, en el que casi todos los alumnos de medios

desfavorecidos de la población mexicana son atendidos en ellas.

50

Muchas personas no tienen conciencia de la dificultad que implica obtener buenos

resultados educativos con grupos de alumnos que provienen de un medio social

desfavorable. En México es frecuente que dirigentes del sector empresarial vean

con simpatía las estrategias simplistas a las que alude la cita anterior, pensando

que las fallas de la escuela pública se podrían corregir fácilmente en escuelas

privadas como las que atienden a sus hijos, ignorando que menos del diez por

ciento de los niños mexicanos, de condiciones privilegiadas, asisten a ellas. Es

probable que a ello se deban las opiniones de que bastará con aplicar pruebas

masivamente, y tomar medidas correctivas simples, para que la calidad de la

educación mejore sustancialmente.

La proliferación de pruebas en gran escala, especialmente censales, tanto en

Estados Unidos y otros países de alto nivel de desarrollo, como en muchos de

América Latina, y en particular en México, ha ido acompañada por un creciente

interés porque sus resultados sean utilizados para sustentar decisiones de las que

se espera se deriven mejoras importantes de la calidad educativa.

Hasta principios del siglo XXI se puede decir que en México hubo muchas

actividades relacionadas con la evaluación educativa, pero no verdadera

evaluación. Había muchos datos, pero no se llegaba a juicios de valor sobre el

estado de la educación, integrando datos derivados de pruebas y estadísticas y

contrastándolos con parámetros pertinentes. Mucho menos se llegaba a explorar

explicaciones y utilizar los resultados para sustentar decisiones de mejora.

En la primera década del siglo XXI la situación cambió mucho, con aspectos

favorables y desfavorables. En el lado positivo se deben mencionar tres puntos:

Los avances técnicos y la formación de un grupo pequeño pero sólido de

técnicos y especialistas de muy buen nivel, en contraste con la casi total

ausencia de personas preparadas que prevalecía.

La creciente conciencia ciudadana del derecho a conocer los resultados de

las evaluaciones, que contrasta drásticamente con el hermetismo anterior.

51

El que algunas autoridades, tanto en el nivel federal como en unos estados,

comiencen a hacer uso de los resultados de las evaluaciones (de

resultados de pruebas y otros indicadores) para su toma de decisiones.

También pueden mencionarse al menos tres aspectos desfavorables:

El número ya excesivo y creciente de evaluaciones y su desarticulación,

que pesa cada vez más sobre alumnos, maestros y escuelas.

El predominio de la evaluación en gran escala sobre la que deben hacer los

maestros en el aula, viendo a la primera como sustituto de la segunda, y no

como un complemento a la tarea insustituible de los maestros.

El uso inapropiado cada vez más frecuente de los resultados, y su excesivo

peso en el diseño de políticas públicas. (Cfr. Martínez Rizo y Blanco: 2010)

Hace sólo diez años los resultados de las evaluaciones casi no se difundían; hoy

las aplicaciones proliferan, comienzan a cansar a las escuelas y el público debate

los resultados, muchas veces con escaso conocimiento de su complejidad; atraen

la atención de los medios de comunicación y tienden a convertirse en un referente

importante de las políticas educativas, como ha ocurrido con las pruebas censales

ENLACE de la Secretaría de Educación Pública; PISA, por su parte, se ha vuelto

un referente externo fundamental, como muestra el que la primera meta del

Programa Sectorial de Educación de la administración federal vigente es alcanzar

la cifra de 435 puntos en las pruebas PISA de 2012.

Conclusión

La proliferación de pruebas censales y su excesivo peso en las políticas debido a

su alto impacto están trayendo ya consecuencias negativas:

Banalización del debate público sobre la calidad educativa, reducido a

superficiales debates de ordenamientos discutibles.

Mercadotecnia engañosa de las escuelas, sobre todo de sostenimiento

privado, que buscan atraer alumnos basadas en esos ordenamientos.

52

Empobrecimiento del currículo, que se deriva de la tendencia de muchos

maestros a enseñar para la pruebas, descuidando aspectos fundamentales

que no serán evaluados.

Cansancio y desaliento en muchas escuelas que, pese a sus esfuerzos, no

consiguen resultados comparables con planteles cuyos alumnos tienen

condiciones más favorables.

Rechazo de los alumnos frente a una educación centrada en prepararlos

para la prueba.

Empobrecimiento de las políticas públicas, que tienden a buscar soluciones

fáciles a problemas complejos, descuidando aspectos fundamentales, en

particular la equidad. (Cfr. Martínez Rizo, 2010b)

Esta tendencia se relaciona con la rendición de cuentas (accountability), y cobra

sentido en el marco de corrientes más amplias: búsqueda de transparencia en el

manejo de los asuntos públicos; con frecuencia también, desconfianza respecto a

la educación pública y, en general, a la gestión pública de los servicios. A ello

debe añadirse la escasa cultura que hay en la sociedad en cuanto a evaluación

educativa, y no sólo entre el público en general, sino también entre maestros y

autoridades educativas, e incluso entre investigadores y especialistas. Esto lleva a

esperar resultados casi milagrosos de mejora en las escuelas gracias a la

aplicación de pruebas, sin tener en cuenta sus alcances y límites.

Para que las perspectivas favorables que se asocian con las pruebas se concreten

es necesaria una visión más completa de sus posibilidades, que prevalezca sobre

visiones superficiales. Es fundamental tener claros estos puntos:

Que, por su propia naturaleza, las pruebas en gran escala tienen rasgos

que limitan su capacidad para dar información sobre muchos aspectos

importantes de los que debe incluir el currículo.

Que lo anterior se ve agravado en el caso de aplicaciones censales,

máxime si se pretende cubrir muchos grados y con mucha frecuencia.

53

Y, finalmente, que las pruebas en gran escala nunca podrán sustituir el

trabajo de los maestros.

El último punto tiene especial importancia. Debe entenderse que sólo un buen

maestro puede llevar a cabo la evaluación más importante que se debe hacer de

cada alumno: una que incluya todos los aspectos del currículo y los niveles

cognitivos más complejos, que tenga en cuenta las circunstancias de cada niño, y

se haga con la frecuencia necesaria para ofrecer retroalimentación oportuna para

que el alumno pueda mejorar. Estas evaluaciones son las que deben hacerse en

cada aula, con acercamientos más finos que los viables en gran escala.

Por bien que se hagan, sin embargo, las evaluaciones a cargo de maestros no

pueden dar resultados agregables, por lo que las pruebas en gran escala siempre

serán valiosas para las decisiones sobre políticas educativas en diversos niveles

del sistema educativo, viéndolas siempre como complementos del trabajo de los

maestros y no como sustitutos del mismo.

Seguramente muchos maestros no tienen la preparación necesaria para hacer

bien la evaluación de la que son responsables, pero ninguna prueba en gran

escala podrá ocupar su lugar. Por ello, habrá que ofrecer a los docentes los

apoyos necesarios para que cumplan adecuadamente con su función evaluativa,

viendo a las pruebas en gran escala como uno de esos apoyos.

Por otra parte, en paralelo a los avances de las evaluaciones en gran escala de

las que se ha tratado hasta ahora, desde mediados del siglo pasado y durante la

primera década del actual se han desarrollado formas alternativas de evaluación

en aula, mediante las cuales los maestros pueden acompañar más eficazmente a

sus alumnos a lo largo de su paso por la escuela, monitoreando sus avances y

ofreciéndoles una retroalimentación útil para mejorar. Presentar esos desarrollos,

que se suelen designar con expresiones como evaluación formativa o evaluación

para aprender, será el propósito del capítulo siguiente.

54

Referencias

ARIES, PHILIPPE (1973). L’enfant et la vie familiale sous l’ancien régime. París.

Seuil. (1a. edición Plon, 1960.

ARNAUT, ALBERTO y SILVIA GIORGULI, eds. (2010) Educación. Colección Los

grandes problemas de México, Vol. V. México. El Colegio de México.

AUTOR, DAVID, F. LEVY Y R. J. MURNANE (2003). The Skill Content of Recent

Technological Change: An Empirical Exploration. The Quarterly Journal of

Economics, Vol. 118 N° 4.

BAKER E.L. y B.H. CHOPPIN. (1990). Minimum Competency Testing. En

Walberg-Haertel, 1990: 499-502.

BLACK, PAUL Y D. WILIAM (2004) Classroom assessment is not (necessarily)

formative assessment (and viceversa). En Wilson, 2004:183-188.

BOES N. SH. (1979). Un compendio de puntos importantes dentro del movimiento

de competencia mínima. En Latapí, 1991: 196-202.

BRACEY GERALD W. (1978). Algunas dudas sobre las pruebas de competencia

mínima. En Latapí, 1991: 166-175.

BRENNAN, ROBERT L., ed. (2006). Educational Measurement, 4th Ed. Westport,

Praeger-ACE. Traducción al español INEE, México.

BRIKELL HENRY M. (1978) Siete notas clave sobre la evaluación de la

competencia mínima. En Latapí, 1991: 135-146.

CASANOVA, M. ANTONIA (1998) La evaluación educativa en la escuela básica.

México, SEP.

CAWELTI G. (1978). Prueba nacional de competencia. Una solución falsa. En

Latapí, 1991:147-155.

CHOPPIN, B. H. (1985). Evaluation, Assessment and Measurement. En Husén y

Postlethwaite, 1985: 1747-1748.

CRONBACH, L. J., G. C. GLESSER, H. NANDA y N. RAJARATNAM (1972). The

dependability of behavioral measurements. New York, John Wiley.

55

DONLON, THOMAS F. Ed. (1984). The College Board Technical Handbook for the

Scholastic Aptitude Test and Achievement Tests. New York, College

Entrance Examination Board.

EBEL ROBERT L. (1978) La argumentación a favor de la prueba de competencia


FERRER, GUILLERMO (2006). Educational Assessment Systems in Latin

America: Current Practice and Future Challenges. Washington. Programa

de Promoción de la Reforma Educativa en América Latina y el Caribe.

FORSTER, MARGARET y G. MASTERS (2010). Progression and Assessment:

Developmental Assessment. En Peterson, Baker y McGaw, 2010: Vol. 3,

369-377.

GAULUPEAU, YVES (1992). La France a l’école. Paris. Gallimard.

GOLDSTEIN, HARVEY (1996). Introduction. Assessment in Education: principles,

policy & practice. Vol. 3 (July) No. 2, pp. 125-128.

GOODLAD, JOHN I. y ROBERT H. ANDERSON (1987). The Nongraded

Elementary School. Reedición de la edición de 1963, revisada de la original

de 1959. Nueva Cork. Teachers College, Columbia University.

GRUPO DE TRABAJO SOBRE ESTÁNDARES Y EVALUACIÓN (2007-2008).

Evaluaciones nacionales. Observatorio Regional de Políticas de Evaluación

Educativa. Boletines N° 1 a 6. PREAL.

HAMILTON, LAURA S., B. M. STECHER y S. P. KLEIN Eds. (2002). Making

Sense of Test-Based Accountability in Education. Santa Monica, RAND.

HERMAN, JOAN (2010). Impact of Assessment on Classroom Practice. En

Peterson, Baker y McGaw, 2010, Vol. 3, pp. 506-511.

HUSÉN, TORSTEN y T. S. NEVILLE POSTLETHWAITE (1996). A Brief History of

the International Association for the Evaluation of Educational Achievement

(IEA). Assessment in Education: principles, policy & practice. Vol. 3 (July)

No. 2, pp. 129-141.

56

HUSÉN, TORSTEN Y T. S. NEVILLE POSTLETHWAITE, eds. (1985). The

International Encyclopedia of Education. Amsterdam-New York, Elsevier.

HUSÉN, TORSTEN (1986). Why did Sweden Go Comprehensive? Oxford Review

of Education, Vol. 12 (2): 153-163.

INEE (2006). Plan Maestro de Desarrollo 2007-2014. México. Instituto Nacional

para la Evaluación de la Educación.

JAMES, M. (2010). An Overview of Educational Assessment. En Peterson, Baker y

McGaw, 2010: Vol 3, 161-171.

JONCICH-CLIFFORD, G. (1968). The Sane Positivist: A Biography of Edward L.

Thorndike. Middletown, Wesleyan University Press.

KEEVES, JOHN P., ed. (1997). Educational Research, Methodology, and

Measurement. An International Handbook. Oxford-New York, Pergamon.

KEEVES, JOHN P. (1997). Measurement in Educational Research. Introduction:

Advances in Measurement in Education. En Keeves, 1997: 705-712.

KLEIN, STEPHEN P. y LAURA HAMILTON (1999). Large-Scale Testing. Current

Practices and New Directions. Santa Monica, Rand Education.

De LANDSHEERE, GILBERT (1986). La recherche en éducation dans le monde.

Paris. Presses Universitaires de France. Trad. español México, FCE, 1996.

De LANDSHEERE, GILBERT (1994). Le pilotage des systèmes d'éducation.

Bruselas. De Boeck.

LATAPI, PABLO Coord. (1991). Educación y escuela. Lecturas básicas para

investigadores de la educación. II Aprendizaje y rendimiento. México, SEP-

Nueva Imagen.

LAVEAULT, D. (2010). Classroom Assessment Policy Context (French Sources).

En Peterson, Baker y McGaw, 2010, Vol. 3, pp. 432-437.

LEVY, FRANK Y RICHARD J. MURNANE (2010). The New Division of Labor. How

Computers are Creating the Next Job Market. Princeton, Princeton

University Press.

57

LINN, ROBERT (2000). Assessments and Accountability. Educational Researcher.

Vol. 29, N° 2, pp. 4-16.

LIVINGSTONE I. D. (1990). Monitoring National Standards. En WALBERG y

HAERTEL, pp. 435-440.

MARTÍNEZ ARIAS, ROSARIO (1995). Psicometría: teoría de los tests psicológicos

y educativos. Madrid. Síntesis.

MARTÍNEZ RIZO, FELIPE (2010a). Assessment Practice in Policy Context: Latin

American Countries. Peterson, Baker y McGaw, 2010: Vol. 3, 479-485.

MARTÍNEZ RIZO, FELIPE (2010b). Usos y abusos de la evaluación. Este País. N°

232 (agosto), pp. 24-27.

MARTÍNEZ RIZO, FELIPE (2008). Las evaluaciones educativas en América

Latina. Cuadernos de Investigación, N° 32. México, INEE.

MARTÍNEZ RIZO, FELIPE (2006). Las primarias comunitarias y su desempeño.

Cuadernos de Investigación, N° 23. México, INEE.

MARTÍNEZ RIZO, FELIPE y EMILIO BLANCO (2010). La evaluación educativa.

Experiencias, avances y desafíos. En Arnaut y Giorguli, 2010: 89-123.

MATHISON, SANDRA y E. W. ROSS (2008). The Nature and Limits of Standards-

Based Reform and Assessment. New York. Teachers College Press.

MATHISON, SANDRA (2008). A Short History of Educational Assessment and

Standards-Based Educational Reform. En Mathison y Ross, 2008: 3-14.

McCLUNG M.S.(1978). ¿Son justos los programas de pruebas de competencia?

¿Son legales? En Latapí, 1991: 176-187.

MEHAN, H. (1979). Learning Lessons. Cambridge, MA. Harvard University Press.

MECKLENBURGER J. (1978). Exámenes de competencia mínima. Otra vez la

moneda falsa. En Latapí, 1991: 188-195.

MUÑIZ FERNÁNDEZ, JOSÉ (1997). Introducción a la Teoría de Respuesta a los

Ítems. Madrid, Pirámide.

58

NISBETT, RICHARD E. (2009). Intelligence and How to Get It: Why Schools and

Cultures Count. New York, W. W. Horton & Company.

OAKES, JEANNIE y M. LIPTON (2007). Teaching to Change the World, 3rd Ed.

New York. McGraw Hill.

PETERSON, PENELOPE, E. BAKER y B. McGAW, eds. (2010) International

Encyclopedia of Education, 3rd Ed. Amsterdam-New York. Elsevier-

Academic Press.

PHELPS, RICHARD P. (2000). Trends in Large-Scale Testing Outside the United

States. Educational Measurement: Issues and Practice (Spring), pp. 11-21.

PHELPS, RICHARD P. (1999). Why Testing Experts Hate Testing. Fordham

Report 3, N° 1 (January).

PIPHO C. (1978). Exámenes de competencia mínima. Una mirada a los

estándares del estado. En Latapí, 1991: 207-214.

PIPHO, C. (1979). La conferencia de la NAEP sobre las pruebas de competencia


PISA (2001). Knowledge and Skills for Life. First Results from PISA 2000. París.

OCDE.

PISA (2009). PISA 2009 Results: What Studenst Know and Can Do. Student

Performance in Reading, Mathematics and Science. Vol. I. París. OCDE.

POPHAM, W. JAMES (2008). Standards-Based EDUCATION: Two Wrongs Don’t

Make a Right. En Mathison y Ross, 2008: 15-25.

POPHAM, W. JAMES W. (2001) Frontline: testing our schools: interviews: James

Popham http://pbs.org/html

POSTLETHWAITE, T. S. N. (1985). International Association for the Evaluation of

Educational Achievement. En Husén y Postlethawite, 1985: 2645-2646.

RESNICK, L. B., D. WILIAM, R. APODACA Y E. S. RANGEL (2010). The

Relationship between Assessment and the Organization and Practice of

Teaching. En Peterson, Baker y McGaw, 2010, Vol. 3, pp. 397-402.

http://pbs.org/html

59

ROSS K.N. (1994) The Establisment of a Southern Africa Consortium for the

Monitoring of the Quality of Education. Paris. IIEP.

SACMEQ (1995). Southern Africa Consortium for Monitoring Educational Quality.

París. IIPE.

SHEPARD, LORRIE (2006). Classroom Assessment. En Brennan, 2006: 623-646.

THOMAS, CHRISTOPHER y CHRISTOPHER SHAW (1992). Issues in the

Development of Multigrade Schools. World Bank Technical Paper N° 172.

Washington. The World Bank, IBRD.

TUIJNMAN A. y N. BOTTANI, Eds. (1994). Making Education Count. Developing

and Using International Indicators. Paris. OCDE.

UPI (2009) http://www.upi.com/Top_News/US/2010/12/06/Obama-US-faces-

Sputnik-moment/UPI-42801291635999/ (consultado el 2010-12-21).

WALBERG H. J. y G. D. HAERTEL, eds. (1990). The International Encyclopedia of

Educational Evaluation. Oxford-New York. Pergamon Press.

WALBERG H. J. (1990). National Assessment of Educational Progress: Retrospect

and Prospect. En Walberg y Haertel, 1990: 435-440.

WILSON, MARK, ed. (2004). Towards coherence between classroom assessment

and accountability. 103rd Yearbook, Part 2. Nat. Soc. for the Study of

Education. Chicago. U. of Chicago Press.

61

CAPÍTULO SEGUNDO

LA EVALUACIÓN FORMATIVA

63

Introducción

Este capítulo se dedica al desarrollo de los nuevos enfoques de la evaluación del

aprendizaje de los alumnos a los que se aplica el calificativo de formativos. Se

distinguirán dos versiones de estos enfoques: la más antigua, surgida en Estados

Unidos y el Reino Unido, y la que se ha desarrollado en medios francófonos,

inspirada en la anterior, pero que ha tomado rumbos propios.

Se hace también referencia a la difusión de la evaluación formativa en otros

países, pero en forma breve porque no se aprecia que en esos lugares haya

habido aportaciones originales al desarrollo del concepto. En cambio se incluye

una revisión de estudios empíricos sobre el impacto de esas formas de evaluación

sobre el rendimiento de los alumnos, contrastando trabajos que llegan a

conclusiones abiertamente optimistas con los que advierten limitaciones que

invitan a la prudencia. Se plantean, por último, dos perspectivas en cuanto al

futuro de estas tendencias.

1. Desarrollo de la noción de evaluación formativa

En un sentido muy amplio, la evaluación formativa ha estado presente desde hace

mucho en la práctica cotidiana de cualquier maestro que, de alguna manera, daba

retroalimentación a sus alumnos cuando verificaban su avance. Esto ocurría tanto

al aplicar pruebas de las llamadas objetivas, como en las formas tradicionales de

toma de lección de las escuelas antiguas y en las de tipo catecismo que siguen

presentes en las escuelas del siglo XXI, como se señaló en el capítulo anterior.

En el mismo sentido, Torrance y Prior citan a Sinclair y Clouthers, que encontraron

en 1975 que la interacción entre maestro y alumno incorpora una secuencia

básica de tres pasos (IRE): Iniciación (por el maestro) Respuesta (por el alumno) y

Evaluación /Retroalimentación (por el maestro). (1995: 312)

En el sentido que aquí nos interesa, sin embargo, se trata de un desarrollo

relativamente reciente, que cobró fuerza a fines del siglo XX y en la actualidad

constituye un tema novedoso y en boga, con todos los riesgos que ello tiene.

64

1.1 El desarrollo original en Estados Unidos y el Reino Unido

El Consejo de Autoridades Educativas Estatales (Council of Chief State School

Officers) de los Estados Unidos define la evaluación formativa como un proceso

utilizado por maestros y alumnos durante el proceso de instrucción, que ofrece

retroalimentación para ajustar la forma en que se desarrollan la enseñanza y el

aprendizaje, con el propósito de mejorar el logro de los objetivos de enseñanza

que se quiere alcanzar.

En varios trabajos recientes, Susan Brookhart (2005, 2007, 2009) propone una

definición alternativa, que distingue cuatro etapas en el desarrollo de la noción, las

que la autora presenta esquemáticamente, mediante un gráfico que se retoma a

continuación, con ligeras variantes.

Figura 1. La definición de evaluación formativa: un concepto en expansión

Scriven, 1967 Información sobre los procesos de enseñanza y de aprendizaje

Bloom et al., 1971

Que los maestros pueden usar para tomar decisiones instruccionales

Sadler, 1983 y 1989

Y los alumnos para mejorar su propio desempeño

Black-Wiliam, Brookhart, Stiggins…

Y que motiva a los alumnos

Fuente: Brookhart, 2009, con adaptaciones del autor.

Combinando los elementos aportados en cada una de las cuatro etapas de

desarrollo de la noción identificados por Brookhart, pues, la evaluación formativa

se puede definir como un proceso mediante el cual se recaba información sobre el

proceso de enseñanza aprendizaje, que los maestros pueden usar para tomar

decisiones instruccionales y los alumnos para mejorar su propio desempeño, y

que es una fuente de motivación para los alumnos. (2009)

65

Cada una de las etapas del desarrollo de la noción esquematizadas por Brookhart

ha aportado algo sustantivo a la noción:

La idea original de Scriven que distingue evaluación al final o en el proceso;

La aplicación explícita de la noción a la evaluación del aprendizaje, y no sólo

del currículo o programas, por Bloom;

La identificación de los alumnos como destinatarios clave de la información,

con Sadler y su planteamiento de los tres elementos básicos del punto de

partida, el de llegada y el recorrido entre uno y otro;

Y el impacto de la revolución cognitiva y la atención a la dimensión afectiva,

con Black y Wiliam, Shepard, Brookhart y Stiggins, entre otros.

El planteamiento inicial de Scriven

La idea original que distingue la información que se usa para mejorar algo que

está en proceso, oponiéndola a la que sirve para valorar el resultado final, la

propuso en 1967 Michael Scriven, refiriéndose en particular a la evaluación de

programas educativos. La idea clave del trabajo seminal de Scriven (1967) era

sencilla: si se evalúa una primera versión de un programa educativo cuando

todavía es posible introducir cambios derivados de dicha evaluación, estamos ante

un caso de evaluación formativa, mientras que cuando se evalúa la versión final,

madura, de un programa educativo para decidir si debe continuar o terminar, se

está ante un ejemplo de evaluación sumativa. (Popham, 2008: 3)

Pronto otros advirtieron la importancia de esa distinción que hoy parece obvia,

pero no se había manejado explícitamente antes del trabajo de Scriven. El primero

en hacerlo, y el que tuvo la influencia más duradera, fue Bloom.

Bloom y el modelo del Mastery Learning

Un año más tarde la idea fue retomada por el autor de la taxonomía de objetivos

conductuales de aprendizaje, Benjamín S. Bloom (1968). Poco después apareció

la obra que difundió la noción aplicada a la evaluación del aprendizaje de los

estudiantes, editada por Bloom, con Thomas Hastings y George Madaus. (1971)

66

En esta obra se precisan las diferencias de las evaluaciones que se usan para

apoyar decisiones instruccionales, distinguiendo los propósitos formativos y los

sumativos, así como los de ubicación y diagnóstico; se presentan técnicas para la

evaluación de objetivos cognitivos y afectivos, se describe la complejidad de los

nuevos sistemas de evaluación en gran escala y, en una extensa Segunda Parte,

se presentan once capítulos con ideas sobre otros tantos campos especializados.

El trabajo de Bloom y socios añade un elemento importante a la idea de Scriven:

que, además de ofrecer información sobre el proceso de aprendizaje y no sólo

sobre resultados finales, lo que aporta la evaluación formativa puede servir a los

maestros para que tomen mejores decisiones instruccionales. (Brookhart 2009: 1)

Thomas R. Guskey señala que Bloom partió de la constatación de que, muchas

veces, el contenido de un examen tiene poco que ver con lo visto previamente en

clase, que es también lo que los alumnos repasan al prepararse para la prueba, lo

que los lleva a la conclusión de que no vale la pena esforzarse y que no conviene

fiarse de los profesores. Según este autor:

Esta experiencia se deriva de la creencia largamente aceptada, pero falsa,

de que las evaluaciones deben guardarse en secreto y de que no es justo

dejar que los alumnos sepan lo que se incluirá en ellas. Lamentablemente

esto lleva al alumno a ver las evaluaciones como adivinanzas, y a creer que

su éxito escolar depende en gran medida de que tanto puede anticipar lo

que sus maestros preguntarán en exámenes y pruebas… es difícil que

estas sean las lecciones que un maestro responsable quiere que aprendan

sus alumnos. En contraste con lo anterior, Bloom recomendaba que los

maestros utilizaran sus evaluaciones como fuentes de información o

retroalimentación para los alumnos. Para destacar el propósito “informativo”

Bloom (1968) recomendaba llamar a estas evaluaciones “formativas”,

tomando el término de Scriven (1967) que, el año anterior, lo había utilizado

para describir los aspectos informativos, más que enjuiciadores, de las

evaluaciones de programas. (Guskey, 2007: 66)

67

Para Bloom la evaluación debía servir a los maestros para mejorar la calidad de su

enseñanza y no podía verse como punto final del proceso: debía ir seguida por

instrucción correctiva de alta calidad, que no es simplemente volver a enseñar, lo

que típicamente quiere decir repetir las explicaciones originales en voz más alta y

más despacio; más bien implica la utilización de enfoques que adapten la

enseñanza a las diferencias de estilos de aprendizaje, modalidades y formas de

inteligencia de los alumnos. (Guskey, 2007: 66-67)

A partir de estas ideas, Bloom desarrolló el sistema de enseñanza conocido con la

expresión Mastery Learning, que propone el uso sistemático de la evaluación de

tipo formativo, al final de períodos cortos de instrucción, seguida por instrucción

correctiva adaptada individualmente, con lo cual el autor esperaba una reducción

substancial de las brechas que separan a los alumnos más y menos avanzados.

El uso de evaluaciones formativas frecuentes se complementa con otro elemento

clave, la diferenciación de la enseñanza según las características y condiciones de

cada alumno; en otras palabras, para que disminuya la variación de los resultados

los maestros deben aumentar la variación de su enseñanza. Al principio esto

implica un avance más lento pero, según los defensores del sistema, en el ciclo

escolar no es necesario reducir los contenidos a cubrir, ya que el tiempo que se

utiliza para instrucción correctiva o enriquecimiento en las primeras unidades trae

consigo importantes beneficios que facilitan las cosas más tarde. El tiempo

adicional utilizado al principio se recupera en las unidades posteriores dedicando

menos a revisiones y avanzando a un ritmo más rápido. (Guskey, 2010: 112, 116)

El sistema de Bloom se extendió ampliamente y, aunque tal vez no en la medida

en que las opiniones más optimistas esperaban, dio resultados interesantes, como

pusieron en evidencia revisiones de literatura que ejemplifican las citas siguientes:

Pocas intervenciones educativas de cualquier tipo se asocian de manera

consistente con efectos en el rendimiento tan grandes como los que

produce el mastery learning… Evaluación tras evaluación los programas

que utilizan este enfoque han producido avances impresionantes. (Kulik,

Kulik y Bangert-Drowns, 1990: 292, en Guskey, 2007: 75)

68

El Mastery Learning es identificado regularmente como una de las

estrategias de enseñanza más efectivas que los maestros pueden utilizar,

en cualquier nivel educativo. (Walberg, 1984, en Guskey 2007: 75)

Avances de los 1980: cómo llegar a la meta dado el punto de partida

Un paso más en el desarrollo de la noción se identifica en los trabajos de Sadler

(1989), que añaden que no sólo los docentes pueden utilizar los resultados de la

evaluación formativa, sino que también los estudiantes pueden hacerlo. Además

de lo anterior, la aportación más significativa de Sadler consiste en el

señalamiento de que, para que una evaluación pueda considerase formativa, es

indispensable que incluya la identificación precisa de tres elementos:

El objetivo a alcanzar al final del proceso de enseñanza y aprendizaje de que

se trate, o sea el punto de llegada, el aprendizaje esperado.

La situación en que se encuentra el alumno según la evaluación realizada, o

sea el punto de partida de todo nuevo esfuerzo.

La forma de pasar del segundo al primero, las indicaciones precisas que

orientarán al estudiante para que logre alcanzar el aprendizaje esperado.

Brookhart precisa que el trabajo de Sadler se refería a estudiantes de educación

superior que, por su edad, están en condiciones óptimas para tomar decisiones

sobre su propio proceso de aprendizaje. Precisa además que con Sadler el

calificativo de formativo se aplica al sustantivo con el que en inglés se designa la

evaluación del aprendizaje de los alumnos (assessment), y ya no, como hacían

tanto Scriven como Bloom, Hastings y Madaus, al sustantivo más genérico de

evaluation, que se refería muchas veces, como se ha apuntado, a la valoración de

currículos y programas. (2009: 1)

Wiliam señala que Sadler retomó la noción de retroalimentación de Ramaprasad,

del campo de la electrónica, con la precisión de que el rasgo fundamental para

considerar que una información constituye retroalimentación es, precisamente,

que tenga algún efecto sobre el sistema en que se general.

En relación con esta idea, dice Wiliam, Sadler comenta:

69

Un elemento importante de la definición de Ramaprasad es que la

información sobre la brecha entre los niveles actuales y los de referencia

podrá considerarse retroalimentación solamente si se usa para modificar

dicha brecha. Si la información simplemente se registra, se transmite a un

tercer actor que no tiene los conocimientos o la capacidad de modificar el

resultado, o si está codificada de manera demasiado profunda para que

conduzca a una acción apropiada (por ejemplo como una calificación

sintética dada por el maestro), entonces el ciclo de control no se puede

cerrar, y en vez de retroalimentación efectiva se tienen solamente datos

sueltos (dangling data). (Citado por Wiliam, 2010, 19)

Es clara la relevancia de estas ideas para precisar lo que caracterizará a una

verdadera evaluación formativa, en el sentido de una que contribuya de manera

efectiva a modificar ciertas prácticas, de los maestros y de los alumnos.

La década de 1990: el impacto de la revolución cognitiva

Otra etapa en el desarrollo de la idea de evaluación formativa refleja el impacto de

la revolución cognitiva, con autores como Black y Wiliam en el Reino Unido, y en

los Estados Unidos Susan Brookhart, Lorrie Shepard y Rick Stiggins, entre otros.

Como hemos visto, la evaluación formativa había comenzado a desarrollarse en el

marco del modelo de Mastery Learning de Bloom, con base en los principios neo-

conductistas del diseño instruccional (enseñanza-prueba-retroalimentación o

corrección). Por ello es importante explorar cómo se transforma cuando se basa

en otras concepciones de la enseñanza y el aprendizaje; cómo se desarrolla si se

basa en principios constructivistas o socio-constructivistas o en las ideas sobre la

participación en comunidades de práctica, como proponen los teóricos del

aprendizaje situado. (Stiggins y Arter, 2002: 4)

Desde los inicios del desarrollo de las pruebas en gran escala algunos de sus

promotores más lúcidos, como Tyler, señalaban que también ese tipo de

evaluaciones debían verse como parte de los procesos de enseñanza y los de

aprendizaje, pero prevaleció un enfoque que en realidad las manejaba como un

elemento adicional que sólo tenía lugar al final del mismo.

70

La Teoría Clásica de los Tests y las pruebas en gran escala de diseño tradicional

se desarrollaron en la primera mitad del siglo XX; ambas estuvieron marcadas por

las concepciones psicológicas de la época, en particular el conductismo. Los

avances de las nuevas concepciones psicométricas se dieron en forma paralela a

la llamada revolución cognitiva. Estos desarrollos coinciden en rechazar el

planteamiento conductista que reduce el campo de estudio de la psicología a los

fenómenos más directamente observables, para intentar abrir la caja negra de la

mente, explorando los procesos que tienen lugar en su interior, con técnicas como

las de pensar en voz alta. La revolución cognitiva, dice Lorrie Shepard, fue:

…una rebelión contra la psicología de las diferencias individuales y el

conductismo, una de cuyas premisas básicas era el centrar la atención en la

adquisición de competencias gracias al refuerzo de conductas observables

y no en tratar de explicar los procesos mentales subyacentes. (2006: 627)

En la medida en que se identifican y exploran los procesos mentales –y los

avances de las ciencias cognitivas muestran que es posible en un grado mucho

mayor que el que consideraban los conductistas— se abren horizontes atractivos

para la pedagogía y para las metodologías de evaluación del aprendizaje, en

especial para las que pretendan servir para propósitos formativos, en el sentido

apuntado, esto es para dar elementos que sirvan para que maestros y alumnos

modifiquen sus acciones en consecuencia, para alcanzar mejores resultados.

Shepard señala que sólo recientemente los especialistas en medición comenzaron

a prestar atención al contexto del aula para entender mejor las necesidades de los

maestros en lo relativo a la preparación para llevar a cabo evaluaciones. Y añade

que otros investigadores, Dorr y Bremme, han concluido que

…los maestros razonan prácticamente y actúan como clínicos, orientando

su actividad evaluadora a sus tareas cotidianas, como decidir qué enseñar,

y cómo hacerlo con alumnos de diversos niveles de desempeño; monitorear

el progreso de los alumnos, para saber cómo ajustar la enseñanza en

consecuencia; y asignar calificaciones a sus alumnos con base en su

desempeño. (Cfr. Shepard, 2006: 625-626)

71

Shepard apunta elementos importantes en lo que se refiere al potencial formativo

de las evaluaciones, señalando que:

…la evaluación no puede promover el aprendizaje si se basa en tareas o

preguntas que distraen la atención de los objetivos reales de la enseñanza.

Históricamente, las pruebas tradicionales muchas veces orientaban la

instrucción en una dirección equivocada, si centraban la atención en lo que

es más fácil de medir, en vez de hacerlo en lo que es más importante de

aprender. (Shepard, 2006: 626)

El interés por la evaluación en aula –especialmente con propósitos formativos—

se deriva en parte de la creciente conciencia de las limitaciones de las pruebas

convencionales en gran escala para tales fines y se relaciona con avances

paralelos debidos a expertos en diversas áreas de contenidos curriculares, que:

…comenzaron también a buscar alternativas a las pruebas estandarizadas

para su uso en evaluaciones en el contexto del aula, movidos tanto por el

rechazo de los efectos de las pruebas utilizadas para rendición de cuentas,

como por los profundos cambios en las concepciones del aprendizaje y del

manejo adecuado de los contenidos. (Shepard, 2006: 626)

Como se ha apuntado, muchos maestros no tienen la competencia necesaria para

hacer pruebas estandarizadas de mejor calidad que las que hacen organismos

especializados, y que además sean adecuadas para retroalimentar su trabajo y el

de sus alumnos. Por ello, desde 1989, Silver y Kilpatrick sostenían que:

…más allá de la práctica prevaleciente según la cual los maestros preparan

sus propias pruebas para que se parezcan en forma y contenido a las de

opción múltiple externas, debería hacerse un serio esfuerzo para

prepararlos más bien para que puedan conducir lecciones de solución de

problemas, y para evaluar la habilidad y las disposiciones de sus alumnos al

respecto en el marco de esas lecciones. (Cfr. Shepard, 2006: 627)

Lorrie Shepard concluye el importante trabajo que se ha citado diciendo:

72

El nuevo modelo de evaluación formativa aspira a hacer de la evaluación

una parte integral de la enseñanza… La diferencia fundamental consiste en

que las nuevas estrategias se basan en un modelo de enseñanza y

aprendizaje muy diferente, y no se basan en instrumentos estandarizados

desarrollados fuera del aula. (2006: 627)

El calificativo de revolucionario que se aplica a las teorías cognitivas se justifica

plenamente, dadas las enormes repercusiones que tiene tanto para la enseñanza

como para la evaluación la idea básica de que es posible explorar los procesos

que tienen lugar en la mente de quienes aprenden o enseñan.

La repetición y el ensayo error no son el mejor modo de desarrollar muchas de las

competencias cognitivas más complejas en matemáticas, ciencias naturales y

sociales, cuestiones tecnológicas, de planeación o gestión avanzada, entre otras.

En estos casos son necesarias acciones más complejas, para que los aprendices

desarrollen (construyan) los nuevos conocimientos, a partir de los previamente

adquiridos, en complejos procesos que pueden implicar abandonar concepciones

previas equivocadas (desaprendizaje o deconstrucción) que impiden que ocurra el

aprendizaje (obstáculos epistemológicos).

En estos casos no sirve mucho que el maestro indique al estudiante que aún no

consigue dominar cierto tema que lo vuelva a intentar una y otra vez, sino que es

necesario explorar los preconceptos erróneos, identificar las etapas del proceso de

construcción del conocimiento nuevo (mapas de progreso), ofrecer ejemplos de

productos que se acerquen más o menos al esperado, etcétera.

Es fácil apreciar que una enseñanza con esas características será diferente de la

tradicional y mucho más rica; también se aprecia con claridad que la diferencia

será similar en lo que se refiere al tipo de evaluación a realizar, y al tipo de

devolución o retroalimentación a ofrecer a los aprendices. Como dice un

importante trabajo de la OCDE sobre el tema, en última instancia, el propósito de

la evaluación formativa es conducir a los estudiantes a desarrollar sus propias

habilidades de “aprender a aprender”, que a veces se denominan también

“estrategias metacognitivas”. (CERI, 2005: 50)

73

Según Mc Millan, si se quiere usar la evaluación formativa para la “comprensión

profunda” (deep understanding), se necesita meta-cognición y auto reflexión.

La meta-cognición se refiere al monitoreo, la reflexión y la dirección de su

propio pensamiento por parte de los estudiantes. Implica monitorear la

comprensión, ser consciente de las estrategias que se usan para aprender

y reconocer cuando ciertos objetivos de aprendizaje se han alcanzado o

necesitan ser revisados y mejorados.

La meta-cognición es similar a la auto regulación, en el sentido de que

supone estudiantes autodirigidos (self-directed)… que se involucran

activamente en su propio aprendizaje y usan habilidades metacognitivas…

Utilizan herramientas de pensamiento como repaso, elaboración y

organización, administran su tiempo durante el aprendizaje, toman notas y

buscan ayuda cuando la necesitan… Los estudiantes aprenden cómo y

cuándo solicitar retroalimentación y tienden a detectar errores y a tener

habilidades correctivas. (McMillan, 2010: 47)

Siempre en el marco de la psicología cognitiva, en ámbitos lingüísticos distintos al

anglosajón las ideas que se manejan en este último con la denominación de

evaluación formativa se han desarrollado en relación con las ideas de regulación y

autorregulación. Por ello esto se retomará más adelante, pero antes se tratará un

punto central de la evaluación formativa, que es el relativo a la retroalimentación

que se da a los alumnos, así como el tema relacionado relativo a la importancia

que tienen los aspectos afectivos en dicha retroalimentación.

Un punto clave: la retroalimentación

Una breve consideración sobre los tres puntos que Sadler plantea como básicos

en la evaluación formativa lleva a destacar el relativo a la retroalimentación que se

debe ofrecer a los alumnos.

La mayoría de los maestros sabe lo que los alumnos deben aprender, identifican a

los que lo consiguen y a los que no lo alcanzan, pero se sienten impotentes para

que los segundos, sobre todo algunos de ellos, los que enfrentan mayores

dificultades, aprendan más.

74

Y lo que define finalmente si una evaluación es formativa o no es precisamente si

contribuye o no a que los alumnos aprendan. Por eso es fundamental dar a los

alumnos buena retroalimentación, en el sentido de una que no se limite a informar

al alumno si domina o no algún tema (devolución), sino que contribuya de manera

efectiva a que el interesado avance en el proceso de aprendizaje, le ayude a

transitar del punto en que se encuentra al que se ha definido como meta del

proceso, en los términos de la definición de evaluación formativa de Sadler.

Aunque implica un esfuerzo particular, no parece especialmente difícil establecer

metas de aprendizaje precisas y hacer que los alumnos las comprendan. Algo más

complejo es detectar si un alumno ha alcanzado ya la meta, o determinar el punto

más o menos alejado de ella en que se encuentra. Lo más complicado es ayudar a

todos los alumnos que no han llegado a la meta a que lo consigan efectivamente.

En el sentido de informar a los alumnos si saben o no algo, el uso de algún tipo de

retroalimentación por los maestros es parte de las prácticas tradicionales, en el

marco de tradiciones pedagógicas todavía presentes en muchas aulas. En el

Capítulo 1 se ha citado ya a Resnick et al., que dicen:

Buena parte de la instrucción de enfoque asociacionista, al menos en las

sociedades occidentales, se origina en formas tempranas de educación

religiosa en la iglesia cristiana. Primero los protestantes y luego los

católicos desarrollaron una forma de instrucción elemental que se desarrolla

oralmente en la forma de preguntas y respuestas, y se conoce como

catecismo… La forma de catecismo todavía está presente en lo que ahora

llamamos “enseñanza estándar basada en recitación”… (2010: 400)

Luego se contrasta ese tipo de interacción verbal con la que tiene lugar en las

aulas actuales, organizada según concepciones interpretativas. Según Resnick et

al., las nuevas formas de conversación constituyen un importante cambio en

comparación con el catecismo y su recitación, aunque reconocen que el papel del

maestro en la conducción del proceso sigue siendo importante y señalan que, por

ello, hay oportunidad para que la evaluación de conocimientos de los alumnos se

integre como parte del proceso. Sin embargo:

75

Lo que cuenta como conocimiento se amplía; los bloques a aprender y de

los que se habla son mucho mayores; hay más oportunidades de que el

maestro se vea sorprendido por las comprensiones (e incomprensiones) de

los alumnos, y es claro que se trata de mucho más que de encontrar la

respuesta única que el maestro espera… Las oportunidades de evaluación

están integradas en las actividades de aprendizaje y es difícil pensar que se

puedan separar como ítems individuales de una prueba. (2010: 401)

Hay que recordar que la retroalimentación tipo catecismo pasó a las aulas laicas y

se desarrolló en los modelos de enseñanza inspirados en el asociacionismo y el

conductismo, con los refuerzos positivos o negativos de las conductas.

Recuérdese también que el neo-conductismo, en especial, con Bloom y su

modelo de Mastery Learning, llegó a una concepción de la retroalimentación que

la identificaba con la diversificación de la instrucción ofrecida por el docente, en

forma tal que se adaptara al ritmo y el estilo de aprendizaje de cada alumno. El

mismo Bloom señalaba que era frecuente que la instrucción diversificada se

redujera a que el maestro repitiera más despacio y en voz más alta lo que había

explicado una primera vez. (Cfr. Guskey, 2007: 67)

Por su parte, Sadler elabora lo relativo a la retroalimentación como sigue:

…en su primera fase, la teoría de estímulo-respuesta identificaba la noción

de retroalimentación con el conocimiento de los resultados, que podía llevar

a corrección (cuando la respuesta era incorrecta) o refuerzo (cuando era

correcta), con lo que la motivación aumentaría y se conseguiría un mejor

rendimiento…

La segunda fase tomó un camino distinto: retroalimentar tenía que ver con

elogiar el esfuerzo, lo que llevaría a mayor auto-estima, más esfuerzo y,

finalmente, mejor rendimiento… en casos más complejos se requieren

formas más sofisticadas de retroalimentación… [incluyendo] descripciones

de rasgos del trabajo del alumno, comentarios evaluativos, sugerencia de

caminos o arreglos alternativos…

76

Una opción alternativa es disociar la retroalimentación relacionada con el

ego y la relativa a la tarea, promoviendo fundamentalmente que se

alcancen logros verdaderos, lo que a su tiempo llevarán a mejorar la

autoestima… es la calidad y no la cantidad de retroalimentación lo que

merece nuestra mayor atención. (1998: 78-84)

En forma similar, Rebeca Anijovich distingue retroalimentación afectiva y cognitiva,

individual y grupal, cantidad y calidad; señala que el maestro usa distintos códigos

para retroalimentar: sólo marcar los errores, o bien además anotar la respuesta

correcta, escribir comentarios al respecto, sugerir como mejorar o incluso dialogar

sobre la retroalimentación con los alumnos, y añade que los estudios indican que:

La retroalimentación que se brinda asume en pocas ocasiones la función de

orientar. No es frecuente el planteo de preguntas o la invitación a compartir

reflexiones con los estudiantes. Un factor crítico es el tiempo disponible de

los docentes para ofrecer retroalimentaciones sustantivas a todas las

producciones, de los alumnos. Para evitar el "todo o nada” es posible, por

ejemplo, definir criterios y determinar en forma explícita, qué trabajos,

rotativamente, van a recibir retroalimentación escrita, con qué frecuencia,

etc. (Anijovich, 2010: 17)

Según esta autora, al hablar del impacto de la retroalimentación hay que indagar

cuál es el objeto del impacto: los conocimientos de los alumnos, sus procesos de

aprendizaje, su autoestima, su motivación o sus acciones futuras. Unos estudios

distinguen retroalimentación centrada en la autoestima o en la tarea:

…se ha observado que este tipo de retroalimentaciones puede provocar

mejoras en el aprendizaje… a partir de un incremento en la autoconfianza y

en la capacidad de logro, pero también puede inducir un efecto contrario, es

decir que, apoyado en comentarios positivos, el alumno no reconozca que

necesita mejorar algunos aspectos de su trabajo. Para superar este

problema, algunos autores señalan que la retroalimentación es más

productiva si se centra en la tarea, en cómo el alumno la resuelve, y cómo

autorregula su aprendizaje. (2010: 16)

77

Por lo que se refiere a la cantidad y calidad de retroalimentación que da el maestro

a distintos tipos de alumnos, la autora señala que según algunos estudios:

…los “buenos alumnos”, con buenas producciones, recibían un comentario

genérico como “muy buen trabajo", "buen nivel de análisis". Estas frases

implican muy poca retroalimentación, vinculada a aspectos específicos de la

producción evaluada. Los alumnos con dificultades importantes también

reciben poca Información específica. Suelen obtener señalamientos

generales como "rehacer el trabajo" o comentarios que sirven más para

justificar la calificación que para retroalimentar la producción o el

desempeño del alumno.

Es llamativo que sean los alumnos de nivel intermedio los que reciben más

cantidad de información en concepto de retroalimentación Esta es además

más específica y contiene indicaciones como “justificar la pregunta 2

apoyándose en la bibliografía” “rehacer el diagrama revisando los

conceptos incluidos”, etc. (Anijovich, 2010: 16-17)

Anijovich se pregunta si la retroalimentación debería ser individual o grupal, y

comenta que, en caso de retroalimentación grupal, si el compromiso del grupo es

bajo posiblemente nadie se sienta dueño de la información que aporta el docente y

esta se perciba como ajena, pasando "inadvertida” para los alumnos. En cambio,

si el compromiso y el conocimiento que tienen los alumnos de sus propias

fortalezas y debilidades es mayor, entonces las devoluciones grupales

enriquecerán el intercambio de ideas, estrategias y recursos. (2010: 17)

En cuanto a los modos en que se ofrece retroalimentación, la autora señala que

dependen de factores como las experiencias anteriores en relación con el tipo de

respuesta obtenida de los alumnos, el tipo de creencia sobre la capacidad de los

estudiantes, la construcción de un clima de confianza en el aula, el tipo de

comunicación y de vínculo establecido entre los educandos. (Anijovich, 2010: 17)

Llegamos así a la manera en que se concibe la retroalimentación en el enfoque de

evaluación formativa, basado en la revolución cognitiva, con su énfasis en la

autorregulación del proceso de aprendizaje por parte de los alumnos.

78

Una buena evaluación formativa no se puede reducir a no dar calificaciones

sumativas, pues con eso no mejora la retroalimentación que necesita el alumno

para orientar sus esfuerzos por avanzar. En un trabajo al que se hará referencia

más adelante se encontró que no dar calificaciones provocó reacciones adversas

de los alumnos, por la suprema ironía que representaba el que, en opinión de loa

chicos, sin calificaciones ellos no contaban con información suficiente sobre su

desempeño, no recibían buena retroalimentación: Quiero conocer mis

calificaciones porque los comentarios no nos dicen mucho. (Stobart, 2005: 4)

Otros autores reflexionan sobre la dificultad de la evaluación formativa y, en

especial, de formular preguntas que permitan dar luego retroalimentación eficaz:

Los alegatos en pro de la evaluación formativa… parecen dar por supuesto

que el proceso de evaluación es enteramente transparente, con profesores

capaces de hacer que los alumnos produzcan respuestas claras en forma

inequívoca. Un buen número de estudios sugieren que no es así, sobre

todo entre alumnos pequeños… esto no quiere decir necesariamente que

los alumnos no supieran la respuesta o no entendieran la pregunta, sino

que pensaban que se les preguntaba algo diferente, o que tenían que

responder más bien una pregunta implícita inferida a partir del contexto, y

no la pregunta explícitamente formulada. (Torrance y Prior, 1995: 309)

Según estos autores los alumnos intentan siempre interpretar las preguntas de los

maestros y “dar sentido” a lo que se les pregunta, más que entender lo que se

podría considerar el significado “obvio” de una pregunta en particular. Además:

…la adquisición de nuevos conceptos parece depender principalmente de

las experiencias previas de aprendizaje y de lo que el aprendiz puede estar

listo para aprender con la ayuda de un adulto o un compañero. Por ello,

para que el aprendizaje sea más efectivo debe tener lugar en la “zona de

desarrollo próximo”… [con una visión constructivista de la educación] la

evaluación debería implicar ofrecer al alumno experiencias que puedan

captar con las ideas y habilidades que ya tiene, pero que también exigen

una extensión o modificación de esas ideas y habilidades. (1995: 316)

79

Estos autores afirman que un requisito para que los alumnos puedan mejorar es

que sean capaces de apreciar qué es un trabajo de buena calidad y que tengan

las habilidades evaluativas necesarias para comparar con objetividad la calidad de

sus propias producciones con el estándar más elevado. (1995: 307)

Para que los alumnos desarrollen esa capacidad de identificar productos de buena

calidad con los cuales contrastar su propio trabajo son muy útiles los mapas de

progreso (learning progressions), citados en el Capítulo 1, que algunos consideran

uno de los avances más importantes en evaluación. Como dice James Popham:

Una “learning progression” es una secuencia de de habilidades particulares

(subskills) y conocimientos habilitadores que se considera que los alumnos

deben manejar en el proceso de llegar a dominar un objetivo curricular más

amplio. En un sentido casi literal, las “learning progressions” constituyen

mapas que orientan sobre la manera de hacer evaluaciones formativas…

¿Qué deben evaluar los maestros? Esas habilidades particulares y cuerpos

de conocimiento habilitador que el mapa de progreso identifica como claves

para que los alumnos lleguen a dominar el objetivo curricular final.

¿Cuándo deben evaluar habilidades y conocimientos habilitadores? Antes

de pasar al siguiente bloque constructivo en el trayecto, cuyo dominio se

supone que depende del dominio de su predecesor. (Popham, 2008: 24-30)

En este punto conviene referirse a una idea importante: la que identifica a los

alumnos mismos como actores clave de la evaluación formativa. Heidi Andrade

dice que, dado su constante e instantáneo acceso a sus propios pensamientos,

acciones y trabajos, los alumnos mismos son la fuente fundamental de una buena

retroalimentación; y añade que esta postura no es novedosa para los estudiosos

que trabajan con el enfoque del aprendizaje auto-regulado, puesto que:

…se sabe desde hace mucho que el aprendiz eficaz tiende a monitorear y

regular su propio aprendizaje y que por ello aprende más y tiene más éxito

académico… Además de tener mucho en común entre sí, las teorías de la

autorregulación y la autoevaluación comparten también muchos puntos con

la reciente investigación sobre evaluación formativa. (Andrade, 2010: 90-95)

80

Tomándolo de un trabajo de Wiliam, Andrade presenta un ejemplo de práctica en

aula que combina las ideas de autorregulación y autoevaluación:

En sus clases de matemáticas y ciencias los alumnos utilizaban objetos de

color verde, naranja y rojo que ponían sobre el escritorio para indicar su

propia apreciación de qué tan bien habían comprendido el contenido que se

estaba estudiando, durante una clase o demostración. El maestro podía así

reaccionar de inmediato a la distinta confianza en su propia comprensión

que manifestaban los alumnos, por ejemplo poniendo a trabajar juntos a

alumnos que hubieran puesto el símbolo verde con los de símbolo naranja,

para que aclararan los puntos confusos comentando entre ellos, mientras el

maestro ayudaba a los alumnos de símbolo rojo. (Andrade, 2010: 99)

Topping comenta que en la mayoría de las aulas hay más alumnos que maestros,

por lo que la retroalimentación de los compañeros puede ser más inmediata,

oportuna e individualizada que la del docente. Señala que será necesario entrenar

a los alumnos para desarrollar habilidades apropiadas, pero sostiene que una

mejor comprensión de cómo se producen los efectos positivos de la coevaluación

permitirá… diseñar formas más efectivas, pero por muchos años la evaluación por

pares… se ha apoyado sólo en antiguos dichos como el que dice que enseñar es

aprender dos veces. (Topping, 2010: 62-63)

Si se acepta que los responsables de las decisiones más importantes que se

toman en el aula son los alumnos y los maestros mismos, entonces unos y otros

deberán manejar bien los tres pasos de Sadler, teniendo claro en qué punto se

encuentra cada aprendiz, a qué distancia está de la meta de aprendizaje

establecida y cómo es posible reducir esa distancia.

Según Stiggins lo anterior puede parecer obvio, pero tomarlo en serio no es

sencillo, pues supone que cada maestro domine las competencias que se espera

alcancen los estudiantes y tenga seguridad al respecto; si los maestros no

cumplen con lo anterior, la consecuencia pueden ser expectativas inadecuadas o

poco claras sobre el rendimiento de los estudiantes, y entonces será imposible

una evaluación confiable. Y añade:

81

Evaluar para el Aprendizaje requiere que se redacten mapas curriculares

basados en estándares, en versiones inteligibles para los alumnos y sus

padres, de manera que a todos quede claro el trayecto de aprendizaje a

recorrer… Otra estrategia es ofrecer a los alumnos de manera regular

retroalimentación descriptiva, en contraposición a evaluativa, o sea

información que les ayude a entender cómo mejorar la calidad de su propio

trabajo. (Stiggins, 2007: 15-18)

La distinción entre los dos tipos de evaluación es elaborada por Davies, para quien

los resultados de la investigación sobre las ventajas de la evaluación formativa, las

formas de retroalimentación, la motivación y la evaluación sumativa, son cuatro

piedras angulares que sustentan la idea de involucrar en forma deliberada a los

alumnos en los procesos de evaluación en aula. Davies distingue dos tipos de

retroalimentación, cada una con diferente impacto sobre el aprendizaje:

Retroalimentación específica, descriptiva

Puede tener lugar durante el aprendizaje o después de él. Es formativa. El

trabajo del alumno se compara con criterios, rúbricas, modelos, ejemplos,

muestras o descripciones de trabajos excelentes. Los alumnos aprenden

qué puntos cumplen las expectativas de calidad y dónde deben aprender

más y mejorar su trabajo. Los alumnos comprenden más fácilmente esta

retroalimentación por su relación con el aprendizaje. Una retroalimentación

menos eficaz simplemente juzga el resultado (por ejemplo “Buen trabajo” o

“Necesita mejorar”), mientras la retroalimentación específica y descriptiva,

relacionada con criterios claros, informa a los aprendices sobre lo que han

hecho bien y lo que necesitan hacer de manera distinta. (2007: 32)

Retroalimentación evaluativa

Este segundo tipo tiene lugar al final del aprendizaje. Es sumativo. Dice al

aprendiz cómo se ha desempeñado en comparación con otros (referencia a

norma estadística) o en relación con lo que se debía aprender (referencia a

un criterio). Se comunica mediante letras, números u otros símbolos que

constituyen un código. El alumno que recibe retroalimentación evaluativa

82

usualmente comprende si necesita mejorar o no; sin embargo, a no ser que

pueda decodificar la retroalimentación podrá no tener suficiente información

para saber cómo mejorar. Los investigadores reportan que las letras,

grados y otros símbolos que comunican retroalimentación evaluativa

pueden tener un efecto negativo sobre el aprendizaje de todos los alumnos

y que esos efectos negativos son más marcados en el caso de alumnos de

bajo rendimiento. (Davies, 2007: 33)

A partir de lo anterior, Davies describe algunas estrategias particulares que los

maestros pueden utilizar para involucrar a los alumnos en el proceso de

evaluación. Se presentan cuatro tipos de estrategias:

Definir los puntos de llegada del aprendizaje de tal manera que los alumnos

entiendan bien los objetivos que deben tratar de alcanzar.

Involucrar a los alumnos como socios en la construcción conjunta de

criterios para evaluar los resultados.

Multiplicar la cantidad de retroalimentación que reciben los alumnos para

prever el desarrollo subsecuente de su aprendizaje.

Involucrar a los alumnos en la recolección, selección, discusión y

presentación de las evidencias de su aprendizaje. (2007: 36)

El impacto afectivo de la evaluación

Desde la década anterior, el trabajo de psicólogos educativos como Crooks (1988)

y Natriello (1987), había mostrado el impacto que tiene dar retroalimentación a los

alumnos sobre su nivel de aprendizaje, a partir de las evaluaciones, en una forma

o en otra. En esta dirección, trabajos como los de Brookhart (1997), Black y Wiliam

(1998) o, más recientemente, Stiggins (2008), subrayan esta dimensión afectiva.

Richard (Rick) Stiggins, del Educational Testing Service, señala que hasta hace

poco los sistemas educativos consideraban normal y aceptable que sólo una parte

de los alumnos alcanzara los objetivos de aprendizaje, mientras un número

importante no lo conseguía.

83

El papel de la evaluación consistía en distinguir unos y otros en forma consistente,

y los criterios fundamentales para valorar la calidad de las evaluaciones eran su

validez y su confiabilidad.

Hoy se espera de las escuelas que hagan que todos los alumnos alcancen los

niveles de competencia necesarios para vivir en la llamada sociedad del

conocimiento, y es necesario reflexionar sobre el papel y las formas apropiadas

para evaluar el aprendizaje en este nuevo contexto. Stiggins dice en este sentido:

Las evaluaciones más válidas y confiables del mundo que tengan como

efecto hacer que los alumnos abandonen la tarea desesperanzados no

pueden ser consideradas productivas, porque hacen más daño que bien...

En el pasado, los marcos de referencia para el control de la calidad de las

evaluaciones no tomaban en cuenta su impacto en el alumno; la nueva

visión de la excelencia en lo relativo a evaluación, en cambio, pone en el

centro de la escena este criterio de calidad. (2008: 2-3)

Más adelante, en referencia al impacto emocional que la evaluación tiene sobre

los alumnos, añade:

Desde los primeros grados, algunos alumnos... obtienen altos puntajes en

las evaluaciones y reciben altas calificaciones. El efecto emocional es que

se ven a sí mismos como capaces de aprender, y se sienten cada vez más

confiados...

…otros alumnos, en cambio, obtienen puntajes bajos en las pruebas y

reciben calificaciones malas. Esto los lleva a dudar de su capacidad como

aprendices. La falta de confianza en sí mismos los priva de las reservas

emocionales para correr el riesgo adicional de seguir intentando. El fracaso

crónico es difícil de ocultar y se vuelve penoso: mejor ya no intentarlo.

...si unos estudiantes trabajan duro y aprenden mucho es un resultado

positivo y ocupan los primeros lugares en los ordenamientos. Y si otros se

resignan a lo que ven como fracaso inevitable, eso es un resultado

aceptable para la institución, y ocupan los últimos lugares. Mientras más

grande sea la distancia entre los primeros y los últimos más confiables son

84

los ordenamientos. Misión cumplida. Si un alumno se rinde y deja de

esforzarse, o incluso si abandona la escuela, eso es visto como un

problema del alumno, no de sus maestros o de la escuela. La

responsabilidad de ésta es ofrecer oportunidades de aprendizaje, si los

alumnos no las aprovechan, no es responsabilidad del sistema. (2008: 7)

Después, Stiggins vuelve sobre las implicaciones que tiene el que hoy los

sistemas educativos aspiren a que todos los alumnos alcancen los estándares

establecidos:

Cuando los que abandonan sin esperanza son los que todavía no alcanzan

los estándares, y cuando los educadores tienen que responder ante la

sociedad de que todos los estudiantes los alcancen, tenemos un problema

serio. Esos alumnos que dejan de esforzarse no dominarán las

competencias básicas de lectura, redacción y resolución de problemas

matemáticos, y no llegarán a ser personas que sigan aprendiendo a lo largo

de su vida.

Si la sociedad quiere que todos los alumnos alcancen los estándares,

entonces todos los estudiantes deben creer que pueden conseguirlo; todos

tienen que tener la confianza suficiente y la disposición necesaria para

enfrentar el riesgo de intentarlo. Cualquier otro estado emocional de

cualquier alumno es inaceptable. (2008: 8)

Stiggins añade que, en su opinión, la importancia del cambio de paradigma

evaluativo que implica el centrar la atención en los alumnos como usuarios

privilegiados de los resultados, y en especial teniendo en cuenta el impacto

afectivo de las evaluaciones, no se puede exagerar.

Durante décadas los expertos en la mejora escolar han cometido el error de

pensar que los adultos del sistema son los usuarios más importantes de las

evaluaciones. Hemos creído que si los adultos toman mejores decisiones

en lo relativo a la enseñanza, las escuelas se volverán más eficaces. Sin

duda los padres de familia, los maestros, los directores de escuela y las

autoridades educativas toman decisiones cruciales que influyen en la

85

calidad de las escuelas, y mientras mejor sustentadas estén esas

decisiones en datos duros, tanto mejor. Pero esta visión pierde de vista la

realidad de que los alumnos pueden ser tomadores de decisiones de

aprendizaje más importantes que los adultos... los estudiantes pueden

hacer que las decisiones de sus maestros sobre la enseñanza sean

irrelevantes; tienen el poder de volver ineficaces a los adultos... Si un

alumno decide que cierto aprendizaje está fuera de su alcance o que el

riesgo de fracaso público es demasiado grande o amenazador, entonces,

hagamos lo que hagamos los adultos, el aprendizaje termina.

Por ello la pregunta fundamental para maestros y directores de escuela es:

¿qué podemos hacer para ayudar a que los alumnos respondan en forma

productiva las preguntas anteriores, que los mantengan con esperanza de

que el éxito está a su alcance si persisten en el intento? (Stiggins, 2008: 8)

Desde otra perspectiva, uno de los investigadores que más importancia ha dado al

alumno, como actor fundamental del aprendizaje ha sido Richard Stiggins, quien

recuerda que si un alumno decide que cierto aprendizaje está fuera de su alcance

o que el riesgo de fracaso público es demasiado grande o amenazador, entonces,

hagamos lo que hagamos los adultos, el aprendizaje termina. (2008: 8)

En otro lugar, por la importancia de la dimensión afectiva de la evaluación, este

autor sostiene que el primer desafío a enfrentar si se quiere que las prácticas

docentes incorporen el enfoque de evaluación formativa no es otro que redefinir la

dinámica motivacional de la evaluación, y de esta premisa deriva consecuencias

claras en cuanto a las exigencias de una buena evaluación formativa.

Desviaciones y avances de la década de 2000

Durante la última década del siglo XX el interés por la evaluación formativa se

extendió ampliamente, pero al mismo tiempo la noción tendió a desvirtuarse, al

grado que ha llegado a ser muy ambigua, al referirse a veces a lo que se puede

considerar estrictamente formativo, pero otras a cualquier forma de utilizar datos

sobre el rendimiento de los alumnos para tomar decisiones sobre la enseñanza.

(Cfr. McMillan, 2007: 1)

86

En este proceso influyeron los esfuerzos de algunas empresas comerciales que,

para promover sus productos, comenzaron a designar con la etiqueta de

formativas a pruebas tradicionales que presentaban como si estuvieran en línea

con las tendencias más actuales en el campo. McMillan dice al respecto:

En una interesante estrategia de mercado, las compañías que desarrollan

pruebas reconocen la importancia de la evaluación formativa, y ahora están

promoviendo evaluaciones que llaman “formativas”, pero que es más exacto

describir como pruebas referidas a ciertos estándares (benchmark), que

ofrecen mediciones periódicas en lectura y matemáticas para monitorear el

avance de los alumnos hacia el logro de lo que cubren las pruebas de alto

impacto que se aplican al fin del año escolar. (2007: 2)

Esas pruebas de medición de avances, monitoreo o intermedias se ofrecen como

si fueran formativas aunque hay grandes diferencias; en general no ofrecen el

detalle necesario para introducir correctivos instruccionales apropiados y tienden a

interrumpir la enseñanza con poca retroalimentación útil. (McMillan 2007: 3)

En el mismo sentido otro autor precisa:

Actualmente hay muchas herramientas computarizadas que pueden usarse

para obtener información sobre el aprendizaje de los alumnos. Sin embargo

si esa información no está bien alineada con los objetivos de aprendizaje y

no es recolectada en momentos cercanos a la instrucción… no cumple los

requisitos de la definición de evaluación formativa. La aplicación periódica

de pruebas para monitorear el avance hacia objetivos de aprendizaje

amplios tampoco cae dentro de esa definición; esas pruebas periódicas son

más bien evaluaciones intermedias (interim assessments). Igualmente, si

bien el resultado de evaluaciones sumativas puede usarse para identificar

temas y habilidades que los alumnos parecen no dominar o que necesitan

más desarrollo, el tiempo que transcurre entre el momento en que se recibe

la información y la siguiente oportunidad de reforzar el desarrollo de

conocimientos y habilidades particulares impide que las pruebas sumativas

se utilicen como formas de evaluación formativa. (Rusell, 2010: 125)

87

Citando a Edwards, Black-Wiliam y Chappuis, Abrams refiere que 34 estados

americanos contaban (hacia 2007) con bases de datos interactivas para

retroalimentar las prácticas de enseñanza, pero añade que, si esos sistemas

…no tienen la capacidad de proporcionar retroalimentación correctiva que

informe los procesos tanto de maestros como de alumnos, se les debería

considerar más bien pruebas “mini-sumativas” o “sumativas para alarma

temprana” (early warning summative), y no herramientas formativas… por la

influencia y la mercadotecnia de los programas de benchmarking se está

redefiniendo el sentido de la expresión “evaluación formativa”, que ha

llegado a significar “evaluación sumativa frecuente”. (Abrams, 2007: 93)

Otros dos de los principales promotores de la evaluación formativa afirman que es

necesario que la noción se defina de manera precisa, porque muchos maestros e

investigadores parecen haberla entendido mal; estos autores dicen que algunos

maestros creen que utilizar portafolios, en lugar de o además de los resultados de

pruebas impuestas externamente, eso constituye evaluación formativa, cuando en

realidad esa práctica nada tiene de formativa a no ser que haya retroalimentación

activa que capacite a los estudiantes para modificar y mejorar su trabajo a medida

que construyen sus portafolios. (Black y Wiliam, 2004: 22)

Por lo anterior, un grupo de promotores de estas tendencias sugiere un cambio de

terminología: proponen usar la expresión Evaluación para el Aprendizaje, EPA

(Assessment for Learning, AFL), en lugar de la ya muy trillada y distorsionada de

evaluación formativa (formative assessment). Entre 2001 y 2009 han tenido lugar

tres reuniones internacionales sobre el tema, la última de ellas en Dunedin, Nueva

Zelanda, de cuyas conclusiones se toman las siguientes ideas.

…evaluación formativa es una frase ampliamente utilizada en el discurso

educativo en Estados Unidos, Canadá, Nueva Zelanda, el Reino Unido y

Europa… pero las formas en que las palabras se interpretan y reflejan en la

política y la práctica educativa revela muchas veces malentendidos en los

principios y distorsiones en la práctica que los ideales originales pretenden

promover. Algunos de esos malentendidos y desafíos derivan de que las

88

definiciones son ambiguas, pero otros surgen de apropiaciones deliberadas,

con intenciones políticas, de principios que han alcanzado un apoyo

significativo por parte de los educadores. (TICAL, 2009: 3)

Se señala que a veces se han interpretado erróneamente los principios de Sadler

(precisar dónde están los aprendices al inicio, a dónde se quiere que lleguen y

como conseguirlo), como si de lo que se tratara fuera de que los maestros

aplicaran pruebas sumativas no sólo una vez al año, sino frecuentemente, para

valorar el grado en que sus alumnos estarían alcanzando los niveles establecidos,

para corregir las fallas y orientarse a alcanzar el siguiente nivel.

Los investigadores reunidos en Dunedin señalaron que, en esos casos, alcanzar

cierto puntaje se vuelve el propósito de la enseñanza, y el aprendizaje real se ve

sacrificado en aras del desempeño en la prueba… La lógica del grupo es que

cuando tiene lugar el aprendizaje verdadero se manifestará en el desempeño,

mientras que lo contrario no se sostiene: el desempeño en una prueba por sí

mismo no significa necesariamente que haya habido realmente aprendizaje. Se

puede enseñar a los aprendices cómo tener buenos puntajes en las pruebas sin

que haya mucho aprendizaje real. (TICAL, 2009: 3)

Tratando de evitar malentendidos como los mencionados, en el documento que

recoge las conclusiones de la reunión se precisa que lo que se pretende designar

con la expresión “evaluación para el aprendizaje” no es una metodología particular

de evaluación, sino la identificación de rasgos del aprendizaje a medida que se

desarrolla para que el aprendizaje mismo pueda mejorar, y que si se consigue esa

mejora es secundaria la estrategia formal o informal que ayude a hacerlo. Se

subraya que la Evaluación para el Aprendizaje:

…busca, analiza y reflexiona sobre información que proviene de los mismos

estudiantes, sus maestros y sus pares, como se revela en el diálogo, la

observación y la respuesta de los aprendices a tareas y preguntas… Es

parte de la enseñanza cotidiana en cada aula; una buena parte ocurre en

tiempo real, pero una parte puede derivar de eventos o episodios de

evaluación más formal… Lo distintivo de la EPA no es el tipo de información

89

o las circunstancias en que se genera, sino su efecto positivo en el

aprendiz. Bien integrada en los contextos de enseñanza/aprendizaje, la

EPA pone en marcha a los aprendices hacia un aprendizaje más amplio, a

lo largo de la vida. (TICAL, 2009: 3)

A partir de lo anterior la conferencia de Dunedin propone la siguiente definción:

La Evaluación Para el Aprendizaje es parte de la práctica cotidiana de

estudiantes, maestros y pares, que busca, reflexiona y responde a

información que proviene del diálogo, la demostración y la observación, en

formas que mejoran el aprendizaje que está en proceso. (TICAL, 2009: 3)

Una reciente definición muestra un propósito análogo de diferenciación:

Una práctica que tenga lugar en el aula será formativa en la medida en que

la evidencia sobre el desempeño del alumno se produzca, interprete y use

por los maestros, los estudiantes o sus pares para tomar decisiones sobre

los pasos siguientes en la instrucción que tienen probabilidad de ser

mejores, o de estar mejor fundamentadas, que las decisiones que se

habrían tomado en ausencia de dicha evidencia. (Black y Wiliam, 2009)

Con todo lo anterior debe quedar claro que no es el uso de algún tipo especial de

evaluación lo que la hace formativa, sino el uso que se hace de los datos. Por lo

tanto, concluye Andrade:

Toda definición de evaluación formativa debe basarse en su propósito, que

deberá incluir informar sobre el aprendizaje de los alumnos a maestros y

directivos para orientarlos en la planeación de la enseñanza y retroalimentar

a los alumnos sobre su propio avance para ayudarlos a definir cómo cerrar

las brechas entre su desempeño y los objetivos establecidos. La esencia de

la evaluación formativa es la acción informada. (Andrade, 2010: 344-351)

En seguida retrocederemos en el tiempo para ver el desarrollo de la evaluación

formativa en ámbitos lingüísticos distintos al anglosajón, en los que el tema ha

sido tratado en menor escala; se destacarán algunas aportaciones relevantes

enmarcadas en corrientes cognitivas más conocidas en los medios francófonos.

90

1.2 Desarrollos conceptuales en el mundo francófono

Más que en Francia, los trabajos a los que se referirá este apartado se han

desarrollado en otros lugares, en especial la provincia canadiense de Quebec y las

regiones francófonas de Suiza y Bélgica.

Tal vez por la influencia cercana del sistema de investigación estadounidense, ha

sido en Canadá donde el trabajo de investigación empírica en evaluación y temas

relacionados se ha desarrollado más, muestra de lo cual fue el surgimiento, en

Montréal, en 1977, de la Association Professionnelle de Mésure en Éducation

(APME), tras dos intentos frustrados en el mismo sentido en 1968 y 1972 (Poulin,

1978: 4-5). Posteriormente la agrupación adoptó el nombre de Association pour le

Développement de la Mésure et l’Évaluation en Éducation. (ADMEE)

En 1978 la APME comenzó a editar el boletín Mésure en Éducation, cuyo primer

número sólo contenía un modesto artículo de seis páginas sobre estaninas

estandarizadas y normalizadas. (Vachon, 1978), además de un texto sobre la

historia de la asociación y los estatutos de la misma. A partir del Volumen 5 (1982)

la publicación adoptó el nombre de Mésure et Évaluation en Éducation, y comenzó

a publicar cinco números al año en vez de cuatro.

Con varios cambios en el número de volúmenes y números publicados al año, la

publicación se mantiene hasta la fecha y, desde los años 1990, es publicada

conjuntamente por la Association pour le Développement de la Mésure et

l’Évaluation en Éducation (ADMEE-Europe, que agrupa a investigadores de

Francia y regiones francófonas de Bélgica y Suiza) y la ADMEE-Canadá, de

Québec, aunque el peso de los trabajos canadienses sigue siendo mayoritario.

Incluso en esta revista, especializada en temas de evaluación, la cantidad de

textos que tienen como tema central la evaluación formativa es reducida: sólo 17

en los 30 años transcurridos de 1978 a 2007.

En el primer artículo publicado en Mésure et Évaluation en Éducation sobre el

tema, Linda Allal menciona el trabajo de Bloom como perspectiva inicial, con un

enfoque centrado en aspectos metodológicos y técnicos.

91

Luego menciona una reunión organizada en Ginebra por ella misma con otros

investigadores europeos (Alla, Cardinet y Perrenoud 1979) en relación con la cual

señala que se analizaron más bien:

…los aspectos conceptuales, en función de perspectivas teóricas

provenientes de varios marcos de referencia: análisis psico-sociológicos de

las desigualdades del éxito escolar, concepciones neoconductistas y

cognitivistas de los procesos de aprendizaje y desarrollos recientes en el

campo de la didáctica de las disciplinas escolares. Desde hace algunos

años se esboza un tercer enfoque: a partir de un análisis de varios

esfuerzos de maestros por poner en práctica la evaluación formativa, se

trata de poner en evidencia los procesos de regulación, toma de decisiones

y comunicación, que caracterizan a la acción pedagógica en su realidad

cotidiana. (Allal, 1983: 37-38)

Esta referencia muestra tanto la influencia inicial, como la línea que tomarían los

trabajos francófonos en los años siguientes, que refleja la revista de la ADMEE

con un textos de 1983 (Cardinet); otro de 1984 (Weiss); dos de 1985 (Scallon y

Huberman et al.); dos de 1988 (Bain y Dassa); uno de 1989 (Scallon); cuatro de

1991 (Perrenoud, Gagné y Thouin, Gadbois et al. y Cazabon); uno de 1992

(Dassa y Vázquez-Abad); dos de Thouin en 1993 y 1995; uno más de 1994 (Van

Nieuwenhoven y Jonnaert); y uno de Richard, Godbout y Picard en 2000.

Llama la atención que de 2001 a 2007 no se encuentren artículos sobre el tema,

cuando el interés sobre el mismo era tan fuerte en los medios anglosajones.

Hay dos visiones de conjunto de los trabajos francófonos sobre evaluación

formativa, una firmada por Linda Allal y Lucie Mottier López en la publicación que

dedicó al tema la Organización para la Cooperación y el Desarrollo Económico

(CERI, 2005), y un capítulo similar, más actualizado, de Mottier López, en la obra

colectiva compilada por Rebeca Anijovich (2010).

En los dos trabajos se señala como punto de partida el modelo Mastery Learning

de Bloom, que en francés se tradujo como Pédagogie de Maitrise, y en la obra de

Anijovich como Pedagogía del Autocontrol o Pedagogía del Dominio.

92

En el capítulo que aportó a esta última obra, Mottier López señala que, aunque

algunos autores formularon diversas reservas frente al modelo de Bloom, se debe

reconocer que introdujo un cambio paradigmático, al dejar de relacionar

únicamente la evaluación con la certificación de conocimientos o la selección de

estudiantes, para verla como un medio para sostener los aprendizajes. El

modelo… se dirige a docentes y apunta una transformación de sus prácticas… se

trata de una verdadera “revolución” en materia de evaluación de los aprendizajes

de los alumnos. (2010: 46)

Según la misma autora, al principio los investigadores francófonos centraron la

atención en aspectos particulares de instrumentación de la evaluación formativa, a

partir del Handbook publicado por Bloom y colaboradores en 1971. La atención se

centraba en la preparación de instrumentos, pruebas y bancos de ítems, así como

en la propuesta de métodos para analizar los tipos de errores que cometían los

alumnos al seleccionar diferentes distractores en pruebas de opción múltiple.

Más tarde se desarrollo una reflexión teórica original sobre la evaluación formativa,

en particular en tres aspectos: la psicología del aprendizaje, la didáctica de las

disciplinas y los abordajes pluridisciplinares. (Mottier López, 2010: 46-47)

En cuanto a teorías del aprendizaje, la concepción de neo-conductista de Bloom

es contrastada por Allal, según Mottier López, con el abordaje constructivista y

cognitivista que lleva a privilegiar modalidades de evaluación formativa centradas

en los procesos cognitivos de aprendizaje y no solo en los rendimientos de los

alumnos y las correcciones. (2010: 47)

Otros trabajos relacionan la evaluación formativa con las teorías socioculturales de

la enseñaza y el aprendizaje, así como con las del aprendizaje situado y con la

zona de desarrollo próximo de Vygotsky. Mottier-López ha utilizado los marcos

teóricos de la cognición y del aprendizaje “situados” para conceptualizar la

evaluación como una práctica situada que se co-constituye con los alumnos en el

contexto social de cada micro-cultura de clase (o comunidad de aprendizaje.

(2010: 47-48)

93

En el campo de la didáctica se analiza la evaluación en tanto componente del

sistema didáctico que pone en relación al docente, al educando y el saber que se

debe enseñar, estudiando la evaluación en términos de “contrato didáctico” que

vincula las expectativas recíprocas del docente y los alumnos en relación con un

contenido o con una tarea dada. (Mottier López, 2010: 48)

Ejemplos de abordaje pluridisciplinario de evaluación formativa son aportaciones

como las de Perrenoud, para quien es necesario articular las orientaciones

cognitivas, comunicativas y didácticas de la evaluación formativa en un marco más

general de la regulación… las de Cardinet, que considera la evaluación formativa

como un proceso de comunicación lograda entre el docente y el alumno sobre los

objetivos, los criterios y las dificultades de aprendizaje… y las de Bonniol y Vial,

que explotan diferentes implicaciones de las teorías cibernéticas, sistémicas y de

la complejidad para pensar la evaluación formativa. (Mottier López, 2010: 49)

Reconociendo como punto de partida el modelo de Mastery Learning de Bloom,

los trabajos de lengua francesa lo han ampliado en al menos cuatro direcciones:

La Integración de la evaluación formativa en el proceso de enseñanza/

aprendizaje, como parte integral del mismo y no un acontecimiento especifico

que tiene lugar después de una fase de enseñanza, lo que implica diversificar

los medios de evaluación, que no deben limitarse a pruebas de opción múltiple

y tareas para verificar si los alumnos han comprendido el contenido de la

lección, sino que incluyen observación de las actividades del alumno…

intercambios entre alumnos, entre otros medios. (Mottier López, 2010: 50)

La diferenciación pedagógica, a la que se da mucha importancia en la literatura

francófona. Se reconoce que los objetivos de base exigen ser alcanzados por

todos los alumnos, pero se ha destacado la cuestión de una posible adaptación

de los objetivos con la finalidad de tener más en cuenta las experiencias

culturales y los centros de interés personales de los alumnos (Mottier López,

2010: 54). Este punto se relaciona con el relativo a la regulación (cfr. infra), ya

que ésta permite identificar diferencias entre los alumnos, las que a su vez

hacen necesario diversificar las actividades de instrucción.

94

El compromiso del alumno en su propia evaluación. La perspectiva ampliada

francófona, a diferencia de Bloom, para quien era el docente el responsable de

la evaluación, alienta un compromiso mayor del alumno en la evaluación

formativa… distinguiendo tres variantes: la autoevaluación en el sentido

estricto, la evaluación mutua entre pares, y la coevaluación que estipula una

confrontación de las evaluación realizadas por el docente y el alumno. (Mottier

López, 2010: 52-53)

La noción de regulación, que constituye posiblemente la aportación

fundamental de la perspectiva ampliada de la literatura en francés al campo de

la evaluación formativa, en el que la idea de remediar las dificultades de

aprendizaje (retroalimentación + corrección) es sustituida por la noción más

amplia de regular el aprendizaje (retroalimentación + adaptación). (Allal y

Mottier López, 2005: 245; Mottier López, 2010: 51)

Según la autora que se viene siguiendo en este apartado, este cambio central fue

originalmente una aportación de Cardinet, que posteriormente fue seguido por la

distinción de Allal de tres formas de regulación, que luego ha sido retomada

ampliamente en los trabajos francófonos

La regulación interactiva, basada en la interacción del estudiante con el otro

polo de la actividad de instrucción que es el maestro, con los demás alumnos

y/o con materiales que permiten un aprendizaje autoregulado.

La regulación retroactiva, que se hace después de terminar una etapa de

instrucción y permite identificar los objetivos alcanzados o no por cada alumno.

Puede ser inmediata (v.gr. on line) o diferida, y es la propuesta por Bloom.

La regulación proactiva aprovecha varias fuentes de información para preparar

nuevas actividades de instrucción que tengan en cuenta las diferencias de los

estudiantes, sea para acciones remediales o, más bien, de diferenciación y

enriquecimiento. (Allal y Mottier López, 2005: 245-246)

95

Otro autor de habla francesa que ha desarrollado en especial el concepto de

regulación, aplicado a la evaluación de enfoque formativo, es Philippe Perrenoud,

muy conocido por su trabajo sobre la noción de competencias.

Según un artículo de la 3ª Edición de la International Encyclopedia of Education,

Perrenoud describe la regulación del aprendizaje como el concepto clave en que

se basa la Evaluación Para el Aprendizaje, y también se relaciona con esta visión

de la evaluación la concepción del aprendizaje de Vygotsky, con su noción de la

Zona de Desarrollo Próximo (ZDP), que es crucial para entender la manera en que

él cree que los alumnos avanzan hacia la autonomía. Se menciona también que la

noción de ZDP se relaciona con la de andamiaje (scafolding) para el aprendizaje

de Bruner. (Marshall, 2010)

Perrenoud dice que la evaluación formativa se vuelve fuente de regulación porque,

para que haya retroalimentación de manera regular, es necesario que haya una

clara comprensión de la forma en que funcionan los alumnos y la manera en que

incorporan elementos ajenos a sus propios procesos de pensamiento. (1998: 87)

Según el mismo autor, la influencia regulatoria de la evaluación formativa es débil

si se reduce a una evaluación aplicada al final de una etapa de instrucción, que

destaque lagunas en el conocimiento, errores y comprensiones insuficientes de un

tema, que lleven a ciertas actividades remediales. (Perrenoud, 1998:91) Además:

Las habilidades involucradas en la regulación dependen tanto de la

capacidad de observación y diálogo del maestro como de la manera en que

comprende los obstáculos cognitivos que hay en la mente del alumno y

analiza lo que impide superarlos.

En esta tarea la empatía y la perspicacia son cualidades útiles, que implican

cierto grado de decentralización: la capacidad de ponerse en el lugar de la

persona que no sabe, no entiende y no ve una solución.

Estas habilidades implican una regulación formativa, en el sentido más

amplio de la expresión. (Perrenoud, 1998: 97)

Por su parte, y de nuevo según Mottier López,

96

Laveault amplía la conceptualización de la autoevaluación, agregando las

regulaciones motivacionales además de las cognitivas y metacognitivas, y

observa que las regulaciones pueden entrañar efectos disfuncionales,

pueden ser insuficientes (underregulation), erróneas (misregulation) o

incluso excesivas (overregulation). (Mottier López, 2010: 46-55)

Nuestra autora concluye señalando que, no sin reconocer el rol esencial de la

autoevaluación con fines de autorregulación, estos trabajos muestran que es

esencial comprender cómo “fracasa” una autoevaluación/ regulación y cuáles son

los límites de las que “triunfan”. (Mottier López, 2010: 46-55)

Laveault señala que los conceptos de regulación y autorregulación han contribuido

ampliamente a redefinir la evaluación formativa como objeto de estudio en las

publicaciones en francés, y que los currículos por competencias que sustituyen a

los objetivos de aprendizaje en varios países tienen una clara influencia de las

teorías socioconstructivistas francesas, que subrayan el papel central del alumno y

de la interacción social en la construcción del conocimiento, y añade:

Los nuevos programas de estudio desarrollados en los países de habla

francesa enfatizan todos, de una u otra forma, el papel fundamental de la

evaluación formativa. Tal énfasis no es nuevo, ya que las prácticas de

evaluación formativa han estado asociadas desde hace tiempo con las

concepciones que valoran la diferenciación de la enseñanza y la igualdad

de oportunidades de aprendizaje para todos los estudiantes.

La introducción de programas basados en competencias, sin embargo, ha

exigido rediseñar los instrumentos de evaluación formativa e incluir métodos

adicionales de reunir información sobre el aprendizaje de los alumnos.

(2010: 433-434)

Este autor advierte que los estudiosos francófonos han hecho mucho en el terreno

teórico, pero han publicado muy poco sobre la verificación del impacto de la

evaluación formativa sobre el aprendizaje y que se necesita mucha más

investigación empírica. (Laveault, 2010: 434)

97

1.3 Difusión de la evaluación formativa en otros países

El interés por la evaluación formativa se extendió a otros países, sobre todo por la

influencia de Bloom, pero la literatura correspondiente no contiene aportaciones

relevantes a la conceptualización del campo. Hay información sobre trabajos en

Autralia (Cumming, 2010); Nueva Zelanda (Crooks, 2010); Hong Kong (Carless,

2010: 438). En cuanto a Europa Oriental se puede ver Bethell, 2010; y sobre

países de África Howie, Zimmerman y Draper, 2010.

En Iberoamérica España destaca por la cantidad de su producción editorial sobre

el tema. Una revisión de publicaciones que tratan expresamente de evaluación

formativa, evaluación en aula, usos pedagógicos de la evaluación, ideas de los

maestros sobre la evaluación, evaluación y procesos cognitivos, muestran un

interés que se remonta a fines de la década de 1980, con claras alusiones a la

inspiración que representaron los trabajos de Benjamin Bloom.

De América Latina la producción más importante –mucho menor a la española--

corresponde a Argentina. Se identificaron también trabajos de Chile, Uruguay,

Guatemala y Venezuela.

Por lo que se refiere a México, ni en los estados del conocimiento que precedieron

al Primer Congreso Nacional de Investigación Educativa (Cámara, coord., 1981),

ni en los que se hicieron en relación con el segundo (Carrión et al., 1993 y 1995;

Martínez Rodríguez et al., 1993 y 1995) se encuentran indicios de trabajos que se

interesaran expresamente por evaluación formativa o, más generalmente, en aula.

En las revisiones de 2003 no se incluyó expresamente el tema de evaluación, y los

pocos trabajos al respecto identificados en otras áreas tampoco incluyeron

estudios sobre evaluación formativa (Cfr. Estévez y de Gunther, 2003; Guzmán et

al., 2003; Zorrilla Fierro, 2003).

Una revisión de textos más recientes permitió identificar solamente dos trabajos:

un estudio hecho en el estado de Nuevo León (Vidales Delgado, et al., 2005); y

otro no publicado realizado en 2008 por el INEE, con alcance nacional.

En el V Congreso Nacional de Investigación Educativa se presentaron dos

ponencias sobre el tema de la evaluación formativa (Cruz, Crispín y Ávila, 1999;

98

Fernández Lomelín, 1999). En los congresos VII y VIII se encontraron tres trabajos

relacionados (López, 2003; Montreal Reyes, 2003; Bonilla y López, 2005).

Por otra parte, la normatividad relativa a la evaluación de los aprendizajes en

educación básica refleja cierta influencia de las tendencias que se desarrollan en

el medio internacional. Las disposiciones de 1978, relacionadas con la reforma

curricular de 1973, aún no muestran estas influencias, que comienzan a aparecer

en forma limitada en la normatividad de 1992 y 1994, relacionada con las reforma

curricular de 1993.

Las normas de evaluación más recientes, de octubre de 2009, no avanzan en este

sentido, pero sí lo hacen algunos otros elementos, en particular los relacionados

con la Reforma de la Educación Básica –que adoptó un enfoque “por

competencias”—y con las actividades de actualización para los maestros

derivadas de ella.

En las escuelas normales, aunque no haya materias orientadas exclusivamente al

tema de la evaluación, y menos al de la evaluación de enfoque formativo, los

contenidos de las materias que se refieren a la enseñanza de los diversos campos

formativos (lengua y comunicación, matemáticas, ciencias, etc.) incluyen temas y

lecturas orientadas en ese sentido.

Así pues, los principales documentos normativos de la educación básica mexicana

incorporan paulatinamente concepciones de enseñanza y evaluación derivadas de

los avances cognitivos: constructivismo, enseñanza por competencias, regulación

y autorregulación, papel activo del alumno y enfoque formativo de la evaluación.

El Módulo 3 del Diplomado para Docentes de Primaria, destinado a miles de

docentes de ese nivel educativo, se dedica al tema de la Evaluación para el

aprendizaje en el aula, y parte expresamente del reconocimiento de la importancia

de transitar hacia una evaluación formativa que favorezca el proceso de

enseñanza aprendizaje. (Díaz Barriga et al., 2010: 1)

Sin embargo el módulo parece reflejar una visión algo esquemática y superficial

del tema. Se manejan autores españoles y francófonos y no se aprovechan las

ricas aportaciones anglosajonas inspiradas en las corrientes cognitivistas.

99

2 Trabajos empíricos sobre el impacto de la evaluación formativa

En la investigación educativa, y con excepción de los Estados Unidos, los estudios

empíricos no suelen abundar. Así ocurre en el caso del posible efecto de las

prácticas de evaluación sobre el rendimiento de los alumnos. En este apartado se

revisarán los trabajos encontrados al respecto.

Se ha apuntado ya que varias síntesis de trabajos de investigación sobre el

sistema Mastery Learning llegaban a la conclusión de que era una de las

estrategias de enseñanza más efectivas que los maestros pueden utilizar, en

cualquier nivel educativo. (Walberg, 1984, en Guskey 2007: 75)

Bloom plantea el tema en términos de lo que llama el problema de las dos sigmas,

en alusión al dato de que la diferencia entre los alumnos de alto y bajo rendimiento

suele situarse en el rango de dos desviaciones estándar; esto quiere decir que el

reto de reducir las brechas del rendimiento de manera significativa en un sistema

educativo consiste en hacer mejorar el desempeño de los alumnos de menor

rendimiento en el equivalente a dos desviaciones estándar (dos sigmas).

Según Bloom, es posible conseguir mejoras de esa importancia con sistemas de

enseñanza en los que se asigna un tutor individual a cada alumno de bajo

rendimiento (enseñanza tutorial uno a uno), lo cual es obviamente muy costoso;

pero el creador del Mastery Learning afirma que con su sistema es posible obtener

resultados similares, con un costo que no difiere significativamente del que

implican las formas tradicionales de enseñanza. (Bloom, 1984a y 1984b)

2.1 Estudios en perspectiva optimista

Este inciso se basa en algunas revisiones de literatura, lo que permite alcanzar

una visión de conjunto del tema sin acudir a cada uno de los estudios revisados,

con las ventajas y limitaciones que ello implica. Sin contar las relativas a

resultados del modelo Mastery Learning, como las que se mencionan en los

párrafos anteriores, seguramente la revisión de literatura que más ha influido en

las ideas que se tienen sobre el efecto de la evaluación formativa es la que

publicaron en 1998 Paul Black y Dylan Wiliam, en el número 1 de 1998 de la

revista Assessment in Education: principles, policy & practice.

100

El artículo no es, obviamente, el punto de partida de una línea, puesto que revisa

un número importante de trabajos publicados anteriormente, entre 1988 y 1997;

sin embargo, como se verá luego, la conclusión tan positiva a la que llega llamó

poderosamente la atención entre los interesados en el tema, algunos de los cuales

lo retomaron sin considerar sus alcances y límites, lo que posiblemente dio lugar a

que se extendiera una visión acrítica de la evaluación formativa, en un medio que

a veces parece ávido de soluciones milagrosas para los problemas que enfrenta.

Black y Wiliam explican que ellos a su vez tomaron como línea de base las

revisiones de Natriello (1987) y Crooks (1988) y que utilizaron otras revisiones

(Black, 1993; Bangert-Drowns et al. 1991a y 1991b; y Kulik et al. 1990; después

hicieron una búsqueda en el banco bibliográfico ERIC; luego un seguimiento de

las referencias citadas en las ya localizadas (snowball approach); y por último una

búsqueda de artículos en 76 revistas. De esta manera identificaron un total de 681

publicaciones que parecían relevantes a primera vista, y que finalmente se

redujeron a unas 250.

La revisión se organizó en siete secciones: Ejemplos destacados; evaluación por

los maestros; perspectiva de los alumnos; papel del maestro; estrategias y tácticas

generales usados por los maestros; sistemas particulares en los que la evaluación

formativa tiene un papel especial; y retroalimentación.

En cada sección los textos identificados se revisan con diferente amplitud, pero la

primera, la de ejemplos destacados, es la que atrae más la atención, tanto por su

ubicación al inicio del artículo, como por la naturaleza positiva de las conclusiones

a que llegan los autores, que sustentan las afirmaciones reiteradas y enfáticas que

se hacen. Así, en el resumen del trabajo, se dice:

…Varios estudios muestran firme evidencia de que las innovaciones

diseñadas para reforzar la retroalimentación frecuente que los estudiantes

reciben sobre su aprendizaje produce ganancias substanciales… (Black y

Wiliam, 1998: 7)

La idea se retoma en la parte final del trabajo, en la que los autores responden la

pregunta relativa a las implicaciones para las políticas de sus hallazgos:

101

La investigación reportada en este trabajo muestra de manera concluyente

que la evaluación formativa mejora el aprendizaje. Las ganancias en el

desempeño parecen muy considerables y, como se ha señalado, son de las

más grandes reportadas para una intervención educativa. Como un ejemplo

de la importancia de esas ganancias, un efecto (size effect) de 0.7, si

pudiera ser alcanzado a escala nacional, equivaldría a elevar el puntaje

promedio en matemáticas de un país “promedio” como Inglaterra, Nueva

Zelanda o los Estados Unidos, al nivel de “los cinco mejores”, detrás de los

países de la cuenca del Pacífico como Singapur, Corea, Japón y Hong

Kong… (Black y Wiliam, 1998: 61)

Los estudios seleccionados por Black y Wiliam para incluir en la primera sección

de su trabajo, de ejemplos destacados, son ocho.

Un proyecto que involucró a 25 profesores portugueses de matemáticas, con

246 alumnos de ocho y nueve años de edad, y 108 más de 10 a 14 años.

La experiencia de un profesor a lo largo de 18 años durante los cuales utilizó el

modelo de Mastery Learning en sus cursos, con unos 7,000 estudiantes.

Otro estudio que utilizó el modelo de Mastery Learning, con 120 estudiantes

universitarios estadounidenses, en cuatro grupos en un diseño 2 x 2.

Uno más con 838 niños de cinco años de edad de medio desfavorecido,

distribuidos en un grupo experimental y otro control.

Un experimento con 48 alumnos de 11 años de edad, de 12 grupos en cuatro

escuelas de Israel, seleccionados de manera que la mitad fueran del cuartil

superior y el resto del inferior, en matemáticas y lengua.

Un estudio con 44 alumnos de nueve o diez años de edad en una escuela

elemental de los Estados Unidos.

Un trabajo con 12 grupos de 30 alumnos cada uno, en dos escuelas

estadounidenses de educación media.

102

Un meta-análisis de 21 estudios con alumnos de preescolar a enseñanza

media superior con necesidades educativas especiales de importancia media.

En varios lugares de su trabajo Black y Wiliam advierten sobre las limitaciones que

encuentran en los estudios revisados. En relación con una revisión sobre la

efectividad de la retroalimentación (Kluger y De Nisi, 1996), por ejemplo, se señala

que de más de 3,000 reportes analizados, la gran mayoría debieron descartarse

por adolecer de fallas metodológicas como falta de controles adecuados, mezcla

de los efectos de la retroalimentación con otros, número demasiado reducido de

sujetos (menos de 10), ausencia de mediciones del rendimiento y datos

insuficientes para poder estimar el tamaño del efecto. Solamente se conservaron

131 reportes que no presentaban las fallas anteriores. (Black y Wiliam, 1998: 48)

Se mencionan efectos de la retroalimentación en sentidos opuestos, según que se

refiera a la tarea o a la persona. Un trabajo reporta que la retroalimentación

referida a la persona parece tener efectos negativos sobre el desempeño, y otro

encuentra que los maestros más eficaces elogian menos a sus alumnos que el

docente promedio, coincidiendo con otros hallazgos en el sentido de que los

elogios verbales y la retroalimentación de apoyo a la persona puede aumentar el

interés y mejorar las actitudes de los alumnos, pero tiene poco impacto, o ninguno,

sobre su desempeño. (Black y Wiliam, 1998: 49-50)

Al leer la descripción que hacen Black y Wiliam de los ocho ejemplos destacados

surgen dudas en cuanto a la solidez de conclusiones tan contundentes como las

antes citadas, que parece difícil desprender sin muchas salvedades de una gama

bastante reducida de trabajos muy diferentes, algunos de los cuales presentan

claras debilidades. Pese a ello, la heterogeneidad misma de los ejemplos es

manejada por los autores citados como argumento a favor de su punto de vista:

…Pese a la existencia de algunos resultados marginales e incluso

negativos, el rango de las condiciones y contextos en los que los estudios

revisados han mostrado que se pueden alcanzar tales ganancias debe

indicar que los principios que subyacen al logro de mejoras sustanciales en

el aprendizaje son robustos… (Black y Wiliam, 1998: 61)

103

Al final de su revisión los autores citados advierten a los lectores sobre la dificultad

que supone modificar en profundidad prácticas muy arraigadas:

…de esta revisión no emerge un modelo óptimo en que se pueda sustentar

una política. Lo que emerge son principios orientadores, con la advertencia

de que los cambios requeridos en la práctica docente son centrales y no

marginales, y deben ser incorporados por cada docente a su propia práctica

en la manera propia de cada uno. En otras palabras, una reforma de tales

dimensiones inevitablemente llevará mucho tiempo y requerirá el continuo

apoyo de educadores e investigadores. (Black y Wiliam, 1998: 62)

En forma muy clara, el trabajo multicitado señala en otro lugar:

Sería deseable, y se podría esperar como lo habitual, que una revisión

como esta tratara de hacer un meta-análisis de los estudios cuantitativos

revisados. El que esto difícilmente parezca posible lleva a reflexionar sobre

este campo de investigación. Esta revisión aprovechó material útil de varios

estudios basados en meta-análisis; éstos, sin embargo, centraban la

atención en aspectos bastante restringidos de la evaluación formativa, por

ejemplo la frecuencia con la que se formulan preguntas. El valor de sus

generalizaciones es también dudoso porque se ignoran aspectos clave de

los estudios sintetizados, por ejemplo la calidad de las preguntas que se

formulan, ya que la mayoría de los investigadores no ofrecen evidencias

sobre estos puntos.

Hay estudios cuantitativos que exploran la evaluación formativa de manera

más comprensiva, y algunos se discuten en el texto, pero el número con un

rigor cuantitativo adecuado y comparable debe situarse, como máximo, en

el orden de 20. Sin embargo, si bien cada estudio es riguroso dentro de su

propio marco y en relación son sus objetivos, y aunque muestran cierta

coherencia en lo que se refiere a las ganancias de aprendizaje asociadas

con las iniciativas de evaluación en aula, las diferencias subyacentes entre

los estudios son tales que cualquier agregación de sus resultados tendría

poco sentido. (Black y Wiliam, 1998: 52-53)

104

Pese a lo anterior, varias lecturas del texto al que se refieren estos comentarios

han retomado únicamente las conclusiones favorables, sin matiz alguno, e incluso

contradiciendo afirmaciones expresas, como en el caso siguiente:

Con base en su síntesis de más de 250 artículos, [Black y Wiliam] reportan

que la respuesta [a preguntas sobre si hay evidencias de que mejorar la

calidad de la evaluación formativa eleva el rendimiento de los alumnos] es

un rotundo sí. De esas fuentes, unas 40 responden la pregunta con diseños

experimentales suficientemente rigurosos para permitir la agregación de los

datos para hacer un meta-análisis que permita estimar el efecto atribuible a

evaluaciones formativas mejoradas sobre el puntaje en pruebas sumativas.

(Stiggins, 2001: 10)

La diferencia entre lo que afirma expresamente el texto de Black y Wiliam y la

lectura del mismo hecha por Stiggins es notable, y explica el tono optimista, al

parecer excesivamente, de esa y otras interpretaciones.

Un importante trabajo sobre evaluación formativa publicado por la OCDE retoma el

texto ya citado de las conclusiones del artículo de Black y Wiliam:

… la evaluación formativa mejora el aprendizaje. Las ganancias en el

desempeño parecen muy considerables y, como se ha señalado, son de las

más grandes reportadas para una intervención educativa. (CERI, 2005: 22)

El trabajo de la OCDE, sin embargo, matiza la afirmación anterior como sigue:

Si bien la evaluación formativa no es una solución mágica (silver bullet)

que puede resolver todos los retos educativos, ofrece un medio poderoso

para alcanzar los objetivos de resultados de alto desempeño y alta

equidad, y ofrece a los alumnos el conocimiento y las habilidades para

seguir aprendiendo a lo largo de la vida. Los sistemas educativos que

enfrenten las tensiones que impiden una práctica más amplia de la

evaluación formativa y fomenten culturas de evaluación probablemente

avanzarán mucho más hacia tales metas. (CERI, 2005: 27)

105

Según las minutas de la Primera Conferencia Internacional sobre Evaluación para

el Aprendizaje, que tuvo lugar en 2001, las discusiones sobre las prioridades de

investigación en torno al tema

…se desarrollaron con plena conciencia del hecho de que contamos ya con

evidencia convincente, basada en investigaciones, en cuanto al impacto de

la “enseñanza para el aprendizaje” sobre el rendimiento de los alumnos: se

pueden conseguir avances sin precedentes. Tenemos también evidencia

convincente, basada en investigaciones, sobre la baja calidad de muchas

evaluaciones que se hacen en el aula, debido a la persistente falta de

oportunidades que tienen los maestros para desarrollar sus competencias

de evaluación (assessment literacy). (Stiggins y Arter, 2002: 3)

En un texto más reciente, Stiggins sigue mostrando su perspectiva optimista: la

evidencia recolectada en todo el mundo revela de manera consistente efectos

directamente atribuibles a la aplicación efectiva de evaluaciones formativas en

aula, que van de media a una y media desviación estándar. (2007: 18)

Stiggins dice que Bloom (1984a) reportaba avances de una a dos desviaciones

estándar gracias a la aplicación de su modelo de mastery learning; menciona las

ganancias de media a una desviación estándar reportadas por Black y William a

partir de la revisión ya mencionada; cita el trabajo de Meisels et al. (2003), con

ganancias de una a una y media desviaciones; y retoma el trabajo de Rodríguez

(2004), con base en los resultados de la aplicación del TIMSS en los Estados

Unidos. Para terminar, dice:

Según estos investigadores, los avances esperados en las puntuaciones de

desempeño rivalizan con la implementación de sistemas de enseñanza

tutorial uno a uno en cuanto a su impacto en el rendimiento de los alumnos,

además de que las mayores ganancias son conseguidas por los de menor

desempeño, con lo que las brechas se reducen. (2007: 19)

Otras revisiones de las que se extraen conclusiones favorables para la evaluación

formativa se refieren a los efectos de la retroalimentación. Marzano presenta así

algunos trabajos sobre el tema:

106

Como resultado de revisar casi 8,000 estudios, Hattie (1992) encontró que,

sin duda, “la modificación singular más poderosa para mejorar el

rendimiento es la retroalimentación”. La receta más sencilla para mejorar la

educación será “cucharadas de retroalimentación”. Más recientemente,

Hattie y Timperley (2007) actualizaron y ampliaron la revisión de la

investigación sobre la retroalimentación y llegaron a la misma conclusión.

Desafortunadamente no todas las formas de retroalimentación son

igualmente efectivas. Un meta-análisis de Bangert-Drowns, Kulik, Kulik y

Morgan (1991) que revisó los hallazgos de 40 estudios sobre evaluación en

aula, encontró que decir simplemente al alumno si sus respuestas son

correctas o incorrectas tenía efecto negativo sobre el aprendizaje, mientras

que explicar la respuesta correcta y/o pedir que siguiera mejorando sus

respuestas se asociaba con ganancias en el desempeño de 20 puntos

percentilares. (Marzano, 2007: 103-104)

2.2 Perspectivas críticas

La experiencia reiterada de la complejidad de los fenómenos educativos, y de la

consiguiente dificultad para introducir cambios que traigan consigo consecuencias

importantes, hace tomar con reservas los textos de la sección anterior, que a

veces parecen promover una panacea más que, tras cierto tiempo, provocará una

desilusión tanto más fuerte cuanto mayores hubieran sido las expectativas

inicialmente despertadas. Esta idea se ve reforzada por algunas salvedades que

contienen, que una lectura atenta de los textos citados no deja de advertir y que

en ocasiones se incluyen de manera tan expresa que sorprende que no sean

atendidas en toda su importancia por algunas lecturas posteriores.

Confirma y refuerza esta reflexión crítica sobre las conclusiones excesivamente

optimistas del apartado anterior el trabajo que dos estudiosos de la Universidad de

Arkansas publicaron recientemente con el título Una revisión crítica de la

investigación sobre evaluación formativa. La limitada evidencia científica del

impacto de la evaluación formativa en la educación. (Dunn y Mulvenon, 2009)

Al principio de su texto los autores señalan que:

107

Una creencia casi nunca cuestionada es que la investigación demuestra en

forma concluyente que el uso de evaluación formativa facilita la mejora de

las prácticas de enseñanza, identifica lagunas en el currículo y contribuye a

aumentar el desempeño de los alumnos. Sin embargo… una revisión de la

literatura reveló la limitada evidencia empírica que demuestra que el uso de

evaluación formativa en el aula resulta directamente en cambios marcados

en los resultados educativos. (Dunn y Mulvenon, 2009: 1)

Después de discutir la forma en que se define la noción de evaluación formativa,

indicando que la heterogeneidad al respecto dificulta la tarea de analizar en forma

rigurosa su posible impacto, el artículo analiza en particular la revisión de Black y

Wiliam referida en el inciso anterior de este documento, cuya influencia se puede

apreciar por el elevado número de veces que se le cita en la revistas académicas

(194 según el Social Science Index revisado por Dunn y Mulvenon (2009: 5).

La revisión de las características de los ocho estudios que Black y Wiliam utilizan

en particular para soportar sus conclusiones (cfr. supra) muestra serias fallas

metodológicas, muy evidentes en algunos y menos claras en otros.

Además que el caso de 25 profesores portugueses no parece suficiente para

conclusiones generalizables, el estudio adoleció de fallas significativas en

cuanto a la calidad del pretest y a la diferencia en la preparación que se dio a

los docentes del grupo control, en comparación con los del experimental.

Más clara aún es la generalizabilidad del segundo estudio citado por Black y

Wiliam, con el caso de un solo profesor durante 18 años.

El tercer estudio, con 120 universitarios en cuatro grupos, involucró sólo a dos

profesores expertos y dos novatos y analizó la frecuencia de las evaluaciones

(una o tres) sin considerar en detalle el contenido y la forma de estas.

A juicio de Dunn y Mulvenon el diseño del cuarto estudio (838 niños de cinco

años) es bueno, pero no toma en cuenta que además de evaluación formativa

el sistema con el que se trabajaba incluía otros aspectos cuya influencia no se

puede distinguir de la que haya podido tener la evaluación misma.

108

Otros tres estudios de Black y Wiliam mostraron problemas similares, siempre

según Dunn y Mulvenon; el quinto estudio, hecho en Israel, además de una

muestra muy chica, se refiere a tareas que no fueron presentadas por el

maestro ni se basaban en el currículo; el sexto caso sólo trabajó con alumnos

de cuarto grado, con una muestra muy pequeña y con énfasis en

autoevaluación; y en el séptimo caso (además de que los resultados van desde

un efecto increíble de tres, hasta de sólo una desviación estándar) no se

informa en qué consistieron las “discusiones generales” en el grupo control y

pareciera que el grupo experimental recibió un trato distinto, más allá de lo que

tenía que ver con la evaluación formativa misma.

El octavo caso de Black y Wiliam, que Dunn y Mulvenon tratan en primer

término, parecería en principio el más sólido, ya que se trata del meta-análisis

de 21 estudios, pero incluso en este caso hay serias deficiencias: 83% de los

alumnos participantes tenían necesidades educativas especiales; 72% de los

efectos encontrados se presentaron en estudios que tenían “no más de dos

problemas metodológicos serios”. (Dunn y Mulvenon, 2009: 5-7)

El texto de los profesores de Arkansas revisa nueve artículos más recientes, que

se refieren en general a trabajos de educación en línea (Thompson et al., 2004;

Wininger, 2005; Wiliam et al., 2004; Ruiz-Primo y Furtak, 2006; Sly, 1999; Henly,

2003; Buchanan, 2000; Wang, 2007; y Velan et al., 2002). Los autores reconocen

que esos trabajos ofrecen apoyo adicional a la evaluación formativa de manera

fragmentada, pero añaden que siguen siendo problemáticos temas metodológicos

similares a los de los revisados por Black y Wiliam. (Dunn y Mulvenon, 2009: 7)

Aunque subrayan las limitaciones de los trabajos revisados, la conclusión a que

llegan estos autores no es totalmente negativa, pero sí afirman que:

En cierta medida, las investigaciones discutidas… apoyan el impacto de la

evaluación formativa sobre el rendimiento de los alumnos, pero en una

medida mayor apoyan la necesidad de hacer investigaciones en las que

diseños y metodologías más eficientes lleven a resultados más

concluyentes…

109

…no argumentamos que la evaluación formativa carezca de importancia,

sino sólo que la evidencia empírica que existe para apoyar “las mejores

prácticas” de evaluación formativa es limitada. (Dunn y Mulvenon, 2009: 9)

Otros trabajos recientes parecen avanzar en la dirección apuntada en el texto

anterior, ya que utilizan acercamientos metodológicos más sólidos.

Así parece mostrar un capítulo de la obra editada por Andrade y Cizek, que

analiza investigaciones sobre las características de los programas de actualización

para maestros en servicio que buscan mejorar sus habilidades en evaluación

formativa. (Schneider y Randel, 2010)

Por el enfoque de este trabajo, las investigaciones que se revisan se refieren a

experiencias de duración considerable, en que la preparación que se dio a los

participantes sobre las técnicas de evaluación formativa implicó muchas horas de

trabajo, lo cual es una ventaja considerable en comparación con varios estudios

revisados antes. Por otra parte, la variable relativa a los resultados de los alumnos

se incluye siempre, lo que permite aprovechar estos trabajos en este apartado;

además, se trata de estudios que involucraron a números importantes de

maestros, alumnos y grupos y que, a falta de diseños experimentales estrictos,

utilizaron acercamientos cuasi-experimentales que cuidaron la comparabilidad de

los grupos con y sin tratamiento, y utilizaron técnicas analíticas avanzadas.

El trabajo concluye con consideraciones sobre los retos metodológicos que se

deben enfrentar en este tipo de investigaciones, incluyendo la atención a los

estándares definidos para juzgar la calidad de las evidencias por el repositorio

llamado What Works Clearinghouse (del Instituto de Ciencias de la Educación del

Departamento de Educación del Gobierno de los Estados Unidos); las dificultades

de manejar diseños experimentales con grupos completos (intact classrooms), las

de las medidas de los resultados, del tamaño de las muestras, la fidelidad de

implementación y la duración del estudio. (Schneider y Randel, 2010: 267-272)

En muchos casos, los resultados resultaron favorables a la hipótesis de que las

prácticas de evaluación formativa contribuyen a mejorar el aprendizaje; en un

número menor no se encontraron diferencias significativas.

110

Nuevamente la evidencia no es concluyente, pero sí parece inclinar

paulatinamente la balanza en el sentido de las opiniones favorables a la

evaluación formativa.

Otro capítulo de la obra de Andrade y Cizek es un ejemplo interesante en el

sentido que se comenta. Se trata del trabajo sobre evaluación formativa,

motivación y aprendizaje de las ciencias naturales, de Ma. Araceli Ruiz Primo y

colaboradores (2010), que los autores describen como sigue:

Se llevó a cabo un estudio de pequeñas dimensiones, aleatorizado, para

someter a prueba la afirmación de Black y Wiliam (1998) de que la

retroalimentación basada en evaluación formativa produce un fuerte efecto

positivo en el aprendizaje de los estudiantes…

…el proyecto ponía a prueba una “gran idea” relacionada con la evaluación

formativa, que “se podría obtener una gran ganancia en el aprendizaje con

una inversión relativamente pequeña: incorporar a un currículo de ciencias

utilizado en todo el país evaluaciones formativas conceptualmente

coherentes”. (Ruiz Primo et al., 2010: 143)

Después de explicar las características del estudio, cuidadosamente diseñado e

implementado, los investigadores reportan los resultados relativos a los cambios

esperados en los niveles de rendimiento de los alumnos como sigue:

Sorprendentemente los resultados no corroboraron la hipótesis… el grupo

experimental no obtuvo resultados significativamente mejores que el grupo

de comparación ni en las pruebas de rendimiento ni en las medidas de

motivación. De hecho los alumnos del grupo de comparación tuvieron

resultados promedio ligeramente mejores que los del grupo experimental,

aunque no estadísticamente significativos… la brecha entre los alumnos de

alto y bajo rendimiento en el grupo experimental no fue tan grande como en

el grupo de comparación… (Ruiz Primo et al., 2010: 151)

La revisión de los videos de clases que se grabaron durante el estudio permitió a

los investigadores buscar una explicación de esos resultados, revisando la

fidelidad de implementación.

111

El estudio de implementación buscaba entender la relación entre el tratamiento (el

currículo prescrito) y las mediciones del aprendizaje de los alumnos (el currículo

logrado), para lo cual primero se sistematizó el currículo prescrito según la guía

que se había dado a los maestros participantes, y luego se analizaron las

grabaciones de las clases para medir en qué grado los maestros realizaron las

evaluaciones formativas como se esperaba que lo hicieran. El resultado fue que

había considerables diferencias en cuanto a la forma de hacer las evaluaciones, lo

cual parece reflejarse en un impacto diferencial en el rendimiento. La conclusión

de los investigadores es la siguiente:

Black y Wiliam (1998) encontraron que era la retroalimentación… la

intervención que tenía impacto sobre el aprendizaje de los estudiantes.

Hattie y Timperley (2007) encontraron además que la calidad de la

retroalimentación impacta el grado en que ayuda a los estudiantes a

mejorar. No debería sorprender, por tanto, que los estudiantes con mejores

resultados en el estudio fueran los que tuvieron maestros que cerraban

mejor el ciclo de la evaluación formativa… el uso de información para

ajustar la enseñanza… fue insuficientemente implementado por muchos

maestros del grupo experimental… con base en la evidencia recogida

durante el estudio de implementación sabemos que, en general, los

maestros conseguían que los alumnos compartieran sus ideas, pero que no

conseguían utilizar la información para ajustar su propia enseñanza.

Obviamente recomendar que se ajuste la enseñanza y se actúe es más fácil

que hacerlo. (Ruiz Primo et al., 2010: 154)

En relación con lo anterior, conviene precisar que la justificación del uso de

estudios basados en diseños experimentales estrictos (que incluyan la asignación

aleatoria de los sujetos a los grupos experimental y control) como soporte para

llegar a conclusiones sobre el impacto de cierta intervención se justifica

plenamente en principio pues sabemos que, en ausencia de tal tipo de diseño, es

problemático sacar conclusiones de tipo causal.

112

Sin embargo, en la investigación educativa y social deben cuidarse otros aspectos

para que un estudio pueda arrojar conclusiones sólidas. En particular, es

indispensable cuidar la llamada fidelidad de implementación a la que han aludido

los dos últimos trabajos utilizados en este documento, y cuyo descuido es, al

parecer, una de las deficiencias que más influyen para que los resultados de los

trabajos sobre el posible impacto de la evaluación formativa no sean concluyentes.

Como ha mostrado Raudenbush (2008), en el caso de la investigación sobre el

efecto de ciertos fármacos sobre el organismo es sencillo garantizar que todos los

sujetos de un grupo experimental recibieron un tratamiento idéntico (por ejemplo

cierta dosis del fármaco) y que ninguno de los sujetos del grupo control lo recibió.

En educación, en cambio, y aunque se haya dado cierta preparación a los

participantes, es difícil asegurar, por ejemplo, que todos los maestros de un grupo

experimental manejaron prácticas de evaluación formativa del mismo tipo y con

idéntica calidad e intensidad, en tanto que ningún docente del grupo control utilizó

prácticas que pudieran producir resultados análogos.

Un elemento más a tener en cuenta al estudiar el impacto de la evaluación

formativa tienen que ver con la dificultad de hacer aceptar prácticas novedosas,

que confrontan tradiciones posiblemente negativas, pero muy arraigadas, como

son las que tienen que ver con las formas tradicionales de evaluar que prevalecen

desde hace tantos años en las aulas de nuestros sistemas educativos.

Al analizar la normatividad sobre las evaluaciones que deben hacer los profesores

mexicanos, hemos visto cómo casi no ha cambiado desde hace casi medio siglo,

pese a que en ese lapso se puso de moda la pedagogía constructivista, surgieron

y proliferaron las pruebas en gran escala y se comenzó a hablar de evaluación

formativa. No debe sorprender que muchos actores, incluyendo a maestros, pero

también a alumnos y padres de familia, se sientan incómodos cuando se quiere

introducir innovaciones como la que es objeto de este trabajo.

El último trabajo empírico que se revisa en esta sección tiene que ver justamente

con esa resistencia, en el contexto de un sistema educativo en el que las nuevas

formas de evaluación está mucho más extendido que en México.

113

Smith y Gorard reportan los resultados de un estudio sobre las reacciones de unos

alumnos que participaban en un proyecto de evaluación formativa que, de acuerdo

con una recomendación frecuente en estos casos, incluía el dejar de entregar

regularmente las calificaciones, para desalentar la tendencia a trabajar en función

de la nota, y no del interés intrínseco por el aprendizaje.

Cuando se preguntaba a esos estudiantes cómo se sentían, las respuestas eran

diversas, pero

…un número considerable de alumnos tenían opiniones bastante negativas,

particularmente porque, en su opinión, el hecho de no recibir calificaciones

no les permitía saber cómo orientar sus esfuerzos.

…cuando se les preguntaba si los comentarios que recibían eran útiles, la

mayoría opinaba que no les daban suficiente información para que pudieran

saber cómo mejorar. Tampoco pensaban que el hecho de dar calificaciones

estigmatizaría a los de bajo rendimiento.

…el deseo de recibir calificaciones era tan fuerte que algunos admitían que

intentaban calcularlas. Esto era particularmente marcado en materias como

matemáticas y lengua, en relación con las cuales los chicos admitían que

sumaban las palabras correctamente deletreadas (correct spellings) en las

pruebas de vocabulario para calcular cual sería la calificación que habrían

recibido. (Smith y Gorard, 2005: 31-33)

Un estudio de implementación de este último trabajo, que hacía que los alumnos

echaran de menos sus calificaciones, probablemente diría que la forma en que se

pusieron en práctica los principios de la evaluación formativa no fue adecuada, y

es que como señala una cita anterior, es más fácil recomendar que se ajuste la

enseñanza y se actúe que hacerlo realmente.

La aplicación en el aula de los principios de la evaluación formativa no es sencilla,

en particular si se trata de habilidades cognitivas complejas y no de simples tareas

memorísticas, ya que para ello no basta que se modifiquen las prácticas de

evaluación, sino que es todo el enfoque de la enseñanza lo que debe cambiar.

114

3 Perspectivas de la evaluación formativa

En las aulas de las escuelas primarias, en México y otros países, se pueden

distinguir tres tipos de prácticas de evaluación del aprendizaje de los alumnos: la

vieja herencia de la enseñanza tradicional inspirada en el catecismo; la influencia

de las pruebas en gran escala que se ha fortalecido debido a la proliferación de

evaluaciones censales de alto impacto; y los esfuerzos incipientes en dirección de

prácticas de orientación formativa, congruentes con la pedagogía constructivista.

Para los años venideros se pueden prever dos escenarios, que dependerán de las

ideas que prevalezcan respecto a las pruebas en gran escala, cuya proliferación

se relaciona con la insatisfacción de muchas personas, en diversos países, en

cuanto a los niveles de aprendizaje que alcanzan los alumnos. Esta preocupación

tiene fundamento, pero también se asocia con una visión simplista del problema,

sus causas y la forma de valorarlo y corregirlo, que se concreta cuatro puntos:

Diagnósticos descriptivos que detectan catástrofes al leer los resultados de

las evaluaciones sin referentes adecuados para ponerlos en perspectiva.

Diagnósticos explicativos que señalan culpables –sobre todo maestros— sin

considerar factores de las escuelas y su contexto que influyen en la calidad.

Medios de valorar la situación que se reducen a la aplicación de pruebas en

gran escala, sin identificar sus alcances y límites ni distinguir si su propósito

y diseño son apropiados para juzgar la calidad de maestros y escuelas.

Recetas fáciles para remediar la situación limitadas a estímulos y sanciones

para escuelas y maestros, con base sólo en los resultados de sus alumnos.

El peso de estas ideas en sectores influyentes de la sociedad, como los medios de

comunicación o las agrupaciones empresariales, así como una amplia aceptación

de las mismas por parte de las más altas autoridades educativas, se refleja en la

mencionada proliferación de pruebas con las que se pretende valorar la calidad de

las escuelas, aunque los instrumentos no hayan sido diseñados de manera

apropiada para tal propósito y aunque, en muchos casos, adolezcan de

deficiencias técnicas que ponen en tela de juicio su validez y/o su confiabilidad.

115

A partir de esto se producen dos reacciones: los maestros se ven impulsados a

orientar su trabajo en función de los contenidos de las pruebas, ya que serán el

medio privilegiado para valorar su trabajo; y entre los mismos maestros y los

estudiosos de la educación se rechazan las pruebas de manera absoluta.

Las ideas mencionadas tienen parte de verdad pero también elementos erróneos.

No estar totalmente de acuerdo con ellas no implica una postura complaciente. Se

puede compartir la preocupación por la calidad de la educación con base en una

concepción más equilibrada del problema, que se puede resumir como sigue.

Diagnóstico descriptivo: el aprendizaje de los mexicanos es inferior al de los

alumnos de países más desarrollados y al deseable, pero es similar, y a veces

mejor, que el de otros comparables; antes de calificarlo como catastrófico, hay

que tener en cuenta muchas cosas, en especial los cambios de un país que

hace medio siglo atendía a la mitad de los niños en edad escolar y hoy atiende

a casi toda la demanda con una población cuatro veces mayor.

Diagnóstico explicativo: las causas de esto son complejas y suficientemente

conocidas (múltiples factores de la escuela y el entorno); los resultados no

deberían sorprender a quien tenga una visión informada del contexto nacional e

internacional, y no se debería caer en la tentación de señalar culpables fáciles,

pero esto no implica dejar de tomar las medidas correctivas que proceda.

Medios de valorar la situación: la complejidad de ésta implica que la evaluación

de la calidad educativa no puede reducirse a pruebas, aunque debe incluirlas, a

condición de que sean de buena calidad y se utilicen de manera parsimoniosa;

debe haber indicadores de otras dimensiones, estadísticas y acercamientos

cualitativos, acordes a la naturaleza de los sujetos y los procesos educativos.

Estrategias de mejora: deberán ser complejas también; los resultados sólo

podrán observarse en el mediano y largo plazo, como fruto de esfuerzos serios

y sostenidos. Deberán incluir la generalización del uso formativo de la

evaluación por parte de los maestros, en el marco de enfoques del proceso de

enseñanza-aprendizaje congruentes con las concepciones actuales.

116

En uno de los dos escenarios posibles las pruebas estandarizadas se conciben

como la herramienta fundamental para evaluar la calidad de la educación, por

encima de otros medios, en especial de las evaluaciones que hacen los maestros

mismos, que serían incapaces de hacer evaluaciones confiables. En el otro

escenario las pruebas se ven como un medio entre otros, que puede aportar

elementos valiosos pero siempre incompletos e insuficientes y que, por lo tanto, es

necesario que sus resultados se complementen con otros elementos, en particular

con los aportados por los maestros, cuyo papel se considera insustituible.

3.1 Las pruebas como sustitutos del trabajo de los maestros

Los sistemas educativos necesitan buenos sistemas de evaluación, que ofrezcan

diagnósticos precisos y confiables para fijar metas y diseñar estrategias de mejora,

pero hay que evitar reducir los sistemas de evaluación a la aplicación masiva de

pruebas de rendimiento, incluso si son de buena calidad técnica.

La extensión de las pruebas va acompañada, en muchas ocasiones, de usos

inapropiados de los resultados, en especial difundiendo ordenamientos simples de

escuelas (rankings) que, supuestamente, reflejarían objetivamente la calidad de

las escuelas mismas; con base en ello las autoridades ofrecerían estímulos a las

escuelas de mejores resultados y los padres de familia decidirían a qué escuela

enviar a sus hijos; la competencia entre escuelas haría mejorar su calidad. Estas

ideas ignoran que, al valorar la calidad de las escuelas con base únicamente en

los resultados de las pruebas estandarizadas, se comete un error grave que pone

en cuestión la validez de las inferencias basadas en tales resultados.

Imaginemos dos escuelas. Una selectiva, admite sólo a los mejores aspirantes, lo

que hace que buena parte provenga de medios favorecidos; además es exigente,

por lo que los alumnos de bajo rendimiento la abandonan para ir a otra escuela o

dedicarse a otras cosas. La otra escuela acepta a todos los solicitantes de nuevo

ingreso, sin selección, lo que hace que una mayoría sea de origen humilde; se

esfuerza por mantener hasta el fin del trayecto a todos los aceptados y lo consigue

en gran medida, aunque no todos alcancen plenamente los objetivos.

117

En una prueba estandarizada, los alumnos de la primera escuela tendrán

seguramente resultados superiores, en promedio, a los de los de la segunda.

¿Sería adecuado concluir por ello que la primera escuela es mejor que la otra?

Sin más datos no debería sacarse tal conclusión. Los mejores resultados de la

primera escuela pueden deberse a la extracción social de su alumnado, en parte

gracias a sus políticas selectivas, y no a un funcionamiento ordenado o mejores

prácticas de enseñanza. Los resultados inferiores de la segunda escuela podrían

ser tales aun en caso de que funcione bien, con trabajo valioso de los docentes,

alta participación de los padres y otras buenas prácticas, que explicarían la

retención de estudiantes, aunque no se obtengan resultados altos.

Las estrategias de mejora basadas en asignar estímulos económicos o establecer

una competencia entre las escuelas con base en los resultados de pruebas parten

de una transferencia poco sustentada de los principios de la economía, y no tienen

en cuenta las peculiaridades de la oferta y la demanda educativas, que no siguen

necesariamente la lógica del mercado. Dichas estrategias ignoran la dificultad que

representa la desigualdad social para el propósito de que los alumnos de todas las

escuelas de un país consigan resultados similares; parten de un supuesto falso:

que hacer buena educación en cualquier contexto es fácil:

Los sistemas de rendición de cuentas basados en pruebas se basan en la

creencia de que la educación pública puede mejorar gracias a una

estrategia sencilla: haga que todos los alumnos presenten pruebas

estandarizadas de rendimiento, y asocie consecuencias fuertes a las

pruebas, en la forma de premios cuando los resultados suben y sanciones

cuando no ocurra así. (Hamilton, Stecher y Klein, 2002)

La asignación de estímulos económicos con base en los resultados, y los

ordenamientos simples o rankings de escuelas, hacen que las pruebas se vuelvan

de alto impacto, lo que propicia que se corrompan, al aparecer prácticas negativas

como preparar a los alumnos para la prueba, subordinar el currículo a la

evaluación, o alterar resultados mediante estrategias más abiertamente

deshonestas.

118

El uso de los modelos de valor agregado es un avance que teóricamente corrige

algunas limitaciones del uso de las pruebas para evaluar escuelas y maestros,

pero los especialistas coinciden en señalar que, en la práctica, e incluso en los

sistemas educativos que cuentan con más elementos para ello, se está lejos de

que tengan la precisión y confiabilidad suficientes para basarse únicamente en

ellas. (Cfr. Goldstein y Spiegelhalter, 1996; Goldstein, 1999; McCaffrey et al.,

2003; Braun, 2005; Leckie y Goldstein, 2009; Martínez Arias, 2009; Glazerman et

al., 2010; Rothstein, 2011)

3.2 Las pruebas como apoyo al trabajo de los maestros

En otra perspectiva las pruebas en gran escala se pueden ver como un medio útil

para complementar el trabajo de los maestros, pero no como sustituto del mismo.

Se parte de la idea de que el trabajo de un buen docente es insustituible, tanto

para que los alumnos alcancen un alto nivel de competencia en los conocimientos

y habilidades que necesitarán para una vida plena, como para valorar el grado en

que tal cosa ocurre, o sea para evaluar.

Valorar el grado en que un alumno tiene los conocimientos y habilidades previstos

al final de un ciclo escolar no es sencillo, si se quiere cubrir de manera suficiente

las diversas materias o áreas del currículo y los temas de cada área o materia. La

tarea se complica si se quiere conocer el avance del alumno –lo que es esencial

para ofrecer retroalimentación— ya que la evaluación deberá hacerse desde el

inicio del ciclo escolar y en varios momentos del mismo, en forma permanente.

Esto último es básico si se quiere que la evaluación sirva no sólo para detectar el

resultado final de un proceso educativo (evaluación sumativa), sino sobre todo

para contribuir a que el proceso de aprendizaje mejore en toda su extensión, a lo

que alude la expresión evaluación formativa.

Si se trata de valorar el avance cotidiano de dos o tres decenas de alumnos, y se

quiere tener información sobre las circunstancias personales, familiares y sociales

de cada uno, para tenerla en cuenta en el momento de tomar decisiones

importantes para el futuro de cada uno de ellos, la tarea evaluativa se antoja difícil.

119

Eso es lo que se espera de los maestros y es crucial para que el trabajo educativo

tenga buenos resultados: para retroalimentar su propio trabajo docente, así como

el esfuerzo de los alumnos mismos, es fundamental que el maestro conozca con

precisión el avance de cada uno de sus alumnos. Por ello la calidad de un sistema

educativo se basa en última instancia en el profesionalismo de sus maestros que,

además de dominar los contenidos a enseñar y los métodos pedagógicos

necesarios para ello, deben también ser capaces de manejar técnicas de

evaluación apropiadas para el trabajo en el aula, que les proporcionen la

información necesaria para retroalimentar su propio trabajo y el de los alumnos.

La experiencia muestra que esto no es sencillo, pero sí posible: la evaluación que

hace un buen maestro del avance de sus alumnos tiene niveles de validez y

confiabilidad suficientes para sustentar las decisiones educativas más delicadas.

La pregunta siguiente es: ¿Podrá evaluarse el aprendizaje con validez y fiabilidad

comparables con pruebas de gran escala? La respuesta es clara: con la finura que

puede alcanzar la evaluación del maestro NO, sin duda con las pruebas que hay

en la actualidad, y tampoco con acercamientos en gran escala más avanzados.

Las evaluaciones de aprendizaje en gran escala pueden, en cambio, dar

información de buena calidad sobre conjuntos grandes de alumnos, en ciertas

áreas del currículo y con intervalos de tiempo amplios.

Las evaluaciones en gran escala suelen utilizar pruebas estandarizadas

compuestas por preguntas de opción múltiple. Con frecuencia menor se utilizan

instrumentos con preguntas de respuesta construida, ejercicios con problemas o

situaciones reales, así como evaluaciones orales y observaciones de las

ejecuciones de los evaluados.

El uso de pruebas de opción múltiple no es accidental: su desarrollo es laborioso,

pero pueden aplicarse a miles de sujetos en forma controlada, lo que se traduce

en costos unitarios bajos. Aunque tengan limitaciones para evaluar niveles

cognitivos complejos su viabilidad en gran escala es mayor que la de herramientas

menos estructuradas, cuyo uso en forma confiable, aún con pocos cientos de

alumnos (por no hablar de decenas o centenares de miles), no es posible.

120

Conclusión

Las posturas simplistas sobre la evaluación en gran escala ignoran la complejidad

del tema y sobreestiman las posibilidades de los instrumentos usuales; pierden de

vista que el maestro y los padres son piezas clave para la mejora educativa. Por

ello se considera que la postura adecuada es la que concibe el papel de las

pruebas en gran escala como complemento del trabajo de los maestros, y no

como sustituto del mismo. Así y sólo así la evaluación contribuirá efectivamente al

mejoramiento de las escuelas.

Como se ha visto ya, una de las motivaciones que impulsaba a los pioneros de las

pruebas en gran escala a principios del siglo XX era, precisamente, su conciencia

de la escandalosa falta de confiabilidad de las evaluaciones que solían hacer los

maestros. Cien años más tarde deficiencias similares siguen presentes en las

aulas, por lo que es comprensible la tentación de utilizar evaluaciones

estandarizadas que sustituyan el trabajo de los maestros, pero un análisis

detallado de la cuestión muestra que esa aparente solución presenta a su vez

problemas insuperables.

No hay solución sencilla ni mucho menos panacea mágica alguna que resuelva el

serio problema de la calidad educativa. Solamente lo conseguirá un trabajo en

profundidad para elevar el nivel profesional del magisterio. Ese trabajo tendrá que

incluir lo relativo a la capacidad de manejar evaluaciones formativas ricas, que no

se limiten a repetir en voz más alta y más despacio las explicaciones que no

comprendieron los alumnos.

Sin embargo, modificar en profundidad las prácticas de los maestros no es cosa

fácil, como muestran los escasos resultados de los programas de actualización

que anualmente involucran a cientos de miles de maestros de educación básica

en un sistema tan grande como el mexicano.

Reflexionar sobre las razones que explican esa dificultad, y sobre la forma de

conseguir los cambios necesarios será el objeto del siguiente capítulo.

121

REFERENCIAS

ABRAMS, LISA M. (2007). Implications of High-Stakes Testing for the Use of

Formative Classroom Assessment. En McMillan, J. H., 2007: 43-62

ALLAL, LINDA y LUCIE MOTTIER LOPEZ (2005). Formative Assessment of

Learning: A Review of Publications in French. En CERI, 2005: 241-264.

ALLAL, LINDA (1983). Évaluation formative: entre l’intuition et l’instrumentation.

Mesure et évaluation en éducation, Vol. 6 (5) : 37-57.

ALLAL, LINDA, J. CARDINET Y P. PERRENOUD, eds. (1979), L ‘évaluation

formative dans un enseignement dfférencié, Lang, Bern.

ANDRADE, HEIDI L. (2010). Summing Up and Moving Forward: Key Challenges

and Future Directions for Research and Development in Formative

Assessment. En Cizek y Andrade, 2010: 344-351.

ANIJOVICH REBECA ed. (2010) La evaluación significativa. Buenos Aires Paidós.

BAIN, D. (1988). L’évaluation formative fait fausse route. Mesure et évaluation en

éducation, Vol. 10 (4): 23-32.

PETERSON, PENELOPE, E. BAKER y B. MCGAW (2010). International

Encyclopedia of Education, 3rd Ed. Amsterdam, Elsevier-Academic Press.

BANGERT-DROWNS, R. L. et al. (1991a). The instructional effect of feedback on

test-like events. Review of Educational Research. Vol. 61 (2): 213-238.

BANGERT-DROWNS, R. L. et al. (1991b). Effects of frequent classroom testing.

Journal of Educational Research, 85: 89-99.

BETHELL, G. (2010). Student Assessment: Policy & Practice in Eastern Europe.

Peterson, Baker y McGaw, 2010, Vol. 3, pp. 472-478.

BLACK, PAUL (1993). Formative and summative assessment by teachers. Studies

in Science Education, 21: 49-97.

BLACK, PAUL y D. WILIAM (2009). Developing a theory of formative assessment,

Educational Assessment, Evaluation and Accountability (in press).

122

BLACK, PAUL y D. WILIAM (2005). Changing Teaching through Formative

Assessment: Research and Practice. En CERI, 2005: 223-240.

BLACK, PAUL y D. WILIAM (2004) The formative purpose: Assessment must first

promote learning. En Wilson, 2004: 20-50.

BLACK, PAUL y D. WILIAM (1998). Assessment and classroom learning.

Assessment in Education. Vol. 5, pp. 7-74.

BLOOM, BENJAMIN S. (1984a). The search for methods of group instruction as

effective as one-to-one tutoring. Educational Leadership, 41(8): 4-17.

BLOOM, BENJAMIN S. (1984b). The 2-sigma problem: The search for methods of

group instruction as effective as one-to-one tutoring. Educational

Researcher, 13(6): 4-16.

BLOOM, BENJAMIN S. (1968). Learning for Mastery. Evaluation Comment, 1 (2).

UCLA-CSEIP.

BLOOM, BENJAMIN S., J. T. HASTINGS, G. F. MADAUS et al. (1971). Handbook

on Formative and Summative Evaluation of Student Learning. New York.

McGraw-Hill.

BONILLA, M. y LÓPEZ, A. (2005). ¿Las concepciones de evaluación de los

docentes están relacionadas con epistemología y aprendizaje? VIII CNIE.

BRAUN HENRY I. (2005). Using Student Progress to Evaluate Teachers: A Primer

on Value-Added Models. Princeton, ETS. Policy Information Perspective.

BROOKHART, SUSAN M. (2009). Editorial. Educational Measurement: Issues and

Practice. Vol. 28, N° 1, pp. 1-2.

BROOKHART, SUSAN M. (2007). Expanding Views About Formative Classroom

Assessment: A Review of the Literature. En McMillan, 2007: 43-62.

Educational Measurement: Issues and Practice. Vol. 28, N° 1, pp. 1-2.

BROOKHART, SUSAN M. (2005). Research on formative classroom assessment:

State-of-the-Art. Ponencia en la Conferencia Annual de la AERA. Montreal.

123

BROOKHART, SUSAN M. (1997). A theoretical framework for the role of

classroom assessment in motivating student effort and achievement.

Applied Measurement in Education. Vol. 10, pp. 161-180.

BUCHANAN, T. (2000). The efficacy of a World-Wide Web mediated formative

assessment. Journal of Computer Assisted Learning. Vol. 16: 193-200.

CÁMARA, GABRIEL, coord. (1981). Documento Base. Evaluación de la Cobertura

y Calidad de la Educación. Documentos Base. Congreso Nacional de

Investigación Educativa. Volumen II. México, autor, pp. 315-343.

CARDINET, J. (1983). Quelques directions de progrès possibles pour

l’appréciation du travail des élèves. Mesure et évaluation en éducation, Vol.

6 (5) : 5-35.

CARLESS, D. (2010). Classroom Assessment in Policy Context (Hong Kong). En

Peterson, Baker y McGaw, 2010: Vol. 3, pp. 438-442.

CARRIÓN CARRANZA, CARMEN et al. (1993). Evaluación de la Educación.

Cuaderno 17. Estados del Conocimiento. La Investigación Educativa en los

Ochenta. Perspectiva para los Noventa. México, COMIE y SNTE.

CARRIÓN CARRANZA, CARMEN et al. (1995). Evaluación de la Educación. En

Díaz Barriga, Ángel, coord. Procesos curriculares, institucionales y

organizacionales. México, COMIE, pp. 293-369.

CAZABON, B. (1991). L’évaluation formative de la communication: l’intégration des

composantes. Mesure et évaluation en éducation, Vol. 14 (3): 5-21.

CENTRE FOR EDUCATIONAL RESEARCH AND INNOVATION (2005). Formative

assessment. Improving learning in secondary classrooms. Paris. OECD.

CIZEK, GREGORY y H. L. ANDRADE, eds. (2010). Handbook of Formative

Assessment. New York, Routledge.

CROOKS, T. J. (2010). Classroom Assessment in Policy Context (New Zeland).


124

CROOKS, T. J. (1988). The impact of classroom evaluation practices on students.

Review of Educational Research. Vol. 58, pp. 438-481.

CRUZ, I., M. L. CRISPÍN y H. ÁVILA (1999). La evaluación formativa: estrategia

para promover el cambio y mejorar la docencia. V CNIE.

CUMMING, J. J. (2010). Classroom Assessment in Policy Context (Australia). En


DASSA, CLEMENT (1988). L’intégration du diagnostique pédagogique aux

apprentissages scolaires : de la théorie a la voie informatique. Mesure et

évaluation en éducation, Vol. 11 (1) : 7-26.

DASSA, C. y J. VAZQUEZ-ABAD (1992). De l’évaluation informatisée a

l’intervention pédagogique. Mesure et évaluation en éducation, Vol. 15 (3):

17-24.

DAVIES, A. (2007), Involving Students in the Classroom Assessment Process. En

Reeves, 2007: 31-57.

DÍAZ BARRIGA, ÁNGEL et al. (2010). Reforma Integral de la Educación Básica

2009. Diplomado para Docentes de Primaria. Módulo 3: Evaluación para el

aprendizaje en el aula. México, SEP.

DUNN, KAREE E. y SEAN W. MULVENON (2009). A Critical Review of Research

on Formative Assessment: The Limited Scientific Evidence of the Impact of

Formative Assessment in Education. Practical Assessment Research and

Evaluation. Vol. 14 (7), pp. 1-11.

ESTÉVEZ N. ETTY HAYDEÉ y L. DE GUNTHER D. (2003). Parte II. Cognición y

Educación 1991-2001. En Sánchez E., Pedro, coord. (2003). Aprendizaje y

desarrollo. La Investigación Educativa en México 1992-2002, Volumen 4.

México, COMIE-SEP-CESU, pp. 87-187.

FERNÁNDEZ LOMELÍN, A. (1999). La evaluación como estrategia metacognitiva

para el aprendizaje. V CNIE.

125

GADBOIS, L., R. BURELLE, C. PARENT y S. P. SEGUIN (1991). Un instrument

de mesure des croyances et attitudes des enseignants à I’ égard des

pratiques d’évaluation formative des apprentissages de leurs élèves.

Mesure et évaluation en éducation, Vol. 14 (2): 5-24.

GAGNE, F. y M. THOUIN (1991). L’évaluation formative des apprentissages en

orthographe et attitude des élèves á l’égard de I’ évaluation. Mesure et

évaluation en éducation, Vol. 14 (1): 5-15.

GLAZERMAN, STEVEN et al. (2010). Evaluating Teachers: The Important Role of

Value Added. Washington. Brown Center on Education Policy at Brookings.

GOLDSTEIN, HARVEY (1999). Rank Injustice. Parliamentary Brief Education

Supplement, March, pp. 13-14.

GOLDSTEIN, HARVEY y DAVID J. SPIEGELHALTER (1996). League tables and

their limitations: statistical issues in comparisons of institutional

performance. Journal of the Royal Statistical Society A 159-3, pp. 385-443.

GUSKEY, THOMAS R. (2010). Formative Assessment: The Contributions of B.

Bloom. En Cizek y Andrade, 2010: 106-124.

GUSKEY, THOMAS R. (2007). Formative Classroom Assessment and Benjamin

S. Bloom: Theory, Research and Practice. En McMillan, 2007: 63-78.

GUZMÁN, JESÚS CARLOS, et al. (2003). Capítulo 5. La evaluación curricular en

la década de los noventa. En Díaz Barriga, Ángel, coord. (2003). La

investigación curricular en México. La década de los noventa. La

Investigación Educativa en México 1992-2002, Volumen 5. México, COMIE-

SEP-CESU, pp. 207-257.

HAMILTON, LAURA S., B. M. STECHER y S. P. KLEIN Eds. (2002). Making

Sense of Test-Based Accountability in Education. Santa Monica, CA. Rand.

HATTIE, J. (1992). Measuring the effects of schooling. Australian Journal of

Education. Vol. 36 (1): 5-13.

126

HATTIE, J. y H. TIMPERLEY (2007). The power of feedback. Review of Education

Research. Vol. 77 (1): 81-112.

HENLY, D. C. (2003). Use of Web-based formative assessment to support student

learning in a metabolism/nutrition unit. European Journal of Dental

Education. Vol. 7: 116-122.

HOWIE, S. J., L. ZIMMERMAN y K. DRAPER. (2010). Classroom Assessment in

Policy Context (Sub-Saharan Africa). En Peterson, Baker y McGaw, 2010:

Vol. 3, pp. 449-456.

HUBERMAN, M., P. A. JUGE y P. A. HARI (1985). La pédagogie de maitrise: une

évaluation instructive au niveau gymnasial. Mesure et évaluation en


KLUGER, A. N. y A. DENISI (1996). The effects of feedback interventions on

performance: a historical review, a meta-analysis, and a preliminary

feedback intervention theory. Psychological Bulletin. Vol. 119: 254-284.

KULIK, C. C., J. A. KULIK y R. L. BANGERT-DROWNS (1990). Effectiveness of

mastery learning programs : A meta-analysis. Review of Educational

Research. Vol. 60 (2) : 265-299.

LAVEAULT, D. (2010). Classroom Assessment Policy Context (French Sources).


LECKIE, GEORGE y HARVEY GOLDSTEIN (2009). The limitations of using

school league tables to inform school choice. Journal of the Royal Statistical

Society A 172, pp. 835-851.

LÓPEZ, Á. (2003). Sistemas de análisis categorial para las concepciones de

aprendizaje y evaluación. VII CNIE.

MARSHALL, B. (2010). Formative Assessment and Instructional Planning. En


MARTÍNEZ A., ROSARIO (2009). Uso, aplicaciones y problemas de los modelos

de valor añadido en educación. Revista de Educación, N° 348: 217-250.

127

MARTÍNEZ RODRÍGUEZ, FÉLIX FCO. et al. (1993). Evaluación del aprendizaje.

Cuaderno 8. Estados del Conocimento. La Investigación Educativa en los

Ochenta. Perspectiva para los Noventa. México, COMIE y SNTE.

MARTÍNEZ RODRÍGUEZ, FÉLIX FCO. et al. (1995). Evaluación del aprendizaje.

En Rueda, Mario, coord. Procesos de enseñanza y aprendizaje I. México,

COMIE y Universidad Veracruzana, pp. 195-260.

MARZANO, R. (2007). Designing a Comprehensive Approach to Classroom

Assessment, en Reeves, 2007: 103-125

McCAFFREY, DANIEL F. et al. (2003). Evaluating Value-Added Models for

Teacher Accountability. Santa Monica, Rand Co.

McMILLAN, JAMES H. (2010). The practical implications of educational aims and

contexts for formative assessment. En Cizek y Andrade, 2010: 41-58.

McMILLAN, JAMES H. Ed. (2007). Formative Classroom Assessment : Theory into

Practice. New York. Teachers College Press.

McMILLAN, JAMES H. (2007). Formative Classroom Assessment: The Key to

Improving Student Achievement. En McMillan, 2007: pp. 1-7

MEISELS, S. et al. (2003). Creating a system of accountability: The impact of

instructional assessment on elementary children’s achievement scores.

Educational Policy Analysis Archives. Vol. 11 (9).

MONTREAL R., J. L. (2003). Formas en que los alumnos de 6° de educación

primaria perciben las prácticas evaluativas de sus maestros. VII CNIE.

MOTTIER LOPEZ, LUCIE (2010). Evaluación formativa de los aprendizajes.

Síntesis crítica de los trabajos francófonos. En Anijovich, 2010: 43-71.

NATRIELLO, G. (1987). The impact of evaluation processes on students.

Educational Psychologist. Vol. 22, pp. 155-175.

PERRENOUD, PHILIPPE (1998). From Formative Evaluation to Controlled

Regulation of Learning Processes. Towards a Wider Conceptual Field.

Assessment in Education, Vol. 5, No. 1

128

PERRENOUD, PHILIPPE. (1991). Pour une approche pragmatique de l’évaluation

formative. Mesure et évaluation en éducation, Vol. 13 (4): 49-81.

POPHAM, W. JAMES (2008). Transformative Assessment. Alexandria. Association

for Supervision and Curriculum Development.

POULIN, BENOIT (1978). Historique de l’Association. Mesure et évaluation en

éducation, Vol. 1 (1) : 4-5.

RAUDENBUSH, STEPHEN W. (2008). Advancing Educational Policy by

Advancing Research on Instruction. American Educational Research

Journal. Vol. 45 (1): 206-230.

REEVES, DOUGLAS, ed. (2007). Ahead of the Curve. The Power of Assessment

to Transform Teaching and Learning. Bloomington, Solution Tree Press.

RESNICK, L. B., D. WILIAM, R. APODACA y E. S. RANGEL (2010). The


Teaching. En Peterson, Baker y McGaw, 2010, Vol. 3: 397-402.

RICHARD, J. F., P. GODBOUT y Y. PICARD (2000). La validation d’une procédure

d’évaluation formative en jeux et sports collectifs. Mesure et évaluation en


RODRÍGUEZ, M. C. (2004). The role of classroom assessment in pupil

performance in TIMSS. Applied Measurement in Education. Vol. 17(1): 1-24.

ROTHSTEIN, J. (2011). Review of “Learning About Teaching: Initial Findings from

the Measures of Effective Teaching Project.” Boulder, National Education

Policy Center.

RUIZ-PRIMO, M. A. et al. (2010). Formative assessment, motivation and science

learning. En Cizek y Andrade, 2010: 139-158.

RUIZ-PRIMO, M. A. y E. M. FURTAK (2006). Informal formative assessment and

scientific inquiry: Exploring teachers’ practices and student learning.

Educational Assessment. Vol. 11 (3-4): 205-235.

129

RUSSELL, MICHAEL K. (2010). Technology-Aided Formative Assessment of

Learning: New Developments & Applications. En Cizek y Andrade, 2010:

125-138.

SADLER, D. ROYCE (1998). Formative Assessment: Revisiting the Territory.

Assessment in Education: Principles, Policy & Practice, Vol. 5 (1): 77-84.

SADLER, D. ROYCE (1989). Formative assessment and the design of instructional

systems. Instructional Science. Vol. 18, pp. 119-144.

SCALLON, G. (1985). La participation des élèves au diagnostic pédagogique:

exploration avec des élèves de 4e secondaire en mathématiques. Mesure et

évaluation en éducation, Vol. 8 (1-2) : 5-44.

SCALLON, G. (1989). Plaidoyer pour une méthodologie instrumentée d’évaluation

formative. Mesure et évaluation en éducation, Vol. 11 (1): 43-55.

SCHENEIDER, M. C. y RANDEL, B. (2010) Research on characteristics of

effective professional development programs for enhancing educators’ skills

in formative assessment. En Cizek y Andrade, 2010: 251-276.

SCRIVEN, MICHAEL (1967). The Methodology of Evaluation. En R. W. Tyler, R.

M. Gagne y M. Scriven (Eds.). Perspectives of Curriculum Evaluation.

Chicago. Rand McNally.

SHEPARD, LORRIE A. (2006). Classroom Assessment. En Robert L. Brennan, ed.

Educational Measurement. 4th Ed. Westport, CT. Praeger, pp. 623-646.

SLY, L. (1999). Practice tests as formative assessment improve student

performance on computer managed learning assessments. Assessment and

Evaluation in Higher Education. Vol. 24 (3): 339-343.

SMITH, EMMA Y S. GORARD (2005). “They dont’t give us our marks”: the role of

formative feedback in student progress. Assesment in Education: principles,

policy & practice. Vol. 12 (1): 21-38.

STIGGINS, RICHARD J. (2008). Assessment Manifesto: A Call for the

Development of Balanced Assessment Systems. Portland. ETS-ATI.

130

STIGGINS, RICHARD J. (2007). Conquering the Formative Assessment Frontier.

En McMillan, 2007: pp. 8-27.

STIGGINS, RICHARD J. (2001). Unfulfilled Promise of Classroom Assessment.

Educational Measurement: Issues & Practice. Vol. 20 (3): 5-15.

STIGGINS, RICHARD J. y J. ARTER, (2002). Assessment for Learning,

International Perspectives. The Proceedings of an International Conference

(International Conference on Assessment for Learning, Chester, 2001).

Paper presented at the Annual Meeting of the National Council on

Educational Measurement, New Orleans, April 2002.

STOBART, GORDON (2005). Lost in translation: moving from principles to policy

to practice formative assessment. Assessment in Education. Vol. 12 (1): 3-5.

THOMPSON, M. et al. (2004). Study of the California formative assessment and

support system for teachers: Relationship of BTSA/CFASST and student

achievement. Princeton, Educational Testing Service.

THOUIN, M. (1993). L’évaluation des apprentissages en mathématiques: une

perspective constructiviste. Mesure et évaluation en éducation, Vol. 16 (1-

2): 47-64.

THOUIN, M. (1995). Le développement d’instruments de mesure des

apprentissages en sciences de la nature au primaire. Mesure et évaluation

en éducation, Vol. 18 (1): 95-124.

TICAL (2009). Position Paper on Assessment for Learning from the Third

International Conference on Assessment for Learning. Dunedin, New

Zeland, March. En Wiley. Editorial, Appendix. Educational Measurement:

Issues and Practice. Vol. 23 (3): 1-4.

TOPPING, KEITH J. (2010). Peers as a Source of Formative Assessment. En

Cizek y Andrade, 2010: 61-74.

TORRANCE, HARRY y J. PRYOR (1995). Investigating Teaching Assessment in

Infant Classrooms: methodological problems and emerging issues.

Assessment in Education, Vol. 2 N° 3, pp. 305- 320.

131

VACHON, JEAN (1978). Staneuf standardisés et staneufs noramlisés. Mesure et


VAN NIEUWENHOVEN, C. y P. JONNAERT (1994). Une approche des

représentations des enseignants du primaire propos de l’évaluation. Mesure

el évaluation en éducation, Vol. 16 (3-4): 41-79.

VELAN, G. M. et al. (2002). Web-based self-assessments in Pathology with

Questionmark Perception. Pathology. Vol. 34: 282-284.

VIDALES DELGADO, ISAMAEL et al. (2005). Prácticas de evaluación escolar en

el nivel de educación primaria en el Estado de Nuevo León. CAEIP. México.

Santillana.

WALBERG, H. J. (1984). Improving the productivity of America’s schools.

Educational Leadership. Vol. 41 (8): 19-27.

WANG, T. H. (2007). What strategies are effective for formative assessment in an

e-learning environment ? Journal of Computer Assisted Learning. Vol. 23 :

171-186.

WEISS, J. (1984). Heurs et malheurs d’un instrument d’évaluation. Mesure et


WILIAM, DYLAN (2010). An Integrative Summary of the Research Literature and

Implications for a New Theory of Formative Assessment. En Cizek y

Andrade, 2010: 18-40.

WILIAM, D. et al. (2004). Teachers developing assessment for learning: Impact on

student achievement. Assessment in Education. Vol. 11: 49-65.


and accountability. 103rd Yearbook, Part 2. National Society for the Study of

Education. Chicago. University of Chicago Press.

WILSON, SUSAN. (2004) Student assessment as an opportunity to learn in and

from one’s teaching practice. En Wilson, 2004: 264-271

132

WININGER, R. S. (2005). Using your tests to teach: Formative summative

assessment. Teaching Psychology. Vol. 32 (2): 164-166.

ZORRILLA FIERRO, MARGARITA (2003). Parte I. Educación Básica. En Zorrilla

Fierro, Margarita y Lorenza Villa Lever, coord. Políticas Educativas.

Educación Básica. Educación Media Superior. La Investigación Educativa

en México 1992-2002, Volumen 9. México, COMIE-SEP-CESU, pp. 23-115.

133

CAPÍTULO TERCERO

IMPLICACIONES PARA LA IMPLEMENTACIÓN

135

Introducción

Los dos primeros capítulos de la obra han revisado la forma en que evolucionó la

evaluación del aprendizaje que realizan los maestros en las aulas de educación

básica. El Capítulo 1 cubrió la larga etapa del siglo XVI a nuestros días, desde las

formas derivadas del catecismo, hasta las evaluaciones marcadas por las pruebas

estandarizadas. El Capítulo 2 presentó los enfoques denominados de evaluación

formativa, desde que Scriven acuñó el término en 1967 hasta las versiones más

recientes, en el marco de las concepciones constructivistas de la educación.

El tercer capítulo retoma la idea del potencial que encierra la evaluación formativa

para la mejora del aprendizaje y, al mismo tiempo, la dificultad de implementarla

adecuadamente que muestran los trabajos empíricos al respecto. Después de

plantear la cuestión, se trata de entender las razones por las que no es sencillo

transformar en profundidad las prácticas de los maestros, a partir de un análisis de

los factores que influyen en el trabajo de los maestros, cuyo número y variedad

explican la dificultad mencionada. Luego se revisan esfuerzos de intervención

orientados precisamente a las prácticas de los maestros, analizando los rasgos

que explican su mayor o menor impacto

Se concluye que cambiar las prácticas de los maestros no es fácil porque influyen

en ellas muchos factores, profundamente arraigados y, en buena parte, fuera del

control del maestro. Por ello intervenciones cortas y superficiales no bastan para

conseguir cambios importantes: se necesitan trabajos largos y profundos, con

acompañamiento, comunidades de aprendizaje y apoyo institucional.

Una conclusión más es que, en su sentido más rico, las nociones de evaluación

formativa y enseñanza constructivista coinciden. Por ello no se podrá cambiar la

primera si no se modifica simultáneamente la segunda, lo que implica cambiar al

mismo tiempo concepciones y prácticas muy arraigadas. El lado positivo de esta

conclusión es que si se consigue que un maestro enseñe en forma congruente con

los principios constructivistas no tendrá dificultad para evaluar formativamente. Y

si se logra transformar las dos cosas el cambio educativo será profundo y sus

repercusiones en el aprendizaje saltarán a la vista..

136

1. Potencial de la evaluación formativa y dificultad de su implementación

Del capítulo anterior se desprende la conclusión de que la evaluación que se hace

en aulas y escuelas de los avances de los alumnos para alcanzar buenos niveles

de competencia es un componente importante de la enseñanza-aprendizaje. Y, sin

caer en interpretaciones excesivamente optimistas, que ignoren las limitaciones de

la evidencia disponible, se puede concluir también que si dicha evaluación adopta

el enfoque que buscan designar expresiones como formativa, para el aprendizaje

y similares, su impacto puede ser más positivo que con los enfoques habituales.

La literatura revisada muestra que la idea anterior es ampliamente compartida, y

que es congruente con las concepciones psicológicas y pedagógicas actuales,

marcadas por los avances de las ciencias cognoscitivas. También muestra, sin

embargo, que no es sencillo modificar realmente prácticas profundamente

arraigadas, sea que se basen en concepciones científicas anteriores, como las

teorías conductistas y neo-conductistas, sea que simplemente sigan formas

tradicionales de enseñar y verificar si los alumnos aprendieron lo enseñado.

La persistencia de las prácticas tradicionales de evaluación en el aula no debe

sorprender, por lo demás, si se considera que los esfuerzos por transformarlas no

han sido especialmente importantes ni sistemáticos. La atención y los recursos se

han concentrado más bien en las evaluaciones en gran escala, a las que se

dedican cantidades crecientes de recursos, mientras que las evaluaciones que

más influyen en el desempeño de los alumnos se descuidan casi por completo.

Esta es la experiencia en el sistema educativo mexicano y también en otros en los

que se podría esperar mayor avance en este terreno, al menos según la opinión

de Rick Stiggins, quien considera que:

El principal desafío que enfrentamos actualmente en las escuelas en lo

relativo a evaluación es asegurar que las prácticas sanas lleguen a cada

aula, que las evaluaciones se usen para beneficiar a los alumnos… Este

reto ha permanecido sin ser atendido por décadas y parece que ha llegado

el tiempo de conquistar esa última frontera de la evaluación: el uso efectivo

de evaluación formativa para apoyar el aprendizaje. (Stiggins, 2007: 10)

137

La formación inicial que recibieron los maestros que trabajan en las escuelas

mexicanas fue particularmente débil en lo que se refiere a evaluación, y las

actividades de actualización profesional que se ofrecen a los docentes en servicio

han descuidado también este aspecto, que sólo comienza a ser atendido, en

forma limitada, en épocas muy recientes.

Para entender por qué no bastan unas horas de actualización para transformar las

prácticas docentes hay que tener en cuenta el grado de arraigo de conductas que

se han hecho una y otra vez durante mucho tiempo. Debemos a Dylan Wiliam la

siguiente reflexión:

Un maestro o maestra con 20 años de experiencia debe haber formulado

alrededor de medio millón de preguntas a lo largo de su carrera. Cuando

uno ha hecho algo de cierta manera medio millón de veces es muy difícil

hacerlo de otra forma. (2007: 196)

Modificar prácticas de enseñanza y evaluación en aula no se refiere a conductas

que se llevan a cabo de vez en cuando, con tiempo para pensar con calma la

manera de actuar en cada caso; se trata de transformar conductas que se repiten

muchas veces al día, debiendo reaccionar en segundos a lo que se observa en el

grupo y en cuanto a cierto alumno. Esto es mucho más complicado que cambiar

solamente las ideas que se tienen sobre el tema.

Las aulas son lugares ruidosos. Los maestros deben tomar decisiones

rápidamente, con poco tiempo para reflexionar, y su atención es atraída en

múltiples direcciones, por todos y cada uno de los alumnos, por el director y

los demás maestros, por las políticas y mandatos locales y estatales.

(Wilson, 2004: 265)

La obra ya citada de la OCDE desarrolla las barreras que obstaculizan el cambio

de las prácticas de evaluación de los maestros. Señala que, además de problemas

logísticos (por ejemplo grupos muy numerosos), los docentes encuentran difícil

modificar sus prácticas porque implica cambiar muchas cosas, incluyendo la forma

de interactuar con los alumnos, de planear sus clases, la atención a las diferencias

de los alumnos y hasta la manera de concebir el éxito de estos. (CERI, 2005: 71)

138

El CERI destaca otro obstáculo a la extensión de la evaluación formativa:

La tensión entre la evaluación del aprendizaje de enfoque formativo que se

hace en el aula y la visibilidad de las pruebas sumativas, las evaluaciones

nacionales o regionales en gran escala que buscan responsabilizar a las

escuelas por alcanzar ciertos estándares y pueden tener consecuencias

para las de bajo rendimiento. Con demasiada frecuencia estas pruebas de

gran visibilidad determinan lo que sucede en las aulas… y con demasiada

frecuencia la información que se obtiene en el aula se considera irrelevante

para la definición de políticas… Muchos maestros, si es que no todos,

perciben esas evaluaciones externas como algo que está en conflicto o

incluso se opone a las prácticas de evaluación formativa. Pruebas externas

de baja calidad, ordenamientos de escuelas (league tables) difundidos en

los medios que usan un reducido conjunto de datos para comparar el

desempeño de las escuelas, y la desconexión entre pruebas y currículo

también pueden inhibir la innovación. (CERI, 2005: 24)

En otra reflexión sobre las dificultades que se enfrentan para extender las

prácticas de evaluación formativa, Sutton señala que cambiar las rutinas básicas

del aula mostró ser mucho más difícil de lo que los maestros esperaban, al grado

de que se preguntaban si la idea podría funcionar. Los directores también

comprendieron que se trataba de un juego de largo plazo, que requiere objetivos

claros, pasos pequeños, retroalimentación, práctica y perseverancia. (2010: 355)

El mismo autor señala que algunos maestros simplemente se sentían espantados

por las implicaciones que tendría para su carga de trabajo el dar retroalimentación

de buena calidad a todos sus alumnos, y que otros veían que sería inevitable

verse abrumados por las demandas de otros actores, como la exigencia de

calificaciones por los padres de familia y la competencia entre los alumnos por las

calificaciones para acceder a la universidad. Todo eso lleva a los maestros a decir:

Tenemos las manos atadas. Adoptar prácticas de evaluación formativa, por

muy deseable que sea, es imposible en términos pragmáticos. (Sutton,

2010: 356)

139

De modo similar, el Grupo para la Reforma de la Evaluación (Assessment Reform

Group) sistematiza los principales obstáculos que deben enfrentarse como sigue:

Las prácticas prevalecientes que prestan más atención a la calificación y la

asignación de los alumnos a niveles de desempeño que a retroalimentarlos

sobre la forma de mejorar;

La falta de conciencia que prevalece entre los maestros sobre las

necesidades de aprendizaje de los alumnos; y

El alto impacto de los resultados de las pruebas nacionales y estatales, que

animan a los maestros a centrar la atención en el contenido de las pruebas

y en preparar a los alumnos para ellas. (Según Harlen, 2007: 131)

Harlen cita también a Fullan, que dice que cambiar a los maestros es difícil, en

especial cuando se trata de transformaciones tan profundas como las que implica

la adopción de un enfoque formativo para la evaluación, y retoma de Black la

explicación de que modificar así las prácticas puede tener como consecuencia que

un maestro que tiene confianza en sí mismo se sienta incompetente, lo cual es

amenazante. Sin embargo Black añade que, después de trabajar durante bastante

tiempo con maestros que cambiaron sus creencias y sus prácticas, pudieron

observar que tanto maestros como alumnos experimentaban alegría y confianza a

medida que los primeros transferían a los segundos el control sobre su propio

aprendizaje. (Harlen, 2007: 132)

Tierney resume la problemática del cambio en cuestión diciendo que

Cambiar las prácticas de evaluación no es simplemente cuestión de

aumentar los conocimientos de los docentes sobre el tema por medio de

talleres de actualización, sino un proceso mucho más amplio, que exige una

transformación conceptual por parte de todos los involucrados. (2006: 259)

Unos autores señalan que, como el nivel de conocimiento que tienen en general

los maestros sobre temas de evaluación es limitado, para que sus prácticas de

evaluación cambien hay que ofrecerles capacitación, para que adquieran

elementos sobre los nuevos acercamientos al tema.

140

Citando trabajos de varios estudiosos, Green, Smith y Brown señalan que para

documentar fielmente el avance de los alumnos es necesario un sofisticado

conocimiento de las técnicas de evaluación, pero que la investigación muestra que

este aspecto de la formación de los educadores ha sido descuidado:

Los maestros dedican probablemente entre una tercera parte y la mitad de

su vida profesional a actividades asociadas con la evaluación, pero tienen

habilidades inadecuadas al respecto. Sólo la mitad de estados americanos

exigen formación en evaluación como requisito para la certificación de los

docentes y pocos programas de formación de maestros exigen que los

alumnos lleven un curso sobre evaluación, lo que trae como consecuencia

que los maestros se sientan mal preparados para responder a las

exigencias de la evaluación en el aula. (2007: 39)

Otros indican que para que las prácticas cambien no basta con que los profesores

reciban capacitación; hace falta que otros cambios apoyen la actualización.

Retomando el modelo utilizado en la implementación del enfoque de Evaluación

para el Aprendizaje en Hong-Kong, Carless propone un conjunto de factores,

agrupados en tres niveles, para lograr cambios en las prácticas de evaluación:

Nivel de los conocimientos y creencias de los maestros. Conocimiento de

los principios de la evaluación formativa. Congruencia entre valores y

creencias de los profesores y los principios de la evaluación formativa.

Nivel de la escuela (micro). Cambios en los usos de la evaluación y en la

cultura evaluativa; apoyos a profesores, adecuación de aulas, etc. Cambios

en la percepción de las funciones y usos de la evaluación por parte de los

padres de familia. Apoyo a los maestros por parte de las instancias

responsables del currículo.

Nivel del sistema educativo (macro). Existencia de grupos en que los

profesores discutan sus prácticas. Clima de reforma curricular. Iniciativas de

cambio por parte de las instancias pertinentes. Políticas educativas

congruentes con la evaluación formativa (Carless, 2005).

141

La coincidencia de las opiniones en el sentido de que las prácticas de evaluación

formativa están poco presentes en las aulas, pese a que en general se considera

que su uso trae consigo grandes beneficios hace obligado preguntarse por las

razones de esta aparente paradoja. Explorando este tema, otro investigador

plantea lo siguiente:

Las experiencias en evaluación de los maestros consistieron básicamente

en varias formas de enfoque sumativo. Como alumnos en primaria y

secundaria aprendieron que la prioridad era sacar altas puntuaciones en

pruebas externas… Es difícil abandonar esos valores si el maestro se ve

bombardeado constantemente en los medios y por los padres de familia

sobre la necesidad de que sus alumnos consigan otro tanto.

Los directores presionan a los maestros para que se concentren en

alcanzar altos resultados académicos en sus grupos… En algunos países,

como los Estados Unidos… los que no lo consigan enfrentan

consecuencias muy serias, incluyendo el retiro de fondos clave para la

escuela o, en algunos casos, incluso el cierre de ésta.

Las pruebas son hoy extremadamente destacadas en muchos países…

penetran todos los aspectos de la vida social, empresarial y política…

Aunque la intención de tales legislaciones… pueda parecer admirable,

muchos educadores consideran que su impacto sobre alumnos y maestros

es desastroso…

Muchos sistemas dan premios a alumnos de alto desempeño, que casi sin

excepción se conceden con base en resultados en evaluaciones sumativas.

Muchas culturas elogian a los alumnos que alcanzan un resultado o nivel,

pero dan poco reconocimiento a los procesos que implica conseguirlo… Lo

mismo puede decirse de los documentos curriculares que utilizan los

maestros… aunque en ellos se presta algo de atención a los procesos de

aprendizaje, el foco principal se pone sobre los conocimientos y habilidades

medidos por exámenes sumativos. (Marsh, 2007: 27-28)

142

2. Factores que influyen en la implementación de la evaluación formativa

La dificultad para poner en práctica en las aulas los principios de la evaluación

formativa parece deberse, pues, a la influencia sobre las prácticas de factores de

diferente peso y antigüedad, que individualmente podrían considerarse menores,

pero en conjunto conforman un entramado que se ha mostrado muy difícil de

desmontar, y que se trata de describir mediante la gráfica siguiente:

Características personales

Experiencia escolar temprana

Formación inicial y en servicio, experiencia

EXEXPERIE

2.3 VARIABLES

INTERVINIENTES

DE LOS

ALUMNOS

2.4 VARIABLES

INTERVINIENTES

DE LA

ESCUELA

Y EL

AULA

PRÁCTICAS

DE ENSEÑANZA

Y EVALUACIÓN

2.1 VARIABLES REMOTAS

CARACTERÍSTICAS DE LOS MAESTROS

2.2 VARIABLES INTERMEDIAS

CONOCIMIENTOS, CONCEPCIONES Y PERCEPCIONES DE LOS MAESTROS

Sobre sí

mismos

Sobre las

materias

Sobre la

enseñanza

Sobre la

evaluación

Sobre los

alumnos

143

La gráfica muestra cuatro bloques de variables que influyen de manera directa o

indirecta sobre las prácticas de enseñanza y de evaluación de los maestros.

La influencia más directa sobre las variables que se quiere explicar (las prácticas

de enseñanza-evaluación) es la que proviene del segundo bloque (conocimientos,

concepciones y percepciones de los docentes), pero esta relación se ve afectada

por las variables intervinientes de los alumnos, así como por las de la escuela y el

aula. A su vez, las variables del segundo bloque están determinadas por factores

anteriores, que se agrupan en el primer bloque: características personales,

experiencia escolar temprana y formación inicial y en servicio de los maestros.

Los coeficientes de regresión que asocian las variables del primer bloque con las

prácticas docentes suelen ser menores que los de las variables del segundo

bloque, debido simplemente a su posición más distante respecto a las prácticas

docentes; esto no significa que su importancia sea menor sino sólo que no es

directa sino mediada por otras. Además es particularmente difícil modificar esos

aspectos, precisamente porque se deben a experiencias antiguas y, muchas

veces, muy prolongadas. En los siguientes puntos se desarrolla el contenido de

cada uno de esos grupos de variables.

2.1. Variables de los maestros.

Características personales: edad, sexo, estado civil, extracción social y

habilidades cognitivas.

Las investigaciones sobre las prácticas de evaluación de los maestros no suelen

considerar expresamente las variables de este grupo, pero sí son consideradas en

las investigaciones sobre maestros en general, en particular en las que exploran la

posible relación entre ciertas características de los docentes y los resultados de

sus alumnos; sin embargo, los resultados en general han sido poco consistentes.

No parece haber relación sistemática entre variables como edad, sexo o estado

civil de los maestros y el desempeño de sus alumnos, aunque hay tendencias en

el sentido de que algunos rasgos se asocian con cierto tipo de trabajos, como el

sexo femenino con la enseñanza en educación preescolar.

144

Linda Darling-Hammond señala que desde la década de 1940 algunos estudios

encontraron correlaciones positivas entre el desempeño de los maestros y

medidas de su inteligencia o su habilidad académica, pero en general pequeñas y

no significativas estadísticamente. La misma autora señala que se encontraron

relaciones más fuertes con la habilidad verbal, y que se hipotiza que eso puede

deberse a que esta última puede ser una medida más sensible de la capacidad de

los maestros para transmitir ideas en forma clara y convincente. (1999: 6)

En el mismo sentido apuntan otros hallazgos: variables sobre el nivel de habilidad

intelectual de los maestros (por ejemplo de competencia lectora o matemática o su

desempeño en pruebas de acceso a la universidad) se asocian positivamente con

los resultados de los alumnos, pero los resultados tampoco son consistentes.

(Wayne y Youngs, 2003: 97-100)

Experiencia escolar temprana: la que cada maestro vivió a su paso por

la escuela, el tipo de enseñanza que practicaron los maestros que tuvo

y, en especial, las evaluaciones a las que fue sometido.

Con respecto al segundo conjunto de variables de este bloque, en un trabajo ya

citado Dylan Wiliam, después de comentar lo difícil que es que alguien comience a

hacer de manera distinta algo que ha hecho de cierta forma medio millón de

veces, se refiere al peso de la experiencia escolar temprana de los maestros sobre

su futura práctica profesional en los siguientes términos:

Pero hay una razón más profunda por la que el cambio resulta difícil, aún

para maestros sin experiencia. Los maestros aprenden la mayor parte de lo

que saben sobre la enseñanza antes de llegar a los 18 años de edad. Así

como la mayoría de nosotros aprendemos lo que sabemos sobre cómo ser

padres de familia por la experiencia con los nuestros, así también los

maestros han interiorizado los “guiones” de lo que se hace en la escuela a

partir de su experiencia como alumnos. El mejor programa de licenciatura

en educación básica encontrará difícil sobreponerse a los modelos de

práctica que sus alumnos, los futuros docentes, aprendieron en los 13 o 14

años que pasaron en la escuela.(Wiliam, 2007: 196)

145

No se encontraron resultados precisos de estudios sobre la posible influencia en el

desempeño de los maestros de esas experiencias tempranas, pero no debería

sorprender que las relaciones que aparecieran fueran también débiles y poco

consistentes ya que, al igual que las características personales de los docentes,

se trata también de variables muy distantes de las prácticas. Por ello su influencia

sobre otras variables que ocupan posiciones más cercanas a las prácticas puede

ser importante y no se deben de perder de vista, recordando también que se trata

de elementos particularmente difíciles de modificar.

Formación inicial y en servicio, experiencia docente: duración de la

formación, tipo de institución y programa en que se realizó; número de

las actividades de actualización profesional que ha llevado, duración de

las mismas; años de servicio.

La práctica de los maestros también se puede ver influenciada por la formación

que recibieron cuando se preparaban para el trabajo profesional, así como por el

mismo ejercicio de la profesión.

En este punto se considerarán sólo aspectos formales como la duración de la

formación inicial, la de las actividades de actualización y la antigüedad en el

ejercicio profesional, dejando fuera aspectos como el enfoque del programa

vigente cuando el maestro se preparaba para su trabajo, lo establecido en el

currículo y lo realmente cubierto con más o menos profundidad, la proporción de

formación teórica y práctica, la de conocimientos a enseñar y la de elementos

pedagógicos, etc.

Obviamente el enfoque y la calidad de todos estos aspectos es muy importante,

pero los estudios no suelen captarlos. Por ello en el siguiente bloque se tratará lo

relativo a conocimientos, concepciones y percepciones de los maestros, cuya

influencia sobre las prácticas es muy directa, con independencia de si se deben a

la formación inicial recibida, a las actividades de actualización, o bien al esfuerzo

autodidacta de los docentes, a su interacción con otros colegas, o a sus

experiencias tempranas.

146

Según Wayne y Youngs los estudios antiguos sobre la influencia de la formación

de los docentes en su desempeño posterior no dieron resultados concluyentes,

pero tampoco lo consiguen otros más recientes en relación con áreas curriculares

como lectura, escritura e incluso ciencias naturales. Los pocos resultados

consistentes se refieren a matemáticas y a maestros de enseñanza media; en este

caso el hecho de haber llevado más cursos especializados de matemáticas

durante la formación sí parece asociarse consistentemente con mejores resultados

de los alumnos. (Wayne y Youngs, 2003: 101-103). Sin embargo, estos autores

reportan que algunos estudios sí encuentran una relación positiva entre la calidad

del programa en el que se formó un maestro y los resultados de sus estudiantes

(2003: 95-96).

Según Darling-Hammond,

De las variables sobre la calificación de los maestros, la relación más fuerte

se encontró con los exámenes para dar la licencia para enseñar, que miden

tanto habilidades básicas como conocimientos para la docencia… Si se

controlan las características de los alumnos, la relación entre la calificación

de los maestros y el desempeño de los alumnos es aún más fuerte. Un

estudio de escuelas de alto y bajo rendimiento de Nueva York, con alumnos

similares demográficamente, encontró que la diferencia en la calificación de

los maestros (grados en educación, estatus de certificación y experiencia)

explicaban aproximadamente el 90% de la varianza total en el desempeño

de los alumnos, en el nivel de la escuela, en lectura y matemáticas, en

todos los grados estudiados. (Darling-Hammond, 1999: 12-13)

Por lo que se refiere a la experiencia docente, la misma investigadora señala:

Otros estudios… han encontrado relación entre la eficacia del profesor y

sus años de experiencia, pero no siempre significativa ni lineal. Si bien

muchos estudios han establecido que los maestros sin experiencia (menos

de tres años) son típicamente menos efectivos que maestros con más

antigüedad, los beneficios de la experiencia parecen plafonar después de

unos cinco años… (Darling-Hammond, 1999: 9-10)

147

Por lo que se refiere a los cursos de actualización, Wiliam afirma lo siguiente:

Si bien la inversión en actividades de actualización profesional para

maestros ha sido durante muchos años un rasgo del panorama educativo,

la evidencia de que producen alguna diferencia en el desempeño de los

alumnos es deprimentemente escasa. “Nada ha prometido tanto y ha sido

un desperdicio tan frustrante como los miles de talleres y conferencias que

no produjeron cambios significativos en la práctica una vez que los

maestros regresaron a sus aulas (Fullan)”. (Wiliam, 2007: 187)

En el sistema educativo mexicano no se cuenta con información suficiente para

analizar el desempeño de los egresados de diferentes instituciones o programas

que preparan maestros para educación básica.

Sabemos que entre los docentes de primarias públicas casi todos cuentan ya con

licenciatura, pero también que hay sectores del sistema en los que hay muchos

docentes con niveles de preparación inferiores, como en las primarias

comunitarias del CONAFE y algunas telesecundarias. Es relevante señalar

también que, en general, el nivel de los alumnos de programas de formación de

maestros de educación básica suele ser inferior al de los estudiantes de otros

programas de nivel universitario.

También se sabe que año con año se ofrece a los maestros en servicio una gran

cantidad de cursos de actualización, incluyendo los que obligatoriamente deben

llevar todos los maestros durante tres días, en la semana que precede al inicio del

ciclo escolar. Se sabe también que sólo una fracción de los maestros acreditan los

cursos no obligatorios, y hay fundamento para afirmar que, en muchos casos, la

calidad de dicha oferta es muy baja.

2.2. Conocimientos, concepciones y percepciones de los maestros.

Por su ubicación más lejana respecto a la práctica, como se ha dicho, las variables

de los tres grupos del bloque anterior, que se acaba de revisar, influyen en forma

directa sobre los conocimientos, concepciones y percepciones de los maestros,

que forman el segundo bloque; la influencia de estos elementos sobre las

prácticas de los maestros, en cambio, es más directa, como veremos en seguida.

148

Un rasgo en que se aprecia el cambio de los enfoques conductistas prevalecientes

en la investigación educativa hasta la década de 1960 y enfoques más recientes,

derivados de la revolución cognitiva, es precisamente el que se preste atención no

sólo a las conductas de los sujetos estudiados, sino también a aspectos menos

directamente observables, como son las concepciones y las creencias.

Al tratar de las creencias de los maestros, Campbell retoma de Thompson la

definición de los sistemas de creencias como:

estructuras mentales dinámicas y permeables, susceptibles de cambio a la

luz de la experiencia. La relación entre creencias y prácticas no es simple ni

unidireccional de las primeras a las segundas, sino una relación dinámica y

bidireccional, en la que las creencias se ven influenciadas también por la

experiencia práctica. (Campbell et al., 2004: 50)

Campbell cita un estudio de Muijs y Reynolds que utilizó un cuestionario para

explorar las creencias de los maestros. Señala que el estudio no encontró una

relación directa entre las creencias de los maestros y los resultados de sus

alumnos, pero añade que se hizo un análisis adicional para poner a prueba un

modelo de proximidad, según el cual se plantea la hipótesis de que:

los factores más cercanos a la experiencia de los alumnos (por ejemplo las

conductas del maestro) afectan los resultados con más fuerza que los

factores que están menos directamente relacionados con la experiencia de

los alumnos (por ejemplo las creencias de los maestros). (En Campbell et

al., 2004: 52)

Siempre según Campbell et al., los resultados del análisis mostraron en efecto que

los maestros que tienen cierto tipo de creencias tienen más probabilidad de poner

en práctica ciertas conductas, en particular ciertas formas de enseñanza que, a su

vez, resultan asociarse con resultados distintos de los alumnos, esto es que son

más o menos efectivas. (2004: 52)

Las concepciones y creencias de los maestros se pueden referir a varios objetos:

a sí mismos, a las materias que enseñan, a la enseñanza misma, a la evaluación y

a los alumnos.

149

Sobre sí mismos: autopercepción y autoestima del maestro en general,

pero además la manera en que concibe su función docente y, muy

especialmente, su función evaluadora.

Aunque no se cuente con estudios que analicen específicamente estos aspectos,

parece razonable esperar un mejor desempeño de un maestro que se vea a sí

mismo como un profesional y tenga confianza en sí mismo; que considere que su

profesión es digna y atractiva y no la única opción que tuvo a su alcance para

buscar cierta movilidad social; y que conciba su función como docente y como

evaluador como una tarea cuyo fin último es el bien de sus alumnos.

Sobre las materias: concepción del lenguaje, las matemáticas, las

ciencias de la naturaleza y demás áreas curriculares que tenga el

maestro, así como a la valoración que tenga de ellas, su interés,

desinterés o eventual rechazo de algunas, etc.

Lógicamente será difícil que un docente consiga que sus alumnos desarrollen el

hábito de la lectura si él o ella no lo tienen; o que consiga buenos resultados en

matemáticas o ciencias si son alérgicos a los números o tienen una concepción

precientífica del mundo. Sin embargo, los estudios no muestran una relación tan

clara como se esperaría entre los conocimientos del maestro y su práctica.

El conocimiento de la materia es otra variable que se podría pensar se

relaciona con la eficacia del docente. Aunque esta suposición encuentra

algún respaldo, los hallazgos no son tan fuertes y consistentes como uno

podría suponer… La mayoría de los estudios muestra relaciones pequeñas,

no significativas estadísticamente, y tanto positivas como negativas… Los

estudios han mostrado una influencia un poco más fuerte y consistente de

los cursos de contenido pedagógico sobre la efectividad de los docentes.

(Darling-Hammond, 1999: 6-8)

Se ha señalado ya que parece haber una relación más fuerte con el rendimiento

de los alumnos de los conocimientos de su maestro en el caso de matemáticas, y

trabajos recientes muestran también una influencia significativa del conocimiento

que tiene el maestro de las matemáticas, pero no de sus conocimientos “puros”

150

sino muy concretamente de su dominio de lo que Hill, Rowan y Ball (2005) llaman

“conocimiento de las matemáticas para la enseñanza” (Mathematics Knowledge

for Teaching, MKT). (Cfr. Wiliam, 2007: 186)

Sobre la enseñanza: incluyendo tanto las ideas teóricas, más o menos

consistentes, sobre los diferentes enfoques de la enseñanza, como las

concepciones prácticas que el maestro tenga respecto a lo que es viable

o no en las condiciones concretas en que trabaja, lo que funciona, etc.

Sobre la evaluación: ideas del maestro sobre el papel de la evaluación

en el proceso de enseñanza-aprendizaje, sobre las formas de llevarla a

cabo, el uso de resultados tanto para retroalimentar su propia práctica

docente como para dar información a los alumnos y a los padres de

familia, sobre el impacto afectivo de la evaluación, etc.

Sobre los alumnos: la forma como el maestro los percibe en general (por

ejemplo como sujetos activos de su aprendizaje o como receptores

pasivos de conocimientos) y en particular (los de este grupo y este

curso, o incluso este alumno o alumna), como capaz o incapaz, listo o

no, aplicado o negligente, dócil o rebelde, etcétera.

Según Raquel Katzkovicz son muchos los factores que influyen en las prácticas de

evaluación, que dependen en parte de los contenidos con que trabaje el maestro,

los recursos de que disponga, el apoyo de padres de familia y las características

del entorno, entre otras cosas, pero esta autora presta especial atención a la

influencia de las concepciones de los mismos docentes sobre sus propias

decisiones relativas a qué actividades de evaluación asignar a los alumnos, así

como sobre la lectura que hacen luego de los resultados. Según Katzkovicz:

Conocer las concepciones de los profesores a la hora de definir las

actividades de evaluación de los aprendizajes de los alumnos y sus

estrategias de enseñanza nos permitirá comprender sus criterios de

evaluación y la jerarquización que realizan de los contenidos…

151

El conocimiento profesional (asociado al conocimiento pedagógico general,

al disciplinario y al didáctico del contenido) y la experiencia profesional son

elementos importantes en estas construcciones mentales que Influyen en

las prácticas. Estas concepciones serán las que definan las decisiones que

se tomarán en relación con las evaluaciones de aula. (2010: 114-117)

Retomando los resultados de trabajos de otros investigadores sobre las creencias

y concepciones de los maestros en relación con las prácticas de evaluación, la

autora mencionada señala que se ha encontrado que muchos docentes tienen

bajas expectativas en cuanto al rendimiento de los chicos de medio desfavorable

por lo que saben al respecto, pero que eso a su vez incide negativamente en el

rendimiento de esos mismos alumnos.

Otras investigaciones muestran que la forma en que los docentes conciben la

ciencia los lleva a privilegiar el uso de acercamientos que supuestamente miden

con mucha precisión lo que domina cada alumno –aunque se trate de aspectos

superficiales, como ocurre muchas veces con pruebas integradas por preguntas

estructuradas— y a descuidar estrategias de evaluación que pueden dar lugar a

respuestas imprecisas sobre aspectos fundamentales del trabajo científico, como

los que se refieren a las relaciones ciencia-técnica-sociedad-ambiente, entre otras,

contribuyendo a la transmisión de una imagen deformada de la ciencia.

(Katzkovicz, 2010: 115)

La misma autora cita una frase de Moreno y Azcárate que concluye:

Las concepciones docentes se constituyen como organizadores implícitos

referidos a creencias, significados, conceptos, proposiciones, imágenes

mentales y preferencias que influyen tanto la manera de percibir la realidad

como las prácticas que implementan. (Katzkovicz, 2010: 116)

2.3. Variables de los alumnos.

Como muestra el esquema, este bloque de variables y el siguiente ocupan una

posición lateral respecto a la relación principal, que va de las variables remotas

(características de los maestros) y las intermedias (conocimientos, concepciones y

percepciones) a las prácticas.

152

Así pues, las variables de los alumnos, así como las de la escuela y el aula, tienen

un estatus de variables intervinientes, que modifican o modulan la influencia de las

variables independientes, próximas o remotas, sobre la dependiente.

El bloque relativo a las variables de los alumnos comprende las características

reales de los estudiantes –en oposición a la percepción de ellos que tenga el

maestro— y tanto individualmente como en grupo: niños de familias urbanas o

rurales, acomodadas o pobres, indígenas, de rendimiento normal o no; que asisten

con regularidad o faltan con frecuencia; más o menos homogéneos, etc.

La naturaleza interviniente de este grupo de variables respecta a la relación entre

las variables independientes próximas y remotas y las prácticas de los maestros

quiere decir, en concreto, que la forma en que los docentes se conduzcan en el

aula (sus prácticas docentes y de evaluación) depende directamente de sus

características personales y de sus conocimientos y concepciones, pero que se ve

afectada de alguna manera por el tipo de alumnos que tengan. Los maestros

deben ajustar sus prácticas teniendo en cuenta si sus alumnos aprenden con más

o menos rapidez, si son especialmente inquietos o tranquilos, entre otros muchos

aspectos, como el tipo de motivaciones a que son sensibles.

Al respecto Brookhar cita estudios que han encontrado que los alumnos tienen

cuatro tipos de patrones motivacionales, según que estén orientados al

aprendizaje o al éxito, o bien que sean no comprometidos o elusivos (avoidant).

La existencia de diferentes patrones del enfoque de motivación que tienen

los alumnos respecto al aprendizaje tiene consecuencias para la evaluación

formativa en aula. La retroalimentación que se da a los alumnos que no

tienen éxito llega en un momento en que se están sintiendo mal por su

fracaso. La retroalimentación debe hacer algo para tener en cuenta esos

sentimientos negativos si quiere romper el círculo vicioso del fracaso, de lo

contrario la retroalimentación no servirá para hacer que la atención de los

alumnos se concentre en el trabajo (Kluger y DeNisi)… Los alumnos

necesitan tener tanto habilidad para tener éxito en el aula, como voluntad

para ello (skill & will). (Brookhart, 2007: 52-53)

153

2.4. Variables de la escuela y el aula

El cuarto bloque del esquema comprende el otro grupo de variables intervinientes,

por ejemplo si la escuela en que trabaja un profesor es grande o chica; de

organización completa o incompleta; pública o privada; bien o mal dotada de

infraestructura, mobiliario, equipamiento y material didáctico; ubicada en un medio

favorable u hostil; en la que los padres de familia participan activamente o no; con

maestros que trabajan en equipo o no; que cuentan con apoyo del director y de las

instancias de supervisión, etc. Igualmente, si en los alumnos con los que tiene que

trabajar en el aula son muchos o pocos; de un solo grado o varios; con muchos o

pocos con necesidades especiales, de bajo rendimiento, repetidores, etc.

Es claro el carácter modulador o mediador de este tipo de variables en la relación

que va de las características, conocimientos y concepciones del profesor a su

práctica: aunque el maestro tenga ideas muy buenas sobre cómo enseñar o cómo

evaluar, no lo podrá hacer de la forma que quisiera con un grupo muy grande, o

sin un mínimo de materiales y apoyos.

Además de los aspectos mencionados, un tipo de variables de gran importancia

que forman parte de este grupo es el que se refiere a las orientaciones que debe

seguir en su trabajo el maestro, tanto las establecidas en las normas aplicables,

como las que se derivan de las directrices marcadas por el director de la escuela y

por las instancias de supervisión.

En este sentido se debe mencionar en primer lugar el currículo, que muchas veces

es demasiado amplio y comprende una cantidad excesiva de conocimientos

particulares, lo que propicia que los maestros traten de enseñarlos de manera

superficial, en vez de tomarse el tiempo necesario para desarrollar habilidades

cognitivas de mayor complejidad.

De manera relacionada con lo anterior, en lo relativo a evaluación es frecuente

que las orientaciones sean congruentes con concepciones que privilegian los usos

sumativos y los instrumentos estandarizados, tanto los que se aplican en escala

nacional o estatal por parte de las autoridades, como los que se manejan en

escala menor y de manera menos formal, pero no por ello menos influyente.

154

Por lo que se refiere al currículo, Rindone y McQuarrie afirman que

…sigue habiendo serios obstáculos a la implementación de prácticas de

evaluación formativa en la enseñanza cotidiana. Hasta cierto punto esto se

debe a la confusión sobre lo que es la evaluación formativa, pero el mayor

obstáculo es el antiquísimo problema de la amplitud versus la profundidad.

Los maestros de educación básica o superior deben cubrir demasiados

contenidos con poca o ninguna profundidad, sin tiempo para la práctica y

sin evaluación formativa. (2010: 325)

En cuanto a la evaluación, Black señala el peso que tienen en muchos sistemas

educativos las pruebas sumativas externas de consecuencias fuertes y añade:

La necesidad de enseñar tácticas superficiales que mejoren el desempeño

en pruebas igualmente superficiales limita la libertad de maniobra del

maestro, así como la confianza en él para que desempeñe un papel más

responsable en la evaluación de sus alumnos. (Black, 2010: 363).

La participación de los padres de familia, si bien considerada generalmente como

positiva, puede tener también consecuencias negativas en cuanto a las prácticas

de evaluación, pues los maestros se pueden ver presionados a utilizar formas de

evaluación más distantes del enfoque formativo pero, al menos a juicio de los

padres, más “objetivas”, con lo que las decisiones derivadas de ellas parecen más

defendibles y evitan conflictos. (McMillan, 2003: 38)

3. Lecciones para las intervenciones en la práctica docente

En el Capítulo 2 se presentaron ya algunas perspectivas críticas que, en oposición

a posturas más optimistas, subrayan las dificultades que deben enfrentarse para

poner en práctica los principios teóricos de la evaluación formativa. En los

términos de Gordon Stobart, es fácil perderse en el paso de los principios a la

política y de ésta a la práctica de la evaluación formativa. (2005: 3)

El texto de Stobart introduce un conjunto de trabajos que coinciden en mostrar la

complejidad de la puesta en práctica de propuestas ambiciosas, y la insuficiencia

de estrategias como la de utilizar una terminología nueva (assessment for learning

155

en lugar de formative assessment) cuando se constata que los esfuerzos previos

no han dado los resultados esperados, con la improbable esperanza de que el

nuevo término no se asocie con los fracasos anteriores.

Utilizando como ejemplo el trabajo de Smith y Gorard comentado en el Capítulo 2,

Stobart señala que el evitar calificar el trabajo de los alumnos, dándoles sólo

comentarios (típicamente elogiosos o animadores) refleja una pobre concepción

de la noción de retroalimentación lo que, además de no dar resultados, condujo a

la suprema ironía del alumno que dijo: Maestra, yo quiero conocer mis

calificaciones porque los comentarios no nos dicen mucho. (2005: 4)

A continuación se retoman de la literatura experiencias que podrán orientar los

esfuerzos de intervención que busquen modificar las prácticas de los maestros en

el campo de la evaluación, para no caer en errores detectados en esfuerzos

anteriores, y para aprovechar las experiencias más positivas.

3.1. Limitaciones de esfuerzos por introducir nuevas prácticas

La experiencia de dos sistemas educativos muy distintos, como son el del Reino

Unido y el de Francia coinciden en que en ambos se ha encontrado considerable

dificultad para que los nuevos enfoques de la evaluación se generalicen.

Muchos maestros ingleses creían que podrían hacer que sus evaluaciones fueran

formativas pero que en los primeros tiempos de las reformas las dimensiones y la

complejidad de la tarea de llevar registros y recoger las evidencias amenazaban

con abrumar a los maestros, de manera que se reportaba que los cambios en las

evaluaciones seguían siendo intuitivos, más que basados en evidencias.

En Francia, las leyes de 1989 y 2005 intentaron provocar un cambio cultural para

pasar de una concepción de la evaluación sumativa a una formativa, pero hasta

ahora estas iniciativas de arriba hacia abajo parecen haber tenido escaso impacto

sobre las prácticas de aula, según describen la investigación académica y los

informes de los supervisores. (Osborn y Raveaud, 2010: 425)

Al tratar de las variables relacionadas con la formación de maestros se han citado

opiniones sobre el frustrante resultado de muchas actividades de actualización

156

profesional de los maestros. En este sentido Dylan Wiliam se pregunta cómo

podremos hacer que el desempeño de los alumnos mejore y responde:

Muchas veces confiamos en soluciones rápidas, que rara vez tienen éxito.

Para elevar exitosamente el desempeño de los alumnos debemos mejorar

la calidad de los maestros… en particular los que ya están en las escuelas.

Tenemos que analizar cuidadosamente los costos y los beneficios de las

posibles reformas. (Wiliam, 2007: 184)

Luego Wiliam considera dos estrategias: una gradual, elevando los requisitos que

se exigen para aceptar a los nuevos docentes en la profesión, lo que llevará

muchos años para tener efectos; otra rápida, permitiendo el acceso a la profesión

de maestro a personas que no hayan recibido formación para ello, pero señala

que la investigación ha mostrado que este tipo de docentes no resulta mejor que

los formados de la manera tradicional (2007: 186-187).

Una estrategia más tiene como elemento clave ayudar a los maestros a desarrollar

prácticas de evaluación formativa lo que, según Wiliam, tiene una relación costo-

beneficio mejor, pero cambiar lo que los profesores hacen día a día no se puede

lograr efectivamente con métodos tradicionales, como talleres de verano y añade:

Ahora es claro que la principal razón por la que la actualización profesional

no ha conseguido en general tener impacto en el rendimiento de los

alumnos es porque no ha implementado lo que la investigación muestra que

hace la diferencia en cuanto al aprendizaje de los alumnos. (2007: 187)

Después de estas consideraciones, nuestro autor concluye:

Después de muchos falsos comienzos y callejones sin salida he llegado al

convencimiento de que la mejor forma de apoyar a los maestros a adoptar

evaluaciones formativas… es mediante comunidades de aprendizaje de

maestros basadas en la escuela. (Wiliam, 2007: 196)

A una conclusión idéntica, en contexto latinoamericano, llega Rebeca Katzkovicz

que, tras analizar la importancia que tienen las concepciones de los maestros

sobre sus prácticas, subraya la necesidad de contar con ámbitos de formación y

157

reflexión profesional para los docentes para mejorar sus estrategias en el aula y, a

través de ellas, los aprendizajes de todos sus alumnos y sus posibilidades de éxito

escolar. En concreto recomienda:

Favorecer los espacios de reflexión profesionales en las instituciones para

trabajar la cultura de la evaluación en ellas, así como para develar las

creencias, las racionalidades y las concepciones de los profesores en

relación con sus prácticas de enseñanza y evaluación. (2010: 123-124)

3.2. Necesidad de procesos más adecuados de capacitación

Después de todas las consideraciones anteriores, podemos tratar de responder la

pregunta sobre qué características deberán tener las actividades de actualización

para maestros que busquen modificar en profundidad las prácticas de evaluación,

como parte de una reorientación más amplia de la enseñanza en dirección de

enfoques más congruentes con lo que dicen los avances de las ciencias

cognitivas, con el propósito final de ayudar a que los estudiantes alcancen niveles

adecuados en las competencias que hoy se consideran necesarias para la vida en

las sociedades contemporáneas.

Paul Black sintetiza algunos problemas para implementar evaluaciones formativas:

falta de una definición clara del concepto; conflicto entre la evaluación formativa y

las presiones de las pruebas sumativas en dirección de la responsabilización de

las escuelas; no aceptar que la evaluación formativa exige un cambio radical y

difícil en cuanto al papel de los maestros. (2010: 359)

Black da ejemplos de interpretaciones superficiales de la evaluación formativa: un

docente puede formular preguntas abiertas, pero luego califica las respuestas en

términos de correcta o incorrecta, en vez de usarlas para reorientar el trabajo de

los alumnos; puede pedir a los alumnos que se autoevalúen, pero no usar la

información resultante para dar retroalimentación. (2010: 363)

Finalmente, Black señala que el obstáculo más grande es que implementar

prácticas formativas nuevas es una tarea muy demandante para los maestros que,

en muchos casos, implica un cambio profundo de sus creencias sobre su papel en

el aula, y que esos cambios no se pueden conseguir con una breve sesión de

158

entrenamiento, sino que necesitan el apoyo sostenido de la colaboración

colegiada. Un obstáculo más es que los maestros necesitan una formación básica

en temas de evaluación, que incluya una buena comprensión de los criterios de

validez y confiabilidad. (Black, 2010: 363)

Conviene reflexionar sobre este punto, porque una inadecuada comprensión del

mismo puede llevar a una orientación equivocada de los esfuerzos de formación.

La idea de que implementar evaluaciones formativas supone un suficiente dominio

de temas de evaluación en general por parte de los maestros debe precisarse.

Un autor que ha promovido la mejora de las evaluaciones es W. James Popham,

que en un trabajo reciente se pregunta si la alfabetización en evaluación que se

espera tengan los maestros es una moda o realmente algo importante. (2009)

Popham distingue los conocimientos sobre evaluación que se refieren al aula y

los que tratan de pruebas en gran escala, para responsabilización de escuelas y

maestros. En su opinión en ambos casos un conocimiento inadecuado puede traer

consigo efectos negativos para la calidad, por lo que un conocimiento básico

(literacy) al respecto parece una condición sine qua non para los educadores.

Nuestro autor propone 13 temas a incluir en las actividades de actualización

profesional, y señala que este tipo de formación en servicio será indispensable

hasta el momento en que los programas de formación inicial la hagan innecesaria

porque todos los futuros docentes salgan con una buena preparación sobre estos

aspectos. Añade que el uso de comunidades profesionales de aprendizaje (con la

práctica reflexiva de los profesores) puede complementar las actividades

tradicionales de actualización o sustituirlas. (Popham, 2009:8-10)

El error en cuanto al enfoque que se debe dar a este tipo de formación es el de

orientarlo como si se dirigiera a investigadores que quieran especializarse en

temas de evaluación, y no a maestros, cuyas necesidades al respecto son

distintas de las de un investigador. Hace ya una década Richard Stiggins había

hecho una crítica fundamental al respecto, que los organizadores de actividades

de actualización sobre evaluación para maestros deberán tener muy presente.

159

Después de repasar el preocupante panorama que presentaban las evaluaciones

que se hacían en el aula, en contraste con los sofisticados avances de las pruebas

en gran escala, Stiggins rechaza que el especialista en pruebas eluda su parte de

responsabilidad al respecto, atribuyendo todo el fenómeno al desinterés de otros

actores, en especial maestros y autoridades educativas. En su opinión, es cierto

que los especialistas han planteado el tema, pero se pregunta y responde:

¿Por qué no hemos sido escuchados en las salas de las escuelas? En mi

opinión porque no nos hemos educado nosotros mismos en las realidades

de la vida de las aulas, de manera que seamos capaces de traducir

nuestras ideas a aplicaciones que puedan ser puestas en práctica por los

maestros, en beneficio de sus alumnos. (Stiggins, 2001: 6-7)

Con base en los resultados de su propio trabajo empírico (Stigglins y Conklin,

1992) sobre lo que pasa en las aulas, y en relación con las actividades de

desarrollo profesional sobre evaluación dirigidas a maestros, dice:

Los resultados dejaron claro el reto a enfrentar. Comprendimos lo que los

maestros necesitan saber sobre evaluación y no era lo que tratábamos de

enseñarles, sin éxito, según reflejan los tradicionales textos de introducción

a la medición… Durante décadas hemos escrito textos para maestros que

incluyen una expectativa de que ellos van a estimar la confiabilidad de una

prueba, a calcular índices de validez de la misma y a hacer análisis de

ítems para determinar su dificultad y poder de discriminación. Pienso que

los autores que tienen tales expectativas revelan su propia ingenuidad

sobre la vida en las escuelas y las aulas. (Stiggins, 2001: 9-14)

Stiggins afirma que sería formidable que los maestros hicieran tales cosas, pero

que no va a ocurrir, y añade:

¿Quiere esto decir que los maestros no pueden aprender lo relativo a las

fuentes que afectan la confiabilidad o la validez y a evitarlas? Por supuesto

que no. Los maestros pueden y deben aprender esas cosas, pero tenemos

que ayudarles a hacerlo en términos que puedan entender y aplicar en su

contexto. Nuestro reto es entender su contexto de evaluación. (2001: 14)

160

La fundamentación más profunda, en el plano epistemológico, de la distinción

fundamental entre el enfoque del científico y el del maestro, es retomada por

nuestro autor de un texto de hace casi 70 años:

La ciencia tiene que ver fundamentalmente con la abstracción de elementos

particulares de un todo complejo, aislando algo que es común a un grupo

de sujetos, liberándolo de las restricciones de las circunstancias inmediatas.

La preocupación de un maestro es justamente la opuesta: trabaja con

individuos variables para construir un producto variable. (Scates, 1943: 3,

citado por Stiggins, 2001: 7)

En pocas palabras quedamos muy sensibilizados a las diferencias entre la

paleta de colores que los maestros necesitan para manejar el arte de la

evaluación en aula y las herramientas que subyacen a la ciencia de la

evaluación… (Stiggins, 2001: 9)

Esta concepción de lo que los maestros deberían saber sobre evaluación –más

cerca de lo que manejan los especialistas en el tema que de lo que realmente

necesitan los docentes para su trabajo con los alumnos en el contexto del aula—

se confirma si se revisan los lineamientos que se definieron al respecto, en un

momento en que la preocupación por la calidad de las escuelas ya había hecho

que se prestara atención al tema de la evaluación, pero todavía no en el sentido

que proponen las corrientes de evaluación formativa.

En 1990 tres organizaciones norteamericanas, relacionadas de diversa forma con

el tema de la evaluación que hacen los maestros del aprendizaje que alcanzan sus

alumnos (American Federation of Teachers, National Council on Measurement in

Education y National Education Associaton) adoptaron un conjunto de estándares

relativos precisamente a las competencias que consideraban debería tener todo

maestro, en lo que respecta a la evaluación de los alumnos (Standards for

Teacher Competence in Educational Assessment of Students).

Los estándares adoptados fueron siete y, en su versión más sintética, estipulan

que los maestros deberán dominar las competencias necesarias para:

161

1) Seleccionar métodos de evaluación apropiados para sustentar decisiones

de enseñanza.

2) Desarrollar métodos de evaluación apropiados para lo mismo.

3) Aplicar, calificar e interpretar los resultados de métodos de evaluación,

tanto externos como desarrollados por el maestro mismo.

4) Utilizar resultados de las evaluaciones al tomar decisiones sobre alumnos

en lo individual, así como para planear la enseñanza, desarrollar el currículo

y realizar actividades para la mejora de la escuela.

5) Desarrollar procedimientos válidos para la asignación de calificaciones,

utilizando las evaluaciones.

6) Comunicar los resultados de las evaluaciones a los alumnos, sus padres,

otras audiencias no especializadas así como a otros educadores.

7) Identificar métodos de evaluación no éticos, ilegales o inapropiados por

otras razones, así como usos inadecuados de la información derivada.

Recientemente Susan Brookhart (2011) propuso un nuevo grupo de estándares,

que buscan tener en cuenta los cambios en evaluación educativa ocurridos en los

20 últimos años, en especial en dos puntos: por una parte, las nuevas ideas sobre

evaluación formativa –o evaluación para el aprendizaje— y la indisociable relación

entre evaluación y enseñanza que suponen; por otra, los cambios en lo relativo a

la concepción de los estándares de aprendizaje, el papel de las pruebas

estandarizadas, el movimiento en pro de la rendición de cuentas y el tránsito de

tales evaluaciones de bajo impacto a uno considerablemente mayor.

Estos nuevos estándares son 11 y, en forma igualmente sintética, establecen que

los maestros deberán:

1) Entender el aprendizaje en el marco del área de contenido que enseñan.

2) Articular propósitos de aprendizaje claros, congruentes tanto con el

contenido y la profundidad de pensamiento que impliquen los estándares y

162

objetivos curriculares con los que se relacionen, de tal manera que sean

tanto alcanzables como evaluables.

3) Tener un repertorio de estrategias para comunicar a los alumnos en que

consistirá el logro de los propósitos de aprendizaje.

4) Comprender los propósitos y usos de la gama de opciones de evaluación

disponibles, y tener las habilidades necesarias para usarlas.

5) Tener habilidades para analizar preguntas de aula, ítems de pruebas y

tareas de evaluaciones de ejecución de manera que identifiquen los

conocimientos específicos y las habilidades de pensamiento que deban

manejar los alumnos para responder o realizar esas tareas.

6) Tener habilidades para ofrecer retroalimentación efectiva y útil para el

trabajo de los alumnos.

7) Construir esquemas de calificación que cuantifiquen el desempeño de los

alumnos en las evaluaciones en aula, de manera que se vuelva información

útil para tomar decisiones sobre alumnos, grupos, escuelas y distritos; esas

decisiones deberán llevar a un mejor aprendizaje, crecimiento o desarrollo

de los alumnos.

8) Aplicar evaluaciones externas e interpretar sus resultados para que

sustenten decisiones sobre alumnos, grupos, escuelas y distritos.

9) Comunicar articuladamente sus interpretaciones de los resultados de las

evaluaciones, así como sus razonamientos sobre las decisiones educativas

basadas en los resultados, a las poblaciones educativas a las que sirven:

los alumnos y sus familias, los grupos, las escuelas y la comunidad.

10) Ayudar a los alumnos para que usen la información derivada de las

evaluaciones para tomar decisiones educativas consistentes.

11) Comprender y cumplir sus responsabilidades éticas y legales relativas a

evaluación al realizar su trabajo. (Brookhart, 2011: 7)

163

Es fácilmente apreciable la coincidencia de estos últimos estándares con los

adoptados en 1990 en algunos puntos, sobre todo si los de hace 20 años se

entienden en forma general.

Nadie estará en contra de que los maestros sean capaces de seleccionar métodos

de evaluación apropiados, desarrollarlos, aplicarlos e interpretar sus resultados y

utilizarlos para tomar decisiones, así como de asignar válidamente calificaciones,

comunicar correctamente los resultados y actuar ética y legalmente.

En el sentido que hoy se da a la expresión, es claro también que lo anterior no es

suficiente para que el maestro haga evaluación realmente formativa. Como se

mostró en el Capítulo 2, para ello no basta tener propósitos de aprendizaje claros

y detectar si los alumnos los han logrado o no; lo esencial es usar la evaluación de

tal suerte que ayude al alumno a alcanzar los propósitos, a partir del punto en que

se encuentra. Por ello las habilidades clave que un maestro debe dominar para

hacer evaluación realmente formativa son las que se incluyen en los puntos 5, 6 y

7 del listado que propone Brookhart: las que le permitan identificar lo que debe

manejar un alumno para responder cierta pregunta o realizar una tarea, ofrecer

retroalimentación efectiva y útil para mejorar y construir esquemas de calificación

que sean información útil para tomar decisiones que lleven a un mejor aprendizaje.

3.3 Consideraciones prácticas

De lo dicho en este capítulo se puede concluir que, dada la multiplicidad de

variables que inciden en las prácticas docentes y de evaluación de los maestros,

las profundas raíces de algunas de ellas, y el que modificar otras no esté al

alcance de los maestros mismos, sino que involucre a otras instancias del sistema

educativo y a los padres de familia, las actividades de actualización que tengan

como propósito transformar en profundidad las prácticas de evaluación de los

maestros no podrán consistir únicamente en talleres breves, esporádicos y

superficiales, como tantas veces ocurre con lo que se ofrece a los maestros.

La conclusión sobre el particular a que llega el trabajo ya citado de Schneider y

Randel, es que:

164

…los esfuerzos de actualización sobre evaluación formativa en aula deben

tener una duración sostenida con suficientes horas de contacto para

presentar los conceptos, y ofrecer apoyo sustancial que permita poner en

práctica la aplicación de nuevas habilidades. La duración óptima de los

programas de actualización está por determinarse. Supovitz y Turner han

encontrado que los maestros necesitan entre 40 y 79 horas de actualización

para que sus prácticas cambien respecto a las del promedio… los maestros

que trabajan en escuelas de bajos resultados pueden modificar su base de

conocimientos sobre evaluación formativa en aula en 30 a 41 horas; sin

embargo, el número de horas necesario para cambiar los conocimientos de

los maestros no es necesariamente el mismo que bastará para que el

rendimiento de los alumnos aumente. (Schneider y Randel, 2010: 272-273.

La última parte de la cita anterior es fundamental: modificar los conocimientos de

los maestros sobre la evaluación es necesario para que sus prácticas cambien,

pero no es suficiente. Por ello talleres de contenido sólido, de 40 o incluso 80

horas de duración tampoco serán suficientes, sino que será indispensable un

esfuerzo continuado durante uno o dos ciclos escolares completos, basado en el

trabajo conjunto de una comunidad de aprendizaje formada por los maestros de

una o varias escuelas.

En este sentido, Black y Wiliam dicen:

Los maestros necesitan una variedad de ejemplos vivos de la

implementación de tales prácticas, por parte de colegas con los que puedan

identificarse y de los que puedan derivar la convicción y la confianza de que

ellos también pueden hacerlo mejor, pudiendo ver qué quiere decir en la

práctica “hacerlo mejor”. (2004: 21)

Los autores citados presentan estrategias que los maestros pueden aprender unos

de otros. Un ejemplo consiste en que cuando el maestro pide a los alumnos que

aporten ideas sobre un tema, antes de pedirles que lo hagan se les hace trabajar

en grupos de dos o tres para que hagan una tormenta de ideas sobre el tema, con

lo cual sus aportaciones serán más ricas y darán una idea más completa al

165

maestro de lo que saben los alumnos, así como sobre cualquier laguna o

concepción errónea, con lo que las acciones siguientes podrán tener en cuenta

mejor las necesidades reales de los alumnos. (2004: 26)

Por su parte, James recuerda que en general son fallas de implementación lo que

impide el éxito de iniciativas para implantar prácticas efectivas de evaluación, y

que por ello hay que estudias las condiciones necesarias para hacerlo bien.

Según este autor, para generalizar en un sistema educativo ciertas innovaciones

probadas en experimentos en pequeña escala, hay que prever que se deberá

conseguir con un apoyo mucho menos intensivo. A su juicio las condiciones

adecuadas incluyen el desarrollo profesional de los maestros así como estructuras

organizacionales y procesos culturales adecuados. (James, 2010: 169)

Entre las advertencias de este autor en relación con la difusión de prácticas de

evaluación formativa se pueden mencionar las siguientes:

Si bien los maestros aprecian las recomendaciones prácticas, las acciones

de evaluación formativa se pueden volver mecánicas y rituales si no se

promueve la reflexión sobre los principios que las sustentan. Los valores,

las creencias y las prácticas no son uniformes entre los maestros; aunque la

mayoría tiene valores educativos claros y positivos la mayoría encontró

dificultad para alinear las nuevas prácticas y sus valores.

La influencia más importante resultó ser la indagación colaborativa entre los

maestros sobre sus prácticas… que se puede extender más allá del aula

por medio de redes dentro de la escuela y entre escuelas. Lo anterior

depende en buena medida de las estructuras organizacionales, la cultura y

el liderazgo. El reto clave para los directivos es, pues, crear el espacio y el

clima para que el personal de las escuelas pueda reflexionar sobre su

práctica y compartir esa reflexión. (James, 2010: 169-170)

Para que puedan extenderse las nuevas prácticas será necesario, pues, que las

instancias de dirección y supervisión ofrezcan un apoyo consistente, además de

que estén presentes condiciones de trabajo y recursos de la escuela y el aula

mínimamente suficientes, y que se remuevan los obstáculos que representan una

166

normatividad inadecuada y evaluaciones externas de enfoque incompatible con el

de evaluación formativa bien entendido. Así mismo, habrá que contar con el apoyo

de unos padres de familia enterados de la importancia y el sentido de los cambios.

Un rasgo que aparece en todas las recomendaciones sobre las características de

un buen proceso de actualización para maestros en servicio es el que consiste en

la conformación de una comunidad profesional de aprendizaje que, como hemos

visto en la propuesta de Popham, debe ser un complemento fundamental de las

actividades tradicionales, o incluso puede sustituirlas.

En este sentido Aschbacher sostiene que el punto de partida para modificar las

prácticas de evaluación debe ser un proceso participativo de reflexión que

involucre a maestros, directores y otros actores educativos en comunidades de

aprendizaje en que sea posible cuestionar los conocimientos previos y entender

suficientemente los nuevos enfoques y su sustento, teniendo en cuenta que el

cambio no solamente debe referirse a los conocimientos de los profesores, sino

también a sus actitudes, de tal forma que estén dispuestos a experimentar nuevas

formas de trabajo, con el riesgo que ello supone. (Aschbacher, 1993).

Otro punto fundamental es que la actualización para la evaluación formativa no se

puede quedar en aspectos teóricos. Ya se han visto ejemplos de comprensiones

superficiales de conceptos clave, que ocultan la ausencia de cambios reales bajo

la apariencia superficial de una nueva terminología. Allal y Mottier López señalan:

La búsqueda de referentes teóricos puede llevar a una visión cada vez más

abstracta de la evaluación formativa, alejada de las realidades de la práctica

en el aula. Por ello es esencial articular el trabajo teórico con el estudio de

cómo se pone en práctica realmente la evaluación en el aula. (2005: 251)

La obra de la OCDE en la que aparece el texto anterior precisa:

Los maestros necesitan traducir ideas abstractas –como las del aprendizaje

centrado en el niño— en prácticas concretas. Programas vagos puramente

conceptuales tienen pocas probabilidades de llegar lejos o durar mucho,

especialmente porque los maestros son personas ocupadas que enfrentan

demandas crecientes sobre su tiempo. (CERI, 2005: 89)

167

Conclusión

Para terminar este capítulo conviene subrayar tres puntos:

Que poner en práctica buenas evaluaciones formativas es incompatible con

un currículo demasiado extenso, sobrecargado de contenidos, que obliga a

los maestros a dedicar poco tiempo a cada tema y les impide los complejos

procesos que implica cambiar las concepciones de los alumnos, desarrollar

la confianza en sus propias posibilidades de aprendizaje y las habilidades

de autoerregulación fundamentales para que jueguen un papel activo y

productivo como corresponsables de la evaluación.

Que una buena evaluación formativa no se distingue de una buena

enseñanza, una que sea verdaderamente congruente con los principios de

la pedagogía derivada de la revolución cognitiva, el constructivismo.

Que la buena evaluación formativa y/o la buena enseñanza constructivista

suponen que el maestro pueda identificar la etapa de desarrollo cognitivo

en que se encuentran sus alumnos y sustituir estructuras y preconceptos

inadecuados por otros mejores.

En muchos casos no se puede dar por hecho que estos tres puntos se cumplen, y

conseguirlo constituye un reto mayúsculo. No es otra cosa lo que implica hacer

buenas evaluaciones formativas.

¿Y cómo se podrá saber si los esfuerzos están dando resultados? Brookhart nos

habla de lo que se puede considerar un indicio inequívoco al respecto:

Con buenas evaluaciones formativas basadas en el desempeño la pregunta

clave que plantean los alumnos deja de ser si cierto contenido vendrá en la

prueba, para dar lugar a otra: ¿ahora qué más puedo aprender? (2007: 56)

No habrá que olvidar, en todo caso, que

…la mejor evaluación anual del mundo no puede superar los problemas

producidos por evaluaciones cotidianas de baja calidad. (Stiggins, 2001: 13)

168

Referencias

ALLAL, LINDA y LUCIE MOTTIER LOPEZ (2005). Formative Assessment of

Learning: A Review of Publications in French. En CERI, 2005: 241-264.

ANIJOVICH, REBECA ed. (2010). Evaluación significativa. Buenos Aires, Paidós.

ASCHBACHER, PAMELA R. (1993) Issues in Innovative Assessment for

Classroom Practice: Barriers and Facilitators. CSE 359. CRESST, UCLA.

BLACK, PAUL (2010). Formative Assessment. En Peterson, Baker y McGaw,

2010: Vol. 3, 359-364.

BLACK, PAUL y D. WILIAM (2004). The formative purpose: Assessment must first

promote learning. En Wilson, 2004: 20-50.

BROOKHART, SUSAN M. (2011). Educational Assessment Knowledge and Skills

for Teachers. Educational Measurement: Issues & Practice. Vol. 30(1): 3-12.

BROOKHART, SUSAN M. (2007). Expanding Views about Formative Classroom

Assessment: A review of the Literature. En McMillan, 2007: 43-62.

CARLESS, D. (2005) Prospects for the implementation of assessment for learning.

Assessment in Education: Principles, Policy & Practice. Vol. 12 (1): 39–54.

CAMPBELL, R. J., KYRIAKIDES, L., MUIJS, R. D. y ROBINSON, W. (2004).

Assessing teacher effectiveness: A differentiated model. London, Routledge

Falmer. Ch. 4 Review of current research in teacher effectiveness, pp. 41-58

CENTRE FOR EDUCATIONAL RESEARCH AND INNOVATION (2005). Formative

assessment. Improving learning in secondary classrooms. Paris. OECD.

DARLING-HAMMOND, LINDA (1999). Teacher Quality and Student Achievement:

A Review of State Policy Evidence. Document R-99-1. Center for the Study

of Teaching and Policy. Seattle, University of Washington.

GREEN, SUSAN K., J. SMITH y E. K. BROWN (2007). Using Quick Writes as a

Classroom Assessment Tool: Prospects and Problems. Journal of

Educational Research & Policy Studies, Vol. 7 (2): 38-52.

169

HARLEN, W. (2007). Formative Classroom Assessment in Science and

Mathematics. En McMillan, 2007: 99-115.

HILL, H. C., B. ROWAN y D. L. BALL (2005). Effects of teachers’ mathematical

knowledge for teaching on student achievement. American Educational

Research Journal, Vol. 42 (2): 371-406.

JAMES, M. (2010). An Overview of Educational Assessment. En Peterson, Baker y

McGaw, 2010, Vol 3: 161-171.

KATZKOWICZ, R. (2010). Diversidad y Evaluación. En Anijovich, 2010: 114-122.

MARSH, COLIN J. (2007). A critical analysis of the use of formative assessment in

schools. Educational Research Policy & Practice, Vol. 6: 25–29.

MCMILLAN, JAMES H., ed. (2007). Formative Classroom Assessment: Theory into

Practice. New York. Teachers College Press.

MCMILLAN, JAMES H. (2003). Understanding and Improving Teachers’

Classroom Assessment Decision making: Implications for Theory and

Practice. Educational Measurement: Issues and Practice. Vol. 22 (4): 34-43.

OSBORN, M. Y M. RAVEAUD (2010). Classroom Assessment in Policy Context

(England and France). En Peterson, Baker y McGaw, 2010, Vol. 3: 425-431.

PETERSON, PENELOPE, E. BAKER y B. McGAW, eds. (2010). International

Encyclopedia of Education, 3rd Ed. Amsterdam, Elsevier-Academic Press.

POPHAM, W. JAMES (2009). Assessmetn Literacy for Teachers: Faddish or

Fundamental? Theory into Practice. Vol. 48: 4-11.

REEVES, DOUGLAS, ed. (2007). Ahead of the Curve. The Power of Assessment

to Transform Teaching and Learning. Bloomington, Solution Tree Press.

RESNICK, L. B., D. WILIAM, R. APODACA y E. S. RANGEL (2010). The


Teaching. En Peterson, Baker y McGaw, 2010, Vol. 3: 397-402.

170

RINDONE, DOUGLAS A. Y DUNCAN MCQUARRIE (2010). Strategies and

Policies for Incorporating Formative Assessment into Comprehensive and

Balanced State Assessment Systems. En Cizek y Andrade 2010: 316-327.

SADLER, D. ROYCE (1998). Formative Assessment: Revisiting the Territory.

Assessment in Education: Principles, Policy & Practice, Vol. 5 (1): 77-84.

SCATES, D. E. (1943). Difference between measurement criteria of pure scientists

and of classroom teachers. Journal of Educational Research. Vol. 37: 1-13.

SCHENEIDER, M. C. y RANDEL, B. (2010) Research on characteristics of

effective professional development programs for enhancing educators’ skills

in formative assessment. En Cizek y Andrade, 2010: 251-276.

SMITH, EMMA Y S. GORARD (2005). “They dont’t give us our marks”: the role of

formative feedback in student progress. Assesment in Education: principles,

policy & practice. Vol. 12 (1): 21-38.

STIGGINS, RICHARD J. (2008). Assessment Manifesto: A Call for the

Development of Balanced Assessment Systems. Portland. ETS-ATI.

STIGGINS, RICHARD J. (2007). Conquering the Formative Assessment Frontier.

En McMillan, 2007: 8-27.

STIGGINS, RICHARD J. (2001). Unfulfilled Promise of Classroom Assessment.

Educational Measurement: Issues & Practice. Vol. 20 (3): 5-15.

STIGGINS, RICHARD J. y N. F. CONKLIN (1992). In teachers’hands: Investigating

the practice of classroom assessment. Albany, SUNY Press.

STOBART, GORDON (2005). Lost in translation: moving from principles to policy

to practice formative assessment. Assessment in Education. Vol. 12 (1): 3-5.

SUTTON, R. (2010). Challenges of Developing and Implementing Formative

Assessment Practices in Schools. En Peterson, Baker y McGaw, 2010: Vol.

3, 353-358.

TIERNEY, ROBIN D. (2006). Changing practices: influences on classroom

assessment. Assessment in Education, Vol. 13 N° 3, pp. 239-264.

171

WAYNE, ANDREW J. y P. YOUNGS (2003). Teacher Characteristics and Student

Achievement Gains: A Review. Review of Educational Research. Vol. 73

(1): 89-122.

WILIAM, DYLAN (2007). Content Then Process: Teacher Learning Communities in

the Service of Formative Assessment, en Reeves, 2007: 183-204.


and accountability. 103rd Yearbook, Part 2. National Society for the Study of

Education. Chicago. University of Chicago Press.

WILSON, SUZANNE. (2004) Student assessment as an opportunity to learn in and

from one’s teaching practice. En Wilson, 2004: 264-271

173

CONCLUSIÓN GENERAL

175

A lo largo de la historia las sociedades han estado formadas por grupos que se

dedican a actividades diferentes y tienen acceso a satisfactores muy distintos en

cantidad y calidad. La estratificación o las clases sociales son omnipresentes. Los

sistemas educativos, en forma consistente con lo anterior, se han organizado con

base en el supuesto de que no todos los niños tienen la capacidad necesaria para

alcanzar niveles complejos de competencia en lectura y escritura, matemáticas,

ciencias y otras disciplinas que integran el currículo.

Hasta principios del siglo XX esto se reflejaba en la distinción entre enseñanza de

primeras letras, a la que todo niño debía acceder, y la media y superior reservadas

a una minoría. La expansión de los sistemas educativos ha consistido en un largo

proceso por el que el acceso a la educación media primero, y luego la superior, se

ha incrementado paulatinamente. Esta tendencia forma parte de una mayor que,

sin negar las diferencias individuales, postula que la gran mayoría de las personas

tienen capacidad suficiente para desarrollar las competencias intelectuales de

complejidad considerable que las modernas economías y las democracias

maduras esperan de cada trabajador y cada ciudadano.

Lo anterior ha traído consigo importantes consecuencias para los sistemas

educativos y, en particular, para las concepciones de la evaluación. Según Raquel

Katzkovicz, el educador francés Philippe Perrenoud sostiene que:

…hasta un período reciente la noción de igualdad de oportunidades no

significaba otra cosa que el hecho de que cada uno tuviera acceso a la

enseñanza, sin trabas geográficas o económicas, sin que se tuviera en

cuenta su sexo o su condición de origen. La escuela no se sentía

responsable de los aprendizajes; se limitaba a ofrecer a todos la ocasión de

aprender y ¡a cada uno le tocaba aprovecharla! Cuando Bloom, en los años

sesenta del siglo XX, propuso una pedagogía del dominio, señaló que, por

lo menos en el nivel de la escuela obligatoria, "todo el mundo puede

aprender", y esto a condición de que se organice la enseñanza de manera

de individualizar el contenido, el ritmo y las modalidades de aprendizaje en

función de objetivos definidos con claridad.

176

De pronto… la evaluación llegaba a ser el instrumento privilegiado para una

regulación continua de las intervenciones y las situaciones didácticas. En la

perspectiva de una pedagogía del dominio su papel ya no era el de fabricar

jerarquías, sino el de tener en cuenta las adquisiciones y los modos de

razonar de cada alumno en la medida necesaria como para ayudarlo a

progresar en el sentido de los objetivos. Contando con esta evaluación

formativa, el profesor podría desplazar la regulación de su acción en el aula,

no en función del grupo todo, sino en función de los aprendizajes de cada

alumno en particular. (Katzkowicz, 2010: 122)

Perrenoud sostiene que, para tener sentido pleno, es necesario que la evaluación

formativa se desarrolle en el marco de una estrategia pedagógica de lucha contra

el fracaso y las desigualdades, pero que este nuevo enfoque no siempre se lleva a

la práctica en forma coherente y con la necesaria continuidad, porque para ello es

necesario el marco de una pedagogía diferenciada basada en una política

perseverante de democratización de la enseñanza. (Katzkowicz, 2010: 122)

Otros promotores de la evaluación formativa depositan grandes esperanzas en

estos nuevos enfoques, de los que esperan efectos notables en cuanto a la mejora

del aprendizaje. Richard Stiggins, por ejemplo, se refiere a los cambios que la

evaluación formativa implica en cuanto al papel tanto de maestros como de

alumnos de la manera siguiente: en la evaluación del aprendizaje el papel del

maestro es el tradicional: hacer evaluaciones cuidadosas y emplear prácticas

correctas para calificar, pero en la evaluación para el aprendizaje su papel debe

incluir una secuencia que comienza con la confianza del docente en que domina

los estándares que deberán satisfacer sus alumnos; sigue con la desagregación

de cada estándar en metas parciales de aprendizaje que constituyan el andamiaje

que permita alcanzar el estándar; luego la formulación de una versión

comprensible para compartirla con los alumnos desde el primer momento del

proceso; en seguida la aplicación de evaluaciones de buena calidad que reflejen

las metas parciales; y por fin el uso de la evaluación junto con los alumnos para

monitorear su avance a lo largo del tiempo.

177

En cuanto a los alumnos, Stiggins dice que en la evaluación del aprendizaje su

papel es el de siempre: estudiar duro y tratar de obtener las mejores calificaciones;

en la evaluación para el aprendizaje, en cambio, su papel se vuelve tratar de

entender qué es exactamente un producto bien logrado, y utilizar la evaluación

para entender qué hay que hacer mejor en la siguiente oportunidad. Concluye que

lo anterior lleva a una redefinición fundamental de la relación entre la evaluación y

la motivación de los alumnos:

En lugar de basarse en la evaluación como fuente de información para

decidir quién merece premio o castigo, o sea para distinguir los ganadores

de los perdedores, la evaluación se usará como un mapa que dirija a los

alumnos al éxito, con señales a lo largo del camino tanto para los alumnos

como para sus maestros. El éxito en avanzar en el aprendizaje se vuelve

por sí mismo el premio, fomentando la confianza y la persistencia. Esto

cambia la dinámica emocional de la experiencia de evaluación en formas

inmensamente productivas para todos los alumnos, especialmente los que

aún no alcanzan los estándares. El chico se vuelve bueno para escribir no

para sacar una buena calificación, sino porque cree que puede hacerlo y es

precisamente esta creencia lo que lo motiva. (Stiggins, 2007: 71-72)

En el Capítulo 2 se comentó que las visiones más optimistas sobre los resultados

de la evaluación formativa parecen sustentadas en evidencia no muy consistente,

y que una perspectiva más crítica muestra que en muchas ocasiones la puesta en

práctica de estos nuevos enfoques no da los notables resultados que textos como

los de Richard Stiggins permitirían esperar. En el Capítulo 3 se reflexionó sobre

los muchos factores que inciden en las prácticas de los maestros, cuya compleja

interacción hace comprensible la dificultad de modificarlas.

El problema que enfrenta todo maestro es que, una vez que detecta lo que un

alumno ha logrado o no aprender, no por ello sabe cómo hacer que aprenda lo

que le falta. Es aquí donde radica la limitación fundamental de la evaluación,

formativa o sumativa: no basta detectar el problema para resolverlo.

178

En unos casos la solución no es difícil en sentido pedagógico, aunque sea muy

seria en el terreno práctico, por ejemplo si se trata de que el alumno no tuvo

oportunidad de aprender cierto contenido porque él mismo o el maestro estuvieron

ausentes, o porque el tema no fue cubierto o ni siquiera lo incluye el currículo.

En otros casos el problema es más difícil de resolver por razones pedagógicas:

cuando, pese a reiterados esfuerzos de maestro y alumno, este último no puede

alcanzar ciertas competencias cognitivas, en especial las más complejas. No se

trata de que recuerde ciertos datos, sino de que sea capaz de inferir, relacionar,

analizar, sintetizar, contrastar, concluir… Independientemente de que se deba a

factores personales, familiares o escolares, hay alumnos que, pese a los mayores

esfuerzos, no consiguen alcanzar los niveles de aprendizaje deseables.

Los resultados de los programas compensatorios de la década de 1960 mostraron

que para mejorar en forma duradera los resultados de los niños más pobres no

bastan apoyos especiales durante algunas horas a la semana y durante pocos

meses. Esfuerzos más recientes muestran también que apoyos que comiencen a

aplicarse desde edades tempranas, y se ofrezcan con intensidad suficiente y

durante períodos de tiempo amplios, dan mejores resultados.

La investigación muestra también que una enseñanza que se apegue realmente a

los principios de la pedagogía constructivista consigue resultados superiores a los

que se obtienen con las prácticas tradicionales. Los nuevos enfoques pedagógicos

implican un trabajo muy diferente al habitual por parte de los docentes, que deben

ser capaces de detectar los puntos débiles en los procesos cognitivos de cada

alumno, para deconstruir los preconceptos y otros obstáculos que se oponen a los

conocimientos más adecuados que el alumno debe construir.

Lo anterior permitirá evitar un error en el que se puede incurrir fácilmente en

relación con la evaluación formativa. Un componente de ésta es el que tiene que

ver con el impacto afectivo al que tanta importancia da Stiggins. Es indudable que

un impacto negativo puede ser demoledor para un estudiante, y que uno positivo

favorece la autoestima y la continuidad de los esfuerzos de los aprendices, pero

es necesario no sobredimensionar estos aspectos.

179

La confianza en sí mismo no siempre es suficiente para alcanzar ciertas metas, e

incluso puede ser engañosa y, a mediano plazo, decepcionante. La investigación

ofrece bases sólidas para sostener que la motivación y la autoestima no bastan

para producir desempeños sobresalientes.

Es el caso, sin duda, cuando se trata de alcanzar metas ambiciosas, en especial

en contextos de carácter competitivo, en los que finalmente sólo una persona, o un

equipo, pueden alcanzar el triunfo. Sin un muy buen entrenador, excelentes

jugadores, intensa preparación, e incluso algo de suerte, ningún equipo ganará

una copa del mundo, por mucha motivación que tengan sus integrantes. Tampoco

será suficiente el mejor esfuerzo (echarle muchas ganas, se diría coloquialmente)

para dominar los aspectos más complejos de cualquier disciplina. Por ello la

selección al ingreso de un programa de posgrado es razonable, ya que importa

verificar el dominio de ciertos prerrequisitos por parte de los aspirantes; por ello

también en estudios profesionales no son aceptables las prácticas de no

reprobación (social promotion) que en educación primaria tienen mucho sentido.

Pero en el terreno educativo y, sobre todo, en los niveles básicos, no hay razón

para trabajar con un enfoque competitivo similar al que prevalece en los deportes,

ya que el propósito no es identificar al alumno que supere a los demás, sino lograr

que todos alcancen al menos un nivel satisfactorio. Los objetivos de la educación

básica no tienen que ver con los niveles de complejidad más altos, sino que se

refieren a los conocimientos y habilidades que todo ciudadano debería manejar

para poder participar adecuada y fructíferamente en la sociedad en que vive.

No todo ciudadano tiene que dominar las sutilezas de la filología, pero todos

deberían tener competencias básicas en lectura y escritura. Al terminar secundaria

todo joven debería ser capaz, por ejemplo, de captar el contenido de un diario o

revista con suficiente comprensión para formarse un juicio propio sobre el asunto

de que se trate, y de redactar una página expresando en forma coherente algunas

ideas. También debería haberse aficionado a la lectura en un grado tal que,

además de lo indispensable por motivos laborales, le dedique una parte de su

tiempo libre simplemente por el gusto de hacerlo.

180

En forma similar, no todo ciudadano tiene que dominar temas avanzados de

matemáticas, ciencias naturales o ciencias sociales, pero todos deberían tener

competencias básicas en esas áreas. Al terminar secundaria los jóvenes no

necesitan dominar el álgebra superior o el cálculo infinitesimal, ni tampoco la

teoría de la relatividad o la bioquímica, ni tomar posición entre las disputas

teóricas de historiadores y sociólogos, pero todos debería ser capaces, por

ejemplo, de entender datos expresados en porcentajes o conceptos estadísticos

básicos; de comprender y disfrutar un texto de divulgación científica; de distinguir

la consistencia de un argumento científico de la charlatanería de los productores

de horóscopos o los que ven alienígenas por todas partes; y de comprender los

elementos básicos de un sistema democrático, las instituciones del estado y los

derechos humanos.

Para alcanzar esos niveles de competencia lectora, más allá de los enfoques que

adopten sus maestros, desde los primeros años de la primaria los chicos deberán

leer mucho, para que hacia el 3° o 4° grado logren hacer la transición de aprender

a leer a leer para aprender, y para ello es necesario que la enseñanza –y la

evaluación— no los lleven a perder la esperanza de alcanzar esas metas.

Algo similar debe decirse de las demás áreas curriculares; para ello los maestros

no necesitan conocimientos matemáticos y científicos avanzados, pero sí las

competencias necesarias para emplear modelos de enseñanza acordes con la

pedagogía constructivista. Además deberán utilizar evaluaciones formativas, para

que sus alumnos reciban una retroalimentación adecuada para seguir avanzando,

reafirmen la esperanza de que son capaces de aprender y adquieran el gusto por

conseguirlo en todas las áreas.

Una ciudadanía formada por egresados de secundaria con ese perfil estaría, sin

duda, mejor preparada que la actual para enfrentar los retos del mundo del

mañana, pero una educación básica con esas características prepararía mejor a

los jóvenes para acceder con buenas perspectivas de éxito a la educación media

superior, y luego a la superior.

181

Para que lo anterior pueda hacerse realidad, teniendo en cuenta el contexto actual

de la educación mexicana, y limitándonos a lo relativo a evaluación en el aula, es

necesaria una estrategia que integre varios elementos que, retomando lo dicho en

el Capítulo 3 y para terminar, pueden sintetizarse así:

Actividades de actualización para maestros en servicio que den una visión

adecuada de los enfoques de evaluación y la formación necesaria para

desarrollar las competencias propuestas por Brookhart, así como para

modificar las concepciones de los docentes.

Actividades de actualización para maestros en servicio en lo que se refiere

al conocimiento para la enseñanza de las áreas curriculares.

Acciones orientadas a la transformación de las prácticas de los maestros en

servicio, basadas en las actividades de actualización anteriores, pero de

mayor duración, en comunidades de aprendizaje y con acompañamiento de

asesores técnico-pedagógicos calificados.

Medidas de apoyo en el nivel de escuela y zona escolar que permitan la

puesta en práctica de las competencias adquiridas, por ejemplo adecuación

del tamaño de los grupos, aseguramiento de tiempo para los maestros, etc.

Medidas de apoyo en el nivel nacional y estatal que no obstaculicen la

puesta en práctica de las competencias adquiridas, en particular flexibilidad

curricular para que no se exija al maestro agotar los temas de un currículo

excesivamente cargado, y abandono de los usos desafortunados de las

evaluaciones en gran escala que van en sentido contrario a la concepción

educativa que supone la evaluación formativa.

Actividades de formación inicial para futuros maestros similares a las antes

descritas para los maestros en servicio.

182

Referencias

KATZKOWICZ, R. (2010). Diversidad y evaluación. En Anijovich, Rebeca, ed.

Evaluación significativa. Buenos Aires, Paidós, pp. 114-122

STIGGINS, RICHARD J. (2007), Assessment for Learning: An Essential

Foundation of Productive Instruction. En Reves, Douglas, ed. (2007). Ahead

of the Curve. The Power of Assessment to Transform Teaching and

Learning. Bloomington, Solution Tree Press, pp. 59-76.