Diseño y desarrollo de los exámenes para calidad y logro educativos

23
RMIE, ABRIL-JUNIO 2006, VOL. 11, NUM. 29, PP. 617-638 Investigacidn DISENO Y DESARROLLO DE LOS EXAMENES DE LA CALIDAD Y EL LOGRO EDUCATIVOS EDUARDO BACKHOFF / ANDRfS SANCHEZ / MARGARITA PEON / LUCiA MONROY / MARIA DE LOURDES TANAMACHI Resumen: Se describe la puesta en marcha de una nueva generacidn de pruebas nacionales que el Instituto Nacional para la Evaluacidn de la Educacidn (INEE) utiliza, en muestras de estudiantes con representatividad nacional y estatal, para evaluar la calidad del sistema educativo nacional con base en los aprendizajes logrados en educacidn basica y media superior. Se describen los propdsitos y principios de la evaluacidn del apren- dizaje que asume el INEE, asi como el marco de referencia de los Examenes de la Calidad y el Logro Educativos. Se definen las caracterfsticas de las pruebas naciona- les como: criteriales, alineadas al curr/culum nacional y con un diseno matricial. Se detalla el proceso para disefiar, construir, aplicar y validar estos examenes. Se conclu- ye discutiendo la necesidad de contar con instrumentos evaluativos de calidad para cumplir con las metas del INEE y asi ayudar a mejorar la educacidn en Mexico. Abstract: The article describes the initial use of a new generation of national tests by Mexico s institute of educational evaluation (Instituto Nacional para la Evalua- cidn de la Educacidn—INEE) among sample groups of students who are representative in national and state terms. The aim is to evaluate the quality of the national education system, based on achievement attained in elementary and junior high school. A description is given of the objectives and principles assumed by INEE in evaluating learning, as well as the framework of reference of examinations of educational achievement and quality. The characteristics of national tests are defined: criteria, alignment with the national curriculum and the design matrix. The process is detailed for designing, constructing, applying and validating these examinations. The conclusion discusses the need to have evaluative instruments of quality to comply with the goals of INEE and thus help to improve education in Mexico. Palabras clave: pruebas de aprovechamiento, calidad educativa, educacidn bdsica, M6cico. Key words: achievement test, educational quality, elementary education, Mexico. Los autores estdn adscritos a la Direcci6n de Pruebas y Medicidn del Instituto Nacional para la Evaluaci6n de la Educaci6n (INEE): Andres Sdnchez es subdirector de Pruebas de Matemdticas y Ciencias Naturales; Marga- rita Pe6n es subdirectora de Pruebas de Espanol y Ciencias Sociales; Lucia Monroy y Marta de Lourdes Tanamachi son jefas de proyecto. Eduardo BackhoFf es director de Pruebas y Medicidn del INEE. Jos^ Marfa Velasco num. 101, col. San Jos^ Insurgentes, del. Benito Judrez, CP 03900, Mexico, DF, CE: [email protected] Revista Mexicana de Investigacidn Educativa 517

Transcript of Diseño y desarrollo de los exámenes para calidad y logro educativos

RMIE, ABRIL-JUNIO 2006, VOL. 11, NUM. 29, PP. 617-638

Investigacidn

DISENO Y DESARROLLO DE LOS EXAMENESDE LA CALIDAD Y EL LOGRO EDUCATIVOSEDUARDO BACKHOFF / ANDRfS SANCHEZ / MARGARITA PEON /

LUCiA MONROY / M A R I A DE LOURDES TANAMACHI

Resumen:Se describe la puesta en marcha de una nueva generacidn de pruebas nacionales queel Instituto Nacional para la Evaluacidn de la Educacidn (INEE) utiliza, en muestrasde estudiantes con representatividad nacional y estatal, para evaluar la calidad delsistema educativo nacional con base en los aprendizajes logrados en educacidn basicay media superior. Se describen los propdsitos y principios de la evaluacidn del apren-dizaje que asume el INEE, asi como el marco de referencia de los Examenes de laCalidad y el Logro Educativos. Se definen las caracterfsticas de las pruebas naciona-les como: criteriales, alineadas al curr/culum nacional y con un diseno matricial. Sedetalla el proceso para disefiar, construir, aplicar y validar estos examenes. Se conclu-ye discutiendo la necesidad de contar con instrumentos evaluativos de calidad paracumplir con las metas del INEE y asi ayudar a mejorar la educacidn en Mexico.

Abstract:The article describes the initial use of a new generation of national tests byMexico s institute of educational evaluation (Instituto Nacional para la Evalua-cidn de la Educacidn—INEE) among sample groups of students who arerepresentative in national and state terms. The aim is to evaluate the quality ofthe national education system, based on achievement attained in elementaryand junior high school. A description is given of the objectives and principlesassumed by INEE in evaluating learning, as well as the framework of referenceof examinations of educational achievement and quality. The characteristics ofnational tests are defined: criteria, alignment with the national curriculum andthe design matrix. The process is detailed for designing, constructing, applyingand validating these examinations. The conclusion discusses the need to haveevaluative instruments of quality to comply with the goals of INEE and thushelp to improve education in Mexico.

Palabras clave: pruebas de aprovechamiento, calidad educativa, educacidn bdsica, M6cico.Key words: achievement test, educational quality, elementary education, Mexico.

Los autores estdn adscritos a la Direcci6n de Pruebas y Medicidn del Instituto Nacional para la Evaluaci6n dela Educaci6n (INEE): Andres Sdnchez es subdirector de Pruebas de Matemdticas y Ciencias Naturales; Marga-rita Pe6n es subdirectora de Pruebas de Espanol y Ciencias Sociales; Lucia Monroy y Marta de LourdesTanamachi son jefas de proyecto.Eduardo BackhoFf es director de Pruebas y Medicidn del INEE. Jos^ Marfa Velasco num. 101, col. San Jos^Insurgentes, del. Benito Judrez, CP 03900, Mexico, DF, CE: [email protected]

Revista Mexicana de Investigacidn Educativa 517

Backhoff et al.

H asta el ano 2002 la Direccion General de Evaluacidn (DGE) de la Secretariade Educacion Publica (SEP) fue la unica instancia gubernamental

en educacion basica responsable de evaluar al Sistema Educativo Nacio-nal (SEN). Para ello, desde su creacion, en la decada de los anos setenta,la DGE ha disefiado y operado un sinniimero de programas e instrumen-tos evaluativos con el fin de conocer los resultados educativos de las es-cuelas primarias y secundarias del pais (Velazquez, 2000; DGE, 2000).

Aunque no se hicieron publicos los resultados de estos programas nitodos tuvieron el impacto deseado, la DGE coadyuvo a poner en la mesade las decisiones politicas el tema de la evaluacion educativa como unavia indispensable para mejorar la calidad de la educacion nacional; pre-sencia que se vio reforzada, en gran medida, por el impacto de los resul-tados de aprendizaje de las evaluaciones internacionales, como es el casode PISA (por sus siglas en ingles, Programme for International StudentAssessment). Como una consecuencia de lo anterior, el Gobierno Federalen su Programa Nacional de Educacidn 2001-2006 (PRONAE) considerdla creacidn de mecanismos rigurosos y confiables de evaluacidn que ope-ren con independencia de las autoridades y permitan rendir cuentas a lasociedad (SEP, 2001).

El PRONAE establecid dos grandes metas: aj la creacidn del InstitutoNacional para la Evaluacidn de la Educacidn (INEE) y 4^ la redefinicidn delas funciones de la DGE. El primero se concibid como un organismo conindependencia y autonomia, cuyo objetivo primordial es conocer y expli-car la calidad del SEN en su conjunto, asi como dar a conocer los resulta-dos de sus evaluaciones a las autoridades educativas y a la sociedad engeneral. Por su parte, la DGE se redefinid como una instancia de la admi-nistracidn central, cuyo propdsito es realizar evaluaciones diagndsticas yformativas orientadas a retroalimentar la toma de decisiones sobre indivi-duos e instituciones (DGE, 2004).

Gon la idea de evaluar la calidad de la educacidn en Mexico, la DGEdesarrolld, desde hace mas de un lustro, lo que ahora se conoce como lasPruebas de Estandares Nacionales (PEN). Dichos instrumentos fueronutilizados en el periodo 1998-2003, con muestras representativas de es-colares de todo el pafs. Sin embargo, al crearse el INEE, estas pruebaspasaron a ser parte de su responsabilidad; funcidn que asumid de mane-ra parcial con el analisis de los resultados de la aplicacidn realizada-todavfa por la DGE- en junio de 2003. Dichos resultados fueron publi-

618 Consejo Mexicano de Investigacion Educativa

Diseno y desarrollo de los ExAmenes de la Calidad y el Logro Educativos

cados en su primer informe La calidad de la educacidn bdsica en Mexico

(INEE, 2003).Siguiendo el mismo esquema metodol6gico propuesto por la DGE en

cuanto a estructura y contenidos, el INEE elabor6 una nueva versi6n de lasPEN, que aplic6 en junio de 2004 con una muestra representativa de alum-nos de todo el pais, cuyos resultados se publicaron en su segundo informeanual La calidad de la educacidn bdsica en Mexico: resultados de evaluacidneducativa 2004 (INEE, 2004a).

Las PEN se disenaron con la idea de evaluar las habilidades cognitivasmas que los conocimientos. Para ello se desarroUaron varias pruebas decomprensi6n lectora y matematicas, dirigidas a estudiantes de primaria yde secundaria. En el primer caso las evaluaciones se construyeron por gra-do escolar (2°, 3°, 4°, 5° y 6°); para secundaria se realiz6 una sola pruebadirigida a estudiantes de los tres grados.

Desafortunadamente, el diseno y construccidn de las PEN adolecen dedeficiencias tecnicas importantes que hacen que no sea recomendable reali-zar comparaciones de los resultados en el tiempo; raz6n por la cual no esposible conocer las tendencias en los aprendizajes de los estudiantes. Enpublicaciones anteriores hemos senalado (Backhoff y Martfnez-Rizo, 2004y Backhoff, 2005) que entre estas deficiencias se encuentran las siguientes:a) las especificaciones de los contenidos no se encuentran bien definidas; i>)no se disenaron con una metodologia exprofeso para su equiparaci6n; c) losreactivos ancla no tuvieron la misma ubicaci6n en las distintas versiones delas pruebas y d) ninguna evaluacidn se piloted antes de su aplicacidn.

Por lo anterior, es imposible comparar en forma confiable los resulta-dos de dos aplicaciones, como lo han demandado varios sectores de lasociedad (Martinez-Rizo, 2004). A estas deficiencias se suma el hecho deque la documentacidn en donde se plasma el marco de referencia que sus-tenta las pruebas es escasa, por lo que no queda claro si se realizaron losprocesos mfnimos que validan estos instrumentos.

Adicionalmente, las PEN no se disenaron estrictamente con el propd-sito de evaluar los contenidos de los planes y programas de estudios na-cionales, razdn por la cual pueden decir poco acerca del dominio de loscontenidos curriculares que poseen los escolares y, con esto, se limita lainformacidn que se le puede dar a las autoridades educativas sobre ellogro de los propdsitos del curriculum mexicano (Backhoff y Martfnez-Rizo, 2004; Backhoff, 2005).

Revista Mexicana de Investigacion Educativa 619

Backhoff et al.

Estas limitaciones son importantes si se toma en cuenta que entre lospropositos del INEE, que se relacionan con la evaluacion del aprendizaje, seencuentran Ios siguientes: ^construir una vision general de lo que los estu-diantes aprenden como resultado de su escolarizacion formal, ^J conocerlos puntos fuertes y debiles del aprendizaje de los estudiantes en las asigna-turas de mayor importancia y o'permitir las comparaciones del rendimien-to escolar, asi como las tendencias de aprendizaje a lo largo del tiempo.

Tomando en cuenta las limitaciones de las PEN para lograr estos propo-sitos, el Consejo Tecnico del INEE opt6 por la elaboracion de un PlanGeneral de Evaluaci6n del Aprendizaje en el cual se considera la construc-cidn de una nueva generacidn de pruebas nacionales, los Examenes de laCalidad y el Logro Educativos (EXCALE), cuya preparacion se inici6 enfebrero de 2004 y su primera aplicacion a nivel nacional se programo parajunio de 2005 (INEE, 2004b).

A partir de lo anterior, los objetivos de este trabajo son: ^exponer lospropdsitos y principios del INEE en relacidn con la evaluacidn del aprendi-zaje; ^J descVibir el marco de referencia de los EXCALE; cJ describir enforma resumida el proceso de diseno, construccidn, aplicacidn y valida-cidn de estas pruebas; y a^ discutir la importancia de contar con instru-mentos robustos para evaluar la calidad de los servicios educativos que seofrecen en el pais.

Los procedimientos resenados en este articulo requeririan mucho masespacio para ser explicados y justificados detalladamente. Por ello, trasesta exposicidn general, se pretende hacer una serie de articulos posterio-res que den cuenta detallada de Ios principales aspectos conceptuales ymetodoldgicos.

Propositos y principios de la evaluacion del aprendizajeEn Mexico la cobertura educativa del nivel basico se ha ido resolviendogradualmente y, desde hace una decada, el interns se ha centrado en indagarque es lo que efectivamente aprende la poblacidn escolar y cuales son losaprendizajes bdsicos que forman parte del repertorio de los estudiantes.

La evaluacidn del aprendizaje que realiza el lnstituto Nacional para laEvaluacidn de la Educacidn tiene la intencidn de proporcionar al pafs unconocimiento general del rendimiento escolar que logran los estudiantesen las asignaturas bdsicas del curriculum nacional; mismas que se defi-nen como las propiamente instrumentales —espafiol y matematicas— y las

620 Consejo Mexicano de Investigaci6n Educativa

Diseno y desarrollo de los Examenes de la Calidad y el Logro Educativos

que cubren grandes dreas curriculares -ciencias naturales y sociales-, iden-tificando en cada grado evaluado' la solucidn mas iddnea de acuerdo conel curriculum del pais (INEE, 2004b).

Sin embargo, la evaluacidn del aprendizaje puede ser entendida de mu-chas maneras, dependiendo de los propdsitos para la que se utilice, losalcances que persigue, los objetos de la evaluacidn, los metodos que seempleen para realizarla asi como las posturas tedrico metodoldgicas en lascuales se fundamente. Con la idea de aclarar al lector los puntos de parti-da del INEE respecto de la evaluacidn del aprendizaje, a continuacidn sedefinen los propdsitos que persigue dicha valoracidn y los principios delos que parte.

Los principales propdsitos de la evaluacidn del aprendizaje del INEE son:

• Conocer el logro academico de los estudiantes a niveles estatal y nacio-nal, asi como los factores de contexto mas importantes que explican lasdiferencias de los sectores estudiados.

• Contribuir al conocimiento de los alcances y limitaciones del SistemaEducativo Nacional y, con ello, promover el nivel de la calidad de laeducacidn bdsica en nuestro pais.

• Emitir juicios de valor contextualizados que sirvan para apoyar una tomade decisiones documentada.

• Complementar los procesos evaiuativos existentes, desarroUados por otrasinstancias y programas nacionales e internacionales (como DGE y PISA).

• Aportar elementos para enriquecer la rendicidn de cuentas a que tienederecho la sociedad mexicana.

Asimismo, el INEE ha definido que la evaluacidn del aprendizaje de granescala que realice debe partir de los siguientes principios:

Ser considerada como una evaluacidn externa del SEN del pais.• Ser de alta calidad y apegarse a normas y prdcticas reconocidas

internacionalmente.• Proporcionar informacidn que d^ una imagen vdlida y confiable del

SEN en su conjunto.• Asegurar que las evaluaciones respeten el valor de equidad, en particu-

lar las relacionadas con las diferencias de genero, de capital socioculturaiy de grupos ^tnicos.

Revista Mexicana de Investigacion Educativa 621

Backhoff et al.

• Ser realizada de manera clara y transparente, con la participacidn

colegiada de maestros y especialistas.

• Estar legitimada academica y socialmente.

• Proporcionar elementos que ayuden a mejorar la calidad del sistema

educativo del pafs.

Marco de referencia de los EXCALELas bases documentales que soportan la nueva generacidn de pruebas na-cionales se apoyan en el conocimiento acumulado durante mas de 100anos de Ia psicometrfa, asi como en la experiencia de aproximadamente 45anos de la aplicacidn de evaluaciones internacionales del logro educativo.Los trabajos que mas influyeron en la elaboracidn de este marco de refe-rencia^ fueron los relacionados con: aJ los fundamentos de las teorfas Cla-sica de la medida y de la Respuesta al ftem, ^J la experiencia y los marcosde referencia de las pruebas nacionales de otros pafses para evaluar la calidadeducativa, especialmente los de Espana y Estados Unidos, y o'de las prue-bas internacionales de vanguardia, como el Programa Internacional deEvaluacidn de Estudiantes (OCDE, 2003) y el Tercer estudio internacionalde evaluacidn de ciencias y matematicas (Schmidt et ai., 1997).

El marco tedrico de los EXCALE esta definido basicamente por los princi-pios de las teorfas Clasica de la medida (Nunnally y Bernstein, 1994) y deRespuestas al ftem (Hambleton, 1993). Respecto de la primera se adoptan Iosprincipios para la construccidn y validacidn de pruebas criteriales alineadas alcurrfculum; sobre la segunda, los principios basicos para la calibracidn y elescalamiento de pruebas educativas. De manera especffica, la nueva genera-cidn de pruebas nacionales adopta los siguientes criterios tedricos-metodoldgicos:

1) ser de tipo criterial,

2) estar alineada al currfculum,

3) tener un disefio matricial de reactivos,

4) ser de respuesta seleccionada (aunque en algunos casos tambien se uti-liza la respuesta construida),

5) utilizar un escalamiento basado en la teorfa de Respuestas al ftem,6) definir niveles de logro para la interpretacidn de sus resultados, y

7) utilizar los parametros de las teorfa Clasica de la medida y de la Res-puestas al ftem para evaluar la calidad de los EXCALE y aportar eviden-cias de su validez.

622 Consejo Mexicano de Investigacidn Educativa

Disefto y desarroiio de los ExSmenes de la Calidad y el Logro Educativos

Los EXCALE son pruebas criteriaies porque se diseiian para conocer conprecisidn el grado de dominio que el estudiante tiene sobre un conjuntode contenidos especfficos. De tal modo, el referente para interpretar losresultados de los EXCALE es la cantidad y tipo de material que el estudian-te maneja del universo de contenidos evaluados, o constructo de la prueba(Popham, 1990). Estas pruebas nos ayudaran a evaluar la posesidn de co-nocimientos y habilidades escolares; a diferencia de las normativas que seutilizan con propdsitos de ordenamiento y seleccidn de individuos y don-de se pone menor enfasis en los contenidos especfficos que evaluan.

Por otro lado, los EXCALE son pruebas aiineadas aicurrt'cuium porquese elaboran con una metodologfa adijoc^-^rz. evaluar, con mucha preci-sidn, los contenidos curriculares (Uamense habilidades, conocimientos,competencias, etcetera) que se definen en los planes y programas de es-tudios nacionales (Contreras, 2000). Este alineamiento curricular im-plica, segiin Nitko (1994): identificar los resultados importantes pretendidospor el currfculum, asociar las acciones de evaluacidn con los contenidosesenciales, definir el dominio curricular completo sobre el que se desa-rroUara el examen y precisar los resultados del aprendizaje que se esta-biecen en el currfculum oficial. Mexico cuenta con un currfculum nacional,libros de textos gratuitos y una formacidn magisterial mas o menos uni-forme, condiciones iddneas para este tipo de pruebas; a diferencia deotros pafses (como Estados Unidos) que para evaluar la educacidn a ni-vel nacional tienen que darse a la enorme tarea de generar estandares decontenido y ejecucidn en cada disciplina a fin de alinear con ellos eldisefio de sus pruebas.

Son pruebas de tipo matriciai^or(\u.e estan disefiadas para evaluar unagran cantidad de contenidos curriculares, sin someter a los estudiantes alargas jornadas de resolucidn de pruebas. Para ello se requiere construirun conjunto de reactivos que cubran el dominio completo de los conteni-dos curriculares a evaluar, para despues dividirlo en subconjuntos y repar-tirlos entre los estudiante, de tal manera que cada alumno conteste sdloalgunos de ellos (Deng, Ferris y Hombo, 2003; Van der Linden, Veldkampy Carlson, 2004). Con el modelo matricial se limita el numero de reactivosque contesta cada estudiante (reduciendo con ello el tiempo de la evalua-cidn), a la vez que permite cubrir la totalidad de contenidos curricularesseleccionados entre todos los sustentantes. Como consecuencia de lo ante-rior, la calificacidn individual del estudiante pierde precisidn -en tanto

Revista Mexicana de Investigacion Educativa 623

Backhoff et al.

que su error de medida aumenta-; no asf los resultados agregados a nivelde entidad federativa, modalidad educativa y estrato social, los que son elcentro de interes del INEE (Gaviria, 2005).

Siendo los EXCALE pruebas de gran escala, sus reactivos son basicamen-te de respuesta seleccionada, con un diseno de opcidn multiple. Todos losreactivos de este tipo contienen cuatro posibles opciones de respuesta, delas que una es correcta; no se utilizan opciones parcialmente correctas. Sinembargo, tambien hay reactivos de respuesta abierta o construida, en laspruebas de espanol, para evaluar la expresidn de la lengua escrita.

La caliipracidn y el escalamiento de las puntuaciones de los EXCALE serealizan de acuerdo con los principios y presupuestos de la teoria de Res-puestas al Item (Hambleton, 1993), especfficamente utilizando el modelode un parametro, mejor conocido como modelo de Rasch (Wright, 1996;Linacre, 2005). Uno de los principios fundamentals de esta teorfa es la"unidimensionalidad" de las escalas; es decir, se debe de comprobar quelos reactivos de las pruebas corresponden a una sola dimensidn, de lo con-trario no es adecuado utilizar este modelo de escalamiento.

EI sistema de interpretacidn de los EXCALE es uno de los elementos basi-cos de su validez; por ello los resultados de estas pruebas nacionales se inter-pretan de acuerdo con los estandares o niveles de logro que se definen paradescribir lo que los alumnos saben o son capaces de hacer con sus aprendi-zajes. El establecimiento de dichos niveles se realiza con base en el metodode "Correspondencia de ftems", particularmente con el mas destacado deellos, conocido como "marcador" {hookmarii), descrito por Lewis, Mitzel,Green y Patz (1999). Como bien sefiald Jornet (2005), la utilidad de lainformacidn que producen estas pruebas depende de la forma en que se dena conocer los resultados de aprendizaje del Sistema Educativo Nacional, lacual debe de permitir que se establezcan pautas precisas para la mejora delmismo.

Einalmente, con base en Ios principios de las teorfa Clasica de la medi-da y de Respuesta al ftem, los EXCALE deberan ajustarse a rigurosos estdndaresde calidad., entre otros: a) la definicidn clara de su uso y cobertura, i?J eluso de procedimientos rigurosos para su diseno y construccidn, cj el usode procedimientos estandarizados para su administracidn, dj la clara in-terpretacidn de resultados, y ^ la exhibicidn de evidencias de validez yconfiabilidad. La validez A& los EXCALE se debe centrar, especialmente, enla premisa de que las puntuaciones de la prueba muestran que tanto los

624 Consejo Mexicano de Investigaci6n Educativa

Diseno y desarrollo de los Examenes de la Calidad y el Logro Educativos

estudiantes saben y pueden hacer respecto al curriculum nacional (Ruiz-Primo y Jornet, 2004).

Proceso de diseno, construccion,aplicacion y validacion de los EXCALE

Es importante mencionar que para poder disenar pruebas nacionales decalidad se requiere seguir los lineamientos y estandares rigurosos para ins-trumentos de evaluacion educativa (AERA, APA y NCME, 1999; Martinez ycols., 2000). Asimismo, es importante adoptar una metodologia robustaque haya probado su validez para los prop6sitos que se persiguen; este esel caso del modelo de construccidn de pruebas criteriales alineadas al cu-rriculum, donde un aspecto central es el trabajo colegiado de especialistasy docentes. Por lo anterior, el INEE adopt6 para los EXCALE este modelo(vease Nitko, 1994), adaptandolo a las necesidades nacionales.

Asi, el proceso qued6 definido en siete fases y 16 etapas bdsicas. Latabla 1 muestra el proceso de diseno, construccidn y validacion de las pruebasnacionales del INEE. En ella se pueden apreciar, con detalle, los procedi-mientos y productos que se esperan de cada etapa, asi como el personalexterno al INEE que participa en cada una de ellas. Es importante senalarque, por lo general, los productos de cada etapa sirven como insumos dela siguiente, por lo que en el proceso de generacidn de este tipo de pruebasse considera, en parte, el de su validacidn (Contreras, 2000; Contreras,Backhoff y Larrazolo, 2003).

Como se puede apreciar en esta tabla y en la figura 1, a lo largo detodo el proceso participan diversos especialistas, grupos de asesores, co-mites de expertos y el personal tecnico de la Direccidn de Pruebas y Me-dicidn. Asimismo, en cada etapa del proceso se utilizan diversosprocedimientos, entre los cuales destacan: 1) la documentacidn de pro-cesos similares de construccidn de pruebas de aprendizaje de gran escala,realizados por instituciones de reconocida calidad internacional; 2J lacapacitacidn dirigida a los cinco comites de especialistas y docentes queparticipan en el proceso; 3) la elaboracidn y preparacidn de materialespara el trabajo de los cinco comites; 4) el trabajo colegiado, donde setoman decisiones de mayor importancia (tipo de diseno matricial); y 5Jel trabajo individual por encargo, que requiere la experiencia y conoci-mientos de especialistas en un tema en particular (como diseno de lamuestra poblacional).

Revista Mexicana de Investigacibn Educativa 625

Backhoff et al.

TABLA 1

Proceso de diseno, construccidn, aplicacion y validacion de los EXCALE

Etapas Participantesexternos*

Procedimientos Productos

FASE I. PLANEACI6N GENERAL*"

1. Disefio delPlan Generalde Evaluaci6n

• Consejo tecnico• Asesores en

medici6n yvalidaci6n

1.2.3.4.

Documentaci6nSeminariosTrabajo colegiadoTrabajos por encargo

1

23

2. Disefio yelaboraci6n decuestionariosde contexto

3. Disefio y desarrollodel sistemainform^tico***

• Especialistasen disefio decuestionarios

• Especialistas enevaluacidn delaprendizaje

• Especialistas enbases de datos

Plan general de evaluacidn del aprendizaje,con el marco de referencia de los EXCALEManual general de procedimientosManual tfecnico para el disefio matricial

4. Manual tecnico para el escalamiento depuntuaciones y niveles de competencias

5. Marco te6rico de validaci6n de los EXCALE

6. Marco de referencia de los cuestionarios decontexto

7. Cuestionarios de contexto del alumno,docente y director

8. Sistema de bases de datos de reactivos9. Documento que describe la estructura y

funcionamiento de la base de datos

FASE 11. ESTRUCTURACI6N DE LOS EXCALE

4. Disefio de las -Comitfe 1. Documentaci6npruebas acadcmicos 2. Capacitaci6n

(1 por prueba) 3. Preparaci6n demateriales

4. Trabajo colegiado

5.Especificaci6nde reactivos

• ComitCs elabora-doresde especifica-ciones de reactivos(1 por prueba)

FASE IN. CONSTRUCCI6N DE REACTIVOS DE LOS EXCALE

6. Elaboracidn de • Comites construe- 1. Documentacidnreactivos tores de reactivos 2. Capacitacidn

(1 por prueba) 3. Trabajo individualy colegiado

7. Validacidn dereactivos

8. Piloteo dereactivos y cues-tionarios decontexto

• Comites de vali-dacidn y sesgo(1 por prueba)

• Algunas coordi-naciones estata-les de evaluacidn

1. Muestreo para elpiloteo

2. Prediccidn dereactivos e impre-

10. Manual tecnico para el disefio de pruebasnacionales

11. Retfcula curricular de cada prueba12. Tabla de contenidos de cada prueba

13. Manual tCcnico para la elaboracidn deespecificaciones

14. Especificaciones de reactivos de cada prueba15. Dos revisiones por especificaci6n de

reactivos

16. Manual tecnico para la construccidn dereactivos

17. Tres reactivos por especificacidn18. Dos revisiones por reactivo construido

19. Manual tScnico para la validacidn dereactivos

20. Dos reportes de validacidn por cada reactivo

21. Manual tecnico para el piloteo de reactivos22. Muestra poblacional23. Manual tecnico para la edicidn de reactivos24. Cuadernillos de prueba y cuestionarios de

sidn de cuadernillos contexto impresos3. Capacitacidn 25. Base de datos con resultados de pilotaje

626 Consejo Mexicano de Investigacidn Educativa

Disefio y desarrollo de los Examenes de la Calidad y el Logro Educativos

Etapas Participantes Procedimientosexternos*

Productos

FASE IV. CONFORMACI6N DE LOS EXCALE

9. Seleccidn dereactivos eintegracidn debloques y formas

10. Edicidn, armadoe impresidn

• Asesores enmedicidn

• Imprentacontratada

1. Documentacidn 26. Manual tecnico para el ari^lisis2. Analisis de reactivos psicom^trico de reactivos

27. Informe de estimadores estadfst. de react.28. Bloques de reactivos29. Estructura de formas (combinacidn de bloques)

1. Edicidn de cuader-nillos y cuestiona-rios de contexto

2. Impresidn de cuader-nillos de lectura dptica

30. Manual tecnico para la edicidn de reactivosy cuadernillos

31. Cuestionarios de contextd impresos32. Cuadernillos de los EXCALE impresos

FASE V. APLICACI6N DE LOS EXCALE

11. Muestreo . Especialistas en 1. Documentacidn 33. Manual tCcnico para seleccionar muestraspoblacional muestreo 2. Trabajo colegiado poblacionales

3. Trabajo por contrato 34. Marco muestral actualizado35. Disefio y muestra poblacional

12. Administracidn de • Todas las coordi- 1. Documentacidn 36. Manual tCcnico para la administracidn decuadernillos y cuestionarios de contexto

37. Paquetes de cuadernillos distribuidos enlas entidades federativas

38. Base de datos con resultados de la evalua-cidn capturados

las pruebas y naciones estata- 2. Distribucidn decaptura de resul- les de evaluacidn cuadernillos en lastados • Personal entidades

contratado

FASE VI. ANALISIS E INTERPRETACI6N DE RESULTADOS DE LOS EXCALE

13. Analisis iniciales • Asesores en 1. Seminarios 39. Manual tecnico sobre analisis de reactivosde resultados medicidn 2. Analisis estadisticos 40. Informe tecnico sobre comportamiento

de resultados psicomStrico de reactivos

14. Establecimiento . Comit6s de 1. Documentacidnde niveles de niveles de logro 2. Capacitacidnlogro (dos por prueba) 3. Trabajo colegiado

15. Elaboracidn deinforme tecnicode resultados deaprendizaje

• Asesores enmedicidn yvalidacidn

1. Documentacidn2. Capacitacidn3. Trabajo colegiado

41. Manual tecnico sobre establecimiento deniveles de logro

42. Documento donde se consignen los nivelesde logro y puntos de corte de cada prueba

43. Manual tecnico sobre informe de resulta-dos de aprendizaje

44. Informe tecnico sobre resultados de apren-dizaje asociados con variables de contexto

FASE VII. VALIDACI6N DE LOS EXCALE

16. Estudios de • Asesores en 1. Documentacidnvalidez de proce- validacidn 2. InvestigacidnSOS y resultadosde las pruebas

45. Marco de referencia de los estudios devalidez

46. Marco de referencia de cada prueba47. Reportes t^cnicos de estudios de validez48. Publicaciones sobre la validez de las pruebas

* Personal de la Direccidn de Pruebas y Medicidn interviene en todas las etapas del prdceso.' * Fase general para la nueva generacidn de las pruebas EXCALE.** A partir de la etapa 4 el sistema informStico se ir^ alimentando con la informacidn que se produzca a

lo largo de todo el proceso.

Revista Mexicana de Investigacibn Educativa 627

Backhoff et a/.

FIGURA 1. Diagrama del proceso de diseno y desarrollo de las prueblas EXCALE

-Asesores; aportan ideas-INEE/Direcciones preparan plan-Consejo T6cnico: revJsa complementa y aprueba el plan

-Especialistas: elaboran propuestas-INEE/Direcciones, subdirecdones: rwisan y complementan propuestas-INEE/Personal t6cnico apoya: elabora o adopta cuestionarios

-INEE/5ubdirecciones: determinan caracteristicas de base de datos-Especialistas en bases de datos: disertan el sistema-INEE/Personal tecnico: apoya

-INEE/Personal directivo: capacita comites-Comites: diseftan pruebas•INEE/Personal tecnico: apoya

-INEE/Personal directivo: capacita comites: elaboran especificaciones de reactivos

-Especialistas: revisan especificaciones-INEE/Personal tecnico: apoya

-ifJEE/Personal directivo: capacita c-Comites: construyen reactivos-Especialistas: revisan reactivos-INEE/Personal tecnico: apoya

Custionarios decontexto del alumno,docente y director

(Sistema de informaci6n(base de datos dereactivos)

Tablas de contenidosde los EXCALEs

Carpeta con lasespecificaciones dereactivos de los EXCALEs

[Carpeta contres reactivos porespecificacibn

-INEE/Personal directivo: capacita comites-Comites: validan contenidos y ausencia de sesgo-INEE/Personal tecnico: apoya

-INEE/Coordinaci6n Pruebas: corrige reactivos-INEE/Subdirecci6n PE: define muestra-Imprenta contratada: Imprime cuadernillos-INEE/Personal tecnico: capacita a coordinadores-Algunas coords, estatales de eval. aplican piloteos de reactivos

•INEE/Subdirecci6n PE: analiza resultados de piloteo•INEE/Subdtrecciones de Pruebas: seleccionan reactivosINEE/Subdirecci6n PE: conforma bloques de reactivos

•INEE/Depto. de Edicibn: arma pruebas•Imprenta contratada: imprlme cuadernillos•INEE/Depto. de Edici6n: supervisa

-Especialistas de muestreo: elaboran propuesta-INEE/Subdirecci6n PE: revisa y aprueba propuesta

Diseflo de muestrapoblacionalpor grado escolar

-Todas las coords, estatales de evaluacidn coordinan aplicacidn-Personal contratado; aplica pruebas-INEE/Direcci6n RN: captura resultados

-INEE/Subdirecci6n PE: analiza resultados y elabora reportest6cnicos y psicom6tricos de reactivos

-INEE/Persona! directivo: capacita comit6s-ComitSs: establecen niveles de competencia-INEE/Personal tecnico: apoya

-Asesores: proponen sobre tipos de analisis a realizar-INEE/Subdirecd6n PE: analiza resultado y elabora informe t ^n i co-INEE/Subdireccibn de pruebas: revisa y enriquece informe-INEE/Direcci6n PM: interpreta resultados y estructura informe

-Asesores de validaci6n: proponen estudios-INEE/Investigadores: realizan estuidos

Carpeta con reactivosvalidados,por corregir y eliminados

Base de datos conresultados de pilotaje

I Reactivos seleccionadoslen bloques para

conformar los EXCALEs

\ Base de datos con losresultados de capturados

Reporte decomportamientopsicom6trico de reactivos

[Establecimiento deniveles de competenciay puntos de corte

Informe tecnico deresultadosde aprendizaje

Reportes t^cnicos deestudios de validezde los EXCALES

628 Consejo Mexicano de Investigacidn Educativa

Disefio y desarrollo de los Examenes de la Calidad y el Logro Educativos

A continuacion se describen brevemente cada una de las siete fases y 16etapas del proceso de diseno, construcci6n, aplicacion y validacidn de estanueva generacidn de pruebas.

Fase I: Plan generalLa primera fase del proceso tiene el proposito principal de establecer unplan de pruebas a largo plazo, por lo que resulta de particular importanciala participacidn del Consejo Tecnico y de los asesores externos en medi-cidn y validacidn; encargados de definir los propdsitos, principios y refe-rentes conceptuales de los que dependeran las fases restantes del proceso.Esta fase consta de tres etapas:

En la primera se disena el Plan general de evaluacidn del aprendizaje,donde se plasman: el marco de referencia de los EXCALE; el proceso dedisefio, construccidn, aplicacidn y validacidn de pruebas; el diseno matricial;y el modelo de niveles de logro. Asimismo, se elabora el marco de tedricodel aprendizaje escolar y el programa para validar las interpretaciones delas nuevas pruebas nacionales (INEE, 2004b).

En la segunda etapa se disenan y elaboran los cuestionarios de contexto-dirigidos a estudiantes, docentes y directores de escuela- que se aplicaran jun-to con las pruebas para explicar los resultados de aprendizaje que se obtengan.

Finalmente, en la tercera etapa, se disefia y desarrolla un sistema auto-matizado de informacidn para alojar, mantener y manejar la base de datos(estructura curricular de la asignatura, tabla de contenidos de la prueba,especificaciones y plantillas de reactivos, resultados de la validez, parametrosdel piloteo de reactivos, entre otros) relativa a las distintas pruebas que sevayan generando.

Fase II: Estructuracion de los EXCALEA partir de esta segunda fase todas las etapas del proceso son especificaspara cada prueba. Esta fase tiene el propdsito de disenar y justificar laestructura del examen y, por otra parte, elaborar las especificaciones detodos los reactivos que conformardn la prueba. En ella participan especia-listas en curriculum, en la ensefianza de la disciplina, autores de libros detexto, representantes de asociaciones, asf como docentes en ejercicio per-tenecientes a los distintos estratos y modalidades educativos.

En esta fase se establecen la cuarta y quinta etapas del proceso. En lacuarta etapa el Comit^ academico de cada prueba, formado por aproxi-

Revista Mexicana de Investigacidn Educativa 629

Backhoff eta/.

madamente una decena de especialistas, realiza un analisis curricular ex-haustivo de la asignatura y grado correspondientes, a fin de generar unaretfcula (tabla de doble entrada) de la asignatura donde se explicite laestructura curricular y los contenidos que son esenciales y muy impor-tantes de evaluar. A partir de la retfcula, se elabora la tabla de conteni-dos de la prueba y la justificaci6n de los contenidos curriculares que laconforman. En esta tabla se explicitan las dreas temdticas o componen-tes, Ios temas y subtemas que derivan en los contenidos curriculares yhabilidades intelectuales a evaluar, asf como la forma y numero de reactivoscon que seran evaluados.

En la quinta etapa, el Comit^ elaborador de especificaciones de reactivosde cada prueba, formado por una decena de especialistas y docentes, defi-ne y describe en forma detallada las caracterfsticas que debe tener cadareactivo. Es decir, se precisa el contenido a evaluar, su ubicaci6n en elcurrfculum, su importancia, la habilidad intelectual requerida al alumnoy el formato del reactivo mismo (caracterfsticas de forma, fondo, redac-ci6n, etcetera), de tal manera que esta descripcidn sirva como gufa o mol-de para que se construyan reactivos similares y, hasta donde sea posible,equivalentes. El numero de especificaciones para cada prueba es variable,pues depende de la extensidn curricular de la asignatura.

Fase III: Construccion de reactivos de los EXCALELa tercera fase del proceso corresponde a la elaboracion de los reactivos,su validaci6n y piloteo. Su prop6sito es producir reactivos de alta calidadpara la conformacidn de la prueba. Dentro de esta fase se ubican la sexta,s^ptima y octava etapas del proceso.

En la sexta etapa, miembros del Comit^ constructor de reactivos decada prueba, constituido aproximadamente por una decena de autoresde libros de texto y docentes en ejercicio formulan, de manera indepen-diente, tres reactivos para cada especificacidn, que seran revisados porotros especialistas segun el manual de revisidn de reactivos, haciendoEnfasis principalmente en la congruencia reactivo-especificacion. El procesose repite hasta que los reactivos quedan terminados a satisfaccidn de losrevisores.

Los reactivos resultantes se pre-editan, se alojan en el sistema informdtico,y pasan al Comit^ de validez y sesgo con el cual se inicia la s^ptima etapadel proceso. Cabe resaltar que dicho Comite esti constituido por docentes

630 Consejo Mexicano de Investigacidn Educativa

Diseno y desarrollo de los ExSmenes de la Calidad y el Logro Educativos

en ejercicio de las 32 entidades federativas del pafs y representantes delos diversos estratos y modalidades educativos. Este Comitd revisa cadareactivo en relacidn con su contenido (pertinencia curricular, grado dedificultad), redaccidn (Ienguaje utilizado, construccidn sintactica) y sesgoscultural y de genero (caracterfsticas de contenido y redaccidn que favo-rezcan o perjudiquen a algun grupo social). Cada reactivo es revisadoindependientemente por dos profesores y, en caso de discrepancia, porun grupo de ocho docentes quienes deben llegar a consenso. En su caso,se proponen recomendaciones para mejorar los reactivos o se justifica sueliminacidn.

En la octava etapa se realiza un estudio piloto con una muestra inten-cional de aproximadamente cinco mil estudiantes por prueba, con el finde conocer el comportamiento psicometrico de los reactivos y detectar losproblemas que enfrentan los alumnos al responderlos.^ Este estudio pilotoensaya las condiciones reales de aplicacidn, mismas que incluyen la capa-citacidn a coordinadores y responsables de evaluacidn, la aplicacidn deencuestas a alumnos, docentes y directores, asf como la logfstica completade los estudios evaiuativos. Esta etapa culmina con la lectura de las res-puestas de los estudiantes y la conformacidn de una base de datos con losresultados obtenidos.

Fase IV: Conformacion de los EXCALEEl propdsito de esta fase es editar los cuadernillos de cada una de laspruebas nacionales con la informacidn recabada en las dos etapas anterio-res; se seleccionan los reactivos que conformaran las pruebas nacionales,se agrupan en bloques y se definen las diversas formas de cada una de laspruebas.

Para llevar a cabo dicha seleccidn se efectiia un analisis del comporta-miento psicometrico de los reactivos (en diversos grupos de estudiantes) yse consideran las observaciones efectuadas por los docentes en cuanto a suvalidez de contenido y ausencia de sesgo. Este analisis se realiza consideran-do los estandares de las pruebas criteriales, es decir, ddndole mayor prefe-rencia al aspecto de contenido que al comportamiento psicometrico.

En la decima etapa, se forman distintos bloques de reactivos y con ellosdiversas formas. Los bloques se conforman con una pequefia cantidad dereactivos que, en conjunto, puedan ser contestados en 15 minutos y quecomparten ciertas caracterfsticas que los hagan equivalentes en cuanto a

Revista Mexicana de Investigacion Educativa 631

Backhoff et al.

SU contenido, nivel de dificultad y varianza, asf como en su extensidn.Una vez conformados los bloques de reactivos, estos se combinan con elfin de armar distintas formas, de tal manera que todos los bloques se en-cuentren, hasta donde sea posible, en igual proporcidn y distribucidn. Elnumero de formas puede variar de una prueba a otra. Finalmente, a cadaforma se le agrega el cuestionario de contexto del alumno para mandar aimpresidn Ios cuadernillos resultantes y con ello concluir esta fase.

Fase V: Aplicacion de los EXCALE

La quinta fase del proceso tiene como propdsito principal administrar laspruebas considerando una muestra nacional de estudiantes, asf como loscuestionarios de contexto que seran aplicados a alumnos, docentes y di-rectores. Asimismo se desarrolla la captura de los resultados en una basede datos para su posterior analisis.

Durante esta fase se disena la muestra poblacional de alumnos de con-formidad con los estudios evaiuativos que se planeen realizar; se capacitaal personal encargado de la coordinacidn de la aplicacidn en las entidadesfederativas; se distribuyen los cuadernillos y, finalmente, se aplican laspruebas nacionales a las muestras poblacionales seleccionadas.

El disefio de estas muestras se realiza en la etapa d^cimo primera; ac-cidn que implica la seleccidn de escuelas y estudiantes de las 32 entidadesfederativas del pafs. El disefio depende de muchos factores, entre los quese encuentran: el marco muestral disponible, los propdsitos del(los) estudio(s)a realizarse, la representatividad de las subpoblaciones que se deseen eva-luar (rurales, urbanas, privadas, etcetera), el grado de confianza de la muestra,y el tipo de disefio matricial de las pruebas. Una vez que se disefia la mues-tra aleatoriamente, ^sta se valida con la informacidn que proporcionan lasescuelas seleccionadas.

En la decimo segunda etapa se realiza el proceso de capacitacidn a loscoordinadores y responsables de la aplicacidn (cerca de 5000), se distribu-yen los cuadernillos a las 32 entidades federativas, se administran las pruebasa Ios estudiantes seleccionados, se aplican los cuestionarios de contexto adocentes y directores de escuelas de los dos niveles educativos y, por ulti-mo, se leen y se capturan los resultados de las pruebas y cuestionarios enuna base de datos. Es pertinente hacer notar que, debido al arreglo matricialde la aplicacidn, la base de datos resultante tiene particularidades que cau-san que algunos analisis estadfsticos tengan que realizarse de manera dis-

632 Consejo Mexicano de Investigacidn Educativa

Disefio y desarrollo de los Examenes de la Calidad y el Logro Educativos

tinta a la usual, y que otros tengan que sustituirse por analisis ad hoc ^este tipo de pruebas.

Para el caso de los reactivos de respuesta abierta donde sdlo se utilizauna muestra nacional sin representatividad estatal, como es el caso de laseccidn de redaccidn de la prueba de espafiol, un par de jueces calificanconjuntamente cada reactivo con base en una rubrica o protocolo de cali-ficacidn para que, posteriormente, se agreguen los resultados a la base dedatos correspondiente. Esta etapa del proceso es muy delicada, pues enella se presentan una diversidad de problemas que facilmente podrfan in-validar los resultados de las evaluaciones. Entre otras acciones para forta-lecer el procedimiento, se lleva a cabo un periodo de estandarizacidn decriterio de los jueces, y se hacen estudios de confiabilidad entre ellos.

Fase VI: Analisis e interpretacion de resultados de los EXCALE

Esta fase consta de tres etapas y tiene como propdsito final la elaboracidnde los informes tecnicos sobre los resultados de las pruebas y los cuestio-narios de contexto; elementos que seran el sustento de los reportes anualesrelacionados con el aprendizaje que publique el INEE. Para lograr esta meta,es necesario realizar un analisis inicial de los resultados con el fin de esta-blecer los niveles de logro de los estudiantes e incluirlos en los reportest^cnicos correspondientes.

Asf, en la etapa decimo tercera, se realizan los primeros analisis estadfs-ticos, tanto de estudiantes como de reactivos, poniendo especial enfasis enel comportamiento psicometrico de estos ultimos.

En la etapa decimo cuarta, el Comite de establecimiento de niveles delogro de cada prueba, compuesto por autoridades educativas, especialistasen currfculum, autores de libros de texto y docentes en ejercicio, define lascategorfas y niveles de logro de los estudiantes de acuerdo con: /^la ejecu-cidn que en "teorfa" se esperarfa de ellos y, 2) los resultados reales en laprueba respectiva. Con esta informacidn se definen los puntos de corte decada nivel de logro, es decir, las puntuaciones mfnima y maxima que, en laescala de puntuaciones, corresponden a cada nivel.

Finalmente, en la etapa decimo quinta, se elaboran los informes tecni-cos sobre los resultados de aprendizaje de los estudiantes evaluados, consi-derando para ello las variables de contexto y de oportunidades de aprendizajeaportadas en los cuestionarios de contexto aplicados a alumnos, docentesy directores.

Revista Mexicana de Investigacion Educativa 633

Backhoff et al.

De especial interes para el INEE es conocer el logro del aprendizaje enlas distintas subpoblaciones muestreadas (entidades federativas y estratosy modalidades educativos), asi como los contenidos que los estudiantesdominan del curriculum nacional. No esta por demas subrayar que la in-formacion generada en esta etapa nutre significativamente la publicaci6nanual del INEE: Za calidad de la educacidn en Mexico.

Fase VII: Validacion de los EXCALEPor ultimo, esta fase consta de una sola etapa y tiene como meta aportarinformacion diversa sobre la validez de las pruebas y de las interpretacio-nes que se deriven de su uso.

Aunque para fines practicos la etapa decimo sexta se ubica al final delproceso de construccion de las pruebas, en realidad inicia desde el mo-mento en que termina el diseno (cuarta etapa). Podemos ver dos momen-tos de los estudios de validez de los EXCALE: a) durante el proceso mismode su construccion y y* posterior a su terminacion.

En el primer caso los estudios van dirigidos a evaluar la calidad y con-gruencia de cada una de las etapas del proceso, y tiene como finalidadverificar el proceso mismo, asi como generar informacion tendiente a co-rregir los problemas detectados mientras se construye la prueba.

En el segundo caso los estudios tienen el propdsito de aportar eviden-cias de la veracidad y limitaciones de las interpretaciones que se generencomo resultado del uso de una prueba. Su finalidad es doble: por un lado,legitimar academicamente las evaluaciones generadas por el INEE y, por elotro, iniciar un proceso de mejora de las pruebas con base en la informa-cion y documentacion de estos estudios. EI proceso de validacion de unaprueba nunca termina; solo se van acumulando evidencias de la veracidado falsedad de sus interpretaciones.

Conclusiones

Queda claro que para el INEE el objetivo fundamental de la evaluacion delaprendizaje es conocer el rendimiento academico de los estudiantes a ni-veles estatal y nacional, asi como las oportunidades de aprendizaje y losfactores de contexto que lo explican. Lo anterior, con el fin de emitir jui-cios de valor que apoyen la toma de decisiones documentada y contribuira realizar una rendicion de cuentas a la sociedad mexicana sobre el estadoque guarda la educacidn nacional (Poder Ejecutivo, 2002).

634 Consejo Mexicano de Investigacidn Educativa

Diseno y desarrollo de los ExSmenes de la Calidad y el Logro Educativos

Asimismo, se espera que los resultados de las evaluaciones que realice elINEE impactaran los siguientes ambitos educativos: politicas nacionales yestatales, curriculum nacional, programas de estudio y libros de texto, ad-ministracion y gestidn escolares, formacidn y actualizacion docentes, yopini6n de la sociedad (INEE, 2004b). Para lograr este impacto el INEEdebe contar, por un lado, con instrumentos y procedimientos evaluativosque sean tedrica y metodoldgicamente sdlidos; y, por el otro, que los re-sultados de sus evaluaciones que se hagan publicos sean validos y confiables,de tal manera que tanto docentes como autoridades educativas puedantomar decisiones documentadas para la mejora de la educacion al igualque tanto acad^micos como la sociedad misma puedan ejercer presion alas autoridades correspondientes para que las medidas de mejora educa-tiva se tomen de manera informada.

Es importante subrayar dos caracteristicas de la metodologfa emplea-da para disefiar, construir, aplicar y validar los EXCALE: y* el trabajo co-legiado, donde intervienen una gran cantidad de especialistas y docentesen ejercicio, y i?) la documentacidn que se genera a lo largo de todo delproceso, que deja evidencia de su validez. En cuanto al trabajo colegia-do, hay que destacar la participacidn de cinco comit^s, cada uno confor-mado aproximadamente por diez personas; la asesorfa de dos grupos deexpertos, integrado cada uno por tres especialistas; el trabajo por encar-go de alrededor de cinco profesionales, y el trabajo especializado de cer-ca de 25 tecnicos de la Direccidn de Pruebas y Medicidn. Es decir, parael disefio, construccidn y validacidn de cada EXCALE se requiere de casiun centenar de especialistas y docentes. Esto sin considerar las aproxi-madamente 900 personas que interviene en el estudio piloto y las cercade cinco mil que lo hacen en la aplicacidn nacional.

Sobre la documentacidn que se genera con esta metodologfa, debe-mos destacar tres aspectos. Primero, en su gran mayorfa, los productosse van elaborando en forma secuenciada y cada uno de ellos sirve deinsumo para el siguiente paso. Segundo, los productos generados en cadaetapa son revisados y analizados por el siguiente comite, y aunque ^steno puede modificar lo hecho por el grupo anterior, sf debe sefialar y, ensu caso, justificar las observaciones que se hagan al respecto, de tal ma-nera que se tenga evidencia de los problemas que se deben resolver en elfuturo para mejorar el instrumento. Tercero, la documentacidn que seproduce al final del proceso es abundante y rica en informacidn; cerca de

Revista Mexicana de Investigacidn Educativa 635

Backhoff et al.

48 productos se elaboran para cada prueba, de Ios cuales aproximada-mente la mitad son comunes a todas ellas (como los manuales tecnicos)y la mitad restante son especfficos de cada examen (como las tablas decontenidos).

Con esta metodologfa creemos que es posible alcanzar dos de las gran-des metas que se trazd el INEE respecto de la evaluacidn del aprendizaje:

1) Conocer el logro academico de los estudiantes a niveles estatal y na-cional, asf como los factores de contexto mas importantes que lo de-terminan.

2) Contribuir a conocer los alcances y limitaciones del Sistema Educati-vo Nacional y, con ello, el nivel de la calidad de la educacidn basica ennuestro pafs.

Estas metas se pueden lograr gracias a las bondades del modelo de losexamenes alineados al curriculum, fise es el caso de los EXCALE, donde elcurrfculum es la base sobre la que se construye el examen, y las decisionessobre que evaluar y cdmo hacerlo estan determinadas por los resultados deaprendizaje que se establecen en dicho currfculum. El punto nodal de estemodelo es poder garantizar que el conjunto de reactivos que UamamosEXCALE representa al universo de contenido que Uamamos currfculum nacional;desde luego, la clave para garantizarlo es el juicio humano, el cual estapresente a lo largo de todo el proceso de disefio y validacidn de estos exa-menes, tal como lo propone Nitko (1994).

Para finalizar debemos decir que este documento, que explica de mane-ra general el modelo de la nueva generacidn de pruebas, representa unprimer paso para dar a conocer al publico los aspectos mas relevantes de lametodologfa empleada. Sin embargo, este texto se debera tomar con lasreservas necesarias pues, con toda seguridad, el modelo de evaluacidn aqufexpuesto se ira modificando y fortaleciendo conforme se vaya recibiendoinformacidn de los resultados de su operacidn.

El INEE, siendo coherente con sus principios, tiene el compromiso deinformar a la sociedad de sus metodos y resultados, razdn por la cual sepublica este escrito. Lo anterior toma una gran relevancia si consideramosque la evaluacidn debe ser un proceso documentado y abierto; y no comoen el pasado que las evaluaciones nacionales fueron consideradas "cajasnegras" a las cuales muy pocas personas tuvieron acceso.

636 Consejo Mexicano de Investigacidn Educativa

Diseno y desarroilo de ios Examenes de ia Calidad y ei Logro Educativos

Notas' Los grados que se planean evaluar son los del marco tedrico, ya que el primero es mas com-

terminales de la educaci6n bdsica y media supe- prensivo e inciuye, ademds de posturas te6ricas,rior (3° de preescolar, 6° de primaria, 3° de se- las caracterfsticas de las pruebas, el modelocundaria y 3° de bachillerato), asi como el 3° de metodol6gico de construccidn de pruebas y elprimaria por ser el grado intermedio. marco conceptual de los dominios que evalua.

^ Es comiin que en las pruebas de logro edu- ^ Para lo cual se requiere el trabajo de cercacativo se hable del "marco de referencia" en vez de 900 aplicadores.

Referencias bibiiograficasAmerican Educational Research Association (AERA), American Psychological Association

(APA) y National Council on Measurement in Education (NCME) (1999). Standardsfor educational and psychological testing, Washington: American Psychological Association.

Backhoff, E. (2005). "La comparaci6n entre entidades: alcances y limitaciones de losrankings", en Memorias de las jornadas de evaluacion educativa, Mexico: INEE.

Backhoff, E. y Martinez-Rizo, F. (2004). "Resultados de las pruebas de estandares nacio-nales 2003: elementos para la comparacidn entre entidades", en Memor'ia2004, sextoforo de evaluacidn educativa, M&ico: CENEVAL.

Contreras, L. A. (2000). Desarrollo ypilotaje de un examen de espanolpara la educacidnprimaria en Baja California, tesis para obtener el grado de maestro en Ciencias educa-tivas, Mexico: Universidad Autonoma de Baja California.

Contreras, L. A.; Backhoff, E. y Larrazolo, N. (2003). Curso taller para la elaboracidn deexdmenes criteriales: manual para el Comite disenador del examen, documento mimeografiado,Ensenada: Instituto de Investigacion y Desarrollo Educativo-UABC.

Deng, H.; Ferris, J. y Hombo, C. (2003). A vertical scheme ofifuildingthe naep booklets,documento presentado en la Reunidn anual del NCME, Chicago.

DGE (2000). Balance de las acciones emprendidas entre diciembres de J994y octubre de2000, documento recuperado el 24/05/2005 en: http://www.sep.gob.mx/work/appsite/dge/index.htm

DGE (2004). La evaluacidn en la Secretearia de Educacidn Publica, documento mimeografiado,Mexico: SEP-DGE.

Gaviria, J.L. (2005). Propuesta de disefio matricial para las pruebas de espanoly matemdti-cas del programa de pruebas nacionales del INEE, documento mimeografiado, Mexico:INEE.

Hambleton, R.K. (1993). "Principles and selected applications of item response theory",en Linn (ed.). Educational measurement (^xA ed.), Nueva York: MacMillan PublishingCo, pp. 147-200.

INEE (2003). La calidad de la educacidn bdsica en Mexico, Mexico: INEE.INEE (2004a). La calidad de la educacidn bdsica en Mdxico: resultados de evaluacidn educa-

tiva 2004, Mexico: INEE.INEE (2004b). Plan general de evaluacidn del aprendizaje, documento mimeografiado, Mexico:

INEE.Jornet, J. (2005). El modelo de determinacidn de estdndares de los Exdmenes de la Calidady

Logro Educativos (EXCALE) del INEE de Me'xico, Mexico: INEE.

Revista Mexicana de investigacion Educativa 537

Baci<hoff et al.

Lewis, D. M.; Mitzel, H. C ; Green, D. R. y Patz, R. J. (1999). The bookmark standardsetting procedure, Monterey, CA: McGraw-Hill.

Linacre, J. M. (2005). Winsteps rasch measurement computer program, Chicago: Winsteps.com.Marinez-Rizo, F. (2004). "Comparabilidad de los resultados de las evaluaciones", en Memorias

de las jornadas de evaluacidn educativa, Mexico: INEE.Martfnez-Rizo, F. etal (2000). Estdndares de calidad para instrumentos de evaluacidn edu-

cativa, Mexico: CENEVAL.Nitko, A. (1994, julio). A model for developing curriculum-driven criterion-reforenced and

norm-reforenced national examinations for certification and selection of students, ponen-cia presentada en la Conferencia internacional sobre evaluacidn y medicidn educati-vas, de la Asociacidn para el Estudio de la Evaluacidn Educativa en Sudafrica (ASSESA).

Nunnally, J. C. y Bernstein, I. H. (1994). Psychometric theory, Nueva York: Me Graw-Hill.

OCDE (2003). The PISA 2003, Assessment Framework: Mathematics, Reading, Science andProblem Solving, documento mimeografiado. s/1: Organizacidn para la Cooperacidn yDesarrollo Econdmicos.

Poder Ejecutivo (2002). "Decreto de creacidn del Instituto Nacional para la Evaluacidnde la Educacidn", Diario Oficial 08/08/2002, Mexico, D. E

Popham, J. (1990). Modern educational measurement: A practitioner's perspective, EnglewoodCliffs, N J: Prentice-Hall.

Ruiz-Primo, M. A., Jornet, J. (2004). Acerca de la validez de los Exdmenes de ia Calidadyel Logro Educativos (EXCALE), Mexico: INEE.

SEP (2001). Programa Nacional de Educacidn 200L-2006, Mexico: SEP.Schmidt, W. et al (1997). Many visions, many aims, voL 2: A corss-national investigation

of curricular intensions in school science, Dordrecht, Holanda: Kluwe Academic Publishers.Van der Linden, W; Veldkamp, B. y Carlson, J. (2004). "Optimizing balanced incomplete

block designs for educational assessments". Applied Psychological Measurement, 28(5),317-331.

Veldzquez, V. (2000). "Hacia una cultura de la evaluacidn", en SEP, Memorias del quehacereducativo L995-2000, M&ico: SEP.

Wrigth, B. D. (1996). "Local dependency, correlations and principal components", RaschMeasurement Transactions, 10, 3, 509-511.

Artfculo recibido: 4 de agosto de 2005Dictamen: 9 de noviembre de 2005Segunda versidn: 25 de noviembre de 2005Aceptado: 19 de enero de 2006

638 Consejo Mexicano de Investigacidn Educativa