Post on 26-Jul-2015
Juro que no volveré a hacer un examen de temas, aprenderé a diseñar Multiple Choice
Questionnaires (MCQ) de calidad cueste lo que cueste
Construcción de preguntas de calidad para pruebas de elección entre múltiples opcionesmultiple choice questions (MCQ)
El MCQ, es una herramienta de evaluación de gran utilidad que debemos conocer mucho mejor y aprender a usar con eficienciaPara que sea valido y fiable para la evaluación del saber y del saber como.Debemos aprender a usar el MCQ Pero sin caer en un abuso de este método.
Ventajas del MCQ
1. Es fiable. Su fiabilidad se aumenta con más preguntas
discriminativas.
2. 2h de examen son suficientes para obtener medidas fiables
3. Es representativo, los alumnos pueden responder a múltiples
preguntas por prueba y unidad de tiempo. Alto número de items
respondidos / hora de examen.
MCQ de calidad
1. Cuesta tiempo y esfuerzo hacer preguntas de calidad, pero no cuesta casi
tiempo contestarlas y menos corregirlas.
2. Corrección objetiva y automática . Con análisis de dificultad automático.
El análisis de discriminación hay que currárselo.
3. Amplia su validez a la evaluación del saber como si hacemos preguntas
con contexto problemático/clínico podemos usar el test para probar si
saben resolver problemas y casos presentado s en el formato de estímulo.
¿Qué dice la literatura sobre escribir buenas preguntas de MCQ?
Muchos recursos sobre evaluación en NCME
http://www.nbme.org/publications/index.html
Item writing manual http://www.nbme.org/publications/item-writing-manual-download.html#spanish también en inglés y ruso.
Constructing written questions for the basic and clinical sciences. National Board of Medical Examiners
Schuwirth LW, van der Vleuten CP. Different written assessment metods: what can be said about their strengths and weaknesses? Med Educ. ;38:974-9.
¿Qué mide tu pregunta?Contexto
rico(Contextual)
Sin contexto(factual)
Recuerdo de hechos x X
Aplicación de conocimiento XResolución de problemas XComprensión conceptual XRazonamiento directo XRazonamiento complejo X
Dotar de contexto al estimulo de la pregunta amplia su validez o rango de utilidad para evaluar a distintos niveles de la pirámide de Miller
¿Qué es el contexto ?
Sin contexto
Es cierto que
Contexto
Un coche y un camión chocan de frente. En el momento de la colisión la fuerza ejercida por el coche sobre el camión es
A. Mayor que la que el camión ejerce sobre el coche
B. Igual que la que el camión ejerce sobre el coche
C. Menor que la que el camión ejerce sobre el coche
D. No ejerce ninguna fuerza simplemente esta en su camino
Contexto temático versus contexto problemático
¿Qué segmentos del miocardio son irrigados por la arteria coronaria derecha?
Paciente varón de 55 años acude a urgencias con dolor torácico y elevación del segmento ST en el electrocardiograma. En la RM cardíaca se ve un realce tardío transmural en los segmentos inferiores e inferoseptales del ventrículo izquierdo.
¿Qué arteria es la más probablemente ocluida?
Contexto de uso: Un paciente…
…trasplantado de riñón hace seis meses presenta una colección adyacente al injerto renal ¿Cuál es su diagnóstico mas probable?
A. Linfocele
B. Hematoma
C. Urinoma
D. Abceso
La misma pregunta sin contexto y con contexto
Sin contexto clínico
1 ¿Cuál es la neoplasia vesical más frecuente?
A. Adenocarcinoma
B. Rabdomiosarcoma
C. Carcinoma de células transicionales
D. Carcinoma epidermoide
Con contexto clínico
• Un paciente parapléjico con un catéter suprapúbico de larga duración se presenta con una masa vesical
¿cuál es el diagnóstico mas probable de este paciente ?
A. AdenocarcinomaB. RabdomiosarcomaC. Carcinoma de células transicionalesD. Carcinoma epidermoide
Serie de preguntas relacionadas con un contexto
• Un paciente parapléjico con un catéter suprapúbico de larga duración se presenta con una masa vesical
A. ¿cuál es el diagnóstico más probable de este paciente ?
B. Adenocarcinoma
C. Rabdomiosarcoma
D. Carcinoma de células transicionales
E. Carcinoma epidermoide
¿Cuál sería la mejor técnica de imagen para definir la invasión en profundidad del carcinoma en la pared de la vejiga?
A. RM
B. TC
C. Ecografía
D. Cistografía
Formato de la pregunta MCQRecuerdo de hechos (V/F) 1R/4d
Raíz (estímulo)
Opciones (formato de respuesta)
• Un linfocito T secreta IFNg, a que población pertenece:
A. Th1.B. Th2.C. T reg.D. Th9.E. Th17.
Respuesta correcta (right)
Distractores
Si recuerdas la definición de linfocito Th1 (linfocito TH secretor de IFNg) la aciertas. Solo probamos el conocimiento de una definición, el resto de opciones es para despistar. Para esto es mejor una pregunta de respuesta corta, pero tiene que corregirla un profesor.
Dificultad de este formato
Depende de lo rebuscado de la afirmación correcta
Depende de la elección de distractores adecuados
¿Cuál fue el principal redactor de la declaración de independencia de Venezuela?
A Cicerón
B Juan Germán Roscio
C José Bonaparte
D Pericles
E Thomas Jefferson
A Simón Bolivar
B Juan Germán Roscio
C Francisco Isnardi
D Pablo de Olavide
E José María EspañaEl profesor que emprende este camino acaba preguntando detalles chorrasY los alumnos memorizarán chorradas para aprobar
Formato de la pregunta MCQ (V/F)2
para favorecer decisiones con responsabilidad
en evaluación formativa
(V/F)2
• En relación a los métodos de obtención y purificación de anticuerpos a partir de antisueros policlonales es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.B. Los anticuerpos de un antisuero policlonal purificados por afinidad a
la molécula antigénica reconocen un mismo epítopo de la molécula antigénica.
C. Ay B son falsas .D. A y B son ciertas.E. No tengo certeza de cuál es la cierta, tendría que consultarlo o
debería haber estudiado más .La competencia más importante es conocer los limites de tu conocimiento y experiencia y Saber como informarte o a quien consultar cuando un problema supera tus límites.Opción E soy consciente de mi ignorancia y la reconozco (mejor opción en ese caso) Distintos errores tienen distinto significado y merecen distinto grado de penalización
Formato de la pregunta MCQ de reconocimiento de hechos
(V/F)3
(V/F)3
• En relación a los métodos de obtención y purificación de anticuerpos a partir de antisueros policlonales es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.B. Los anticuerpos de un antisuero policlonal purificados por afinidad a
la molécula antigénica reconocen un mismo epítopo de la molécula antigénica.
C. Los columnas con proteína A permiten obtener anticuerpos policlonales
D. A y B son ciertas.E. Todas son ciertas.
Alumnos que saben lo que no sabenalumnos que no.
Número de orden en prueba MIRNúmero de orden en prueba MIR
No
cont
esta
da
No
cont
esta
da
Las academias de preparación MIR
Simulacros prueba 4 horas
MIR ASTURIAS: 60 simulacros (30 con preguntas MIR de años anteriores y 30 con preguntas no MIR). Desde julio a enero, después de los simulacros de los sábados, se imparte una clase de 4 horas donde se revisan todas las preguntas del simulacro. Disponibles también online.
Utilizan la metodología de discutir una prueba justo después de realizarla
nota de corte, que había sido introducida por primera vez en 2012. Ahora sube del 30 al 35 por ciento de la media obtenida por los diez mejores exámenes.
Artículo publicado en casiMedicos.com: Diagnóstico Diferencial de Academias MIR 2013/2014 http://www.casimedicos.com/mir/archivos/1251
Formato de la pregunta MCQ con combinación de opciones (V/F)4
Raíz o estimulo aporta un contexto
Opciones
• En relación a los métodos de obtención y purificación de anticuerpos a partir de antisueros policlonales, es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.B. Los anticuerpos de un antisuero policlonal purificados por
afinidad a la molécula antigénica reconocen un mismo epítopo de la molécula
C. Los anticuerpos se purifican por RT PCR y Permiten la obtención de anticuerpos monoclonales
D. Se basan en la inmunización de animales de experimentaciónE. A y C son ciertas
¿Qué aumenta la calidad de las
preguntas de test? La calidad aumenta si incluye:
1. Contexto rico (situación, imagen a analizar, paciente o laboratorio)
2. Un formato de mejor respuesta (no V/F) cual es la mejor, cual es la más cierta, el alumno debe analizar y decidir entre opciones no sólo falsas y verdaderas sino mejores y peores. Debe realizar evaluación y ejercer juicio profesional.
3. Enfocada en conceptos importantes.
4. Requiere más que memoria, por ejemplo dominio del lenguaje disciplinar, asociación.
5. Tiene alto poder discriminativo (se conoce a posteriori de su uso)
¿Qué quita calidad ?
1. Elementos gramáticos o estructurales que faciliten claves “cues” para que el alumno que no sabe, la pueda acertar.
2. Erratas, fallos gramáticos y errores lógicos.
Altera una de tus preguntas para quitarle elementos de calidad
Observación: Si no se los puedes quitar es que no los tiene
Estudia la dificultad y el poder discriminativo de tus preguntas
Los programas de corrección de tests pueden proporcionarte esta información
También puedes obtenerla ”artesanalmente” a partir de las matrices de respuestas de tus alumnos
Eliminación de erratas, fallos gramáticos y errores lógicos
A priori El autor debe revisar las preguntas varias veces Varios compañeros deben revisarlas e incluso responder a las preguntas del
examen. Esta es la mejor manera de detectar posibles errores en la redacción de preguntas y respuestas o en la plantilla de opciones correctas.
A posteriori el análisis de las contestaciones permite detectar respuestas con resultados
anómalos que señalan fallos de plantilla o de redacción. El proceso de impugnación de preguntas por los alumnos también permite
detectar preguntas con errores o ambigüedades El proceso de revisión de notas por los alumnos permite detectar errores El análisis de respuestas también permite medir su dificultad y poder
discriminativo.
Análisis de poder discriminativo
1. Poder discriminativo sirve para discriminar alumnos con diferente nivel de conocimientos.
2. El estudio de valor discriminativo nos permite mejorar las preguntas
3. Podemos dificultar las demasiado fáciles y facilitar las demasiado difíciles
4. Podemos construir pruebas de dificultad ajustada. Podemos construir pruebas con un mayor poder de discriminación con un menor número de items. De este modo podemos reducir el tiempo de respuesta al MCQ de dos horas a una hora e introducir más preguntas de respuesta escrita.
Problemas de las preguntas sin contexto
Sin contexto, es difícil poner a prueba niveles cognitivos complejos.
Un error frecuente es aumentar artificialmente la dificultad de los items preguntando detalles rebuscados e irrelevantes y esconderlos entre distractores que también son afirmaciones altamente especificas e irrelevantes (incluso ignoradas por los expertos).
Prueba del algodón Si un compañero de especialidad (competente) no saca un 90-95% no es un buen examen, estas preguntando chorradas que no se saben ni los expertos. ¡Quita del examen esas preguntas que tus compañeros fallan!
Exámenes que exigen memorización de detalles chorras
Consiguen que los alumnos se esfuercen en la memorización de chorradas.
Estos exámenes MCQ que sólo se superan memorizando detalles irrelevantes y rebuscados son un ejemplo de mala práctica en evaluación que desgraciadamente esta muy extendida.
Este mal empleo del MCQ es lo que ha desacreditado y creado la mala fama de este tipo de exámenes.
Caer en este tipo de error es lo que debemos evitar a toda costa.
Impacto educativos de los exámenes que preguntan chorradas
El resultado es que con tal de aprobar los alumnos se aprenden chorradas irrelevantes de memoria pero no aprenden los conceptos importantes porque no se pregunta sobre ellos.
Hacen mas difícil interpretar el significado que tiene el que un alumno acierte o falle si los distractores son opciones disparatadas.
¿Cómo hacer preguntas de calidad con facilidad?
Evitar preguntar detalles chorras (aquellos que se le olvidan hasta al profesor)
¿Cómo comprobar esto?
Pídele a un compañero que responda a tu cuestionario y te de feedback
Debes estar preparado para que te diga que hay preguntas que preguntan chorradas.
Sus observaciones te ayudarán a mejorar preguntas, a deshacer malentendidos, etc.
Una pregunta que falla un compañero, es ambigua o irrelevante pues pregunta algo que el experto no sabe.
Una pregunta que le parece una chorrada a un compañero experto es una chorrada aunque a ti no te lo parezca.
Estas preguntas deben ser retiradas del borrador del examen.
Debemos esforzarnos por incluir algunas preguntas con iconografía permiten evaluar aprendizajes que las preguntas sin iconografía no pueden evaluar.
Preguntas con contexto iconográfico
Incluidas en el MIR a partir de 20090 1 2 3 4 5 6 7 810000
100000
1000000
10000000
100000000
1000000000
10000000000
Tiempo (semanas)
1ª 2ª 3ªinmunización
Afini
dad
M-3
0 1 2 3 4 5 6 7 80.01
0.1
1
10
100
1000
10000
IgMIgG
Conc
entr
ació
n m
g/m
l
Pregunta con contexto iconográfico (viñeta experimental)
Se trata a un paciente con el anticuerpo monoclonal Rituxan y se estudia la evolución de su actividad, los recuentos sanguíneos de células B y los niveles de autoanticuerpos antinuclerares. Los resultados demuestran que:
A. La terapia funciona, logra su objetivo al menos durante dos años.
B. La terapia deplecciona las células B autorreactivas durante dos años.
C. La reducción en autoanticuerpos es la causa de la respuesta clínica
D. A y C son ciertas.
E. Todas son ciertas31Efectos del tratamiento con Rituxan anticuerpo
monoclonal anti CD20 de pacientes con AR
Formato de la pregunta MCQCon contexto e iconografia
Contexto
Viñeta
Raíz
Opciones
• Observar el plot adjunto. Obtenido con linfocitos estimulados in vitro con mitógenos. Que relación se observa entre la producción de las citocinas IL-2 e IFN g
A. disociaciónB. asociaciónC. aleatoria.D. La producción de citocinas, ni se asocia, ni se disocia,
sólo se conserva.
IFNg+IL2- 20%
IFNg+IL2+ 10%
IFNg-IL2- 50%
IFNg-IL2- 20%
Sugerencia hacer las preguntas en Power Point para incorporar imágenes con facilidad e imprimir de seis en seis cómo documentos.
Pregunta con contexto iconográfico (viñeta experimental)
Examina la imagen y concluye si el tratamiento de la Brucelosis se asocia a:
A. Una reducción en los porcentajes de linfocitos CD4 y CD8 productores de citocinas.
B. Una normalización en los porcentajes de linfocitos CD4 y CD8 productores de citocinas
C. Un aumento en los porcentajes de linfocitos CD4 y CD8 productores de citocinas
D. B y C son ciertas
E. Todas son ciertas
CD4+
CD8+
Pregunta con contexto iconográfico (viñeta experimental)
Examina la imagen y concluye si el tratamiento de la Brucelosis produce:
A. Un aumento significativo en el porcentaje de células que fagocitan E coli.
B. Una normalización en la capacidad fagocítica media de los fagocitos
C. Una normalización del índice fagocítico de las células fagocíticas
D. B y C son ciertas
E. Todas son ciertas
Elementos en las preguntas que dan pistas a alumnos ignorantes pero avispados y
les permiten acertar aunque no sepan lo que preguntamos
Elemento Explicación SoluciónPistas gramaticales Una o más opciones no siguen la
orientación gramática de la raízComprobar que todas las opciones la siguen
Pistas lógicas si es A no puede ser B
Opciones mutuamente excluyentes Evitar que unas opciones excluyan a otras
Si tiene un término absoluto es falsa
Indican no me elijas Uso cuidadoso e intencionado de los términos absolutos
La cierta es la más larga Opción correcta es la más larga, la más específica o detallada
Evitar que la correcta sea la más larga , poner una falsa más larga
Repetición de palabras de la raíz se produce en la opción correcta
la opción correcta comparte palabras con la raíz
Evitar que la repetición de palabras ocurra sólo en la correcta, repetir las en las falsas
Convergente la opción correcta contiene elementos de las otras opciones
Incluir distractores convergentes pero con falsedades
Sesgo la opción todas son correctas es cierta demasiadas veces
Evitar que esa opción sea la correcta introduciendo opciones sutilmente falsas .
¿Cómo podemos hacer preguntas sobre ideas básicas esenciales manteniendo un
nivel de dificultad elevado?
V/F no recomendable un 50% de probabilidad de acierto por azar.
Recomendación ofrece opción neutra o no contestar. No lo se con certeza y penalizar el error con -1 punto
Las V/F son buenas herramientas para la evaluación formativa pero malas para la acreditativa por su bajo poder discriminativo.
Sistema de combinación de varios V/F Dos VF y una opción de reconocimiento de ignorancia Dificultad (VF)2=VF x VF Tres VF dfificultad (VF)3=VF x VF x VF Cuatro VF (VF)4= VFx VF x VF x VF (con cinco opciones no podemos
explorar más que una combinación de ellas)
Ventaja del formato de la pregunta MCQ (V/F)2
Raíz
Opciones• En relación a los métodos de obtención y purificación de
anticuerpos a partir de antisueros policlonales es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.
B. Los anticuerpos de un antisuero policlonal purificados por afinidad a la molécula antigénica reconocen un mismo epítopo de la molécula antigénica.
C. Ay B son falsas .D. A y B son ciertas.E. No tengo certeza de cuál es la cierta. No he estudiado
lo suficiente para saberlo. Debería consultarlo.
F - 0,25
F - 0,25
V + 1FF - 0,5Opción segura 0
Permite aplicar más penalización a los errores dobles que a los simplesPermite reconocer la limitación del conocimiento propio
Formato de la pregunta MCQ (V/F)3
Raíz
Opciones• En relación a los métodos de obtención y purificación de
anticuerpos a partir de antisueros policlonales es cierto que:
A. Los adyuvantes disminuyen la inmunogenicidad de los antígenos.
B. Los anticuerpos de un antisuero policlonal purificados por afinidad a la molécula antigénica reconocen esa molécula antigénica.
C. Los adyuvantes se unen químicamente a los antígenosD. A y C son ciertas.E. Todas son ciertas.
F - 0,66
V 1
F -0,66FF - 0,66FF -0,66
¿Cómo aumentar la fiabilidad de la prueba?
Aumentar el número de items para valorar un mismo objetivo. En esto el MCQ es imbatible.
Fijar criterios de corrección claros y objetivos, por ejemplo con rúbricas de corrección que establecen criterios y describen niveles de logro para cada uno de ellos.
Escoger items de distinta dificultad
Escoger items de alta capacidad de discriminación. Necesitaremos menos items para diferenciar entre distintos niveles de conocimiento.
Para mejorar la capacidad de discriminación de un item podemos seleccionar y eliminar distractores menos creíbles por medio del análisis de frecuencias de error.
Items de alta capacidad de discriminación hacen que la fiabilidad aumente, el problema es que la dificultad aumenta y las notas medias bajan.
Efecto del aumento de preguntas discriminativas en la nota media del test
2001/2002 2002/03 2003/04 2004/05 2005/06 2006/07 2007/08 2008/09 2009/10 2010/11 2011/2012 2012/20130
1
2
3
4
5
6
7
8
Licenciatura (sin JITT) Grado (JITT)
Impacto educativo de la evaluación en el aprendizaje
También denominado validez consecuencial.
Le evaluación es la fuerza más potente para dirigir el esfuerzo del alumno e inducir el aprendizaje, por tanto debería ser el primer item en la agenda del cambio del currículo no el último, como ha ocurrido con la adaptación al EEES.
Esta noción, que ha ganado mucha aceptación general entre los expertos en evaluación, no ha permeado a los responsables académicos.
Cuestiones acerca del impacto educativo
¿Contribuye nuestra evaluación al logro de esos aprendizajes que queremos conseguir?
¿Como combinar la evaluación formativa y sumativa? ¿Qué peso dar a cada una?
¿Cuanta evaluación es necesaria?
¿Cómo proporcionar retroinformación?
¿Cómo distribuir la evaluación sobre el tiempo?
Índice de dificultad (Idif) de un item de la prueba(frecuencia de acierto en el grupo completo)
Idif = (Nº de alumnos que aciertan/Nº total de alumnos)
Idif > 0,85 item muy fácil
Idif entre 0,6 y 0,8 fácil
Idif entre 0,4 y 0,6 dificultad media
Idif entre 0,15 y 0,4 difícil
Idif <0,15 muy difícil
Debemos construir la prueba combinando preguntas con distintos niveles de dificultad por ejemplo: 25% fáciles, 25% de dificultad media, 25% difíciles, 25% muy difíciles.
Índice de discriminación (Idisc) de un item de la prueba
Mide la capacidad de un item para discriminar entre los alumnos que dominan el conocimiento evaluado y los que no.
Compara la dificultad para los distintos grupos de alumnos definidos por sus distintos niveles de conocimiento.
Preguntas de puntuación continua (preguntas de respuesta escrita)
I disc= (puntuación media del 50% que más dominan - puntuación media del 50% que dominan menos)/puntuación media del totalMatriz de obtención
Preguntas de acierto fallo (MCQ)
I disc= (frecuencia de acierto en el 50% que más dominan - frecuencia de acierto en el 50% que dominan menos)/ frecuencia de acierto media
Función conversión coincidencia = 1; no coincidencia = 0
Interpretación del índice de discriminación
I disc>0,4 muy buen índice de discriminación
I disc entre 0,3 y 0,4 buen índice
I disc entre 0,2 y 0,3 índice que debe mejorarse
I disc entre 0 y 0,2 índice muy pobre
I disc negativo la pregunta esta mal planteada, es ambigua o la respuesta que damos por correcta esta simplemente equivocada.
Ejemplo en una asignaturaItem Índice discriminación
Primer MCQ 0,18 Índice de discriminación muy pobre
Preguntas breves 0,23 Índice de discriminación pobre
Presentación oral 0,01 Índice muy pobre
Participación 1,01 Muy buen índice
JITT 0,23 Índice de discriminación pobre
Desarrollo 0,46 Muy buen índice
Corta 1 0,24 Índice de discriminación pobre
Corta 2 0,31 Buen índice
Corta 3 0,42 Muy buen índice
Corta 4 0,43 Muy buen índice
Suma cortas 0,34 Buen índice
Segundo MCQ 0,30 Buen índice
Clasificación de preguntas por su dificultad en distintos subgrupos
(índice de discriminación ) 47
0 25 50 75 100
Las que saben todos
Percentil en calificación
Las que saben casi todosMenos los del cuartil inferior
Porc
enta
je q
ue a
cier
tan
en e
sa p
regu
nta
Las que saben la mitad que más saben
Las que saben los del cuartil superior
Las que sólo saben los que mejor estudiaron
100
50
0
Estudio de caso cálculo de índices de dificultad y discriminación en tests de
pruebas acreditativas
Ejemplo en Excel
lista inmunología 2014connotas.xls
Dilema:Si nos esforzamos mucho por hacer buenas
preguntas… ¿deberíamos deshacernos de ellas al primer uso?
Hacer una buena pregunta cuesta trabajo. Si hacemos un examen de 80 MCQ y tras usarlas se las damos a los
alumnos.
1. Acabaremos haciendo preguntas a la carrera y su calidad se resentirá.
2. No estaremos en condiciones de garantizar la calidad de nuestras preguntas .
3. Si las reutilizamos en futuras pruebas no tendremos certeza de si nuestros alumnos las aciertan porque saben o porque se las estudian de memoria.
4. y nuestros alumnos acabarán estudiando exámenes, que estarán llenos de preguntas chorras sobre detalles rebuscados.
Debate: Tenemos dos alternativas:
1. Hacerlas y tras usarlas, proporcionarlas a los alumnos. Permite la impugnación de preguntas impugnables pero…
Las quemamos pues si las volviéramos a usar no sabríamos si el alumno acierta por que sabe o porque memorizó la respuesta correcta.
Podemos producir más preguntas pero serán de menos calidad.
Desconoceremos su poder discriminativo al no haberlas utilizado previamente.
Ejemplo: área medicina muchos asociados. Muchos medios
2. Mantener confidencialidad, determinar su dificultad y su poder de discriminación. Mejorar su calidad y componer la prueba.
Vamos reciclando un 25% al año pasan de evaluación sumativa a formativa y se meten nuevas.
Aseguramos que la mayoría de las preguntas del examen son de calidad y tienen un alto poder discriminativo. Esto nos permite hacer tests de menos preguntas y combinarlos con preguntas de respuesta escrita.
Si queremos construir exámenes con preguntas de calidad
¿Cómo debe ser el proceso de producción de preguntas?
Principio: Las preguntas de calidad cuestan trabajo.
Hay derecho a revisión de examen pero no las damos y estudiamos el poder discriminativo de las preguntas y vamos mejorando la prueba.
El tiempo del profesor es precioso y las preguntas de calidad son muy valiosas y para poder seguir usándolas tenemos que manejarlas con confidencialidad.
Nosotros no entregamos las preguntas de exámenes finales y si entregamos las que usamos en evaluación formativa.
Revisión del valor de las preguntas tras su uso
Determinación de los porcentajes de error, índices de discriminación y dificultad (los programas de corrección automática pueden proporcionarlos).
Análisis de errores.
Ejemplo
1 Análisis automático porcentaje de alumnos que aciertan cada pregunta y que escogen cada una de las opciones erróneas.
Análisis de poder discriminativo.
Detectamos errores en preguntas o en plantillas de corrección
Evaluación de la aplicación del conocimientoMétodo ¿Es válido,
Discrimina?¿Es fiable?
¿Qué impacto educativo tiene?¿Uso?¿abuso?
Practicabilidad Sostenibilidad ¿Se puede con cien? ¿escalable?
MCQ ++ +++ Depende de contexto de las preguntas
si
Desarrollo +++ + Bueno Con muchos cuesta
casos +++ Requiere entrenamiento
Pueden resolverse por preguntas MCQ
Preguntas cortas ++ ++ si
Examen oral + + Comunicación oral Asincrónico no escalable
presentaciones + + Comunicación oral Difícilmente escalable
Registro participación
+++ Fomenta participación
Si con HCAP
Comprobación del estudio, tareas
++ ++ Fomenta trabajo Si con cuestionarios on line
¿Cuál lo es más? Depende de lo medido
MCQ Una combinación MCQ
Uso y abuso del MCQ
54
Profesores y alumnos lo prefieren. Por la misma razón, para trabajar menos.
Para los alumnos es mucho más fácil prepararse para un examen de test que para un examen que incluya distintos tipos de preguntas.
Si solo se usa MCQ de reconocimiento de hechos sin preguntas contextuales los alumnos estudiarán superficialmente y de memoria.
Para los profesores es más fácil corregirlo automaticamente. Las clases masificadas acentúan la selección de este método por los profesores
Limitaciones del MCQ
Es representativo y fiable pero debemos combinarlo con otros métodos pues no sirve por ejemplo para:
E valuar como el alumno expresa su conocimiento oralmente o por escrito.
Evaluar el nivel de estructuración del conocimiento del alumno
Evaluar capacidad de aprendizaje autónomo
Pobres correlaciones entre MCQ y preguntas de desarrollo
56
Son muy bajas.
r entre 0,2 y 0,5
Indican que aplicando distintos métodos de evaluación a la misma materia obtenemos medidas muy distintas.
¿Qué ocurrirá si sólo usamos un método de evaluación?
El resultado será muy sesgado.
Por ello es mejor combinar varios.
Test y preguntas de respuesta escrita al 50%
1 2 3 4 5 6 7 8 9 100
2
4
6
8
10
12
correlación MCQ vs.preguntas de respuesta escrita
Inmunología 2011/12