Evaluación de programas en psicología aplicada · Es decir, evalúan la posición de un sujeto en...
Transcript of Evaluación de programas en psicología aplicada · Es decir, evalúan la posición de un sujeto en...
Psicometría
Tema 5
Tema 5
Fiabilidad de los tests
Referidos al criterio
Tests referidos al criterio
• Popham (1978)
– Un test referido al criterio se utiliza para evaluar el estatus absoluto del sujeto con respecto a algún dominio de conductas bien definido.
• Se trata de describir con mayor precisión los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos, sin referencia a ningún grupo normativo. Es decir, evalúan la posición de un sujeto en función de su nivel de rendimiento respecto al dominio definido.
• El objetivo es tratar de clasificar a las personas que dominan el criterio y las que no, por tanto, la fiabilidad se traduce en identificar la precisión o consistencia de las clasificaciones realizadas por el test.
Diferencias entre TRN y TRC
• En la evaluación de los sujetos: Interpretación de la puntuación del sujeto. – TRN: Puntuación del sujeto en relación a un grupo normativo. – TRC: Puntuación del sujeto = Estimación muestral del rendimiento del
sujeto en el dominio.
• En la construcción del test: – En los TRC hay que limitar claramente el dominio.
• Criterios de selección de los ítems: – Objetivo TRN: maximizar diferencias. Ítems de dificultad variable y
alta discriminación. – Objetivos TRC:
• Tests referidos a dominio: Estimación de la puntuación del sujeto en un dominio
• Tests de maestría: Clasificar en APTO/NO APTO. Definición de un punto de corte. Fiabilidad = fiabilidad en las clasificaciones.
Determinar longitud testMétodo de Millman
• Está basado en el modelo binomial
• Considera la proporción esperada de ítems que un sujeto puede contestar correctamente para ser considerado como apto, de la población de ítems definidos, y el error máximo que se está disponible a tolerar. Parte de:– ítems dicotómicos
– Probabilidad de respuesta correcta es constante para todos ítems
– Respuestas independientes
– Errores se ajustan a modelo binomial
n = 𝑝𝑐(1−𝑝𝑐)
𝑒2
(n=nº ítems; pc= proporción de aciertos para aprobar; e= error en tanto por 1)
• Ejemplo (libro): En un test se ha establecido la proporción de aciertos en un 85% para ser apto. Hallar la longitud que ha de tener el test si estamos dispuestos a aceptar un error máximo de 0,05
n = 𝑝𝑐(1−𝑝𝑐)
𝑒2=
0,85(1−0,85)
0,052= 51
Fiabilidad en las clasificaciones de TRC
• Consideraremos tests de maestría: Test fiable si al aplicarlo a los mismos sujetos (o formas paralelas) en distintas ocasiones, se clasifica a los sujetos de igual manera.
Métodos de estimación de la fiabilidad • 1 test, dos aplicaciones (o dos formas paralelas)
– Índice de Hambleton y Novik– Índice Kappa de Cohen – Índice de Crocker y Algina
• 1 test, una sóla aplicación – Método de Subkoviak– Método de Huynh
Tests referidos al criterio• Dos aplicaciones (misma muestra, tests paralelos)
– Fiabilidad perfecta = misma clasificación en ambos
• Coeficiente p0 de Hambleton y Novick
– Utiliza la proporción de sujetos que son clasificados dentro del grupo de maestría o no maestría como un índice de fiabilidad de un test
– El valor máximo de pc es igual a 1 y el valor mínimo es la proporción de sujetos
– La clasificación de un sujeto dentro de un grupo de maestría depende del valor pc establecido
Pc= 𝑛º 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 𝑐𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑡𝑒𝑚𝑒𝑛𝑡𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠
𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠Pc=
2+14
20=0,8
Pa=∑ 𝑁𝑗𝑁𝑖
𝑁2 = 5,3
202+ 15,17
202= 0,0375+0,6375= 0,68
Test B (o segunda aplicación)
Test A (o 1ª aplicación) maestría No maestría Total N
Maestría 2 3 5
No maestría 1 14 15
total 3 17 20
Tests referidos al criterio• Coeficiente Kappa de Cohen
– Es un estimador de la consistencia de clasificación de los sujetos independientemente del valor esperado x azar
– Medidas más utilizadas cuando se quiere estimar el nivel de acuerdo entre varios observadores o jueces. Considera las clasificaciones realizadas por azar es aceptable a partir de 0.21
K= 𝑝𝑐−𝑝𝑎
1−𝑝𝑎= 0,8−0,68
1−0,68=0,38
– Pc= proporción de clasificaciones consistentes en ambas formas
– pa= proporción de clasificaciones consistentes que podemos esperar por azar
K= 𝐹𝑐−𝐹𝑎
𝑁−𝐹𝑎=
16−13,5
20−13,50= 2,50
6,50=0,38 Fa=
3∗520
+ 17∗15
20=13,5 frec marginales
– Puede verse si es estadísticamente significativo a partir de la utilización del error típico de medida de K. Hipótesis nula H0:K=0 y alternativa H1: K≠0
Se =F𝑎
𝑁(𝑁−𝐹𝑎)=
13,50
20(20−13,5)=
13,50
130=0,32
Se calcula intervalo confidencial según NC 95%
K ± Zc. Se 0,38± 1,96 * 0,32 -0,25 ≤ K ≤ 1
Dado que el valor K=0, está dentro del intervalo confidencial, el acuerdo de clasificaciones no es estadísticamente significativo.
Tests referidos al criterio
• Índice de Crocker y Algina
– Alternativa al Kappa de Cohen. Se basa en que la probabilidad mínima de una decisión consistente es 0,50
– El valor de P* es igual a 1 cuando las decisiones son totalmente consistentes
P*=𝑝𝑐−0,5
1−0,5= 2pc-1
Pc=0,80 P*=0,80−0,5
1−0,5= 2*0,80-1=0,6
Tests referidos al criterio
• Índices de acuerdo que requieren una solo aplicación del test– Método de Huynh (con distribución de puntuaciones
normal). Consistencia de la clasificación a partir de una sola aplicación
– Método de Subkoviak (cuando no es posible establecer forma paralela del test, que las simula)
– Coeficiente de Livingston (tiene en cuenta los errores al clasificar un sujeto)
Índices de acuerdo que requieren una solo aplicación del test
Método de Huynh• Calcular media, varianza y coeficiente de correlación Kurder-
Richardson 21 (KR21) y especificar el punto de corte C• Calcular la puntuación típica correspondiente al valor del punto de
corte con corrección de 0,5 y se busca el valor de P que deja por debajo la Z obtenida en la curva normal N(0,1)
• Ejemplo: ҧ𝑥 = 5,15 𝑆𝑥2=4,45 KR21=0,37 C=7
– Calculamos Zx= (𝐶−0,5− ҧ𝑥)
𝑆𝑥=
7−0,5−5,15
2,109=0,64
– Obtenemos valor P Zx=0,64 pz =0,74– Se busca en las Tablas de Gupta (T11) la probabilidad Pzz de que dos
variables distribuidas normalmente con una correlación KR21=0,37 sean menores que Z=0,64 pzz= 0,58
– Finalmente se calcula pc y k– pc=1+2(pzz-pz) = 1+2(0,58-0,74)=0,68
– k = pzz− pz 2
𝑝𝑧 − pz 2
= 0,58− 0,74 2
0,74− 0,74 2 =0,16
• Coeficiente de Livingston (tiene en cuenta los errores al clasificar un sujeto
KXV2 = α∗𝑆𝑋
2+( ҧ𝑥−𝐶)2
𝑆𝑋2+( ҧ𝑥−𝐶)2
= 0,62∗4,45+ 5,15−7 2
4,45+ 5,15−7 2 = 2,76+3,42
7,87=0,78
• KXV2 será igual o mayor al coeficiente alpha, y
cuando la media del test coincide con el punto de corte KXV
2 es igual al coeficiente alpha. A medida que la media se distancia del punto de corte aumenta KXV
2.
Índices de acuerdo que requieren una solo aplicación del test
Métodos de Cálculo Punto de corte • Tipos de punto de corte
– Relativos, cuando el punto de corte se establece en función del grupo de sujetos evaluados– Absolutos, cuando el punto de corte se establece en función del constructo objeto de estudio
• Métodos valorativos
– Nedelsky: (ámbito académico, ítems de respuesta múltiple) Pc= A-𝑁−𝐴
𝑛−1• Cada ítem: un valor pi = probabilidad de que un sujeto apto responda correctamente el ítem
– Angoff: (toda clase de ítems) (variante Nedelsky, pero aplicable a todos ítems)• Cada ítem: un valor pi establecido por cada experto. Pc= media de las puntuaciones totales
– Ebel: Cada juez valora la dificultad (fácil, medio y difícil) y la relevancia(esencial, importante, aceptable y dudoso) de cada • Ítem. Xc= ∑p(M)
– Jaeger: Tres fases. (variante Angoff precisa 3 sesiones)• Punto de corte: mediana más baja del nº de jueces
• Métodos combinados – Grupo límite: C=media del grupo límite.– Grupo de contraste: C= intersección distribuciones de los aptos y no aptos
• Métodos de compromiso – Hofstee: – Beux: