Evaluación de programas en psicología aplicada · Es decir, evalúan la posición de un sujeto en...

Psicometría

Tema 5

Tema 5

Fiabilidad de los tests

Referidos al criterio

Tests referidos al criterio

• Popham (1978)

– Un test referido al criterio se utiliza para evaluar el estatus absoluto del sujeto con respecto a algún dominio de conductas bien definido.

• Se trata de describir con mayor precisión los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos, sin referencia a ningún grupo normativo. Es decir, evalúan la posición de un sujeto en función de su nivel de rendimiento respecto al dominio definido.

• El objetivo es tratar de clasificar a las personas que dominan el criterio y las que no, por tanto, la fiabilidad se traduce en identificar la precisión o consistencia de las clasificaciones realizadas por el test.

Diferencias entre TRN y TRC

• En la evaluación de los sujetos: Interpretación de la puntuación del sujeto. – TRN: Puntuación del sujeto en relación a un grupo normativo. – TRC: Puntuación del sujeto = Estimación muestral del rendimiento del

sujeto en el dominio.

• En la construcción del test: – En los TRC hay que limitar claramente el dominio.

• Criterios de selección de los ítems: – Objetivo TRN: maximizar diferencias. Ítems de dificultad variable y

alta discriminación. – Objetivos TRC:

• Tests referidos a dominio: Estimación de la puntuación del sujeto en un dominio

• Tests de maestría: Clasificar en APTO/NO APTO. Definición de un punto de corte. Fiabilidad = fiabilidad en las clasificaciones.

Determinar longitud testMétodo de Millman

• Está basado en el modelo binomial

• Considera la proporción esperada de ítems que un sujeto puede contestar correctamente para ser considerado como apto, de la población de ítems definidos, y el error máximo que se está disponible a tolerar. Parte de:– ítems dicotómicos

– Probabilidad de respuesta correcta es constante para todos ítems

– Respuestas independientes

– Errores se ajustan a modelo binomial

n = 𝑝𝑐(1−𝑝𝑐)

𝑒2

(n=nº ítems; pc= proporción de aciertos para aprobar; e= error en tanto por 1)

• Ejemplo (libro): En un test se ha establecido la proporción de aciertos en un 85% para ser apto. Hallar la longitud que ha de tener el test si estamos dispuestos a aceptar un error máximo de 0,05

n = 𝑝𝑐(1−𝑝𝑐)

𝑒2=

0,85(1−0,85)

0,052= 51

Fiabilidad en las clasificaciones de TRC

• Consideraremos tests de maestría: Test fiable si al aplicarlo a los mismos sujetos (o formas paralelas) en distintas ocasiones, se clasifica a los sujetos de igual manera.

Métodos de estimación de la fiabilidad • 1 test, dos aplicaciones (o dos formas paralelas)

– Índice de Hambleton y Novik– Índice Kappa de Cohen – Índice de Crocker y Algina

• 1 test, una sóla aplicación – Método de Subkoviak– Método de Huynh

Tests referidos al criterio• Dos aplicaciones (misma muestra, tests paralelos)

– Fiabilidad perfecta = misma clasificación en ambos

• Coeficiente p0 de Hambleton y Novick

– Utiliza la proporción de sujetos que son clasificados dentro del grupo de maestría o no maestría como un índice de fiabilidad de un test

– El valor máximo de pc es igual a 1 y el valor mínimo es la proporción de sujetos

– La clasificación de un sujeto dentro de un grupo de maestría depende del valor pc establecido

Pc= 𝑛º 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 𝑐𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑡𝑒𝑚𝑒𝑛𝑡𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠

𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠Pc=

2+14

20=0,8

Pa=∑ 𝑁𝑗𝑁𝑖

𝑁2 = 5,3

202+ 15,17

202= 0,0375+0,6375= 0,68

Test B (o segunda aplicación)

Test A (o 1ª aplicación) maestría No maestría Total N

Maestría 2 3 5

No maestría 1 14 15

total 3 17 20

Tests referidos al criterio• Coeficiente Kappa de Cohen

– Es un estimador de la consistencia de clasificación de los sujetos independientemente del valor esperado x azar

– Medidas más utilizadas cuando se quiere estimar el nivel de acuerdo entre varios observadores o jueces. Considera las clasificaciones realizadas por azar es aceptable a partir de 0.21

K= 𝑝𝑐−𝑝𝑎

1−𝑝𝑎= 0,8−0,68

1−0,68=0,38

– Pc= proporción de clasificaciones consistentes en ambas formas

– pa= proporción de clasificaciones consistentes que podemos esperar por azar

K= 𝐹𝑐−𝐹𝑎

𝑁−𝐹𝑎=

16−13,5

20−13,50= 2,50

6,50=0,38 Fa=

3∗520

+ 17∗15

20=13,5 frec marginales

– Puede verse si es estadísticamente significativo a partir de la utilización del error típico de medida de K. Hipótesis nula H0:K=0 y alternativa H1: K≠0

Se =F𝑎

𝑁(𝑁−𝐹𝑎)=

13,50

20(20−13,5)=

13,50

130=0,32

Se calcula intervalo confidencial según NC 95%

K ± Zc. Se 0,38± 1,96 * 0,32 -0,25 ≤ K ≤ 1

Dado que el valor K=0, está dentro del intervalo confidencial, el acuerdo de clasificaciones no es estadísticamente significativo.


• Índice de Crocker y Algina

– Alternativa al Kappa de Cohen. Se basa en que la probabilidad mínima de una decisión consistente es 0,50

– El valor de P* es igual a 1 cuando las decisiones son totalmente consistentes

P*=𝑝𝑐−0,5

1−0,5= 2pc-1

Pc=0,80 P*=0,80−0,5

1−0,5= 2*0,80-1=0,6


• Índices de acuerdo que requieren una solo aplicación del test– Método de Huynh (con distribución de puntuaciones

normal). Consistencia de la clasificación a partir de una sola aplicación

– Método de Subkoviak (cuando no es posible establecer forma paralela del test, que las simula)

– Coeficiente de Livingston (tiene en cuenta los errores al clasificar un sujeto)

Índices de acuerdo que requieren una solo aplicación del test

Método de Huynh• Calcular media, varianza y coeficiente de correlación Kurder-

Richardson 21 (KR21) y especificar el punto de corte C• Calcular la puntuación típica correspondiente al valor del punto de

corte con corrección de 0,5 y se busca el valor de P que deja por debajo la Z obtenida en la curva normal N(0,1)

• Ejemplo: ҧ𝑥 = 5,15 𝑆𝑥2=4,45 KR21=0,37 C=7

– Calculamos Zx= (𝐶−0,5− ҧ𝑥)

𝑆𝑥=

7−0,5−5,15

2,109=0,64

– Obtenemos valor P Zx=0,64 pz =0,74– Se busca en las Tablas de Gupta (T11) la probabilidad Pzz de que dos

variables distribuidas normalmente con una correlación KR21=0,37 sean menores que Z=0,64 pzz= 0,58

– Finalmente se calcula pc y k– pc=1+2(pzz-pz) = 1+2(0,58-0,74)=0,68

– k = pzz− pz 2

𝑝𝑧 − pz 2

= 0,58− 0,74 2

0,74− 0,74 2 =0,16

• Coeficiente de Livingston (tiene en cuenta los errores al clasificar un sujeto

KXV2 = α∗𝑆𝑋

2+( ҧ𝑥−𝐶)2

𝑆𝑋2+( ҧ𝑥−𝐶)2

= 0,62∗4,45+ 5,15−7 2

4,45+ 5,15−7 2 = 2,76+3,42

7,87=0,78

• KXV2 será igual o mayor al coeficiente alpha, y

cuando la media del test coincide con el punto de corte KXV

2 es igual al coeficiente alpha. A medida que la media se distancia del punto de corte aumenta KXV

2.

Índices de acuerdo que requieren una solo aplicación del test

Métodos de Cálculo Punto de corte • Tipos de punto de corte

– Relativos, cuando el punto de corte se establece en función del grupo de sujetos evaluados– Absolutos, cuando el punto de corte se establece en función del constructo objeto de estudio

• Métodos valorativos

– Nedelsky: (ámbito académico, ítems de respuesta múltiple) Pc= A-𝑁−𝐴

𝑛−1• Cada ítem: un valor pi = probabilidad de que un sujeto apto responda correctamente el ítem

– Angoff: (toda clase de ítems) (variante Nedelsky, pero aplicable a todos ítems)• Cada ítem: un valor pi establecido por cada experto. Pc= media de las puntuaciones totales

– Ebel: Cada juez valora la dificultad (fácil, medio y difícil) y la relevancia(esencial, importante, aceptable y dudoso) de cada • Ítem. Xc= ∑p(M)

– Jaeger: Tres fases. (variante Angoff precisa 3 sesiones)• Punto de corte: mediana más baja del nº de jueces

• Métodos combinados – Grupo límite: C=media del grupo límite.– Grupo de contraste: C= intersección distribuciones de los aptos y no aptos

• Métodos de compromiso – Hofstee: – Beux:

Evaluación de programas en psicología aplicada · Es decir, evalúan la posición de un sujeto en...

Documents

Transcript of Evaluación de programas en psicología aplicada · Es decir, evalúan la posición de un sujeto en...