UNIVERSIDAD PRIVADA DE TACNA Dr. Alberto Cáceres Huambo BioestadísticoUNSA-UNMSM-UPCH...

Post on 06-Feb-2015

4 views 1 download

Transcript of UNIVERSIDAD PRIVADA DE TACNA Dr. Alberto Cáceres Huambo BioestadísticoUNSA-UNMSM-UPCH...

UNIVERSIDAD PRIVADA DE TACNA

Dr. Alberto Cáceres HuamboBioestadístico

UNSA-UNMSM-UPCHalbertocaceresh@hotmail.com

CREACION, CONFIABILIDAD Y VALIDACION DE INSTRUMENTOS DE

MEDICION

PSICOMETRÍA• La Psicometría se ocupa de los problemas

de medición en Psicología, utilizando la Estadística como pilar básico para la elaboración de teorías y para el desarrollo de métodos y técnicas específicas de medición.

• La Psicometría es una rama de la psicología y es una ciencia cuyo objeto es medir los aspectos psicológicos de una persona (conducta humana), como son:

MEDIREs asignar números

a las propiedades de los objetos de

acuerdo con ciertas reglas.

ESCALAMIENTO

Tiene como objetivo fundamental la construcción de

escalas de medida y, por lo tanto, incluye todos los

procedimientos necesarios para su elaboración.

ESCALA DE KARNOFSKY

Población diana: Población oncológica. Se trata de una

escala heteroadministrada que valora la calidad de vida en

las personas que sufren cáncer. A mayor grado, mayor calidad de vida.

DEPENDENCIA DE LA NICOTINA - TEST DE FAGERSTRÖM

Población diana: Población general fumadora. Se trata de una escala heteroadministrada de 6 ítems que valora la dependencia de las personas a la nicotina. Los puntos de corte son 4 y 7, donde menos de 4 es una dependencia baja, entre 4 y 7 es una dependencia

moderada y más de 7 es una dependencia alta.

CONSTRUCTOUn constructo es un concepto elaborado

para explicar el comportamiento humano. Inteligencia fluida,

extroversión, autoconcepto, asertividad, motivación intrínseca... son constructos y precisan de indicadores observables para su estudio. En muchas ocasiones, estos indicadores son los ítems de un

test, y debe comprobarse empíricamente que resultan adecuados para reflejar el constructo de referencia

EJEMPLO 1 DE CONSTRUCTO

En 1948 la Organización Mundial de la Salud definió la

«salud» como el completo estado de bienestar físico, mental y social, y no sólo

como la ausencia de enfermedad.

EJEMPLO 2 DE CONSTRUCTO

El concepto de «calidad de vida» se ha introducido como un criterio más

a considerar cuando se define el estado de salud de una persona.

Debido a que la calidad de vida se basa en mediciones con una carga

variable de subjetividad, se requieren métodos de evaluación válidos,

reproducibles y fiables.

EJEMPLO 3 DE CONSTRUCTO

MOTIVACIÓN PARA DEJAR DE FUMAR

(Test de Richmond)

INSTRUMENTO DE MEDICIÓN

Recurso que utiliza el investigador para la

recogida de información, diseñado para cuantificarla

y universalizarla.

DEBE REUNIR LAS SIGUIENTES CARACTERÍSTICAS:

1. Ser adecuado para el problema de salud que se pretende medir (teóricamente justificable, validez de contenido) e intuitivamente razonable.

2. Ser válido, en el sentido de ser capaz de medir aquellas características que pretenden medir y no otras.

3. Ser fiable, preciso, es decir, con un mínimo de error en la medida.

4. Ser sensible, que sea capaz de medir cambios tanto en los diferentes individuos como en la respuesta de un mismo individuo a través del tiempo.

5. Delimitar claramente sus componentes (dimensiones), de manera que cada uno contribuya al total de la escala de forma independiente (validez de constructo).

6. Estar basado en datos generados por los propios pacientes.

7. Ser aceptado por pacientes, usuarios, profesionales e investigadores.

TIPOS DE TEST

RENDIMIENTO ÓPTIMO

Son pruebas de rendimiento y de inteligencia, en las cuales se

pretende medir el rendimiento máximo al que llega cada persona

ante una serie de preguntas o tareas.

RENDIMIENTO TÍPICO

Se quiere reflejar el comportamiento ordinario de las personas, no

teniendo sentido el concepto de rendimiento máximo dado que el objeto de la evaluación es algún

tipo de opinión, actitud o rasgo de personalidad.

PASOS PARA LA ELABORACIÓN

DE UN CUESTIONARIO

1. DEFINICIÓN DEL CONSTRUCTO O ASPECTO A MEDIR

Antes de proceder a medir algo debemos tener una idea muy clara de

lo que queremos medir; a eso se le llama «definir el constructo». Ello

puede requerir la realización de una revisión de la bibliografía y la consulta

con expertos en la materia.

1. DEFINICIÓN DEL CONSTRUCTO O ASPECTO A MEDIR (Cont.)

Sean actitudes, conductas o conocimientos, se debe definir en forma clara y precisa el objeto de la medida y, a ser posible, determinar y conocer las teorías que sustentan la definición que se acuerde. Un problema puede

definirse desde distintas perspectivas teóricas y, por tanto, pueden proponerse

definiciones diferentes de un mismo constructo.

EJEMPLO 1

En la definición de la salud y su evolución; no será lo mismo diseñar un cuestionario de evaluación del estado de salud que defina la salud como la ausencia de enfermedad,

que elaborar el cuestionario desde una perspectiva más positiva, de bienestar

biopsicosocial. Finalmente, la validez del constructo implicará el grado en que el

instrumento de medida refleja las teorías relevantes del fenómeno que mide.

EJEMPLO 2

Estilo de vida en pacientes con

diabetes mellitus tipo 2.

2. PROPÓSITO DE LA ESCALA

Se trata de establecer el contenido del cuestionario, definir la población a la que va dirigida, la forma de administración y el formato del cuestionario.

El propósito de la escala va a determinar en gran medida el contenido de sus ítems y algunos aspectos relacionados con su estructura y la logística de la recogida de los datos.

EJEMPLO

Si el constructo o aspecto a medir fuera la calidad de vida, deberíamos revisar exhaustivamente todas las

posibles características que conforman la calidad de vida:

independencia física, vitalidad, equilibrio emocional, sueño,

capacidad para relacionarse con otros.

3. COMPOSICION DE LOS ITEMS

Los cuestionarios se componen de una serie de ítems. El ítem

es la unidad básica de información de un instrumento de evaluación, y generalmente consta de una pregunta y de

una respuesta cerrada.

4. NÚMERO DE ÍTEMS

Como regla general, se considera que el número mínimo de ítems para evaluar un fenómeno sería de 6, pero el número de ellos puede ir desde 10 a 90, de manera

que puedan abarcar de forma proporcional cada una de las dimensiones definidas a

priori en el constructo. Se recomienda realizar el doble de ítems de los que van a

necesitarse en la versión definitiva del cuestionario.

5. CONTENIDO

En función del contenido, los cuestionarios pueden ser uni o

multidimensionales. En los primeros, más del 80% de los

ítems evalúa una sola dimensión (por ejemplo, el cuestionario de

dolor de McGill). En los multidimensionales, los ítems

evalúan dos o más dimensiones (por ejemplo, las escalas de

calidad de vida, SF-36).

DIMENSIONALIDADUna escala puede contener cualquier número de dimensiones. La mayoría

de las escalas que desarrollamos sólo tienen unas cuantas. Pero ¿qué es una dimensión?. Pensemos en una

dimensión como si se tratara de una regla numerada. Si deseamos medir un constructo, hemos de decidir si

éste puede ser medido correctamente con una única regla numerada o si, por el contrario, se

necesitarían más.

CONSTRUCTO UNIDIMESIONAL

Podemos medir el concepto “altura” bastante bien con una línea

numerada (por ejemplo una regla). El peso también es unidimensional

(podemos medirlo con una escala) . La sed podría ser considerada

también como un concepto unidimensional: estamos más o

menos sedientos en un momento dado. Es fácil observar que la altura

y el peso son unidimensionales.

CONSTRUCTO BIDIMESIONAL

¿Cuál podría ser un constructo bidimensional? Muchos modelos de

inteligencia o de rendimiento abogan por dos grandes dimensiones:

habilidad matemática y habilidad verbal. En este tipo de modelos

bidimensionales puede decirse que una persona posee dos tipos de

rendimientos. Algunos puntuarán alto en habilidad verbal y más bajo en

matemática.

DIMENSIONES

Cada una de estas características se denominan «dimensiones» o «factores», y la clara definición de cada una de ellas nos facilitará la

construcción de las preguntas que nos ayuden a explorar esa parte del aspecto que

queremos medir.

Ejemplo

VALORACIÓN DE INCONTINENCIA

URINARIA

¡MUY IMPORTANTE!

Cuando se inicia la construcción de un

cuestionario se debe tener en cuenta la

población a la que va dirigido (Población

diana)

6. FORMATO DE RESPUESTA

En tests de rendimiento óptimo (pruebas de rendimiento y de

inteligencia) se pretende medir el rendimiento máximo al que llega cada persona ante una serie de

preguntas o tareas. Usualmente, el formato de respuesta de estos ítems se ajusta a uno de los siguientes tres

formatos:

Elección binaria De dos alternativas, se elige la

que se considera correcta (Sí o No; verdadero-falso).

Por ejemplo, un ítem de un test de rendimiento en Genética puede ser:

"El entrecruzamiento al azar es una de las condiciones del equilibrio genético de Hardy - Weinberg" V F

Elección múltiple Entre más de dos alternativas se elige la que

se considera correcta. Es sin duda el formato de respuesta más utilizado, entre otras por razones de objetividad y otras de tipo operativo.

Por ejemplo, un ítem de un test de aptitud verbal puede ser:

"Célula somática es a mitosis como célula sexual es a ....”

a) Sinapsisb) Fecundaciónc) Meiosisd) Entrecruzamiento

Mediante las pruebas de rendimiento típico se quiere

reflejar el comportamiento ordinario de las personas, no

teniendo sentido el concepto de rendimiento máximo dado que el objeto de la evaluación es algún

tipo de opinión, actitud o rasgo de personalidad. El formato de

respuesta de los cuestionarios de rendimiento típico se ajusta a

alguno de los siguientes:

Opción binaria

La persona debe manifestar si está de acuerdo o en desacuerdo con una afirmación. Por ejemplo, un ítem de un cuestionario sobre la actitud de la gente hacia los entes de salud públicas:

"En realidad, los médicos hacen una buena labor en los hospitales"Acuerdo ( ) Desacuerdo ( )

Categorías ordenadas

El formato establece un continuo ordinal de más de dos categorías, que permite a la persona matizar

mejor su respuesta. Normalmente, este continuo está formado por 5 ó 7

categorías ordenadas, con una categoría central para indicar la

valencia neutra y a partir de la cual posicionarse en uno u otro sentido.

Por ejemplo, un ítem sobre la actitud de los adolescentes hacia el

consumo de drogas, podría ser el que sigue:

Categorías ordenadas (Cont.)

"Las drogas pueden realmente resolver problemas de uno mismo"( ) Muy en Desacuerdo( ) Bastante en Desacuerdo( ) Neutral( ) Bastante de Acuerdo( ) Muy de Acuerdo

Categorías ordenadas (Cont.)

A veces, se establecen nominalmente los dos extremos del continuo, dejando señaladas las restantes categorías del

mismo:

MD ____ ____ ____ ____ ____ MA

o se ordenan numéricamente las categorías sucesivas:

1 2 3 4 5 6 7

Escala gráfica• Gradación a través de dibujos. Se utiliza

cuando se tiene población analfabeta, con niveles educativos bajos o niños que apenas comienzan a leer o no dominan la lectura

En desacuerdo Neutral De acuerdo

Adjetivos bipolaresEste formato es típico de lo que

se denomina "diferencial semántico", un instrumento

formado por pares de adjetivos opuestos, cada uno de los cuales representa un continuo bipolar

con varias categorías, y que permite estudiar el significado semántico que se atribuye a determinados constructos,

personas o instituciones. Por ejemplo:

Adjetivos bipolares (cont.)

Alegre ________ ________ ________ __ Triste

Listo ________ ________ ________ __ Tonto

Simpático ________ ________ ________ Antipático

Feliz ________ ________ ________ __ Infeliz

Sano___ ________ ________ ________ __Enfermo

Adjetivos bipolares (cont.)

Escala de dolor o bienestar (línea de 10 cm)

Ningún dolor .......................................Máximo dolor imaginable

7. REDACCIÓN DE ITEMS

La definición de cada ítem ha de ser exhaustiva

INCORRECTA

¿Cuántos embarazos ha tenido?................

CORRECTA

Señale el número de veces que se ha quedado embarazada, haya tenido un hijo o haya finalizado en un aborto...................

La definición de cada ítem debe ser mutuamente excluyente.

INCORRECTAEl trabajo de los docentes y del personal de salud en cuanto a la preparación de la familia en aspectos de promoción y educación para la salud es:

 Suficiente  Regular  Insuficiente� � �CORRECTAA continuación se mencionan dos de los grupos encargados de la preparación de las familias en aspectos de promoción y educación para la salud.¿Cómo considera su trabajo?(Marque con una X su opción de respuesta)Del colectivo docente:

 Suficiente  Regular  Insuficiente� � �Del personal de salud:

 Suficiente  Regular  Insuficiente� � �

Utilizar preguntas breves y fáciles de comprender

INCORRECTAActualmente, ¿tiene dismenorrea?

Sí   No � �

CORRECTA¿Tiene actualmente dolor con la menstruación?

Sí   No� �

No redactar preguntas en forma negativa

INCORRECTANo debe permitirse la publicidad de la leche artificial

Sí   No  � �

CORRECTAMarque en la casilla adecuada, de acuerdo con su punto de vista. La publicidad a favor de la leche artificial:

puede permitirse  �debe prohibirse  �no tengo opinión  �

Evitar el uso de la interrogación «por qué»

INCORRECTACon relación al funcionamiento del servicio de comedor su valoración es negativa, ¿por qué?

CORRECTA¿Qué aspectos considera que deberían mejorar en relación con el servicio de comedor?  Que la comida se sirva caliente�  Que el servicio sea más rápido�  Que se incluya más variedad en el menú �semanal

No formular preguntas en las que una de las alternativas de respuesta sea tan deseable que, difícilmente, pueda rehusarse.

INCORRECTALas matronas del Centro de Salud, ¿se encuentran suficientemente preparadas para el tratamiento de los contenidos de educación sexual?

Sí   No � �CORRECTAPara el tratamiento de los contenidos de educación sexual, ¿se encuentran preparadas suficientemente las matronas del Centro de Salud?

Sí   No   No tengo opinión  � � �

Evitar preguntas que obliguen a hacer cálculos o esfuerzos de memoria

INCORRECTAA lo largo del pasado año, ¿cuántas veces tuvo un exceso de flujo vaginal?

Ítems del SF-36

8. Su salud actual, ¿le limita para agacharse o arrodillarse?

1 Sí, me limita mucho2 Sí, me limita un poco3 No, no me limita nada

10. Su salud actual, ¿le limita para caminar varias manzanas (varios centenares de metros)?

1 Sí, me limita mucho2 Sí, me limita un poco3 No, no me limita nada

8. CUANTIFICACIÓN DE LAS RESPUESTAS

Una vez establecido el formato de respuesta que se considera más

apropiado para el caso, es preciso decidir la manera de cuantificar los posibles resultados a las cuestiones.

En general, para los ítems de cuestionarios de rendimiento óptimo

se cuantificará con 1 el acierto y con 0 el error, de tal manera que la

puntuación directa de un sujeto en un cuestionario determinado será igual al

número de ítems que ese sujeto acierta.

8. CUANTIFICACIÓN DE LAS RESPUESTAS (Cont.)

La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere ciertos matices. Dado un formato de respuesta determinado (opción binaria, categorías ordenadas o adjetivos bipolares) es necesario cuantificar las posibles respuestas a un ítem teniendo en cuenta que la alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y opinión.

EjemploPara un ítem con formato de respuesta de

opción binaria (acuerdo/desacuerdo) puede cuantificarse el acuerdo como 1 y

el desacuerdo como 2, o viceversa. Depende de que el ítem esté planteado

para medir de manera directa o inversa el constructo de interés. Estos pueden ser 2 ítems de un cuestionario de actitud ante

al aborto voluntario:Ítem A: "Abortar es matar".

De acuerdo ( ) En desacuerdo( )Ítem B: “El bienestar de la madre también

importa”.De acuerdo ( ) En desacuerdo ( )

8. CUANTIFICACIÓN DE LAS RESPUESTAS (Cont.)

En el ítem A, el acuerdo se puntuaría con 1 y el desacuerdo

con 2, ya que estar en desacuerdo con esa afirmación indica una actitud más positiva hacia el aborto voluntario. En el ítem B, sin embargo, el acuerdo

se puntuaría con 2 y el desacuerdo con 1, ya que estar de acuerdo con esa afirmación indica una actitud más positiva

hacia el aborto.

8. CUANTIFICACIÓN DE LAS RESPUESTAS (Cont.)Si el formato de respuesta es de “n” categorías

ordenadas, las diversas categorías se cuantificarán normalmente desde 1 hasta n, teniendo en

consideración (como en el caso anterior) la dirección de la afirmación o cuestión. Por ejemplo, para 5

categorías, las dos posibles cuantificaciones serán:

Muy en desacuerdo Bastante en desacuerdo Neutral Bastante de acuerdo Muy de acuerdo 1 2 3 4 55 4 3 2 1

También se puede asignar el 0 a la categoría central, valores negativos a las categorías que se encuentran a la izquierda y positivos a las que se encuentran ubicada

a la derecha.

Ítems del AQLQ

7. Se ha sentido preocupado por tener asma?

8. Notó que le faltaba el aire debido al asma?

SiempreCasi

siempreGran parte del tiempo

Parte del tiempo

Poco tiempo

Casi nunca Nunca

1 2 3 4 5 6 7

SiempreCasi

siempreGran parte del tiempo

Parte del tiempo

Poco tiempo

Casi nunca Nunca

1 2 3 4 5 6 7

9. ANÁLISIS DE ITEMSLos ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan bien) el constructo, variable, o

rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado en que cada ítem es un "buen medidor" del rasgo

de interés es algo que se puede comprobar estadísticamente de manera sencilla si obtenemos tres indicadores

para cada ítem:a) El índice de dificultad.

b) El índice de homogeneidad.c) El índice de validez.

MATRIZ DE DATOSItems

1 2 3………

……………

….. n X

Sujeto 1

Sujeto 2

Sujeto 3

.

.

.

.

Sujeto N

ÍNDICE DE DIFICULTAD

Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por lo que sólo tiene sentido su cálculo para ítems de tests de rendimiento óptimo.

El índice de dificultad de un ítem j se define como el cociente entre el nº de sujetos que lo han acertado (Aj) y el nº total de sujetos que lo han intentado resolver (Nj)

jj

j

AD

N

Items

1 2 3 4 5 6 X

1 0 0 0 1 1 1

2 0 1 0 1

sujetos 3 0 0 1 0 1

4 0 0 0 1 1

5 0 1 0 1 1

6 0 1 1

7 0 0 1 1 1

8 0 0 1 0

9 0 1 0 0 1

10 0 1 0 0 1

Aj

Nj

Dj

¡IMPORTANTE!Al diseñar un cuestionario de rendimiento

óptimo, al inicio se sitúan los ítems más fáciles (con mayor Dj); en la parte central, los

de dificultad media (entre 0,30 y 0,70); y al final, los más difíciles (con menor Dj). El número de ítems de cada categoría de dificultad que deben incluirse en el test

depende de los objetivos que quiera conseguir la persona que diseña el

cuestionario. En general, la mayor parte de los ítems deben ser de dificultad media.

ÍNDICE DE HOMOGENEIDAD

El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem (Hj) se define como la correlación de Pearson entre las puntuaciones de los N sujetos en el ítem j y las puntuaciones X en el total del test:

Según la disposición de la matriz de datos, para obtener los Hj de los ítems, debemos calcular la correlación entre las columnas j y la columna X de puntuaciones directas en la prueba.

j j XH r

Ejemplo

Supongamos un test formado por 3 ítems con formato de respuesta de

categorías ordenadas, que se valoran entre 0 y 5. Después de

aplicarse a un grupo de 5 sujetos se obtienen los siguientes datos:

Ejemplo (Cont.)

Items

1 2 3 X

1 2 3 5

2 3 1 0

sujetos 3 5 4 5

4 0 1 0

5 4 3 0

CÁLCULO DE ÍNDICE DE HOMOGENEIDAD

Items

1 2 3 X

1 2 3 5 10

2 3 1 0 4

sujetos 3 5 4 5 14

4 0 1 0 1

5 4 3 0 7

0,75 0,94 0,86

Los índices de homogeneidad de los 3 elementos son:

H1= r1X= 0,75H2= r2X= 0,94H3= r3X= 0,86

ÍNDICE DE VALIDEZ

Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse también con las que

estos sujetos obtienen en un criterio de validación externo al test (Y); esta correlación

define el índice de validez del ítem j:

j jYV r

ÍNDICE DE VALIDEZ (Cont.)

El criterio de validación "Y" es una medida diferente del test para reflejar

el mismo rasgo u otro muy relacionado, de tal manera que si el

test mide lo que se pretende, debería correlacionar de forma elevada con el

criterio.

Caso los supervisores de las

enfermeras podrían valorar el grado de motivación de cada

una y utilizar estas valoraciones como el criterio de validación de un test de

motivación laboral

Ejemplo

Supongamos que partimos de los datos del ejemplo

precedente, y que conocemos las puntuaciones directas de

las 5 personas en un criterio Y:

Ejemplo (Cont.)Items

1 2 3 X Y

1 2 3 5 10 5

2 3 1 0 4 3

sujetos 3 5 4 5 14 6

4 0 1 0 1 0

5 4 3 0 7 6

Índices de validez de los tres ítems

Items

1 2 3 X Y

1 2 3 5 10 5

2 3 1 0 4 3

sujetos 3 5 4 5 14 6

4 0 1 0 1 0

5 4 3 0 7 6

Índice de Validez (Vj) 0,87 0,88 0,54