Una aproximación léxico/semántica para el …...I!!!!! Agradecimientos!! En primer lugar a mis...

Una aproximación léxico/semántica para el mapeado automático de medicamentos y su aplicación al enriquecimiento de ontologías farmacoterapéuticas

Jorge Cruañes Vilas

www.ua.es

www.eltallerdigital.com

!!

!!

!

!

!

!

Una$aproximación$léxico/semántica$para$el$mapeado$automático$de$medicamentos$y$su$aplicación$al$enriquecimiento$de$ontologías$

farmacoterapéuticas$$

$

$

$

Tesis!Doctoral!

$

Jorge$Cruañes$Vilas$

$

Directores:!María!Teresa!Romá!Ferri!Rafael!Muñoz!Guillena!

!

Departamento!de!Lenguajes!y!Sistemas!Informáticos!Univesidad!de!Alicante!

2014!

! ! I!

!!!!Agradecimientos!!

En primer lugar a mis directores, Rafa y Mayte, por su apoyo y guía, no sólo a nivel académico, sino también en lo personal. Por darme la oportunidad de formar parte de la familia científica formada por el GPLSI, por ayudarme a volver al camino cuando mi testarudez me hacía salirme de él, y por darme la oportunidad de vivir esta experiencia.

A los compañeros del departamento, por enseñarme lo que significa la investigación, a abrir mi mente y convertir en éxitos los fracasos.

A mis compañeros del laboratorio. Por todas las risas, almuerzos, cafés y tostadas que me han dado la energía para seguir adelante día a día, y quienes han estado siempre dispuestos a echarme, no una mano, sino mil. Y, por supuesto, merecen una mención muy especial Isa y Javi, por sus charlas, apoyo y creatividad.

A mis mejores amigos, Juan, David, Jesús y Felipe, compañeros de tantas y tantas historias, anécdotas y momentos. Por esos fines de semana que me llenaban de energía y alegría.

A todos mis profesores, colegas y compañeros, que me han sufrido a lo largo de estos años, que tantos consejos me han dado y, sobre todo, que tanto han confiado siempre en mí.

Y finalmente a mis padres, Juan e Isolina, sin cuyo apoyo, cariño, dedicación y esfuerzo, esta tesis nunca se habría conseguido. Por haber dedicado tantas horas en un campo que no es el suyo, y que gracias a su apoyo incondicional era capaz de levantarme tras cada caída.

Esta tesis ha sido parcialmente cofinanciada por el Ministerio de Ciencia e Innovación (proyecto TIN2009-13391-C04-01), y la Conselleria d’Educació de la Generalitat Valenciana (proyectos PROMETEO/2009/119, ACOMP/2010/286 y ACOMP/2011/001).

! ! III!

!!!!Resumen!

Recientemente ha entrado en vigor en España una nueva legislación que afecta a la información existente en los medicamentos comercializados en este país. Ésta obliga a la inclusión de información de correspondencia respecto a la terminología internacional multilingüe SNOMED-CT. Este proceso es realizado actualmente de forma manual. Este es el punto de partida de este trabajo.

Por tanto, el primer objetivo de esta tesis es obtener un método capaz de realizar estas correspondencias (mapeados) de forma automática. Para ello se hará uso de SNOMED-CT como terminología destino de los mapeados y, como origen, los medicamentos comercializados en España existentes en la ontología OntoFIS. Esta ontología ha sido poblada de forma semi-automática a partir de la base de datos oficial del Ministerio de Sanidad Español DIGITALIS. Usar una ontología en lugar de directamente la base de datos aporta ciertos beneficios, como la existencia de conocimiento semántico explicitado (relaciones semánticas), que supondrán una ayuda en el propio proceso de mapeado y, posteriormente, en otros procesos de marcado, extracción de información o clasificación.

Para poder alcanzar este objetivo, sin embargo, es necesario equiparar los niveles de especificidad (también conocida como granularidad) de ambos recursos (OntoFIS y SNOMED-CT), ya que no es posible mapear dos recursos con diferentes granularidades.

IV!

Finalmente, tras haber logrado establecer los mapeados entre ambas terminologías, el último objetivo de la tesis será el de utilizar dichos mapeados para ampliar semánticamente la ontología OntoFIS.

Para la consecución de estos tres objetivos, y tras haber estudiado los trabajos existentes en el domino de salud en castellano e inglés, se ha optado por utilizar técnicas de Procesamiento del Lenguaje Natural (PLN), combinándolo con un sistema basado en patrones. Partiendo de las etiquetas del nombre de los medicamentos comercializados en España (nombres de especialidad) junto con las especificaciones existentes en la legislación vigente, se han extraídos una serie de patrones que ayudarán en el proceso de identificación de los elementos de un medicamento, como por ejemplo sus principios activos, sus concentraciones o la población objetivo a la que van dirigidos.

Tras haber identificado los elementos componentes de la denominación de los medicamentos, se procede a crear nuevas etiquetas automáticamente para equiparar su granularidad a la existente en SNOMED-CT. Seguidamente se procede al mapeado de las nuevas etiquetas sobre las existentes en SNOMED-CT. El carácter multilingüe de ambos recursos permite poder utilizar el idioma castellano para realizar dicho mapeado. El mapeado se lleva a cabo mediante técnicas de PLN basadas en la similitud léxica, utilizando complementariamente una serie de recursos semánticos específicos creados manualmente. Para establecer la correspondencia se han considerado cuatro grados de mapeado. Estos grados van desde la equivalencia semántica absoluta hasta un mínimo nivel de similitud. De esta forma se maximiza la cobertura de los mapeados.

Seguidamente, a partir de los resultados obtenidos en los mapeados y teniendo en cuenta los cuatro grados de diferenciación de los mapeados, se amplía el conocimiento de OntoFIS mediante un sistema basado en reglas. Estas reglas establecen cuánta información puede ser recuperada de los mapeados establecidos, en base al grado de similitud del mapeado. Dichas reglas persiguen evitar introducir información incorrecta o ambigua en OntoFIS.

Para concluir, se ha realizado una prueba final a la propuesta, con el fin de establecer unos resultados sólidos sobre el funcionamiento global, validez y seguridad de la propuesta presentada, evitando el sesgo por el estudio cualitativo y las pruebas piloto en el refinamiento de los algoritmos propuestos. Esta prueba persigue una confianza en los resultados del 95%, con un margen de error del 5%. Tras la evaluación de dicha prueba se ha concluido que se han alcanzado todos los objetivos propuestos satisfactoriamente. En dichas pruebas la cobertura obtenida ha variado entre el 90,96% y el 100% y la precisión ha estado comprendida entre el 77,88% y el 100%.

! !

! ! V!

!!!!Índice!!

!

!

1.!Introducción!......................................................................................................................!1!

1.1!Motivación!...............................................................................................................!1!

1.2!Objetivos!y!contribuciones!.......................................................................................!5!

1.3!Hipótesis!..................................................................................................................!6!

1.4!Organización!de!la!tesis!............................................................................................!6!

2.!Estado!de!la!cuestión!.........................................................................................................!9!

2.1!PLN!en!el!ámbito!de!la!salud!...................................................................................!10!

2.2!Recursos!de!conocimiento!en!el!ámbito!farmacoterapéutico!..................................!12!

2.2.1!UMLS!.....................................................................................................................!13!

2.2.2!SNOMED0CT!...........................................................................................................!14!

2.2.3!ATC!........................................................................................................................!16!

2.2.4!RxNorm!.................................................................................................................!17!

2.2.5!OntoFIS!..................................................................................................................!18!

2.3!Uso!de!PLN!en!el!mapeado!de!terminologías!..........................................................!21!

2.3.1! Semejanzas! y! diferencias! en! las! técnicas! del! PLN! en! el! ámbito! de! la! salud! en!inglés!y!castellano!..........................................................................................................!25!

2.3.2!Conclusiones!en!las!técnicas!de!mapeado!en!el!PLN!sanitario!.............................!26!

2.4!Uso!de!PLN!en!ampliación!de!conocimiento!de!ontologías!......................................!27!

VI!

2.5!Limitaciones!actuales!..............................................................................................!29!

3.! Propuesta! tecnológica! para! el!mapeado! de!OntoFIS! y! SNOMEDRCT! y! su! aplicación! en! la!ampliación!de!OntoFIS!.........................................................................................................!33!

3.1!Materiales!terminológicos!......................................................................................!34!

3.1.1!OntoFIS!..................................................................................................................!34!

3.1.2!SNOMED0CT!...........................................................................................................!35!

3.1.3!Similitudes!y!diferencias!entre!OntoFIS!y!SNOMED0CT!.........................................!40!

3.1.4!Recursos!léxico0semánticos!complementarios!‘ad!hoc’!........................................!41!

3.2!Diagrama!general!de!la!propuesta!..........................................................................!43!

3.2.1!Módulo!de!Extracción!de!medicamentos!y!Normalización!de!las!etiquetas!(E+N)44!

3.2.2!Módulo!de!Equiparación!de!Granularidades!(EG)!.................................................!45!

3.2.3!Módulo!de!Mapeado!Léxico!(ML)!.........................................................................!45!

3.2.4!Módulo!de!Ampliación!Automática!de!OntoFIS!(AAO)!.........................................!46!

3.3!Experimentación!y!evaluación!de!los!resultados!obtenidos!.....................................!47!

3.3.1!Pruebas!cualitativas!..............................................................................................!47!

3.3.2!Pruebas!piloto!.......................................................................................................!47!

3.3.3!Experimentación!con!muestras!aleatorias!............................................................!48!

3.3.4!Métricas!de!Evaluación!.........................................................................................!48!

4.!Extracción!de!medicamentos!y!normalización!de!etiquetas!(E+N)!....................................!53!

4.1!Materiales!..............................................................................................................!54!

4.2!Método!..................................................................................................................!55!

4.2.1!Extracción!de!información!de!OntoFIS!..................................................................!55!

4.2.2!Normalización!.......................................................................................................!59!

4.3!Pruebas!cualitativas!................................................................................................!60!

5.!Equiparación!de!granularidades!(EG)!...............................................................................!61!

5.1.!Materiales!.............................................................................................................!63!

5.2.!Método!.................................................................................................................!63!

5.2.1.!Análisis!de!los!Patrones!........................................................................................!64!

! ! VII!

5.2.2.!Estudio!comparativo!con!SNOMED0CT!.................................................................!67!

5.2.3.!Algoritmo!de!equiparación!de!granularidades!.....................................................!69!

5.3.!Pruebas!Piloto!del!módulo!EG!................................................................................!77!

5.3.1.!Resultados!............................................................................................................!78!

5.3.2.!Estudio!de!errores!................................................................................................!83!

5.3.3.!Discusión!..............................................................................................................!83!

5.3.4.!Conclusiones!........................................................................................................!84!

6.!Mapeado!léxico!(ML)!.......................................................................................................!87!

6.1!Materiales!..............................................................................................................!88!

6.2!Niveles!de!análisis!..................................................................................................!89!

6.3!Grados!de!similitud!.................................................................................................!91!

6.4!Método!..................................................................................................................!94!

6.4.1!Búsqueda!de!candidatos!primarios!.......................................................................!95!

6.4.2.!Extracción!de!elementos!de!los!candidatos!primarios!.........................................!96!

6.4.3!Eliminar!incompletos!.............................................................................................!98!

6.4.4!Comparar!y!filtrar!por!ingredientes!.......................................................................!98!

6.4.5!Comparar!y!filtrar!por!concentraciones!................................................................!99!

6.4.6!Comparar!y!evaluar!las!formas!farmacéuticas!con!SiLeSS!....................................!99!

6.4.7!Búsqueda!de!candidatos!alternativos!.................................................................!100!

6.4.8!Extracción!de!elementos!de!candidatos!alternativos!..........................................!101!

6.4.9!Eliminar!candidatos!alternativos!incompletos!....................................................!101!

6.4.10!Comparar!y!evaluar!las!vías!de!administración!.................................................!101!

6.4.11!Establecer!los!mapeados!...................................................................................!101!

6.4.12!Ordenar!resultados!...........................................................................................!103!

6.5!Método!de!Similitud!Léxica!con!Semántica!Superficial!(SiLeSS)!.............................!104!

6.6!Experimentos!del!módulo!ML!con!muestreo!intencionado!....................................!106!

6.6.1!Materiales!...........................................................................................................!106!

VIII!

6.6.2!Experimentación!.................................................................................................!107!

6.6.3!Resultados!...........................................................................................................!108!

6.6.4!Discusión!.............................................................................................................!108!

6.6.5!Conclusiones!.......................................................................................................!109!

7.!Ampliación!automática!de!la!ontología!ontofis!(AAO)!....................................................!111!

7.1!Materiales!............................................................................................................!112!

7.2!Análisis!de!las!relaciones!y!estructuras!de!OntoFIS!y!SNOMEDRCT!.........................!113!

7.3!Clasificación!de!los!mapeados!...............................................................................!116!

7.3.1!Mapeados!equivalentes!y!proporcionales!..........................................................!116!

7.3.2!Mapeados!similares!............................................................................................!117!

7.3.3!Mapeados!comparables!......................................................................................!117!

7.4!Incorporación!de!nuevo!conocimiento!en!OntoFIS!................................................!117!

7.4.1!Modificación!del!núcleo!de!OntoFIS!...................................................................!118!

7.4.2!Inclusión!del!NES!y!del!NI!....................................................................................!119!

7.4.3!Inclusión!de!la!población!objetivo!.......................................................................!119!

7.4.4!Inclusión!de!la!vía!de!administración!..................................................................!120!

7.4.5!Inclusión!de!la!jerarquía!de!SNOMED0CT!............................................................!121!

7.4.6!Inclusión!de!las!relaciones!extraídas!de!los!mapeados!.......................................!122!

7.4.7!Inclusión!de!los!mapeados!..................................................................................!122!

7.5!Comprobación!de!ontología!resultante!.................................................................!124!

7.6!Experimentos!con!muestreo!intencionado!............................................................!124!

7.6.1!Materiales!...........................................................................................................!124!

7.6.2!Experimentación!.................................................................................................!125!

7.6.3!Resultados!...........................................................................................................!126!

7.6.4!Discusión!.............................................................................................................!131!

7.6.5!Conclusiones!.......................................................................................................!132!

8.!Validación!de!la!propuesta!.............................................................................................!135!

! ! IX!

8.1!Materiales!............................................................................................................!136!

8.1.1!Procedimiento!de!selección!de!la!muestra!aleatoria!..........................................!136!

8.2!Resultados!............................................................................................................!139!

8.2.1!Equiparación!de!granularidades!..........................................................................!139!

8.2.2!Mapeados!léxicos!................................................................................................!140!

8.2.3!Ampliación!automática!de!OntoFIS!.....................................................................!143!

8.3!Discusión!..............................................................................................................!145!

8.3.1!Equiparación!de!granularidades!..........................................................................!145!

8.3.2!Mapeados!léxicos!................................................................................................!146!

8.3.3!Ampliación!automática!de!OntoFIS!.....................................................................!147!

8.4!Conclusiones!........................................................................................................!149!

9.! MediMap:! herramienta! para! el! mapeado! de! terminologías! y! enriquecimiento! de!ontologías!.........................................................................................................................!151!

9.1! MediMap:! herramienta! para! el! mapeado! de! terminologías! y! enriquecimiento! de!ontologías!..................................................................................................................!151!

9.1.1!Estructura!............................................................................................................!152!

9.1.2!Demo!...................................................................................................................!152!

9.2!Conclusiones!........................................................................................................!157!

10.!Conclusiones!y!Trabajos!Futuros!..................................................................................!159!

10.1!Conclusiones!.......................................................................................................!159!

10.2!Aplicaciones!futuras!...........................................................................................!160!

10.2.1!Sistema!de!ayuda!a!la!toma!de!decisiones!........................................................!160!

10.2.2!Alertas!de!sobredosis!y!dosis!insuficientes!.......................................................!161!

10.2.3!Actualización!semi0automática!de!medicamentos!............................................!162!

10.3!Trabajos!Futuros!.................................................................................................!163!

Anexos!..............................................................................................................................!165!

A.!Definiciones!...........................................................................................................!166!

A.1!Tecnologías!de!Lenguaje!Humano!(TLH)!................................................................!166!

X!

A.2!Procesamiento!del!Lenguaje!Natural!(PLN)!...........................................................!166!

A.3!Terminología!..........................................................................................................!167!

A.4!Lexicón!...................................................................................................................!167!

A.5!Interoperabilidad!...................................................................................................!168!

A.6!Especialidad!farmacéutica!comercializada!............................................................!168!

A.7!Ontología!...............................................................................................................!169!

A.8!Ampliación!o!enriquecimiento!de!una!ontología!...................................................!170!

A.9!Mapeado!................................................................................................................!170!

A.10!Granularidad!........................................................................................................!171!

B.!Patrones!de!composición!de!nombres!comerciales!de!medicamentos!españoles!....!172!

C.!Algoritmos!..............................................................................................................!175!

D.!Relaciones!de!OntoFIS!............................................................................................!177!

E.!Código!OWL!ampliación!OntoFIS!.............................................................................!179!

F.!Estudio!de!errores!..................................................................................................!183!

Bibliografía!........................................................................................................................!191!

!

!

!

!

!

!

!

!

!

!

!

!

! ! XI!

!!!!Índice!de!tablas!!

!

1.1.! Ejemplo!de!diferentes! etiquetas! léxicas! para! un!mismo! concepto,! según! la! terminología!utilizada!.........................................................................................................................................!4!

3.1.!Comparativa!de!los!materiales!de!OntoFIS!y!SNOMED0CT!..................................................!40!

3.2.!Tabla!de!valores!de!evaluación!de!los!experimentos.!..........................................................!49!

4.1.!Modelo!de!la!plantilla!de!extracción!de!medicamentos!......................................................!55!

4.2.!Modelo!de!la!plantilla!de!extracción!de!medicamentos!previa!a!la!normalización!.............!58!

4.3.!Enumeración!de!las!técnicas!de!PLN!aplicadas!en!la!fase!de!la!normalización!....................!60!

4.4.!Ejemplo!de!plantilla!de!extracción!de!medicamentos!normalizada!....................................!60!

5.1.!Equivalencia!de!granularidades!entre!OntoFIS!y!SNOMED0CT!............................................!61!

5.2.! Conjunto! de! los! 17! patrones! identificados! manualmente! en! el! estudio! cualitativo!utilizando!únicamente!la!muestra!A!...........................................................................................!65!

5.3.!Clasificación!de!los!elementos!que!componen!el!nombre!comercial!de!un!medicamento!.!66!

5.4.!Conjunto!de!los!25!patrones!identificados!manualmente!...................................................!67!

5.5.!Información!contenida!en!cada!uno!de!los!patrones!para!establecer!la!equiparación!con!la!representación!en!SNOMED0CT!..................................................................................................!68!

5.6.!Ejemplos!del!formato!NES!generados!a!partir!de!nombres!de!especialidad!.......................!76!

5.7.!Ejemplos!de!NI!creados!a!partir!de!los!NES!.........................................................................!77!

5.8.!Clasificación!por!patrones!de!los!medicamentos!existentes!en!cada!una!de!las!pruebas!...!78!

5.9.!Variaciones!de!los!patrones!seguidos!por!los!medicamentos!.............................................!80!

5.10.!Resultados!cuantificados!según!los!elementos!del!medicamento!.....................................!81!

XII!

5.11.! Resultados! de! las! pruebas! piloto! del!método! EG! en! la! conversión! de! equiparación! de!

granularidad!................................................................................................................................!82!

6.1.!Comparación!de!complejidades!de!los!diferentes!tipos!de!análisis!propuestos!..................!90!

6.2. Identificación de patrones de formación de los VMP en SNOMED-CT identificados manualmente ................................................................................................................................ 97

6.3. Ejemplos de VMP problemáticos respecto a los patrones identificados .............................. 97

6.4. Resultados de SiLeSS en la comparación de las formas farmacéuticas .............................. 100

6.5.!Resultados!del!mapeado!del!NI!con!etiqueta!“paracetamol!100!mg!/!ml!solucion”!.........!104!

6.6.!Técnicas!de!PLN!aplicadas!en!la!identificación!y!marcado!de!elementos!por!lexicón!.......!106!

6.7.!Resultados!del!mapeado!de!los!NI!generados!en!SNOMED0CT!.........................................!108!

7.1.! Comparación! de! las! relaciones! que! afectan! a! los! medicamentos! de! SNOMED0CT! y!!!!

OntoFIS!!.....................................................................................................................................!115!

7.2.! Compendio! de! mapeados! entre! las! relaciones! que! afectan! a! los! medicamentos! de!

SNOMED0CT!y!OntoFIS!..............................................................................................................!116!

7.3.! Resultados! y! métricas! de! la! ampliación! automática! de! OntoFIS! respecto! al! atributo!

“nombre!especialidad”!(apartado!7.6.2)!..................................................................................!127!

7.4.! Resultados! y! métricas! de! la! ampliación! automática! de! OntoFIS! respecto! al! atributo!

“nombre!implícito”!(apartado!7.6.2)!........................................................................................!128!

7.5.!Resultados!y!métricas!de! la!ampliación!automática!de!OntoFIS!respecto!a! la! inclusión!de!

las!relaciones!semánticas!explícitas!entre!las!instancias!de!Medicamento!y!de!Edad!.............!128!


las! relaciones! semánticas! explícitas! entre! las! instancias! de! Medicamento! y! de!

ViaAdministracion!.....................................................................................................................!129!


las!relaciones!jerárquicas!entre!las!instancias!de!Medicamento!y!SNOMED0CT!......................!130!

7.8.!!Resultados!y!métricas!de!la!ampliación!automática!de!OntoFIS!respecto!a!la!inclusión!de!

las!relaciones!semánticas!entre!las!instancias!Medicamento!y!SNOMED0CT!...........................!131!

8.1.!Resultados!de!las!evaluaciones!de!equiparación!de!granularidades!.................................!140!

8.2.!Resultados!de!medicamentos!monoingredientes!y!su!representatividad!en!la!muestra!..!140!

8.3.! Máximos! grados! de! similitd! en! mapeados! correctos! de! medicamentos!!!!!!!!

monoingredientes!.....................................................................................................................!141!

8.4.!Resultados!de!medicamentos!multiingredientes!y!su!representatividad!en!la!muestra!...!142!

! ! XIII!

8.5.!Resultados!y!métricas!de!los!mapeados!de!la!muestra!entre!OntoFIS!y!SNOMED0CT!......!142!

8.6.!Resultados!de!las!evaluaciones!de!la!ampliación!automática!de!la!ontología!OntoFIS!.....!143!

8.7.!Métricas!de!las!evaluaciones!de!la!ampliación!automática!de!la!ontología!OntoFIS!.........!144!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

XIV!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

! ! XV!

!

Índice!de!figuras!

2.1.!Ejemplo!de!enriquecimiento!de!una!terminología!a!partir!de!un!mapeado.!.......................!10!

2.2.!Las!principales!19!jerarquías!existentes!en!SNOMED0CT.!....................................................!15!

2.3.!Ejemplo!de!las!descripciones!que!se!asocian!a!un!concepto!en!SNOMED0CT.!....................!16!

2.4.!Ejemplo!de!los!cinco!niveles!jerárquicos!de!ATC.!................................................................!17!

2.5.!Jerarquía!de!conceptos!(izquierda)!y!jerarquía!de!relaciones!(derecha)!de!OntoFIS.!..........!19!

2.6.!Ejemplo!de!instancia!de!la!clase!‘Medicamento’!de!OntoFIS.!.............................................!20!

3.1.!Ejemplo!de!instancia!de!la!clase!‘Medicamento’!de!OntoFIS!..............................................!35!

3.2.!Niveles!simplificados!de!la!jerarquía!‘sustancia’!en!SNOMED0CT!........................................!37!

3.3.!Niveles!simplificados!de!la!jerarquía!‘producto!biológico/farmacéutico’!en!SNOMED0CT!..!38!

3.4.!Ejemplo!de!la!representación!de!un!producto!farmacéutico!en!SNOMED0CT!.....................!41!

3.5.!Ejemplo!de!la!instancia!de!un!medicamento!comercializado!en!OntoFIS!...........................!41!

3.6.!Diagrama!de!mapeado!y!ampliación!general!de!la!propuesta!.............................................!44!

4.1.!Situación!del!módulo!de!E+N!en!el!conjunto!general!de!la!propuesta!................................!54!

4.2.!Ejemplo!de!estructura!y!relaciones!semánticas!de!OntoFIS!................................................!56!

4.3.! Fragmento! de! OntoFIS! correspondiente! a! la! instancia! ‘Medicamento_7217’! de! la! clase!‘Medicamento’!............................................................................................................................!57!

4.4.! Fragmento! de! OntoFIS! correspondiente! a! la! instancia! ‘Medicamento_7217’! de! la! clase!‘Medicamento’!............................................................................................................................!57!

5.1.!Situación!del!módulo!EG!en!el!conjunto!general!de!la!propuesta!.......................................!62!

5.2. Esquema del funcionamiento del método EG ....................................................................... 71!

5.3. Relación de medicamentos según los patrones detectados ................................................... 79!

5.4. Representación gráfica de los resultados de las pruebas piloto del método EG ................... 82!

6.1. Situación del módulo de ML en el conjunto general de la propuesta ................................... 88

XVI!

6.2.!Tendencia!en!los!tiempos!de!cómputo!para!procesar!cadenas!...........................................!91!

6.3.!Diagrama!con!el!diseño!general!de!funcionamiento!del!módulo!ML!..................................!94!

6.4.!Ejemplo!de!consulta!SQL!sobre!SNOMED0CT!.......................................................................!96!

6.5. Mapeado simple de NI monoingrediente con una representación subtipo de VTM ........... 102

6.6. Mapeado múltiple de NI monoingrediente con dos representaciones subtipos de VTM .... 102

6.7. Mapeado múltiple de NI multiingrediente con una representación subtipo de VTM y un concepto de SNOMED-CT con múltiples ingredientes ............................................................. 103

6.8. Mapeado múltiple de NI multiingrediente con dos representaciones subtipos de VTM .... 103

6.9. Esquema del funcionamiento del algoritmo SiLeSS ........................................................... 105

6.10. Ejemplo de búsqueda manual usando la aplicación CliniClue Xplore ............................. 107

7.1. Situación del módulo de AAO en el conjunto general de la propuesta ............................... 112

7.2. Representación simplificada de las jerarquías de SNOMED-CT ....................................... 114

7.3. Secuencialización de pasos a seguir por el método propuesto en el módulo AAO ............ 118

7.4. Fragmento de código OWL de OntoFIS para declarar el atributo que recoja la información referente al NES del medicamento ............................................................................................. 118

7.5. Fragmento de código OWL de OntoFIS para almacenar el conocimiento del NES y el NI ................................................................................................................................................ 119

7.6. Fragmento de código OWL de Edad_2 creada automáticamente ....................................... 120

7.7. Fragmento de código OWL de OntoFIS para almacenar el conocimiento del mapeado sobre SNOMED-CT ............................................................................................................................. 123

8.1. Diagrama del método de selección aleatoria simple con filtrado previo de la selección .... 138

8.2. Gráfica de los máximos grados de similitud en mapeados correctos de medicamentos monoingredientes ....................................................................................................................... 141

8.3. Comparación de los resultados con el estado de la cuestión, tanto en lengua castellana como en lengua inglesa, sin diferenciar la composición de los medicamentos ................................... 147

9.1. Esquema del funcionamiento de MediMap ......................................................................... 152

9.2. Captura!de!la!página!de!selección!de!medicamentos!de!la!demo!de!MediMap!...............!153!

9.3. Captura!de!la!página!de!resultados!de!los!mapeados!de!la!demo!de!MediMap!...............!156!

9.4. Captura de la página de la comparativa del código OWL de OntoFIS de la demo de MediMap .................................................................................................................................... 157

!

1. Introducción

El ámbito de la salud es un dominio en expansión, con múltiples campos de actuación. Dentro de este ámbito, uno de los campos que más directamente afecta a los ciudadanos es el de la farmacoterapéutica, disciplina encargada de buscar, prevenir y resolver problemas relacionados con los medicamentos, para tratar de alcanzar los resultados de salud esperados y mantener o mejorar la calidad de vida del paciente (Hepler, 1990).

En este trabajo se pretende presentar una propuesta que contribuya a paliar, e intentar superar, algunas de las actuales limitaciones en este ámbito tan importante para la sociedad. Como aproximación para conseguir estas mejoras se han intentado combinar las disciplinas de salud con las de sistemas y lenguajes informáticos. El propósito es que el uso de técnicas de procesamiento automático, aplicadas al lenguaje de la salud en castellano, ayude a mejorar y superar algunos de los problemas existentes en el ámbito de la famacoterapéutica.

Debido a la multidisciplinariedad de este trabajo se ha considerado conveniente introducir ciertos conceptos específicos de ambas disciplinas en el Anexo A. En dicho anexo pueden encontrarse las referencias a términos fundamentales y muy utilizados a lo largo de esta Tesis, como Procesamiento del Lenguaje Natural (PLN), ontología o granularidad.

1.1 Motivación

De acuerdo con los marcos legislativos actuales, los ciudadanos de la Unión Europea (UE) tienen la posibilidad de un libre desplazamiento entre los distintos países

Capítulo 1. Introducción.

2"

que la componen1. Dentro de esta movilidad socioeconómica no hay que olvidar los aspectos relacionados con la salud. Los ciudadanos se desplazan, no sólo con características propias como el idioma, sino también con sus características de salud, ya que estos ciudadanos pueden sufrir diversas alteraciones.

Las alteraciones de salud con las que viajan estos ciudadanos pueden ser ‘agudas’, si éstas comienzan de forma repentina y tienen una duración reducida en el tiempo, o bien ‘crónicas’, si son prolongadas. Dependiendo del estado de salud del paciente, los profesionales deberán enfrentarse a distintos tipos de inconvenientes, siendo los más problemáticos aquellos de tipo crónico, ya que tendrán que conocer más datos y, especialmente, los relacionados con su tratamiento farmacológico.

Con estos desplazamientos de ciudadanos se evidencia uno de los problemas fundamentales en el ámbito de la famacoterapéutica, que es la existencia de diferencias terminológicas entre las distintas instituciones (hospitales, centros de salud…), tanto nacionales como extranjeras.

Más allá de las diferencias entre idiomas, cada institución puede utilizar un tipo de sistema terminológico, lo que puede introducir diferencias en las expresiones utilizadas. Estas diferencias pueden provocar ambigüedad y errores en la identificación y administración de los medicamentos, lo cual puede incluso llegar a ser mortal (Regidor y Guitiérrez-Fisac, 2013). Un ejemplo de estas diferencias, en el caso de principios activos (componentes esenciales de un medicamento), son los términos ‘paracetamol’ o ‘acetaminofeno’, cuyo significado (semántica) es el mismo, aunque su representación léxica sea diferente. Otro ejemplo puede observarse en las concentraciones de los medicamentos, donde las concentraciones “20 mg por cada 5 ml” y “4mg/ml” tienen la misma semántica, puesto que ambas se refieren a la misma proporción del principio activo en el medicamento. También existen expresiones que introducen cierta ambigüedad, como “niño”, ya que, dependiendo del país, su edad está acotada de forma diferente. En España, por ejemplo, actualmente se considera niño hasta los 14 años. Estos cambios afectan a varios factores, como que los pacientes considerados como niños son atendidos por un pediatra, o bien a su medicación, ya que, en general, se les administra aquella etiquetada como infantil.

Con todo ello, en España, el profesional sanitario tiene que enfrentarse a múltiples problemas derivados de incompatibilidades entre los sistemas de información sanitarios. Estas dificultades son más evidentes en el caso de la medicación de pacientes no nacionales, al encontrarse con medicamentos desconocidos o con principios activos que no entiende o incluso que no están especificados. En estos casos, el profesional necesita consultar la composición de dichos medicamentos en recursos especializados, lo cual conlleva una serie de inconvenientes. En primer lugar el coste de tiempo que

"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

1" " Debido al Tratado Schengen de 1985. Más información disponible en la siguiente URL: http://europa.eu/legislation_summaries/justice_freedom_security/free_movement_of_persons_asylum_immigration/l33020_es.htm

Capítulo 1. Introducción. "

" " 3"

debe invertir, e incluso puede ocurrir que no encuentre la información necesaria debido a, por ejemplo, descatalogación del medicamento.

Además, pueden producirse errores que pongan en riesgo a los pacientes ya que, aunque el profesional conozca el medicamento, éste puede tener una composición diferente en el país en el que fue recetado. Este es el caso de la especialidad farmacéutica comercializada bajo el nombre de ‘Alka-seltzer©’, la cual en Alemania contiene ácido acetilsalicílico2, mientras que en España este principio activo no forma parte de su composición3. Siguiendo con este ejemplo, en el caso de un paciente crónico que está tomando este medicamento adquirido en Alemania debe de controlarse la posibilidad de aparición de úlcera gástrica o el riesgo de hemorragia, dado el efecto anticoagulante del ácido acetilsalicílico.

Para evitar estos problemas, una solución sería que todos los sistemas de información de este ámbito utilizasen la misma terminología y los mismos métodos de codificación de la información, pero eso no es posible debido al elevado esfuerzo y coste de tiempo que requerirían, tanto su creación como su mantenimiento (Choi, Choi, Choi, Koh y Kim, 2011). Por tanto, es necesario aceptar la existencia de esta variabilidad y buscar cómo aprovechar la tecnología existente para encontrar técnicas que permitan reutilizar la información disponible, independientemente de quién la haya creado o de quién necesite acceder a ella.

Respecto a las terminologías empleadas, para denominar tanto a un medicamento como a los principios activos, o bien la acción que ejercen, hay diversas terminologías. Por ejemplo, en el territorio español, la base de datos de medicamentos comercializados DIGITALIS4 o el catálogo de especialidades farmacéuticas Vademecum Internacional (Vademecum Internacional, 2013) siguen la terminología y los códigos del sistema de clasificación ATC (Anatomical, Therapeutic, Chemical classification system [ATC], 2014). El sistema ATC es utilizado en España desde 2003 (Real Decreto 1348/2003), sin embargo, este sistema de referencia no es común en otros países. Aunque la regla general es que las denominaciones de los principios activos se basen en la Denominación Común Internacional (DCI o International Non-propietary Name, INN), aceptadas por la Organización Mundial de la Salud (World Health Organization, 2013), existen posibles especificaciones o variantes nacionales. Por ejemplo, en España existe la Denominación Oficial Española (DOE), establecida desde 2006 (Ley de garantías y uso racional de los medicamentos y productos sanitarios, 2006), mientras que en el Reino Unido su sistema de referencia es el British Appoved Names (BAN) (British Approved Names, 2007), o en Francia el Dénominations Communes Françaises (DCF) (Dénomination commune française, 2002). Por otro lado, en EEUU utilizan RxNorm (Liu, Ma, Moore, Ganesan y Nelson, 2005) como sistema """""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

2" Alka-Seltzer classic. Bayer HealthCare [citado 12 diciembre 2013]. Disponible en: http://www.pharma.bayer.de/scripts/pages/de/therapiegebiete/schmerz/alka-seltzer/index.php. 3"ALKA-SELTZER Comp. efervescente 2081,8 mg. Vademécum.es [citado 21 enero 2014]. Disponible en: http://www.vademecum.es/medicamento-alka-seltzer_17910. 4 Base de datos mantenida por la Dirección General de Farmacia y Productos Sanitarios del Ministerio de Sanidad, Servicios Sociales e Igualdad.


4"

para denominar los medicamentos genéricos y propietarios (marcas registradas). En la Tabla 1.1 se muestra una comparativa de las terminologías mencionadas.

Tabla 1.1. Ejemplo de diferentes etiquetas léxicas para un mismo concepto, según la terminología utilizada.

Terminología Etiqueta léxica International Nonproprietary Name (INN) o Denominación Común Internacional (DCI)

Paracetamol

Denominación Oficial Española (DOE) Paracetamol British Approved Name (BAN) Paracetamol United States Adopted Name (USAN) Acataminophen (inglés)

Acetaminofeno (castellano) International Union of Pure and Applied Chemistry (IUPAC)

N-(4-hydroxyphenyl)-acetamide (inglés) N-(4-hidroxifenil)-acetamida (castellano)

A pesar de la diversidad existente en las terminologías empleadas, debe asegurarse que, cuando se produce intercambio de información entre diferentes sistemas, el significado preciso de la información intercambiada sea preservado y entendido adecuadamente, por el sistema de información receptor respecto al sistema de información emisor (Romá-Ferri, 2009). Esto se conoce como interoperabilidad semántica, y su objetivo es obtener información interpretable automáticamente y reutilizable por diversas aplicaciones, aunque éstas no hayan participado en su creación. Volviendo al caso de España, para lograr la interoperabilidad semántica en el Sistema Nacional de Salud (SNS), la terminología recomendada por el Ministerio de Sanidad5 es SNOMED-CT (International Health Terminology Standards Development Organisation [IHTSDO], 2010).

Sin embargo, actualmente no existe una interoperabilidad semántica entre las diversas terminologías y recursos de información, lo cual puede provocar ambigüedad en el intercambio de dicha información, y conlleva un elevado riesgo de confusión para los profesionales. De forma global, las diferencias entre los distintos significados asociados a los términos vienen determinadas por diferencias en la variabilidad léxica. Las modalidades de la variabilidad léxica pueden ser: (i) que existan dos términos diferenciados para denominar un mismo concepto (sinonimia), (ii) que exista una misma denominación para identificar a dos instancias u objetos diferentes (polisemia), o (iii) que realmente representaciones léxicas similares se refieran al mismo concepto semántico. En la Tabla 1.1 mostrada anteriomente se pueden observar las diferencias léxicas de un mismo concepto, en relación a diversas terminologías empleadas en este dominio.

"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""

5 “Las TIC en el Sistema Nacional de Salud” se enmarcan dentro del programa Sanidad en Línea, una iniciativa conjunta del Ministerio de Sanidad, Servicios Sociales e Igualdad (MSSSI), Ministerio de Industria, Energía y Turismo (MINETUR) y Comunidades Autónomas con el apoyo del Fondo Europeo de Desarrollo Regional (FEDER).


" " 5"

Una mayor interoperabilidad semántica entre los diversos sistemas de información sanitaria existentes permitiría, no sólo aumentar la fiabilidad, sino también la velocidad en el tratamiento de pacientes. Por ejemplo, conociendo los medicamentos que está tomando un paciente, un sistema automático podría valorar la prescripción para detectar un problema de sobredosis en un paciente con varios medicamentos y el mismo principio activo, evitando así graves riesgos para su salud (Berman, 2004). Incluso se podrían asociar resultados de eficacia relacionados con la presencia de nuevos efectos secundarios.

Queda patente, por tanto, la gran importancia de aportar un método que contribuya a mejorar la interoperabilidad semántica entre los sistemas.

1.2 Objetivos y contribuciones

El objetivo de esta Tesis es proponer un mecanismo basado en PLN para obtener una mayor interoperabilidad semántica entre sistemas de información farmacoterapéutica dentro del marco español. Para ello se propone un método capaz de, a partir de un conjunto de medicamentos comercializados en España, presentes en la ontología farmacoterapéutica OntoFIS (definida en el apartado 3.1.1 del Capítulo 3), obtener sus mapeados respecto a la terminología de referencia en España, SNOMED-CT (definida en el apartado 3.1.2 del Capítulo 3), y con ello aumentar el conocimiento existente en OntoFIS. Esta ampliación de conocimiento podrá venir tanto de la explicitación del mismo como de nuevo conocimiento inferido.

Para lograr ese objetivo se han establecido una serie de etapas u objetivos específicos, las cuales son:

1. Crear un método capaz de equiparar las granularidades de dos ontologías o terminologías. En ocasiones, dos terminologías no pueden ser mapeadas directamente debido a que no tienen el mismo nivel de especificidad (granularidad), como ocurre con OntoFIS y SNOMED-CT, por lo que será necesario crear un método que sea capaz de equiparar dichas granularidades.

2. Obtener un método capaz de mapear etiquetas entre diferentes terminologías, en castellano, dentro del dominio de salud, basándose en métodos PLN que maximicen la eficacia, sin comprometer la eficiencia. De esta forma, se espera poder establecer un mapeado entre el conocimiento farmacoterapéutico contenido en la ontología OntoFIS y la terminología SNOMED-CT para el idioma castellano.


6"

3. Crear un método capaz de ampliar el conocimiento de OntoFIS a partir del mapeado establecido entre la ontología OntoFIS y la terminología SNOMED-CT.

1.3 Hipótesis

Para la realización de los objetivos se ha partido de las siguientes hipótesis, las cuales se intentarán demostrar mediante experimentación.

1. La primera de las hipótesis es que reconociendo los componentes regulares que constituyen la denominación de un medicamento comercializado en España, es factible su descomposición y la creación automática de una nueva etiqueta identificativa para el medicamento que, manteniendo la máxima igualdad semántica, equipare un nivel de granularidad al existente en la terminología SNOMED-CT.

2. La segunda de las hipótesis es que si dos etiquetas tienen la misma representación léxica, entonces se establece que son equivalentes en cuanto a su semántica. En la literatura esto se conoce como ‘emparejamiento exacto’ (del inglés ‘exact match’).

3. La tercera hipótesis es que es posible discernir el grado de similitud entre dos etiquetas aplicando métodos de similitud léxica, y usando un valor de umbral que determine a partir de qué punto se podrá establecer que, efectivamente, existe equivalencia entre dos etiquetas.

4. La última de las hipótesis es que una capa de semántica superficial será capaz de ayudar a discernir cuándo dos etiquetas no son equivalentes, en base a unas reglas léxicas.

1.4 Organización de la Tesis

En este primer capítulo se han presentado brevemente los problemas actuales dentro del sistema de salud español e internacional. También se han presentado los objetivos a conseguir y las hipótesis a demostrar en este trabajo.

En el segundo capítulo de la Tesis se presenta el estado actual de la cuestión, estudiando y analizando las diferentes propuestas en el dominio de la informática


" " 7"

médica, especialmente en farmacoterapéutica. Finalmente se analizan cuáles son los problemas aún sin resolver.

En el tercer capítulo se presenta una visión global de la propuesta, enumerando y explicando brevemente la finalidad y los métodos empleados en los diferentes módulos. La finalidad de este capítulo es aportar una idea global del funcionamiento de la propuesta, sin detallar exhaustivamente el proceso de cada uno de los módulos que la componen. Un nivel de detalle más específico es establecido en los capítulos siguientes, dedicando un capítulo para cada uno de los diferentes módulos.

Hasta el séptimo capítulo se detallan los materiales, técnicas y procedimientos empleados en los cuatro módulos que componen la propuesta. A excepción del cuarto capítulo, cada uno de los otros tres capítulos incluye las pruebas experimentales a que fueron sometidos (tanto pruebas cualitativas, como pruebas piloto iniciales, y que fueron realizadas para la evaluación específica de dicho módulo), la explicación de las pruebas, los resultados obtenidos, la discusión de los mismos y las conclusiones parciales extraídas.

En el octavo capítulo se detalla el procedimiento seguido para la evaluación de la totalidad de la propuesta mediante una prueba global de verificación. A diferencia de las pruebas experimentales iniciales, esta prueba ha sido diseñada para cumplir los requisitos exigibles para poder obtener una confianza en los resultados del 95%, con un error máximo del 5%.

En el noveno capítulo se introduce la herramienta MediMap. Se trata de una implementación web de la propuesta presentada en esta Tesis, que persigue mostrar tanto el funcionamiento de la misma como algunas de sus funcionalidades. En este capítulo se detalla la estructura de la herramienta, sus características y una breve guía de uso y funcionamiento.

En el décimo capítulo se muestran las conclusiones extraídas de este estudio, las posibles contribuciones prácticas que se pueden conseguir con el estado actual de la investigación a corto plazo y las futuras líneas de investigación que se abren en base a los resultados obtenidos.

Se incluye un capítulo final con información adicional. En este último capítulo se encuentran los anexos. Recoge diagramas, tablas, fragmentos de código OWL, etc. que muestran información complementaria de valor para la comprensión o la ilustración de las entidades tratadas.

2. Estado de la Cuestión

Como se puede desprender del capítulo anterior, la interoperabilidad semántica es un tema imprescindible en el entorno sanitario, y cada vez más crítico como elemento clave en dos objetivos fundamentales: por una parte, para delimitar el significado de los términos empleados por los profesionales y por otra, para facilitar la explicitación formal para que los sistemas de información puedan compartir, analizar y explotar adecuadamente la información, más allá de un simple intercambio entre sistemas de información (Andronache, Simoncello, Della Mea, Daffara y Francescutti, 2012; De la Torre, González y López-Coronado, 2013). La importancia de poder interconectar semánticamente las diferentes fuentes de conocimiento queda patente al comprobar que ha sido establecido como uno de los objetivos fundamentales para el ámbito médico en el congreso patrocinado por la Biblioteca Nacional de Medicina estadounidense –NLM– (Friedman, Rindflesch y Corn, 2013).

Las técnicas de Procesamiento de Lenguaje Natural (PLN) juegan una parte fundamental del proceso para lograr la interoperabilidad semántica. Actualmente la gran mayoría de la información se encuentra almacenada de forma narrativa, lo que dificulta su acceso, su localización y su procesado. Sin embargo, gracias al PLN es posible transformar el conocimiento existente en datos estructurados, lo que posibilita obtener nuevos niveles de información, como al descomponer la denominación de un medicamento en su nombre de especialidad, concentración y forma farmacéutica. A través de estos procesos se pretende conseguir nuevas formas de mejorar el cuidado de los pacientes (Friedman, Rindflesch y Corn, 2013).

Así pues, la interoperabilidad semántica entre terminologías es la finalidad a perseguir, y consta de diversas tareas. Una de estas tareas es la de establecer una serie de correspondencias semánticas entre las diferentes terminologías. Estas correspondencias semánticas, también conocidas como mapeados, sirven para explicitar que diversos conceptos o términos mantienen el mismo significado semántico aunque sus representaciones léxicas sean diferentes. Por ejemplo, el término “paracetamol”

Capítulo 2. Estado de la Cuestión.

!10!

tiene como sinónimo “acetaminofeno”, y ambos tienen el mismo significado que “acetaminophen” en lengua inglesa.

Una vez se consiguen mapear dos terminologías, a partir de las relaciones establecidas, es posible incorporar a una de las terminologías parte del conocimiento de la otra. A esto se le conoce como ampliación o enriquecimiento de la ontología. En la Figura 2.1 se muestra, de forma gráfica, un sencillo ejemplo de enriquecimiento de una terminología A, a partir de un mapeado existente sobre una terminología B.

Nota aclaratoria: Puesto que se han mapeado los conceptos A3 y B3, esto indica que son equivalentes

semánticamente, por lo que es posible incorporar los conceptos B4 y B5 a la terminología A. Figura 2.1. Ejemplo de enriquecimiento de una terminología a partir de un mapeado.

En este capítulo se detallarán los trabajos que se han llevado a cabo en el campo del PLN, centrándose en el dominio de la salud y detallando las diferencias que existen frente a otros ámbitos. Dentro del PLN en el ámbito de la salud, se estudiará tanto el existente a nivel internacional como aquel desarrollado en lengua castellana. Primeramente, el análisis se centrará en aquellos estudios focalizados en los mapeados de terminologías. Seguidamente, se estudiarán las diferentes técnicas que se han llevado a cabo sobre el enriquecimiento del conocimiento en ontologías. En ambos casos, el análisis se relaciona con las aportaciones de esta Tesis. Finalmente se estudiarán las limitaciones aún existentes, en la interoperabilidad semántica, entre recursos del dominio de la salud.

2.1 PLN en el ámbito de la salud

El primer trabajo encontrado en este dominio pertenece a Sager, Friedman y Lyman (1987), quienes demostraron que era posible estructurar la información clínica

Capítulo 2. Estado de la Cuestión. !

! 11!

narrativa, incluida en los documentos asistenciales que empleaban los profesionales. Desde los primeros trabajos en este dominio se han aplicado tareas clásicas del PLN, como técnicas de extracción de información.

Tras Sager y equipo, otros autores continuaron los esfuerzos para demostrar los beneficios de aplicar técnicas de PLN en el ámbito de la salud, como técnicas léxicas y semánticas (Haug, Koehler, Lau, Wang, Rocha y Huff, 1994). Ya desde los primeros trabajos comenzaron a utilizarse recursos semánticos como UMLS (McCray, 1991) o SNOMED-CT (Moore y Berman, 1994), los cuales siguen estando entre los más usados hoy en día.

Tras haber demostrado que el uso de PLN podía ser útil y era factible dentro del ámbito de la salud, comenzaron los esfuerzos para mejorar los cuidados clínicos. Uno de los trabajos pioneros en este aspecto fue el de Hripcsak, Friedman, Alderson, DuMouchel, Johnson y Clayton (1995), quienes aplicaban técnicas de PLN para la extracción de información contenida de forma narrativa en los informes clínicos.

Más recientemente cabe destacar trabajos como el de Alfonseca y Manandhar (2002), sobre el reconocimiento de entidades nombradas, o el de Valencia-García y equipo (2004), sobre el descubrimiento automático de conocimiento en textos médicos.

En una reunión de expertos en la materia realizada recientemente (Friedman et al., 2013) analizaron las limitaciones y logros en el dominio y cuáles son las principales líneas a seguir. Estuvieron de acuerdo en que uno de los mayores problemas que, aún actualmente, no ha sido resuelto, es la falta de sistemas de evaluación y conjuntos de documentos anotados que permitiesen evaluar los resultados de forma automática. Este problema se debe, en gran medida, a que una de las características del dominio de la salud es la sensibilidad de los datos, lo cual dificulta la creación de estos repositorios de documentos. Por ejemplo, en el caso de España, se establece el máximo nivel de protección para los datos relativos a la salud, impidiendo el tratamiento o el acceso no autorizado (tal cual expresan los artículos 7, 8 y 9 de la Ley Orgánica 15/1999). La anonimización de este tipo de documentos permitiría poder usarlos en investigación. Es por ello que en los últimos años se vienen realizando esfuerzos en la anonimización de documentos que permitan, posteriormente, su procesamiento automatizado manteniendo la privacidad de los pacientes (Meystre, Friedlin, South, Shen y Samore, 2010). Estas técnicas, aunque son mencionadas por su importancia en un futuro inmediato, quedan fuera del ámbito de esta Tesis.

Otro ejemplo de las singularidades de este dominio es, precisamente, su terminología. Esto puede observarse en la creación de herramientas específicas para el mismo. Una de las técnicas más utilizadas en PLN es la de utilizar un lematizador, el cual reduce los términos a su raíz, de forma que se evita la ambigüedad y la variabilidad provocadas por las diferencias léxicas del género y número de las palabras. Sin embargo, dadas las características de los términos utilizados en salud, los lematizadores clásicos no siempre aportan los resultados deseados (Mougin, Burgun y Bodenreider, 2012). Es por ello que Liu, Christiansen, Baumgartner y Verspoor (2012) han centrado


!12!

sus esfuerzos en la creación de la herramienta llamada BioLemmatizer, la cual permite utilizar un lematizador especializado en el dominio de salud que trabaja en inglés.

Una vez vistas algunas de las características del ámbito de la salud, conviene también conocer los recursos específicos que sirven de apoyo a las aproximaciones llevadas a cabo. Debido a la gran cantidad de recursos terminológicos existentes en salud, y puesto que este trabajo se centra en el campo de la farmacología, a continuación se describen los recursos más utilizados en dicho campo.

2.2 Recursos de conocimiento en el ámbito farmacoterapéutico

Los profesionales de la salud hacen uso constantemente de las terminologías específicas en sus tareas, incluyéndolas en los textos narrativos. Sin embargo, para identificar estas terminologías en los textos es necesario el procesamiento de éstos mediante técnicas de PLN. Identificar estas terminologías es importante ya que constituyen una fuente de conocimiento. Por tanto, es fundamental conocer tanto las terminologías generales de salud como las específicas del ámbito farmacoterapéutico.

De acuerdo a su funcionalidad y composición, entre los recursos más utilizados en el campo de la farmacología se encuentran recursos de ámbito general en salud, como son UMLS6 y SNOMED-CT (IHTSDO, 2010). Entre aquellos de ámbito específico se encuentran RxNorm7 (para medicamentos comercializados en los Estados Unidos), los códigos ATC8 (una codificación para identificar y categorizar los medicamentos) o la ontología OntoFIS (Romá-Ferri, 2009), un recurso especializado en farmacoterapéutica, poblado con medicamentos comercializados en España. Las terminologías más generales sirven en muchos casos como puentes entre vocabularios específicos, gracias a que existen mapeados entre ellas, como los mapeados entre UMLS y RxNorm.

En esta sección se detallarán las características de cada uno de estos recursos, partiendo del más general dentro del ámbito de salud (UMLS) hasta el más específico (OntoFIS), para aportar una visión general del conocimiento representado y su potencial valor como recursos para el PLN.

Un aspecto fundamental a tener en cuenta al tratar con terminologías farmacoterapéuticas es comprender qué tipo de información identifica a un medicamento.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

6 UMLS: Unified Medical Language System. Accesible desde la URL http://www.nlm.nih.gov/research/umls/ 7 RxNorm está incluida dentro de UMLS, y es accesible desde la URL https://www.nlm.nih.gov/research/umls/rxnorm/ 8 La lista de códigos ATC actualizada puede encontrarse en la URL http://www.whocc.no/atc_ddd_index/


! 13!

Un medicamento viene determinado por tres características fundamentales: (i) el nombre del medicamento o sus principios activos, (ii) la concentración y (iii) la forma farmacéutica.

Algunos ejemplos de la primera de las características fundamentales de un medicamento (sus principios activos) son el ácido acetilsalicílico, el ibuprofeno o el paracetamol. Estos ingredientes pueden aparecer de forma única, en cuyo caso se denominará medicamento mono-ingrediente, o bien en conjunto, en cuyo caso se denominará medicamento multi-ingrediente. Aunque los ingredientes son una parte fundamental del medicamento, en ocasiones se utiliza simplemente su nombre comercial, como por ejemplo Aspirina©.

La segunda característica fundamental que identifica un determinado medicamento, es la concentración de sus ingredientes. Esta concentración establece la cantidad exacta de cada uno de los principios activos que componen el medicamento.

Finalmente, la tercera característica fundamental es la forma farmacéutica, que indica la forma física en la que se distribuye el medicamento. Algunos ejemplos de formas farmacéuticas son comprimidos, cápsulas o inyectables. Así pues, el medicamento “Aspirina 500 mg comprimidos efervescentes” establece que el nombre comercial es Aspirina, que la concentración de ácido acetilsalícilico (es su principio activo, aunque no aparezca especificado en la etiqueta de denominación del medicamento, pero sí aparecerá en otras fuentes de conocimiento, como el prospecto) es de 500 mg, y que se distribuye en forma de comprimidos efervescentes.

Como se puede observar, el nombre del medicamento no siempre contiene toda la información esencial. En el ejemplo anterior no está explicitado el principio activo ácido acetilsalicílico, en otros casos pueden no constar todos los ingredientes o las concentraciones de alguno de ellos. Es de vital importancia poder contar con un recurso en el que consten todos los datos necesarios, concretos y fiables. Además, es deseable que este recurso contenga información no sólo de los medicamentos comercializados en territorio español, sino también en el ámbito internacional.

Queda, por tanto, patente la importancia de establecer mapeados entre OntoFIS, que contiene medicamentos comercializados en España, y SNOMED-CT, que es una terminología de referencia internacional.

2.2.1 UMLS

UMLS son las siglas en inglés del Unified Medical Language System. Actualmente se trata del repositorio terminológico más amplio existente en el ámbito de la salud, gracias a la combinación de varios vocabularios, con el fin de ayudar en la interoperabilidad semántica entre sistemas. UMLS está compuesto por varios vocabularios (aunque muchos son versiones, revisiones o traducciones de una misma terminología), en un total de 20 idiomas. Sin embargo, la mayoría de los vocabularios están únicamente en lengua inglesa. Mientras que la lengua inglesa cuenta con 112


!14!

vocabularios, idiomas como el español, el alemán y el holandés sólo cuentan con 6 vocabularios cada uno. Es evidente, por tanto, la gran disparidad de conocimiento disponible entre la lengua inglesa y la castellana.

En cuanto a su estructura, UMLS se compone de tres fuentes de conocimiento: el Metatesaurus, la Red Semántica y el Lexicón SPECIALIST.

El Metatesaurus contiene una gran base de datos de vocabularios con diversa cobertura temática, y es de carácter multilingüe. La información contenida en relación con la farmacoterapéutica se compone de representaciones de medicamentos denominadas formas semánticas normales (SNF, del inglés Semantic Normal Form), las cuales pueden ser SCDC (SNF Drug Component) para identificar los diferentes ingredientes, o bien SCD (SNF Clinical Formulation) para identificar a medicamentos. Esta última está compuesta por el nombre del medicamento de forma genérica, los identificadores de los SCDC correspondientes a sus principios activos y su forma farmacéutica (Nelson et al., 2002).

La Red Semántica tiene como finalidad aportar una categorización consistente de todos los conceptos representados en el Metatesaurus, incluyendo las relaciones entre dichos conceptos. Cuenta con unos atributos denominados ‘Tipos Semánticos’, los cuales se asocian a los conceptos, y definen el conjunto de relaciones que pueden establecerse entre los diferentes Tipos Semánticos. La Red Semántica está formada por 133 tipos semánticos y 54 relaciones que describen el conocimiento aceptado del dominio.

El Lexicón SPECIALIST está pensado para ser un lexicón general del inglés, que además contiene términos biomédicos, cuya principal finalidad es la de servir como herramienta de ayuda para el PLN. Cada entrada de dicho lexicón recoge información sintáctica, morfológica y ortográfica de una palabra inglesa.

2.2.2 SNOMED-CT

SNOMED-CT es una terminología clínica que proporciona contenido para informes y documentación clínica, y se encuentra incluida dentro de UMLS. En SNOMED-CT los conceptos se organizan de forma jerárquica y pueden estar relacionados entre sí mediante relaciones semánticas, tales como “tiene componente activo”, que relaciona un fármaco con sus principios activos.

Más importante aún, cuando una descripción empleada para identificar un concepto deja de ser útil (por motivos como estar obsoleta, ser errónea o demostrarse su ambigüedad) ésta no se elimina, sino que queda marcada como inactiva. De la misma forma, cuando un concepto queda marcado como inactivo, éste no se elimina de SNOMED-CT. Gracias a esto, los sistemas que usen descripciones o conceptos obsoletos pueden mantener el intercambio con otros sistemas terminológicos actualizados. Es por ello que SNOMED-CT es un recurso de conocimiento que paulatinamente se está imponiendo como una terminología de referencia (como puente


! 15!

para facilitar la interoperabilidad semántica). Actualmente SNOMED-CT cuenta con dos versiones: una en inglés y otra en castellano. En la versión utilizada en esta Tesis (versión internacional en castellano, del 30 de abril de 2011), la terminología SNOMED-CT contiene aproximadamente 700.000 descripciones en español para referirse a los más de 293.000 conceptos activos representados.

Tal y como se muestra en la Figura 2.2, SNOMED-CT está organizada en 19 jerarquías, siendo dos principalmente las que contienen información relativa a la farmacoterapéutica: (i) ‘sustancia’, que incluye conceptos relacionados con sustancias químicas, corporales, alimenticias y diagnósticas, y (ii) ‘producto biológico/farmacéutico’, jerarquía que incluye información relativa a los productos. Cada concepto de la jerarquía de productos farmacoterapéuticos se encuentra vinculado con al menos un concepto de la jerarquía de ‘sustancia’.

Nota aclaratoria: En la figura aparecen resaltadas las dos jerarquías que contienen información relevante

desde un punto de vista farmacoterapéutico. Figura 2.2. Las principales 19 jerarquías existentes en SNOMED-CT.

A modo ilustrativo de la forma en la que SNOMED-CT utiliza descripciones para identificar sus diversos conceptos, en la Figura 2.3 se muestra cómo se representa en SNOMED-CT un medicamento con ‘paracetamol’ como principio activo (cuyo


!16!

término sinónimo es ‘acetaminofeno’), con una concentración de ‘325 mg’ y cuya forma farmacéutica es ‘cápsulas’.

Nota aclaratoria: Debido al espacio limitado de la página no se han podido mostrar las líneas tal y como aparecen en los ficheros de SNOMED-CT, habiendo tenido que dividir cada línea en dos. Los puntos

suspensivos indican dichos saltos en la continuidad de las líneas. Figura 2.3. Ejemplo de las descripciones que se asocian a un concepto en SNOMED-CT.

Como se verá más detalladamente en el apartado 3.1.2 del Capítulo 3, en SNOMED-CT los medicamentos se representan mediante dos niveles diferentes de granularidad. Un primer nivel, denominado virtual, cuya principal característica es que en lugar del nombre comercial del medicamento se incluyen sus principios activos, y se elimina cualquier información acerca de la forma en la que se distribuye (como empaquetado, cantidad de producto…), y un segundo nivel, denominado real, muy similar al virtual pero incluyendo el nombre comercial.

2.2.3 ATC

Las siglas ATC significan sistema de clasificación anatómica, terapéutica, química (Anatomical, Therapeutic, Chemical classification system). Los códigos ATC representan un índice de sustancias farmacológicas y medicamentos, organizados según grupos terapéuticos. El sistema fue creado, y es mantenido, por la Organización Mundial de la Salud (OMS). Esta clasificación es ampliamente usada en Europa para la identificación y categorización de los medicamentos (Mougin et al., 2012).

La finalidad de los códigos es la de representar, mediante una codificación alfanumérica, el sistema u órgano sobre el que actúa un determinado producto farmacológico, así como sus efectos, indicaciones terapéuticas y estructura química del mismo. Con este fin se ha desarrollado un sistema jerárquico de cinco niveles:

• Nivel 1: Anatómico. Identificado por una letra, se refiere al órgano o sistema en el cual actúa el fármaco. Existen 14 grupos en total. Por ejemplo, el código de nivel 1 ‘N’ denota que el medicamento afecta al sistema nervioso.

• Nivel 2: Subgrupo terapéutico. Identificado por un código numérico de dos cifras, asociadas con el nivel 1. Por ejemplo, el código de nivel 2 ‘N02’

DESCRIPTIONID DESCRIPTIONSTATUS CONCEPTID TERM … 1565130015 0 370152009 acetaminofeno, 325 mg, cápsula (producto)… 1629062012 0 370152009 acetaminofeno, 325 mg, cápsula … … INITIALCAPITALSTATUS DESCRIPTIONTYPE LANGUAGECODE … 0 3 es … 0 1 es


! 17!

identifica que un medicamento pertenece al subgrupo terapéutico de los analgésicos.

• Nivel 3: Subgrupo terapéutico o farmacológico. Identificado por una letra, asociada con el nivel 2. Por ejemplo, el código de nivel 3 ‘N02B’ indica que el medicamento pertenece al grupo farmacológico de “otros analgésicos y antipiréticos”.

• Nivel 4: Subgrupo terapéutico, farmacológico o químico. Identificado por una letra del alfabeto, asociada con los niveles previos. Por ejemplo, el código ‘N02BE’, sitúa al fármaco dentro del grupo químico de las anilidas.

• Nivel 5: Nombre del principio activo o de la asociación farmacológica. Identificado por un código de dos cifras. Por ejemplo, el código ‘N02BE01’ identifica que el principio activo del medicamento es paracetamol.

Es necesario remarcar que para un determinado principio activo, según sus propiedades terapéuticas, es posible que tenga asociado más de un código ATC. En la siguiente figura se ilustra de forma gráfica el ejemplo del código ATC N02BE01, correspondiente al principio activo paracetamol.

Nota aclaratoria: En la figura se muestra el código ATC N02BE01, correspondiente al principio activo

paracetamol. Figura 2.4. Ejemplo de los cinco niveles jerárquicos de ATC.

2.2.4 RxNorm

RxNorm proporciona nombres normalizados de medicamentos clínicos, y vincula sus denominaciones con otros vocabularios de medicamentos, de uso común en la gestión de la farmacia y en software de interacción de medicamentos, en Estados Unidos. Al ofrecer vínculos entre vocabularios, RxNorm persigue facilitar la interoperabilidad semántica entre sistemas de información en EE.UU.

En el caso de RxNorm, los medicamentos almacenados se dividen en genéricos y con marca (nombre comercial), de forma que para cada tipo se establecen cuatro subcategorías con niveles de especificidad precisos. Para los medicamentos genéricos las subcategorías son (i) sólo los ingredientes, (ii) ingredientes y concentración, (iii) ingredientes y forma farmacéutica y (iv) ingredientes, concentración y forma


!18!

farmacéutica. La última forma de representar un medicamento, subcategoría (iv), es también coincidente con la representación que se incluye en SNOMED-CT. Para los medicamentos con marca, las cuatro subcategorías son: (i) sólo nombre de la marca, (ii) nombre de la marca y concentración, (iii) nombre de la marca y forma farmacéutica y (iv) nombre de la marca, concentración y forma farmacéutica (Pathak y Chute, 2010), coincidiendo con la información que emplean los médicos cuando recetan un medicamento.

2.2.5 OntoFIS

OntoFIS (Romá-Ferri, 2009) es un recurso ontológico con información semántica en farmacoterapéutica. El conocimiento incluido se encuentra representado a partir de conceptos y relaciones. Además, está poblado con instancias. Los conceptos, que representan conocimiento especializado en el dominio farmacoterapéutico, incorporan las distintas denominaciones empleadas en lenguaje natural (sinónimos) y su traducción en cuatro idiomas (además del castellano): inglés, francés, alemán e italiano. El total de conceptos explicitados son 23, con una representación conceptual de granularidad intermedia. En OntoFIS, además, las relaciones empleadas se encuentran jerarquizadas para dotarlas de una mayor semántica (identificadas en castellano y en inglés). Por último, las instancias sirven para incluir conocimiento léxico identificando su significado. Por ejemplo, “Clonazepam” es una instancia de la clase ‘PrincipioActivo’, mientas que “Clonazepam 2mg comprimidos” es una instancia de la clase ‘Medicamento’. Dichas instancias están relacionadas mediante la relación ‘composes_1.1.1/compone_1.1.1’, que es un hipónimo de la relación ‘part_of_1.1/parte_de_1.1’ (a partir de la jerárquía de las relaciones declaradas).

En la Figura 2.5 puede observarse la jerarquía de conceptos (parte izquierda) y la de relaciones (parte derecha) existente en OntoFIS. Esta jerarquía muestra parte de la riqueza semántica declarada, y en ella pueden verse algunas de las singularidades propias de las ontologías, como la herencia múltiple del concepto ‘Medicamento’ (parte izquierda), que es hipónimo simultáneamente de los conceptos ‘GrupoTerapeutico’ y ‘PrincipioActivo’ (parte izquierda).


! 19!

Figura 2.5. Jerarquía de conceptos (izquierda) y jerarquía de relaciones (derecha) de OntoFIS.

La información en OntoFIS se encuentra codificada siguiendo el formato OWL 1.1, estando compuesta por 23 clases y 639 relaciones explicitadas a partir de los 41 tipos de relaciones empleadas. Se cuenta con dos versiones pobladas de OntoFIS. La versión 6.1 R7 cuenta con más de 38000 instancias, y la versión 7 R2 con más de 45000. En cuanto a las instancias que pueblan OntoFIS, ambas versiones tienen prácticamente la misma proporción, siendo la mayor parte de sus poblaciones instancias que corresponden a medicamentos (en torno al 80%) y a principios activos (en torno al 17%). El resto de instancias corresponden, por orden decreciente, a compuestos químicos, grupos terapéuticos, formas farmacéuticas, vías de adminsitración y unidades de medida.

OntoFIS fue poblada mediante un método semi-automático, partiendo de la información contenida en la base de datos DIGITALIS. La diferencia entre la población


!20!

de ambas versiones de OntoFIS recae en la versión de la base de datos DIGITALIS usada en cada caso (para la versión 6.1 R7 se usó la versión 09/2009 de DIGITALIS, mientras que para la 7 R1 de OntoFIS se utilizó la 03/2011). En total se dispone de 35782 medicamentos en la versión 6.1 R7 y de 30826 en la versión 7 R2, aunque existe solapamiento entre ellas.

Seguidamente, se muestra la forma de representar un medicamento en OntoFIS, a partir del principio activo ‘paracetamol’, con una concentración de ‘650 mg’ y una forma farmacéutica de ‘comprimido’, cuyo nombre de especialidad es “PARACETAMOL PHARMAGENUS 650MG 40 COMPRIMIDOS EFG” (nombre con el que se comercializa el medicamento).

Figura 2.6. Ejemplo de instancia de la clase ‘Medicamento’ de OntoFIS.

Una vez vistas las características del ámbito de la salud y de los recursos de conocimiento más usados en este dominio, el siguiente paso es analizar los progresos que se han hecho relacionados con los objetivos de esta Tesis. En primer lugar, se analizarán, de forma conjunta, los esfuerzos realizados en el campo de equiparación de granularidades y mapeado de terminologías (apartado 2.2). Seguidamente, se analizarán los esfuerzos realizados respecto al enriquecimiento de ontologías (apartado 2.3).

<Medicamento rdf:about=”#Medicamento_645”> <Medicamento..ID> 645 </Medicamento..ID> <Medicamento..nombre_medicamento_espanya> PARACETAMOL PHARMAGENUS 650MG 40 COMPRIMIDOS EFG </Medicamento..nombre_medicamento_espanya> […] </Medicamento> <PrincipioActivo rdf:about="#PrincipioActivo_5605"> <PrincipioActivo..ID>5605</PrincipioActivo..ID> <PrincipioActivo..nombre_generico xml:lang="es"> PARACETAMOL <PrincipioActivo..nombre_generico> <PrincipioActivo..codigo_OMS>N02BE01</PrincipioActivo..codigo_OMS> <PrincipioActivo..concentracion> 650,00 MG </PrincipioActivo..concentracion> <PrincipioActivo..estado_uso>CATALOGADO</PrincipioActivo..estado_uso> <requires_4.4 rdf:resource="#UnidadMedida_1"/> <composes_1.1.1 rdf:resource="#Medicamento_645"/> […] </PrincipioActivo>


! 21!

2.3 Uso de PLN en el mapeado de terminologías

Antes de poder realizar un mapeado efectivo, es necesario comprender la naturaleza de cada una de las terminologías a mapear. Teniendo en cuenta la finalidad y utilidad con las que una terminología fue creada, ésta puede presentar diferentes características. Dependiendo del dominio al que vaya dirigida, dicha terminología presentará una determinada temática y estructura, y esto definirá también su grado de especificidad (como globalmente se ha presentado en el anterior apartado). Es por ello que cuando se intenta mapear terminologías con diferentes coberturas y granularidades debe atenderse a los huecos de conocimiento existentes, ya que ambas terminologías sólo podrán contener el mismo tipo de conocimiento hasta un cierto grado de especificidad. Por ejemplo, la terminología SNOMED-CT no fue concebida como un repositorio de los medicamentos comercializados, sino como una terminología clínica de uso general. Por tanto, no contiene los medicamentos específicos comercializados en los diferentes países, sino lo que denominan representaciones virtuales de los mismos, dejando las representaciones ‘reales’9 para las extensiones regionales de SNOMED-CT.

Es necesario que, para poder mapear dos terminologías, exista cierto nivel de solapamiento (redundancia de información entre ellas), aunque se trate de terminologías con diferente finalidad y, por consiguiente, con diferentes niveles de especificidad. Esto es así ya que ese solapamiento es lo que permite intercambiar información entre ambos recursos (interoperabilidad semántica).

Una vez se conocen las características específicas de las terminologías a mapear, existen varias formas de realizar el mapeado. Atendiendo al grado de intervención humana requerida, es posible establecer tres tipos de métodos. En primer lugar existen los métodos manuales, donde los expertos humanos realizan el proceso de mapeado con nula o escasa ayuda de procesamiento por parte de computadores, limitándose este procesamiento a la recuperación de información de bases de datos o listados. Este tipo de procesos aportan una gran fiabilidad, pero implican un gran consumo de tiempo y esfuerzo. En segundo lugar existen los denominados métodos semiautomáticos, que cuentan con un nivel medio o alto de procesamiento automatizado, requiriendo la supervisión y validación por expertos humanos en, al menos, un punto del proceso. Finalmente, existen los denominados métodos automáticos, donde no se requiere ningún tipo de intervención humana durante el proceso. Este tipo de métodos son los que implican menor tiempo y esfuerzo, en comparación con el tiempo y esfuerzo requeridos si se utilizase alguno de los métodos anteriores. El hecho de que el proceso no sea supervisado por expertos humanos puede llevar a pensar que existe un menor grado de fiabilidad, pero esto no siempre es cierto. De hecho, se han logrado altos grados de

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

9!Denominadas así en la documentación de SNOMED-CT, refiriéndose a las especialidades farmacéuticas que incluyen el nombre utilizado en la comercialización de los medicamentos, también conocido como nombre de especialidad.


!22!

cobertura y precisión con métodos totalmente automáticos, como se muestra a lo largo de este capítulo.

Para realizar mapeados mediante métodos semi-automáticos o automáticos es necesario tener en cuenta, además de las consideraciones anteriores, que las terminologías utilizadas en el dominio de la salud han sido concebidas por y para profesionales y no para ser procesadas y entendidas por ordenadores. Las terminologías nacen como expresiones controladas para profesionales, diferenciándose del lenguaje natural tradicional, donde un término es una palabra. En las terminologías, un término puede ser una palabra compuesta, un sintagma preposicional o incluso frases coordinadas o subordinadas con alguna negación. Por ejemplo, “neumonía no identificada anteriormente”.

Esto supone que, aunque algunas constan de cierta codificación pensada para ser usada en sistemas informáticos, la información semántica suele estar expresada en lenguaje natural (Wang, Patrick, Miller y O'Hallaran, 2008). En este sentido, muchas terminologías cuentan con códigos identificativos, pero éstos suelen usarse con fines estadísticos, e incluso un mismo código puede tener variaciones en el tiempo. Por ejemplo, en el caso del código 49 de la terminología NANDA-I (una terminología multilíngüe de diagnósticos de enfermería), en la versión 2007/2008 tiene asociada la etiqueta terminológica “Capacidad adaptativa intracraneal disminuida”, pero en la siguiente edición es cambiada por “Disminución de la capacidad adaptativa intracraneal”. Por este motivo, para poder procesar dichas terminologías de forma semi-automática o automática, se hace necesario aplicar técnicas de PLN (Cruanes, Romá-Ferri y Lloret, 2012a, 2012b).

Para intentar resumir los esfuerzos que se han llevado a cabo en esta tarea, a continuación se van a analizar aquellos realizados tanto para lengua inglesa como castellana.

Entre los trabajos del PLN para el mapeado de terminologías es posible hacer una distinción entre tres aproximaciones: (i) basadas en estructura, (ii) basadas en léxica y (iii) basadas en mapeados existentes. Si bien la última aproximación también engloba trabajos de las dos primeras, es necesario detallarla de forma separada ya que parten de desarrollos manuales realizados anteriormente, que les aportan una gran consistencia para la obtención de sus resultados.

Dentro del primer grupo, basadas en la estructura, las técnicas utilizadas hacen uso de recursos semánticos específicos cuya principal característica es la existencia de una jerarquía explícita. Abordando la problemática de las terminologías generales, el trabajo de Fung y Bodenreider (2005) busca relaciones semánticas de términos dentro del propio UMLS y las terminologías que lo componen. De esta forma, consiguen mapear un 86% de los términos de SNOMED-CT respecto a la terminología ICD9CM10, con unos resultados del 42% de cobertura y un 20% de precisión.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

10!En!castellano,!Clasificación!Internacional!de!Enfermedades!9,!Modificación!Clínica!(CIE9MC)!


! 23!

En otra línea, Bodenreider (2008) intenta mapear dos terminologías muy dispares, como son la terminología LOINC (contiene pruebas de laboratorio clínicas) con SNOMED-CT, obteniendo unos bajos niveles de éxito. Bodenreider destaca los problemas debidos a las diferencias de granularidad de las terminologías, ya que mientras que LOINC contiene etiquetas en lenguaje técnico, SNOMED-CT contiene etiquetas que representan los términos usados por los profesionales. Sin embargo, el trabajo de Pathak y Chute (2010) aborda la problemática empleando terminologías específicas, centrando su objetivo en los medicamentos relacionados entre sí por similitudes estructurales y funcionales. Para ello agrupan los medicamentos según su estructura química, mecanismos de acción, efectos fisiológicos, intención terapéutica, y farmacocinética. Pathak y Chute utilizan tres aproximaciones diferentes para realizar los mapeados: (i) clasificación usando la base de datos de RxNorm, (ii) clasificación usando los mapeados de medicamentos entre RxNorm y NDF-RT11, y (iii) clasificación usando mapeados entre los ingredientes de RxNorm y NDF-RT. Los resultados obtenidos en las tres aproximaciones oscilan entre el 45% y el 53% de cobertura.

Por otra parte, en el trabajo de Mougin y equipo (2012), utilizando las terminologías ATC y NDF-RT, hacen uso de las relaciones existentes entre los medicamentos. Aplican un método automático, aunque tan sólo consiguen mapear la mitad de los términos de ATC sobre NDF-RT. Aunque no aportan una evaluación completa de la prueba, sí detallan los resultados de una evaluación manual de un subconjunto de sus pruebas, donde comparan los resultados de su método con los obtenidos si los mapeados hubiesen sido realizados manualmente. En dichos resultados, consiguieron mapear aproximadamente tres veces más términos utilizando su método automático que su método manual (128 respecto a los 39 del método manual). Siguiendo con el trabajo de Mougin y equipo (2012), destacan los problemas sufridos por el bajo solapamiento de ambas terminologías, además de haber detectado un error introducido al utilizar la herramienta léxica general MMTx. Por tanto, dentro de este grupo los mejores resultados son los arrojados por el estudio de Phatak y Chute (2010), donde han sido capaces de mapear el 46% de los fármacos existentes en RxNorm con NDF-RT y, en sentido contrario, han conseguido mapear con RxNorm un 55% de los medicamentos de NDF-RT.

Dentro de este mismo grupo también hay que destacar los esfuerzos de Farfán y equipo (2009), donde realizan mapeados comparando por léxica y por semántica, de forma manual, entre los medicamentos incluidos en el sistema de información de un hospital español y SNOMED-CT, usando un total de 200 medicamentos. En los resultados indican que un 22% de los medicamentos no pudieron ser mapeados sobre SNOMED-CT al no encontrarse equivalencia semántica. Por otro lado, existen trabajos como el de Castro, Iglesias, Martínez y Castaño (2010), donde aplican diversas técnicas de PLN para mapear términos de notas clínicas con conceptos de SNOMED-CT.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

11 Las siglas provienen del término en inglés National Drug File - Reference Terminology, y contiene una lista de representaciones de medicamentos de manera formal, incluyendo información acerca de los ingredientes, estructura química, forma farmacéutica, etc.


!24!

Algunas de estas técnicas son el análisis morfosintáctico, el reconocimiento de entidades nombradas o la expansión de acrónimos. Los resultados obtenidos muestran una baja cobertura (entre el 5.5 y el 9%), y una precisión próxima a los resultados en lengua inglesa (entre el 35% y el 72%).

Dentro del grupo de técnicas basadas en la representación léxica existen esfuerzos dedicados a la realización de herramientas especializadas, como el lexicón SPECIALIST de UMLS visto anteriormente, o el sistema MOSTAS (Iglesias et al., 2008), que se define como un etiquetador morfo-semántico, anonimizador y corrector de términos incluidos en historiales clínicos. Aunque los autores no han aportado datos acerca de su rendimiento, sí se explica su funcionamiento, el cual se basa en herramientas genéricas, como el etiquetador morfo-sintáctico para el castellano STILUS12 o el corrector ortográfico SPINDEL (Pablo-Sánchez, Martínez, García-Ledesma, Samy, Martínez, Moreno-Sandoval y Al-Jumaily, 2007), y en la inclusión de recursos léxicos especializados, como SNOMED-CT. Tras un primer etiquetado morfo-sintáctico con STILUS, se buscan entidades nombradas con SPINDEL para desidentificar los datos privativos que constan en los documentos clínicos. Posteriormente se comprueban las palabras no reconocidas por si hubiera un error de escritura. Finalmente se genera un documento OWL con los textos procesados y etiquetados.

Dentro del segundo grupo, los trabajos basados en la léxica de los términos, hacen uso de esta parte de los recursos especializados. Es decir, atienden al conocimiento que en ellos existe y que ha sido concebido por y para los expertos humanos, utilizándolo para crear los mapeados entre las diferentes terminologías. Este tipo de técnicas han sido empleadas en los trabajos de Patrick y Budd (2006) y Wang y equipo (2006), y sigue siendo una técnica fundamental en los más recientes, como en el de Saitwal y equipo (2012) o Zhou y equipo (2012). En estos trabajos se utilizan métodos automáticos y semi-automáticos donde se aplican técnicas de PLN tales como comparaciones léxicas exactas o comparaciones por subcadenas. La gran variabilidad léxica existente entre dos términos provoca limitaciones en los sistemas automáticos y semi-automáticos, por lo que uno de los primeros pasos es el de reducir dicha variabilidad mediante la normalización de los términos. Esta normalización (también conocida como preprocesamiento) puede incluir diversos procesos. Entre los más comunes y sencillos están el de transformar las frases a minúsculas (Wang et al., 2008) y el de eliminar las stop words13 y signos de puntuación (Wang, Patrick, Miller y O'Hallaran, 2006; Merabti, 2010; Mougin et al., 2011). Sin embargo, también son comunes tareas más sofisticadas como la expansión de acrónimos y abreviaturas (Stenzhorn, Pacheco, Nohama y Schulz, 2009) o la lematización (Nadkarni, 2010; Mougin et al., 2011). El uso de algunas de estas técnicas, sin embargo, no siempre produce resultados positivos (Mougin, 2012). Es por ello que se están realizando

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

12!STILUS, Multilingual spell, grammar and style checker. URL: http://stilus.daedalus.es/stilus.php 13!También conocidas como ‘palabras vacías’ o ‘palabras de parada’ en castellano. Este término se utiliza para referirse en PLN a las palabras sin significado, como artículos, pronombres, preposiciones, etc.


! 25!

esfuerzos en crear herramientas específicas para el idioma inglés y el dominio de salud, como es el caso de BioLemmatizer (Liu et al., 2012).

Además de estas técnicas, algunos de estos trabajos utilizan herramientas como OpenNLP (Stenzhorn et al., 2009), Morphosaurus (Stenzhorn et al., 2009), MMTx (Mougin et al., 2012) o lexicones (Wang et al., 2008), tanto generales (como es el caso de WordNet14 en el trabajo de Makki y equipo, 2008) como específicos ( como el caso de SPECIALIST en los trabajos de Mougin y equipo, 2012). Dentro de este grupo, los mejores resultados obtenidos son los presentados en los trabajos de Zhou y equipo (2011, 2012), donde consiguen una cobertura entre el 73.9% y el 85.9% y una precisión entre el 99.8% y el 100% en la ejecución de diferentes experimentos.

Finalmente, en el tercer grupo, dentro de las técnicas basadas en mapeados existentes, se pueden englobar los trabajos de Wang y equipo (2008), Merabti y equipo (2010), Pathak y Chute (2010), Mougin y equipo (2011, 2012) y Saitwal y equipo (2012). Estos trabajos basan parte de su estrategia en aprovechar mapeados ya existentes para, a partir de ahí, encontrar otros nuevos gracias a la estructura (Pathak y Chute, 2010; Mougin et al., 2012), o mediante métodos léxicos (Wang et al., 2008; Merabti et al., 2010; Mougin et al., 2011). En estos casos, es fundamental contar con unos mapeados previos de calidad, ya que sus algoritmos se apoyan precisamente en ellos como base de su procesamiento. Una de las limitaciones más referenciadas en estos trabajos han sido los problemas encontrados con mapeados erróneos o ambiguos. Dentro de este grupo, los mejores resultados obtenidos son los reportados por Saitwal y equipo (2012). En dicho trabajo, de los aproximadamente 50000 identificadores de los que partían, usaron sólo los que son únicos, esto es, 8447. De éstos consiguen una cobertura del mapeado del 84,34% y una precisión del 100%, aplicando sus tres aproximaciones de forma iterativa y una revisión manual. Sin embargo, el 62,56% de los resultados obtenidos provienen de mapeados ya existentes entre ambas terminologías.

2.3.1 Semejanzas y diferencias en las técnicas del PLN en el ámbito de la salud en inglés y castellano

Aunque el dominio es el mismo, entre las técnicas empleadas en lengua inglesa y las usadas en castellano existen más diferencias que coincidencias.

Atendiendo a las semejanzas, es posible encontrar que la mayor similitud son las técnicas léxicas usadas, ya que ambas se basan en el mismo principio: si dos etiquetas son léxicamente iguales también tendrán el mismo significado semántico y podrán ser identificadas con la misma etiqueta. También coinciden en el uso de técnicas de PLN para la expansión de abreviaturas o la detección de entidades nombradas.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

14 WordNet es una gran base de datos léxica multilingüe, en ocasiones considerada como una ontología. Es accesible desde la URL http://wordnet.princeton.edu/.


!26!

En cuanto a los recursos utilizados, la finalidad y forma en la que fueron creados los recursos para la lengua inglesa han permitido utilizar técnicas que para el idioma castellano son muy difíciles de aplicar. En RxNorm las denominaciones de los medicamentos están asociadas con etiquetas que identifican el significado de cada componente que forma parte de la denominación. Esto facilita la desambiguación al tener referenciadas y marcadas la forma farmacéutica y la concentración. Asímismo, cada medicamento está asociado con su principio activo (también marcado) y además se explicitan los mapeados establecidos con UMLS. Esto permite que las técnicas de mapeado no tengan que desambiguar las diferentes partes de la etiqueta, de forma que se puedan usar técnicas basadas en estructura o en reutilizar mapeados previos. Sin embargo, en castellano no se dispone, en la actualidad, de este tipo de recurso, con esta información.

Otra diferencia entre ambos idiomas es la falta de ‘corpus’ etiquetados, lo cual impide poder aplicar técnicas de aprendizaje automático o estadístico. Este tipo de técnicas requiere una gran cantidad de ejemplos evaluados, tanto positivos como negativos, para crear sistemas que aprendan en función del contexto, la estadística, etc.

Respecto a las técnicas de procesamiento aplicadas, debido a la escasez de herramientas de PLN especializadas en el dominio de la salud en español, el uso de las técnicas de análisis sintáctico y morfosintáctico es muy limitado. Este tipo de análisis suele aplicarse en las primeras etapas del procesamiento y, si existe una anómala identificación, se arrastra durante todo el procesamiento, pudiendo causar incluso futuros problemas (afectar al nivel de precisión, que en este ámbito es esencial). Por tanto, es necesario estudiar los beneficios que pueden aportar este tipo de técnicas en el dominio concreto sobre el que se trabaja, y evaluar si los beneficios superan a los riesgos.

Respecto a la terminología usada como referencia en España, ésta es SNOMED-CT. Esto es debido a que en el Real Decreto 1093/2010 se estipula que en todos los campos especificados con el nombre ‘Fármacos’ se incluya la referencia a dicha terminología como parte del conjunto mínimo de datos básicos para el Sistema de Salud. Estas referencias deben aparecer en el informe clínico de alta, el informe clínico de consulta externa, el informe clínico de urgencias, el informe clínico de atención primaria y para la historia clínica resumida. Es por ello que en esta Tesis se ha utilizado SNOMED-CT como diana de los mapeados.

2.3.2 Conclusiones en las técnicas de mapeado en el PLN sanitario

Aunque existen varias aproximaciones para abordar los mapeados entre terminologías, los últimos esfuerzos se están decantando por el uso de técnicas léxicas por encima de las aproximaciones basadas en estructura. De hecho, en algunos casos, se asegura que mediante el uso de técnicas de similitud léxica se han obtenido mejores resultados que aquellos basados en jerarquías (Pedersen, Pakhomov, Patwardhan, y


! 27!

Chute, 2006), e incluso que los obtenidos con mapeados manuales (Merabti et al., 2010).

En cuanto a las técnicas de similitud, las más usadas son la similitud léxica exacta (Wang et al., 2006; Patrick y Budd, 2006; Patrick, Wang y Budd, 2007; Farfán et al., 2009) y el algoritmo del Coseno (Pedersen et al., 2006; Stenzhorn et al., 2009; Mabotuwana, Lee y Cohen-Solal, 2013). En algunos casos, las cadenas comparadas son expandidas para cubrir ciertas variaciones léxicas, como por ejemplo sustituir las abreviaturas por sus expresiones completas (Wang et al., 2006). Otros métodos hacen uso de un lexicón para mejorar el rendimiento en la búsqueda. En los trabajos de Patrick y Budd (2006) y Patrick y equipo (2007) emplean como lexicón el índice de todas las palabras existentes en SNOMED-CT, asociadas con los identificadores de concepto en los que aparecen. Su procesamiento de búsqueda consiste en encontrar el identificador de SNOMED-CT que contenga la mayor subcadena coincidente.

En algunos trabajos existe una etapa de postprocesamiento, donde vuelven a usarse técnicas de similitud léxica. Esta etapa persigue mejorar los mapeados, bien combinando elementos entre sí para lograr un término más general en SNOMED-CT que los englobe (Patrick y Budd, 2006; Patrick et al., 2007), o bien realizando comparaciones de subcadenas, como en el caso de expresiones para las que no se ha encontrado un equivalente satisfactorio (Wang et al., 2006).

En esta revisión de la literatura, varios estudios ponen de relieve las dificultades derivadas de las diferencias de granularidad (especificidad) entre los recursos utilizados, lo que ha reducido la efectividad de dichos mapeados (Bordenreider, 2008; Schulz y Klein, 2008; Saitwal et al., 2012). De estos trabajos se desprende, que puede ser necesario establecer un método capaz de equiparar las granularidades de las terminologías origen y diana. Este sería un paso previo obligado, antes de acometer la tarea de mapeado de las mismas.

2.4 Uso de PLN en ampliación de conocimiento de ontologías

En PLN, la ampliación del conocimiento de una ontología consiste en aumentar tanto la estructura de la propia ontología (conceptos y relaciones) como su población (instancias). Este proceso también se conoce como enriquecimiento de una ontología.

Los elementos fundamentales de la mayoría de los estudios orientados a la ampliación de ontologías se componen de dos fases: (i) extracción de conocimiento e (ii) inclusión de ese conocimiento en la ontología. Sin embargo, este apartado se centrará únicamente en analizar las técnicas usadas en la segunda fase.

Para realizar la inclusión del conocimiento en la ontología, algunos de los trabajos existentes usan la información obtenida en mapeados. Este es el caso de Makki


!28!

y equipo (2008), donde destacan que para añadir información más allá de la directamente mapeada, es necesario que ambas fuentes de conocimiento tengan una estructura semejante. En el caso de Makki y equipo, centrados sólo en la población (instancias), aplican técnicas estadísticas, sintácticas y semánticas usando el etiquetador de partes del discurso (PoS, por las siglas del término inglés Part of Speech), TreeTagger15 y WordNet. Gracias a estas técnicas, enlazan las frases que contienen términos que pertenecen a las mismas categorías semánticas. Tras este etiquetado eliminan los verbos más comunes, y utilizan el resto de verbos como conectores semánticos entre los dos segmentos de la frase, formando tripletas segmento-verbo-segmento. Un detalle importante es que ellos asumen que dichos verbos coinciden con las relaciones existentes en la ontología a poblar, requiriendo la intervención humana para un filtrado antes de poblar la ontología. Mediante un sistema de reglas creado manualmente, convierten los segmentos en instancias de la ontología y, en caso de ser validadas correctamentamente por un experto, son incorporadas a la misma. Partiendo de 20 informes técnicos se extraen 150 tripletas de instancias, evaluando el 85% de ellas como correctas por un experto humano.

Sin embargo, también existen trabajos donde, en lugar de confiar en las estructuras y jerarquías de las ontologías, se han creado una serie de reglas (Simón-Cuevas, Ceccaroni, Rosete-Suárez y Suárez-Rodríguez, 2009). Este tipo de reglas son creadas por expertos humanos de forma manual, específicamente para tratar un problema concreto. Se trata de un sistema en dos pasos: (i) detección por reglas y (ii) ampliación semántica. Para evitar el arrastre de errores de una etapa a la otra, descartan aquellos casos que no pudieron ser procesados por sus reglas en la evaluación del segundo paso. Sus resultados muestran una cobertura del 42% y una precisión del 100%, en cuanto a la semántica incorporada a partir, únicamente, de las reglas que obtuvieron resultados positivos (73% de los casos analizados).

Otros estudios presentan técnicas que consisten en el uso de herramientas externas, como en el de Deléger, Merkel y Zweigenbaum (2006). Basándose en un corpus bilingüe inglés-francés, buscan establecer mapeados entre los términos de ambos idiomas para así enriquecer una terminología médica. Para ello, en primer lugar, alinean las frases de los diferentes documentos mediante técnicas léxicas y estadísticas. El siguiente paso es el de alinear las palabras de las frases, haciendo uso de una herramienta desarrollada por la Universidad de Linköping (Suecia), denominada I*Tools, la cual utiliza técnicas de análisis sintáctico, diccionarios bilingües y medidas de co-ocurrencia de términos. En su experimentación obtienen 79 nuevos conceptos de un conjunto evaluado de 540 pares de documentos, de los cuales el 81% fueron evaluados como válidos, si bien no indican la cobertura lograda.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

15! Tree tagger: a language independent part-of-speech tagger. URL: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/


! 29!

Finalmente, también existen trabajos que utilizan los mapeados existentes con la terminología ICD-1016 para enriquecerla, como el de Nyström, Vikström, Nilsson, Åhlfeldt y Örman (2010). Tras analizar manualmente los mapeados existentes, concluyen que éstos aportan una estructura multijerárquica que puede ser incorporada a ICD-10, de forma que aumente su flexibilidad.

Más allá de incorporar información jerárquica, en el trabajo de Sánchez y Moreno (2008) crean ontologías a partir del conocimiento recuperado en la web, incorporando tanto las relaciones jerárquicas como otras relaciones semánticas. Las relaciones jerárquicas son creadas basándose en análisis sintáctico de frases, junto con un sistema de patrones y frecuencia de palabras. Para las otras relaciones usan los verbos como disparadores, a partir de los cuales utilizan un sistema de reglas. Finalmente, para la población de entidades hacen uso de un detector de entidades nombradas. Los resultados en las pruebas alcanzaron una cobertura del 57% y una precisión del 74% para las relaciones jerárquicas, mientras que para las relaciones semánticas la precisión fue del 71.1%, pero no especificaron la cobertura.

2.5 Limitaciones actuales

Considerando los objetivos planteados en esta Tesis, se ha realizado un análisis de los diferentes trabajos existentes tanto en las tareas de mapeado de terminologías como en las de ampliación automática de ontologías.

Respecto a los recursos utilizados, se han evidenciado las carencias de recursos especializados, sobre todo en castellano. Algunos trabajos han hecho uso de recursos generales con el fin de superar dichas limitaciones, como en el caso de Wang y equipo (2008), donde utilizan la ontología de carácter general WordNet. Sin embargo, en ese mismo trabajo han indicado que el uso de una terminología generalista no les ha aportado beneficio.

Analizando las aportaciones en el mapeado de terminologías, se observa que muchos estudios han tenido problemas debido a las diferencias de granularidades (Bodenreider, 2008; Schulz y Klein, 2008; Saitwal et al., 2012), aspecto que se convierte en una tarea fundamental para lograr la eficacia tanto del mapeado como de la ampliación automática.

Continuando con el mapeado de terminologías, muchos de los trabajos optan por la eliminación de stop words en las primeras fases de normalización de las etiquetas terminológicas. Sin embargo, si bien esta técnica ayuda a reducir los costes de

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

16! ICDC10! (International* Classification* of* Diseases* versions* 10)! es! una! clasificación! monojerárquica!estadística!internacional!de!enfermedades!y!problemas!relacionados!con!la!salud,!en!su!décima!edición.!


!30!

procesamiento posteriores, en algunas ocasiones, las stop words pueden llegar a cambiar el significado de las etiquetas procesadas y, por tanto, el resultado del mapeado. Por ejemplo, en una comparación léxica de las expresiones “alimento con gluten” y “alimento sin gluten”, si no se tienen en cuenta las stop words se estaría comparando la misma expresión: “alimento gluten”. Es por ello que la evaluación a nivel léxico no es suficiente, y es necesario aportar, al menos, una capa de semántica superficial, intentando mantener las stop words que delimitan un significado a las etiquetas terminológicas.

Respecto al modo de establecer las equivalencias entre los conceptos de dos terminologías, algunos autores han optado por utilizar técnicas basadas en estructura jerárquíca. Sin embargo, en la literatura se indica que estas técnicas son efectivas cuando existe un alto grado de solapamiento entre las estructuras de las terminologías empleadas (Mougin et al., 2012). Por tanto, puesto que entre las terminologías utilizadas en esta Tesis (OntoFIS y SNOMED-CT) existe un bajo grado de solapamiento, se ha decidido no utilizar este tipo de técnicas. Como alternativa se utilizarán técnicas de similitud léxica para este cometido.

En cuanto a la ampliación de ontologías, en los trabajos estudiados se han utilizado tanto terminologías de dominios generales en la salud como específicos de la farmacoterapéutica. Este análisis muestra las actuales limitaciones tanto en la aplicación de técnicas de PLN como en los recursos existentes.

Otra limitación encontrada en la literatura es la falta de estándares de evaluación17. En los estudios analizados (Bordenreider, 2008; Stenzhornet al., 2009; Saitwal et al., 2012; Mougin et al., 2012) se pone de manifiesto la ausencia de evaluación manual de los resultados expuestos. Este hecho, refleja la dificultad de llevar a cabo una evaluación de forma manual por parte de expertos humanos. Es por ello que ciertos estudios, carecen de una evaluación manual completa, o al menos significativa, de sus resultados. Esto dificulta la comparación con otras aproximaciones y poder extraer conclusiones.

Finalmente, hay que destacar que no se ha encontrado ningún sistema, ni en lengua inglesa ni castellana, que solucione la equiparación de granularidad entre terminologías de forma automática, ni que realice tanto las tareas del mapeado como de la ampliación automática de ontologías para el dominio farmacoterapéutico. Por tanto, la propuesta presentada en este trabajo supone una nueva aportación para ayudar a paliar las actuales limitaciones. Esta aportación no sólo se centra en la tarea de equiparación automática de terminologías, sino que aúna las tres tareas básicas: equiparación de granularidades, mapeado de terminologías y ampliación automática de la población de una ontología diana. Dichas tareas y las aportaciones establecidas para

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

17!Los!estándares!de!evaluación!se!refieren!a!corpus!etiquetados,!es!decir,!conjunto!de!documentos!en!donde!se!conoce!el!resultado!correcto!y!que,!por!tanto,!pueden!ser!utilizados!en!métodos!de!evaluación!automática.!


! 31!

su logro, delimitan el contexto de este trabajo en el dominio farmacoterapéutico en español.

3. Propuesta tecnológica para el mapeado de OntoFIS y SNOMED CT y su aplicación en la ampliación de OntoFIS

Como se expone en el análisis del estado de la cuestión, existe en España la necesidad de contar con un método capaz de enlazar los medicamentos comercializados en el territorio español con la terminología de referencia SNOMED-CT, ya que es la recomendada en la legislación española (RD 1093/2010).

Dado que no existe actualmente un sistema totalmente automático de estas características, se ha optado por realizar una propuesta tecnológica que ayude a paliar o solucionar esta limitación.

Tras haber analizado los problemas del dominio de la farmacología para el idioma castellano, y habiendo revisado las aproximaciones tomadas por otros investigadores, así como los resultados obtenidos, cabe destacar la gran eficacia de los métodos de similitud léxica y las técnicas de PLN más simples. Por todo ello, se ha estimado que estas técnicas son las más adecuadas y efectivas para evaluar la similitud entre dos etiquetas, considerando como hipóteis de partida que:

(i) si dos etiquetas terminológicas, que proceden de dos recursos terminológicos diferenciados, tienen la misma representación léxica, entonces tienen una correspondencia por igual significado.

(ii) si dos etiquetas terminológicas, que proceden de dos recursos terminológicos diferenciados, no tienen idéntica representación léxica, entonces se puede determinar el grado de similitud entre ellas para ayudar a los expertos humanos en la confirmación o rechazo.

Capítulo 3. Método General.

!34!

Además, se prevé aplicar una capa de conocimiento semántico en algunos puntos del procesamiento que ayuden a maximizar la eficacia del sistema, sin comprometer la eficiencia. Puesto que esta capa se aplica por encima de la similitud léxica, se ha decidido denominarla ‘superficial’.

Este capítulo comienza describiendo los materiales utilizados en la propuesta: la ontología OntoFIS y la terminología SNOMED-CT. Se hace especial incidencia en la descripción de la granularidad de las etiquetas terminológicas que identifican a los medicamentos en cada terminología. A continuación, se enumeran cada uno de los diferentes módulos que componen la propuesta, detallando sus funcionalidades y, brevemente, su funcionamiento global. Finalmente se explica cómo se han llevado a cabo las diferentes experimentaciones y evaluación de los resultados.

3.1 Materiales terminológicos

Atendiendo a los objetivos de esta Tesis, se utilizará la ontología OntoFIS como terminología origen del mapeado y la terminología SNOMED-CT como diana. Al mismo tiempo, la ontología OntoFIS será ampliada automáticamente (apartado 3.2.4). Adicionalmente, para poder realizar las diferentes tareas de la propuesta, se hará uso de recursos léxico-semánticos complementatrios y diseñados ‘ad hoc’. Todos estos recursos son descritos en los siguientes sub-apartados.

3.1.1 OntoFIS

Como se ha indicado anteriormente, OntoFIS (Romá-Ferri, 2009) es una ontología farmacoterapéutica donde el conocimiento se encuentra representado a partir de: (i) conceptos, (ii) relaciones e (iii) instancias (base de conocimiento léxico).

Los conceptos representan conocimiento especializado en el dominio farmacoterapéutico, e incorporan los diferentes sinónimos empleados y su traducción en cinco idiomas. Por ejemplo, el concepto ‘PrincipioActivo’ sirve para identificar el conocimiento refererido a los ingredientes que forman un medicamento y en él se representan ciertas características específicas, como la existencia de una determinada concentración. De la misma forma, el concepto ‘Medicamento’ identifica a una especialidad farmacéutica, con características como su nombre de comercialización (también conocido como nombre de especialidad) o su estado de comercialización.

Las relaciones representan las interacciones entre los distintos conceptos de la ontología. Por ejemplo la relación ‘composes_1.1.1/compone_1.1.1’ relaciona los conceptos de ‘PrincipioActivo’ y ‘Medicamento’ en dicho orden, estableciendo que un principio activo compone a un medicamento. Además, puesto que en OntoFIS las


! ! ! 35!

relaciones se encuentran jerarquizadas, es posible conocer que ‘composes_1.1.1/compone_1.1.1’ es una forma más específica de la relación semántica ‘part_of_1.1/parte_de_1.1’.

Finalmente, las instancias sirven para incluir conocimiento léxico identificando su significado. Por ejemplo, ‘Clonazepam’ es una instancia de la clase ‘PrincipioActivo’, mientas que ‘Clonazepam 2mg comprimidos’ es una instancia de la clase ‘Medicamento’.

Se muestra a continuación la forma de representar un medicamento en OntoFIS. Se incluye el mismo ejemplo reproducido ya previamente y elegido debido a que se trata de un principio activo de uso muy frecuente. A partir del principio activo ‘paracetamol’, con una concentración de 650 mg y una forma farmacéutica de comprimido, cuyo nombre de especialidad es “PARACETAMOL PHARMAGENUS 650MG 40 COMPRIMIDOS EFG” (nombre con el que se comercializa el medicamento), se representaría así en OnfoFIS.

Figura 3.1. Ejemplo de instancia de la clase ‘Medicamento’ de OntoFIS.

Para la realización de esta Tesis se han utilizado las versiones 6.1 R7 (más de 38000 instancias) y la 7 R2 (más de 45000 instancias) de OntoFIS. La version 6.1 R7 ha servido para el diseño de la aproximación y la realización de las pruebas piloto, mientras que la versión 7 R2 se ha utilizado para la realización de una prueba global y la obtención de una muestra con una confianza del 95% ± 5% de error.

3.1.2 SNOMED-CT

Para satisfacer todas las necesidades informativas y comunicativas de los profesionales de la salud en el contexto sanitario, SNOMED-CT (IHTSDO, 2010) incluye terminología clínica, útil para la historia clínica electrónica y otros documentos. Cada concepto de SNOMED-CT tiene un código que lo identifica y una

<Medicamento rdf:about=”#Medicamento_645”> <Medicamento..ID> 645 </Medicamento..ID> <Medicamento..nombre_medicamento_espanya> PARACETAMOL PHARMAGENUS 650MG 40 COMPRIMIDOS EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional> 650944 </Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya> </Medicamento..nombre_medicamento_no_espanya > <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion > </Medicamento>


!36!

serie de descripciones que pueden ser de tres tipos diferentes: (i) completa, (ii) preferente y (iii) sinónima.

La descripción terminológica completa (full en inglés) es única y se compone de la etiqueta terminológica empleada para referenciar al concepto y de la etiqueta de asignación semántica (la identificación de la jerarquía o campo semántico al que pertenece), lo que ayuda a la desambiguación, al precisar el significado.

La descripción preferente (preferred) identifica el concepto en su forma de expresión más frecuentemente empleada por los profesionales.

Las descripciones preferentes, en un número reducido, pueden ser homónimas, pero su relación con la descripción completa facilita la asignación del significado concreto. Del mismo modo, un único concepto puede tener asociados varios términos sinónimos (synonyms).

Cada descripción cuenta con un identificador numérico único. Por ejemplo, el concepto con el identificador (conceptID) 90332006 tiene, en castellano, la descripción completa ‘paracetamol (producto)’, una sola descripción preferente, ‘paracetamol,’ y un sinónimo asociado, ‘acetaminofeno’.

El conocimiento explicitado en SNOMED-CT está organizado en jerarquías. Cada jerarquía se corresponde con una temática precisa y en la cual los conceptos se organizan a partir de la relación ‘is a’ (hiperónimo-hipónimo). En concreto, hay dos jerarquías que se vinculan con el dominio farmacoterapéutico, la jerarquía de ‘sustancia’ y la de ‘producto biológico/farmacéutico’


! ! ! 37!

En la jerarquía de ‘sustancia’ se encuentran representados los conceptos relacionados con los diferentes principios activos (también denominados ingredientes) que componen los productos farmacoterapéuticos, y organizados atendiendo a sus caracerísticas químicas y terapéuticas. En la figura 3.2 se muestra una representación de la descripción de ‘acetaminofeno’ (conceptID 387517004) de acuerdo con los conceptos hiperónimos con los que se relaciona en la jerarquía ‘sustancia’ (se han eliminado algunas herencias por motivos de espacio).

Nota aclaratoria: En este ejemplo se ha empleado la descripción de acetaminofeno, sinónimo cuyo

identificador de SNOMED-CT es 387517004 y que está vinculado al concepto de paracetamol 90332006.

Figura 3.2. Niveles simplificados de la jerarquía ‘sustancia’ en SNOMED-CT.

Dentro de la jerarquía de ‘producto biológico/farmacéutico’, según la guía oficial de SNOMED-CT (IHTSDO, 2010), existen sólo cuatro niveles. Éstos son, ordenados de mayor a menor granularidad: (i) categoría de producto; (ii) fracción terapéutica virtual, denominado VTM (Virtual Therapeutic Moiety) o combinación de fracción terapéutica virtual (combinación VTM); (iii) subtipo de VTM; y, (iv) producto medicinal virtual o VMP, (Virtual Medicinal Product). Estos cuatro niveles de jerarquía pueden verse representados en la Figura 3.3, a continuación.

Seguidamente se detallarán las definiciones para los cuatro niveles jerárquicos especificados para la jerarquía de ‘producto biológico/farmacéutico’ de SNOMED-CT.


!38!

Categorías funcionales

Este nivel de la jerarquía es la representacion más general, sólo indica la categoría identificando al producto farmacoterapéutico, sin especificar ingredientes, ni la concentración, ni la forma farmacéutica.

Nota aclaratoria: En este ejemplo se ha utilizado el VMP ‘paracetamol, 500 mg, cápsula’ cuyo

identificador de SNOMED-CT es 322280009, y lo que sería un AMP (medicamento comercializado en España) con la etiqueta “EFERALGAN Cápsulas 500mg”. También se observa la vinculación con

conceptos de la jerarquía ‘sustancia’

Figura 3.3. Niveles simplificados de la jerarquía ‘producto biológico/farmacéutico’ en SNOMED-CT.

VTM o combinado VTM (‘Virtual Therapeutic Moiety’)

En este nivel de jerarquía se especifican las descripciones con el o los ingredientes del producto, pero no la dosis o la concentración (también denominada potencia) ni la forma farmacéutica. En caso de ser un compuesto terapéutico con varios ingredientes, éstos se identifican combinándolos con el símbolo ‘+’ separando los ingredientes y se denomina ‘combinado VTM’. Es en este nivel donde aparecen las primeras relaciones semánticas explícitas. La fracción o combinación VTM se relaciona con el concepto ingrediente o ingredientes del producto, mediante la relación ‘tiene como componente activo’ (‘has active ingredient’).


! ! ! 39!

En la Figura 3.2 se ha podido ver un ejemplo de este nivel de la jerarquía ‘sustancia’, con la descripción ‘acetaminofeno’ (sinónimo de paracetamol).

Subtipo VTM (‘Virtual Therapeutic Moiety’)

En este nivel, las descripciones incluyen información sobre el o los ingredientes del producto, y también la vía de administración de la forma farmacéutica del producto. En la Figura 3.3 se ha presentado un ejemplo de dicho nivel jerárquico, con la etiqueta ‘paracetamol, forma farmacéutica oral’.

Este nivel se relaciona con la forma farmacéutica del producto, mediante la relación ‘tiene forma farmacéutica’ (‘has dose form’). También incorpora las relaciones semánticas de su hiperónimo respecto a los principios activos mediante la relación ‘tiene como componente activo’.

VMP (‘Virtual Medicinal Product’)

Es una representación de tipo hospitalario o las que actualmente, también, se emplean para prescribir medicamentos genéricos. La descripción de SNOMED-CT en esta categoría está formada por el nombre del producto, su concentración y su forma farmacéutica. Contiene las mismas relaciones semánticas que el subtipo de VTM.

Un ejemplo de VMP se ha mostrado en la Figura 3.3, con la etiqueta “paracetamol, 500 mg, cápsula”.

AMP (‘Actual Medicinal Product’)

Adicionalmente, existe un nivel más fino de granularidad denominado producto medicinal real (AMP, Actual Medicinal Product), el cual puebla el núcleo de SNOMED-CT. Para mantener la flexibilidad y portabilidad de esta terminología, las denominaciones AMP no se incluyeron, ya que cada país puede contar con un sistema de verificación y control para autorizar la comercialización de un medicamento.

Este nivel recopila la representación de los medicamentos comercializados, reales, por lo que, por ejemplo, en la etiqueta pueden incluir el nombre comercial (marca) del medicamento, en lugar del o de los principios activos que lo componen.

Este nivel de la jerarquía no se encuentra en el núcleo de SNOMED-CT, pero también es importante, ya que es el mínimo nivel de granularidad definido por la documentación de SNOMED-CT. Está orientado a las diferentes extensiones territoriales, por lo que es relevante de cara a una futura extensión territorial española tal como hoy en día existe para EE.UU o para el Reino Unido.

Aunque en España aún no está formalizado este nivel de granularidad, en el ejemplo de la Figura 3.3 se ha representado, utilizando la etiqueta de un medicamento comercializado “EFERALGAN Cápsulas 500mg”. Con este ejemplo se pretende ilustrar la forma y funcionalidad del nivel AMP.


!40!

3.1.3 Similitudes y diferencias entre OntoFIS y SNOMED-CT

Para iniciar el proceso de mapeado, es decir, establecer las correspondencias entre la terminología origen y la terminología diana, se precisa de un análisis comparativo previo. En este trabajo, la terminología origen es la base de conocimiento de la ontología OntoFIS en la que se incluyen todas las denominaciones de los medicamentos comercializados en España, como se ha indicado anteriormente, y que se corresponden con términos de granularidad fina (concretas).

Por otra parte, la terminología diana es SNOMED-CT que, como se ha indicado, ha sido seleccionada como terminología de referencia para el Sistema Nacional de Salud (SNS) y con el fin de contribuir a lograr la interoperablidad semántica entre Sistemas Información de Salud (SIS) nacionales e internacionales, a partir de descripciones de términos de granularidad intermedia y general (globales).

Como se puede apreciar en dicha tabla 3.1, ambos recursos cuentan con múltiples características en común. Aunque es precisa una etapa de procesamiento previa al mapeado, centrada en la equiparación de la granularidad de ambos recursos.

Tabla 3.1. Comparativa de los materiales de OntoFIS y SNOMED-CT. OntoFIS SNOMED-CT

Características Es una ontología, donde se explicitan los conceptos y las relaciones semánticas características del dominio farmacológico. Incluye la denominación de los conceptos en 5 idiomas diferentes y sus sinónimos.

Es una terminología clínica donde el conocimiento se agrupa en conceptos organizados jerárquicamente y relaciones semánticas explícitas entre ellos. El núcleo básico de las descripciones cuenta con una traducción oficial inglés-español.

Similitudes Equivalencias terminológicas en inglés y castellano para identificar conceptos. Incluyen sinónimos en cada idioma base. Relaciones semánticas explícitas de tipo jerárquico (principalmente relación ‘es un’/‘is a’) y otras relaciones asociativas propias del dominio y de las características inherentes a los conceptos representados (tiene como ingrediente…) Contienen términos identificados (marcados) como principios activos, excipientes, formas farmacéuticas y unidades de medida. Diseñadas para ser ampliadas tanto por expertos como por ordenadores.

Diferencias Orientado a un dominio concreto y reducido como la farmacología, pero rico en relaciones semánticas explicitadas. Contiene instancias de fármacos comercializados en España.

Orientado a desarrollar estructuras y contenido informático clínico. Contiene instancias que son representaciones genéricas o globales de un medicamento pero no incluye el comercializado concreto


! ! ! 41!

Estas diferencias pueden observarse en la forma de representar la información por parte de ambos recursos. Mientras que en SNOMED-CT se recogen representaciones virtuales de los medicamentos (Figura 3.4), en OntoFIS se recogen medicamentos comercializados utilizando sus nombres de especialidad (Figura 3.5). En ambas figuras puede observarse que se representan dos medicamentos similares (coinciden en el principio activo y tienen una forma farmacéutica similar), pero con concentraciones diferentes (la concentración del medicamento de OntoFIS es el doble que la del de SNOMED-CT, ambas resaltadas en negrita).

Nota aclaratoria: Debido al espacio limitado, se muestra la información en dos líneas. Los puntos suspensivos indican dichos saltos en la continuidad de la línea del fichero de SNOMED-CT.

Figura 3.4. Ejemplo de la representación de un producto farmacéutico en SNOMED-CT.

Figura 3.5. Ejemplo de la instancia de un medicamento comercializado en OntoFIS.

3.1.4 Recursos léxico-semánticos complementarios ‘ad hoc’

Estos recursos han sido creados de forma manual o semi-automática, con una supervisión por expertos humanos del dominio, para evitar la inclusión de conocimiento incorrecto y lograr complementar la desambiguación de las etiquetas terminológicas.

Los recursos léxico-semánticos creados son conjuntos de palabras agrupadas por una determinada funcionalidad semántica. Por ejemplo, un lexicón de sinónimos contiene términos equivalentes, de forma que en cada línea del recurso se establecen

<Medicamento rdf:about=”#Medicamento_645”> <Medicamento..ID> 645 </Medicamento..ID> <Medicamento..nombre_medicamento_espanya> PARACETAMOL PHARMAGENUS 650MG 40 COMPRIMIDOS EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional> 650944 </Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya> </Medicamento..nombre_medicamento_no_espanya > <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion > </Medicamento>

DESCRIPTIONID DESCRIPTIONSTATUS CONCEPTID TERM … 1565130015 0 370152009 acetaminofeno, 325 mg, cápsula (producto)… 1629062012 0 370152009 acetaminofeno, 325 mg, cápsula … … INITIALCAPITALSTATUS DESCRIPTIONTYPE LANGUAGECODE … 0 3 es … 0 1 es


!42!

todas las palabras o expresiones sinónimas, separadas por un carácter especial (por ejemplo un tabulador). Este recurso de sinónimos permite expandir un término aunque difiera en su representación léxica y de esta forma se maximiza la eficacia de los métodos de similitud léxica. Por ejemplo, el principio activo “ácido acetilsalicílico” tiene como sinónimo el término “aspirina” (ya que son usados indistintamente en documentos creados en el sistema sanitario español y aceptado como normalizado en el de EE.UU.). Al hacer una búsqueda para establecer la correspondencia en SNOMED-CT, se utilizarán ambos términos, y no sólo el de “ácido acetilsalicílico” incluido en OntoFIS.

Serán usados en cada uno de los diferentes módulos que forman la propuesta (ver Capítulo 6), aportando un conocimiento semántico que se ha denominado como ‘superficial’ .

En total, se han utilizado nueve recursos léxico-semánticos complementarios, en lengua castellana:

• Recurso de vías de administración: cuenta con 167 términos referidos a vías de administración utilizadas en farmacoterapéutica. Por ejemplo, “bucal” y “sublingual” son sinónimos de “oral”, ya que ambas son tipos específicos de la vía de administración oral.

• Recurso de unidades de medida: recoge 29 unidades de medida utilizadas, por ejemplo, en concentraciones y unidades de dosis, incluyendo sus formas abreviadas y completas. Por ejemplo “mg” y “miligramos”.

• Recurso de stop words: este fichero contiene todas aquellas palabras cuya semántica no sea suficientemente relevante, como artículos, preposiciones, etc. Contiene en total 52 stop words.

• Recurso de sinónimos de principios activos que expresan sinónimos de 3 principios activos, (consta en total de 10 términos). Contiene aquellos términos que representen un mismo principio activo, aunque su léxico sea completamente diferente. Por ejemplo, “ácido acetilsalicílico” y “aspirina”.

• Recurso de sinónimos de formas farmacéuticas: este fichero contiene aquellos términos que representen una misma forma farmacéutica, aunque su forma léxica sea diferente. En total hay 19 términos y expresiones referidas a 8 formas farmacéuticas. Por ejemplo, “solución oral” y “solución” se refieren a la misma forma farmacéutica.

• Recurso de poblaciones: contiene 13 términos para identificar grupos de edad que representan la población objetivo a la que va dirigido el medicamento. Un ejemplo de este tipo de términos es “infantil” y “pediátrico”.

• Recurso de información de empaquetados o packings: cuenta con 11 términos referidos al tipo de empaquetado del medicamento. No debe confundirse el término de empaquetado con la forma farmacéutica. Por ejemplo, en el caso de “GLUNIRO 8G GRANULADO 30 BOLSAS DOBLES”, el ‘packing’ es “BOLSAS DOBLES”, mientras que “GRANULADO” es la forma farmacéutica. Debido a la gran variabilidad existente no ha sido posible incluir manualmente todos los empaquetados, por lo que se ha ideado un


! ! ! 43!

método que permita aprender y ampliar nuevos empaquetados de forma automática, ya que en ciertos patrones es posible identificar de forma unívoca la información del empaquetado en la etiqueta del medicamento. Cuando se producen ampliaciones automáticas se produce un aviso, y se incluye junto a los nuevos términos información que los identifica como producto de una inclusión automática, de forma que estas inclusiones puedan ser validadas posteriormente por expertos humanos.

• Recurso de relación entre formas farmacéuticas y vías de administración. Se ha observado que ciertas formas farmacéuticas implican que el medicamento deba ser administrado por una única vía de administración. Este recurso recoge un total de 83 formas farmacéuticas, asociando a cada una de ellas su vía de administración correspondiente. Por ejemplo, cuando un medicamento se comercializa con las formas farmacéuticas “comprimidos” o “jarabe”, entonces se puede deducir que la vía de administración es “oral”.

• Recurso de abreviaturas: Se ha observado que en la población semi-automática de OntoFIS a partir del contenido de DIGITALIS se han incluido abreviaturas que consisten en el truncamiento de palabras. Debido a que en DIGITALIS existe una limitación en la longitud de los nombres comerciales de medicamentos, en ocasiones el nombre registrado no corresponde con el real comercializado, habiendo tenido que acortar algunos términos para que se ajustasen a dicha longitud máxima. En este lexicón se incluyen 194 abreviaturas, asociadas al término completo correspondiente, y que corresponden a aquellas contracciones y palabras truncadas usadas en las formas farmacéuticas y vías de administración. Así pues, puede ocurrir que en lugar de “comprimidos” aparezca “comprimid” o “compr”, por ejemplo.

3.2 Diagrama general de la propuesta

El diseño general de la propuesta se muestra en la Figura 3.6, donde se identifican los cuatro módulos que configuran la misma: (i) Extracción de medicamentos y Normalización (E+N); (ii) Equiparación de Granularidad (EG); (iii) Mapeado Léxico (ML) y SiLeSS, Similitud Léxica con Semántica Superficial ; y (iv) Ampliación Automática de OntoFIS (AAO). Asimismo, se identifica la terminología origen (OntoFIS), la terminología diana (SNOMED-CT) y la reutilización de la información mapeada, que es integrada en OntoFIS para lograr un recurso léxico-semántico enriquecido.

Además, se muestra la funcionalidad de los lexicones específicos respecto a los módulos en los que se integran.

Como materiales de entrada del sistema se cuenta con la ontología OntoFIS, la terminología SNOMED-CT y el conjunto de lexicones específicos. Tras la ejecución se obtiene una copia enriquecida de la base de conocimiento de la ontología OntoFIS.


!44!

Nota aclaratoria: En este diagrama se muestran los módulos de Extracción de medicamentos y

Normalización (E+N), Equiparación de Granularidad (EG), Mapeado Léxico (ML) y Ampliación Automática de OntoFIS (AAO). Además se identifica la entrada de las terminologías OntoFIS,

SNOMED-CT y de los lexicones específicos. También se identifica el paso final: una copia de la base de conocimiento de la ontología OntoFIS enriquecida.

Figura 3.6. Diagrama de mapeado y ampliación general de la propuesta.

En las siguientes secciones se detallarán los objetivos de cada uno de los cuatro módulos de la propuesta y se identificarán los métodos utilizados. En capítulos posteriores se hará una descripción más detallada de cada uno de ellos.

3.2.1 Módulo de Extracción de medicamentos y Normalización de las etiquetas (E+N)

Este módulo inicial trabaja únicamente con OntoFIS. Su finalidad es el pre-procesado de los nombres de especialidad de los medicamentos (por ejemplo “Aspirina C comp efervescentes”), cuyas etiquetas deben ser extraídas de la población de OntoFIS, junto con la información que pueda ser necesaria posteriormente para el mapeado (como aquella referente a los principios activos, población objetivo…). A partir del concepto ‘Medicamento’ y de las relaciones semánticas que parten de él a otros conceptos de OntoFIS, se extrae la información terminológica que la puebla.

La normalización de las etiquetas tiene como finalidad la reducción de las variantes léxicas, tales como los formatos de números decimales, homogeneizar los espacios en blanco entre una cantidad y el símbolo de porcentaje, etc. Esta normalización se realiza aplicando técnicas básicas de Procesamiento de Lenguaje


! ! ! 45!

Natural (PLN), tales como convertir el texto a minúsculas o el uso de expresiones regulares para detectar y modificar los puntos decimales por comas, acorde al sistema español. Como salida de este módulo se crea una plantilla de medicamento que contiene los datos extraídos de OntoFIS, etiquetados y normalizados.

En el Capítulo 4 se describe detalladamente el funcionamiento de este módulo.

3.2.2 Módulo de Equiparación de Granularidades (EG)

En este punto, aunque la información necesaria para realizar los mapeados con SNOMED-CT ya ha sido extraída de OntoFIS y normalizada, aún no es posible realizar el mapeado. Hay que tener en cuenta, como se ha indicado anteriormente, que los niveles de granularidad de ambos recursos no son semejantes. Tal como se ha comentado en el estado de la cuestión, esta diferencia ocasiona dificultades a la hora de obtener un mapeado eficaz18.

Por tanto, la finalidad de este módulo es la de equiparar las granularidades de ambas terminologías, aplicando técnicas de PLN (por ejemplo, técnicas de extracción de información). Para ello, puesto que OntoFIS tiene una granularidad más fina que SNOMED-CT, la opción más factible en este contexto es modificar la de OntoFIS para hacerla coincidir con la de SNOMED-CT. Además, este nuevo nivel de granularidad podrá ser incorporado en el último módulo a OntoFIS como parte de su enriquecimiento.

La salida de este módulo es incluida en la plantilla del medicamento, conteniendo ya toda la información necesaria para la realización de los mapeados.

En el Capítulo 5 se detalla el método de obtención de los patrones, así como el funcionamiento del módulo EG y la experimentación llevada a cabo para determinar la funcionalidad del módulo.

3.2.3 Módulo de Mapeado Léxico (ML)

El módulo identificado como “Mapeado Léxico” comienza su ejecución tras la equiparación de las granularidades de ambos recursos. En este módulo se trata de encontrar la etiqueta terminológica del medicamento en el recurso origen (OntoFIS) que se correspondería con la etiqueta terminológica del recurso diana (SNOMED-CT).

A partir de las representaciones más abstractas obtenidas en el módulo anterior partiendo de los medicamentos que pueblan OntoFIS (denominadas Nombres Implícitos, NI), se busca cuál o cuáles son las representaciones de SNOMED-CT sobre las que realizar el mapeado (VMP). Si no existe ninguno, !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

18 Ver la sección 2.3 “Limitaciones Actuales” del Capítulo 2.


!46!

entonces se aumentará aún más la granularidad (reducirá la especificidad hasta el subtipo VTM) del Nombre Implícito (NI), y se mapeará sobre SNOMED-CT aplicando la granularidad adecuada. En este aumento de granularidad es posible que deban combinarse varios conceptos de SNOMED-CT para ser mapeados respecto al Nombre Implícito de OntoFIS.

Este módulo produce un índice que relaciona las plantillas de medicamentos que se han obtenido en el módulo de Extracción de medicamentos y Normalización de etiquetas (E+N), respecto a los diferentes conceptos de SNOMED-CT, estableciendo para cada mapeado el grado de similitud encontrado (con el fin de obtener una mayor eficacia en los mapeados se han establecido diferentes grados de similitud entre las etiquetas terminológicas mapeadas).

En el Capítulo 6 se detalla el método completo del mapeado, las técnicas específicas de PLN utilizadas, el funcionamiento del algoritmo SiLeSS y las pruebas experimentales iniciales realizadas tanto al algoritmo SiLeSS como al módulo en conjunto.

3.2.4 Módulo de Ampliación Automática de OntoFIS (AAO)

Este es el último módulo de la propuesta, y cuya función es reutilizar los mapeados y las plantillas de medicamentos para enriquecer así la base de conocimiento de la ontología OntoFIS, obteniendo una nueva versión ampliada de dicha ontología.

A partir de los mapeados realizados en el módulo ML, y con la información existente en las plantillas de los medicamentos (información almacenada del procesamiento de los dos módulos iniciales), se enriquece la base de conocimiento de OntoFIS. También se extiende la ontología al añadir nuevos atributos a las clases existentes e incluir las instancias con un nivel de abstracción mayor, Nombre de Especialidad Simplificado (NES) y Nombre Implícito (NI).

Para lograr estos dos objetivos, el módulo utiliza unas reglas específicas creadas de forma manual por expertos. En estas reglas se especifica cómo incluir la información en OntoFIS y se establece qué información se puede incluir, dependiendo del grado de mapeado de cada medicamento.

Finalmente, como salida del módulo y de la propuesta, se produce una ontología copia de OntoFIS, extendida y ampliada, manteniendo el formato OWL 1.1 de OntoFIS. De esta forma no se pierde en ningún momento la información original de OntoFIS y, al mantener el mismo formato, la nueva ontología puede ser utilizada como entrada en futuros procesados.

En el Capítulo 7 se detalla el proceso referente al módulo AAO, los materiales usados y las pruebas experimentales realizadas para comprobar el funcionamiento del módulo.


! ! ! 47!

3.3 Experimentación y evaluación de los resultados obtenidos

A lo largo de este trabajo se han realizado tres tipos de experiementaciones para comprobar la validez y eficacia de cada módulo en particular, así como de la aproximación en conjunto.

El primer tipo de experimentaciones realizadas fueron pruebas cualitativas de los diferentes módulos. Estas pruebas tenían como finalidad evaluar y refinar el funcionamiento de cada uno de los módulos de forma independiente.

En segundo lugar se han realizado evaluaciones denominadas pruebas piloto con muestras intencionadas. Dichas pruebas han servido para comprobar la validez de una determinada aproximación, herramienta o módulo completo. Además han permitido depurar el algoritmo de cada módulo, a partir de los resultados obtenidos de la evaluación manual.

En tercer lugar se ha desarrollado una experimentación global con muestras de medicamentos seleccionados aleatoriamente, para así poder evaluar la propuesta en su conjunto.

3.3.1 Pruebas cualitativas

Como primera medida de evaluación de los dos primeros módulos que componen la propuesta se decidió realizar una serie de pruebas cualitativas. La finalidad de estas pruebas era estudiar y depurar el funcionamiento de dichos módulos, a partir de la propia muestra de estudio.

Para llevar a cabo estas pruebas se han analizado de forma manual dos muestreos de medicamentos, que serán referenciados a lo largo de esta Tesis como las muestras o conjuntos de pruebas A y B.

El primer conjunto (A) consistente en 60 medicamentos cuyo principio activo es el “ácido acetilsalicílico”, elegido por tratarse de uno de los medicamentos más comunes y que no requiere de prescripción facultativa.

El segundo conjunto (B) consiste en 500 medicamentos. Para conformarlo se escogieron de forma aleatoria 250 medicamentos de cada una de las dos versiones de OntoFIS usadas (6.1 R7 y 7 R2), sin permitir duplicados.

3.3.2 Pruebas piloto

La finalidad de estas pruebas piloto es establecer el rendimiento del algoritmo diseñado y depurado en las pruebas cualitativas, para detectar errores al generar la muestra de estudio, y verificar la causa para su segunda depuración.


!48!

Como ya se ha comentado, debido a que no existen pruebas evaluadas por expertos que permitan una valoración fidedigna de los algoritmos diseñados en este trabajo, se ha determinado realizar una batería de pruebas piloto a partir de muestras intencionadas. Este conjunto de medicamentos se ha denominado como muestra C.

La muestra C cuenta con un conjunto de medicamentos que ha sido seleccionado en base a su composición, siendo en total 438 los medicamentos usados en estas pruebas. Los tres conjuntos de medicamentos que componen esta muestra son: 177 medicamentos cuyo principio activo común a todos ellos es el ibuprofeno, 196 medicamentos con paracetamol como principio activo y 65 medicamentos cuyo ingrediente es metamizol. Los principios activos usados aparecen tanto como único principio activo del medicamento como en conjunción con otros principios activos.

La elección de estos principios activos se debe a que son de los más usados en la UE, y además los dos primeros no requieren prescripción facultativa en España. Como puede observarse, el ácido acetilsalicílico no ha sido incluido en estas pruebas, ya que fue utilizado en las pruebas cualitativas y se evita así el sesgo en los resultados.

3.3.3 Experimentación con muestras aleatorias

Una vez verificado el correcto comportamiento de cada módulo, es necesario comprobar el funcionamiento global de la propuesta. Se trata, no ya de conocer los errores y sus posibles causas, sino de valorar la fiablidad de la aproximación diseñada. De esta manera, además, se podrá comparar con otras propuestas ya existentes o futuras, y extraer conclusiones que ayuden a avanzar en el campo de la farmacoterapéutica.

Dado que no se dispone de una prueba aceptada como “gold standard” para establecer la validación de esta propuesta, se ha realizado un muestreo aleatorio de medicamentos, siendo evaluados los resultados de esta experimentación manualmente por expertos. De esta forma, los expertos establecen su propio criterio como base de comparación con los resultados del algoritmo.

Para ello se ha seguido un método aleatorio que permita obtener un nivel de representatividad del 95% con un error máximo del 5% en la muestra de estudio respecto a la población total. La muestra fue de 381 medicamentos seleccionados aleatoriamente de un conjunto inicial de 35782 medicamentos.

3.3.4 Métricas de Evaluación

Para determinar la eficacia de los algoritmos diseñados, en cada uno de los módulos que conforman la propuesta presentada, se han evaluado las soluciones obtenidas clasificándolas cualitativamente como resultados positivos o resultados negativos. Una solución ha sido considerada positiva cuando existe un resultado de acuerdo con el propósito del algoritmo aplicado. Por ejemplo, en el mapeado de


! ! ! 49!

OntoFIS y SNOMED-CT, hay un resultado positivo si se establece una correspondencia entre las etiquetas terminológicas de ambos recursos. Una solución ha sido considerada negativa cuando no se obtiene un resultado. Siguiendo con el mismo ejemplo, en el mapeado no se obtiene una correspondencia entre las etiquetas terminológicas de ambos recursos, respecto a un medicamento.

Por otro lado, los resultados obtenidos por el algoritmo pueden ser correctos (verdaderos) o incorrectos (falsos). Esta clasificación se realiza tras la evaluación manual por expertos.

La evaluación manual se ha considerado como la prueba de referencia con la que comparar el algoritmo diseñado, es decir, el ‘gold standard’ para determinar la exactitud de los resultados. En este sentido, los resultados finales pueden ser combinados, de acuerdo al algoritmo y al experto, en una tabla de 2x2 (o de contingencia) y en la que se incluyen las cuatro posibilidades (ver Tabla 3.2).

• Resultados positivos evaluados como correctos, es decir los clasificados como verdaderos positivos (VP).

• Resultados positivos evaluados como incorrectos, que se clasificarían como falsos positivos (FP).

• Resultados negativos evaluados como incorrectos, es decir los clasificados como falsos negativos (FN).

• Resultados negativos evaluados como correctos, que se clasificarían como verdaderos negativos (VN).

Tabla 3.2. Tabla de valores de evaluación de los experimentos. Resultado automático Evaluación del experto

Resultado positivo Resultado negativo

Condición: existe mapeo Verdadero positivo (VP) Falso Negativo (FN)

Condición: no existe mapeo Falso Positivo (FP) Verdadero Negativo (VN)

La eficacia de un algoritmo viene dada por su validez o la exactitud de sus resultados y los índices clave son la sensibilidad y la especificidad. Sin embargo, a lo largo de las diferentes pruebas se han realizado también otras evaluaciones, descritas en las Ecuaciones 3.1-3.6 (Sebastiani, 2002; Fernández y Díaz, 2003).

La sensibilidad o tasa de verdaderos positivos es la capacidad de detectar un mapeado cuando éste existe. Dicho de otro modo, la probabilidad del algoritmo para dar un resultado positivo cuando éste existe. Su fórmula (ver Ecuación 3.1) es coincidente con la métrica de cobertura (recall) aplicada a los sistemas de recuperación.


!50!

!"#$%&'%( = !"#$%&%'%()( = !"!"!!" (3.1)

La especificidad o tasa de verdaderos negativos (TVN) es la capacidad del algoritmo de detectar etiquetas terminológicas de medicamentos que no tienen ninguna correspondencia entre ambos recursos. Es decir, establece la probabilidad de que las etiquetas terminológicas del recurso de origen en la prueba resulten negativas, al no existir una etiqueta terminológica similar en el recurso diana. Su fórmula se muestra en la Ecuación 3.2.

!"#$%&'&%&()( = !"!"!!"! (3.2)

La precisión o valor predictivo positivo se refiere a la probabilidad de que una etiqueta terminológica de un medicamento tenga equivalencia en SNOMED-CT, si ha sido mapeada mediante la herramienta. Es decir, la probabilidad de que, habiendo sido mapeada por la herramienta, este mapeado sea correcto. Como muestra la Ecuación 3.3, cuanto mayor es el número de verdaderos positivos (numerador), mayor es la precisión de una prueba.

!"#$%&%ó! = !"#$%!!"#$%&'%()!!"#$%$&"!(!"") = !!!"!!" (3.3)

El valor predictivo negativo (VPN) es la probabilidad de que una etiqueta de la terminología origen que no ha sido mapeada, realmente no contenga un equivalente en SNOMED-CT. Es decir, la probabilidad que, no habiendo encontrado un mapeado, sea cierto que no existe ningún mapeado posible. En el cociente mostrado a continuación, la tasa de verdaderos negativos será mayor, cuanto mayor sea la cantidad de medicamentos evaluados correctamente como verdaderos negativos (numerador), tal y como muestra la Ecuación 3.4.

!"#$%!!"#$%&'%()!!"#$%&'(!(!"#) = !"!"!!" (3.4)

La exactitud se refiere a la probabilidad de obtener un resultado correcto, es decir, que no haya fallado la herramienta. La exactitud hace referencia a la probabilidad de que el resultado de la prueba sea fiable, tanto si el resultado de la prueba ha sido positivo (hay mapeado) como si ha sido negativo (no hay


! ! ! 51!

correspondencia). Como se viene refiriendo, correspondería a la suma de las etiquetas terminológicas que encontraron una equivalencia correcta en la terminología diana (verdaderos positivos) y aquellas que no la encontraron porque realmente no existía (verdaderos negativos), referido al total analizado (en el denominador). Su fórmula se muestra en la Ecuación 3.5.

!"#$%&%'( = !"!!"!"!!"!!"!!" (3.5)

El valor F o F-1 (Ecuación 3.6) expresa un equilibrio entre las medidas de cobertura y precisión, para establecer un valor único a la propuesta. En este caso se ha incluido debido a que tradicionalmente es una métrica muy utilizada en sistemas de PLN para establecer su eficacia global.

!"#$%!! = !!1 = !2 !"#$%&'%(·!"#$%&%ó!!"#$%&'%(!!"#$%&%ó! (3.6)

4. Extracción de Medicamentos y Normalización de Etiquetas (E+N)

Una vez que se ha descrito el planteamiento general de la aproximación, este capítulo detalla el funciomanento del primero de los módulos que componen la propuesta, denominado Extracción de Medicamentos y Normalización de Etiquetas (E+N). El objetivo de este módulo es doble. Por un lado, debe extraer la información que será utilizada en el resto de módulos, con la finalidad de aumentar la eficiencia del sistema al evitar tener que trabajar con toda la información que puebla OntoFIS. Por otro lado, debe normalizar la información extraída, con el fin de reducir la ambigüedad y futuros errores en el procesamiento de los módulos posteriores.

En la Figura 4.1 se muestra la disposición del módulo E+N respecto al resto de módulos, así como sus entradas y salidas. Como entrada, el módulo tiene la ontología OntoFIS y un recurso de abreviaturas, y como salida se representa el siguiente módulo, al que va dirigida la información obtenida en el presente.

Capítulo 4. Extracción de Medicamentos y Normalización.

!54!

Nota aclaratoria: Diagrama con el diseño general de la propuesta, resaltando el módulo de Extracción de

Medicamentos y Normalización (E+N).

Figura 4.1. Situación del módulo de E+N en el conjunto general de la propuesta.

La estructura de este capítulo comienza describiendo los materiales utilizados en este módulo y el método aplicado en esta primera etapa de la aproximación propuesta. Posteriormente, se incorpora un ejemplo del procesamiento que ilustra el funcionamiento del módulo, así como las pruebas cualitativas realizadas para testear y depurar dicho módulo.

4.1 Materiales

Como material de entrada, este módulo recibe un único recurso léxico especializado y la ontología OntoFIS, descrita en el apartado 2.2.5 del Capítulo 2 y el apartado 3.1.1 del Capítulo 3. El recurso léxico contiene una lista de abreviaturas y contracciones (apartado 3.1.4 del Capítulo 3), necesarias para la etapa de normalización.

Para las pruebas llevadas a cabo en este módulo (ver apartado 4.3) se han utilizado las muestras A y B (apartado 3.3.1 del Capítulo 3), que consisten, respectivamente, en 60 medicamentos elegidos de forma intencionada y 500 medicamentos seleccionados aleatoriamente.


! 55!

4.2 Método

En este apartado se detalla la aproximación desarrollada en el módulo E+N, para la extracción y normalización de las etiquetas terminológicas que pueblan la ontología OntoFIS.

Para cada instancia de la ontología, primero se extraerá toda la información posible que pueda ser útil para los siguientes módulos, almacenándola en una plantilla de medicamento, y luego será normalizada. En la Tabla 4.1 puede verse un ejemplo dicha plantilla vacía, donde se especifica, para cada campo, cuál es la clase de OntoFIS donde se espera encontrar dicha información.

Tabla 4.1. Modelo de la plantilla de extracción de medicamentos. Elemento Valor Clase OntoFIS Nombre del medicamento Medicamento Identificador del medicamento Medicamento Nombre del o de los principios activos PrincipioActivo Identificador del o de los principios activos PrincipioActivo Concentración de los ingredientes PrincipioActivo Forma farmacéutica del medicamento FormaFarmaceutica Vía de administración del medicamento ViaAdministracion Población objetivo Edad Nota aclaratoria: Detalle de la información extraída de la población de OntoFIS, especificando el tipo de información y la clase que se ha utilizado para ello.

Para ilustrar el funcionamiento del módulo se va a utilizar como ejemplo el medicamento "TROMALYT 150 150MG 28 CAPSULAS", con principio activo ácido acetilsalicílico.

4.2.1 Extracción de información de OntoFIS

En primer lugar, se extraen todas las instancias de la clase 'Medicamento' que deban ser mapeadas, recuperando de cada instancia los valores de los atributos 'Medicamento..nombre_medicamento_espanya' y 'Medicamento..ID', que contienen el nombre del medicamento y su código de identificación interna respectivamente. El nombre del medicamento (nombre de especialidad) será la etiqueta que se utilizará para los futuros mapeados en el módulo ML, mientras que el identificador se utilizará para extraer de OntoFIS el resto de información que se necesite, así como para identificar la etiqueta que será ampliada en el módulo AAO.

Los módulos siguientes necesitarán, además de la etiqueta con el nombre de especialidad del fármaco, información sobre vías de administración, formas farmacéuticas, principios activos y unidades de medida. Para obtener cada uno de estos


!56!

datos se utilizarán las instancias de las diferentes clases de OntoFIS, empleando las relaciones semánticas existentes para conocer qué instancias deben ser utilizadas.

En la Figura 4.2 se especifica qué propiedades se extraen de cada instancia de OntoFIS, así como las relaciones semánticas utilizadas siguiendo un diagrama de clases UML. En dicha figura, los recuadros muestran el nombre de la clase a la que pertenece la instancia en la parte superior, mostrando en la parte inferior el nombre de cada una de las propiedades de las que se extrae su valor. Las flechas direccionales que las unen representan las relaciones semánticas existentes. El origen de la flecha es la instancia que contiene la explicitación de la relación. Una flecha puede originarse o apuntar a un pequeño recuadro indicando cuál es el atributo que se está utilizando en cada caso para identificar la instancia exacta de OntoFIS que debe ser recuperada. Por ejemplo, para conocer el nombre del principio activo de un determinado medicamento, primero se obtendrá el atributo 'Medicamento..ID' de la instancia de 'Medicamento' del cual queremos conocer su principio activo. Seguidamente se buscará aquella instancia de la clase 'PrincipioActivo' cuya relación semántica 'composes_1.1.1' tenga como destino el valor de dicho 'Medicamento..ID'.

Nota aclaratoria: Se muestran las diferentes clases de OntoFIS utilizadas junto con las propiedades que contienen la información extraída. Las flechas direccionales indican las relaciones semánticas, partiendo de la clase que contiene su explicitación. Los pequeños recuadros en origen o destino indican cuál es el

atributo que identifica a la instancia específica que contiene la información buscada.

Figura 4.2. Ejemplo de estructura y relaciones semánticas de OntoFIS.

En el ejemplo elegido, por tanto, el primer paso es recuperar la instancia de la clase 'Medicamento' con el valor "TROMALYT 150 150MG 28 CAPSULAS" del atributo 'Medicamento..nombre_medicamento_espanya' y se extrae el valor del atributo 'Medicamento..ID'. En la Figura 4.3 puede verse el código OWL de dicha instancia de OntoFIS, resaltando el atributo de identificación y el que contiene el nombre de especialidad del medicamento. En este ejemplo puede observarse una de las


! 57!

ambigüedades presentes en las etiquetas de los medicamentos, donde el primer término “150” forma parte del nombre del medicamento, mientras que el segundo “150” indica la concentración de su único principio activo.

Nota aclaratoria: En esta figura aparecen resaltados los campos con la información extraída referente al

identificador interno de la instancia y la etiqueta con el nombre de especialidad del medicamento.

Figura 4.3. Fragmento de OntoFIS correspondiente a la instancia ‘Medicamento_7217’ de la clase ‘Medicamento’.

El siguiente paso es obtener los principios activos que forman el medicamento y su concentración. Para ello se busca aquella instancia de la clase ‘PrincipioActivo’ cuya relación ‘composes_1.1.1’ tenga como destino el valor del identificador del medicamento, que en este caso es ‘#Medicamento_7217’.

Una vez localizada la instancia adecuada, de ella se extraen los valores de las propiedades ‘PrincipioActivo..ID’, ‘PrincipioActivo..nombre_generico’ y ‘PrincipioActivo..concentracion’, así como el identificador de la clase ‘UnidadMedida’. En la Figura 4.4 se muestra un fragmento del concepto extraído, en formato OWL, resaltando en negrita los valores de los atributos mencionados.

Nota aclaratoria: En esta figura aparecen resaltados los campos de donde se extrae la información

referente al identificador interno de la instancia y la etiqueta con el nombre comercial del medicamento.

Figura 4.4. Fragmento de OntoFIS correspondiente a la instancia ‘Medicamento_7217’ de la clase ‘Medicamento’.

<Medicamento rdf:about="#Medicamento_7217"> <Medicamento..ID>7217</Medicamento..ID> <Medicamento..nombre_medicamento_espanya> TROMALYT 150 150MG 28 CAPSULAS </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional>694315</Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya/> <Medicamento..estado_comercializacion> BAJA DE COMERCIALIZACIÓN </Medicamento..estado_comercializacion> </Medicamento>

<PrincipioActivo rdf:about="#PrincipioActivo_3059"> <PrincipioActivo..ID>3059</PrincipioActivo..ID> <PrincipioActivo..nombre_generico xml:lang="es"> ACETILSALICILICO ACIDO </PrincipioActivo..nombre_generico> <PrincipioActivo..codigo_OMS>B01AC06</PrincipioActivo..codigo_OMS> <PrincipioActivo..concentracion> 1,00 U.D.ORAL </PrincipioActivo..concentracion> <PrincipioActivo..estado_uso>CATALOGADO</PrincipioActivo..estado_uso> <requires_4.4 rdf:resource="#UnidadMedida_18"/> <composes_1.1.1 rdf:resource="#Medicamento_7217"/> […] </PrincipioActivo>!


!58!

Es necesario remarcar que, aunque es posible extraer la concentración de los principios activos que forman los ingredientes de un medicamento, esta información no es siempre fiable, y sólo será usada en caso de no aparecer explicitada en el nombre comercial del medicamento. Se dice que esta información no es fiable puesto que la base de datos que se utilizó para poblar OntoFIS de forma semi-automática, DIGITALIS, no contiene las concentraciones de los medicamentos multiingrediente y, además, para algunos monoingrediente se ha comprobado manualmente que no es coincidente. Por tanto, al ser extraída, se analizará de forma automática, comprobando que es adecuada para usarla para rellenar la información faltante. Para ello se comprueba que no se trate de, por ejemplo, la cadena “1,00 U. D. ORAL”. Este valor se encuentra en algunos medicamentos, y su significado es de “una unidad de dosis oral”, refiriéndose a que el paciente debe ingerir por vía oral sólo uno de los comprimidos o cápsulas del medicamento, por lo que no aporta información referente a la cantidad de principio activo.

Este ejemplo muestra también la capacidad de comparar medicamentos aunque ya estén en desuso, como el caso presente en el que consta la baja comercial. Aspecto que puede ser útil para estudios evolutivos en diversos ámbitos sanitarios.

El último paso de la extracción es recuperar las instancias de la clase ‘FormaFarmaceutica’, ‘ViaAdministracion’ y ‘Edad’ a partir de las relaciones semánticas ‘property_of_4.4’ ‘manages_2.1.8’ y ‘treats_2.1.10’ respectivamente. La extracción se realiza de la misma forma en la que se ha recuperado la instancia de la clase ‘PrincipioActivo’.

Tabla 4.2. Modelo de la plantilla de extracción de medicamentos previa a la normalización. Elemento Valor Nombre del medicamento TROMALYT 150 150MG 28 CAPSULAS Identificador del medicamento 7217 Nombre del o de los principios activos ACETILSALICILICO ACIDO Identificador del o de los principios activos 3059 Concentración de los ingredientes - Forma farmacéutica del medicamento - Vía de administración del medicamento - Población objetivo - Nota aclaratoria: Detalle de la información extraída de la población de OntoFIS, especificando el tipo de información y el valor obtenido.

Todos los elementos extraídos se incorporan a una plantilla de medicamento. En algunos casos, como en este ejemplo, no es posible completar todos los campos de la plantilla en este módulo. Sin embargo esto no es problema, ya que esta plantilla será completada en el siguiente módulo. En la Tabla 4.2 se observan los diferentes elementos que se han recuperado para el ejemplo, y las clases de la ontología que los contenían o debían contenerlos. Es de interés en este ejemplo que la concentración que estaba


! 59!

especificada originalmente en la base de datos DIGITALIS (“1,00 U.D.ORAL”, ver Figura 4.4) no ha sido extraída por ser considerada como no fiable. De hecho, ésta no concuerda con la especificada en el nombre comercial del medicamento (“150MG”).

4.2.2 Normalización

Una vez extraídas todas las etiquetas posibles, el siguiente paso es normalizar dichas etiquetas terminológicas aplicando técnicas de PLN. El objetivo de esta normalización es reducir ambigüedades y mejorar la eficacia y eficiencia del proceso.

Esta etapa realiza los siguientes siete tipos de modificaciones sobre las etiquetas a evaluar: (i) transformación a minúsculas, (ii) convertir en comas los separadores decimales, (iii) separar los números y letras, (iv) separar las barras y paréntesis, (v) expansión de abreviaturas, (vi) sustituir los símbolos de suma y guiones por barras y (vii) unir los símbolos de porcentaje a su cifra precedente. A continuación se detalla el proceso y finalidad de cada una de ellas, y en la Tabla 4.3 se pueden ver ejemplos de dichas transformaciones.

• Transformación a minúsculas. Algunas técnicas de PLN como los métodos de similitud léxica exacta diferencian entre minúsculas y mayúsculas y, mientras que la mayoría de las etiquetas en OntoFIS están escritas es mayúsculas, en SNOMED-CT lo están en minúsculas. Manteniendo el criterio de adecuar la terminología origen a la de destino comentada en el Capítulo 1, las etiquetas de OntoFIS son transformadas en minúsculas.

• Convertir en comas los separadores decimales. Con el fin de contar con un único criterio se adecua la representación al formato usado en SNOMED-CT donde se utiliza la coma como separador decimal.

• Separar números y letras. Para facilitar la identificación de los diferentes elementos del medicamento, se separan las cifras de los términos que sólo contienen letras. Este problema suele ocurrir en las representaciones de los valores de las concentraciones unidos a su unidad de medida.

• Separar las barras de paréntesis. A fin de poder identificar posteriormente los paréntesis y barras de forma más precisa, éstos son separados de sus caracteres contiguos.

• Expansión de abreviaturas. Las abreviaturas son sustituidas por sus expresiones en lenguaje natural correspondiente. Estas abreviaturas suponen uno de los mayores problemas de ambigüedad en el módulo de Equiparación de Granularidades (EG).

• Sustituir los símbolos (‘+’) y (‘-’) por barras (‘/’). En OntoFIS se ha detectado el uso de estos tres tipos de elementos para separar los diferentes ingredientes de un medicamento, mientras que en SNOMED-CT se usa la barra en la mayoría de los casos. Este proceso, además, separa la barra sustituida de los caracteres contiguos.


!60!

• Unión de porcentajes a la cifra precedente. De esta forma se facilita la posterior identificación de las concentraciones en disolución en el módulo EG.

Tabla 4.3. Enumeración de las técnicas de PLN aplicadas en la fase de la normalización. Técnica Texto original Texto normalizado Transformación a minúsculas COMPRIMIDOS comprimidos Convertir en comas los separadores decimales 10.2 10,2 Separar los números y letras 200mg 200 mg Separar las barras y paréntesis (200/300 ( 200 / 300 Expansión de abreviaturas com comprimidos Sustitución de (‘+’) y (‘-’) por barras inhalatoria+pulmonar inhalatoria / pulmonar Unión de porcentajes a la cifra precedente 5 % 5%

Seguidamente, en la Tabla 4.4, se incluye el resultado normalizado de la plantilla del medicamento utilizado para el ejemplo.

Tabla 4.4. Ejemplo de plantilla de extracción de medicamentos normalizada. Elemento Valor Nombre del medicamento tromalyt 150 150 mg 28 capsulas Identificador del medicamento 7217 Nombre del o de los principios activos acetilsalicilico acido Identificador del o de los principios activos 3059 Concentración del o de los ingredientes - Forma farmacéutica del medicamento - Vía de administración del medicamento - Población objetivo - Nota aclaratoria: Detalle de la información extraída de la población de OntoFIS, especificando el tipo de información y el valor normalizado.

4.3 Pruebas cualitativas

Finalmente, para comprobar el funcionamiento del módulo, se ha realizado una prueba cualitativa manual, partiendo de las muestras A y B. Tras evaluar el comportamiento de este módulo con ambas pruebas, todas las fichas fueron rellenadas, aunque se observaron ciertas abreviaturas que no fueron expandidas, debido a que eran desconocidas.

Esta prueba ha ayudado por tanto a poblar de forma manual el recurso léxico-semántico especializado de abreviaturas, pasando de 110 existentes en la primera versión a las 194 que constituyen la versión final utilizada para las pruebas, experimentos y evaluaciones del resto de módulos.

5. Equiparación de Granularidades (EG)

En este capítulo se detallará el funcionamiento del segundo de los módulos que componen la propuesta de este trabajo: el módulo de Equiparación de Granularidades (EG). El objetivo fundamental de este módulo es el de equiparar los niveles de granularidad de OntoFIS y SNOMED-CT. Este paso es necesario para poder obtener un mapeado efectivo entre los medicamentos existentes en OntoFIS con las representaciones virtuales de SNOMED-CT.

Puesto que OntoFIS tiene un nivel de especificidad mayor que el de SNOMED-CT para las especialidades farmacéuticas, será necesario reducir la especificidad de las etiquetas terminológicas que pueblan OntoFIS. Para ello se crearán versiones más abstractas de los nombres de especialidad de los medicamentos, denominadas Nombre de Especialidad Simplificado (NES) y Nombre Implícito (NI), siendo este último de mayor abstracción, y equiparable semánticamente al formato VMP existente en el núcleo de SNOMED-CT, tal y como se muestra en la Tabla 5.1. El NES pretende facilitar las tareas de valoración manual en la evaluación de este módulo, así como crear un nivel intermedio de granularidad que permita, en el futuro, mapear sobre las extensiones territoriales de SNOMED-CT (que utilizan el formato AMP).

Tabla 5.1 Equivalencia de granularidades entre OntoFIS y SNOMED-CT. Granularidad OntoFIS Similitud SNOMED-CT

< Especificidad Nombre Implícito (NI) equivalente a Producto medicinal virtual (VMP)

… Nombre de Especialidad Simplificado (NES) equivalente a Producto medicinal real (AMP)

> Especificidad Etiqueta comercial del medicamento equivalente a -

Capítulo 5. Equiparación de Granularidades.

!62!

En la Figura 5.1 se puede observar resaltado el módulo EG, junto con sus entradas y salidas. El módulo EG recibe como entrada la salida del módulo Extracción de Medicamentos y Normalización (E+N) y un conjunto de lexicones, produciendo como salida la que será la entrada del módulo de Mapeado Léxico (ML).

Con el fin de depurar y evaluar el funcionamiento de la aproximación, en este módulo se han realizado dos tipos de pruebas. Las primeras pruebas (usando las muestras A y B) fueron realizadas con el fin de detectar los patrones que existen en la formación de las etiquetas de los nombres de comercialización de los medicamentos en España. Para el segundo tipo de pruebas se usó muestra C y consistieron en un experimento con muestreo intencionado, con la finalidad de depurar el método.

Nota aclaratoria: Diagrama con el diseño general de la propuesta, resaltando el módulo de Equiparación de Granularidad (EG). En la parte derecha pueden observarse los recursos léxico-semánticos utilizados.

Figura 5.1. Situación del módulo EG en el conjunto general de la propuesta.


! 63!

En las siguientes secciones se explicarán los materiales usados para este módulo, el método seguido, los experimentos realizados para comprobar la eficacia de la propuesta, los resultados obtenidos y las conclusiones parciales extraídas.

5.1. Materiales

Los materiales usados como entrada del módulo son la salida del módulo E+N más una serie de recursos terminológicos específicos del dominio en castellano, creados de forma semi-automática por expertos humanos y usando recursos específicos del dominio como DIGITALIS. Éstos recogen información acerca de: población, vías de administracion, vías de administración a partir de formas farmacéuticas, unidades de medida, packings y abreviaturas.

Para las pruebas cualitativas realizadas para la identificación de patrones fueron usadas las muestras A y B. La muestra A, consistente en 60 medicamentos cuyo principio activo es el ácido acetilsalicílico, fue utilizada para la primera identificación de patrones. Seguidamente se utilizó la muestra B, consistente en 500 medicamentos elegidos de forma aleatoria, para depurar la identificación de patrones. Estas muestras se encuentran más detalladas en el apartado 3.3.1 del Capítulo 3.

Para la depuración del método se utilizó la muestra C, consistente en 438 medicamentos, seleccionados a partir de sus principios activos (ibuprofeno, paracetamol y metamizol). Esta muestra se explica de forma más detallada en el apartado 3.3.2 del Capítulo 3.

5.2. Método

Para realizar la equiparación de granularidad entre OntoFIS y SNOMED-CT primero es necesario conocer la estructura de los nombres comerciales de los medicamentos de la población de OntoFIS. Esto permitirá extraer la información necesaria para la creación del Nombre de Especialidad Simplificado (NES) y el Nombre Implícito (NI).

Respecto al formato de las etiquetas de medicamentos existentes en OntoFIS, en España las etiquetas con los nombres de medicamentos comercializados incluyen una serie de campos especificados en el Real Decreto 1345/2007 (RD, 2007). Además, se definen una serie de normas para denominar una determinada especialidad farmacéutica


!64!

en la Ley 13/1996, de 30 de noviembre, de Medidas Fiscales, Administrativas y del Orden Social.

Aunque en el Real Decreto 1345/2007 se especifican los elementos mínimos que deben aparecer en la etiqueta del medicamento, no se especifica la posición. Por ello, se ha decidido realizar un estudio manual de las etiquetas en busca de patrones en la disposición de los diferentes elementos, en las etiquetas comerciales de los medicamentos.

5.2.1. Análisis de los Patrones

Es importante notar que, aunque para un experto humano generalmente es fácil distinguir los diferentes elementos en el nombre comercial de un fármaco, no lo es para un método automático. Para determinar a qué tipo de elemento (nombre, concentración, forma farmacéutica…) se refiere una determinada parte de una etiqueta, un método automático debe basarse en las características del texto (por ejemplo, si es un número decimal es probable que se refiera a la concentración), su posición y el contexto que lo rodea (basado en patrones) y también en base a qué otra información haya sido ya identificada en esa etiqueta comercial (por ejemplo, no puede haber dos formas farmacéuticas).

Para la identificación de patrones primero se utilizó la muestra A, mediante la cual se pudieron identificar 17 patrones, los cuales estaban compuestos por distintos elementos, aunque no siempre aparecían todos ellos en la etiqueta comercial.

Respecto a la estructura de las etiquetas de los nombres de medicamentos, en la siguiente tabla se muestran los primeros 17 patrones identificados, junto con la leyenda utilizada en la denominación de los patrones.


! 65!

Tabla 5.2 Conjunto de los 17 patrones identificados manualmente en el estudio cualitativo utilizando únicamente la muestra A. # Patrón Leyenda 1 N + C + M + CP + FF N: Nombre de la especialidad 2 N + C + M + CP + FF + POB PA: Principio activo 3 N + POB + C + M + CP + FF PAC: Principio activo compuesto 4 N + C + M + FF C: Concentración 5 PA + N + C + M + CP + FF CC: Concentración compuesta 6 PA + C + M + CP + FF M: Unidad de medida 7 N + CC + M + CP + FF CP: Cantidad de producto 8 N + C + CP + FF FF: Forma farmacéutica 9 N + POB + C + M + FF + CP + PCK POB: Población objetivo del medicamento

10 N + V + C + M + CP + FF PCK: Empaquetado (packing) 11 N + V + N + C + M + CP + FF V: Vía de administración del fármaco 12 N + CP + FF EFG: Acrónimo referido a especialidad farmacéutica genérica 13 N + POB + C + M + CP + FF + PCK + V 14 N + C + M + CP + FF + EFG + PCK 15 N + C + M + CP + FF + EFG 16 PA + N + C + M + CP + FF + EFG 17 PAC + N + CC + M + CP + FF + EFG

Tras esta primera identificación de patrones se constató que no se habían encontrado medicamentos con concentraciones en disolución, por lo que era probable que existiesen patrones no recogidos en la lista anterior. Para solucionar este problema se realizó un nuevo análisis manual, utilizando la muestra B (500 medicamentos).

Este segundo experimento cualitativo sirvió para identificar 8 nuevos patrones, los cuales también incluían nuevos elementos.


!66!

En la Tabla 5.3 se han recogido los 17 elementos totales identificados, agrupados según la semántica de su contenido. Junto a los elementos se incluyen entre paréntesis las abreviaturas que se utilizarán en este capítulo para referirse a ellos. En la citada Tabla 5.3 se incluyen también las características y ejemplos de todos los elementos.

Tabla 5.3 Clasificación de los elementos que componen el nombre comercial de un medicamento.

Elemento del patrón (abreviatura)

Subtipo (abreviatura)

Características léxicas Ejemplo

Nombre Nombre de la especialidad (N)

Cadena de texto aspirina

Principio Activo (PA) Cadena de texto acido acetilsalicilico Principio Activo Compuesto (PAC)

Cadena de texto con barra lisinopril / hidroclorot

Población Población Objetivo (POB) Cadena de texto infantil Concentración Concentración (C) Cantidad numérica, entera o

decimal 600

Concentración Compuesta (CC)

Varias cantidades numéricas, enteras o decimales, separadas por barras

20 / 12,5

Concentración en Disolución (C%)

Cantidad numérica, entera o decimal, junto con porcentaje

10%

Concentración en Proporción (C/)

Cantidad numérica, entera o decimal, junto con dos unidades de medida separadas por una barra

100 mg / ml

Concentración Compuesta con Duplicidad de Unidad (CC2U)

Varias cantidades numéricas, enteras o decimales, junto con su unidad de medida, separadas por una barra

160 mg / 25 mg

Magnitud Unidad de Medida (M) Cadena de texto mg Forma farmacéutica Forma Farmacéutica (FF) Cadena de texto solucion inyectable Cantidad Cantidad de Producto (CP) Cantidad numérica entera 6 Empaquetado Packing (PCK) Cadena de texto jeringas precargadas Forma de administración Vía Administración (V) Cadena de texto solucion oral Especialidad genérica EFG (EFG) Texto constante “efg” efg Medida Medida de Producto o

Unidad (MP) Cantidad numérica, entera o decimal, junto con una unidad de medida

0,4 ml


! 67!

A continuación, en la Tabla 5.4, se muestra el conjunto global de los 25 patrones identificados, junto con un ejemplo de etiqueta de nombre comercializado en España, conforme llega al módulo EG tras ser normalizada en el módulo E+N:

Tabla 5.4 Conjunto de los 25 patrones identificados manualmente. # Patrón Ejemplo de medicamento 1 N + C + M + CP + FF aspirina 1 g 20 comprimidos 2 N + C + M + CP + FF + POB aspirina 1 g 10 supositorios adultos 3 N + POB + C + M + CP + FF aspirina infantil 300 mg 10 supositorios 4 N + C + M + FF aspirina 500 mg comprimidos masticables 5 PA + N + C + M + CP + FF acido acetilsalicilico diviser 500 mg 20 comprimidos 6 PA + C + M + CP + FF acido acetilsalicilico 500 mg 20 tabletas 7 N + CC + M + CP + FF duoplavin 75 / 100 mg 28 comprimidos recubiertos con pelicula 8 N + C + CP + FF tromalyt 300 28 capsulas liberacion prolongada 9 N + POB + C + M + FF + CP + PCK solusprin infantil 250 mg polvo 20 bolsas dobles de 125 mg

10 N + V + C + M + CP + FF inyesprin oral 900 mg 20 sobres granulado 11 N + V + N + C + M + CP + FF inyesprin oral forte 1800 mg 20 sobres 12 N + CP + FF inyesprin forte 6 inyectables 13 N + POB + C + M + CP + FF + PCK + V solusprin adultos 1 g 20 sobres fracc polvo solucion oral 14 N + C + M + CP + FF + EFG + PCK pergolida teva 0,05 mg 30 comprimidos efg blíster 15 N + C + M + CP + FF + EFG paroxetina allen 20 mg 28 compr recubiert pelic efg 16 PA + N + C + M + CP + FF + EFG ibuprofeno juventus 600 mg 40 comprim rec pel efg 17 PAC + N + CC + M + CP + FF + EFG lisinopril / hidroclorot acost 20 / 12,5 mg 28 comp efg 18 PA + N + C% + CP + FF + EFG aciclovir teva 5% 15 g crema efg 19 N + C% + CP + FF aldospray analgesico 10% 90 g aerosol espuma 20 N + C/ + CP + PCK + FF benerva 100 mg / ml 6 ampollas solucion inyectable 21 PAC + N + CC2U + CP + FF + EFG lisinopril / hidroclorotiazida teva 20 mg / 12,5 mg 28 comprimidos

efg 22 N + C/ + CP + PCK + MP + FF boxol 5000 ui / jer 10 jeringas precargadas 0,2 ml solucion iny 23 N + CC2U + CP + FF exforge 5 mg / 160 mg 28 comprimidos recubier pelicula 24 N + C + M + C + M + CP + PCK + MP + FF decipar 40 mg 4000 ui 10 jeringas precargad 0,4 ml soluc iny 25 PA + N + C + M + CP + FF + V + EFG acetilcisteina cinfa 600 mg 20 sobres pol sol oral efg Nota aclaratoria: Junto con cada patrón se muestra un ejemplo, obtenido tanto de la muestra A como del estudio de la muestra B.

5.2.2. Estudio comparativo con SNOMED-CT

Una vez detectados los patrones seguidos en la formación de los nombres comerciales o de especialidad de los medicamentos comercializados en España, se ha analizado la información contenida en cada uno de ellos. Este análisis ha permitido conocer qué patrones contienen la información necesaria para crear los niveles de granularidad de OntoFIS que serán utilizados por el siguiente módulo para el mapeado.

Como se ha mencionado anteriormente, el NES (Nombre Específico Simplificado) está compuesto por el nombre del medicamento, concentración, unidad de medida y forma farmacéutica. Por otro lado, el NI (Nombre Implícito) está compuesto por los principios activos del medicamento, concentración, unidad de medida y forma farmacéutica.


!68!

El resultado de este análisis se ha sintetizado en la Tabla 5.5. En cada columna se indica con un tick (!) si el patrón posee dicha información. Los nombres de las columnas indican la presencia de los siguientes elementos: nombre de especialidad del medicamento (Nom), principios activos (Pri), concentración (Con), unidad de medida (Med), cantidad de producto (Cant), forma farmacéutica (For), población objetivo del medicamento (Pob), información del empaquetado o packing (Emp), vía de administración (Vía), medida de producto (MP) o si se trata de un medicamento genérico (EFG). En las dos últimas columnas, NES y NI, si el patrón cumple con la granularidad adecuada se indica con un tick (!), si le sobra información para la obtención de los mismos se indica con S, si le falta información se indica con F y si le sobra y a la vez le falta información se indica con FS. El caso en el cual a un patrón le falte y le sobre información a la vez, es una de las situaciones más delicadas, ya que es fundamental no cometer errores en la identificación de los elementos, de forma que se conozca exactamente qué información debe ser recuperada de OntoFIS y qué información debe ser desechada.

Tabla 5.5 Información contenida en cada uno de los patrones para establecer la equiparación con la representación en SNOMED-CT. Nom Pri Con Med Cant For Pob Emp Vía MP EFG NES NI

1 ! - ! ! - ! - - - - - ! FS 2 ! - ! ! - ! ! - - - - S FS 3 ! - ! ! ! ! ! - - - - S FS 4 ! - ! ! - ! - - - - - ! FS 5 ! ! ! ! ! ! - - - - - S S 6 - ! ! ! ! ! - - - - - S S 7 ! - ! ! ! ! - - - - - S FS 8 ! - ! ! ! ! - - - - - S FS 9 ! - ! ! ! ! ! ! - - - S FS

10 ! - ! ! ! ! - - ! - - S FS 11 ! - ! ! ! ! - - ! - - S FS 12 ! - - - ! ! - - - - - FS FS 13 ! - ! ! ! ! ! ! ! - - S FS 14 ! - ! ! ! ! - ! - - ! S FS 15 ! - ! ! ! ! - - - - ! S FS 16 ! ! ! ! ! ! - - - - ! S S 17 ! ! ! ! ! ! - - - - ! S S 18 ! ! ! ! ! ! - - - - ! S S 19 ! - ! ! ! ! - - - - - S FS 20 ! - ! ! ! ! - ! - - - S FS 21 ! ! ! ! ! ! - - - - ! S S 22 ! - ! ! ! ! - ! - ! - S FS 23 ! - ! ! ! ! - - - - - S FS 24 ! - ! ! ! ! - ! - ! - S FS 25 ! ! ! ! ! ! - - ! - ! S S Nota aclaratoria: Para cada patrón se indica además la diferencia de especificidad respecto a las representaciones NES y NI. Se indica con un tick (!) si está toda la información necesaria, con S si sobra, con F si falta o con FS si falta y sobra información al mismo tiempo.

Observando las Tablas 5.4 y 5.5 se aprecia que varios patrones son muy similares entre sí, conteniendo el mismo tipo de información semántica, aunque


! 69!

variando el orden o la estructura en tan sólo la existencia o no de un elemento. Por ejemplo, los patrones 7, 8, 19 y 23 contienen el mismo tipo de información semántica pero usando variaciones del elemento que representa la concentración.

Estas pequeñas variaciones existentes entre algunos patrones inducen a considerar que con un estudio mayor se detecten nuevos patrones, muy similares a los 25 detectados. Por tanto se ha decidido que el sistema de patrones debe ser una guía pero, al mismo tiempo, el método debe ser flexible en cuanto al número de elementos que pueden detectarse o las variaciones dentro del mismo grupo de elementos semánticos. Por ejemplo, el método debe ser capaz de detectar correctamente un medicamento que siga el patrón 11 pero que, en lugar de aparecer una concentración simple, pueda aparecer una en disolución, como la que aparece en el patrón 19.

5.2.3. Algoritmo de equiparación de granularidades

Al estudiar los patrones detectados, se puede observar la gran casuística y variabilidad en la aparición de la información y cómo, intuitivamente, se prevé que los elementos más sencillos de detectar serán aquellos que se encuentren en los lexicones, o bien que se encuentren cerca del inicio de lectura.

Siguiendo este razonamiento, para aquellos elementos no existentes en los lexicones, en una lectura de izquierda a derecha será más sencillo identificar los elementos que estén situados más a la izquierda, mientras que en la lectura de derecha a izquierda será más sencillo identificar los elementos que estén situados más a la derecha del nombre de especialidad del medicamento. Por tanto, de izquierda a derecha se detectarán elementos como los pertenecientes al grupo semántico de nombres (N, PA, PAC) y de concentraciones (C, CC, C%, C/, CC2U), y de derecha a izquierda aquellos que recogen la información de la forma farmacéutica (FF) o los empaquetados (PCK) no existentes en los lexicones.

Por ello, se han creado dos grafos acíclicos dirigidos, siguiendo la filosofía de las máquinas de estados finitos, donde un sistema se encuentra en un instante dado en un único estado, viniendo éste condicionado por la entrada recibida hasta ese instante. Los dos grafos creados representan la lectura de patrones elemento a elemento tanto de izquierda a derecha como de derecha a izquierda. La finalidad de dichos grafos es, como se ha comentado anteriormente, la de obtener una guía de desambiguación de los diferentes elementos, pues permitirá conocer para aquellos bloques de texto desconocido de qué elemento puede tratarse, en función de qué elementos se hallen a su alrededor así como de cuáles hayan sido ya detectados. Estos grafos están representados en las Figuras B.1 y B.2 del Anexo B, donde se muestran los grafos correspondientes, respectivamente, a la lectura de nombres de medicamentos de izquierda a derecha y de derecha a izquierda, acorde a los 25 patrones identificados y la representación gráfica especificada anteriormente.


!70!

Observando las características de la Tabla 5.4 junto con las Figuras B.1 y B.2, se evidencia que la mayor dificultad recae en tratar de identificar elementos con las mismas características que aparecen de forma consecutiva. Por ejemplo, en el nombre de medicamento “aldospray analgesico 10% 90 g aerosol espuma”, para un experto humano es fácil identificar que “10%” corresponde a la concentración (C) del principio activo del medicamento, mientras que “90 g” corresponde a la cantidad de producto (CP), pero para una máquina esto no es trivial, ya que puede confundirlo con la unidad de medida o dosis (MP), o incluso con una ambigüedad en la especificación de la concentración.

Teniendo en cuenta la variabilidad explicitada en los gráficos y tablas anteriores, se ha diseñado un método automático para la formación de las representaciones con formato NES y NI (equivalentes respectivamente a AMP y VMP de SNOMED-CT) a partir de los nombres de los medicamentos almacenados en OntoFIS. Para ello se combinarán los materiales descritos en este capítulo con técnicas de PLN y los patrones detectados. Este método se encargará de detectar, desambiguar y marcar cada uno de los elementos de los medicamentos, aplicando varias iteraciones, desde los análisis más sencillos y rápidos hasta los más sofisticados para los medicamentos más complejos, con el fin de equiparar las granularidades de las terminologías a mapear.

El algoritmo diseñado para la identificación y marcado de los diversos elementos existentes en los nombres de especialidad de los fármacos consta de seis pasos: (i) identificación y marcado de elementos por lexicón, (ii) desambiguación de elementos por lectura de izquierda a derecha, (iii) desambiguación de elementos por lectura de derecha a izquierda, (iv) validación del medicamento, (v) escritura del NES (Nombre de Especialidad Simplificado) y (vi) escritura del NI (Nombre Implícito). En la Figura 5.2. se muestran estos pasos, que se explicarán con más detalle en los siguientes apartados.

Como se muestra en la Figura 5.2, si existiese algún problema en la validación del medicamento o en la escritura del NES o NI, el sistema mostraría un aviso para una verificación por un experto humano para ese medicamento, siguiendo con el procesamiento del resto de medicamentos, si los hubiese. En dicho aviso se informará de que es descartado y la razón del descarte. Este aviso servirá para que, en el futuro, un experto humano pueda solucionar el problema de forma semi-automática, permitiendo al sistema continuar con la ejecución de dicho medicamento.


! 71!

Nota aclaratoria: el algoritmo mostrado produce el Nombre Implícito (NI) con formato equivalente al

VMP de SNOMED-CT, a partir de nombres de medicamentos comercializados en España

Figura 5.2. Esquema del funcionamiento del método EG.

En la siguiente sección se muestra un ejemplo del procesado de una etiqueta de un nombre de especialidad del medicamento, con el fin de ayudar a comprender el funcionamiento del módulo EG.

i) Identificación y marcado de elementos por lexicón

Este paso se realiza al comienzo y es de gran ayuda en la identificación del patrón usado, reduciendo la complejidad de los pasos siguientes. Además, este proceso tiene una baja carga computacional.

Siguiendo con la filosofía de los algoritmos de ‘divide y vencerás’, el primer paso es dividir la etiqueta del nombre del medicamento en secciones más pequeñas. El siguiente paso es la división del nombre comercial del medicamento, seccionándolo por sus cifras numéricas. Esta división permite mejorar la eficiencia del algoritmo puesto que a menor longitud en la cadena de búsqueda, menor tiempo de cómputo requerido.


!72!

Esta división no supone una pérdida de semántica puesto que, como se puede observar en las Figuras B.1 y B.2 (ver Anexo B), las cantidades numéricas separan elementos. Por tanto, con este método se reducen los tiempos de cómputo y la casuística. Por ejemplo, la etiqueta “solusprin 250 mg polvo bolsas dobles” quedará seccionada como “solusprin | 250 | mg polvo bolsas dobles”.

El siguiente paso es, para aquellas secciones de la etiqueta que contienen texto, buscar si existen abreviaturas, acrónimos o palabras truncadas mediante el lexicón de abreviaturas, buscando todas las combinaciones posibles de términos.

Una vez seccionada la etiqueta en las diferentes partes y expandidas las abreviaturas y truncamientos, se tratará de indentificar la información usando sus lexicones específicos. También se identificará en este punto la aparición del elemento EFG, aunque por ser una constante no se necesita de ningún lexicón.

Para realizar la búsqueda en los lexicones, puesto que puede tratarse de términos mono o multi-palabra, se hace uso de técnicas de PLN a nivel léxico y semántico superficial. Las técnicas empleadas han sido divididas en tres niveles de análisis, atendiendo a su complejidad computacional. El propósito es que sean aplicadas iterativamente19, partiendo de la más simple hasta la más compleja pero, a la vez, intentando detectar el término de mayor longitud posible. En el momento en el que uno de los análisis establezca una relación entre las cadenas léxicas comparadas no se realizarán más análisis. De esta forma, cuanto más parecidas sean las cadenas comparadas menos tiempo se requerirá para establecerlas como equivalentes. Los niveles usados son:

• Búsqueda léxica-exacta: se comparan las cadenas de texto, de forma que, si son la misma, se identifica el término como el elemento correspondiente al lexicón que se está utilizando. Por ejemplo, si el término “blíster” se encuentra en el lexicón de packings con la misma representación léxica, éste es marcado como elemento de información de empaquetado (PCK).

• Búsqueda léxica-múltiple: se generan los posibles n-gramas que lo contengan, usando el contexto del nombre de medicamento. Los límites de los n-gramas a generar vendrán determinados por otros elementos ya identificados, o bien por cifras. Para cada n-grama generado se realiza una búsqueda léxica-exacta en los lexicones. Por ejemplo, teniendo “20 | comprimidos masticables” analizando el token20 “masticables” se generará también el bi-grama “comprimidos masticables” pero no el tri-grama “20 comprimidos masticables” puesto que la cifra “20” determina el límite en la generación de n-gramas. La idea es comenzar la búsqueda por el n-grama más grande posible, de forma que si por ejemplo se

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

19! Se!utiliza!el! término!de!aplicación! iterativa!para!definir!una!secuencia!predeterminada!de!acciones,!realizadas!de!forma!secuencial.!Su!ejecución!se!extiende!hasta!haberse!ejecutado!todos!los!pasos!de!la!secuencia,!o!bien!hasta!haber!alcanzado!el!objetivo!deseado.!20!En PLN se utiliza la palabra inglesa ‘token’ para referirse al elemento semánticamente más pequeño de una frase. Aunque los tokens suelen ser términos monopalabra, también pueden referirse a términos multipalabra.!


! 73!

tuviese el lexicón de packings con los términos ‘solucion’ y ‘solucion inyectable’, ante la cadena “solucion inyectable”, si se buscase primero sólo ‘solucion’, entonces el término ‘inyectable”’ quedaría sin identificar en esta fase. Dicha falta de identificación podría ocasionar errores en las siguientes fases de este módulo.

• Búsqueda léxica con permutación: dados dos o más términos a buscar se realizan las permutaciones posibles, realizando para cada permutación una búsqueda léxica-exacta en los lexicones. Siguiendo el ejemplo anterior, para el bi-grama “comprimidos masticables” se genera la permutación “masticables comprimidos”. En este punto se eliminan las denominadas stop words, para así reducir la complejidad computacional, ya que pueden existir casos como “solución para inyectables” e “inyectables en solución” que no podrán ser establecidos como iguales en ninguna reordenación a menos que se eliminen los stop words “para” y “en”.

Como se puede observar, el proceso puede llegar a ser muy complejo, lo que conlleva un elevado coste computacional. Para reducir los tiempos de procesado, en los lexicones se han incluido las posibles permutaciones de los términos multi-palabra. A pesar de ello, es necesario incluir la búsqueda léxica con permutación, puesto que el experto humano puede haber olvidado alguna permutación, o bien haber sido incluidos términos multi-palabra en el lexicón de packings de forma automática.

ii) Desambiguación de elementos por lectura de izquierda a derecha

Siguiendo las características de los elementos explicados en la Tabla 5.3, en esta fase del método propuesto será posible identificar los elementos nombre (que puede estar formado por los elementos N, PA y PAC), concentración (C, CC, C%, C/ y CC2U), cantidad de producto (CP) y medida de producto (MP).

Una vez dividida la etiqueta del nombre de especialidad del medicamento en tokens, se analiza token a token comenzando con el situado más a la izquierda. Mientras los tokens sean texto no identificado éste se irá almacenando como parte de un único elemento. En base a las características de los tokens leídos (si son caracteres, dígitos o símbolos), a los elementos ya identificados y a los elementos que forman el contexto inmediato de los tokens a desambiguar (tanto anteriores como posteriores), se determina su tipo de forma unívoca. En caso de no poder determinarse de forma unívoca no se etiqueta, quedando para la siguiente etapa del procesado. Por ejemplo, a partir de la etiqueta ya tokenizada “pergolida | teva | 0,05 | mg (M) | 30 | comprimidos | efg (EFG) | blíster (PCK)”, primero se analizarán los tokens “pergolida teva” de forma que al llegar a la conjunción de una cifra seguida de una unidad de medida se establece que “pergolida teva” corresponde al elemento nombre (N) y “0,05” a la concentración simple (C).

En el caso de los medicamentos multiingrediente se separan los diferentes principios activos y concentraciones, asignando a cada principio activo su concentración, siguiendo el orden en el que están representados. De esta forma, cada ingrediente queda almacenado junto con su concentración. Esta asociación persigue


!74!

evitar futuros problemas en el módulo de Mapeado Léxico (ML), si hubiese que comparar el NI generado en este módulo con un VMP de SNOMED-CT cuyos ingredientes fuesen los mismos, pero éstos apareciesen en diferente orden.

En la Figura C.1 del Anexo C se muestra un grafo que detalla el algoritmo seguido para el procesamiento de las concentraciones de los medicamentos.

iii) Desambiguación de elementos por lectura de derecha a izquierda

El objetivo de este proceso es el de detectar y marcar la información referente a la forma farmacéutica (FF) y el empaquetado (PCK) no incluido en los lexicones.

En un proceso análogo al anterior, se utiliza la tokenización para analizar la etiqueta token21 a token, con la característica de que en este paso se comienza a analizar por el último término del nombre de especialidad del medicamento, terminando en el primero.

Este paso cuenta además con un proceso que podría denominarse como aprendizaje, pues es capaz de identificar nuevos elementos de empaquetado (PCK) que serán añadidos de forma automática a los diccionarios existentes. De esta forma, el sistema puede aprender con cada ejecución, mejorando su eficacia. Estas inclusiones estarán indicadas de manera que sea fácilmente reconocible por un experto humano.

Una vez terminado este paso del método, se deberían haber desambiguado y etiquetado todos los elementos que componen el nombre de especialidad del medicamento. Sin embargo, debido a la ambigüedad existente, cabe la posibilidad de que el elemento identificado como forma farmacéutica (FF) incluya información del empaquetado si éste no está incluido en los lexicones y no los separa ninguna coma (‘,’) o cantidad numérica. Esto podrá ocurrir si el nombre de especialidad sigue el patrón 9 (N+POB+C+M+CP+FF+PCK), el 20 (N+C/+CP+PCK+FF) o una variación. En este caso se emitirá un aviso, informando de que el NES generado deberá ser revisado manualmente por un experto humano.

iv) Validación del medicamento

En esta fase se validan los elementos desambiguados hasta el momento y el método comprueba la coherencia de los mismos basándose en una serie de reglas. En caso de que un elemento no sea coherente se busca el significado semántico más probable. Dicha validación se compone de las siguientes comprobaciones y acciones:

• Se comprueba que se ha detectado la concentración de forma correcta. En algunas ocasiones la cantidad de producto (CP) puede haberse confundido con la concentración simple (C). En base a los patrones, la información contenida en los elementos M, CP y el nombre (N, PA, PAC) se identifica como correcta, incorrecta, incompleta o faltante. Si el error se debe a haberse confundido con

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

21 En PLN, en este caso, se denomina token a la entidad más pequeña dentro de una etiqueta terminológica.


! 75!

CP, o bien a estar contenida en el nombre, entonces ésta es re-etiquetada. Por otro lado, si es incompleta o faltante entonces será recuperada de la concentración que fue extraída de OntoFIS por el módulo E+N.

• Se busca información de packing no etiquetada. En algunos casos es posible deducir que una parte del nombre comercial contiene información sobre el packing, aunque ésta no estuviese en los diccionarios. Es el caso de los patrones 22 (N+C/+CP+PCK+MP+FF) y 24 (N+C+M+C+M+CP+PCK+MP+FF), donde la información de packing se encuentra entre los elementos CP y MP. Por tanto, si se encuentra texto no desambiguado entre estos dos elementos, éste se etiquetará como PCK y se agregará al lexicón de packings, emitiendo un aviso para que un experto humano verifique manualmente la posible inclusión.

• Se busca ampliar la información del elemento PCK existente. Puede darse el caso de que la etiqueta analizada contenga información más específica del empaquetado que la existente en el lexicón. Para ello, si existe información no etiquetada justo a continuación de la de empaquetado, entonces se toma también como parte de la información de packing. Por ejemplo, si la etiqueta contiene el texto “bolsas dobles” pero el lexicón sólo contiene la palabra “bolsas”, entonces “dobles” puede haber quedado como token sin identificar. En este caso ambas palabras se unirían en un solo token, identificándolo como PCK y añadiendo éste al lexicón de forma automática.

• Se busca ampliar la información de la forma farmacéutica. Si la información del packing no contiene dígitos y se encuentra contigua a la información de forma farmacéutica, éstas se fusionan como información de forma farmacéutica. Por ejemplo, si se encuentra “20 sobres granulado”, se habrá etiquetado “20 (CP) | sobres (PCK) | granulado (FF)”, es decir, “20” es etiquetado como información de cantidad de producto (CP), “sobres” como packing (PCK) y “granulado” como forma farmacéutica (FF). Puesto que PCK y FF se encuentran juntos y PCK no contiene dígitos, ambos son fusionados, quedando esta sección del nombre de medicamento etiquetada como “20 (CP) | sobres granulado (PCK, FF)”.

• Se busca información del elemento FF no etiquetada. En algunos casos es posible que la forma farmacéutica sea equivalente al packing, por lo que habrá que reutilizar esta información como forma farmacéutica. Para ello, primero se comprueba que en el medicamento no exista ningún token sin desambiguar que cumpla las características de la forma farmacéutica, que no exista ninguna forma farmacéutica detectada y que sí existe información sobre el empaquetado marcada. En estos casos se reutiliza la información identificada como PCK para la FF. Por ejemplo, a partir del nombre de medicamento ya tokenizado y marcado “protelos (N) | 2 (C) | g (M) | 28 (CP) | sobres (PCK)”, se marcará “sobres” como información sobre la forma farmacéutica (FF).

• Si no se ha encontrado una vía de administración (V), entonces se busca dicha información haciendo uso del lexicón de “vías de administración a partir de formas farmacéuticas”, de manera que si la forma farmacéutica (FF) del medicamento implica una única y unívoca vía de administración ésta es incorporada a la plantilla del medicamento.

• Si se desconoce la población objetivo del medicamento, se supone que ésta corresponde a “adultos”.


!76!

v) Escritura del NES

Una vez se han identificado los elementos que componen el nombre de la especialidad, el siguiente paso es crear la etiqueta con formato NES. Los elementos usados son el nombre, la concentración, la unidad de medida y la forma farmacéutica, y se realiza del siguiente modo (ver Tabla 5.6):

• Para la parte del nombre se usarán tanto el principio activo (simple o compuesto) como el nombre de especialidad, en el mismo orden en que aparecen en el nombre de la especialidad (medicamento). El nombre del NES no contendrá la vía de administración ni la población objetivo, aunque éstas apareciesen junto al nombre comercial o los ingredientes (principios activos). Por ejemplo, “aspirina” o bien “ibuprofeno”

• Si la concentración es compuesta (más de un ingrediente) aparecerá la unidad de medida junto con las cantidades, aunque ésta sea redundante. Por ejemplo, si apareciese “100 / 200 mg”, en el NES aparecería como “100 mg / 200 mg”.

• Para la forma farmacéutica se usará el elemento correspondiente (FF) sin alterar.

Tabla 5.6 Ejemplos del formato NES generados a partir de nombres de especialidad.

Nombre de especialidad normalizado NES aspirina 1 g 10 supositorios adultos aspirina 1 g supositorios duoplavin 75 / 100 mg 28 comprimidos recubiertos con pelicula

duoplavin 75 mg / 100 mg comprimidos recubiertos con pelicula

lisinopril / hidroclorotiazida teva 20 mg / 12,5 mg 28 comprimidos efg

lisinopril / hidroclorotiazida teva 20 mg / 12,5 mg comprimidos

Nota aclaratoria: los ejemplos que se ilustran forman parte tanto de la muestra A como de la B.

vi) Escritura del NI

La única diferencia entre los formatos NES y NI reside en el nombre usado. Mientras que el NES puede contener el nombre de especialidad y/o el principio activo o principios activos que lo forman, en el NI no debe aparecer el nombre de la marca de la especialidad. El resto del NI lo componen la concentración, la unidad de medida y la forma farmacéutica. Por tanto, para crear un NI se usa la misma información ya existente en el NES, a excepción del nombre comercial de la marca.

Para la obtención del principio activo o principios activos se extrae el nombre del principio activo del medicamento de la ontología OntoFIS. Aunque el nombre del principio activo (simple o compuesto) puede aparecer en el nombre de especialidad del medicamento, no se puede saber si lo es realmente. Se recurre a OntoFIS, donde habrá una única instancia, aunque el principio activo sea múltiple. Para la extracción se usará la relación semántica “composes_1.1.1”.

En la Tabla 5.7 se muestran algunos ejemplos de creación de NI a partir de los NES generados, junto con una columna donde se indica qué información acerca del nombre del principio activo ha sido recuperada de OntoFIS. En esta misma tabla también se puede observar cómo el primero de los medicamentos no cambia entre el


! 77!

NES y el NI, puesto que no existe en OntoFIS información acerca de sus principios activos.

Tabla 5.7 Ejemplos de NI creados a partir de los NES.

NES Principio Activo OntoFIS NI aspirina 1 g supositorios No existe aspirina 1 g supositorios inyesprin 900 mg sobres granulado

acetilsalicilico acido acetilsalicilico acido 900 mg sobres granulado

lisinopril / hidroclorotiazida teva 20 mg / 12,5 mg comprimidos

lisinopril / hidroclorotiazida lisinopril / hidroclorotiazida 20 mg / 12,5 mg comprimidos

Nota aclaratoria: Los NES utilizados son los generados en el paso anterior. Además se indica el conocimiento existente en las instancias de la clase ‘PrincipioActivo’ de la ontología OntoFIS.

5.3. Pruebas Piloto del módulo EG

Estas pruebas piloto persiguen comprobar el correcto funcionamiento del algoritmo propuesto. Para ello, se realiza una prueba específica sobre el módulo EG, utilizando un conjunto de medicamentos que sea suficientemente grande como para poner a prueba diferentes tipos de etiquetas (muestra C). Como se viene reiterando, el mayor problema para establecer el tamaño de la prueba es la falta de un ‘gold standard’ que permita una evaluación automática de los resultados. Así pues, todos los medicamentos procesados deben ser evaluados manualmente por un experto.

Siguiendo el compromiso entre utilizar un tamaño de prueba suficientemente grande como para ser significativo y, a la vez, lo suficientemente pequeño como para poder ser evaluado manualmente por expertos, sin un consumo excesivo de tiempo, se ha decidido llevar a cabo un total de tres pruebas.

En cada una de las pruebas se ha usado un conjunto de medicamentos que ha sido seleccionado en base a su composición (muestreo intencionado), siendo en total 438 los medicamentos usados en estas pruebas (muestra C). La primera prueba se realiza con 177 medicamentos, siendo el ibuprofeno el principio activo común a todos ellos. La segunda prueba está compuesta por 196 medicamentos con paracetamol como principio activo. Finalmente, la tercera prueba consta de 65 medicamentos cuyo principio activo es metamizol. Los principios activos usados aparecen tanto como único principio activo del medicamento como en conjunción con otros principios activos. La elección de estos principios activos se debe a que son de los más usados en la UE, y además los dos primeros no requieren prescripción facultativa en España.


!78!

5.3.1. Resultados

A continuación, en la Tabla 5.8, se muestran los patrones detectados en las pruebas piloto respecto al conjunto total de patrones identificados en el estudio cualitativo previo (Tabla 5.4).

Los resultados de estas pruebas fueron comprobados manualmente. En cada fila de la Tabla 5.8 se especifica el número de medicamentos encontrados que seguían el patrón indicado en la primera columna. Las últimas filas representan, respectivamente, aquellos medicamentos que seguían alguno de los patrones con pequeñas variaciones (indicado con V) o aquellos que no seguían ningún patrón conocido (-). Se ha considerado que un medicamento sigue un patrón con una pequeña variación si, o bien aparecen hasta dos elementos adicionales al final del patrón, o bien falta uno de los elementos esperados que no sea fundamental para la construcción del NES y NI (cualquiera que no sea nombre de la marca, principios activos, concentración, unidad de medida o forma farmacéutica). Los elementos que componen los patrones pueden observarse en las Tablas 5.3 y 5.4.

Tabla 5.8 Clasificación por patrones de los medicamentos existentes en cada una de las pruebas.

Patrón Ibuprofeno Paracetamol Metamizol Total 1 40 48 24 112 2 - 13 8 21 3 - 7 - 7 5 5 2 - 7 7 - 5 - 5

12 - 26 - 26 13 1 - - 1 15 - 1 - 1 16 47 43 14 104 20 5 4 - 9 22 - - 3 3 23 - - 1 1 V 31 23 10 64 - 48 24 5 77

Total 177 196 65 438 Nota aclaratoria: La penúltima fila (V) indica aquellos medicamentos que presentan variaciones menores respecto a un patrón conocido, mientras que la última fila (-) representa aquellos que no se ajustan de ninguna forma a los patrones conocidos.

En la Figura 5.3 se muestran los resultados agrupándolos entre aquellos que cumplen alguno de los patrones conocidos, los que se supone una variación (en los términos descritos anteriormente) y aquellos que no corresponden a ninguno de los patrones conocidos. En el caso de la experimentación con medicamentos con ingrediente ibuprofeno, un 55,37% corresponden a alguno de los patrones conocidos, un 17,51% a una variante de los mismos y un 27,12% no corresponde directamente a ninguno de los 25 patrones identificados en el estudio cualitativo previo. En el caso de


! 79!

los medicamentos con paracetamol, el 76,02% están formados acorde a patrones conocidos, el 11,73% a alguna variación y el 12,24% siguen patrones desconocidos. En el caso del metamizol, un 76,92% de los medicamentos con este principio activo siguen alguno de los patrones conocidos, mientras que el 15,38% presentan alguna variación y sólo el 7,69% están formados sin un patrón conocido. Finalmente, observando las cifras globales, un 84,42% de los medicamentos utilizados en la experimentación pertenecen a un patrón conocido (67,81%) o una variante (14,61%), mientras que el 17,58% no sigue ningún patrón conocido.

Nota aclaratoria: En el gráfico se representa si un determinado medicamento ha coincidido con alguno de

los patrones previamente identificados (Patrón conocido), con variantes de estos (Variante), o no corresponden a ningún patrón conocido (Patrón desconocido). Los resultados se encuentran separados

según el principio activo (Ibuprofeno, Paracetamol y Metamizol), y el recuento completo de los medicamentos usados (Total)

Figura 5.3. Relación de medicamentos según los patrones detectados.

Como se puede observar en la Tabla 5.8, en esta prueba piloto no han tenido representación los patrones identificados (4, 6, 8, 9, 10, 11, 14, 17, 18, 19, 21, 24 y 25), aunque dos patrones han aparecido con variaciones (el 4 y el 25). En la Tabla 5.9 se desglosan las variaciones encontradas por patrones, donde se observa que lo más habitual es que se haya encontrado un elemento no esperado (ha ocurrido en 44 ocasiones de las 64 variaciones detectadas), aunque también se han encontrado variaciones con dos elementos inesperados (19 variantes a partir del patrón 5 identificado), e incluso se ha encontrado un patrón donde la variación consistía en la desaparición de un elemento no fundamental para la escritura del NES o del NI.

0%!

10%!

20%!

30%!

40%!

50%!

60%!

70%!

80%!

Ibuprofeno! Paracetamol! Metamizol! Total!

Patrón!conocido! Variante! Patrón!desconocido!


!80!

Tabla 5.9 Variaciones de los patrones seguidos por los medicamentos.

Patrón +1 elemento +2 elementos -1 elemento Total 1 12 - - 12 4 1 - - 1 5 12 19 - 31

12 8 - - 8 16 2 - - 2 20 9 - - 9 25 - - 1 1

Total 44 19 1 64 Nota aclaratoria: Los elementos que componen los patrones pueden observarse en las Tablas 5.3 y 5.4.

Para obtener los datos de cobertura y precisión se han analizado las conversiones realizadas sobre los 438 medicamentos procesados de forma automática, clasificando los medicamentos como monoingredientes y multiingredientes. Se denomina monoingredientes a aquellos medicamentos que sólo cuentan con un principio activo, mientras que multiingredientes se refiere a aquellos medicamentos compuestos por dos o más principios activos.

Respecto a la detección de los diferentes elementos de los medicamentos, en la Tabla 5.10 se muestra la eficacia del método propuesto, centrándose en aquellos más relevantes para la formación del NES y el NI, así como para futuros mapeados. Los elementos considerados para estas tareas son: (i) nombre del medicamento (‘nombre’ en la Tabla 5.10), (ii) concentración, (iii) forma farmacéutica, (iv) vía de administración (‘vía’) y (v) medida de producto. Los resultados para los elementos ‘nombre’, ‘concentración’, ‘vía’ y ‘medida de producto’ han obtenido valores tanto de cobertura como de precisión del 100%, independientemente del número de ingredientes del medicamento. Sólo ha presentado resultados inferiores al 100% de cobertura el elemento ‘forma farmacéutica’, que ha obtenido un 99% para los medicamentos con paracetamol y para aquellos con ibuprofeno como único ingrediente. En cuanto al empaquetado (packing) se obtubo la cobertura más baja (94%), ya que debido a la alta variabilidad de este elemento, en una ocasión quedó sin marcar. Sin embargo, como se puede ver en la Tabla 5.11, más adelante, esto no influyó en la cobertura final, puesto que este elemento no se utiliza para la creación del NES ni del NI, sino que su correcta identificación (100% de precisión) ayuda a obtener mejores resultados en el marcado de la forma farmacéutica.


! 81!

Tabla 5.10 Resultados cuantificados según los elementos del medicamento.

Elemento Principios Activos

Paracetamol Ibuprofeno Metamizol Total Total C P Total C P Total C P C P

Nombre 1 154 1 1 171 1 1 65 1 1 1 1 2 o más 40 1 1 6 1 1 0 - - 1 1

Concentración 1 152 1 1 171 1 1 64 1 1 1 1 2 o más 6 1 1 0 - - 0 - - 1 1

Forma farmacéutica

1 152 0,99 1 170 0,99 1 65 1 1 0,99 1 2 o más 40 1 1 5 1 1 0 - - 1 1

Vía 1 27 1 1 63 1 1 6 1 1 1 1 2 o más 0 - - 6 1 1 0 - - 1 1

Población 1 30 1 1 1 1 1 8 1 1 1 1 2 o más 8 1 1 0 - - 0 - - 1 1

Packing 1 4 0,75 1 15 1 1 0 - - 0,94 1 2 o más 0 - - 0 - - 0 - - - -

Cantidad de producto

1 143 1 1 132 1 1 65 1 1 1 1 2 o más 40 1 1 6 1 1 0 - - 1 1

Medida de producto

1 18 1 1 46 1 1 11 1 1 1 1 2 o más 1 1 1 0 - - 0 - - 1 1

Acrónimo “EFG”

1 46 1 1 69 1 1 18 1 1 1 1 2 ó más 0 - - 6 1 1 0 - - 1 1

Nota aclaratoria: Los resultados fueron obtenidos en la detección automática de elementos en 438 medicamentos procedentes de la ontología OntoFIS (versiones 6.1 R7 y 7 R2). Los resultados se exponen en función de su Cobertura (C) y Precisión (P), expresados en valores entre 0 y 1, o guión (‘-’) cuando no puede calcularse.

Respecto a los resultados en la generación de las representaciones NES y NI equivalentes a las granularidades de AMP y VMP en SNOMED-CT (respectivamente), en la Tabla 5.11 se muestran los resultados de cada una de las tres pruebas realizadas, junto con los resultados globales sobre el conjunto total de 438 medicamentos. Si se observan los resultados independientemente de los ingredientes de los medicamentos, la cobertura alcanzada ha sido del 90,41% con una precisión del 100%. En las pruebas con medicamentos con paracetamol, los resultados para los monoingredientes han sido de un 99,4% de cobertura y un 100% de precisión, mientras que en aquellos con dos o más ingredientes la cobertura alcanzada fue de 12,5%, permaneciendo la precisión en un 100%. En las pruebas con medicamentos con ibuprofeno se obtuvo un 99,42% de cobertura y 100% de precisión en los monoingredientes, no siendo capaz el método de detectar ninguno de los 6 multiingrediente (0% de cobertura). Finalmente, en el caso de medicamentos con metamizol, sólo se encontraron medicamentos monoingredientes, obteniendo la máxima cobertura y precisión.


!82!

Tabla 5.11 Resultados de las pruebas piloto del método EG en la conversión de equiparación de granularidad.

Paracetamol Ibuprofeno Metamizol Total

C (%) P (%) C (%) P (%) C (%) P (%) C (%) P (%)

Monoingrediente 99,36 100 99,42 100 100 100 99,49 100 Multiingrediente 14,29 100 0 0 - - 12,5 100 Mono y multiingredientes 81,62 100 96,61 100 100 100 90,41 100 Total monoingrediente 154 171 65 390 Total multiingrediente 42 6 0 48 Medicamentos totales 196 177 65 438

Nota aclaratoria: Los resultados se dividen según el principio activo y los resultados totales, en función de su Cobertura (C) y Precisión (P), en porcentaje

En la Figura 5.4 se muestra una representación gráfica de los valores obtenidos tanto en cobertura como en precisión en cada una de las pruebas, junto con una cuantificación total. En los casos de un único ingrediente, los valores de cobertura son superiores al 99% y los de precisión iguales a 100% en todos los casos, mientras que para los multiingrediente, sólo uno de los experimentos ha aportado datos, obteniendo una cobertura del 14,29% y una precisión del 100%. Este dato de cobertura para los multiingredientes se reduce hasta el 12,5% si se tienen en cuenta todos los medicamentos de tipo multiingrediente.

Nota aclaratoria: Representación gráfica de los resultados obtenidos en la conversión automática de 438 medicamentos procedentes de la ontología OntoFIS (versiones 6.1 R7 y 7 R2), adaptadas al formato

usado en SNOMED-CT. Los experimentos se dividen según el principio activo y los resultados totales, en función de su Cobertura (C) y Precisión (P), en porcentaje.

Figura 5.4. Representación gráfica de los resultados de las pruebas piloto del método EG.

0!10!20!30!40!50!60!70!80!90!100!

C!(%)! P!(%)! C!(%)! P!(%)! C!(%)! P!(%)! C!(%)! P!(%)!

Paracetamol! Ibuprofeno! Metamizol! Total!

Monoingredientes! MulPingredientes! Mono!y!mulPingredientes!


! 83!

5.3.2. Estudio de errores

En este punto se pretende analizar los errores producidos en la generación de los NES y NI de cada uno de los medicamentos procesados.

Por cuestiones de espacio, la lista con los errores específicos, así como el análisis de sus causas y propuestas de solución, se encuentran en la Tabla F.1 del Anexo F. En dicha tabla, para simplificarla, se utilizan los NI de los medicamentos, y no el nombre de la especialidad para ilustrar el error encontrado. Aunque algunos medicamentos pueden producir el mismo NI, en la Tabla F.1 no aparecerán repetidos.

Respecto a los medicamentos monoingredientes, sólo se han encontrado dos errores, y vienen derivados de patrones desconocidos. En el caso de los multiingredientes, los errores han sido debidos a problemas con el conocimiento almacenado (desconocimiento de principios activos y/o concentraciones), o bien de funcionamiento no planteado por esta aproximación.

5.3.3. Discusión

En este estudio ha quedado patente uno de los mayores problemas al trabajar con medicamentos comercializados, que es la gran variabilidad que existe en sus nombres, tal y como se puede extraer de las Tablas 5.8 y 5.9. Esta variabilidad deriva en una gran casuística y ambigüedad a la hora de procesar dichos nombres para extraer la información necesaria para la creación del NES y el NI. En la Tabla 5.8, por ejemplo, se observa cómo sólo 12 de los 25 patrones identificados en el estudio cualitativo previo (apartado 5.2.1) aparecen de la misma forma en los experimentos realizados, mientras que en 64 casos se han encontrado con una pequeña variación. Se ha determinado que un medicamento cumple con un cierto patrón con una variación cuando dicha variación supone la supresión de un elemento no fundamental para la creación del NES y el NI (cualquiera excepto el nombre, la concentración, la unidad de medida o la forma farmacéutica), o bien la adición de hasta dos elementos en la parte final del patrón. Por ejemplo, 12 medicamentos cumplían con el patrón 5 añadiendo al final el elemento vía de administración. En 77 medicamentos no se ha podido equiparar el nombre a ninguno de los patrones conocidos.

La gran diversidad de patrones encontrados, junto con la variabilidad de los mismos, han puesto de manifiesto la óptima eficacia de crear un sistema que, aunque basado en patrones, es flexible en cuanto a su utilización. Este acierto puede observarse en que, aunque sólo el 67,81% de los medicamentos seguían de forma exacta alguno de los patrones conocidos, el resultado global para la generación del NES y el NI ha llegado a un 90,41% de cobertura (Tablas 5.10 y 5.11).

Continuando con los resultados finales en la creación de las representaciones compatibles con los formatos de AMP y VMP de SNOMED-CT destaca la disparidad entre las transformaciones realizadas sobre los medicamentos monoingredientes y los multiingredientes.


!84!

Por un lado, los medicamentos con un único principio activo han obtenido casi los máximos índices (99,23% de cobertura y 100% de precisión). Hay que destacar que gracias al conocimiento existente en la ontología OntoFIS se ha podido completar la concentración faltante en dos medicamentos con principio activo “paracetamol”, pues sólo 152 de los 154 medicamentos monoingredientes contenían información explícita de la concentración en su nombre (ver Tabla 5.10). Estos resultados ponen de manifiesto la gran efectividad del uso de patrones en conjunto con técnicas de PLN a nivel léxico y semántico, permitiendo ayudar a eliminar los problemas de granularidad en futuros métodos de mapeado.

Por otro lado, en los casos de multiingredientes la cobertura ha sido baja, aunque se ha mantenido una máxima precisión. Este error ya había sido reportado por otros autores (Zhou et al., 2011, 2012) para aquellos medicamentos que no incluyen información de la concentración de sus ingredientes. Precisamente éste ha sido el problema encontrado en la experimentación, donde el método propuesto sólo ha sido capaz de recuperar la concentración del primer principio activo, gracias a la información existente en la población de OntoFIS. De esta forma, los medicamentos multiingredientes donde sólo se ha detectado una concentración han sido establecidos como monoingredientes, resultando en falsos negativos y afectando por tanto a la cobertura. Sin embargo, es importante remarcar que en los 6 medicamentos donde sí estaba explicitada la concentración de todos los principios activos, el método ha obtenido resultados del 100% tanto en cobertura como en precisión. Por otro lado, lo que demuestra la baja cobertura del método en cuanto a los medicamentos donde no se dispone de información de todos sus ingredientes, viene debido a la importancia que se da a un elemento tan fundamental como la concentración de cada principio activo. De esta forma se evitan posibles errores en la dosificación del paciente.

En cuanto a las limitaciones de este trabajo, éstas son las propias de un estudio preliminar. Primero, el número de pruebas realizadas (en total 438 medicamentos), aún siendo más del doble de otros estudios del dominio (Farfán et al., 2009), no es estadísticamente significativo, debido al método de selección de la muestra (intencionado). Segundo, las técnicas usadas de patrones y PLN representan una aproximación básica, pero con resultados que apoyan la efectividad y la eficiencia, aportando poco procesamiento semántico. Finalmente, la falta de conocimiento respecto a los principios activos y concentraciones de los medicamentos multiingredientes ha reducido el nivel de cobertura en los experimentos.

5.3.4. Conclusiones

Tras las pruebas realizadas en el módulo se ha constatado el excelente comportamiento de la aproximación, y su gran efectividad en la equiparación de granularidades entre dos terminologías en lengua castellana.

Esta equiparación de granularidades es fundamental para el correcto funcionamiento del mapeado entre ambas terminologías. Además, debido a los buenos


! 85!

resultados obtenidos, se ha conseguido minimizar el número de errores que serán propagados al módulo de ML, contribuyendo así a maximizar la eficacia de la propuesta.

Entre los aspectos más positivos de las pruebas realizadas destaca el óptimo procesado de medicamentos monoingredientes. Sin embargo, en el caso de los multiingredientes se han detectado ciertas dificultades, asociadas a una falta de conocimiento. Esta falta de conocimiento en los medicamentos con varios principios activos es fundamental para un sistema de PLN como el aquí descrito, lo cual deriva en unos resultados significativamente inferiores a los obtenidos con medicamentos monoingredientes, donde se dispone de una mayor cantidad de conocimiento.

Por tanto, para la mejora de los resultados se hace imprescindible contar con recursos más completos para los medicamentos multiingredientes, ya que la base de datos DIGITALIS sólo recoge la concentración del principio activo con mayor presencia.

!!!!6.!Mapeado!Léxico!(ML)!

La finalidad de este módulo es la de crear mapeados entre OntoFIS y SNOMED-CT, una vez que la granularidad de ambos recursos ha sido ya equiparada. Por tanto, en este módulo se detallará el proceso en el que las representaciones abstractas de los medicamentos de OntoFIS generadas en el módulo EG (denominadas Nombres Implícitos o NI) son mapeadas sobre los conceptos de SNOMED-CT apropiados. Este proceso de mapeado, además, puede ser establecido en cuatro grados diferentes de similitud posibles, de forma que aunque dos conceptos no tengan exactamente la misma semántica, sea posible matizar el grado de similitud que existe entre ellos. Estos grados son: (i) equivalente, (ii) proporcional, (iii) similar y (iv) comparable.

En la Figura 6.1 se muestra resaltado el módulo ML, así como sus entradas (la salida del módulo EG, el conjunto de lexicones y la terminología SNOMED-CT) y la salida producida, que servirá como entrada para el módulo final, Ampliación Automática de OntoFIS (AAO), de esta propuesta.

Con el fin de depurar y evaluar el funcionamiento de la aproximación, en este módulo se han realizado dos tipos de pruebas. Las primeras pruebas fueron realizadas con el fin de depurar tanto los problemas asociados a los recursos léxico-semánticos utilizados, como a la aproximación empleada en el algoritmo de mapeado. Se probó así que la aproximación no estuviese diseñada ad-hoc para el dominio farmacoterapéutico, y que también puede ser aplicada a otros dominios (Cruanes et al., 2012a, 2012b). El segundo tipo de pruebas evaluativas (muestra C) consistió en una experimentación con 438 medicamentos, seleccionados mediante un muestreo intencionado. La finalidad de esta experimentación fue la de depurar el método para el dominio de la farmacoterapéutica.

Capítulo 6. Mapeado Léxico.

!88!

Nota aclaratoria: Diagrama con el diseño general de la propuesta, resaltando el módulo de Mapeado Léxico (ML), junto con la ontología OntoFIS, un conjunto de lexicones específicos y la terminología

SNOMED-CT como material de entrada.

Figura 6.1. Situación del módulo de ML en el conjunto general de la propuesta.

Este capítulo comienza con los materiales específicos utilizados, detallando cada uno de ellos. Seguidamente se explica el método aplicado, definiendo los diferentes niveles de análisis léxicos llevados a cabo, los grados de similitud definidos y el proceso de mapeado diseñado. Se hace especial énfasis en el algoritmo diseñado específicamente para comparaciones léxicas denominado ‘Similitud Léxica con Semántica Superficial’ (SiLeSS). Tras el método se incluye un ejemplo de funcionamiento del módulo y, finalmente, se detallarán las pruebas piloto realizadas al módulo ML de forma global.

6.1$Materiales$

Como entrada principal, el módulo ML recibe una lista de medicamentos comercializados en España, pertenecientes a la población de la ontología OntoFIS ya transformados al formato VMP especificado en SNOMED-CT, y aquí denominado

Capítulo 6. Mapeado Léxico. !

! ! ! 89!

Nombre Implícito (NI). Además de esta entrada, también cuenta con la terminología SNOMED-CT, y una serie de lexicones específicos (ya detallados en el Capítulo 3).

Sin embargo, existe una diferencia entre el recurso de SNOMED-CT definido en el Capítulo 3 y el usado en este módulo, y es que se utiliza almacenado en una base de datos, de forma que pueden recuperarse descripciones de SNOMED-CT mediante consultas SQL. Esta medida persigue objetivos de eficiencia, pues el acceso SQL es más rápido que un acceso a ficheros grandes (más de un millón de líneas de texto). Además permite, en una única consulta, descartar una gran cantidad de descripciones de SNOMED-CT que no corresponden a VMP candidatos a mapeados y que, de otra forma, serían recuperados y evaluados, con el consiguiente consumo de tiempo y recursos.

Finalmente, el algoritmo SiLeSS (ver apartado 6.5) utiliza como parte de su procesamiento un conjunto de 15 algoritmos de similitud léxica, mediante la implementación proporcionada por la librería de código abierto Java SimMetrics (Chapman) versión 1.6.2. Los algoritmos usados han sido: (i) Coseno, (ii) Levenshtein, (iii) Similitud de Dice, (iv) Distancia Euclídea, (v) Similitud de Jaccard, (vi) Distancia Jaro-Winkler, (vii) Coeficiente de Matching, (viii) Needleman Wunch, (ix) Smith Waterman, (x) Coeficiente de Superposición, (xi) Monge Elkan, (xii) Distancia de Bloque, (xiii) Desviación de Distancia de Chapman, (xiv) Q Grams Distance y (xv) Soundex.

$

6.2$Niveles$de$análisis$

Para comparar dos cadenas de texto en lenguaje natural se utilizarán técnicas de PLN a nivel léxico y semántico superficial, dividiendo éstas en cuatro niveles de análisis, atendiendo a su complejidad computacional.

Al igual que ocurría en las búsquedas del módulo EG, el análisis de cadena de texto se ha diseñado como un modelo iterativo incremental, de forma que los diferentes niveles de análisis serán aplicados iterativamente, partiendo del más simple hasta el más complejo. En el momento en que uno de los análisis establezca una relación entre las cadenas léxicas comparadas el análisis se detendrá. De esta forma, cuanto más parecidas sean las cadenas comparadas menos tiempo se requerirá para establecer la similitud. Los cuatro niveles usados son:

• Análisis léxico-exacto: este punto se basa en la hipótesis de que si dos etiquetas tienen exactamente la misma representación léxica se considera que también tendrán la misma semántica. Se comparan las cadenas de texto, de forma que si


!90!

son la misma se establecen como equivalentes. Este nivel de análisis presenta la complejidad computacional de orden más bajo.

• Análisis de similitud léxica: se comparan las cadenas de texto mediante el uso de 15 algoritmos de similitud léxica diferentes [Chapman, 2006]. Cada uno de los algoritmos devuelve un valor o score, comprendido entre 0 y 1, que establece su grado de similitud, siendo 1 el máximo nivel de similitud. Este nivel de análisis presenta una complejidad casi lineal, aún siendo mayor que el análisis léxico-exacto (ver Figura 6.2). Este nivel de análisis será el utilizado con las formas farmacéuticas y las vías de administración.

• Análisis léxico-complejo: se genera una nueva cadena por cada una de las comparadas mediante la eliminación de sus ‘stop words’, y se comparan mediante un análisis léxico-exacto. Si no son iguales, tanto para la cadena origen con ‘stop words’ como sin ellas, se generan n-cadenas mediante la reordenación de sus ‘n’ términos, aplicando el análisis léxico-exacto para cada una de estas reordenaciones. Este nivel de análisis presenta una complejidad muy superior al de similitud léxica, pudiendo llegar a ser cuadrática (Figura 6.2).

• Análisis semántico: cada término de la cadena origen es expandido mediante sinónimos. Por cada sinónimo encontrado se genera una nueva cadena, sustituyendo el término expandido por uno de sus sinónimos. Cada una de las cadenas generadas es analizada con la cadena destino a nivel léxico-complejo. Este nivel de análisis presenta la mayor complejidad de todos los análisis aquí planteados, cuyo máximo grado puede llegar a ser de tipo cúbico (Figura 6.2).

A continuación se van a ilustrar las diferentes complejidades de los diferentes análisis mediante un ejemplo supuesto, partiendo de la premisa de que se necesita una unidad de tiempo para analizar un término de una frase. Para una cadena de 5 términos donde analizar un término cueste una unidad de tiempo, las unidades de tiempo de cada uno de los análisis se muestran en la Tabla 6.1. Como puede observarse en dicha tabla, para ejemplos de una cadena de 1, 3 y 5 términos (tokens) respectivamente, el análisis semántico puede llegar a necesitar hasta 125 veces más de tiempo que el análisis por léxico exacto.

Tabla 6.1.

Comparación de complejidades de los diferentes tipos de análisis propuestos. Análisis Grado de complejidad Tiempo (n=1) Tiempo (n=3) Tiempo (n=5) Léxico exacto Constante 1 1 1 Similitud léxica Lineal 1 3 5 Léxico-complejo Cuadrático 1 9 25 Semántico Cúbico 1 27 125 Nota aclaratoria: El grado de complejidad especifica el tipo de la misma para cada análisis. Las columnas tiempo expresan, en unidades de tiempo teóricas, el tiempo máximo requerido para procesar una cadena de 1, 3 y 5 términos, donde ‘n’ representa el número de términos de la cadena analizada.


! ! ! 91!

A partir de la Tabla 6.1 es posible construir la gráfica mostrada en la Figura 6.2, donde se extrapola al análisis de cientos de medicamentos cuyas etiquetas oscilan entre los 3 y los 10 términos. Queda clara la imposibilidad de aplicar siempre el análisis semántico, y la necesidad de aplicar los análisis de forma iterativa incremental.

!Nota Aclaratoria: Los tiempos varían según la longitud de la cadena procesada y el tipo de análisis

empleado.

Figura 6.2. Tendencia en los tiempos de cómputo para procesar cadenas.

$

6.3$Grados$de$similitud$

En este trabajo se han propuesto diferentes grados de similitud al realizar los mapeados, de forma que, aunque dos elementos no correspondan al mismo concepto semántico, puedan ser mapeados de acuerdo a un menor grado de similitud. Esto permitirá poder utilizar la máxima información posible en el módulo de Ampliación Automática de OntoFIS (AAO). De otra forma, si sólo se contemplase el máximo nivel de similitud posible, habría mucha información que no podría ser incorporada en el módulo AAO. Los cuatro grados contemplados son: (i) ‘equivalentes’, (ii) ‘proporcionales’, (iii) ‘similares’ y (iv) ‘comparables’.

Sin embargo, antes de establecer las definiciones operacionales de dichos niveles de similitud entre un NI (proveniente de OntoFIS) y un VMP (proveniente de SNOMED-CT), es necesario establecer los criterios de equivalencia entre los valores de los elementos que los componen:

0!20!40!60!80!100!120!140!

Léxico!exacto! Similitud!léxica! Léxico7complejo! Semán<co!

Tiempos(de(computación(según(el(3po(de(análisis(

n=1! n=3! n=5!


!92!

• Dos principios activos, dos formas farmacéuticas o dos vías de administración son ‘equivalentes’ si se encuentra una coincidencia exacta aplicando alguno de los siguientes cuatro niveles de análisis: (i) léxico-exacto, (ii) similitud léxica, (iii) léxico-complejo y (iv) semántico superficial (ver apartado 6.2). Por ejemplo, “ácido acetilsalicílico” será equivalente a “ácido acetilsalicílico” en un análisis léxico-exacto, pero también será equivalente a “ácidos acetilsalicílicos” en un análisis de similitud léxica, a “acetilsalicílico ácido” en un análisis léxico-complejo, y finalmente también será equivalente a “aspirina” en un análisis semántico superficial.

• Dos concentraciones son ‘equivalentes’ si sus cantidades y magnitudes son iguales, aplicando las conversiones de magnitud oportunas. Para aplicar las conversiones de magnitud, dichas magnitudes deben ser del mismo tipo (ambas de peso, volumen o disolución). Es decir, “200 mg” (peso) será equivalente a “0,2 g” (peso), pero no será equivalente a “200 ml” (volumen) ni a “0,2 %” (disolución). De la misma forma, “10%” (disolución) será equivalente a “10 mg / 100 ml” (disolución), pero no a “10 mg / 100 mg” (peso). Además este último no representa la disolución de un único principio activo, sino dos principios activos diferentes.

• Dos concentraciones son ‘proporcionales’ cuando sus cantidades son múltiplos entre sí, siempre que sus unidades de medida sean equivalentes. Por ejemplo, la concentración “200 ml” es proporcional a “100 ml” o a “0,4 l”, pero no a “0,2 g”.

De la misma forma, las relaciones en los mapeados entre un NI y un VMP se pueden establecer según las Ecuaciones 5.1-5.6. En ellas, A corresponde a la representación con formato NI de un medicamento de la población de OntoFIS, B representa un VMP de SNOMED-CT, y C un concepto de SNOMED-CT con menor especificidad que B. En cuanto al resto de los términos, p representa uno o varios principios activos, c una concentración, f una forma farmacéutica y v una vía de administración.

!!!!!"#$%&'; !!,!"!!"#$%&!!" (5.1)

! = !, !, !, ! ; !!! = !, !, ! ; !!! = !, ! (5.2)

!! ≡ !!!""!!! = !! !⋀!!! = !! !⋀!!! = !! (5.3)21

!! ≡ ! · !!!""!!! = !! !⋀!!! = !! · !!⋀!!! = !! !|!! ∈ ℝ!⋀!! ≠ 0!⋀!! ≠ 1 (5.4)

!! ≈ !!!""!!! = !! !⋀!!! = !! · !!|!! ∈ ℝ!⋀!! ≠ 0 (5.5)

! → !!!""!!! = !! !⋀!!! = !! !⋀!∄!!|!!! ≡ !!!⋁!!! ≡ ! · !!!⋁!!! ≈ ! (5.6) !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

21!Se!utiliza!sii#como!la!notación!matemática!de!“si!y!sólo!si”.!


! ! ! 93!

A partir de las conclusiones establecidas en las ecuaciones anteriores, a continuación se establecen las definiciones operacionales de los diferentes grados de similitud entre un NI y un VMP:

• Un NI y un VMP son ‘equivalentes’ (representado como !! ≡ !!en la Ecuación 5.3) si y sólo si sus principios activos, sus concentraciones y sus formas farmacéuticas son equivalentes. Por ejemplo, el medicamento “IBUPROX 100MG/5ML 200ML SUSPENSIÓN ORAL”, cuyo NI generado es “ibuprofeno 100 mg / 5 ml suspensión”, es equivalente al VMP de SNOMED-CT “ibuprofeno, 100 mg/5 ml, suspensión” (identificado en SNOMED-CT con ConceptId 375398002).

• Un NI y un VMP son ‘proporcionales’ (representado como !! ≡ ! · !!en la Ecuación 5.4) si y sólo si sus principios activos y sus formas farmacéuticas son equivalentes, y si sus concentraciones son proporcionales. Por ejemplo, el medicamento “TERMALFENO 200MG/5ML 30ML SUSPENSIÓN ORAL”, cuyo NI es “ibuprofeno 200 mg / 5 ml suspensión oral” es proporcional al VMP de SNOMED-CT “ibuprofeno, 100 mg / 2,5 ml, suspensión oral” (ConceptId 438856002).

• Un NI y un VMP son ‘similares’ (representado como !! ≈ !!en la Ecuación 5.5) si sus principios activos son equivalentes, sus concentraciones son equivalentes o proporcionales y sus formas farmacéuticas no son equivalentes. Por ejemplo, el medicamento “IBUPROFENO JUVENTUS 600MG 40 COMPRIM REC PEL EFG”, cuyo NI es “ibuprofeno 600 mg comprimidos recubiertos película”, es similar a los conceptos de SNOMED-CT “ibuprofeno, 600 mg, sobres, gránulos efervescentes” (ConceptId 329677002) e “ibuprofeno, 600 mg, comprimido” (ConceptId 329654002).

• Un NI es ‘comparable’ a un concepto de SNOMED-CT (representado como !! → !!en la Ecuación 5.6) cuando el concepto de SNOMED-CT no representa un VMP sino un concepto más general formado por un principio activo y una vía de administración, donde los principios activos y las vías de administración del NI y el concepto de SNOMED-CT son equivalentes. En ocasiones será necesario utilizar dos conceptos de SNOMED-CT para realizar este mapeado, siendo uno de ellos el principio activo del medicamento, y el otro estará formado por la expresión “producto” junto con la vía de administración apropiada. Por ejemplo, a partir del NI origen “dexibuprofeno 250 mg comprimido”, puesto que no existe ningún VMP en SNOMED-CT con dicha concentración ni múltiplo de ella, este NI sería establecido como ‘comparable’ a los conceptos de SNOMED-CT “producto con forma farmacéutica oral” (ConceptId 440131009) junto con “dexibuprofeno” (ConceptId 418027007).


!94!

6.4$Método$

El método propuesto para mapear dos elementos de las terminologías origen (OntoFIS) y destino o diana (SNOMED-CT) consiste en un proceso secuencial, donde existe una parte del proceso que es optativa. Una vez que se ha ejecutado la parte obligatoria, cabe la posibilidad de que no exista para un determinado NI ningún VMP de SNOMED-CT que cumpla con un mapeado completo (mismos ingredientes y concentraciones iguales o proporcionales), por lo que será necesario aumentar la granularidad del proceso, buscando conceptos de SNOMED-CT que compartan únicamente los principios activos y la vía de administración.

El proceso completo puede observarse en la Figura 6.3. En dicho diagrama se muestran tanto los procesos realizados como las entradas y las salidas de cada una de las fases del algoritmo. También se muestran los diferentes avisos que pueden producirse (flechas punteadas con cabeza blanca). En este diagrama puede observarse que existe un elemento de decisión (representado por un rombo), donde se decide si es necesario ejecutar la parte optativa del método, destinada a la búsqueda de conceptos de SNOMED-CT con una granularidad mayor a los VMP.

!

Nota aclaratoria: Los rectángulos muestran las diferentes etapas del módulo ML, las líneas sólidas muestran el flujo del procesamiento, las punteadas unen los recursos de entrada con las etapas donde son

utilizados, y las líneas discontinuas indican posibles mensajes al usuario.

Figura 6.3. Diagrama con el diseño general de funcionamiento del módulo ML.


! ! ! 95!

En las siguientes subsecciones se detalla el funcionamiento de cada una de las etapas del algoritmo representadas en la Figura 6.3. Para ilustrar el funcionamiento del método, a lo largo de esta sección se muestra un ejemplo del mapeado de una etiqueta de un nombre comercial de medicamento, ya convertida a Nombre Implícito (NI), con la terminología SNOMED-CT, siguiendo el proceso descrito en este capítulo. El ejemplo se realizará a partir del medicamento comercializado con el nombre “GELOCATIL INFANTIL 100MG/ML 30ML SOLUCION ORAL”, cuya transformación a NI es “paracetamol 100 mg / ml solución”.

$

6.4.1$Búsqueda$de$candidatos$primarios$

El primer paso es el de búsqueda de candidatos. Debido a la gran cantidad de descripciones existentes en SNOMED-CT (más de un millón) es necesario hacer un filtrado rápido, aunque básico, de aquellas descripciones de la terminología diana que no van a poder ser establecidas como similares en ningún grado al NI origen.

Para ello, primero se debe separar el principio activo del NI origen por términos, excluyendo las stop words y expandiéndolos con posibles sinónimos mediante el lexicón de sinónimos de principios activos. Los términos estarán formados tanto por palabras únicas como por multi-palabras (conjunto de varios términos).

Puesto que el NI del ejemplo (“paracetamol 100 mg / ml solución”) sólo tiene un término en su principio activo no es necesario eliminar stop words ni reordenar términos. Por tanto, directamente se busca el término ‘paracetamol’ en el lexicón de sinónimos de principios activos, comprobando que existe un sinónimo cuya etiqueta es ‘acetaminofeno’.

Seguidamente, los términos encontrados se usarán para buscar posibles candidatos entre todos los términos existentes en SNOMED-CT. Como se ha explicado anteriormente, cada término de SNOMED-CT contiene una descripción de tipo completa, una preferente y, opcionalmente, una o varias sinónimas. Para que una descripción sea considerada como candidata debe contener los mismos principios activos que el NI, no puede ser de tipo completo y su idioma debe ser castellano. El hecho de descartar las descripciones completas se debe a que dichas descripciones no son realmente utilizadas por los profesionales, sino que sirven a modo de identificación única de los conceptos de SNOMED-CT.

Una vez que se dispone de los términos que se van a utilizar en la búsqueda, se ejecuta una única consulta SQL. Es importante destacar que los elementos de mayor granularidad que los VMP no son extraídos en una primera búsqueda. Ésta se realiza sólo si tras la sexta fase de ‘Comparar y Evaluar las Formas Farmacéuticas con SiLeSS’ no existiese ningún VMP destino mapeado (ver apartado 6.4.8). Continuando con el ejemplo del apartado anterior, una posible consulta SQL resultante en este punto del proceso sería la que se muestra en la Figura 6.4.


!96!

!Nota aclaratoria: La consulta tiene como fin buscar conceptos VMP de SNOMED-CT candidatos a ser

destino del mapeado del medicamento español con etiqueta “GELOCATIL INFANTIL 100MG/ML 30ML SOLUCION ORAL”.

Figura 6.4. Ejemplo de consulta SQL sobre SNOMED-CT.

$

6.4.2.$Extracción$de$elementos$de$los$candidatos$primarios$

Tras la búsqueda de candidatos, éstos son extraídos de SNOMED-CT. Al extraerlos se realiza una separación de las diferentes partes deseadas (principios activos, concentraciones y forma farmacéutica), usando un proceso similar al utilizado en el módulo Equiparación de Granularidades (EG).

En la documentación técnica de SNOMED-CT se habla de que un VMP estará formado por tres bloques: (i) los principios activos, (ii) sus concentraciones y su (iii) forma farmacéutica. Sin embargo, aunque los medicamentos monoingredientes siguen el patrón especificado en la documentación técnica de SNOMED-CT, al analizar los VMP multiingredientes se ha descubierto que existen otras posibilidades, llegando a detectar hasta 9 patrones en total.

Para identificar los patrones de VMP multiingredientes en SNOMED-CT se ha realizado una búsqueda de los ingredientes ya utilizados en otras pruebas, es decir, utilizando los términos “aspirina”, “ácido acetilsalicílico”, “paracetamol”, “acetaminofeno”, “ibuprofeno” y “metamizol”. Para limitar la búsqueda de medicamentos, a dichos términos se han añadido los términos “mg”, “ml”, “g” y “%”, realizando una búsqueda con cada uno de ellos.

Tras analizar los VMP establecidos manualmente como equivalentes, proporcionales o similares a los medicamentos de la muestra C (ver apartado 3.3.2 del Capítulo 3), en la Tabla 6.2 se muestran ejemplos de cada uno de los patrones encontrados en esta búsqueda manual. Junto a cada uno de ellos, se muestra un ejemplo de etiqueta de un VMP que cumple dicho patrón.

SELECT TERM,CONCEPTID FROM Descriptions WHERE DESCRIPTIONTYPE <> 3 AND ((TERM LIKE '%0%') OR (TERM LIKE '%1%') OR (TERM LIKE '%2%') OR (TERM LIKE '%3%') OR (TERM LIKE '%4%') OR (TERM LIKE '%5%') OR (TERM LIKE '%6%') OR (TERM LIKE '%7%') OR (TERM LIKE '%8%') OR (TERM LIKE '%9%')) AND (TERM LIKE "%paracetamol%" OR TERM LIKE "%acetaminofeno%");


! ! ! 97!

Tabla 6.2.

Identificación de patrones de formación de los VMP en SNOMED-CT identificados manualmente.

# Patrón Ejemplo 1 [PRI],[C],[FF] acetaminofeno, 650 mg, comprimido 2 [PRI]+[PRI] [C]/[C],[FF] paracetamol+fosfato de codeína 500 mg/15 mg, comprimido 3 [PRI],[C]/[PRI],[C],[FF] aspirina, 325 mg/codeína, 60 mg, comprimido 4 [PRI]+[PRI],[C]/[C]/[FF] aspirina+metoclopramida, 900 mg/10 mg/polvo en sachet 5 [PRI][C]/[PRI][C],[PCK],[FF] paracetamol 500 mg/hidrocodona 5 mg, 15 ml, solución oral 6 [PRI][C]/[PRI][C],[FF y PCK] paracetamol 325 mg/hidrocodona 10 mg, solución oral de 15 ml 7 [PRI],[C]+[PRI],[C],[FF] acetaminofeno, 400 mg + bitartrato de hidrocodona, 10 mg, comprimido 8 [PRI] [C]+[PRI] [C],[FF] difenhidramina 38 mg + ibuprofeno 200 mg, cápsula 9 [PRI] “al” [C] / [PRI] “al” [C],[FF] ibuprofeno al 5 % / levomentol al 3%, gel Nota aclaratoria: [PRI] corresponde a principios activos, [C] corresponde a concentración, [FF] corresponde a forma farmacéutica y [PCK] corresponde empaquetado del medicamento.

Independientemente de los patrones, se han encontrado ciertos VMP que presentan algunos problemas, mostrados en la Tabla 6.3. Debido a dificultades a la hora de identificar los elementos del patrón o su semántica, estos casos no se han considerado como nuevos patrones y, por consiguiente, nuestro método los mostrará como problemáticos. Este tipo de problemas podrán ser evaluados por un experto humano durante o tras la ejecución del proceso, aunque actualmente no se ha contemplado la posibilidad de su modificación en tiempo de ejecución.

Tabla 6.3.

Ejemplos de VMP problemáticos respecto a los patrones identificados.!

Términos de la búsqueda VMP problemático Características aspirina mg aspirina + clorhidrato de pentazocina, 325

mg, comprimido Sólo aparece una concentración para dos ingredientes

paracetamol mg paracetamol + alcohol + fosfato de codeína, 120 mg/7% volumen/volumen/12 mg, elixir

El texto “volumen/volumen” no aporta semántica distinta

paracetamol + cafeína + mucato de isometepteno, (1:1) 325 mg/100 mg/65 mg, cápsula

No se identifica “(1:1)” en el texto

Nota aclaratoria: en esta tabla se indica la cadena de búsqueda utilizada en la herramienta CliniClue22, así como las características que hacen de dichos VMP problemáticos para su identificación como patrones.

Estudiando los 9 patrones encontrados (Tabla 6.2) se puede observar una diferencia fundamental en la forma de agrupar los elementos. Mientras que en la mayoría se muestra cada ingrediente seguido de su concentración, en dos de ellos se agrupan los nombres seguidos de todas las concentraciones. Estas diferentes agrupaciones suponen el mayor reto a la hora de realizar los mapeados. !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

22 CliniClue es una forma abreviada de denominar a CliniClue Xplore, una herramienta interactiva de búsqueda de información en la terminología de SNOMED-CT.


!98!

Por ello, en esta etapa se realiza una normalización de los VMP de SNOMED-CT recuperados, asociando a cada ingrediente su concentración, de la misma forma que se hace en el módulo de EG al recuperar la información de la población de la ontología OntoFIS para componer el NI. Con esta finalidad se ha seguido el diagrama de flujo que aparece en la Figura C.2 del Anexo C. En dicha figura se muestra un diagrama de estado finito que rige el comportamiento de la aproximación.

Siguiendo con el ejemplo de “paracetamol 100 mg / ml solución”, en este paso, al ejecutar la consulta SQL mostrada en la Figura 6.4 se recuperan un total de 261 descripciones de SNOMED-CT candidatas a ser VMP destino.

6.4.3$Eliminar$incompletos$

El tercer paso es comprobar que los VMP destino que se han establecido como candidatos están completos. Para ello se comprueba que están presentes todos los atributos necesarios para la creación del NES y el NI: principios activos, concentraciones y forma farmacéutica. Este proceso se lleva a cabo de una forma similar al modo en que se crea la plantilla de extracción de medicamentos en el módulo EG, pero utilizando los patrones vistos en la Tabla 6.2. Este proceso, sin embargo, es sensiblemente más sencillo que el utilizado en el módulo EG debido a que la información de SNOMED-CT presenta una variabilidad significativamente menor que las etiquetas de los medicamentos contenidas en OntoFIS (ya que por ejemplo no hay información de la dosis, ni cantidad de producto,… etc).

En caso de que el VMP candidato no incorpore información acerca de alguna de las tres partes mencionadas será eliminado de la selección de candidatos.

Para el ejemplo de esta sección no será necesario eliminar ningún VMP incompleto, manteniendo las 261 descripciones de SNOMED-CT candidatas.

$

6.4.4$Comparar$y$filtrar$por$ingredientes$

Volviendo a hacer uso del lexicón de principios activos, se comprueba que para cada candidato a VMP destino seleccionado hay una concordancia con los ingredientes del NI. Es necesario que para poder establecer cualquier grado de similitud, ambos compartan exactamente los mismos ingredientes.

Primero se comprueba que el número de ingredientes es el mismo en ambos casos y, si coinciden en la cantidad, se comparan sus etiquetas mediante un análisis semántico (ver apartado 6.2). Aquellos VMP destino que no cumplan con estos requisitos serán descartados.

Aunque en el primer paso (búsqueda de VMP candidatos) se seleccionan aquellos VMP de SNOMED-CT que contienen los mismos ingredientes que en el NI, en la consulta SQL no se excluyen aquellos que contienen más ingredientes de los que contiene el NI. Dicha comprobación requiere un nivel de análisis mayor del que es


! ! ! 99!

posible realizar en una consulta SQL, y es por ello que dicha comprobación se ha decidido realizar en este punto.

Para el ejemplo del paracetamol, el primer filtro por regla de incompatibilidad es que los VMP destino deben tener un único ingrediente, cuya etiqueta léxica debe ser ‘paracetamol’ o ‘acetaminofeno’, eliminando 204 candidatos a VMP destino.

$

6.4.5$Comparar$y$filtrar$por$concentraciones$

El quinto paso es, para cada NI, comprobar que los VMP candidatos tienen una concentración equivalente o proporcional a la existente en el NI. Si no es así, entonces se descarta como VMP candidato.

Siguiendo con el ejemplo, de los 57 candidatos a VMP destino restantes, se comprueban sus concentraciones respecto a la del NI. Es decir, deben eliminarse aquellas concentraciones que no sean iguales o proporcionales semánticamente a “100 mg/ml”. Es necesario recordar que un etiquetado de “200 mg / 2 ml” sería considerado como equivalente semánticamente, mientras que uno de “100 mg/ 5 ml” sería considerado proporcional, y uno de “99 mg / ml” sería filtrado. En este paso se eliminan 54 candidatos.

$

6.4.6$Comparar$y$evaluar$las$formas$farmacéuticas$con$SiLeSS$

El sexto paso es comparar y evaluar la similitud entre las formas farmacéuticas del NI y el VMP. En este caso, las formas farmacéuticas pueden tener gran cantidad de representaciones léxicas, por lo que se ha ideado un algoritmo específico para comparar cadenas en lenguaje natural en el dominio biomédico, denominado Similitud Léxica con Semántica Superficial (SiLeSS), el cual es descrito en apartado 6.5.

En el caso de las formas farmacéuticas se establece que se tendrán en cuenta todas las formas farmacéuticas, excepto aquellas que hayan sido establecidas como incompatibles (score=0). Uno de los motivos por los que pueden ser consideradas incompatibles es que no compartan la vía de administración. Puesto que no siempre es posible conocer la vía de administración de una forma farmacéutica (puede ser ambigua), este filtro sólo se aplicará cuando se conozca tanto la vía de la forma farmacéutica del NI como la del VMP candidato.

Al finalizar esta evaluación, se comprueba si han sido descartados todos los VMP candidatos. De ser así, se procederá a establecer candidatos para el mapeado utilizando un nivel de granularidad mayor. Es decir, buscando representaciones subtipos de VTM en SNOMED-CT (ver apartado 3.1.2 del Capítulo 3), y utilizando para ello los principios activos y la vía de administración del NI. Si por el contrario, no todos los VMP han sido descartados, entonces se procede directamente a la ordenación de resultados (explicada en el apartado 6.4.12).


!100!

Siguiendo con el ejemplo anterior, donde sólo quedan 3 candidatos a VMP destino, éstos se evalúan mediante el algoritmo SiLeSS. En la siguiente tabla se muestra la forma farmacéutica del NI del ejemplo, junto con las formas farmacéuticas de los candidatos a VMP destino, y asimismo, el score obtenido en la comparación de SiLeSS.

Tabla 6.4.

Resultados de SiLeSS en la comparación de las formas farmacéuticas.

Forma Farmacéutica del NI Forma Farmacéutica candidato VMP destino Score

solucion suspensión sin azúcar 0,8222223 gotas 0,6666667 solución oral 1,0

Puesto que han quedado tres VMP candidatos, los pasos relativos a las representaciones subtipos de VTM (ver jerarquía ‘producto biológico/farmacéutico’ en la Figura 3.3 del Capítulo 3) no serán realizados, y se pasará directamente a la ordenación de los resultados (subapartado 6.4.12). En los siguientes subapartados (6.4.7 – 6.4.11) se mostrarán ejemplos independientes para ilustrar su funcionamiento.

$

6.4.7$Búsqueda$de$candidatos$alternativos$

El proceso será parecido al descrito en la subsección 6.4.1, pero en esta ocasión las representaciones subtipo de VTM que serán recuperadas tendrán que cumplir con las siguientes especificaciones:

• No debe contener unidades de medida, como por ejemplo “mg”.

• Debe contener alguno de los principios activos del NI, o bien

• En sustitución del nombre del ingrediente puede contener la cadena “producto con forma farmacéutica” seguido de la vía de administración del NI o un sinónimo de ella.

Las principales diferencias respecto a la obtención de VMP candidatos primarios son la obligatoriedad de no incluir concentración (por eso no puede contener unidades de medida), y que basta con con tener uno de los ingredientes del NI, o bien una cadena específica junto con la vía de administración del medicamento que representa el NI. En definitiva, la búsqueda se centra en los subtipos de VTM.


! ! !101!

$

6.4.8$Extracción$de$elementos$de$candidatos$alternativos$

En este paso se extraen los candidatos, separando la vía de administración de los ingredientes. Para ello se realiza una búsqueda, usando el lexicón de vías de administración, etiquetando el texto que coincida con el conocimiento existente en él. Por tanto, aquello que no quede etiquetado, será considerado principio activo.

$

6.4.9$Eliminar$candidatos$alternativos$incompletos$

Este paso es análogo al descrito en el punto 6.4.4, correspondiente al cuarto paso del método, con la salvedad de que en lugar del principio activo se admite la cadena “producto con forma farmacéutica”.

Por tanto, los candidatos a ser destino de los mapeados deben contener información acerca de sus principios activos y su vía de administración. También se conservarán aquellos que cuenten únicamente con uno de los dos elementos, o bien se trate de la etiqueta “producto con forma farmacéutica” seguida de la vía de administración coincidente con la del NI. En caso de no contener conjuntamente todos los principios activos y la vía de administración podrán ser usados en una combinación, como se explica en el punto 6.4.11.

Si en este punto no existen candidatos se termina el proceso de mapeado para el medicamento analizado, pues no habrá más descripciones a analizar ni resultados que ordenar.

$

6.4.10$Comparar$y$evaluar$las$vías$de$administración$

Para aquellas representaciones subtipo de VTM que contengan información acerca de la vía de administración, se evalúa la similitud entre ésta y la del NI mediante análisis semántico (apartado 6.2), almacenando el score obtenido.

$

6.4.11$Establecer$los$mapeados$

Para aquellas representaciones subtipos de VTM candidatas que no hayan sido eliminadas, se comprueba si es necesario establecer un mapeado simple o múltiple.

En caso de que el NI sea monoingrediente y que exista una representación subtipo de VTM que contenga dicho principio activo junto con la vía de administración correspondiente, bastará con un mapeado simple. En la Figura 6.5 se muestra un ejemplo de un mapeado simple sobre un subtipo de VTM.


!102!

Figura 6.5. Mapeado simple de NI monoingrediente con una representación subtipo de VTM.

En caso de no encontrarse ningún subtipo de VTM que cumpla estas características, entonces no bastaría mapear el NI de OntoFIS con un único subtipo VTM. En estos casos se intentará realizar un mapeado múltiple, existiendo tres posibles aproximaciones, una para los casos de un único ingrediente y dos para los casos multiingredientes.

Si la representación subtipo de VTM contiene la cadena “producto con forma farmacéutica”, ésta debe complementarse con el concepto de SNOMED-CT que represente los diferentes ingredientes del NI. Un ejemplo de este caso puede verse en la Figura 6.6.

Figura 6.6. Mapeado múltiple de NI monoingrediente con dos representaciones subtipos de VTM.

Si el NI es multiingrediente, siempre se utilizará un mapeado múltiple, existiendo dos opciones para realizar dicho mapeado. La primera es la de asociarlo a una pareja de conceptos de SNOMED-CT. El primero de los conceptos será una representación subtipo de VTM con la cadena “producto con forma farmacéutica” seguido de la vía de administración del NI. En la segunda contendrá en su etiqueta todos los ingredientes que componen al NI. En la Figura 6.7 puede observarse un ejemplo de este tipo de mapeado, donde el primer concepto de SNOMED-CT representa un VMP general con la vía de administración adecuada, mientras que el segundo contiene los dos principios activos del NI de OntoFIS, separados por el signo ‘+’.


! ! !103!

Figura 6.7. Mapeado múltiple de NI multiingrediente con una representación subtipo de VTM y un

concepto de SNOMED-CT con múltiples ingredientes.

Otra opción será mapear el NI con una serie de representaciones subtipos de VTM, donde cada una de ellas contenga información de un único ingrediente junto con la vía de administración, de forma análoga a lo representado en la Figura 6.5. De esta forma, el NI será mapeado con tantos conceptos de SNOMED-CT como principios activos lo compongan. Un ejemplo de este caso puede verse en el segundo mapeado mostrado en la Figura 6.8, donde se utilizan dos conceptos ya que el NI de OntoFIS está formado por dos principios activos. Cada uno de los conceptos de SNOMED-CT es una representación subtipo de VTM que contiene, además del ingrediente, la vía de administración oral, que es la correspondiente al NI de OntoFIS (comparar con el mapeado mostrado en la Figura 6.6).

Figura 6.8. Mapeado múltiple de NI multiingrediente con dos representaciones subtipos de VTM.

$

6.4.12$Ordenar$resultados$

Finalmente se ordenan los resultados, atendiendo a los diversos grados de similitud encontrados y, dentro de cada uno de los grados, al score obtenido por el


!104!

algoritmo SiLeSS y donde se evalúan, respectivamente, las formas farmacéuticas del NI y el VMP destino, o bien las vías de administración.

De esta forma, por ejemplo, si existe un primer candidato a VMP destino identificado como ‘equivalente’ cuya forma farmacéutica ha obtenido un score de 0.67 y un segundo candidato VMP destino identificado como ‘proporcional’ cuya forma farmacéutica ha obtenido un score de 0.82, se mostrará primero el candidato destino ‘equivalente’, aunque el score de su forma farmacéutica sea inferior al obtenido por el otro VMP destino (como es el caso mostrado en la Tabla 6.5).

El diseño realizado muestra todos los candidatos y su ordenación, de forma que, en el futuro, un experto pueda validar un candidato distinto adecuado al criterio establecido en su sistema de información (ver los casos de las Figuras 6.6. y 6.7). Sin embargo, para el módulo posterior, AAO, sólo se utiliza aquel VMP candidato que se encuentre en primera posición en la ordenación.

Retomando el ejemplo del NI “paracetamol 100 mg / ml solución”, a partir del medicamento comercializado con el nombre “GELOCATIL INFANTIL 100MG/ML 30ML SOLUCION ORAL”, en el apartado 6.4.6 se obtuvieron 3 VMP candidatos.

El proceso de mapeado ha establecido que, de los tres VMP destino, dos de ellos son equivalentes, mientras que uno es proporcional. Por tanto, la lista de mapeado comenzará con los VMP destino marcados como equivalentes, ordenados según su score, seguidos del candidato identificado como proporcional. El resultado final se muestra en la Tabla 6.5.

Tabla 6.5.

Resultados del mapeado del NI con etiqueta “paracetamol 100 mg / ml solucion”.

Posición VMP destino Tipo Score

1 2 3

paracetamol, 100 mg/ml, solucion oral Equivalente 1,0 acetaminofeno, 80 mg/0,8 ml, gotas Equivalente 0,6666667 paracetamol, 100 mg/5 ml, suspension sin azucar Proporcional 0,8222223

$

6.5$Método$de$Similitud$Léxica$con$Semántica$Superficial$(SiLeSS)$

Este método se ha diseñado para buscar equivalencias léxicas entre dos etiquetas en lenguaje natural en idioma castellano, apoyándose en una serie de procesos para dotar al método de un componente de semántica superficial. En la Figura 6.9 puede observarse un diagrama con su diseño general.


! ! !105!

!Figura 6.9. Esquema del funcionamiento del algoritmo SiLeSS.

El método propuesto se puede definir como un proceso automático iterativo incremental. Se dice que el algoritmo es iterativo incremental porque realiza una serie de iteraciones donde se aplican diferentes operaciones, comenzando con las más simples, e introduciendo técnicas más complejas y costosas en cada iteración. Es decir, se utiliza una complejidad computacional incremental (ver apartados 6.2 y 6.3). El algoritmo terminará la ejecución en el momento en que, o bien considere que las dos cadenas son suficientemente similares como para establecer un grado de similitud positivo, o bien cuando no se ha podido establecer un grado de similitud suficiente. En este último caso se establecen como ‘no equivalentes’. De esta forma, cuanto más semejantes sean dos etiquetas, menos tiempo y recursos serán necesarios para establecerlas como similares. El método SiLeSS ha sido también empleado para el mapeado de los diagnósticos de enfermería NANDA con descripciones de SNOMED-CT (Cruanes et al., 2012a y b).

Como entrada, el algoritmo SiLeSS recibe una o varias etiquetas normalizadas (el proceso de normalización se describe en el apartado 4.2.2 del Capítulo 4) y como salida devolverá, para cada etiqueta de entrada, las etiquetas de la terminología diana que son consideradas similares y en qué grado. En este caso la equivalencia estará evaluada con un valor comprendido entre 0 y 1, aunque se utilizará un umbral que determine cuándo serán considerados equivalentes o no. En caso de no alcanzar el umbral el valor se establece a 0 y la etiqueta destino se establece como ‘no equivalente’.

En una primera iteración, el algoritmo hará una comparación léxica exacta, de forma que si son la misma etiqueta su score sería 1. Puesto que éste es el valor máximo, no se permitirán umbrales superiores.

En la segunda iteración se procederá a comprobar, si es posible, si existe alguna evidencia entre ambas cadenas que indique que no pueden ser establecidas como no


!106!

equivalentes. A esto se le llama reglas de incompatibilidad, y son, por ejemplo, que el número de ingredientes que conforman el medicamento no coincida.

En las siguientes iteraciones se emplearán técnicas propias de PLN tales como reordenación de términos, expansión de términos mediante sinonimia y búsqueda de subcadenas coincidentes mediante la generación de n-gramas de la cadena origen. En la Tabla 6.6 podemos observar algunos ejemplos de dichas técnicas. Todas estas técnicas buscan maximizar el valor devuelto por los métodos de similitud léxica usados, mostrando como salida del método todas aquellas etiquetas cuyo score (valor de similitud) sea igual o superior al umbral establecido.

Tabla 6.6.

Técnicas de PLN aplicadas en la identificación y marcado de elementos por lexicón.

Técnica Texto original Cadenas generadas

Generación de n-gramas ácido acetilsalicílico infantil “ácido acetilsalicílico”; “acetilsalicílico infantil”; “ácido”; “acetilsalicílico”; “infantil”

Reordenación de términos ácido acetilsalicílico acetilsalicílico ácido Expansión por sinonimia ácido acetilsalicílico aspirina

$

6.6$Experimentos$del$módulo$ML$con$muestreo$intencionado$

De forma análoga a los experimentos piloto realizados en el módulo EG, para comprobar el correcto funcionamiento del algoritmo propuesto, se ha decidido realizar una prueba específica sobre el módulo ML. El conjunto de medicamentos a utilizar en la prueba debe alcanzar un compromiso de ser suficientemente grande como para poner a prueba diferentes tipos de etiquetas pero, al mismo tiempo, que su tamaño permita una evaluación automática de los resultados, al carecer de un ‘gold standard’ que permita una evaluación automática.

En las siguientes secciones se detallarán los materiales utilizados en dichas pruebas, así como el procedimiento seguido, los resultados obtenidos junto con su discusión y, finalmente, las conclusiones extraídas.

$

6.6.1$Materiales$

En esta experimentación se han usado como materiales de trabajo la salida del módulo EG como entrada de datos, la terminología SNOMED-CT como terminología destino, y el conjunto de lexicones en castellano descritos en el apartado 3.1.4 del Capítulo 3. Para las pruebas se ha utilizado la muestra C (descrita en el apartado 3.3.2


! ! !107!

del Capítulo 3, consta de 438 medicamentos cuyos principios activos son ibuprofeno, paracetamol y metamizol).

$

6.6.2$Experimentación$

Para establecer los mapeados de las pruebas se ha realizado una búsqueda manual utilizando la herramienta CliniClue Xplore (CliniClue, 2011). En la búsqueda se han empleado los términos de los ingredientes de cada NI, buscando todos los VMP existentes y estableciendo el grado adecuado de mapeado que debe ser establecido por el módulo ML.

En la Figura 6.10 puede observarse una captura de una operación de búsqueda con la herramienta CliniClue Xplore, encuadrando el campo de búsqueda y los selectores de idioma, establecidos para el castellano.

Nota aclaratoria: En la captura puede observarse una búsqueda con el término ‘acetaminofeno’. La

versión de CliniClue Xplore utilizada es la 2012.8.0270.

Figura 6.10. Ejemplo de búsqueda manual usando la aplicación CliniClue Xplore.


!108!

6.6.3$Resultados$

En la Tabla 6.7 pueden observarse los resultados obtenidos en esta experimentación. Para los NI con un único ingrediente se han obtenido resultados de cobertura o sensibilidad (C), precisión o valor predictivo positivo (P), especificidad (Es), exactitud (Ex) y valor predictivo negativo (VPN) del 100%. En el caso de los multiingrediente, el resultado conjunto ha sido de una cobertura y exactitud del 14,6%, con un 100% de precisión, VPN del 0% y valor F de 25,5%. Si no se distingue entre el número de principios activos que componen el medicamento, la cobertura es del 88,9%, la precisión y especificidad es del 100%, la exactitud es del 90,6%, el VPN alcanza el 62,7% y el valor de F es del 94,1%.

Tabla 6.7. Resultados del mapeado de los NI generados en SNOMED-CT.

Paracetamol Ibuprofeno Metamizol Total Mono Multi Mono Multi Mono Multi

Mono

Multi Mono

+ Multi

vp 150 7 171 0 0 0 321 7 328 vn 4 0 0 0 65 0 69 0 69 fp 0 0 0 0 0 0 0 0 0 fn 0 35 0 6 0 0 0 41 41

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 16,7% 100% 0% - - 100% 14,6% 88,9% P 100% 100% 100% - - - 100% 100% 100% Es 100% - 100% - 100% - 100% - 100% Ex 100% 16,7% 100% - 100% - 100% 14,6% 90,6%

VPN 100% 0% - 0% 100% - 100% 0% 62,7% F1 100% 28,6% 100% 0% - - 100% 25,5% 94,1%

Nota aclaratoria: Los NI se han separado por principio activo y, a su vez, dependiendo de si tienen un solo ingrediente (mono) o varios (multi). En cada fila se muestran los resultados evaluados como verdaderos positivos (vp), falsos positivos (fp), verdaderos negativos (vn), falsos negativos (fn), los que no han podido evaluarse (-), el total de mapeados evaluados (Total), la cobertura (C), precisión (P), especificidad (Es), exactitud (Ex), valor predictivo negativo (VPN) y valor F (F1) alcanzados.

A partir de los resultados anteriores se puede estudiar la validez y seguridad de la propuesta analizada. En cuanto a validez deben considerarse los valores de cobertura (88.9%) y especificidad (100%). En cuanto a la seguridad de los resultados devueltos por la propuesta ha de atenderse a la precisión (100%) y al valor predictivo negativo (62,7%), es decir, la probabilidad de que no habiéndose encontrado un mapeado es cierto que éste no existe.

!

6.6.4$Discusión$

Respecto a los medicamentos monoingredientes los resultados han sido muy satisfactorios, alcanzando un 100% en todas las métricas que han sido evaluadas. Sin embargo, llama la atención la falta de mapeados para las pruebas de los medicamentos


! ! !109!

con ‘metamizol’ como principio activo. Tras la evaluación manual de SNOMED-CT mediante el software CliniClue se comprobó que, efectivamente, no existe ninguna descripción con metamizol en la versión utilizada de SNOMED-CT ni existen otros sinónimos de dicha sustancia.

Analizando los resultados obtenidos, se observa que los valores más bajos se dan en las pruebas que involucran a los medicamentos multiingredientes, al igual que ocurría en las pruebas piloto realizadas en el Capítulo 5. Sin embargo, atendiendo a la globalidad de los resultados, se puede desprender que la propuesta alcanza unos altos valores de validez y de seguridad, especialmente en cuanto a resultados positivos (100% precisión). En cuanto a la seguridad de los resultados negativos, ésta se encuentra en un nivel medio, y es que sólo en un 62,7% de los casos en los que la propuesta no ha devuelto resultado realmente no existía ninguna descripción adecuada.

Si se comparan los resultados obtenidos (88,9% de cobertura y 100% de precisión) con los reportados en la literatura, se puede observar que están próximos, e incluso llegan a superar a aquellos con mejores resultados, incluyendo los difundidos en lengua inglesa. Esto ocurre tanto teniendo en cuenta los medicamentos con un único ingrediente como la totalidad de los medicamentos analizados. Entre los mejores resultados obtenidos en los estudios analizados en lengua inglesa están los trabajos de Wang y equipo (cobertura del 80% y precisión del 50%) o de Meizoso, Allones y TaboadaMAT (cobertura del 83% y precisión del 100%). Más recientemente, Zhou y su equipo (2011, 2012) han obtenido unos niveles de precisión entre el 99,8% y el 100% y con una cobertura entre el 73,9% y el 85,9% entre la terminología origen (Partners Master Drug Dictionary, MDD) y la terminología diana (SNOMED-CT). Respecto a la experimentación en castellano, Castro y equipo (2011) obtuvieron unos valores de cobertura entre el 5,5 y el 9%, y precisiones entre el 35% y el 72%. Queda patente, por tanto, que la propuesta ha conseguido resolver muchos de los problemas planteados por los estudios previos, tanto en lengua inglesa como en lengua castellana.

Aunque esta evaluación es parcial y limitada a la muestra de estudio, al haber sido obtenida por muestreo intencionado. Sin embargo no hay que olvidar que el propósito de esta experimentación era evaluar la validez y seguridad del algoritmo propuesto, para el mapeado de las etiquetas terminológicas.

$

6.6.5$Conclusiones$

Esta experimentación ha comprobado las hipótesis que establecían que es posible realizar un mapeado semántico de etiquetas en castellano en el dominio de la farmacoterapéutica, basándose únicamente en métodos léxicos y técnicas de PLN.

Respecto a las aportaciones de esta propuesta en comparación con otras llevadas a cabo en el dominio, destacan los buenos resultados obtenidos por la presente aproximación, tanto comparado con los sistemas en lengua castellana como con los sistemas en lengua inglesa. Es necesario recordar que una de las principales razones que


!110!

existen para que los estudios en lengua inglesa obtengan, habitualmente, mejores resultados que los existentes en lengua castellana suele estar relacionada con la cantidad y calidad de los recursos semánticos disponibles. Mientras que en lengua inglesa existen múltiples terminologías, mapeados y corpus etiquetados, en castellano este tipo de recursos son más escasos, y los existentes suelen ser más reducidos y de menor calidad que los existentes en lengua inglesa.

Los resultados obtenidos han puesto de manifiesto, además, la complejidad del dominio y la falta de más recursos específicos, ya que no ha sido posible mapear un total de 65 medicamentos cuyo ingrediente es el metamizol.

Las pruebas realizadas han sido comparables, en cuanto a tamaño (438 medicamentos) y resultados a otros trabajos del dominio, como por ejemplo los 128 medicamentos detectados por Mougin y equipo (2012), o bien los 200 analizados por Farfán y equipo (2009). Sin embargo, el método de selección accidental de las muestras no permite hacer una generalización de los resultados. Es por ello que en el Capítulo 8 de esta Tesis se muestran los resultados de una prueba aleatoria simple, donde se cumplen los requisitos para establecer unos resultados con una confianza estadística.!

No obstante, con la experimentación realizada se han podido detectar las fortalezas y las limitaciones de esta aproximación, haciendo evidente la importancia de las reglas de exclusión en la comparación, con el uso conjunto de sinónimos23. De esta forma se ha logrado minimizar la existencia de falsos positivos, maximizando la eficacia del método.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

23!En!trabajos!previos!(Cruanes!et!al.,!2012a!y!2012b)!se!estableció!la!mejora!del!método!SiLeSS!para!los!mapeados! de! etiquetas! terminológicas! de! diagnósticos! de! enfermería! (NANDA! /! SNOMED7CT)!empleando! reglas! de! exclusión! en! base! al! uso! de! antónimos,! de! expresiones! existenciales! y! de!sinónimos.!

7. Ampliación Automática de la Ontología OntoFIS (AAO)

En este capítulo se detalla el proceso llevado a cabo en el último de los módulos de la propuesta presentada en esta Tesis, correspondiente al módulo denominado Ampliación Automática de OntoFIS (AAO). El objetivo de este módulo es utilizar el esfuerzo realizado en los módulos anteriores para incorporar nuevo conocimiento a la ontología OntoFIS.

Como en los módulos previos, se han realizado una serie de pruebas con el fin de depurar y evaluar el funcionamiento de la aproximación. Aunque en este caso se ha utilizado únicamente la muestra C para realizar la experimentación con muestreo intencionado.

En la Figura 7.1 pueden verse las entradas y las salidas del módulo AAO, junto con su disposición como último módulo de la propuesta. Como entradas del módulo recibe la salida del módulo anterior, el mapeado léxico entre la base de conocimiento de la ontología OntoFIS y la terminología SNOMED-CT. Como salida produce una ontología copia de la original OntoFIS, pero enriquecida semánticamente, tanto en población como en capacidad de representar nuevo conocimiento, incluir representaciones más abstractas de los medicamentos y la posibilidad de explicitar el mapeado obtenido con la terminología SNOMED-CT.

Capítulo 7. Ampliación Automática de OntoFIS.

!112!

Nota aclaratoria: Diagrama con el diseño general de la propuesta, resaltando el módulo de Ampliación

Automática de OntoFIS (AAO), junto con la ontología OntoFIS como material de entrada.

Figura 7.1. Situación del módulo de AAO en el conjunto general de la propuesta.

Este capítulo se divide en seis apartados. En el primero de ellos se describen los materiales utilizados por el módulo AAO. El segundo describe el proceso de análisis de las relaciones y las estructuras de OntoFIS y SNOMED-CT, donde se detalla la aproximación adoptada para ampliar el conocimiento de OntoFIS. En el tercer apartado se expone el procedimiento llevado a cabo en función de cada uno de los mapeados existentes. El cuarto apartado explica el método técnico mediante el cual se añade el nuevo código OWL a la ontología OntoFIS. El quinto apartado describe el método manual llevado a cabo para evaluar la ontología resultante, desde un punto de vista ontológico. Finalmente, el sexto apartado corresponde a los experimentos con muestreo intencionado realizados sobre el módulo AAO. Además, este último apartado muestra y describe los resultados obtenidos, así como las conclusiones parciales extraídas de dicha experimentación.

7.1 Materiales

Como entrada principal, el módulo AAO recibe una lista de medicamentos comercializados en España, pertenecientes a la población de la ontología OntoFIS ya transformados en NI (Nombre Implícito), similar al formato VMP (Virtual Medicinal Product) utilizado en SNOMED-CT, junto con los mapeados establecidos en el módulo ML. Además de esta entrada, el módulo AAO también cuenta con la terminología

Capítulo 7. Ampliación Automática de OntoFIS. !

! 113!

SNOMED-CT (ya detallada en el Capítulo 3), la salida del módulo de Equiparación de Granularidades (EG) y la serie de recursos léxico-semánticos específicos creados (sinónimos de principios activos, sinónimos de formas farmacéuticas, sinónimos de vías de administración y lexicón de stop words).

Al igual que en el módulo ML, se utiliza la versión de SNOMED-CT almacenada en una base de datos, de forma que pueden recuperarse descripciones de SNOMED-CT mediante consultas SQL. Esta medida persigue objetivos de eficiencia, pues el acceso SQL es más rápido que un acceso a ficheros grandes y, además, permite en una única consulta recuperar múltiple información acerca de las relaciones semánticas de SNOMED-CT, necesarias para ampliar la ontología OntoFIS.

7.2 Análisis de las relaciones y estructuras de OntoFIS y SNOMED-CT

Si bien en el Capítulo 3 de esta Tesis se analizaron las similitudes y diferencias de la ontología OntoFIS y la terminología SNOMED-CT, en este capítulo el análisis se centrará en la estructura y relaciones de la clase Medicamento de OntoFIS y los VMP de SNOMED-CT, para establecer la mejor forma de añadir el conocimiento obtenido en los módulos previos a la base de conocimiento de OntoFIS.

Para ello, en primer lugar es necesario estudiar las relaciones de OntoFIS que tienen como origen o destino la clase Medicamento. La clase Medicamento de OntoFIS está extensamente ligada al resto de clases de OntoFIS mediante un total de 107 relaciones semánticas declaradas. Esto es debido a que esta ontología fue concebida planteando esta clase como parte central del modelo. De hecho, las relaciones que involucran a la clase Medicamento (siendo origen o destino de la relación), suponen aproximadamente un 17% de todas las relaciones existentes en OntoFIS (639). En la Tabla D.1 del Anexo D se puede consultar la lista completa de relaciones cuyo origen (también llamado ‘dominio’) o destino (también llamado ‘rango’) es la clase Medicamento.

En SNOMED-CT, sin embargo, el papel de la representación virtual de un medicamento (VMP) no es el concepto central de la terminología, ya que su concepción no estaba orientada a farmacología, sino a la representación de información clínica. Por tanto, no existe tanta cantidad ni diversidad en las relaciones que involucran al tipo de concepto VMP. En la Figura 7.2 puede observarse un ejemplo de las relaciones semánticas más importantes en SNOMED-CT partiendo de un VMP. Debido a la gran población de SNOMED-CT y la gran cantidad de niveles jerárquicos y herencias múltiples existentes, se ha simplificado el diagrama, con el fin de resaltar las relaciones semánticas que sirven para unir conceptos pertenecientes a diferentes jerarquías. Concretamente en la Figura 7.2 se muestran las relaciones para el VMP ‘paracetamol, 500 mg, cápsula’ cuyo valor del atributo ConceptId de SNOMED-CT es 322236009. En


!114!

esta figura se muestran las relaciones de ‘es un’, ‘tiene componente activo’ y ‘tiene forma farmacéutica’.

Nota aclaratoria: las jerarquías representadas son ‘sustancia’, ‘producto biológico/farmacéutico’ y ‘calificador’ de SNOMED-CT junto con las relaciones semánticas existentes, para el ejemplo del VMP

‘paracetamol, 500 mg, cápsula’ cuyo ConceptId es 322236009.

Figura 7.2. Representación simplificada de las jerarquías de SNOMED-CT.

Queda patente, por tanto, la gran disparidad entre las relaciones y las estructuras de ambos recursos, tal y como se había adelantado en el Capítulo 3. Para tratar de solventar esta dificultad, se han analizado las similitudes y diferencias de las relaciones semánticas y la jerarquía focalizada sobre el concepto VMP, recogidas en la Tabla 7.1. En dicha tabla se comparan las relaciones de SNOMED-CT con las existentes en OntoFIS, indicando los nombres de las relaciones junto con observaciones de sus similitudes y diferencias. Para las relaciones de SNOMED-CT se especifica el origen de su jerarquía entre paréntesis. El origen de la jerarquía de las relaciones de OntoFIS viene especificado por su índice numérico (para más información puede consultarse la Tabla D.1 del Anexo D).


! 115!

Tabla 7.1.

Comparación de las relaciones que afectan a los medicamentos de SNOMED-CT y OntoFIS.

SNOMED-CT OntoFIS Observaciones asociado con (Hallazgo Clínico) related_to_1.2

(relacionado con) Semánticamente similares pero difieren en su uso (no se aplican a los mismos conceptos). componente (Procedimiento de

evaluación) composes_1.1.1 (compone)

propiedad (Procedimiento de evaluación)

porperty_of_4.3 (es propiedad de)

vía de administración (Procedimiento) manages_2.1.8 (administra) requires_4.4 (requiere) method_of_4.6 (método de) related_to_1.2 (relacionado con)

Existe cierta ambigüedad. Mientras que en SNOMED-CT sólo existe una relación para unir semánticamente los conceptos de un medicamento (en cualquier granularidad) y su vía de administración, en OntoFIS existen 4 diferentes.

tiene como componente activo (Producto biológico/farmacéutico)

composes_1.1.1 (compone)

Equivalentes en cuanto a su uso y semántica.

tiene forma farmacéutica (Producto biológico/farmacéutico)

property_of_4.3 (es propiedad de)

es un is_a_5 (es un)

Nota aclaratoria: Para las relaciones de SNOMED-CT se especifica el origen de su jerarquía entre paréntesis. El origen de la jerarquía de las relaciones de OntoFIS viene especificado por su índice numérico (para más información puede consultarse la Tabla D.1 del Anexo D).

A partir de la tabla anterior, y tras analizar todos los casos, se han realizado una serie de mapeados manuales únicos entre las relaciones que se pueden extraer de SNOMED-CT respecto a las existentes en OntoFIS, mostrados en la Tabla 7.2.

Primero se ha decidido descartar aquellas cuyo uso no era el mismo, pues no sólo es necesario que coincidan en la semántica de la relación, sino en los conceptos sobre los que se aplican.

Seguidamente se ha analizado el caso de la relación entre un medicamento y su vía de administración, de forma que sólo se utilizará una de las cuatro relaciones posibles existentes en OntoFIS, para evitar redundancia de información.

Finalmente se ha decidido utilizar todas aquellas en las que su semántica y su uso son equivalentes. Sin embargo, existe una peculiaridad, y es que la relación “es un” utilizará como destino los conceptos concretos de SNOMED-CT, mientras que el resto de relaciones semánticas tanto el origen como el destino son instancias de OntoFIS.


!116!

Tabla 7.2. Compendio de mapeados entre las relaciones que afectan a los medicamentos de SNOMED-CT y OntoFIS. SNOMED-CT OntoFIS ConceptId Nombre Nombre Origen Destino 127489000 tiene como

componente activo

composes_1.1.1 Principio Activo

Medicamento

411116001 tiene forma farmacéutica

property_of_4.3 Forma Farmacéutica

Medicamento

410675002 vía de administración

related_to_1.2 Medicamento Vía Administración

116680003 es un is_a_5 Medicamento

SNOMED-CT (referencia externa)

A partir de las correspondencias establecidas en la Tabla 7.2, se define qué relaciones de SNOMED-CT son utilizadas en la ampliación de la ontología OntoFIS, atendiendo a la clasificación del mapeado. Como se adelantó en el capítulo anterior, a mayor nivel de similitud entre dos conceptos mapeados, mayor será la cantidad de información que pueda ser utilizada en la ampliación. Esto es debido a que no puede extraerse la misma información de un mapeado de equivalencia (ver subapartado 7.3.1) que de uno de tipo comparable (ver subapartado 7.3.4), ya que mientras que en el primero los conceptos mapeados coinciden en sus principios activos, concentraciones y formas farmacéuticas, en el segundo los conceptos mapeados coinciden únicamente en sus principios activos y vías de administración.

7.3 Clasificación de los mapeados

En este apartado se especifican las diferentes reglas que se seguirán para ampliar automáticamente OntoFIS. Estas reglas tienen como disparadores los diversos tipos de mapeados establecidos. Como se ha explicado anteriormente, sólo se tendrá en cuenta el mapeado de mayor categoría.

7.3.1 Mapeados equivalentes y proporcionales

Estos mapeados representan el nivel más alto de similitud semántica entre un NI de OntoFIS y un VMP de SNOMED-CT. Para alcanzar este nivel, ambos conceptos deben coincidir exactamente en los principios activos (ingredientes) y forma farmacéutica. Además, su concentración debe ser igual o proporcional.


! 117!

En estos casos, ya que se trata del máximo grado de similitud, se pueden utilizar todas las relaciones que se encuentren, según se describe en la Tabla 7.2.

7.3.2 Mapeados similares

Este nivel de mapeado se establece entre dos conceptos con el mismo principio activo y una concentración igual o proporcional, pero que presentan diferencias en las formas farmacéuticas. Por ello, en este tipo de mapeados no se podrá hacer uso de las relaciones que afecten a las formas farmacéuticas, las vías de administración o la jerarquía. Es decir, sólo se podrán utilizar las relaciones referentes al principio activo. Esto es, las de tipo “tiene como componente activo” (ConceptId 127489000).

7.3.3 Mapeados comparables

Este tipo de mapeados no se establece entre un NI y un VMP, sino entre un NI y una clase más general de SNOMED-CT, formada por el principio activo y la vía de administración, que deben coincidir exactamente con los del NI generados a partir de OntoFIS. Por ello, de la Tabla 7.2, sólo se usarán las relaciones referentes a estos elementos, es decir, las identificadas como “tiene como componente activo” (127489000) y “vía de administración” (410675002).

7.4 Incorporación de nuevo conocimiento en OntoFIS

Para añadir nuevo conocimiento a OntoFIS de forma que éste pueda ser reutilizado y accesible por razonadores, se ha decidido incorporarlo siguiendo las normas de OWL 1.0, ya que éste fue el estándar usado en la creación de OntoFIS. Para ello, deben crearse una serie de nuevos atributos de propiedad de datos (denominados ‘datatype property’), que serán incluidos en las distintas instancias de OntoFIS según sea necesario. Los pasos a seguir en esta aproximación son los mostrados en la siguiente figura:


!118!

Figura 7.3. Secuencialización de pasos a seguir por el método propuesto en el módulo AAO.

7.4.1 Modificación del núcleo de OntoFIS

En OWL cada atributo de cada clase debe estar debidamente declarado, especificando la clase a la que pertenece, así como qué tipo de información contendrá y cuál es su nombre. Además no pueden existir dos atributos con el mismo nombre.

Para ello, el primer paso será comprobar que no existan ya las datatype property con los nombres que van a ser incluidos. En caso de no encontrarse en la ontología, entonces se crean los nodos OWL correspondientes.

En la Figura 7.4 puede observarse un ejemplo del nodo OWL que define el atributo “Medicamento..Nombre_especialidad”, que es el que recoge la información con formato de Nombre de Especialidad Simplificado (NES). Se ha optado por no incluir el término “simplificado” en el atributo de OWL para evitar posibles problemas debidos a una excesiva longitud del nombre del atributo.

!Nota aclaratoria: Este fragmento de código deberá ser añadido a la ontología OntoFIS para dotarla de

capacidad de almacenar el conocimiento referente al NES generado en el módulo EG

Figura 7.4. Fragmento de código OWL de OntoFIS para declarar el atributo que recoja la información

referente al NES del medicamento.

<owl:DatatypeProperty rdf:about="#Medicamento..Nombre_especialidad"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/> </owl:DatatypeProperty>


! 119!

El código OWL completo de cada una de las seis propiedades de tipo de dato que son creadas en este módulo, se encuentra detallado en la Figura E.1 del Anexo E. Este ejemplo de código no ha podido ser incluido en esta sección por cuestiones de espacio.

7.4.2 Inclusión del NES y del NI

El primer tipo de información incorporada a la instancia del medicamento es la referente al NES y al NI generados, que son incorporados en los atributos “nombre especialidad” y “nombre implícito” respectivamente.

En la Figura 7.5 se puede observar un extracto del código OWL generado para ser incorporado a una instancia de OntoFIS, donde se resaltan en negrita los valores de los nuevos atributos.

!Figura 7.5. Fragmento de código OWL de OntoFIS para almacenar el conocimiento del NES y el NI.

El código OWL completo referente a este apartado se incluye en la Figura E.2 del Anexo E.

7.4.3 Inclusión de la población objetivo

En el módulo de Equiparación de Granularidades (EG) se extrae, si es posible, la población objetivo del nombre de especialidad del medicamento (ver apartado 5.2.2 del Capítulo 5). Es necesario recordar que, si no se especifica la población objetivo de un medicamento, se supone que es para adultos.

Esta información puede ser añadida a OntoFIS, si no existía ya, gracias a la clase denominada “Edad”, cuyo significado semántico es la población objetivo del medicamento.

La secuencia empleada en crear dicha relación para cada una de las instancias de la clase Medicamento procesadas es la siguiente:

1. Se recupera la población objetivo de la plantilla de medicamento.

<Medicamento..Nombre_especialidad rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> algidol 650 mg / 10 mg / 500 mg sobres </Medicamento..Nombre_especialidad>

<Medicamento..Nombre_implicito rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> paracetamol / codeina fosfato / ascorbico acido 650 mg / 10 mg / 500 mg sobres </Medicamento..Nombre_implicito>


!120!

2. Se busca, utilizando el algoritmo SiLeSS (ver apartado 6.5 del Capítulo 6), aquella instancia de la clase Edad que corresponda a la población objetivo.

3. Si no se encuentra, debe crearse una nueva instancia de OntoFIS.

4. Se crea un atributo OWL en la instancia de Medicamento con la relación semántica “treats_2.1.10” (trata) hacia la correspondiente instancia de la clase Edad. Ésta puede ser una ya existente en OntoFIS si se encontró en el paso 2, o bien la creada en el paso 3.

5. Se crea un atributo OWL en la instancia correspondiente a “Edad” con la relación semántica “suitable_for_2.2.1” (indicado para). El rango de esta relación será la instancia de la clase Medicamento analizada.

A continuación, en la Figura 7.6, se muestra un ejemplo del código OWL necesario para crear una nueva instancia de la clase “Edad” (identificada como “Edad_2”), donde se ha incorporado la relación semántica “suitable_for_2.1.10”, referenciando a un Medicamento cuyo identificador es 1, es decir, se trata de la instancia “Medicamento_1”. En dicha figura se ha resaltado en negrita la etiqueta de la instancia, el nombre de la relación semántica (nombre del atributo) y el rango de la misma.

Figura 7.6. Fragmento de código OWL de Edad_2 creada automáticamente.

El código OWL completo referente a la incusión del nodo Edad, correspondiente a la población objetivo, se muestra en la Figura E.3 del Anexo E.

!

7.4.4 Inclusión de la vía de administración

En el módulo de EG se extrae, si es posible, la vía de administración del nombre de especialidad del medicamento, o bien intenta deducirse a partir de su forma farmacéutica (ver apartado 5.2.3 del Capítulo 5). Esta información es añadida a la clase ‘ViaAdminitracion’ de OntoFIS, si no existía ya. El proceso para crear dicha relación es el siguiente:

1. Se recupera la vía de administración a partir de la plantilla de medicamento. Si no se encuentra no se continúa con el proceso.

<Edad rdf:about="#Edad_2"> <Edad..ID>2</Edad..ID> <Edad..edad_cualitativa>adultos</Edad..edad_cualitativa> <Edad..rango_edad_cuantitativa/> <suitable_for_2.2.1 rdf:resource="#Medicamento_1"/> </Edad>


! 121!

2. Se busca, utilizando el algoritmo SiLeSS, aquella instancia de la clase “ViaAdministracion” que corresponda a la vía de administración.

3. Si la vía de administración no se encuentra en OntoFIS, se crea una instancia nueva con los datos correspondientes.

4. Finalmente se crea un atributo OWL en la instancia de “Medicamento” con la relación semántica “manages_2.1.8” (se administra) hacia la correspondiente instancia de la clase “ViaAdministracion”. Ésta puede ser una existente ya en OntoFIS si se encontró en el paso 2, o bien la creada en el tercer paso.

El código OWL completo resultante de incluir la vía de administración en OntoFIS se muestra en la Figura E.4 del Anexo E.

7.4.5 Inclusión de la jerarquía de SNOMED-CT

Si entre los mapeados obtenidos se encuentra alguno de tipo equivalente o proporcional, entonces se incluirá un tipo especial de relación semántica, que es la de tipo “es un” (“is a” en inglés), que denota una estructura jerárquica. Para ello, partiendo de los mapeados del módulo ML, esta información es recuperada e introducida en la jerarquía de instancias de OntoFIS mediante la relación de OWL “subClassOf”.

A diferencia de lo que ocurría con las anteriores relaciones, en esta relación el destino de la misma (también llamado en este caso en concreto ‘padre’ o ‘hiperónimo’) es un concepto de la terminología SNOMED-CT, en lugar de ser otra instancia de OntoFIS. Para ello, siguiendo los estándares de OWL, se referencia a la terminología de SNOMED-CT mediante su URI (identificador uniforme de recurso, siglas del término inglés Uniform Resource Identifier), seguido del identificador único de concepto de SNOMED-CT. Por ejemplo: para referenciar al concepto “producto con forma farmacéutica oral” (con identificador 440131009) se referenciará utilizando como rango la etiqueta “http://www.ihtsdo.org/snomedct.owl#snomedct;440131009”.

El proceso para incluir la información referente a la nueva jerarquía es el siguiente:

1. A partir de todas las herencias del concepto de tipo ‘equivalentes’ o ‘proporcionales’, se escoge la de mayor rango y con mayor score. Si no existe mapeado de ninguno de estos dos tipos, entonces no se incluye información jerárquica.

2. Para cada relación, se guarda el identificador del concepto destino.

3. Para cada identificador recogido, se crea la cadena que se utilizará como rango de la relación jerárquica. Es decir, su URI seguido de punto y coma (‘;’) y el ConceptId (identificador único de SNOMED-CT) correspondiente.


!122!

4. Para cada identificador recogido, se crean las relaciones “subClassOf” en la instancia adecuada de la clase “Medicamento”.

En la Figura E.5 del Anexo E puede observarse el código completo referente a este apartado.

!

7.4.6 Inclusión de las relaciones extraídas de los mapeados

A partir de la información del módulo de ML, se recorren todos los medicamentos analizados, procesándolos como se muestra a continuación:

1. Recuperar el mapeado del medicamento. A partir de la salida producida por el módulo ML, se escogerá el mapeado con mayor score que haya sido establecido como equivalente y, si no existiese, se escogerá el de mayor score de los establecidos como proporcional, similar o comparable, en ese orden de prioridad.

2. A partir del mapeado obtenido, se recuperan de SNOMED-CT todas las relaciones que impliquen al concepto mapeado como origen.

3. Según el grado de mapeado y acorde con lo establecido en la sección 7.3 de este mismo capítulo, se eliminarán todas aquellas relaciones que no vayan a ser usadas.

4. Para cada relación, se recupera el origen, destino y el tipo (etiqueta) de la misma, así como la información relativa al concepto de SNOMED-CT que es destino de la relación.

5. En toda relación semántica de OntoFIS, de forma análoga a SNOMED-CT, debe haber una instancia origen y otra destino de la relación. Puesto que la instancia de medicamento de OntoFIS será uno de los extremos de la relación, es necesario conocer el otro. Para ello se busca (usando SiLeSS), a partir del concepto extraído en el paso anterior, la instancia de OntoFIS que sea equivalente.

6. Si no se encuentra ninguna instancia equivalente al concepto de SNOMED-CT recuperado en el paso 1, entonces debe crearse.

7. Una vez identificados el origen y destino de la nueva relación, se crea el atributo OWL de la relación (en la Tabla 7.2 se muestran las equivalencias), añadiéndose en la instancia correspondiente.

7.4.7 Inclusión de los mapeados

El último paso del proceso de AAO es el de incluir la información de los mapeados realizados provenientes del módulo ML. Para ello se incluyen todos los mapeados, utilizando el atributo adecuado y siendo el rango de la relación el conjunto


! 123!

de URI de SNOMED-CT más el ConceptId del concepto mapeado, de la misma forma que se ha explicado en el apartado 7.4.5. Los posibles atributos son:

• Mapeado_equivalente_SNOMED_CT. Utilizado para aquellos mapeados del tipo equivalente.

• Mapeado_proporcional_SNOMED_CT. Utilizado para aquellos mapeados del tipo proporcional.

• Mapeado_similar_SNOMED_CT. Utilizado para aquellos mapeados del tipo similar.

• Mapeado_comparable_SNOMED_CT. Utilizado para aquellos mapeados del tipo comparable. Si el mapeado está compuesto por varios conceptos de SNOMED-CT, la cadena con el rango de la relación se compone de la URI de SNOMED-CT, seguida de punto y coma y todos los ConcepId correspondientes, separados entre ellos por el símbolo más (‘+’).

En la Figura 7.7 puede observarse un fragmento de código OWL correspondiente a la instancia 299 de medicamento de OntoFIS, cuya etiqueta es “JUNIFEN 125MG 10 SUPOSITORIOS” y que ha sido mapeado como equivalente a los conceptos de SNOMED-CT “producto con forma farmacéutica rectal” (ConceptId 440133007) e “ibuprofeno” (387207008). En dicha figura aparece resaltado el nombre del atributo y en el valor del destino de la relación, la unión de ambos ConceptId.

Figura 7.7. Fragmento de código OWL de OntoFIS para almacenar el conocimiento del mapeado sobre

SNOMED-CT.

Por cuestiones de facilidad de lectura, en las figuras anteriores se han incluido únicamente segmentos de código OWL. Sin embargo, si se desea observar un ejemplo completo, en la Figura E.6 del Anexo E puede observarse el código OWL correspondiente a la instancia completa del “Medicamento_144”, tal cual estaría tras finalizar el procesamiento de este módulo. En dicha figura aparece resaltado en negrita el código OWL añadido en este punto del procesamiento.

<Medicamento..Mapeable_comparable_SNOMED_CT rdf:resource= "http://www.ihtsdo.org/snomedct.owl#snomedct;440133007+387207008"/>


!124!

7.5 Comprobación de ontología resultante

Finalmente, una vez se ha creado la ontología ampliada, es necesario evaluarla y validarla para asegurar que el proceso de ampliación funciona correctamente y que la ontología sigue siendo consistente.

Para ello se utilizará el razonador FaCT++ mediante la herramienta Protégé. La evaluación se realizará de forma manual, utilizando las comprobaciones de consistencia. Entre los problemas de consistencia más usuales están: la existencia de bucles o ciclos en las herencias, el uso de atributos no declarados, o el uso de relaciones semánticas donde el origen y el destino no coincidan con los explicitados en su declaración.

Adicionalmente, se pide al razonador que infiera24 la ontología, comprobando que la ontología inferida representa la semántica esperada.

7.6 Experimentos con muestreo intencionado

Para poder establecer la validez de este módulo y depurar su funcionamiento se han realizado un conjunto de experimentos con muestreo intencionado, de la misma forma que se han realizado en los módulos anteriores.

En los siguientes apartados se detallarán los materiales utilizados en dichas pruebas, así como el procedimiento seguido, los resultados obtenidos junto con su discusión y, finalmente, las conclusiones extraídas.

7.6.1 Materiales

En esta experimentación se han usado como materiales de trabajo la salida del módulo ML como entrada de datos, la terminología SNOMED-CT como terminología destino, y un conjunto de cinco lexicones en castellano. Además, también se utilizará la información extraída en el módulo EG, y que no fue utilizada en el módulo ML, como la población objetivo.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

24!El término “inferir” es utilizado en el tratamiento de ontologías mediante razonadores con el sentido de deducir. Es decir, el razonador deduce una ontología, no sólo a partir del código OWL, sino que procesa de forma recursiva las relaciones semánticas y jerárquicas de la misma.!


! 125!

En esta experimentación se ha utilizado la muestra C (apartado 3.3.2 del Capítulo 3). Dicha muestra consta de 438 medicamentos, agrupados de la siguiente forma: 65 medicamentos cuyo principio activo es “metamizol”, 196 medicamentos con “paracetamol” como principio activo y 177 medicamentos cuyo principal ingrediente es “ibuprofeno”.

Como se ha detallado en el Capítulo 3 de esta tesis, se utilizará la versión 20100131 de la terminología SNOMED-CT en castellano. En este caso dicha terminología ha sido almacenada en una base de datos MySQL con el fin de obtener una mejora de eficiencia en la recuperación de las descripciones necesarias.

Finalmente, como lexicones para el proceso de mapeado se han utilizado los ya especificados en la sección 7.1 de este mismo capítulo.

7.6.2 Experimentación

En este experimento del módulo AAO se evaluarán 7 aspectos:

• Nombre especialidad: se comprobará que se incorpore correctamente la información del NES procedente del módulo EG. Se considerará vp (verdadero positivo) si se ha incluido el atributo de forma correcta, o fn (falso negativo) si no se ha incluido, ya que todos los medicamentos procesados deben haber sido ampliados con este atributo.

• Nombre implícito: se comprobará que se incorpore correctamente la información del NI generado en módulo EG. Se considerará vp si se ha incluido el atributo de forma correcta, o fn si no se ha incluido, ya que todos los medicamentos procesados deben haber sido ampliados con este atributo.

• Población objetivo: se comprobará que se incorpore correctamente la información de la población objetivo procedente del módulo EG. Se considerará vp si se ha incluido el atributo de forma correcta, o fn si no se ha incluido, ya que todos los medicamentos procesados deben haber sido ampliados con este atributo.

• Vía de Administración: se comprobará que se incorpore correctamente, si procede, la información de la vía de administración procedente del módulo EG. Se considerará vp si se ha incluido el atributo de forma correcta, vn (verdadero negativo) si no ha sido incluido debido a que no es posible conocer con exactitud su vía de administración, fp (falso positivo) si se ha incluido información de vía de administración y ésta es ambigua o desconocida, o bien fn si no se incluyó el correspondiente atributo existiendo información no ambigua acerca de la vía de administración.

• Estructura: se comprobará que se incorpore correctamente la información relativa a la jerarquía de SNOMED-CT para aquellos mapeados pertinentes


!126!

procedentes del módulo ML. Sólo se considerará en este caso vp si todas las relaciones jerárquicas han sido incorporadas correctamente, y éstas corresponden a las del mapeado de mayor tipo y score, si el mapeado es al menos de tipo proporcional. Si falta alguna de las relaciones por incorporar, aunque las incorporadas sean correctas, entonces se considerará fn. Si alguna de las relaciones incorporadas es incorrecta será considerada fp, independientemente de si se han incorporado todas las existentes. Finalmente, se considerará vn si no se ha incorporado ninguna relación y, efectivamente, no existiese ningún mapeado establecido en el módulo ML.

• Relaciones semánticas: se comprobará que se incorpore correctamente la información de las relaciones semánticas de SNOMED-CT para el concepto mapeado de mayor tipo y score. Esto es, que si se utiliza la relación entre el medicamento y su vía de administración, ésta ha sido correctamente incorporada a la instancia adecuada de la clase ‘Medicamento’ (ver Tabla 7.2), y que el destino de esta relación es una instancia de OntoFIS válida, y que ésta no se encuentra duplicada en cuanto a su semántica. Sólo se considerará vp si todas las relaciones semánticas han sido incorporadas correctamente, y éstas pertenecen al mapeado de mayor tipo y score. Si falta alguna de las relaciones por incorporar y, de las incorporadas, todas son correctas, entonces se considerará fn. Si alguna de las relaciones incorporadas es incorrecta será considerada fp, independientemente de si se han incorporado todas las existentes. Finalmente, se considerará vn si no se ha incorporado ninguna relación y, efectivamente, no existiese ningún mapeado establecido en el módulo ML.

• Resultado de mapeados: se comprobará que se incorpore correctamente la información del mapeado procedente del módulo ML. Sólo se considerará vp si todas las relaciones semánticas han sido incorporadas correctamente. Si falta alguna de las relaciones por incorporar y, de las incorporadas, todas son correctas, entonces se considerará fn. Si alguna de las relaciones incorporadas es incorrecta será considerada fp, independientemente de si se han incorporado todas las existentes. Finalmente, se considerará vn si no se ha incorporado ninguna relación y, efectivamente, no existiese ningún mapeado establecido en el módulo ML.

Finalmente, al margen de los resultados anteriores, se comprobará que la ontología generada es correcta desde un punto de vista estructural, utilizando las comprobaciones descritas en el apartado 7.5 de este capítulo.

7.6.3 Resultados

En la Tablas 7.3-7.8 se muestran los resultados obtenidos en la experimentación de las pruebas piloto. Los resultados se han dividido, como en anteriores pruebas piloto, por principio activo y, dentro de ellos se diferencia entre aquellos que presentan un


! 127!

único principio activo (denominados ‘mono’, los cuales representan el 89,04% del total de la muestra) y aquellos con dos o más principios activos (‘multi’, 10,96%).

En la Tabla 7.3 se muestran los resultados correspondientes al atributo “nombre especialidad”. En dicha tabla se observa que en todos los casos el atributo ha sido incorporado satisfactoriamente, y que éste ha sido incorporado a todas las instancias procesadas. Para la columna de los medicamentos multiingredientes con principio activo ‘metamizol’ no ha sido posible calcular ningún resultado debido a que no se ha utilizado ningún medicamento donde se combinase este principio activo con ningún otro.

Tabla 7.3. Resultados y métricas de la ampliación automática de OntoFIS respecto al atributo “nombre especialidad” (apartado 7.6.2).


Mono

Multi Mono

+ Multi

vp 154 42 171 6 65 0 390 48 438 vn 0 0 0 0 0 0 0 0 0 fp 0 0 0 0 0 0 0 0 0 fn 0 0 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0 0 0

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 100% 100% 100% 100% - 100% 100% 100% P 100% 100% 100% 100% 100% - 100% 100% 100% Es 100% 100% 100% 100% 100% - 100% 100% 100% Ex 100% 100% 100% 100% 100% - 100% 100% 100%

VPN 100% 100% 100% 100% 100% - 100% 100% 100% Nota aclaratoria: Los medicamentos procesados se han separado por principio activo y, a su vez, dependiendo de si tienen un solo ingrediente (mono) o varios (multi). En cada fila se muestran los resultados evaluados como verdaderos positivos (vp), falsos positivos (fp), verdaderos negativos (vn), falsos negativos (fn), los que no han podido evaluarse (-), el total de mapeados evaluados (Total), la cobertura (C), precisión (P), especificidad (Es), exactitud (Ex) y valor predictivo negativo (VPN) alcanzados.

En la Tabla 7.4 se muestran los resultados correspondientes al atributo “nombre implícito” (apartado 7.6.2). Al igual que en el caso anterior, se comprueba que en todos los casos el atributo ha sido incorporado satisfactoriamente, y que éste ha sido incorporado a todas las instancias procesadas.


!128!

Tabla 7.4. Resultados y métricas de la ampliación automática de OntoFIS respecto al atributo “nombre implícito” (apartado 7.6.2).


Mono

Multi Mono

+ Multi

vp 154 42 171 6 65 0 390 48 438 vn 0 0 0 0 0 0 0 0 0 fp 0 0 0 0 0 0 0 0 0 fn 0 0 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0 0 0

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 100% 100% 100% 100% - 100% 100% 100% P 100% 100% 100% 100% 100% - 100% 100% 100% Es 100% 100% 100% 100% 100% - 100% 100% 100% Ex 100% 100% 100% 100% 100% - 100% 100% 100%


En la Tabla 7.5 se muestran los resultados referentes a la inclusión de las relaciones semánticas explícitas entre las instancias de las clases de OntoFIS ‘Medicamento’ y ‘Edad’ (referente a la población objetivo del medicamento). En esta ocasión también se han obtenido unos resultados de verdadero positivo para todas las instancias, y se confirma que éste ha sido incorporado a todas las instancias procesadas.

Tabla 7.5. Resultados y métricas de la ampliación automática de OntoFIS respecto a la inclusión de las relaciones semánticas explícitas entre las instancias de Medicamento y de Edad.


Mono

Multi Mono

+ Multi

vp 154 42 171 6 65 0 390 48 438 vn 0 0 0 0 0 0 0 0 0 fp 0 0 0 0 0 0 0 0 0 fn 0 0 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0 0 0

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 100% 100% 100% 100% - 100% 100% 100% P 100% 100% 100% 100% 100% - 100% 100% 100% Es 100% 100% 100% 100% 100% - 100% 100% 100% Ex 100% 100% 100% 100% 100% - 100% 100% 100%



! 129!

En la Tabla 7.6 se muestran los resultados referentes a la inclusión de las relaciones semánticas explícitas entre las instancias de las clases de OntoFIS ‘Medicamento’ y de ‘VíaAdministracion’.

Tabla 7.6. Resultados y métricas de la ampliación automática de OntoFIS respecto a la inclusión de las relaciones semánticas explícitas entre las instancias de Medicamento y de ViaAdministracion.


Mono

Multi Mono

+ Multi

vp 143 40 171 6 55 0 369 46 415 vn 11 2 0 0 10 0 21 2 23 fp 0 0 0 0 0 0 0 0 0 fn 0 0 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0 0 0

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 100% 100% 100% 100% - 100% 100% 100% P 100% 100% 100% 100% 100% - 100% 100% 100% Es 100% 100% 100% 100% 100% - 100% 100% 100% Ex 100% 100% 100% 100% 100% - 100% 100% 100%


En la Tabla 7.7 se muestran los resultados referentes a la inclusión de las relaciones jerárquicas entre las instancias de las clases de OntoFIS ‘Medicamento’ y los correspondientes conceptos de SNOMED-CT, en base a la jerarquía extraída. Para la columna de los medicamentos multiingredientes con principio activo ‘ibuprofeno’ no se contaba con ningún medicamento de estas características. En estos casos la herramienta no ha devuelto resultado, pero puesto que no se conoce el resultado correcto, estos casos no pueden ser evaluados como verdaderos o falsos negativos.


!130!

Tabla 7.7. Resultados y métricas de la ampliación automática de OntoFIS respecto a la inclusión de las relaciones jerárquicas entre las instancias de Medicamento y SNOMED-CT.


Mono

Multi Mono

+ Multi

vp 117 6 120 0 0 0 237 6 243 vn 37 1 51 0 65 0 153 1 154 fp 0 0 0 0 0 0 0 0 0 fn 0 0 0 0 0 0 0 0 0 - 0 35 0 6 0 0 0 41 41

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 100% 100% - - - 100% 100% 100% P 100% 100% 100% - - - 100% 100% 100% Es 100% 100% 100% - 100% - 100% 100% 100% Ex 100% 100% 100% - 100% - 100% 100% 100%

VPN 100% 100% 100% - - - 100% 100% 100% Nota aclaratoria: Los medicamentos se han separado por principio activo y, a su vez, dependiendo de si tienen un solo ingrediente (mono) o varios (multi). En cada fila se muestran los resultados evaluados como verdaderos positivos (vp), falsos positivos (fp), verdaderos negativos (vn), falsos negativos (fn), los que no han podido evaluarse (-), el total de mapeados evaluados (Total), la cobertura (C), precisión (P), especificidad (Es), exactitud (Ex) y valor predictivo negativo (VPN) alcanzados.

Finalmente, en la Tabla 7.8 se muestran los resultados referentes a la inclusión de las relaciones semánticas entre las instancias de las clases de OntoFIS ‘Medicamento’ y los correspondientes conceptos de SNOMED-CT, utilizando la relación correspondiente al tipo de mapeado establecido.


! 131!

Tabla 7.8. Resultados y métricas de la ampliación automática de OntoFIS respecto a la inclusión de las relaciones semánticas entre las instancias Medicamento y SNOMED-CT.


Mono

Multi Mono

+ Multi

vp 149 7 165 0 0 0 314 7 321 vn 5 0 6 0 65 0 76 0 76 fp 0 0 0 0 0 0 0 0 0 fn 0 0 0 0 0 0 0 0 0 - 0 35 0 6 0 0 0 41 41

TOTAL 154 42 171 6 65 0 390 48 438 C 100% 100% 100% - - - 100% 100% 100% P 100% 100% 100% - - - 100% 100% 100% Es 100% 100% 100% - 100% - 100% 100% 100% Ex 100% 100% 100% - 100% - 100% 100% 100%

VPN 100% 100% 100% - - - 100% 100% 100% Nota aclaratoria: Los medicamentos se han separado por principio activo y, a su vez, dependiendo de si tienen un solo ingrediente (mono) o varios (multi). En cada fila se muestran los resultados evaluados como verdaderos positivos (vp), falsos positivos (fp), verdaderos negativos (vn), falsos negativos (fn), los que no han podido evaluarse (-), el total de mapeados evaluados (Total), la cobertura (C), precisión (P), especificidad (Es), exactitud (Ex) y valor predictivo negativo (VPN) alcanzados.

7.6.4 Discusión

En las Tablas 7.3 – 7.5 se puede observar que el total de las instancias han obtenido resultados de verdaderos positivos, independientemente del número de ingredientes que las componen o de los mapeados encontrados. Esto es debido a que la información tratada en estas ampliaciones (nombre de especialidad simplificada, nombre implícito y población objetivo, respectivamente) proviene del módulo de Equiparación de Granularidades (EG), y está disponible para todas las instancias, ya que proviene del propio nombre de especialidad, y éste siempre está presente o, cuando no lo está, se deduce (este es el caso de la población objetivo, que se supone que se refiere al conjunto de población ‘adultos’).

En la Tabla 7.6 se analiza la capacidad de la herramienta para incluir la información acerca de la vía de administración. Aunque esta información también proviene directamente del módulo EG, no todas las instancias procesadas han sido evaluadas como vp, apareciendo algunos verdaderos negativos (vn). Por ejemplo, para la forma farmacéutica “gotas” no se puede deducir si su vía de administración es oral, tópica, ocular… En estos casos, si la herramienta no ha agregado ningún tipo de información a OntoFIS se considera vn, ya que elegir cualquiera de las posibilidades sería incorrecto (falso positivo).

En el caso de las relaciones jerárquicas (Tabla 7.7) sólo 243 de los 438 medicamentos han sido evaluados como verdaderos positivos, debido a que tan sólo en esos casos se ha establecido un mapeado de tipo equivalente o proporcional. En 154 casos los mapeados han sido establecidos como similares o comparables, mientras que


!132!

en 41 casos (todos relativos a multiingredientes) no ha sido posible conocer si la información debía ser incorporada o no, debido a ambigüedades o falta de información.

Por último, en la Tabla 7.8 se muestran los resultados de la inclusión de los mapeados del módulo de ML como relaciones semánticas hacia SNOMED-CT. En este caso no se ha incluido ningún tipo de información para 111 instancias. Entre éstas, en 76 se ha establecido que ha sido adecuada dicha falta de inclusión, debido a que no es posible mapear las instancias con ningún concepto o conjunto de conceptos de SNOMED-CT, por lo que han sido evaluadas como verdaderos negativos. Las 35 restantes no han podido ser evaluadas debido a falta de información.

Aunque estos resultados no pueden establecerse como significativos, debido a que se han alcanzado mediante una prueba piloto sin una significancia estadística, pueden observarse resultados con significancia estadística para este módulo en el apartado 8.4.3 del Capítulo 8.

7.6.5 Conclusiones

Con estas pruebas se ha demostrado que la aproximación elegida para añadir información semántica a la ontología OntoFIS a partir de los resultados de los módulos EG y ML es eficaz.

Esta aproximación ha permitido enriquecer la ontología farmacológica OntoFIS de forma totalmente automática, obteniendo unos resultados del 100% en todas las medidas evaluadas, y en todas las pruebas realizadas.

Sin embargo, en la evaluación de la ampliación se ha detectado que, al incluir los principios activos en OntoFIS, para algunos medicamentos aparece más de una instancia de la clase PrincipioActivo estableciéndose como componentes de dicha instancia. Si bien esta definición no es incorrecta desde un punto de vista estructural, ni inconsistente desde un punto de vista ontológico, modifica una de las premisas de la ontología, ya que esta ontología fue poblada de forma que cada instancia de medicamento sólo estuviese asociada a una instancia de principio activo. Esta instancia de principio activo podía contener la información de uno o varios ingredientes, dependiendo del medicamento con el que se relacionase. Este problema aparece debido a que en SNOMED-CT es habitual que los medicamentos multiingredientes mantengan relaciones semánticas explíticas con cada uno de sus ingredientes por separado, en lugar de una única instancia que los englobe a todos. Es decir, que mientras que en OntoFIS un medicamento con tres ingredientes sólo tendrá una relación semántica con una instancia de la clase ‘PrincipioActivo’, en SNOMED-CT dicho medicamento tendría tres relaciones del tipo “tiene como componente activo” con tres conceptos diferentes.

Por otro lado, también se ha detectado que en ciertos casos se han creado instancias cuya semántica ya existe en OntoFIS, aunque con un léxico diferente. Por ejemplo, el ingrediente “acetaminofeno” utilizado en SNOMED-CT como sustancia de ciertos VMP, en OntoFIS ya existe, pero con la etiqueta “paracetamol”. Esta


! 133!

equivalencia léxica, aunque sí existe en SNOMED-CT, sólo está explicitada en el concepto de la rama “producto biológico/farmacéutico”, pero no en el concepto de la rama “sustancia” (ver Figura 7.2), que es el utilizado como destino de la relación de SNOMED-CT “tiene como componente activo” (ver Tabla 7.2). De esta forma, no es posible para el método automático detectar que su semántica es la misma, creando así una duplicidad semántica en OntoFIS. Esto puede observarse claramente en la Figura 7.2, donde el concepto “acetaminofeno” de la rama “sustancia” no está relacionado directamente con el concepto “paracetamol” de la rama “producto biológico/farmacéutico” (hiperónimo de la representación VTM) mediante ningún tipo de relación semántica.

8. Validación de la propuesta

En este capítulo se detalla la prueba completa llevada a cabo para comprobar, con una muestra aleatoria, los resultados de esta propuesta. Tal y como se explicó en el apartado 3.3 del Capítulo 3, para esta prueba se realizó una experimentación con el fin de obtener una confianza en los resultados del 95%, con un margen de error del 5%. El objetivo de dicha prueba es, por tanto, establecer unos resultados sólidos sobre el funcionamiento global, validez y seguridad de la propuesta presentada, evitando el sesgo por el estudio cualitativo y las pruebas piloto en el refinamiento de los algoritmos propuestos.

Para realizar una prueba de esas características existen diversas metodologías, dependiendo del conjunto de datos de entrada. En este caso, ya que se conoce el tamaño de la población, para calcular el tamaño de la muestra se utilizará la Ecuación 8.1 detallada a continuación:

! = !1+!2(!−1)!2!"

(8.1)

En la ecuación anterior, n representa el conjunto mínimo de medicamentos a analizar para obtener una precisión z, con un error e, N representa el conjunto total de la muestra y p y q representan la varianza de la muestra.

En este estudio, se persigue obtener un nivel de significación del 95% con un error máximo del 5%. Estos son los valores más utilizados habitualmente, y conlleva un esfuerzo de comprobación manual ponderado.

Para obtener una confianza en los resultados del 95% con sólo un 5% de error, aplicando la Ecuación 8.1, el valor de z será 1,95 y el de e será 0,05. Debido a que no se conoce la varianza de la muestra, se supone un 50% de probabilidad de que funcione o no, estableciendo así que tanto p como q sean 0,5. Al contar con una población de 35782 medicamentos, el valor final de n es de 380,09, es decir, ajustando la

Capítulo 8. Validación de la propuesta.

!136!

representatividad se seleccionaron 381 medicamentos. Si se desease reducir el error hasta el 3% deberían seleccionarse 1037 medicamentos, lo cual conllevaría un esfuerzo de revisión manual excesivamente costoso.

Este capítulo comienza con los materiales utilizados en las pruebas. Seguidamente se describe el método y la experimentación realizados. A continuación se detallan los resultados obtenidos con cada uno de los módulos de la propuesta. Finalmente se discuten dichos resultados y se extraen las conclusiones parciales de esta prueba global.

8.1 Materiales

Es importante evitar la selección de medicamentos ya utilizados en las pruebas piloto de los diversos módulos para que los resultados de la prueba no estén sesgados por lo aprendido en ellas.

Para ello, en lugar de usar la versión 6.1 R7 utilizada en dichas pruebas, en esta prueba experimental se utiliza la versión 7 R2. La diferencia entre ambas versiones es la versión de la base de datos DIGITALIS utilizada en la población semi-automática de OntoFIS. Mientras que la versión 6.1 R7 de OntoFIS utilizó la versión de septiembre de 2008 de DIGITALIS, la 7 R2 de OntoFIS utilizó la versión de marzo de 2011.

El resto de materiales, SNOMED-CT y los diferentes lexicones, son los mismos que los utilizados en las pruebas piloto. La razón de que dichos materiales no se hayan modificado es que sólo la muestra usada en la terminología origen en los experimentos influye en la significancia estadística de los resultados finales.

8.1.1 Procedimiento de selección de la muestra aleatoria

Para la creación del conjunto de pruebas se ha creado un software específico que supervise la selección aleatoria de las instancias de medicamentos necesarias. Para asegurar que las instancias incluidas mantienen la representatividad requerida, sólo deben incluirse medicamentos válidos (un ejemplo de medicamento no válido es una vacuna, por ejemplo). Sin embargo, hay dificultad para establecer las características de inclusión de los medicamentos que serán aptos para el procesamiento. Por ello, en este caso, es más fácil precisar las características de exclusión, estableciendo cuatro situaciones en las que éstos medicamentos podrán ser descartados:

• Medicamentos incompletos: debido a que DIGITALIS presenta vacíos en algunos datos, la población semi-automática de OntoFIS no pudo completar la

Capítulo 8. Validación de la propuesta. !

! 137!

información de todos los medicamentos. Es por ello que en algunos casos no se dispone de la información suficiente como para generar las representaciones NES y NI en el módulo de Equiparación de Granularidades (ver Capítulos 3 y 5 para más información). Por tanto, en aquellos casos en los que se haya detectado falta de información, el software descartará dicho identificador y generará uno nuevo de forma aleatoria. Por ejemplo, para el medicamento “ALGIDOL 20 SOBRES MONODOSIS” se establece que su principio activo es “paracetamol en asociación excluyendo psicolépticos”, sin especificar qué otros principios activos forman parte de su composición, así como sus concentraciones.

• Medicamentos que contengan la palabra “vacuna” o “diálisis”. Los medicamentos con esta palabra en su nombre de especialidad o en alguno de sus ingredientes corresponden a productos hospitalarios, y se consideran fuera del ámbito de este trabajo.

• Medicamentos que contengan la palabra “suero” en su nombre de especialidad o en el nombre de alguno de sus ingredientes. Este tipo de medicamentos crean ambigüedad. Suelen estar asociados a preparados con la finalidad de hidratar al paciente, o bien como un canal abierto para medicación parenteral. También puede tratarse de un preparado a partir de un componente de la sangre, o inmunológico como anticuerpos, antídotos… etc.

• Medicamentos que contengan la palabra “fórmula” en su nombre de especialidad o en el nombre de alguno de sus ingredientes. De forma análoga al caso anterior, este tipo de medicamentos presentan ambigüedades, ya que aunque puede tratarse de una parte del medicamento, también puede referirse a fórmulas homeopáticas, farmacéuticas… etc.

• Medicamentos que contengan alguno de los siguientes acrónimos: H (cuyo significado es “uso hospitalario”) o DH (“diagnóstico hospitalario”). Estos acrónimos se refieren a medicamentos para uso exclusivo hospitalario y, por tanto, no cumplen con los objetivos de este estudio.

Para la selección de la muestra se ha utilizado la función “random” de la librería “java.util” incorporada en la versión 1.7_12 de Java, que genera números aleatorios a partir de un rango determinado. A continuación se ha creado una copia de la versión 7 R2 que será la utilizada como base para la prueba. Sobre esta copia se han eliminado aquellos medicamentos cuyo identificador era diferente de la selección aleatoria generada. De esta forma se ha obtenido una copia completa de OntoFIS para todas las clases, a excepción de la de ‘Medicamento’, la cual quedó poblada únicamente por 381 instancias.

En la Figura 8.1 puede observarse un diagrama con el funcionamiento general del método de selección aleatoria simple con filtrado previo de la selección.


!138!

Figura 8.1. Diagrama del método de selección aleatoria simple con filtrado previo de la selección.

Como resultado del método descrito, se han generado 381 identificadores de medicamentos de forma aleatoria simple, descartando de antemano un total de 227 por incumplimiento de alguno de los criterios de exclusión establecidos. Los identificadores obtenidos han estado comprendidos entre el 0 y el 35781, que corresponden respectivamente al menor y mayor identificador existentes en la versión 7 R2 de OntoFIS. Puesto que en esta versión de OntoFIS todos los identificadores se han creado secuencialmente, no ha ocurrido ninguna situación en la que se haya generado un identificador no existente.

Al analizar individualmente los 381 medicamentos escogidos al azar, se ha comprobado que 26 de ellos corresponden a medicamentos con más de un principio activo (multiingredientes), lo cual representa un 6,82%25 del total de la muestra. Como se comentó en anteriores capítulos, la información existente en las versiones utilizadas de la base de datos DIGITALIS es incompleta para este tipo de medicamentos, faltando tanto nombres de ingredientes como concentraciones. Por ello ha sido necesario recurrir a búsquedas manuales en recursos especializados como Vademécum26, y poder completar así la información faltante, aunque sólo ha sido posible completar toda la información en dos de ellos.

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

25 Este nivel de representatividad es ligeramente inferior al encontrado en las pruebas piloto, donde los medicamentos multi-ingrediente tenían una representatividad del 10,96%. 26 Es el nombre que recibe el compendio nacional de especialidades farmacéuticas comercializadas en España.


! 139!

En el siguiente apartado se detallan los resultados obtenidos en la experimentación, tanto para los medicamentos monoingredientes como los multiingredientes.

8.2 Resultados

Los resultados se dividirán en tres bloques, de forma que se evaluarán las competencias de cada uno de los módulos. Es importante destacar que los resultados, aunque se detallen por funciones de los módulos, se tratan de forma global al sistema. Esto implica que los errores cometidos en un módulo también aparecerán como errores en los módulos siguientes. Así pues, si por ejemplo el módulo de Equiparación de Granularidades (EG) produce un error al generar la representación NI de un medicamento, esto será considerado como un error (falso positivo o falso negativo), y este medicamento también provocará errores en los módulos de Mapeado Léxico (ML) y de Ampliación Automática de OntoFIS (AAO).

8.2.1 Equiparación de granularidades

Los resultados de equiparación de granularidades pueden observarse en la Tabla 8.1 mostrada a continuación. En ella se representan los valores de verdadero positivo (aquellas representaciones generadas correctamente), falso positivo (aquellas representaciones generadas de forma incorrecta), falso negativo (aquellos medicamentos donde no se ha generado representación), junto con los resultados de cobertura, precisión, exactitud y medida F alcanzadas, tanto para los medicamentos con un único ingrediente como aquellos con varios. Nótese que, puesto que todos los medicamentos son susceptibles de tener una representación implícita (NI), no se ha considerado (ni ha existido) el caso donde un medicamento pudiese no tener ninguna representación NI válida y ser, por tanto, verdadero negativo. Por esta misma razón no es aplicable calcular el Valor Predictivo Negativo (VPN) ni la especificidad.

En el caso de los medicamentos con un único principio activo, se han obtenido una cobertura y exactitud del 99,44%, con una precisión del 100% y un valor F del 99,72%.

En el caso de los multiingredientes se han podido generar un total de dos Nombres Implícitos correctos, lo que supone alcanzar una cobertura del 7,69%, una precisión del 100%, una exactitud del 7,69% y un valor F del 14,29%.

De forma global, independientemente de los ingredientes, se ha obtenido una cobertura y exactitud del 93,16%, una precisión del 100% y un valor F del 96,47%.


!140!

Tabla 8.1. Resultados de las evaluaciones de equiparación de granularidades. Monoingrediente Multiingrediente TOTAL verdadero positivo 353 2 355 falso positivo 0 0 0 falso negativo 2 24 26 TOTAL 355 26 381 Cobertura 99,44% 7,69% 93,16% Precisión 100% 100% 100% Exactitud 99,44% 7,69% 93,16% Valor F 99,72% 14,29% 96,47%

8.2.2 Mapeados léxicos

Respecto a los medicamentos monoingredientes, que suponen un 93,18% del total de la muestra, se ha obtenido un resultado de verdadero positivo para 301 de ellos, mientras que 48 han sido evaluados como verdaderos negativos y 6 como falsos negativos, tal y como se detalla en la Tabla 8.2.

Tabla 8.2. Resultados de medicamentos monoingredientes y su representatividad en la muestra.

Monoingrediente Cantidad verdadero positivo 301 verdadero negativo 48 falso positivo 0 falso negativo 6 TOTAL 355 Cobertura 98,05% Precisión 100% Especificidad 100% Exactitud 98,31% Valor Predictivo Negativo (VPN) 88,89% Medida F 99,01%

Estos resultados representan, como se muestra en la Tabla 8.2, una cobertura del 98,05%, una precisión y especificidad del 100%, exactitud de 98,31%, valor predictivo negativo de 88,89% y la medida F alcanza un valor de 99,01%.

Respecto a los 349 medicamentos monoingredientes cuyo mapeado ha sido evaluado verdadero positivo (en 301 casos existe un mapeado y éste es correcto) y como verdadero negativo (en 48 casos no se estableció mapeado, y es correcto), a continuación se muestra la relación de los diferentes niveles de especificidad máximos encontrados. Es necesario recordar que, por orden de grado de similitud decreciente, los diferentes niveles de mapeado son: (i) equivalente, (ii) proporcional, (iii) similar y (iv) comparable. Finalmente, si no se ha encontrado un mínimo de similitud se establecen como no equivalentes. Estos resultados pueden verse en la Tabla 8.3.


! 141!

Tabla 8.3. Máximos grados de similitd en mapeados correctos de medicamentos monoingredientes.

Máximo grado similitud establecido Cantidad Representatividad Equivalente 186 53,30% Proporcional 23 6,59% Similar 32 9,17% Comparable 60 17,20% Sin mapeado 48 13,73% TOTAL 349 100% Nota aclaratoria: Se considera como resultado correcto aquel evaluado como verdadero positivo o verdadero negativo.

En la siguiente figura se muestra de forma gráfica la proporcionalidad entre los máximos grados de similitud establecidos en los 349 resultados positivos producidos, correspondientes a los datos de la tabla anterior.

Nota aclaratoria: Se considera como resultado correcto aquel evaluado como verdadero positivo o verdadero

negativo.

Figura 8.2. Gráfica de los máximos grados de similitud en mapeados correctos de medicamentos

monoingredientes.

En total, un 53,30% de los medicamentos monoingredientes mapeados correctamente ha sido establecido como equivalente de, al menos, una descripción de SNOMED-CT del tipo VMP (Virtual Medicinal Product). Un 6,59% de ellos ha sido establecido como proporcional a alguna descripción de SNOMED-CT como máximo grado de similitud. Un 9,17% ha sido establecido como similar, mientras que en un 17,20% de los casos se ha debido aumentar la granularidad para establecer el grado de similitud comparable entre el medicamento analizado y una o varias descripciones de SNOMED-CT. Finalmente, en un 13,73% de los casos no ha sido posible establecer ningún tipo de mapeado.

0! 20! 40! 60! 80! 100! 120! 140! 160! 180! 200!

No!equivalente!

Comparable!

Similar!

Proporcional!

Equivalente!

Máximos(niveles(de(equivalencia(establecidos(


!142!

Respecto a los medicamentos multiingredientes, que suponen un 6,82% del total de la muestra, se ha obtenido un resultado de verdadero positivo para uno de los multiingredientes, y verdadero negativo para otro de ellos. Los restantes 24 no han podido ser mapeados debido a diversos problemas, como se muestra en la Tabla F.2 del Anexo F.

Tabla 8.4. Resultados de medicamentos multiingredientes y su representatividad en la muestra.

Multiingrediente Cantidad verdadero positivo 1 verdadero negativo 1 falso positivo 0 falso negativo 24 TOTAL 26 Cobertura 4,00% Precisión 100% Especificidad 100% Exactitud 7,69% Valor Predictivo Negativo (VPN) 4,00% Medida F 7,69%

Por tanto, como se muestra en la Tabla 8.4, el valor de cobertura y valor predictivo negativo alcanzado han sido del 4%, la exactitud y medida F han sido del 7,69%, mientras que la precisión y especificidad son del 100%.

Finalmente, si no se hace distinción entre el número de ingredientes que componen a los medicamentos, los resultados obtenidos han sido: una cobertura del 90,96%, una precisión y especificidad del 100%, una exactitud del 92,13% y, en cuanto al VPN, se logró únicamente un 62,03%. Respecto al valor balanceado entre cobertura y precisión, Valor F, se alcanzó un 95,27%. Estos resultados pueden observarse en la Tabla 8.5.

Tabla 8.5. Resultados y métricas de los mapeados de la muestra entre OntoFIS y SNOMED-CT.

Total verdadero positivo 302 falso positivo 49 falso negativo 30 TOTAL 381 Cobertura 90,96% Precisión 100% Especificidad 100% Exactitud 92,13% VPN 62,03% Valor F 95,27% Nota aclaratoria: valor predictivo negativo (VPN)


! 143!

8.2.3 Ampliación automática de OntoFIS

Este resultado corresponde a las competencias del módulo AAO (Capítulos 3 y 7), y se evalúa en siete aspectos diferentes:

1. Modificación del núcleo de OntoFIS.

2. Inclusión de NES y NI.

3. Inclusión de la población objetivo.

4. Inclusión de la vía de administración.

5. Inclusión de la jerarquía de SNOMED-CT.

6. Inclusión de las relaciones extraídas de los mapeados.

7. Inclusión de los mapeados.

8. Validación manual de la ontología generada.

Los resultados de cada uno de los aspectos se muestran en las Tablas 8.6 y 8.7. En la Tabla 8.6 se muestran los resultados contabilizando sus valores como verdadero positivo (vp), verdadero negativo (vn), falso positivo (fp) y falso negativo (fn), mientras que en la Tabla 8.7 se contabiliza su cobertura (C), precisión (P), especificidad (Es), exactitud (Ex), valor predictivo negativo (VPN) y medida F (F-1).

Tabla 8.6. Resultados de las evaluaciones de la ampliación automática de la ontología OntoFIS.

vp vn fp fn TOTAL Inclusión de NES y NI 354 0 0 26 381 Inclusión de la población objetivo 379 0 0 2 381 Inclusión de la vía de administración. 343 36 0 2 381 Inclusión de la informacón jerárquica de SNOMED-CT 302 49 0 30 381 Inclusión de las relaciones extraídas de los mapeados 257 49 73 2 381 Inclusión de los mapeados 302 49 0 30 381 Nota aclaratoria: Se han comprobado 8 aspectos diferentes de la evaluación en cuanto a sus valores verdadero positivo (vp), verdadero negativo (vn), falso positivo (fp) y falso negativo (fn).

En la Tabla 8.6 se muestran los resultados para cada uno de los 8 aspectos anteriormente comentados. En el caso de modificación del núcleo de OntoFIS y validación manual de la ontología generada no se ha detectado ningún problema. En el caso de inclusión de nombre de especialidad simplificado (NES) e implícito (NI) no se han incorporado para los dos medicamentos monoingredientes y los 24 multiingredientes para los que el módulo no pudo generar esta información (marcados como falsos negativos en la Tabla 8.6). En el caso de la población objetivo, sólo ha habido error para los dos medicamentos monoingredientes que produjeron error en el


!144!

módulo EG. Lo mismo ha ocurrido en la inclusión de la vía de administración y jerarquía de SNOMED-CT. En el caso de la vía de administración han sido 36 los medicamentos donde no se ha incorporado por ser ésta ambigua, mientras que la jerarquía no se ha incorporado a 49 medicamentos debido a falta de un mapeado con suficiente grado de similitud. En el caso de las relaciones extraídas de OntoFIS se han producido 49 verdaderos negativos debido a los medicamentos no mapeados, 2 falsos negativos por los dos medicamentos monoingredientes que produjeron error en el módulo EG, y 73 falsos positivos, debidos a los problemas identificados en la Tabla F.3 del Anexo F. Finalmente, en la inclusión de los mapeados, los resultados han sido los mismos que en el caso de las jerarquías.

En la Tabla 8.7 se muestran los resultados expresados según las seis métricas de evaluación. Debido a la falta de verdaderos negativos no han podido calcularse las métricas de especificidad ni de valor predictivo negativo, como también ha ocurrido en la inclusión del nombre de especialidad simplificado (NES) y el Nombre Implítico (NI) y la de la población objetivo. En el caso de la inclusión del NES y del NI se ha obtenido una cobertura y exactitud del 93,18%, una precisión del 100% y una F-1 del 96,47%. En el caso de la inclusión de la población objetivo se ha obtenido una cobertura y exactitud del 99,48%, una precisión del 100% y una F-1 del 99,74%. En cuanto a la vía de administración y su inclusión en OntoFIS, se ha obtenido una cobertura del 99,42%, una precisión y especificidad del 100%, una exactitud del 99,48%, el valor predictivo negativo del 94,74% y F-1 de 99,71%. Para la evaluación tanto de la inclusión de la jerarquía de SNOMED-CT como de los mapeados obtenidos, la cobertura alcanzada ha sido del 90,96%, con una precisión y especificidad del 100%, una exactitud del 92,13%, el valor predictivo negativo del 62,03% y con un valor F de 95,27%. Finalmente, para la inclusión de las relaciones extraídas de los mapeados se ha obtenido una cobertura del 99,23%, una precisión del 77,88%, una especificidad del 40,16%, una exactitud del 80,31%, valor predictivo negativo de 96,08% y medida F de 87,27%.

Tabla 8.7. Métricas de las evaluaciones de la ampliación automática de la ontología OntoFIS.

C P Es Ex VPN F-1 Inclusión de nombre de especialidad simplificado y NI

93,18% 100% - 93,18% - 96,47%

Inclusión de la población objetivo. 99,48% 100% - 99,48% - 99,74% Inclusión de la vía de administración. 99,42% 100% 100% 99,48% 94,74% 99,71% Inclusión de la información jerárquica de SNOMED-CT

90,96% 100% 100% 92,13% 62,03% 95,27%

Inclusión de las relaciones extraídas de los mapeados

99,23% 77,88% 40,16% 80,31% 96,08% 87,27%

Inclusión de los mapeados 90,96% 100% 100% 92,13% 62,03% 95,27% Nota aclaratoria: Se han comprobado 8 aspectos diferentes de la evaluación, en cuanto a su cobertura (C), precisión (P), especificidad (Es), exactitud (Ex), valor predictivo negativo (VPN) y valor F (F-1).


! 145!

8.3 Discusión

En los diferentes apartados de esta sección se discutirán los resultados obtenidos en el apartado 8.2, estructurándolos de la misma forma en la que fueron evaluados los resultados de la prueba.

En este apartado se procede a analizar la causa de los errores ocurridos en alguno de los módulos de la propuesta. Este análisis permitirá detectar dónde y cómo aplicar los esfuerzos en trabajos futuros, para así perfeccionar el funcionamiento de la herramienta.

En la Tabla F.3 (Anexo F) se detallan los problemas encontrados, especificando las instancias que muestran dichos problemas y el porqué de cada problema, y se proponen soluciones específicas para cada uno de ellos.

Los principales errores fueron debidos a abreviaturas desconocidas, a la semántica de ciertas expresiones como “asociado a”, que son utilizadas para separar nombres de ingredientes y falta de conocimiento en cuanto a los principios activos de los medicamentos o sus concentraciones.

8.3.1 Equiparación de granularidades

La evaluación de la equiparación de granularidades corresponde a las funcionalidades del módulo EG de la propuesta (Capítulos 3 y 5). En esta prueba se han obtenido unos resultados del 99,44% de cobertura y 100% de precisión, especificidad y exactitud para los medicamentos monoingredientes, lo cual establece una muestra prácticamente libre de fallos para el módulo de mapeado léxico. Tan sólo en dos ocasiones no se ha creado ninguna representación de NI para un medicamento, y esto ha sido debido a que las etiquetas de los medicamentos correspondían a patrones desconocidos, muy diferentes tanto de los observados inicialmente como de las posibles variaciones esperadas.

En el caso de los multiingredientes, debido a la falta de conocimiento que existe acerca de su composición, la cobertura ha sido tan sólo del 7,69%, manteniendo la precisión en un 100%. Esta falta de conocimiento hace que el error se perpetúe. Para solucionar esta falta de cobertura será necesario ampliar el conocimiento semántico disponible con nuevas fuentes de información, o versiones más modernas que contengan más conocimiento. Además, como se comenta en las Tablas F.1 y F.2 del Anexo F, también se debe modificar la propuesta con nuevas funcionalidades léxicas, como entender que los términos “asociado a” o “con” tienen la misma semántica que los símbolos de suma (‘+’) o la barra inclinada (‘/’).

Si se comparan los resultados de pruebas piloto con la prueba experimental puede observarse que se han conseguido mejorar los resultados previos de la cobertura, manteniendo la precisión del 100%. Mientras que en las pruebas piloto del módulo EG


!146!

se obtuvo una cobertura del 90,41% para el conjunto total del experimento (Tabla 5.11 del Capítulo 5), en este caso ésta ha sido del 93,16%.

8.3.2 Mapeados léxicos

Respecto a los medicamentos monoingredientes, sólo en 6 instancias de las 355 procesadas de este tipo se ha producido un error. Sin embargo, dos de estos errores provienen del módulo EG, por lo que este módulo es sólo responsable de 4 de los 6 errores detectados hasta este punto del procesamiento. Con todo ello, los resultados obtenidos han sido satisfactorios, estando a la altura de las pruebas piloto realizadas sobre este módulo (ver Capítulo 6). El resultado de cobertura ha sido del 98,05%, la precisión y especificidad se han mantenido en un 100%, mientras que la exactitud ha obtenido un 98,31% y la medida F un 99,01%.

En cuanto a los medicamentos multiingredientes, la cobertura se ha mantenido en un 4%, con una precisión del 100%. Estos resultados han sido muy bajos puesto que en sólo 2 de los 26 casos se disponía de la información necesaria para realizar mapeados completos. Por tanto, en los otros 24 casos, según el funcionamiento actual de la propuesta, no era posible obtener resultados positivos en los mapeados. Para solucionar esta falta de cobertura será necesario ampliar el conocimiento semántico disponible con nuevas fuentes de información, o versiones más modernas que contengan más conocimiento. Otra posible solución, como se ha comentado en las Tablas F.1 y F.2 del Anexo F, pasa por modificar el funcionamiento actual de la propuesta, permitiendo mapeados parciales y no sólo totales, de forma que si para un medicamento multiingrediente sólo se conoce uno de sus ingredientes, se realice un mapeado utilizando únicamente éste, y produciendo una salida especial para el experto humano. Además, este tipo de mapeados parciales también condicionarán el funcionamiento del siguiente módulo.

Si se tienen en cuenta todos los medicamentos, la cobertura total alcanzada es del 90,96%, manteniendo una precisión del 100%. Estos resultados mejoran ligeramente a los obtenidos en las pruebas piloto previas (88,9% de cobertura y 100% de precisión, Tabla 6.8 del Capítulo 6) y permiten afirmar que la propuesta arroja resultados correctos para todos los mapeados establecidos, ofreciendo un elevado grado de seguridad. Estos resultados son similares, e incluso superiores a los obtenidos por otras propuestas, tanto en idioma castellano como en lengua inglesa, donde existen muchos más recursos y herramientas que para castellano.

En idioma castellano, los resultados obtenidos han conseguido superar a los de otros trabajos, como el de Castro y equipo (2010), donde reportaban un 9% de cobertura y 72% de precisión, llegando también a superar al método manual de Farfán y equipo (2009), donde obtuvieron una cobertura del 78%.

Comparando el presente estudio con los trabajos analizados en lengua inglesa en el Capítulo 2, se ha logrado mejorar los resultados respecto a aquellos que han


! 147!

empleado métodos tanto basados en la estructura, como los basados en léxica o en mapeados existentes. En el primer grupo, los mejores resultados son los arrojados por el estudio de Phatak y Chute (2010), donde han sido capaces de mapear el 46% de los fármacos existentes en RxNorm con NDF-RT y, en sentido contrario, un 55% de medicamentos de NDF-RT consiguieron ser mapeados con RxNorm. En el segundo grupo los mejores resultados obtenidos son los presentados en los trabajos de Zhou y equipo (2011, 2012), donde consiguen una precisión de entre el 99,8% y el 100% y una cobertura entre el 73,9% y el 85,9% en la ejecución de diferentes experimentos. Finalmente, en el tercer grupo, Saitwal y equipo (2012) reportan resultados de cobertura del 84,34% y una precisión del 100%, aunque el 62,56% de los resultados obtenidos provienen de mapeados ya existentes entre ambas terminologías.

La comparación de resultados, tanto con estudios en lengua castellana como en lengua inglesa, puede observarse en la Figura 8.3 a continuación.

Figura 8.3. Comparación de los resultados con el estado de la cuestión, tanto en lengua castellana como

en lengua inglesa, sin diferenciar la composición de los medicamentos.

8.3.3 Ampliación automática de OntoFIS

En primera instancia, se comenzó por analizar el funcionamiento tanto de la modificación del núcleo de OntoFIS como de la validación manual de la ontología generada, ya que si fallase alguno de ellos, la ontología sería inservible como base de conocimiento. En ambos casos el resultado obtenido ha sido plenamente satisfactorio.

Seguidamente, en cuanto a la adición de la información extraída en el módulo EG, como son el nombre de especialidad simplificado (NES), el nombre implícito (NI), la vía de administración y la población objetivo, su funcionamiento es satisfactorio, con

0! 10! 20! 30! 40! 50! 60! 70! 80! 90! 100!

Propuesta!presentada!

Castro!y!equipo!(2010)!

Farfán!y!equipo!(2009)!

Phatak!y!Chute!(2010)!

Zhou!y!equipo!(2011,!2012)!

Saitwal!y!equipo!(2012)!!

Comparación(de(resultados(con(el(estado(de(la(cues8ón(

Precisión! Cobertura!


!148!

valores por encima del 96% en el valor F, lo cual significa un muy alto grado de cobertura de los medicamentos procesados sin pérdida de precisión en la inclusión de los mismos en OntoFIS. En estos casos, los únicos problemas reportados han sido los dos medicamentos monoingredientes y 24 de los multiingredientes. En cuanto a los de tipo monoingrediente, el problema es debido a que no se ajustaban a ninguno de los patrones esperados, siendo imposible para la herramienta generar la plantilla de medicamento necesaria. En cuanto a los de tipo multiingrediente, los problemas son los descritos en la Tabla F.1 del Anexo F.

Respecto a la inclusión de la jerarquía de SNOMED-CT y los mapeados establecidos (información derivada del procesamiento del módulo ML), en ambos casos se han obtenido exactamente los mismos resultados, ya que los únicos problemas presentados han sido los medicamentos monoingredientes que han presentado errores ya desde el módulo EG. En estos dos aspectos, la herramienta establece valores por encima del 90% en todas las métricas, excepto en el valor predictivo negativo (VPN). Esto quiere decir que para más de 90 de cada 100 medicamentos procesados se va a incorporar correctamente en OntoFIS el conocimiento referente tanto a la jerarquía de SNOMED-CT como a los mapeados establecidos. Sin embargo, en un 38% de los casos no se incluyó información en la ontología, cuando sí debería haberse hecho (VPN del 62%). Las causas de estos problemas vienen derivadas del módulo ML, y pueden encontrarse descritas en la Tabla F.2 del Anexo F, siendo fundamentalmente problemas léxicos o por falta de conocimiento acerca de ciertos principios activos.

Finalmente, en cuanto a la inclusión de relaciones extraídas de los mapeados, se trata fundamentalmente del módulo AAO aunque, como las demás, depende de la información de los módulos anteriores. Aunque se mantiene un alto valor de F (87%), es el único aspecto evaluado donde la precisión y la especificidad no alcanzan el 100%. Esto indica que, de cada 100 medicamentos donde se han introducido relaciones semánticas, para 22 medicamentos las relaciones semánticas introducidas en OntoFIS no son completamente correctas, ya que presentan un 78% de precisión y una exactitud del 80%. Todos estos fallos vienen derivados de los errores detallados en la Tabla F.3 del Anexo F, donde destacan los problemas encontrados con términos sinónimos desconocidos. En ocasiones, en SNOMED-CT, se utilizan instancias de medicamentos como si fuesen sinónimos, como “cefotaxima sódica” y “cefotaxima”, aunque no están explicitados como tales en ningún recurso, lo que provoca errores conceptuales en la ampliación. Por ejemplo, en la instancia de medicamento 19671, con etiqueta “CEFOTAXIMA MAYNE 500MG POLVO Y DISO SOL INY IV EFG”, se ha ampliado de forma que está compuesto por las instancias “cefotaxima sódica” y “CEFOTAXIMA” de la clase PrincipioActivo, de forma que conceptualmente se trata de un medicamento multiingrediente, aunque en realidad sólo tiene un ingrediente. Además también se ha detectado el uso de términos en inglés como si se tratase de términos en castellano, tanto en DIGITALIS como en SNOMED-CT. Sin embargo, este tipo de errores es fácilmente solucionable incrementando los sinónimos existentes en los lexicones complementarios.


! 149!

Respecto a los resultados obtenidos en las pruebas piloto, los valores alcanzados para la inclusión de la población objetivo, vía de administración y las relaciones extraídas están muy próximos en cuanto a la cobertura (superior al 99% respecto al 100% de las pruebas piloto), y todos excepto la inclusión de relaciones extraídas alcanzan el 100% de precisión logrado en las pruebas piloto. Sin embargo, la inclusión del NES y el NI, la información jerárquica de SNOMED-CT y los mapeados obtenidos, aunque logran valores muy elevados (superiores al 90% en todos los casos), no consiguen llegar al 100% de cobertura alcanzada en las pruebas piloto. Este ha sido el único módulo donde las pruebas piloto han superado los resultados obtenidos en la prueba de evaluación global, y esto viene determinado por varios factores. Uno de ellos ha sido que la prueba global ha arrastrado errores desde los módulos anteriores, mientras que en las pruebas piloto esto no ocurría. Otro de los factores ha sido que en las pruebas piloto del módulo AAO, a diferencia de lo ocurrido en los otros módulos, no se encontraron errores, por lo que no se pudo realizar ninguna depuración.

8.4 Conclusiones

Como principal conclusión se puede extraer que la propuesta presentada mantiene unos niveles de cobertura y precisión similares a los observados en las pruebas piloto, y que éstos son comparables e incluso superiores a otras propuestas, tanto en idioma castellano como en lengua inglesa.

Aunque los resultados obtenidos son ampliamente satisfactorios tanto a nivel global como respecto a los medicamentos monoingredientes, en el caso de aquellos medicamentos que tienen más de un ingrediente, los resultados de cobertura han sido muy bajos, aunque equivalentes a la literatura consultada y comentada anteriormente. Analizando los resultados obtenidos se han identificado principalmente dos problemas:

1. Errores léxicos: debido a abreviaturas desconocidas y a la semántica de expresiones como “asociado a” encontradas en OntoFIS, que deben considerarse equivalentes a los símbolos de suma o barra inclinada.

2. Errores de conocimiento: debido a la carencia de conocimiento respecto a alguno de los ingredientes o concentraciones que componen el medicamento.

3. Limitación de la funcionalidad: la propuesta fue diseñada para ofrecer mapeados completos en cuatro niveles diferentes de granularidad y la ampliación automática en dichos casos.


!150!

Los dos primeros errores identificados son propios de las aproximaciones léxicas que utilizan conocimiento semántico, y la causa de estos errores es la carencia de recursos suficientemente completos para poder utilizarlos. Ésta, además, es una de las grandes dificultades del idioma castellano y específico de todo el dominio de la salud. Para solucionar estos problemas, o al menos mitigarlos, la propuesta debe ser modificada de la siguiente forma:

1. Aceptar expresiones especiales como separadores de ingredientes, como “asociado a”.

2. Ampliar los lexicones de abreviaturas.

3. Utilizar más fuentes de conocimiento, como Vademécum o corpus específicos etiquetados.

El tercer error, sin embargo, es propio de la aproximación establecida, y cuya única solución es modificar el funcionamiento de la misma de la siguiente forma:

1. Permitir mapeados parciales, creando un nuevo nivel de granularidad para ello. A su vez, este nuevo nivel de granularidad en el mapeado deberá establecer un nuevo nivel de granularidad para la ampliación automática de OntoFIS.

2. Permitir el mapeado sobre grupos de elementos farmacéuticos específicos, como vitaminas.

3. Permitir el mapeado sobre conjuntos de elementos añadiendo además la exclusión de otros, como por ejemplo en el caso de “paracetamol en asociacion exclusion psicolepticos”, deberá permitir cualquier combinación del ingrediente paracetamol con cualquier principio activo que no sea un psicoléptico. Esta funcionalidad precisaría explotar el conocimiento de la ATC y valorar la creación de un lexicón complementario.

9. MediMap: herramienta para el mapeado de terminologías y enriquecimiento de ontologías

Con el fin de mostrar de una forma gráfica el funcionamiento de la aproximación presentada en esta tesis, se ha decidido crear la herramienta denominada MediMap. Esta herramienta permite hacer una demostración del mapeado de terminologías y enriquecimiento de ontologías.

No entra por tanto en la finalidad de esta demostración la de mostrar los resultados sobre un amplio conjunto de medicamentos sino, a partir de un reducido grupo de ellos, observar parte de la casuística existente en OntoFIS.

9.1 MediMap: herramienta para el mapeado de terminologías y enriquecimiento de ontologías

Esta herramienta se encuentra disponible en la URL “http://gplsi.dlsi.ua.es/demos/medimap/”, y muestra el funcionamiento de la aproximación en tres sencillos pasos: selección de medicamentos, muestra de resultados de mapeados y muestra de resultados de enriquecimiento, comparando el código OWL antes y después de la aproximación.

Es importante remarcar que todo el proceso de la demo es automático y se realiza en tiempo real, es decir, no se ha creado ningún tipo de código especial o salidas preparadas.

Capítulo 9. MediMap: herramienta para el mapeado de terminologías y enriquecimiento de ontologías

!152!

9.1.1 Estructura

En la Figura 9.1 se puede observar un esquema de la estructura de MediMap, resaltando la interacción con la propuesta presentada en los capítulos anteriores.

En la Figura 9.1, desde arriba hacia abajo puede observarse en primer lugar las tres páginas web de MediMap que guían al usuario a través de las fases de mapeado y enriquecimiento de OntoFIS. Seguidamente se muestran las tres capas que componen la herramienta: vista, procesamiento y datos.

Nota aclaratoria: En gris claro se ha remarcado la sección de MediMap que corresponde a la propuesta presentada en

los Capítulos 3-7, formada por los módulos de E+N (Extracción de medicamentos y Normalización), EG (Equiparación de Granularidades), ML (Mapeado Léxico) y AAO (Ampliación Automática de OntoFIS).

Figura 9.1. Esquema del funcionamiento de MediMap.

En la capa de vista se procesan las peticiones de las páginas web y se crean los contenidos para ser mostrados en las siguientes páginas. En la capa de procesamiento se procesan, por un lado, los medicamentos que hayan sido seleccionados por el usuario (este procesamiento es llevado a cabo por la implementación de la propuesta), y por otro lado se recogen los mapeados generados, así como la ontología OntoFIS enriquecida. Finalmente, en la capa de datos se gestiona el acceso a las diferentes fuentes de conocimiento (recursos léxico-semánticos, SNOMED-CT y OntoFIS) y la salida proporcionada por la propuesta (OntoFIS enriquecido).

9.1.2 Demo

Para lograr un mejor entendimiento del funcionamiento de la propuesta y permitir una interfaz interactiva a modo de demostración (demo), se ha creado y

! ! Capítulo 9. MediMap: herramienta para el mapeado de terminologías y enriquecimiento de ontologías.

! 153!

desplegado una versión funcional de MediMap en los servidores del Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante, gestionados por el Grupo de Investigación en Procesamiento de Lenguaje Natural y Sistemas de Información (GPLSI).

Para esta demo se han reducido los medicamentos candidatos a ser mapeados a 12, los cuales presentan diferentes características. La lista de medicamentos disponibles puede observarse en la Figura 9.2, correspondiente a una captura de la página inicial de la demo.

Junto a cada medicamento se incluye un icono de información, el cual guía al usuario sobre las peculiaridades de cada uno de los medicamentos, avanzando cuáles serán las características que ofrecerá de cara al mapeado sobre SNOMED-CT.

Figura 9.2. Captura de la página de selección de medicamentos de la demo de MediMap.

A continuación se enumeran los medicamentos disponibles así como sus características, tanto para la etapa del mapeado con SNOMED-CT como para la etapa del enriquecimiento de la ontología OntoFIS:

• ADOLONTA 100MG/ML 10ML SOLUCION ORAL: se trata de un medicamento monoingrediente sin una equivalencia en SNOMED-CT a nivel de medicamento virtual, por lo que debe ser mapeado con una granularidad mayor, estableciéndose el tipo de mapeado en comparable. Esta comparación requiere de dos conceptos de SNOMED-CT, por lo que en la fase de enriquecimiento el mapeado aúna dos conceptos de SNOMED-CT, algo que no es habitual.


!154!

Además, en la parte de enriquecimiento se añade que la población objetivo son adultos.

• ZYPREXA 7.5 MG 56 COMPRIMIDOS: se trata de un medicamento monoingrediente que presenta todos los tipos de mapeados, a excepción del comparable. En la parte de enriquecimiento se añade que la población objetivo son adultos. Además, en la fase de enriquecimiento se añade un nuevo tipo de forma farmacéutica.

• KINET 5MG/5ML 100ML SUSPENSION: se trata de un medicamento monoingrediente en disolución, con dos mapeados posibles sobre SNOMED-CT, ambos de tipo equivalente. En cuanto al mapeado cabe destacar que las concentraciones no son proporcionales sino equivalentes (5mg/5ml es lo mismo que 1mg/ml) y, además, uno de los mapeados se establece con un concepto inactivo. Esto permite que MediMap pueda ser utilizado con sistemas que cuenten con recursos de conocimiento antiguos, y permitir así actualizarlos. En la fase de ampliación automática (enriquecimiento) se añade el mismo tipo de información que en el medicamento anterior.

• SIMVASTATINA QUALIGEN 10MG 28 COMPRI RECU PELI EFG: se trata de un medicamento monoingrediente muy comúnmente utilizado y, de hecho, existen multitud de posibles mapeados, tanto equivalentes como proporcionales, aunque en este caso no se ha establecido ningún mapeado de tipo similar o comparable. En la fase de ampliación automática se añade el mismo tipo de información que en el medicamento anterior.

• EUFILINA 360MG 10 SUPOSITORIOS: este caso es muy parecido al primero de los medicamentos, estableciendo una comparación a dos conceptos de SNOMED-CT, aunque en este caso no se trata de un medicamento con una concentración en disolución.

• PROSTIGMINE 0,5MG 6 AMPOLLAS 1ML SOLUCION INYECTABLE: en este caso el mapeado se realiza de tipo comparable sobre un único concepto de SNOMED-CT. Lo más interesante es que dicho concepto está inactivo (retired). En algunos casos es posible conocer si existe un concepto de SNOMED-CT que sustituya al concepto inactivo, aunque esa funcionalidad queda fuera de la demo de MediMap.

• CODEISAN 28,7MG 20 COMPRIMIDOS: se trata de un medicamento monoingrediente sin una equivalencia en SNOMED-CT a nivel de medicamento virtual, por lo que debe ser mapeado con una granularidad mayor, estableciéndose el tipo de mapeado en comparable. Sin embargo, a diferencia de otros medicamentos, aquí se encuentra un doble mapeado comparable. Por un lado, respecto a un único concepto de SNOMED-CT, y por otro utilizando una combinación de dos conceptos de SNOMED-CT. Este doble mapeado puede observarse en el código OWL de la versión enriquecida de OntoFIS.

• DOLGESIC CODEINA 500/15 MG 30 COMPRIMIDOS: se trata de un medicamento multiingrediente que presenta tres tipos de mapeados respecto a medicamentos virtuales en SNOMED-CT.

• PARACETAMOL PHARMAGENUS 650MG 20 COMPRIMIDOS EFG: al igual que en el caso de la simvastatina, se trata de un medicamento monoingrediente muy comúnmente utilizado y, de hecho, existen multitud de


! 155!

posibles mapeados, tanto equivalentes como proporcionales, aunque en este caso no se ha establecido ningún mapeado de tipo similar o comparable. En la fase de ampliación automática se añade tanto un nuevo rango de edad (adultos), como una nueva forma farmacéutica (comprimido para administracion oral).

• IBUFARMALID 4 % GOTAS 1 FRASCO 100ML: se trata de otro medicamento monoingrediente con una concentración en disolución pero, a diferencia de los anteriores, la concentración está expresada en porcentaje. En este caso los mapeados realizados son de tipo proporcional y similar. En la ampliación de OntoFIS, además del rango de edad “adultos” se ha establecido que su forma farmacéutica es “gotas orales”, la cual no existía en la versión original de OntoFIS.

• APIROFENO 4% FRASCO 150ML SUSPENSION ORAL: se trata de otro medicamento monoingrediente con una concentración expresada en porcentaje, y con el mismo principio activo que el anterior medicamento. En este caso los mapeados realizados son de tipo proporcional y similar, y respecto a los mismos conceptos de SNOMED-CT que en el caso del Ibufarmalid, pero curiosamente los conceptos establecidos como similares para el Ibufarmalid en este se han establecido como equivalentes, y viceversa. En la ampliación de OntoFIS, además del rango de edad “adultos” se ha establecido que su forma farmacéutica es “suspensión oral”, la cual no existía en la versión original de OntoFIS.

• TERMALFENO 200MG/5ML 100ML SUSPENSION ORAL: se trata de un medicamento monoingrediente con la concentración expresada en disolución de la misma forma que los primeros pero que obtiene exactamente los mismos mapeados que el Apirofeno, aunque a simple vista pueda parecer que sus concentraciones son completamente diferentes, debido a la forma de representarlas. Puesto que obtiene los mismos mapeados que el Apirofeno también es enriquecido de la misma forma.

Una vez seleccionados los medicamentos a ser procesados por MediMap y haber pulsado el boton de “Procesar” se mostrarán los resultados en otra página web, similar a la mostrada en la Figura 9.3.

Como se puede observar en la esquina superior derecha, aparece una pequeña imagen que representa la jerarquía de mapeados posible, siendo el de tipo equivalente el de mayor similitud semántica y el de tipo comparable el de menor.


!156!

Figura 9.3. Captura de la página de resultados de los mapeados de la demo de MediMap.

En esta nueva página también aparecen símbolos de información, los cuales sirven para explicar el resultado de los mapeados obtenidos en cada uno de los casos.

Finalmente es posible seleccionar uno de los mapeados para comparar el código OWL de OntoFIS, antes y después del proceso de enriquecimiento. Para poder realizar la comparación sólo se puede seleccionar uno de los medicamentos, si bien es posible volver atrás en el navegador para seleccionar otro diferente, volviendo a pulsar sobre el botón de “Comparar”. El código mostrado será similar al que puede verse en la Figura 9.4. Es de destacar que MediMap selecciona de forma automática únicamente los segmentos de código OWL que considera relevantes para la comparativa, ya que tanto el fichero de OntoFIS original como el ampliado cuentan con aproximadamente 20000 líneas de código.


! 157!

Figura 9.4. Captura de la página de la comparativa del código OWL de OntoFIS de la demo de MediMap.

En esta última pantalla se describe, en la parte superior, el nombre del medicamento al cual corresponde la comparativa, así como una explicación de qué nuevo conocimiento ha sido incorporado a OntoFIS (tabla derecha) respecto a la versión original (tabla izquierda).

Es importante remarcar que, aunque la versión ampliada de OntoFIS puede ser utilizada para futuras ejecuciones de la propuesta, en la demo de MediMap siempre se parte de la misma versión de OntoFIS. Ésta corresponde a la versión 6.1 R7, descrita en el punto 2.1.1 del Capítulo 2. De no utilizar siempre la misma versión en la demo de MediMap sólo podría observarse el enriquecimiento en la primera ejecución.

9.2 Conclusiones

Con esta demo de MediMap se pretende aportar una interfaz gráfica e intuitiva que permita a los usuarios experimentar con las principales funcionalidades que aporta la propuesta presentada en esta Tesis.

MediMap permite un acceso sencillo a la propuesta presentada, mostrando los resultados de una manera ordenada e interactiva. Tras el procesado de los medicamentos es posible comparar, una a una, las consecuencias de los mapeados en el enriquecimiento de OntoFIS. Además, al observar la etapta del enriquecimiento,


!158!

MediMap muestra una comparativa respecto a la versión original, seleccionando sólo aquellos nodos de OWL que son relevantes a la comparativa, y coloreándolos para facilitar así su lectura.

Para la demostración se han elegido únicamente 12 medicamentos, atendiendo a sus características, con el fin de mostrar una selección de los problemas más característicos que se han encontrado en las distintas evaluaciones de la propuesta.

Con esta demostración de MediMap se persigue, además, ayudar a descubrir nuevas funcionalidades y aplicaciones que puedan desarrollarse en el corto y medio plazo.

10. Conclusiones y Trabajos Futuros

En este capítulo se aúnan y resumen las conclusiones extraídas en los diferentes capítulos de la Tesis, así como también se deducen nuevas conclusiones desde un punto de vista global. También se dan a conocer algunas de las aplicaciones donde nuestra propuesta puede contribuir a producir software funcional y adaptado a la realidad en un corto plazo. Finalmente, se detallan las futuras líneas de actuación en materia de investigación.

10.1 Conclusiones

Esta Tesis ha aportado una serie de contribuciones en diversos puntos de investigación, dentro del campo de la informática médica, como son:

• Se ha aportado un método capaz de equiparar diferentes niveles de especificidad de información entre dos bases de conocimiento terminológico de tipo farmacoterapéutico.

• Este método de Equiparación de Granularidades (EG) ha permitido resolver uno de los mayores problemas a la hora de mapear dos recursos semánticos. Gracias a situar ambos recursos al mismo nivel de especificidad es posible obtener mapeados más eficaces. Cabe destacar el acierto de haber elegido un método que aunque sea basado en patrones, es flexible en cuanto a su utilización, dada la gran diversidad de patrones encontrados, junto con la variabilidad de los mismos.

• Se ha aportado un método capaz de mapear medicamentos españoles sobre SNOMED-CT, basándose en sus principios activos, concentraciones, formas farmacéuticas y vías de administración.

Capítulo 10. Conclusiones y Trabajos Futuros.

!160!

• El proceso de mapeado puede estar realizado en cuatro grados distintos, atendiendo a la cantidad de información que comparten. Esto permite, además, sugerir diversas etiquetas terminológicas a un experto humano, ordenadas por grado de similitud.

• Se ha demostrado que los métodos de similitud léxica son aplicables sobre el dominio farmacoterapéutico, mediante el uso del algoritmo SiLeSS dentro del módulo de Mapeado Léxico (ML).

• Se ha aportado un método capaz de ampliar de forma totalmente automática la información de la ontología OntoFIS con nueva información proveniente de los nombres de especialidad de los medicamentos comercializados en España.

• Se ha aportado un método capaz de ampliar de forma totalmente automática la información de la ontología OntoFIS con nueva información proveniente de los mapeados semánticos establecidos con SNOMED-CT.

• Por último, cabe destacar el hecho de que la versión de OntoFIS generada mantniene el mismo formato que la original, por lo que puede ser reutilizada como entrada en futuros procesados.

10.2 Aplicaciones futuras

En esta sección se van a exponer tres aplicaciones que, dado el estado actual de desarrollo producido a raíz de la investigación, podrían ser creadas a corto plazo. Estas tres propuestas de aplicaciones son: (i) un sistema de ayuda a la toma de decisiones, (ii) un sistema de alertas de sobredosis y dosis insuficientes y (iii) un sistema de actualizaciones semi-automáticas de medicamentos.

10.2.1 Sistema de ayuda a la toma de decisiones

Uno de los mayores problemas a la hora de recetar medicamentos a pacientes extranjeros, o bien a pacientes que abandonan el país pero deben seguir medicándose, es conocer cuál es el medicamento más adecuado para su tratamiento, puesto que, dependiendo del país, existen diferentes medicamentos o diversas formas de nombrar a un mismo medicamento.

Para estos dos casos nuestra propuesta podría ayudar a los profesionales sanitarios. Por un lado, para los pacientes extranjeros, el problema radica en encontrar el medicamento que más se adecúe al que les fue recetado en su país de origen. Por tanto, el problema es encontrar la mejor alternativa a partir de la composición, concentración y forma farmacéutica de los medicamentos recetados en otros países. Gracias al sistema

! ! Capítulo 10. Conclusiones y Trabajos Futuros.

! 161!

de mapeado propuesto, es posible crear un sistema de ayuda que mapee los medicamentos extranjeros sobre SNOMED-CT y, utilizando los mapeados ya existentes de OntoFIS con SNOMED-CT, recomiende diferentes medicamentos. Aunque la decisión final del medicamento a recetar, será potestad del profesional sanitario.

Por otro lado, para pacientes que viajen a otros países, nuestra propuesta es capaz de transformar su medicación a una representación virtual con formato de SNOMED-CT: principios activos, concentraciones y forma farmacéutica. Además, gracias a la multilingualidad de SNOMED-CT, todas las etiquetas pueden traducirse automáticamente al inglés. Esto permitirá que en el país de destino puedan recetarle un medicamento que mantenga los mismos principios activos, concentraciones y forma farmacéutica o vía de administración que los recetados en España.

10.2.2 Alertas de sobredosis y dosis insuficientes

También en estos casos nuestra propuesta puede resultar de gran utilidad en un proceso semi-automático, dejando siempre la decisión última al experto humano.

Alertas de sobredosis

En ocasiones un paciente puede sufrir problemas de sobredosis debido a tener que tomar diversos medicamentos con un mismo principio activo (Berman, 2004; Romá et al., 2009).

Por ejemplo, en una hipotética situación en que un paciente está siendo medicado por diversas enfermedades y, para todas ellas, le recetan un medicamento que contenga un antiinflamatorio (por ejemplo basados en ibuprofeno o dexibuprofeno), es posible que el paciente sufra una sobredosis si cumple todos los tratamientos recetados. Sin embargo, nuestra propuesta puede descomponer los medicamentos en principios activos y concentraciones, detectando que varios de los medicamentos recetados contienen el mismo principio activo. Además, la ontología OntoFIS cuenta con una clase Sobredosis que almacena los valores críticos de los diferentes principios activos. De esta forma, tomando en cojunto la información de las concentraciones de todos los medicamentos y la información de las sobredosis de los diferentes principios activos, podrían diseñarse una serie de alertas de posibles sobredosis para los profesionales sanitarios.

Esta característica ayudará, por tanto, a prevenir errores de consecuencias graves e incluso mortales (Regidor y Guitiérrez-Fisac, 2013).

Alertas de dosis insuficientes

También puede darse el caso contrario, y debido a un cambio de medicación estar tomando menos dosis de la requerida.

Por ejemplo, un paciente extranjero al que se le ha recetado Aspirina© (cuyo principio activo es ácido acetilsalicílico) para prevenir problemas cardiovasculares. A este mismo paciente en un momento dado se le receta en su país de origen Alka-

Capítulo 10. Conclusiones y Trabajos Futuros.

!162!

seltzer©. Sin embargo, debido a que en su país este medicamento contiene ácido acetilsalicílico, su médico le indica que mientras tome Alka-seltzer© deje de tomar Aspirina© para evitar un posible problema de sobredosis. A mitad del tratamiento, este paciente se traslada a España, y durante su estancia sigue medicándose con Alka-seltzer©, pero con el medicamento comprado en España en lugar del adquirido en su país de origen. Puesto que en España dicho medicamento no contiene ácido acetilsalicílico, el paciente no estaría ingiriendo ácido acetilsalicílico. Es decir, el paciente dejaría de estar protegido contra los problemas cardiovasculares que se pretenden evitar al recetarle ácido acetilsalicílico.

Gracias a los mapeados de ambos medicamentos sobre SNOMED-CT, la herramienta podría actuar de “traductor”, de forma que, se dispare una alerta para el médico o farmacéutico, indicando que el Alka-seltzer© que el paciente estaba tomando en su país y el español no tienen la misma composición, debiendo por tanto cumplimentar la falta de ácido acetilsalicílico que sufrirá el paciente.

Alertas de dosis en pacientes hospitalizados y plurimedicados

Un problema frecuente en los intervalos de hospitalización para pacientes plurimedicados es el ajuste de las dosis, para prevenir los dos problemas anteriormente comentados (exceso o defecto).

El hecho de disponer de una herramienta eficaz que permita valorar y ajustar la dosis de medicamentos que son diferentes en cuanto a la vía de administración o en cuanto a pautas, ayudaría enormemente al ahorro de tiempo y esfuerzo por parte de los profesionales sanitarios, ya que estos profesionales disponen de una cantidad ingente de información, cuya valoración exige un tiempo del que no se dispone habitualmente. Además contribuirá a reducir los riesgos por errores humanos.

10.2.3 Actualización semi-automática de medicamentos

Combinando nuestra propuesta con un sistema de detección automática de medicamentos en textos científicos podría obtenerse un sistema capaz de mantener actualizada una ontología como OntoFIS a partir de publicaciones científicas y prospectos.

A partir de un sistema que rastree estos tipos de textos y extraiga de ellos información farmacológica (como nombres de medicamentos, principios activos, contraindicaciones…), nuestra propuesta puede utilizar esta información para:

• Mapear sobre SNOMED-CT los nuevos medicamentos.

• Mantener OntoFIS actualizada con los nuevos medicamentos, principios activos… etc.

! ! Capítulo 10. Conclusiones y Trabajos Futuros.

! 163!

• Actualizar las relaciones semánticas de un medicamento respecto a nuevas contraindicaciones, efectos adversos…

10.3 Trabajos Futuros

A partir de las contribuciones de esta Tesis, es posible abrir nuevas líneas de investigación dentro de la informática médica.

Una de las líneas de investigación podría ser la modificación del módulo de Mapeado Léxico para convertirlo en un método semi-automático de aprendizaje, para ayudar a la toma de decisiones. De esta forma, cuando existan diversas opciones preguntará a un experto humano cuál es la mejor, y por qué. Las respuestas del humano servirán para crear nuevas reglas, de forma que el sistema aprenda con cada nueva ejecución. Esta línea es especialmente importante desde que el gobierno español considera obligatorio que los medicamentos comercializados en España deban estar mapeados sobre SNOMED-CT e incluir explícitamente dichas relaciones de correspondencia. El hecho de contar con un sistema que ayude a estos mapeados podría contribuir a reducir significativamente los tiempos de mapeado, el esfuerzo necesario, y los errores humanos.

Otra línea de investigación podría ser la de ampliar los módulos de EG y ML para no sólo trabajar con SNOMED-CT sino con otras terminologías. Aunque en España sólo es obligatorio el mapeado sobre SNOMED-CT, existen otras terminologías como la norteamericana RxNorm que permitirían incorporar nuevos conocimientos a OntoFIS.

Finalmente, una tercera línea de investigación versaría sobre buscar nuevas formas de incluir conocimiento en la ontología OntoFIS. Esto permitirá, además, aportar métodos de utilización de los razonadores de ontologías para múltiples usos, como sistemas de ayuda a expertos, nuevos sistemas de ayuda a la toma de decisiones, o incluso nuevos métodos para la ampliación automática de la propia tecnología usando la propia información obtenida del razonador. Además, se puede tratar de incluir conocimiento no incluido hasta ahora, como por ejemplo información acerca de los excipientes de los medicamentos. Esta información puede ser fundamental en caso de pacientes que presenten intolerancia o alergia a alguno de ellos.

!!!!Anexos!!! !

Anexos !

!166!

A Definiciones

En este apartado se darán las definiciones de algunos de los términos más utilizados en esta tesis, y que corresponden a los dominios en los que se desarrolla la misma. Estos términos son: tecnologías del lenguaje humano, procesamiento del lenguaje natural, terminología, lexicón, interoperabilidad, ontología, mapeado y granularidad.

A.1 Tecnologías de Lenguaje Humano (TLH)

De acuerdo con Cole (1997), “el campo de las Tecnologías del Lenguaje Humano (TLH) cubre un amplio rango de actividades con el objetivo de permitir a las personas comunicarse con las máquinas usando habilidades de comunicación naturales para las personas”.

Dentro de esta disciplina se engloban, por tanto, todas aquellas tecnologías destinadas a las comunicaciones hombre-máquina, tanto a nivel hablado como escrito.

A.2 Procesamiento del Lenguaje Natural (PLN)

Dentro de las TLH existe una disciplina conocida como Procesamiento del Lenguaje Natural (PLN, o NLP del inglés Natural Language Processing), englobada a su vez dentro de la inteligencia artificial, que investiga y desarrolla mecanismos conceptualmente efectivos capaces de analizar, entender y generar textos, tanto orales como escritos, usando el lenguaje natural (Moreno, Palomar, Molina y Ferrández,1999).

Dentro del PLN, las técnicas usadas son muy variadas, tanto en su naturaleza como en su complejidad. Las más simples son las denominadas léxicas, y funcionan sobre la representación de los términos del texto. Por ejemplo, en la reordenación de palabras en una frase se trata de un proceso léxico, ya que no modifica ni analiza términos, sino que sólo los mueve de posición de forma secuencial, probando todas las combinaciones posibles. También existen otras más complejas computacionalmente, como las sintácticas, que analizan los términos en el contexto de la frase para tratar de averiguar su función sintáctica en la oración.

Cuanto más compleja sea una técnica más información aportará al método, aunque aumentará sensiblemente su coste de procesamiento, es decir, repercutirá en un mayor consumo de tiempo. Es por ello que en PLN se debe tener en cuenta la finalidad y utilidad de las diferentes técnicas aplicadas, buscando un compromiso de eficacia y eficiencia.

Anexos !

!!

167!

A.3 Terminología

Desde el punto de vista de la salud, se puede definir una terminología como un conjunto de vocablos específicos y sus designaciones, utilizados en dicho ámbito. Cada vez que se crea, consume, procesa o comunica conocimiento especializado, se está utilizando información de tipo terminológico.

Es importante remarcar que las terminologías no suelen ser portables entre diferentes dominios, por lo que su correcta identificación, definición y comprensión es un punto fundamental para poder ser procesadas de forma efectiva. Por ejemplo, como se indica en el apartado 1.1 del Capítulo 1, el término ‘agudo’ en salud se refiere a un problema que comienzan de forma repentina y tiene una duración reducida en el tiempo. Sin embargo, el mismo vocablo en el dominio matemático se refiere a un ángulo cuyo valor está por comprendido entre los 0º y los 90º.

Las terminologías pueden cubrir aspectos profesionales concretos o actividades de interés para más de un tipo de profesional. Por ejemplo, las etiquetas “paracetamol” y “N-(4-hidroxifenil)-acetamida” representan un mismo concepto semántico, pero su representación léxica varía dependiendo de la terminología usada. En el primer caso se ha utilizado la terminología Denominación Oficial Española (DOE), mientras que en el segundo se ha utilizado la terminología de la International Union of Pure and Applied Chemistry (IUPAC, Mcnaught y Wilkinson, 1997).

Las terminologías pueden estar definidas formalmente en recursos terminológicos. Los recursos terminológicos pueden contener, para cada vocablo (entrada terminológica), información sobre su equivalente en otras lenguas, sinónimos, definiciones, ámbitos de aplicación o relaciones con otros conceptos. Se trata por tanto, de información compleja, que requiere estar estructurada (por ejemplo en bases de datos) para así poder maximizar su utilidad en tareas de PLN (Martí et al., 2003).

A.4 Lexicón

Existen varias definiciones para el término ‘lexicón’. Por ejemplo, la Real Academia de la Lengua Española (Real Academia Española [RAE], 2001) lo define simplemente como “diccionario”, mientras que según el Diccionario de la lengua española © 2005 Espasa-Calpe26, el término ‘lexicón’ tiene dos acepciones: (i) “Conjunto de las palabras y lexemas de una lengua y libro en que se contienen: lexicón informatizado”, (ii) “Conjunto abstracto no ordenado de entradas léxicas que se definen de acuerdo a sus rasgos fónicos y gramaticales”.

En este trabajo se utilizará el término lexicón con el significado de la segunda acepción del Diccionario de la lengua española ©2005 Espasa-Calpe, es decir, como un conjunto no ordenado de términos léxicos. !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

26!La!página!web!WordReference!ofrece,!a!través!de!su!propia!página,!acceso!al!Diccionario!de!la!lengua!española!©!2005!Espasa!Calpe.!URL:!http://www.wordreference.com/definicion/!

Anexos !

!168!

A.5 Interoperabilidad

La interoperabilidad se refiere a la posibilidad de existencia de un intercambio de información entre dos o más sistemas. Según el IX Informe SEIS publicado por las Naciones Unidas (Indarte, 2012), pueden definirse tres niveles de interoperabilidad:

1. Organizativa o de negocio: aquella que establece los estándares y las normas para el intercambio de información, así como las reglas, los procesos y los actores que participan.

2. Sintáctica u operativa: aquella que modela el lenguaje en el intercambio, regulando la forma en la que se transmite la información. Por ejemplo, mediante documentos XML.

3. Semántica: aquella que se centra en la reutilización de la información. Este nivel de interoperabilidad permite una comunicación entre sistemas que les permita interpretar correctamente la información transmitida entre ellos, sin haber estado diseñados para hacerlo. Por ejemplo, entre dos bases de datos, la interoperabilidad semántica sería la que estableciese cómo intercambiar información cuando las tablas no tienen los mismos nombres o atributos.

A.6!Especialidad!farmacéutica!comercializada!

En esta tesis, cuando se hable de ‘medicamento’ se estará refiriendo a las especialidades farmacéuticas comercializadas, las cuales vienen determinadas por tres características fundamentales: (i) el nombre del medicamento o sus principios activos, (ii) la concentración y (iii) la forma farmacéutica. La primera son los ingredientes (o principios activos) que lo forman. Algunos ejemplos de principios activos son el ácido acetilsalicílico, el ibuprofeno o el paracetamol. Estos ingredientes pueden aparecer de forma única, en cuyo caso se denominará medicamento monoingrediente, o bien en conjunto, en cuyo caso se denominará medicamento multiingrediente. Aunque los ingredientes son una parte fundamental del medicamento, en ocasiones se utiliza en su lugar un nombre comercial, como por ejemplo Aspirina©.

La segunda característica fundamental que identifica un determinado medicamento es la concentración de sus ingredientes. Esta concentración establece la cantidad exacta de cada uno de los principios activos que componen el medicamento.

Finalmente, la tercera característica fundamental es la forma farmacéutica, que indica la forma física en la que se distribuye el medicamento. Algunos ejemplos de formas farmacéuticas son comprimidos, cápsulas o inyectables. Así pues, el medicamento “Aspirina 500 mg comprimidos efervescentes” establece que el nombre comercial es Aspirina, que la concentración de ácido acetilsalícilico (es su principio activo, que aunque no aparezca especificado en la etiqueta del medicamento sí aparecerá en otras fuentes de conocimiento, como el prospecto) es de 500 mg, y que se distribuye en forma de comprimidos efervescentes.

Anexos !

!!

169!

Como se puede observar, el nombre del medicamento no siempre contiene toda la información esencial. En el ejemplo mostrado, no está explicitado el principio activo ácido acetilsalicílico. En otros casos no constan todos los ingredientes o las concentraciones de alguno de ellos. Es de vital importancia poder contar con un recurso en el que consten todos los datos necesarios, concretos y fiables. Además, es deseable que este recurso contenga información no sólo de los medicamentos comercializados en territorio español, sino también del ámbito internacional.

!

A.7 Ontología

Este término fue originalmente utilizado como parte de la metafísica, para referirse al estudio del ser y de sus propiedades trascendentales (RAE, 2001). Sin embargo, en la actualidad, se ha venido utilizando asociado a las teorias de modelado del mundo. Aunque actualmente no existe unanimidad a la hora de definir qué es una ontología, una de las definiciones más utilizadas es la aportada por Gruber (1993), donde se define como “una especificación de una conceptualización”. Dado que esta definición es muy amplia e incluso puede llegar a considerarse ambigua, otros autores como Studer, Benjamins y Fensel (1998) la han matizado estableciendo que el término “[…] conceptualización se refiere a un modelo abstracto de algún fenómeno en el mundo que es identificado por los conceptos relevantes a ese fenómeno”. Por tanto, se puede decir que una ontología es una representación explícita de las ideas del mundo real, donde esas ideas están representadas formalmente por sus características y relaciones entre ellas.

Una ontología, por tanto, facilita la representación explícita de los conceptos (clases), sus propiedades y sus restricciones, así como la organización parcial de conceptos a partir de sus relaciones. Por ello, acorde a Romá-Ferri (2009), “no puede interpretarse que los conceptos se organizan, exclusivamente, de forma jerárquica (por medio de las relaciones taxonómicas ‘is-a’ y ‘part-of’)”.

Como síntesis, es posible decir que el conocimiento se encuentra representado mediante una serie de conceptos (clases), los cuales se caracterizan por sus propiedades (atributos) y las restricciones que se especifiquen. Dichas clases pueden relacionarse entre sí mediante relaciones, dependiendo éstas del dominio específico al que corresponda el conocimiento representado, pudiendo determinar organizaciones de tipo grafo o redes. Opcionalmente, los conceptos pueden ser especificados (instancias), las cuales tomarán valores específicos para los atributos de las clases a las que pertenecen. Por ejemplo, en una ontología farmacoterapéutica podrían definirse las clases de ‘Medicamento’, con el atributo de ‘nombre’, y la clase ‘Principio Activo’, con los atributos ‘nombre’ y ‘concentración’. Estas clases se relacionarían entre sí mediante la relación ‘compone’, que uniría la clase ‘Principio Activo’ con la clase ‘Medicamento’. Finalmente, aunque la existencia de las instancias no es necesaria, un ejemplo de una instancia de la clase ‘Principio Activo’ podría tener los valores de “paracetamol” y “500 mg” para los atributos de ‘nombre’ y ‘concentración’ respectivamente. Esta instancia

Anexos !

!170!

podría estar unida mediante la relación ‘compone’ con una instancia de ‘Medicamento’ cuyo ‘nombre’ fuese “Gelocatil 500mg comprimidos”.

Esta explicitación del conocimiento permite una de las más importantes características de las ontologías, que es la posibilidad de inferir conocimiento a través de un razonador. Por ejemplo, se pueden conocer los efectos adversos de un medicamento infiriéndolos de otros medicamentos con los mismos principios activos (Romá-Ferri, Cruanes y Palomar, 2009).

A.8 Ampliación o enriquecimiento de una ontología

Ampliar o enriquecer una ontología consiste en aumentar el conocimiento que está representado en ella. En este trabajo se ha considerado un enriquecimiento de una ontología cuando: (i) se añaden nuevos conceptos, (ii) se añaden nuevas relaciones o (iii) se aumenta la población (instancias).

La ampliación de una ontología permite aumentar el conocimiento que hay representado en ella, tanto si ésta se ha producido de forma explítica como si se ha llevado a cabo por motores de razonamiento. Los motores de razonamiento son herramientas que permiten inferir conocimiento a partir de una ontología.

La tarea de ampliación o enriquecimiento de una ontología forma parte de las tareas de mantenimiento, y es fundamental para prevenir que una ontología quede desfasada u obsoleta.

!

A.9 Mapeado

El término mapeado proviene del inglés ‘mapping’, y se utiliza para establecer la correspondencia entre conceptos o etiquetas léxicas, de forma que se explicita que ambos tienen una cierta equivalencia o similitud semántica.

En este trabajo se han establecido cuatro tipos diferentes de mapeados, atendiendo a la semántica compartida entre las etiquetas conectadas. En orden de menor a mayor relación semántica entre los conceptos mapeados, estos niveles son: ‘comparables’, ‘similares’, ‘proporcionales’ y ‘equivalentes’. Es decir, en caso de que dos conceptos tengan el mismo significado semántico, serán establecidos como ‘equivalentes’, mientras que si su significado semántico es de menor nivel se establecerá el mapeado utilizando alguno de los otros tres niveles, siendo el de ‘comparables’ el que establece el menor grado de equivalencia.

Anexos !

!!

171!

A.10 Granularidad

El concepto de granularidad, aplicado a las ontologías y a las terminologías, se refiere al nivel de especificidad de los conceptos que en ella se representan, y de los términos empleados para denominar a los conceptos y las instancias.

Tanto una ontología como una terminología pueden tener varios niveles de granularidad, ya que los niveles más altos (hiperónimos) representan los conceptos más generales, mientras que los niveles más bajos (hipónimos) representan conceptos más específicos. En ocasiones, incluso pueden ser coincidentes con los niveles de las instancias. Por tanto, los primeros niveles tendrán una granularidad más gruesa que los niveles inferiores, con una granularidad más fina.

Cuando se habla de la granularidad de una ontología o una terminología se está referenciando al máximo nivel de especificidad que ésta es capaz de representar.

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

Anexos !

!172!

B.! Patrones! de! composición! de! nombres! comerciales! de!medicamentos!españoles!!

En estos grafos aparecen los nodos coloreados según su tipo y relevancia, y se han usado como nombres de los nodos las abreviaturas de cada elemento especificado en la Tabla 5.3 del Capítulo 5. El código de colores utilizado en estas dos figuras es el siguiente:

• Con borde rojo aquellos nodos que son necesarios para la creación de las representaciones NES y NI. Estos son los que contienen información acerca del nombre de especialidad (N), del principio activo simple (PA) o compuesto (PAC), de la concentración simple (C), compuesta (CC), en disolución (C%), proporción (C/), o con duplicidad de unidad (CC2U), de la unidad de medida (M) o bien de la forma farmacéutica (FF).

• Con borde negro, aquellos nodos que no son necesarios para la formación de las representaciones NES y NI. Estos son aquellos que contienen información acerca de la población objetivo (POB), de la medida de producto o unidad (MP), del packing (PCK), de la vía administración (V), de la cantidad de producto (CP) o bien corresponden al acrónimo “EFG” (EFG).

• Con relleno azul aparecen aquellos que son detectables mediante el uso de lexicones. Estos son la unidad de medida (M), la vía administración (V), la población objetivo (POB) y el acrónimo “EFG” (EFG).

• Con relleno gris aparecen los elementos con información de packing (PCK), puesto que aunque son detectables mediante el uso de lexicones, dada su gran variabilidad, no es posible asegurar que el lexicón recoja todas las posibilidades. Debido a que la información de empaquetado no contiene ninguna característica identificable de forma única, en caso de no estar recogida en los lexicones, éste quedaría sin identificar en una primera instancia, pudiendo confundirse con los otros nodos sin características únicas, identificados en los grafos con fondo blanco.

• Con relleno verde, aquellos elementos que contienen dígitos. Éstos son todas las concentraciones (C, CC, C%, C/, CC2U), la cantidad de producto (CP) y la medida de producto o unidad (MP).

• Finalmente, con relleno blanco, aparecen aquellos nodos que contienen información textual sin ninguna característica que los haga identificables de forma única. Estos son el nombre de especialidad (N), el principio activo simple (PA) o compuesto (PAC) y la forma farmacéutica (FF).

• Un círculo completamente negro significa el comienzo del algoritmo, mientras que si aparece un aro a su alrededor denota un estado final, es decir, se ha completado un patrón conocido.

Anexos !

!!

173!

!

V

PAC N

CC M

CC2U

CP FF EFG

PA

N

C

C%

C M CP FF EFG

M

CP FFCC2U

NC%

CC M

N C

C/ CP FF

CP MP FF

C

M CP FF

EFG

CP FF

C M

CP FF

CPFF

C

V

PCK

PCK

PCK

PCK

PCK

V

M

POB

V

Figura B.1. Guía con los patrones de aparición de elementos en etiquetas de fármacos, de izquierda a

derecha.

Anexos !

!174!

CP

CC2U

M C

CC

N

V

POB

PA

N

C

C%

M

PCK

FF

CP C/

CPPCKMP

M C

PCK

EFG

CP

FF

FF

CP

M C POB

N

CPFFPCKV

POB FF CP M C

EFG

FF

FFV

CP

CP

CC2U

PACCC N

M

NC

C%

M C N

PA

M C

C N

N

Figura B.2. Guía con los patrones de aparición de elementos en etiquetas de fármacos, de derecha a

izquierda.

!

!

Anexos !

!!

175!

C.!Algoritmos!!

En color negro aparecen los estados y acciones entre estados que concuerdan con los observados en los patrones mostrados en la Tabla 6.2 del Capítulo 6. En color marrón aparecen las entradas que, aunque no se han observado en ningún patrón, podrían aparecer como variantes de dichos patrones. Además, se incluye una leyenda (esquina superior izquierda) acerca del significado de los símbolos de entrada esperados, donde ‘N’ representa un número (decimal o entero), ‘T’ una cadena de texto sin espacios, ‘UV’ una cadena de texto correspondiente a una unidad de medida de volumen (por ejemplo, “ml”), ‘UP’ una cadena de texto correspondiente a una unidad de medida de peso (por ejemplo, “mg”) y ‘E’ representa la cadena vacía, es decir, el final de la entrada de texto. También se considera la aparición de ciertos símbolos, como la barra inclinada (‘/’), la coma (‘,’), el símbolo de porcentaje (‘%’) o bien el guión (‘-‘). Las medidas de peso y volumen son recogidas a partir del lexicón de unidades.

!Nota aclaratoria: El algoritmo es válido tanto para medicamentos monoingredientes como para los

multiingredientes. En color marrón aparecen aquellas reglas que, aunque no se han descubierto en ningún patrón, es necesario añadirlas para aumentar la flexibilidad del método propuesto.

Figura C.1. Diagrama del algoritmo para la identificación de las concentraciones de los ingredientes

(principios activos).

Anexos !

!176!

!Nota aclaratoria: En color marrón aparecen aquellas reglas que, aunque no se han descubierto en ningún patrón, es necesario añadirlas para aumentar la flexibilidad de nuestro

método.

Figura C.2. Diagrama del algoritmo de procesamiento de los VMP existentes en SNOMED-CT.

Anexos !

! ! 177!

D.#Relaciones#de#OntoFIS#!

Tabla D.1.

Relaciones de OntoFIS cuyo origen o destino es la clase Medicamento.

Nombre Origen Destino composes_1.1.1 ComposicionQuimica Medicamento PrincipioActivo Medicamento related_to_1.2 Medicamento Estabilidad Medicamento Posologia Medicamento Sobredosis Medicamento Contraindicacion Medicamento GrupoTerapeutico Medicamento AgenteInfeccioso Medicamento ProcesoClinico Medicamento AgenteToxico Medicamento EfectoDeseable Medicamento EfectoAlterado Medicamento ViaAdministracion Medicamento EfectoIndeseable belongs_1.3 Medicamento GrupoTerapeutico effects_2.1 Medicamento AgenteInfeccioso Medicamento ProcesoClinico Medicamento AgenteToxico Estabilidad Medicamento Medicamento Medicamento delays_2.1.1_3.3 Medicamento AgenteInfeccioso Medicamento ProcesoClinico Medicamento AgenteToxico Medicamento Medicamento complicates_2.1.2 Medicamento AgenteInfeccioso Medicamento ProcesoClinico disrupts_2.1.3 Medicamento ProcesoClinico Medicamento AgenteInfeccioso Medicamento Medicamento Medicamento AgenteToxico Contraindicacion Medicamento facilitates_2.1.4 Medicamento Accion Medicamento EfectoDeseable Medicamento EfectoAlterado Medicamento EfectoIndeseable Medicamento IndicacionTerapeutica Medicamento Medicamento increases_2.1.5 Medicamento AgenteToxico Medicamento Medicamento decreases_2.1.6 Medicamento AgenteToxico Medicamento Medicamento interacts_with_2.1.7 Medicamento AgenteToxico Medicamento Medicamento manages_2.1.8 Medicamento ViaAdministracion prevents_2.1.9 Medicamento AgenteToxico Medicamento AgenteInfeccioso Medicamento ProcesoClinico Contraindicacion Medicamento treats_2.1.10 Medicamento Edad Medicamento Genero Medicamento Poblacion Medicamento AgenteToxico

Anexos !

178!

Medicamento AgenteInfeccioso Medicamento ProcesoClinico brings_about_2.2 Medicamento ProcesoClinico Medicamento AgenteToxico Medicamento EfectoDeseable suitable_for_2.2.1 Genero Medicamento Edad Medicamento Poblacion Medicamento acts_2.2.2 Medicamento AgenteToxico Medicamento AgenteInfeccioso Medicamento ProcesoClinico unsuitable_for_2.2.3 Medicamento ProcesoClinico Contraindicacion Medicamento Genero Medicamento Edad Medicamento AgenteInfeccioso Medicamento excludes_2.2.4 Contraindicacion Medicamento Medicamento ProcesoClinico Genero Medicamento performs_2.3 Medicamento Accion Medicamento EfectoDeseable Medicamento IndicacionTerapeutica occurs_in_2.4 Medicamento EfectoIndeseable Edad Medicamento AgenteInfeccioso Medicamento uses_2.5 Medicamento Posologia co-occurs_with_3.1 Medicamento Contraindicacion Medicamento ProcesoClinico Medicamento EfectoDeseable Medicamento EfectoAlterado Accion Medicamento Medicamento IndicacionTerapeutica Medicamento EfectoIndeseable duration_3.4 Posologia Medicamento time_position_3.5 Posologia Medicamento property_of_4.3 Estabilidad Medicamento ForfaFarmaceutica Medicamento GrupoTerapeutico Medicamento Accion Medicamento requires_4.4 Medicamento Estabilidad Medicamento Posologia Medicamento UnidadMedida AgenteInfeccioso Medicamento AgenteToxico Medicamento ProcesoClinico Medicamento Medicamento ViaAdministracion derivatives_4.5 Medicamento Estabilidad Medicamento Posologia Medicamento Contraindicacion Medicamento EfectoDeseable Medicamento EfectoAlterado Medicamento EfectoIndeseable method_of_4.6 Medicamento ViaAdministracion is_a_5 Medicamento PrincipioActivo Medicamento GrupoTerapeutico

! !

Anexos !

! ! 179!

E.#Código#OWL#ampliación#OntoFIS#!

!Figura E.1. Código OWL incluido por el módulo AAO para ampliar el núcleo de OntoFIS.

!

!

!

!

!

!

!

<owl:DatatypeProperty rdf:about="#Medicamento..Nombre_especialidad"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/> </owl:DatatypeProperty>

<owl:DatatypeProperty rdf:about="#Medicamento..Nombre_implícito"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/> </owl:DatatypeProperty>

<owl:DatatypeProperty rdf:about="#Medicamento..Mapeable_equivalente_SNOMED_CT"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct"/> </owl:DatatypeProperty>

<owl:DatatypeProperty rdf:about="#Medicamento..Mapeable_proporcional_SNOMED_CT"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct"/> </owl:DatatypeProperty>

<owl:DatatypeProperty rdf:about="#Medicamento..Mapeable_similar_SNOMED_CT"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct"/> </owl:DatatypeProperty>

<owl:DatatypeProperty rdf:about="#Medicamento..Mapeable_comparable_SNOMED_CT"> <rdfs:domain rdf:resource="#Medicamento"/> <rdfs:range rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct"/> </owl:DatatypeProperty>!

Anexos !

180!

!Nota aclaratoria: La información incorporada se encuentra resaltada en negrita. El atributo

‘Nombre_especialidad’ se refiere al NES (Nombre Especialidad Simplificado) y el ‘Nombre_implicito’ se refiere al NI (Nombre Implícito).

Figura E.2. Código OWL de la instancia Medicamento_144 tras la inclusión del NES y el NI.

!

!Nota aclaratoria: La información incorporada se encuentra resaltada en negrita.

Figura E.3. Código OWL de la instancia Medicamento_144 tras la inclusión de la población objetivo.

!

!

!

!

<Medicamento rdf:about="#Medicamento_144"> <Medicamento..ID>144</Medicamento..ID> <Medicamento..nombre_medicamento_espanya> IBUPROFENO UR 600MG 40 COMPRIM RECUB PELICULA EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional>650130</Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya/> <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion> <Medicamento..Nombre_especialidad rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno ur 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_especialidad> <Medicamento..Nombre_implicito rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_implicito> </Medicamento>!

<Medicamento rdf:about="#Medicamento_144"> <Medicamento..ID>144</Medicamento..ID> <Medicamento..nombre_medicamento_espanya> IBUPROFENO UR 600MG 40 COMPRIM RECUB PELICULA EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional>650130</Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya/> <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion> <Medicamento..Nombre_especialidad rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno ur 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_especialidad> <Medicamento..Nombre_implicito rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_implicito> <treats_2.1.10 rdf:resource="#Edad_2"/> </Medicamento>!

Anexos !

! ! 181!

!


Figura E.4. Código OWL de la instancia Medicamento_144 tras la inclusión de la vía de

administración.

!


Figura E.5. Código OWL de la instancia Medicamento_144 tras la inclusión de la terminología

SNOMED-CT.

<Medicamento rdf:about="#Medicamento_144"> <Medicamento..ID>144</Medicamento..ID> <Medicamento..nombre_medicamento_espanya> IBUPROFENO UR 600MG 40 COMPRIM RECUB PELICULA EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional>650130</Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya/> <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion> <Medicamento..Nombre_especialidad rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno ur 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_especialidad> <Medicamento..Nombre_implicito rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_implicito> <treats_2.1.10 rdf:resource="#Edad_2"/> <manages_2.1.8 rdf:resource="#ViaAdministracion_10"/> </Medicamento>!

<Medicamento rdf:about="#Medicamento_144"> <Medicamento..ID>144</Medicamento..ID> <Medicamento..nombre_medicamento_espanya> IBUPROFENO UR 600MG 40 COMPRIM RECUB PELICULA EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional>650130</Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya/> <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion> <Medicamento..Nombre_especialidad rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno ur 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_especialidad> <Medicamento..Nombre_implicito rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_implicito> <treats_2.1.10 rdf:resource="#Edad_2"/> <manages_2.1.8 rdf:resource="#ViaAdministracion_10"/> <rdfs:subClassOf rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;350321003"/> </Medicamento>!

Anexos !

182!


Figura E.6. Código OWL de la instancia Medicamento_144 tras la inclusión del mapeado sobre la

terminología SNOMED-CT.

!

<Medicamento rdf:about="#Medicamento_144"> <Medicamento..ID>144</Medicamento..ID> <Medicamento..nombre_medicamento_espanya> IBUPROFENO UR 600MG 40 COMPRIM RECUB PELICULA EFG </Medicamento..nombre_medicamento_espanya> <Medicamento..codigo_nacional>650130</Medicamento..codigo_nacional> <Medicamento..nombre_medicamento_no_espanya/> <Medicamento..estado_comercializacion> COMERCIALIZADO </Medicamento..estado_comercializacion> <Medicamento..Nombre_especialidad rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno ur 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_especialidad> <Medicamento..Nombre_implicito rdf:datatype="http://www.w3.org/2001/XMLSchema#string" xml:lang="es"> ibuprofeno 600 mg comprimidos recubiertos pelicula </Medicamento..Nombre_implicito> <treats_2.1.10 rdf:resource="#Edad_2"/> <manages_2.1.8 rdf:resource="#ViaAdministracion_10"/> <rdfs:subClassOf rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;350321003"/> <Medicamento..Mapeable_equivalente_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;329654002"/> <Medicamento..Mapeable_proporcional_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;370194007"/> <Medicamento..Mapeable_proporcional_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;370193001"/> <Medicamento..Mapeable_proporcional_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;329652003"/> <Medicamento..Mapeable_proporcional_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;370192006"/> <Medicamento..Mapeable_similar_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;329712005"/> <Medicamento..Mapeable_similar_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;329677002"/> <Medicamento..Mapeable_similar_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;370195008"/> <Medicamento..Mapeable_similar_SNOMED_CT rdf:resource="http://www.ihtsdo.org/snomedct.owl#snomedct;329711003"/> </Medicamento>!

! ! Anexos!

! ! 183!

F.#Estudio#de#errores#!

Tabla F.1.

Errores encontrados en las pruebas piloto del módulo EG.

Error 1: Problema de patrón Causas Propuesta de Solución ibuprofeno 200 mg sabor limon Problema de patrón: “sabor limon” no forma

parte de la forma farmacéutica. Este es un caso aislado, por lo que ampliar la regla a este patrón puede ser arriesgado. Se necesita de un estudio más exhaustivo de este patrón para comprobar su validez. Una opción a corto plazo sería crear un lexicón de tabúes, de forma que la herramienta lo descarte al detectarlo.

Error 2: Problema léxico Causas Propuesta de Solución paracetamol 100 mg / ml frasco g Problema léxico: En este caso se esperaba que

la forma farmacéutica fuese “gotas”, pero ésta se encontraba contraída como “g”, lo que fue detectado como unidad de medida de peso (gramos)

Se requieren más análisis de este tipo de patrones, donde existan abreviaturas de formas farmacéuticas que puedan resultar ambiguas con unidades de medida. Una posible solución sería incluir un nuevo proceso de desambiguación durante la validación del medicamento.

Error 3: Problemas de conocimiento Causas Propuesta de Solución ibuprofeno en asociacion 600 mg sobres granulado suspension Problemas de conocimiento: no se especifica

cuáles son los ingredientes asociados, sino que se refieren sólo a uno de ellos (“500,00 mg”, “100 mg”, “2 %”), o bien a la totalidad del producto (“40 g”, “50 g”, “45 g”).

Es necesario utilizar otras fuentes de información, como Vademécum o los códigos ATC más actuales. Es posible obtener el resto de ingredientes y/o sus concentraciones.

Anexos!

184!

Error 4: Problema léxico y de conocimiento Causas Propuesta de Solución ibuprofeno en asociacion 600 mg sobres gr s Problema léxico: existen abreviaturas

desconocidas, como “gr” o “s”. Problemas de conocimiento: no se especifica cuáles son los ingredientes asociados, sino que se refieren sólo a uno de ellos (“500,00 mg”, “100 mg”, “2 %”), o bien a la totalidad del producto (“40 g”, “50 g”, “45 g”).

La primera es ampliar el lexicón de abreviaturas, para poder así desambiguar las abreviaturas ahora desconocidas. Otra solución necesaria es utilizar otras fuentes de información, como Vademécum o los códigos ATC más actuales. Es posible obtener el resto de ingredientes y/o sus concentraciones.

Error 5: Problemas léxicos y de funcionamiento Causas Propuesta de Solución paracetamol en asociacion excl.psicolepticos 650,00 mg sobres monodosis paracetamol en asociacion excl.psicolepticos 15 mg comprimidos paracetamol en asociacion excl.psicolepticos 120 mg / 5 ml / 12 mg / 5 ml solución paracetamol en asociacion excl.psicolepticos 400,00 mg comprimidos paracetamol en asociacion excl.psicolepticos 200,00 mg sellos paracetamol en asociacion excl.psicolepticos 650,00 mg sobres paracetamol en asociacion excl.psicolepticos 14 mg capsulas paracetamol en asociacion excl.psicolepticos 350,00 mg supositorios paracetamol en asociacion excl.psicolepticos 300,00 mg capsulas paracetamol en asociacion excl.psicolepticos 400,00 mg supositorios paracetamol en asociacion excl.psicolepticos 200,00 mg supositorios paracetamol en asociacion excl.psicolepticos 100,00 mg supositorios paracetamol en asociacion excl.psicolepticos 250,00 mg comprimidos paracetamol en asociacion excl.psicolepticos 250,00 mg supositorios paracetamol en asociacion excl.psicolepticos 250,00 mg tabletas paracetamol en asociacion excl.psicolepticos 150,00 mg comprimidos paracetamol en asociacion excl.psicolepticos 100 g granulado paracetamol en asociacion excl.psicolepticos 350,00 mg capsulas duras paracetamol en asociacion excl.psicolepticos 350,00 mg supositorios paracetamol en asociacion excl.psicolepticos 300,00 mg capsulas paracetamol en asociacion excl.psicolepticos 325,00 mg comprimidos paracetamol en asociacion excl.psicolepticos 650,00 mg sobres monodosis

Problemas léxicos: presencia de abreviaturas desconocidas, como “excl.” para “exclusión”. Problemas de funcionamiento: la herramienta no está preparada para combinaciones de principios activos utilizando exclusiones, sino para ingredientes específicos.

La herramienta debe ser modificada para realizar combinaciones donde, en lugar de buscar ingredientes concretos, se utilicen todos aquellos que no pertenezcan a un determinado grupo. Otra solución necesaria es la de crear mapeados incompletos, ya que en estos casos no es posible asegurar que una combinación de principios activos represente exactamente los ingredientes que puedan estar presentes en el medicamento.

Nota aclaratoria: En esta tabla se muestran los Nombres Implícitos donde han sido encontrados los errores, analizando sus causas y proponiendo soluciones específicas. !

!

! ! Anexos!

! ! 185!

Tabla F.2.

Errores encontrados en los resultados de la prueba global para el módulo ML.

Error 1: Problemas léxicos y de conocimiento Causas Propuesta de Solución fenilefrina adoc. a antihistamínicos 60 ml jarabe preparados antihemorroidales con bismuto 1,00 u.d.rectal supositorios dexametasona asoc. a antiinfecciosos 5 ml colirio nistatina asoc. a corticoides 25 ml suspensión salicilico acido en asociacion 60 ml crema fluida amitriptilina asociada a psicolepticos 1,00 u.d.oral capsulas hidrocortisona asoc. a antiinfecciosos 5 ml solucion gotas hidrocortisona asoc. a antiinfecciosos 3,5 g pomada otico fluocinolona asoc. a antiinfecciosos 3 mg / ml solucion gotas oticas

Problemas léxicos: presencia de abreviaturas desconocidas, como “asoc.” para “asociado”. Aparece “asoc. a” o “con” como separador de ingredientes. Problema de conocimiento: faltan alguna o todas las concentraciones. “60 ml”, “5 ml” o “25 ml” se refiere a la cantidad total de producto, no a la concentración. En OntoFIS la concentración existente es “1,00 u.d.rectal”, en lugar de la correcta concentración de los ingredientes.

La primera es añadir al lexicón de abreviaturas el término “asoc”. La segunda es incorporar a la propuesta que los términos como “en asociación con”, “asociado a” y “con” sirvan como separadores de ingredientes. La tercera es hacer que la propuesta distinga que cuando se trate de líquidos se distinga entre concentración y la cantidad total de producto. Finalmente, es necesario utilizar otras fuentes de información, como Vademécum para poder recuperar las concentraciones correctas de los medicamentos.

Anexos!

186!

Error 2: Problemas de conocimiento y de SNOMED-CT

Causas Propuesta de Solución

clofibrato aluminio en asociacion 500,00 mg comprimidos

Problemas de conocimiento: no se especifica cuáles son los ingredientes asociados, sino que se refieren sólo a uno de ellos (“500,00 mg”, “100 mg”, “2 %”), o bien a la totalidad del producto (“40 g”, “50 g”, “45 g”). Problema de SNOMED-CT: Ni el ingrediente “clofibrato aluminio”, ni “heparinoide organico” existen en SNOMED-CT.

La primera es utilizar otras fuentes de información, como Vademécum o los códigos ATC más actuales. Es posible obtener el resto de ingredientes y/o sus concentraciones. Para solventar los problemas de conocimiento de SNOMED-CT será necesario utilizar versiones más actuales, donde dicho conocimiento haya sido ampliado.

heparinoide organico en asociacion 40 g pomada alopurinol en asociacion 100,00 mg comprimidos lidocaina en asociacion 2 % ampollas Error 3: Problemas léxicos y de funcionamiento Causas Propuesta de Solución acetilsalicilico ac. asoc. excl.psicolepticos 500 mg comprimidos efervescentes

Problemas léxicos: presencia de abreviaturas desconocidas, como “ac.” para “ácido” o “excl.” para “exclusion”. Aparece “asoc. a” como separador de ingredientes. Problemas de funcionamiento: la herramienta no está preparada para combinaciones de principios activos utilizando exclusiones, sino para ingredientes específicos.

La herramienta debe ser modificada para realizar combinaciones donde, en lugar de buscar ingredientes concretos, se utilicen todos aquellos que no pertenezcan a un determinado grupo. Otra solución necesaria es la de crear mapeados incompletos, ya que en estos casos no es posible asegurar que una combinación de principios activos represente exactamente los ingredientes que puedan estar presentes en el medicamento.

Error 4: Problema de conocimiento Causas Propuesta de Solución meprobamato en asociacion 1,00 u.d.oral comprimidos nucleotidos en asociacion 1,00 u.d.parenteral capsulas

Problema de conocimiento: En OntoFIS la concentración existente es “1,00 u.d.oral”, en lugar de la correcta concentración de los ingredientes. No se especifica cuáles son los ingredientes asociados.

Es necesario utilizar otras fuentes de información, como Vademécum para poder recuperar las concentraciones correctas de los medicamentos. Además es necesario crear mapeados incompletos, ya que en estos casos no es posible asegurar que una combinación de principios activos represente exactamente los ingredientes que puedan estar presentes en el medicamento.

! ! Anexos!

! ! 187!

Error 5: Problema de conocimiento y de funcionamiento


corticoides asociaciados a vitaminas 1,00 u.d.parenteral ampollas liofilizado + ampollas disolvente isoniazida asociada a corticoide 1,00 u.d.oral capsulas

Problema de conocimiento: En OntoFIS la concentración existente es “1,00 u.d.parenteral”, en lugar de la correcta concentración de los ingredientes. No se especifica cuáles son los ingredientes asociados. Problemas de funcionamiento: la herramienta no está preparada para combinaciones de principios activos.

Es necesario utilizar otras fuentes de información, como Vademécum para poder recuperar las concentraciones correctas de los medicamentos. Además es necesario que la herramienta sea capaz de realizar combinaciones donde, en lugar de buscar ingredientes concretos, se utilicen todos aquellos que pertenezcan a un determinado grupo, como las vitaminas. Otra solución necesaria es la de crear mapeados incompletos, ya que en estos casos no es posible asegurar que una combinación de principios activos represente exactamente los ingredientes que puedan estar presentes en el medicamento.

Error 6: Problema de conocimiento y de funcionamiento


salbutamol asoc. a otros antiasmaticos 10 ml aerosol dosis corticoides asociaciados a vitaminas 2 ml ampollas diflucortolona asociada a antiseptico 30 g crema fluorometolona asoc. a antiinfecciosos 5 ml colirio

Problema de conocimiento: presencia de abreviaturas desconocidas, como “asoc.” para “asociación”, que además se utiliza como separador de ingredientes. Faltan alguna o todas las concentraciones. “10 ml”, “2 ml”, “30 g” y “5 ml” se refiere a la cantidad total de producto, no a la concentración. Problemas de funcionamiento: la herramienta no está preparada para combinaciones de grupos de principios activos.

Es necesario utilizar otras fuentes de información, para recuperar listas de ingredientes que pertenezcan a un cierto grupo, como “antiasmáticos”. Además es necesario que la herramienta sea capaz de realizar combinaciones donde, en lugar de buscar ingredientes concretos, se utilicen todos aquellos que pertenezcan a un determinado grupo, como los antiasmáticos, vitaminas o antisépticos. Otra solución necesaria es la de crear mapeados incompletos, ya que en estos casos no es posible asegurar que una combinación de principios activos represente exactamente los ingredientes que puedan estar presentes en el medicamento.

Anexos!

188!

Error 7: Problemas de conocimiento Causas Propuesta de Solución hidrocortisona en asociacion 30 g pomada zinc oxido en asociacion 45 g pomada

Problemas de conocimiento: no se especifica cuáles son los ingredientes asociados, sino que se refieren sólo a uno de ellos (“100,00 mg”), o bien a la totalidad del producto (“30 g”).

La primera es utilizar otras fuentes de información, como Vademécum o los códigos ATC más actuales es posible obtener el resto de ingredientes y/o sus concentraciones.

Nota aclaratoria: En esta tabla se muestran los Nombres Implícitos (NI) donde han sido encontrados los errores, analizando sus causas y proponiendo soluciones específicas.

!

!

!

!

!

!

!

!

!

!

!

!

!

! ! Anexos!

! ! 189!

Tabla F.3. Errores encontrados en los resultados de la prueba global para el módulo AAO.

Error 1: Diferentes especificidades de ingrediente Causas Propuesta de Solución CEFOTAXIMA y CEFOTAXIMA sódica FLUOXETINA y clorhidrato de fluoxetina ONDANSETRON y clorhidrato de ondansetron RIZATRIPTAN y benzoato de rizatriptan AZITROMICINA y dihidrato de azitromicina QUINAPRIL y clorhidrato de quinapril PRAVASTATINA y pravastatina sódica CIPROFLOXACINA y bromhidrato de citalopram CLORDIAZEPOXIDO y clorhidrato de clordiazepoxido DIAZOXIDO y besilato de amlodipino ZOLPIDEM y tartrato de zolpidem EPROSARTAN y mesilato de eprosartan DOXAZOSINA y mesilato de doxazosina RANITIDINA y clorhidrato de ranitidina SELEGILINA y clorhidrato de selegilina TRIPTORELINA y acetato de triptorelina VALACICLOVIR y clorhidrato de valaciclovir QUETIAPINA y fumarato de quetiapina MONTELUKAST y montelukast sodico CLOPIDOGREL y bisulfato de clopidogrel ESCITALOPRAM y oxalato de escitalopram

Diferentes especificidades de ingrediente: Los ingredientes de DIGITALIS son menos específicos que los utilizados en SNOMED-CT.

Haciendo un estudio de cada caso, podrían añadirse como sinónimos en el lexicón de sinónimos de principios activos.

Error 2: Sinónimos de ingredientes desconocidos Causas Propuesta de Solución CIPROFLOXACINA y ciprofloxacino URSODESOXICOLICO ACIDO y ursodiol CLODRONICO ACIDO y clodronato OFLOXACINA y ofloxacino

Sinónimos de ingredientes desconocidos: Las etiquetas de ingredientes son sinónimas, pero dicho conocimiento no es conocido por la propuesta.

Añadirse como sinónimos en el lexicón de sinónimos de principios activos.

Anexos!

190!

Error 3: Uso de términos en inglés por parte de SNOMED-CT


CEFONICIDA y cefonicid ACECLOFENACO y aceclofenac

Uso de términos en inglés por parte de SNOMED-CT: La terminología de SNOMED-CT utiliza los términos en inglés de los principios activos, mientras que DIGITALIS utiliza el equivalente en castellano.


Error 4: Uso de términos en inglés por parte de DIGITALIS


AMISULPRIDE y amisulprida Uso de términos en inglés por parte de DIGITALIS: La terminología de DIGITALIS utiliza los términos en inglés de los principios activos, mientras que SNOMED-CT utiliza el equivalente en castellano.


Error 5: Problemas léxicos Causas Propuesta de Solución comprimido para administracion oral = comprimido efervescente = comprimido soluble comprimido desleible bucal = comprimido desleible

Problemas léxicos: Se han establecido como formas farmacéuticas tipos de formas muy similares léxicamente, pero diferentes ligeramente en su semántica, debido a que en SNOMED-CT pertenecen a diversas definiciones establecidas como sinónimas de un mismo concepto.

Estudiar cada caso individualmente, estableciendo una política de adición o exclusión dependiendo del estado de la descripción, o de su tipo. Por ejemplo, sólo utilizar la forma farmacéutica de las descripciones de tipo preferentes cuyo estado sea actual (marcado como current en SNOMED-CT).

Nota aclaratoria: En esta tabla se muestran los Nombres Implícitos (NI) donde han sido encontrados los errores, analizando sus causas y proponiendo soluciones específicas.

!

!

!

!

!

!

!!!!Bibliografía!

Agence nationale de sécurité du medicmaent et des produits de santé, ANSM. Dénomination

commune française. (2002). Pharmacopée française, 10th Ed.

Alfonseca, E. y Manandhar, S. (2002). An unsupervised method for general named entity

recognition and automated concept discovery. En Poceedings of the First International

Conference on General WordNet (pp. 1–9).

Andronache, A., Simoncello, A., Della Mea, V., Daffara, C. y Francescutti, C. (2012).

Semantic Aspects of the International Classification of Functioning, Disability and

Health: Towards Sharing Knowledge and Unifying Information. American Journal of

Physical Medicine & Rehabilitation, 91(13), 124–128.

doi:10.1097/PHM.0b013e31823d53ea.

Batet, M., Sánchez, D. y Valls, A. (2011). An ontology-based measure to compute semantic

similarity in biomedicine. Journal of Biomedical Informatics, 44(1), 118–125.

doi:10.1016/j.jbi.2010.09.002.

Berman, A. (2004). Reducing medication errors through naming, labeling, and packaging.

Journal of Medical Systems, 28(1), 9–29.

Bodenreider, O. (2008). Issues in mapping LOINC laboratory tests to SNOMED CT. En:

AMIA Annual Symposium Proceedings (pp. 51–55).

Boyce, R. D., Horn, J. R., Hassanzadeh, O., De Waard, A., Schneider, J., Luciano, J. S., …

Liakata, M. (2013). Dynamic enhancement of drug product labels to support drug

Bibliografía

!192!

safety, efficacy, and effectiveness. Journal of Biomedical Semantics, 4(1), 5.

doi:10.1186/2041-1480-4-5.

British Approved Names. (2007) British Approved Names booklet 2007 (Supplement No.4,

Effective date: 1 January 2011).

Castro, E., Iglesias, A., Martínez, P. y Castaño, L. (2010). Automatic identification of

biomedical concepts in spanish-language unstructured clinical texts. Proceedings of the

ACM international conference on Health informatics - IHI’10 (pp. 751–757). New

York, New York, USA: ACM Press. doi:10.1145/1882992.1883106.

CE, Comisión Europea. (2008, 18 de Julio). Recomendación de la Comisión sobre la

interoperabilidad transfronteriza de los sistemas de historiales médicos electrónicos de

2 de Julio [notificada con el número C(2008) 3282]. Diario Oficial de la Unión

Europea, L 190, 0037-0043.

Chapman, S. (2006). SimMetrics. Recuperado el 20 de Noviembre de 2011, desde

http://sourceforge.net/pro jects/simmetrics.

Choi, J., Choi, C., Choi, D., Koh, J., y Kim, P. (2011). Semantic relation extraction for

automatically building domain ontology using a link grammar. Proceedings of the 2011

ACM Symposium on Research in Applied Computation - RACS’11 (pp. 301–306).

doi:10.1145/2103380.2103443.

CliniClue. (2011). The Clinical Information Consultancy. CliniClue Xplore. Disponible en:

http://www.cliniclue.com/software.

Cruanes, J., Guillena, R., y Romá-Ferri, M. (2010). Proposal of a Methodological and

Technological Development for Automatic Ontology Extension. In 2nd International

Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge

Management (pp. 471–475).

Cruanes, J., Romá-Ferri, M. T. (2011). Propuesta de algoritmo para extender y poblar

ontologías. IV Jornadas Tratamiento de Información Multilingüe y Multimodal.

Cruanes, J., Romá-Ferri, M.T. y Lloret, E. (2012a). Measuring lexical similarity methods for

textual mapping in nursing diagnoses in Spanish and SNOMED-CT. Quality of Life

through Quality of Information, 255–259. doi:10.3233/978-1-61499-101-4-255.

! ! Bibliografía

! ! !193!

Cruanes, J., Romá-Ferri, M.T. y Lloret, E. (2012b). Análisis del uso de métodos de similitud

léxica con conocimiento semántico superficial para mapear la información de

enfermería en español. Procesamiento del Lenguaje Natural; 49: 75-82.

Cole, R. A., Mariani, J., Uszkoreit, H., Zaenen, A. y Zue, V. (1997). Survey of the state of

the art in human language technology. Cambridge University Press New York, NY,

EE.UU.

Deléger, L., Merkel, M. y Zweigenbaum, P. (2006). Using word alignment to extend

multilingual medical terminologies. En: Proceedings LREC Workshop Acquiring and

representing multilingual, specialized lexicons: the case of biomedicine (pp 9–14).

Digitalis, Base de datos Nomenclátor Digitalis (s.f.). Dirección General de Farmacia y

Productos Sanitarios. Ministerio de Sanidad, Servicios Sociales e Igualdad. Disponible

en: http://www.msc.es/profesionales/farmacia/nomenclatorDI.htm.

Farfán Sedano, F. J., Terrón Cuadrado, M., García Rebolledo, E. M., Castellanos Clemente,

Y., Serrano Balazote, P. y Gómez Delgado, A. (2009). Implementation of SNOMED

CT to the medicines database of a general hospital. Studies In Health Technology And

Informatics, 148 (pp. 123–130).

Fernández, J., Izquierdo, R. y Gómez, J. (2010). Using wordnet relations and semantic

classes in information retrieval tasks. Lecture Notes in Computer Science, 6241, 158–

165.

Ferrández Escámez, Ó. (2009). Textual entailment recognition and its applicability in NLP

tasks. Framework. Sociedad Española para el Procesamiento del Lenguaje Natural.

Alicante, Spain.

Ferrández, Ó., Izquierdo, R., Ferrández, S. y Vicedo, J. L. (2009). Addressing ontology-

based question answering with collections of user queries. Information Processing &

Management, 45(2), 175–188. doi:10.1016/j.ipm.2008.09.001.

Friedman, C., Rindflesch, T. C. y Corn, M. (2013). Natural language processing: state of the

art and prospects for significant progress, a workshop sponsored by the National

Library of Medicine. Journal of Biomedical Informatics, 46(5), 765–73.

doi:10.1016/j.jbi.2013.06.004.

Fung, K. W., y Bodenreider, O. (2005). Utilizing the UMLS for semantic mapping between

terminologies. En: AMIA Annual Symposium Proceedings (pp. 266–270).

Bibliografía

!194!

Gruber, T. R. R. (1995). Toward principles for the design of ontologies used for knowledge

sharing. International Journal of Human Computer Studies, 43(5), 907–928.

doi:10.1006/ijhc.1995.1081.

Haug P., Koehler S., Lau L. M., Wang P., Rocha R. y Huff S. A. (1994). A natural language

understanding system combining syntactic and semantic techniques. En: Proceedings

Symposium on Computer Application in Medical Care (pp. 247-251).

Hepler, C. y Strand, L. (1990). Opportunities and responsibilities in pharmaceutical care.

American Journal of Hospital Pharmacy, 47, (pp. 533–543).

Hernandez, P., Podchiyska, T., Weber, S., Ferris, T. y Lowe, H. (2009). Automated mapping

of pharmacy orders from two electronic health record systems to RxNorm within the

STRIDE clinical data warehouse. AMIA Annual Symposium proceedings (pp. 244–

248).

Hripcsak G., Friedman C., Alderson P. O., DuMochuel W., Johnson S. B. y Clayton P. D.

(1995). Unlocking clinical data from narrative reports. Annals of Internal Medicine,

122 (9) (pp. 681-688).

International Health Terminology Standards Development Organisation, IHTSDO (2010).

SNOMED Clinical Terms User Guide. Disponible en: http://www.snomed.org/ug.pdf.

Iglesias, A., Castro, E., Pérez, R., Castaño, L., Martínez, P., Gómez-Pérez, J. M., … Melero,

R. (2008). MOSTAS: un etiquetador morfo-semántico, anonimizador y corrector de

historiales clínicos. Procesamiento del Lenguaje Natural, 41 (pp. 299–300).

Indarte, S. (2012). Interoperabilidad. En: J. Carnicero y A. Fernández (Eds.), Manual de

Salud Electrónica para directivos de servicios y sistemas de salud (pp. 317–329).

Madrid: Sociedad Española de Informática en Salud.

Ley de garantías y uso racional de los medicamentos y productos sanitarios, publicada el 26

de julio en el B.O.E. Ley 29/2006. Disponible en:

http://www.boe.es/boe/dias/2006/07/27/pdfs/A28122-28165.pdf.

Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Persona.

Liu, H., Christiansen, T., Baumgartner, W. A. y Verspoor, K. (2012). BioLemmatizer: a

lemmatization tool for morphological processing of biomedical text. Journal of

biomedical semantics, 3(1), 3. doi:10.1186/2041-1480-3-3.

! ! Bibliografía

! ! !195!

Liu, S., Ma, W., Moore, R., Ganesan, V. y Nelson, S. (Octubre 2005). RxNorm: prescription

for electronic drug information exchange. IT professional, 7(5) (pp. 17–23).

Lloret, E. (2011). Text Summarisation based on Human Language Technologies and its

Applications. Universidad de Alicante. Tesis doctoral. Departamento de Lenguajes y

Sistemas Informáticos. Universidad de Alicante, Alicante, Spain.

Mabotuwana, T., Lee, M. C. y Cohen-Solal, E. V. (2013). An ontology-based similarity

measure for biomedical data-application to radiology reports. Journal of Biomedical

Informatics, 46(5), 857–68. doi:10.1016/j.jbi.2013.06.013

Makki, J., Alquier, A. M. y Prince, V. (2008). An NLP-based ontology population for a risk

management generic structure. En: Proceedings of the 5th International Conference on

Software Computing as Transdisciplinary Science and Technology ACM (pp. 350–

355).

Martí, M. A., Alonso, J. A., Badia, T., Campàs, J., Gómez, X., Gonzalo, J., … Verdejo, M.

F. (2003). Tecnologías del lenguaje. Publicacions de la UOC, EDIUOC.

McCray AT. (1991). Extending a natural language parser with UMLS knowledge. En:

Proceedings Symposium on Computer Application in Medical Care (pp. 194-198).

Mcnaught, A. D. y Wilkinson, A. (1997). Compendium of Chemical Terminology, 2nd ed.

WileyBlackwell.

Meizoso, M., Allones, J., Taboada, M., Martinez, D. y Tellado, S. (2011). Automated

mapping of observation archetypes to SNOMED CT concepts. Foundations on Natural

and Artificial Computation, 550–561.

Merabti, T., Joubert, M., Lecroq, T., Rath, A., y Darmoni, S. J. (2010). Mapping biomedical

terminologies using natural language processing tools and UMLS: Mapping the

Orphanet thesaurus to the MeSH. Ingénierie et Recherche Biomédicale/BioMedical

Engineering and Research, 31(4), 221–225. doi:10.1016/j.irbm.2010.04.003.

Meystre, S. M., Friedlin, F. J., South, B. R., Shen, S., y Samore, M. H. (2010). Automatic

de-identification of textual documents in the electronic health record: a review of recent

research. BMC Medical Research Methodology, 10, 70. doi:10.1186/1471-2288-10-70.

Ministerio de Sanidad y Consumo (2008). Las TIC en el Sistema Nacional de Salud. El

programa Sanidad en Línea. Red.es. Disponible en:

Bibliografía

!196!

http://www.ontsi.red.es/ontsi/es/estudios-informes/las-tic-en-el-sistema-nacional-de-

salud.

Moore G. W. y Berman J. J. (1994). Automatic SNOMED coding. En: Proceedings

Symposium on Computer Application in Medical Care (pp. 225-229).

Moreno Boronat, L., Palomar Sanz, M., Molina Marco, A. y Ferrández Rodríguez, A.

(1999). Introducción al procesamiento del Lenguaje Natural.

Mougin, F., Dupuch, M. y Grabar, N. (2011). Improving the mapping between MedDRA and

SNOMED CT. Artificial Intelligence in Medicine, 6747 (pp. 220–224).

Mougin, F., Burgun, A. y Bodenreider, O. (2012). Comparing drug-class membership in

ATC and NDF-RT. En: Proceedings of the 2nd ACM SIGHIT Symposium on

International Health Informatics (pp. 437–443). doi:10.1145/2110363.2110413.

Nadkarni, P. M. y Darer, J. D. (2010). Determining correspondences between high-

frequency MedDRA concepts and SNOMED: a case study. BMC Medical Informatics

and Decision Making, 10(1), 66. doi:10.1186/1472-6947-10-66.

Nelson, S. J., Brown, S. H., Erlbaum, M. S., Olson, N., Powell, T., Carlsen, B., … Hole, W.

T. (2002). A semantic normal form for clinical drugs in the UMLS: early experiences

with the VANDF. En AMIA Annual Symposium Proceedings (pp. 557–561).

Nyström, M., Vikström, A., Nilsson, G. H., Åhlfeldt, H., y Örman, H. (2010). Enriching a

primary health care version of ICD-10 using SNOMED CT mapping. Journal of

biomedical semantics, 1(1), 7. doi:10.1186/2041-1480-1-7.

O’Neill, S. y Bell, D. (2010). Evaluation of RxNorm for Representing Ambulatory

Prescriptions. In AMIA Annual Symposium Proceedings (pp. 562–566).

Pablo-Sánchez, C., de Martínez, J. L., García-Ledesma, A., Samy, D., Martínez, P., Moreno-

Sandoval, A. y Al-Jumaily, H. (2007). Miracle question answering system for spanish

at clef 2007. En: CLEF 2007 Working Notes. Budapest, Hungary.

Pathak, J. y Chute, C. G. (2010). Analyzing categorical information in two publicly available

drug terminologies: RxNorm and NDF-RT. Journal of the American Medical

Informatics Association, 17(4) (pp. 432–439). doi:10.1136/jamia.2009.001289.

! ! Bibliografía

! ! !197!

Patrick, J., y Budd, P. (2006). Automatic conversion of clinical notes into snomed ct at point

of care. En: Proceedings of HIC2006 and HINZ2006 (pp. 209–213).

Patrick, J., Wang, Y. y Budd, P. (2007). An automated system for conversion of clinical

notes into SNOMED clinical terminology. En: Proceedings of the fifth Australasian

Symposium on ACSW frontiers, 68 (pp. 219–226). Australian Computer Society, Inc.

Pedersen, T., Pakhomov, S. V. S., Patwardhan, S., y Chute, C. G. (2006). Measures of

semantic similarity and relatedness in the biomedical domain. Journal of biomedical

informatics, 40(3), 288–99. doi:10.1016/j.jbi.2006.06.004.

Peregrino Torregrosa, F., Tomás Díaz, D., y Llopis Pascual, F. (2013). A corpus-based

approach to geographical focus detection in text. Sociedad Española para el

Procesamiento del Lenguaje Natural, 50, 69–76.

Peters, L., Kapusnik-uner, J. E., Pharm, D., y Bodenreider, O. (2010). Methods for

Managing Variation in Clinical Drug Names. En AMIA Annual Symposium

proceedings (Vol. 2010, pp. 637–641).

Real Academia Española, RAE (2001). Diccionario de la lengua española [en línea].

Vigésimo segunda edición. Recuperado el 23 de enero de 2014, desde

http://www.rae.es/.

Real Decreto 1348/2003, de 31 de octubre, por el que se adapta la clasificación anatómica de

medicamentos al sistema de clasificación ATC. (2003, 4 de noviembre). Boletín Oficial

del Estado, 264, 38970-39019.

Real Decreto 1345/2007, de 11 de octubre, por el que se regula el procedimiento de

autorización, registro y condiciones de dispensación de los medicamentos de uso

humano fabricados industrialmente. (2007, 7 de noviembre). Boletín Oficial del Estado,

267, 45652-45698.

Real Decreto 1720/2007, de 21 de diciembre, por el que se aprueba el Reglamento de

desarrollo de la Ley Orgánica 15/1999, de 13 de diciembre, de protección de datos de

carácter personal. (2008, 19 de enero). Boletín Oficial del Estado, 4103-4136, BOE-A-

2008-979.

Real Decreto 1093/2010, de 3 de septiembre, por el que se aprueba el conjunto mínimo de

datos de los informes clínicos en el Sistema Nacional de Salud. (2010, 16 de

septiembre). Boletín Oficial del Estado, 78742-78767, BOE-A-2010-14199.

Bibliografía

!198!

Regidor, E. y Guitiérrez-Fisac, J.L. (2013). Patrones de mortalidad en España, 2010. Madrid:

Ministerio de Sanidad, Servicios Sociales e Igualdad.

Romá-Ferri, M. T. (2009). OntoFIS: Tecnología ontológica en el dominio

farmacoterapéutico. Tesis doctoral. Departamento de Lenguajes y Sistemas

Informáticos. Alicante, Universidad de Alicante (pp. 110–130).

Romá-Ferri, M. T., Cruanes, J. y Palomar, M. (2009). Quality Indicators of the

“OntoFIS”Pharmacotherapeutics Ontology for Semantic Interoperability. En:

Proceedings IADIS International Conference e-Health 2009 (pp. 107–114).

Romá-Ferri, M. T. y Palomar, M. (2008). Análisis de terminologías de salud para su

utilización como ontologías computacionales en los sistemas de información clínicos.

Gaceta Sanitaria, 22(5) (pp. 421–433).

Sager, N., Friedman, C., Lyman, M. S., y miembros del Linguistic String Project. (1987).

Medical language processing : computer management of narrative data. Addison-

Wesley, Reading, MA.

Saitwal, H., Qing, D., Jones, S., Bernstam, E. V, Chute, C. G., y Johnson, T. R. (2012).

Cross-terminology mapping challenges: a demonstration using medication

terminological systems. Journal of Biomedical Informatics, 45(4), 613–25.

doi:10.1016/j.jbi.2012.06.005.

Sánchez, D. y Moreno, A. (2008). Learning medical ontologies from the web. Knowledge

Management for Health Care Procedures, 32–45.

Schulz, S. y Klein, G. O. (2008). SNOMED CT - advances in concept mapping, retrieval,

and ontological foundations. BMC Medical Informatics and Decision Making, 8 Suppl

1, S1. doi:10.1186/1472-6947-8-S1-S1.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 34(1), 1–47. doi:10.1145/505282.505283.

Simón-Cuevas, A., Ceccaroni, L., Rosete-Suárez, A. y Suárez-Rodríguez, A. (2009). A

Formal Modeling Method Applied to Environmental-Knowledge Engineering. En 2009

International Conference on Complex, Intelligent and Software Intensive Systems (pp.

1132–1137). IEEE. doi:10.1109/CISIS.2009.55.

Stenzhorn, H., Pacheco, E. J., Nohama, P., y Schulz, S. (2009). Automatic mapping of

clinical documentation to SNOMED CT. Medical Informatics in a United and Healthy

! ! Bibliografía

! ! !199!

Europe. Stud Health Technol Inform (pp. 228–232). doi:10.3233/978-1-60750-044-5-

228.

Studer, R., Benjamins, V. R., y Fensel, D. (1998). Knowledge engineering: principles and methods. Data & knowledge engineering, 25(1-2) (pp. 161–197).

Vademécum Internacional, información de medicamentos. (s.f.). M Vademécum.es. CMP

Medica España. Recuperado el 9 de febrero de 2013, desde

http://www.vademecum.es/index.cfm.

Valencia-Garcia, R., Ruiz-Sánchez, J. M., Vivancos-Vicente, P. J., Fernández-Breis, J. T. y

Martínez-Béjar, R. (2004). An incremental approach for discovering medical

knowledge from texts. Expert Systems with Applications, 26(3) (pp. 291–299).

doi:10.1016/j.eswa.2003.09.001.

Wang, Y., Patrick, J., Miller, G. y O’Halloran, J. (2006). Linguistic mapping of

Terminologies to SNOMED CT. En Proceedings of Semantic Mining Confer- ence on

SNOMED. Copenhagen.

Wang, Y., Patrick, J., Miller, G. y O’Hallaran, J. (2008). A computational linguistics

motivated mapping of ICPC-2 PLUS to SNOMED CT. BMC Medical Informatics and

Decision Making, 8 Suppl 1, S5. doi:10.1186/1472-6947-8-S1-S5.

World Health Organization, WHO. International Nonproprietary Names. Disponible en:

http://www.who.int/medicines/services/inn/en/index.html.

World Health Organization Collaborating Center, WHOCC. (2014). ATC/DDD Index.

Disponible en: http://www.whocc.no/atc_ddd_index.

Wu, S. y Liu, H. (2011). Semantic characteristics of NLP-extracted concepts in clinical notes

vs. biomedical literature. En: AMIA Annual Symposium Proceedings (pp. 1550–1558).

Zhou, L., Plasek, J. M., Mahoney, L. M., Karipineni, N., Chang, F., Yan, X., … Rocha, R.

A. (2011). Using Medical Text Extraction, Reasoning and Mapping System

(MTERMS) to Process Medication Information in Outpatient Clinical Notes. AMIA

Annual Symposium proceedings (pp. 1639–1648).

Zhou, L., Plasek, J. M., Mahoney, L. M., Chang, F. Y., DiMaggio, D. y Rocha, R. A. (2012).

Mapping Partners Master Drug Dictionary to RxNorm using an NLP-based approach.

Journal of Biomedical Informatics, 45 (pp. 626–633). doi:10.1016/j.jbi.2011.11.006.

Bibliografía

!200!

Zwaanswijk, M., Verheij, R., Wiesman, F., y Friele, R. (2011). Benefits and problems of

electronic information exchange as perceived by health care professionals: an interview

study. BMC Health Services Research, 11(256) (pp. 1–10). doi:10.1186/1472-6963-11-

256.

Una aproximación léxico/semántica para el …...I!!!!! Agradecimientos!! En primer lugar a mis...

Documents

Transcript of Una aproximación léxico/semántica para el …...I!!!!! Agradecimientos!! En primer lugar a mis...