Post on 08-Jan-2016
description
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
1
Hacia un modelo lingüístico de resumen automático
de artículos médicos en español
Iria da Cunha Fanego 2008
Codirigida por: Leo Wanner y M. Teresa Cabré CastellvíPrograma de doctorado:
Ciències del Llenguatge i Lingüística Aplicada (2002-2004)Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
2
1. Introducción2. Estado de la cuestión3. El artículo médico4. Marco teórico5. Corpus6. Análisis del corpus7. Desarrollo del modelo de resumen8. Implementación del modelo9. Aplicación del modelo y resultados10. Evaluación11. Conclusiones 12. Líneas de trabajo futuro
Guión de la presentación
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
3
Tema de la tesis
En esta tesis se propone una metodología para desarrollar un modelo de resumen automático basado en información lingüística de varios tipos.
El modelo intenta “simular” la manera de resumir de los especialistas de un ámbito, en concreto, de la medicina.
Mediante este modelo pueden obtenerse resúmenes de diferentes longitudes y características, es decir, resúmenes adaptados según las necesidades de cada uno.
Introducción
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
4
Definición y parámetros de elaboración del resumen
Fuente Único documento / Varios documentos
Dominio específico / Ámbito general
Texto monolingüe / Texto multilingüe
Resultado Resumen por extracción / Resumen por abstracción
Resumen neutral / Resumen evaluativo
Propósito del resumen
Resumen informativo / Resumen indicativo
Necesidades del autor / Necesidades del usuario
Destinatario experto / Destinatario lego
Introducción
“a condensed version of a source document having a recognizable genre and a very specific purpose: to give the reader an exact and concise idea of the contents of the source” (Saggion y Lapalme 2002)
“an abbreviated, accurate representation of the contents of a document, preferably prepared by its author(s) for publication with it” (ANSI)
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
5
Objetivos de la tesis
1. Analizar los resúmenes que los profesionales de un dominio especializado realizan de sus textos e identificar las estrategias que emplean de cara a desarrollar un modelo de resumen por extracción que las aplique.
2. Formalizar las estrategias empleadas por los especialistas mediante alguna estructura lingüística.
3. Encontrar un modo de integración de estas estrategias.
4. Implementar una parte del modelo de resumen.
5. Desarrollar un método de anotación lingüística eficaz para compensar la parte del modelo que no se pueda implementar por completo.
6. Constatar que es necesario explotar diversas informaciones lingüísticas de los textos para llegar a un resumen adecuado.
Introducción
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
6
Hipótesis o ideas de partida
1. Los profesionales de un dominio emplean técnicas específicas para resumir sus textos especializados diferentes a las utilizadas para resumir discurso general.
1.1. Estas técnicas se pueden formalizar mediante reglas que formen parte de un modelo de resumen automático que las aplique.
2. La utilización de un solo tipo de información lingüística o solamente de la estadística no es suficiente para llegar a un resumen adecuado y deben integrarse informaciones lingüísticas de varios tipos para poder llegar a una completa representación de los textos y a un posterior resumen de los mismos: información textual, léxica, discursiva y sintáctico-comunicativa.
Introducción
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
7
Estado de la cuestión
Técnicas para resumen automático
Nivel superficial
Nivel medio
Nivel profundo
Combinación de técnicas lingüísticas
Frecuencias de palabrasTítulosPosición de fragmentosPalabras o frases claveTécnicas estadísticas Aprendizaje automático
Cadenas léxicasCorreferencia / detección de anáforasMáxima de Relevancia MarginalRhetorical Structure TheoryEstructura retórica no jerárquicaRasgos superficiales de la estructura discursivaSuperficialesSuperficiales + detección de anáforas + conectores discursivosCadenas léxicas + estructura retóricaPragmática + retórica
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
8
Resumen de textos especializados
Estado de la cuestión
Textos especializados en general
Textos médicos
Resumen manual
Resumen manual
Resumen automático
Resumen automático
Swales 1981Graetz 1985Fluck 1988Kaplan et al. 1994Ciapuscio 1998
Luhn 1959Lehmam 1995Saggion y Lapalme 2000 Pollock y Zamora 1975Abracos y Lopes 1997Teufel y Moens 2002Farzindar et al. 2004
Swales 1981Salager-Meyer 1990
Damianos et al. 2002Johnson et al. 2002Gaizauskas et al. 2001Lenci et al. 2002 Kan 2003
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
9
Estructura y contenido
Fundamento Pacientes y métodos
Resultados Discusión
Agradecimientos (opcional)
Bibliografía
Resumen en español
Palabras clave en español
Resumen en inglés (abstract)
Palabras clave en inglés (keywords)
Título del artículo
El artículo médico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
10
Resumen del autor como punto de referencia
01101
01001
11111
10101
11110
01101
01001
11111
10101
11110
Vector Space Model
Plot of Comp 2 vs Comp 1
Comp 1
Com
p 2
Lectorautor ling1 A ling2 Ca ling3 Ro ling4 Am ling5 Ri ling6 Ro med1 Dan med2 Iri med3 Edu med4 Víc med5 Mar med6 Mº
-1,5 -1 -0,5 0 0,5 1 1,5-3,3
-2,3
-1,3
-0,3
0,7
1,7
Plot of Comp 2 vs Comp 1
Comp 1
Com
p 2
Lectorautor ling1 A ling2 Ca ling3 Ro ling4 Am ling5 Ri ling6 Ro med1 Dan med2 Iri med3 Edu med4 Víc med5 Mar med6 Mº
-1,5 -1 -0,5 0 0,5 1 1,5-3,3
-2,3
-1,3
-0,3
0,7
1,7
Proyección BidimensionalAutor
Dr. 1
Dr. 2
Dr. 3
Dr. 4
Dr. 5
Dr. 6
Ling. 1
Ling. 2
Ling. 3
Ling. 4
Ling. 5
Ling. 6
Resúmenes
DendrogramW ard's M ethod,Euclidean
Dis
tan
ce
0
2
4
6
8
10
au
tor
lin
g1
An
na
lin
g2
Ca
rme
lin
g3
Ro
ge
lin
g4
Am
or
lin
g5
Ric
ard
o
lin
g6
Ro
dri
me
d1
Da
ni
me
d2
Iria
me
d3
Ed
u
me
d4
Víc
to
me
d5
Ma
ria
me
d6
MºJ
A M1 M3 M2 M4 M5 M6 L1 L2 L3 L5 L4 L6
DendrogramW ard's M ethod,Euclidean
Dis
tan
ce
0
2
4
6
8
10
au
tor
lin
g1
An
na
lin
g2
Ca
rme
lin
g3
Ro
ge
lin
g4
Am
or
lin
g5
Ric
ard
o
lin
g6
Ro
dri
me
d1
Da
ni
me
d2
Iria
me
d3
Ed
u
me
d4
Víc
to
me
d5
Ma
ria
me
d6
MºJ
A M1 M3 M2 M4 M5 M6 L1 L2 L3 L5 L4 L6
El artículo médico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
11
Contenido A M1
M2
M3
M4
M5
M6
L1
L2
L3
L4
L5
L6
Entre el 20 y el 80% de las visitas a los servicios de urgencias hospitalarios son inapropiadas.
1 1 1 1 1 1 1 1 1 1 1 1 0
Se evaluaron las visitas a un servicio de urgencias hospitalarias mediante un Protocolo de Adecuación de Urgencias Hospitalarias, previamente validado.
1 1 1 1 1 1 1 1 1 1 1 1 0
El 37,9% de las visitas fueron inapropiadas
1 1 1 1 1 1 1 0 0 1 1 0 1
y más frecuentes en la población pediátrica.
1 1 1 1 1 1 1 1 1 1 1 1 1
Los pacientes enviados por un médico, con traumatismos o proceso quirúrgico visitaron las urgencias más adecuadamente.
1 1 1 1 1 1 1 1 1 1 0 1 1
La adecuación de las visitas al servicio de urgencias se relaciona con el tipo de enfermedad.
1 0 0 0 0 0 0 0 0 0 0 0 0
El artículo médico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
12
Plot of Comp 2 vs Comp 1
Comp 1
Com
p 2
Lectorautor ling1 A ling2 Ca ling3 Ro ling4 Am ling5 Ri ling6 Ro med1 Dan med2 Iri med3 Edu med4 Víc med5 Mar med6 Mº
-1,5 -1 -0,5 0 0,5 1 1,5-3,3
-2,3
-1,3
-0,3
0,7
1,7
El artículo médico
Multidimensional Scaling
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
13
DendrogramWard's Method,Euclidean
Dis
tanc
e
0
2
4
6
8auto
r
ling1Anna
ling2C
arm
e
ling3R
oge
ling4Am
or
ling5R
icard
o
ling6R
odri
med1D
ani
med2Iria
med3Edu
med4Víc
to
med5M
aria
med6M
ºJA M5 M1 M2 M4 M3 M6 L1 L2 L3 L4 L5 L6
El artículo médico
Clustering no supervisado
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
14
Conclusiones generales1. Los profesionales médicos adoptan estrategias diferentes en la
selección de los contenidos relevantes para sus resúmenes a las empleadas por profesionales de otros ámbitos.
2. Los profesionales de un colectivo tienden a seleccionar los mismos fragmentos de contenido para sus resúmenes.
3. Los resúmenes realizados por profesionales pueden emplearse para extraer criterios sobre cómo debe resumirse un texto especializado de un determinado ámbito y como punto de referencia para una posterior evaluación de un modelo de resumen.
Conclusiones específicas1. El resumen incluye información de los 4 apartados del artículo.2. El resumen suele incluir información numérica en los apartados
de Pacientes y métodos y Resultados.3. El resumen no incluye definiciones, datos históricos, o referencias
a trabajos previos o relacionados.4. El apartado de Discusión del resumen no es más extenso que los
otros.
El artículo médico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
15
Cómo obtener un resumen adecuado
El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos:
Estructura textual del documento
Unidades léxicas representativas
Estructura discursiva
Estructura sintácticaEstructura comunicativa
Marco teórico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
16
Cómo obtener un resumen adecuado
El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos:
Estructura textual del documento
Unidades léxicas representativas
Estructura discursiva
Estructura sintácticaEstructura comunicativa
Rhetorical Structure Theory (RST)
Marco teórico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
17
Cómo obtener un resumen adecuado
El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos:
Estructura textual del documento
Unidades léxicas representativas
Estructura discursiva
Estructura sintácticaEstructura comunicativa
Rhetorical Structure Theory (RST)
Teoría Sentido-Texto (TST)
Marco teórico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
18
1. Rhetorical Structure Theory (Mann y Thompson 1988)
– Teoría discursiva de organización del texto.– Estructura jerárquica.– Patrones núcleo-satélites.– Relaciones discursivas: Elaboración, Evidencia, Propósito,
Condición, Contraste, etc.
Marco teórico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
19
2. Teoría Sentido-Texto (Mel’cuk 1988, 2001)
– Estructura sintáctica profunda de dependencias (elementos actanciales, elementos atributivos, apenditivos y coordinativos).
– Estructura comunicativa (tema / rema).
TEMA
REMA
Marco teórico
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
20
Subcorpus de referencia– 50 artículos médicos + 50 resúmenes (Medicina Clínica / CT del
IULA).– 3 condiciones:
• artículos originales,• temas de actualidad (cáncer, sida, alcoholismo, anorexia,
etc.),• publicación entre 1992 y 2002.
Subcorpus de contraste– Subcorpus de contraste para la 1ª evaluación:
• 5 artículos originales, • 5 resúmenes de los autores,• 5 resúmenes por extracción realizados por 5 médicos.
– Subcorpus de contraste para la evaluación final:• 10 artículos originales,• 10 resúmenes de los autores,• 10 resúmenes por extracción realizados por 3 médicos,• 10 resúmenes por abstracción redactados por 3 médicos.
Corpus
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
21
Análisis de los artículos y los resúmenesdel corpus de referencia
I. Estructura textual.II. Unidades léxicas (indicadoras de relevancia o de no
relevancia).III. Estructura discursiva y sintáctico-comunicativa.
Análisis del corpus
Para averiguar las estrategias presumiblemente empleadas por los especialistas a la hora de resumir los textos de su ámbito.
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
22
I. Análisis de la estructura textual 1. Análisis de los subtítulos de los artículos médicos y de los resúmenes del subcorpus de referencia con el objetivo de constatar que ambos siguen la estructura IMRD (Swales 1981).
2. Análisis de la relevancia de determinados fragmentos teniendo en cuenta su posición dentro del texto (Edmunson 1969; Hovy y Lin 1997, 1999).
Análisis del corpus
Apartado del artículo Selección basada en posición
Fundamento 3 últimas oraciones
Pacientes y métodos 2 primeras oraciones
Resultados 2 primeras oraciones
Discusión 3 primeras o 3 últimas oraciones
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
23
II. Análisis de unidades léxicas
Análisis de unidades léxicas indicadoras de relevancia1. Unidades léxicas nominales: objetivo, objeto, propósito…2. Unidades léxicas verbales: realizar, estudiar, presentar,
analizar…3. Unidades léxicas incluidas en el título del artículo (Luhn 1959).4. Formas verbales en 1ª persona del plural (Torii y Vijay-Shanker
2005).5. Unidades numéricas en Pacientes y métodos y Resultados.
Análisis de unidades léxicas indicadoras de no relevancia1. Unidades léxicas que ser refieran a datos estadísticos o
computacionales (Ejs. ELISA, SPSS, ANOVA…). 2. Unidades léxicas que ser refieran a tablas o figuras (Ejs. Tabla 1,
Figuras 7 y 8…).3. Unidades léxicas que ser refieran a definiciones (Ejs. se define
como, definición…).4. Unidades léxicas que ser refieran a trabajos previos o
relacionados (Ejs. et al, otros autores…).
Análisis del corpus
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
24
III. Análisis de la estructura discursiva y sintáctico-comunicativa
1. Análisis de la estructura discursiva (RST).2. Análisis de la estructura sintáctica (TST).3. Análisis de la estructura comunicativa (TST).
Metodología de análisis:– analizar las estructuras discursivas, sintácticas y
comunicativas existentes en los artículos del subcorpus de referencia,
– observar qué fragmentos de los artículos originales incluyen los médicos en sus resúmenes,
– comprobar si en esas informaciones se dan regularidades en la estructura discursiva, sintáctica y/o comunicativa.
Análisis del corpus
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
25
FUNDAMENTO (del artículo)[En la enfermedad isquémica coronaria (EIC) se han descrito diferentes alteraciones en la circulación sistémica del sistema hemostático, existiendo muy poca información de los posibles cambios que pueden acontecer en la circulación coronaria, cerca de la lesión trombótica y sus diferencias con las alteraciones encontradas a nivel periférico.]1 [La angioplastia transluminal percutánea coronaria (ATPC) ha supuesto un importante avance en el tratamiento de la EIC.]2 [La ATPC generalmente ocasiona una dilatación del diámetro coronario, bien por dilatación directa del fragmento arterial estenosado, o bien por fractura de la placa de ateroma.]3 [La alteración de la pared vascular ocasionada con este procedimiento puede exponer a la circulación nuevas superficies, como subendotelio, placa aterosclerótica o pared media vascular, aumentando el riesgo de formación de trombos.]4 [En este sentido, es conocido el riesgo de oclusión arterial aguda o tardía tras la ATPC,]5 [aunque existen pocos datos que documenten los cambios hemostáticos in situ ocasionados por esta técnica.]6[Nos planteamos este trabajo con el doble objetivo de investigar si en los enfermos con EIC existen diferencias en distintas variables hemostáticas al efectuar sus determinaciones en la sangre obtenida del seno coronario (SC) respecto a la obtenida de la circulación periférica (CP), así como los posibles cambios que la ATPC pudiera producir en la hemostasia en ambos lugares.]7
FUNDAMENTO (del resumen)Se comparan las variaciones hemostáticas en el seno coronario (SC) y en la circulación periférica (CP) en los pacientes con enfermedad isquémica coronaria (EIC), y se evalúa el efecto de la angioplastia transluminal percutánea (ATPC).
Satélite de Background
Núcleo de Background
Análisis del corpus
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
26
A) Se eliminan los satélites de Concesión, Reformulación, Resultado, Justificación y Circunstancia.
B) Se eliminan los núcleos de Interpretación y Evidencia.
C) No se separan los satélites de Condición y Resumen de sus núcleos.
D) No se separan los núcleos de Contraste, Unión, Lista y Secuencia.
E) Se eliminan los elementos apenditivos.
F) Se eliminan los satélites de Elaboración correspondientes a elementos atributivos (en concreto, explicativos).
G) Se eliminan los satélites de Elaboración referentes al tema de su núcleo.
H) No se eliminan los satélites de Elaboración referentes al rema de su núcleo.
Análisis del corpus
Regularidades discursivas y sintáctico-comunicativas
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
27
Aplicación de reglas discursivo-sintáctico-comunicativas (DISICO): propuesta de oraciones y/o fragmentos de oraciones candidatos a ser eliminados
2) Nivel léxico
3) Nivel discursivo y sintáctico-comunicativo
Aplicación de reglas léxicas: puntuación de oraciones Aplicación de reglas léxicas: eliminación de oraciones (o fragmentos de oraciones)
Aplicación de reglas de puntuación de oraciones
Resumen
1) Nivel textual Aplicación de reglas textuales: división del texto en apartados y puntuación de oraciones
Texto original
Fase I
Fase II
Desarrollo del modelo de resumen
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
28
Formalización de reglas textualesIF sentence s is one of the 3 last sentences of the Introduction section
THEN s s s
Formalización de reglas basadas en unidades léxicasIF sentence s contains a verbal form in 1st person plural
THEN s s s
IF sentence s contains definition or introduction d of a new concept c THEN IF d appears in parentheses THEN ELIMINATE the parenthesis from s
ELSE IF |Secs.rem| > 1 ELIMINATE s from Secs.rem
Formalización de reglas DISICOIF S is satellite of a BACKGROUND relation B
THEN IF |SecSAT.rem| > 1 ELIMINATE S
Desarrollo del modelo de resumen
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
29
Clasificación extraída de Amigó (2006).
Estado de la cuestón
Métodos de evaluación de resúmenes
Métodos intrínsecos
Métodos extrínsecos
Basados en la coherencia del resumen
Basados en la cobertura de contenidos
Cobertura sobre las fuentes originales
Cobertura sobre resúmenes modelo
Desarrollo del modelo de resumen
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
30
Clasificación extraída de Amigó (2006).
Estado de la cuestión
Métodos de evaluación de resúmenes
Métodos intrínsecos
Métodos extrínsecos
Basados en la coherencia del resumen
Basados en la cobertura de contenidos
Cobertura sobre las fuentes originales
Cobertura sobre resúmenes modelo
ROUGE
Distancia Euclidiana
Desarrollo del modelo de resumen
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
31
1ª evaluación del modelo
Comparación: 5 resúmenes de nuestro modelo + 5 resúmenes de los autores + 5 resúmenes de 3 médicos + 5 resúmenes baseline.
ROUGE
Distancia Euclidiana
Desarrollo del modelo de resumen
Médico 1
Médico 3Vector 7:1
Autor
ModeloMédico 2
Vector 6:0
ROUGE (media) ROUGE-2 ROUGE-SU-4
nuestro modelo 0,6570 0,6321
baseline 0,2980 0,2646
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
32
Reglas textuales y léxicas: implementación en Perl.
Reglas DISICO
Problemas: carencia de analizadores discursivos y comunicativos, limitaciones de los analizadores sintácticos de dependencias.
Solución: ofrecer al resumidor los textos ya etiquetados.
1. Etiquetaje lingüístico oracional: resumen por extracción.• Uso de una base de datos. • Implementación de las reglas del modelo: SQL.
2. Etiquetaje lingüístico intraoracional: resumen por extracción + compresión.
• Diseño de un conjunto de etiquetas XML en 3 niveles.• Diseño de una DTD (Document Type Definition).• Implementación de las reglas del modelo: Perl.• Diseño de una interfaz de aplicación de las reglas.
Implementación del modelo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
33
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
-------------- --------------------------------------- ----------------- ----------------------------- --------------------
Texto original
Resumen por
extracción
Resumen por
extracción +
compresión
Implementación del modelo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
34
Implementación del modelo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
35
Implementación del modelo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
36
Implementación del modelo
score.pl: puntuación de oraciones eliminacion.pl: eliminación de oraciones
segmentador_medico.pl: división del texto en 4 apartados
segmentador oracional IULA lematizador TreeTagger
PhpMyAdmin: etiquetaje discursivo semiautomático a nivel oracional
oralingmod.pl: resumen por extracción mediante reglas DISICO
Interfaz web DISICO / sumcompleto.pl: resumen por compresión mediante reglas DISICO
Oxygen XML Editor: etiquetaje discursivo semiautomático a nivel intraoracional
Determinación del número de oraciones de cada apartado:
se emplea la puntuación de oraciones (obtenida por score.pl)
pro
cesaF
ullE
Sc
ore
.sh
Texto origin
al
Resumen
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
37
Anotadores* Etiquetaje discursivo oracional de los 10 textos del subcorpus de contraste: realizado por 5 personas. * Anotación XML intraoracional de los 10 resúmenes por extracción
previamente obtenidos: realizada por nosotros.
Características de los resúmenes a)Resúmenes de 11 oraciones (DISICO_1a: extracción / DISICO_1b:
extracción + compresión).– Nº de oraciones por cada apartado: Fundamento: 2 or. Pacientes y métodos: 3 or. Resultados: 4 or. Discusión: 2 or.
b) Resúmenes de 11 oraciones como máximo (DISICO_2a: extracción / DISICO_2b: extracción + compresión).
– Oraciones obtenidas por las reglas de eliminación y las DISICO.– Si el nº de oraciones obtenidas en algún apartado es mayor que el establecido se aplican las reglas de puntuación hasta llegar al nº de oraciones establecidas en ese apartado.
Aplicación del modelo y resultados
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
38
Evaluación con ROUGE
Resúmenes candidatos: 1. resúmenes de nuestro modelo (DISICO_1a, DISICO_1b, DISICO_2a,
DISICO_2b),
2. resúmenes baseline, 3. resúmenes Ms-Word
Autosummarize.
Resúmenes de referencia:1. resúmenes de los autores de los
artículos, 2. resúmenes por extracción de 3
médicos,3. resúmenes por abstracción de 3
médicos.
ROUGE (media)
ROUGE ROUGE-2 ROUGE-4
DISICO_1a 0,6680 0,6483
DISICO_1b 0,6503 0,6272
DISICO_2a 0,6427 0,6209
DISICO_2b 0,6257 0,6016
baseline 0,1965 0,1988
Ms-Word 0,2579 0,2614
ROUGE Jackknife (media)
ROUGE ROUGE-2 ROUGE-4
DISICO_1a 0,6650 0,6463
DISICO_1b 0,6523 0,6270
DISICO_2a 0,6469 0,6253
DISICO_2b 0,6272 0,6028
baseline 0,1976 0,2000
Ms-Word 0,2600 0,2637
Evaluación del modelo
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
39
Evaluación del modelo
DendrogramaMétodo Ward,Euclidean
Dis
tan
cia
0
1
2
3
4
5
Au
tor
Ba
selin
e
Mé
dic
o 1
Mé
dic
o 2
Mé
dic
o 3
Nu
est
ro m
od
elo
Wo
rd
DendrogramaMétodo Ward,Euclidean
Dis
tan
cia
0
1
2
3
4
5
Aut
or
Bas
elin
e
Méd
ico
1
Méd
ico
2
Méd
ico
3
Nue
stro
mod
elo
Wor
d
Resúmenes DISICO_1a (11 oraciones por extracción)
Resúmenes DISICO_2a (máx. 11 oraciones por
extracción)
Evaluación con la Distancia Euclidiana
Comparación entre: 1.resúmenes DISICO_1a /
DISICO_2a,2.resúmenes de los
autores de los artículos, 3.resúmenes por
extracción de 3 médicos,4.resúmenes baseline, 5.resúmenes del Ms-Word
Autosummarize.
39
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
40
Restrictions of the model
1. General restriction: costly adaptation to other areas (although feasible).
2. Restriction with regard to coherence: it does not include anaphora resolution.
3. Restrictions of the rules of the model (*we carry out 2 tasks): a. We count and analyze the sentences from the DISICO_1a summaries
that are not selected at least by 3 doctors: 5 sentences.– 4 of these errors are solved in DISICO_2a summaries.
b. We count and analyze the sentences from the DISICO_1a summaries
that are selected at least by 3 doctors, but not by our model: 7 sentences.
– In general: isolated cases that we do not consider relevant.– Exception: multinuclear relation of List.
Mechanisms that are not inherent to the rhetorical structure of the text are
needed in order to explain why one nucleus of a multinuclear relation is considered important by humans. (Marcu 2000)
Model Evaluation
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
41
Conclusions linked with the hypothesis
Hypothesis 1. Professionals from a domain use specific techniques to summarize specialized texts that are different to the ones used to summarize general speech.
Confirmed by the doctor-linguist experiment and by the final evaluation with Euclidean Distance.
Hypothesis 1.1. These techniques can be formalized in the form of rules that are part of a model of automatic summarization applying them.
Confirmed by the analysis of the strategies used by authors when writing their summaries and by their later formalisation in the rules included in the proposed summarization model.
Hypothesis 2. The use of a single type of linguistic information is not enough to obtain an adequate summary, so linguistic information of several types must be integrated [...].
Confirmed by the linguistic analysis of the articles and the summaries of the specialists, and by finding that there are regularities in the textual structure, in the use of certain lexical units, and in the discourse and syntactic-communicative structure.
Conclusions
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
42
General conclusions
The linguistic model of summarization that we suggest in the thesis is valid because it obtains good results in its evaluation =>
our work provides a relevant contribution to the state of the art on automatic summarization in Spanish, specifically, on specialized texts.
The summaries written by specialists of an area (in our case, medicine) can be taken as a point of reference for the development and the evaluation of a model of automatic summarization.
In short, all goals formulated at the beginning of the thesis have been fulfilled.
Conclusions
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
43
Conclusions beyond the thesis … However, is linguistics enough to provide the best summaries?
experiments (da Cunha et al. 2007) show that a combination of linguistic and statistical techniques further optimizes the quality of the summaries.
We designed an hybrid summarizer that includes 3 summarizers:- CORTEX (Torres-Moreno et al. 2002): based on Vector Space
Model.- ENERTEX (Fernández et al. 2007): based on statistical physics.- DISICOSUM: based on linguistics.
We evaluated it with ROUGE and we observed that the results of this hybrid summarizer are better than the results of any of the other 3 summarizers.
Conclusions
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
44
1. Application of the summarization model to a higher quantity of medical articles.
2. Adaptation of the summarization model to other genres of the medical domain and to other specialized domains.
3. Development of a discourse parser to integrate it in our summarizer (using machine learning techniques).
4. Continuation with the research about the benefits of the combination of statistical and linguistic techniques.
Lines of Future Work
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA
Hacia un modelo lingüístico de resumen automático de artículos médicos en español
45
Hacia un modelo lingüístico de resumen automático
de artículos médicos en español
Iria da Cunha Fanego 2008
Codirigida por: Leo Wanner y M. Teresa Cabré CastellvíPrograma de doctorado:
Ciencias del Lenguaje y Lingüística Aplicada (2002-2004)Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra