SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...
-
Upload
herminia-segundo -
Category
Documents
-
view
12 -
download
0
Transcript of SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...
SEPLN 2007
Validación de RespuestasEvaluación y Retos para las Tecnologías del Lenguaje
Anselmo Peñas
Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor Peinado, Felisa Verdejo
Grupo de Recuperación de Informacióny Procesamiento del Lenguaje Natural
Universidad Nacional de Educación a Distancia
nlp.uned.es
2
Índice
Introducción (15 min.) Implicación Textual (15 min.) Answer Validation Exercise (20 min.) Técnicas y retos (25 min.) Conclusión (5 min.) Preguntas (10 min.)
Validación de Respuestas
3
QA system architecture
Question
Answer
QuestionAnalysis
Pre-processing/ indexing
Answer type/ structure
Key-terms Passageretrieval
Answerextraction
Answer validation/ scoring
Documents
4
Validación de Respuestas
Consulta con palabras clave + respuesta Más ocurrencias -> mejor candidata
Respuesta 1
…
Respuesta 2
Respuesta n
Oráculo
(Google)
Ranking
5
Validación de Respuestas
Validación como ranking Problema procesamiento en cascada
¿Es necesario cambiar de arquitectura?
Question
Answer
QuestionAnalysis
Passageretrieval
Answerextraction
Answer validation/ scoring
1.00.7 0.7 0.49x x =
Not enough evidence
6
QA with Spanish as target (evolution)
Top results around 50%
72006
81% preguntas contestadas por algún sistema
Mejor sistema responde el
52,5%
65% de las contestadas
Mejor en organizaciones
Mejor en definiciones y
personas
Mejor en fechas
8
¿Arquitecturas colaborativas?
Sistemas diferentes responden mejor tipos de preguntas diferentes Especialización Colaboración
¿Criterios de selección? Valor de confianza en la respuesta Mejorar la validación de respuestas
9
¿Por qué no se ha hecho ya?
Problema en la definición de la tarea de evaluación Sólo cuentan los aciertos No se penalizan los fallos Validación como ranking de respuestas No se construyen respuestas completas
60 dólares (significado únicamente en presencia de la
pregunta) El barril de petróleo asciende a 60 doláres
10
Marco de evaluación
Difícil cambiar la metodología o las medidas de evaluación
Nueva tarea de evaluación Answer Validation Exercise
2006 2007
11
Validación de Respuestas
Definición Entrada
Pregunta Respuesta Texto que soporta la respuesta
Salida Aceptación/rechazo de la respuesta
12
Validación de Respuestas
¿Cuántas personas viven en Madrid? Más de 6 millones
¿Es correcta la respuesta? ¿?
¿Es correcta de acuerdo con el texto? Según el último censo de la CAM, la población
de la comunidad asciende a 6.122.435 habitantes
Sí
13
Validación de Respuestas
Cambio de aproximación Validación basada en recursos externos y
redundancias (web) Validación basada en el análisis textual de:
Pregunta Respuesta Texto que soporta la respuesta
Efecto Introducir aprendizaje automático +PLN Atraer comunidad de investigación en
Implicación Textual
14
Índice
Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusión Preguntas
15
Implicación Textual
¿De T se infiere H?
T: El precio del barril de petróleo se alzó hasta los 60 dólares
H: El precio del petróleo ha subido
16
Implicación Textual
Definición La verdad de un enunciado implica
la verdad de otro enunciado: T H
Primer enunciado: Texto T (contexto) Segundo enunciado: Hipótesis H
Relación dirigida
17
Implicación Textual
¿De T se infiere H? T: El éxito tecnológico conocido como GPS se incubó
en la mente de Ivan Getting
H: I. Getting inventó el Sistema de Posicionamiento Global
La verdad de un enunciado implica la verdad de otro enunciado ¿En cualquier interpretación posible?
(implicación estricta) ¿En alguna interpretación?
18
Implicación Textual
Definición
Un humano que leyera T inferirá que H seguramente es cierto
19
Implicación Textual
¿De T se infiere H?
T: El precio del barril de petróleo se alzó hasta los 60 dólares
H: El precio del petróleo ha subido
¿Ha subido el precio del contenedor? El barril es una unidad de medida del petróleo
20
Implicación Textual
Involucra conocimiento externo del mundo...T H
Conocimiento H
... pero en el contexto de TT AND conocimiento H
Confirmar H en el contexto que proporciona T
21
Ambigüedad
Redefinición del problema de desambiguación
Interrelación texto-contexto: T -> H Desambigua(T) -> Desambigua(H)
Desambiguación: aquella que habilita la implicación (Matching)
Procesamiento lingüístico en contexto Cambio de perspectiva
Desambigua(T -> H)
22
Implicación Textual
DefiniciónExiste una interpretación del contexto
que permite afirmar una de las interpretaciones de la hipótesis
Del problema de la ambigüedad al problema de la variación
23
Implicación Textual
Variación lingüísticaVerdadero reto en Implicación Textual
T: El éxito tecnológico conocido como GPS se incubó en la mente de Ivan Getting
H: I. Getting inventó el Sistema de Posicionamiento Global
24
¿Por qué Implicación Textual?
Necesidad de introducir inferencia en aplicaciones textuales Aplicaciones -> Validación de Respuestas
Investigación en semántica deslabazada: WSD, NER, SRL, Lexical Semantics, etc.
Necesidad de un marco común de investigación en semántica
25
Planteamiento empírico
Desde los textos
Un humano que leyera T inferirá que H seguramente es cierto
Un humano es capaz de realizar esta tarea semántica
¿Cómo podría resolverlo una máquina?
26
Evaluación
Marco de Evaluación actual: PASCAL Recognizing Textual Entailment Challenge
(RTE)
Intrínseca y Global Pares Texto-Hipótesis 50-50% YES/NO Proporción de aciertos (accuracy) Baseline 50%
Grupos participantes 17 grupos en RTE1 23 grupos en RTE2 25 grupos en RTE3
27
Implicación Textual
Aplicaciones
T: La adquisición de Overture por Yahoo ha finalizado
Extracción de Información Resumen Automático Comprensión de lectura Búsqueda de respuestas
¿Quién compró a Overture? H: Yahoo compró a Overture
28
Índice
Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusión Preguntas
29
Answer Validation Exercise
Ligar la evaluación a la tarea principal de QA Aprovechar los juicios humanos ya
realizados en la tarea principal Activar la tarea en todos los idiomas de
la tarea principal Inglés, Francés, Español, Alemán, Italiano,
Portugués, Holandés
30
Answer Validation Exercise
ObjectiveValidate the correctness of the answers
Given by real QA systems...
...the participants at CLEF QA
31
AVE 2006
If the text semantically entails the hypothesis, then the answer is expected to be correct.
Question
Supporting snippet& doc ID
Exact AnswerQA system
Hypothesis
Into affirmativeform
Text
32
AVE 2006
Question:Who is the President of Mexico?
Answer (obsolete):Vicente Fox
Hypothesis:Vicente Fox is the President of Mexico
Supporting Text:“...President Vicente Fox promises a more democratic Mexico...”
Exercise Supporting Text entails Hypothesis? Answer: YES | NO
33
Answer Validation Exercise (AVE)
QuestionAnswering
QuestionCandidate answer
Supporting Text
Textual Entailment
Answer is not correct or not enough evidence
Automatic HypothesisGeneration
QuestionHypothesis
Answer is correct
AVE 2006
AVE 2007
Answer Validation
34
Answer Validation Exercise
Conversión en problema RTE Asumiendo que es posible construir
automáticamente las hipótesis AVE 2006
Hipótesis construidas por la organización Semi-automáticamente Instanciando patrones de hipótesis Estudio de error 200 patrones diferentes por idioma (7 idiomas)
AVE 2007 Construcción automática de hipótesis Parte de la tarea de evaluación
35
Hypothesis generation
Question “Which is the capital of Croatia?”
Pattern“<answer/> is the capital of Croatia”
AnswerZagreb
HypothesisZagreb is the capital of Croatia
36
Hypothesis Generation
Question “Which is the capital of Croatia?”
AnswerZagreb was then seen as the political center
HypothesisZagreb was then seen as the political center is the
capital of Croatia
Wrong semantics but also wrong syntactic structure
Syntactic criteria for detecting wrong answers [Criteria for assessing Inexact answers in QA]
37
Hypothesis Generation Question: “Which is the capital of Croatia?” Answer: placed in the continental part of Croatia Supporting text
“The capital of Croatia is placed in the continental part of Croatia and has one million inhabitants”.
Pattern 1: The capital of Croatia is </answer>
The capital of Croatia is placed in the continental part of Croatia[Correct hypothesis: a non-responsive answer must be validated]
Pattern 2: <answer/> is the capital of Croatia
placed in the continental part of Croatia is the capital of Croatia[More robust pattern]
38
Hypothesis Generation
Question: What is Deep Blue? Answer: developed by IBM QA assessment: Wrong
Hypothesis: Deep Blue is developed by IBM Supporting text:
... Deep Blue, developed by IBM, was the first machine to win...
Entailment: YES
39
Hypothesis Generation
Question: “Where did the Titanic sink?” Pattern: “The Titanic sank in <answer/>” Answer 1: “Atlantic Ocean” Answer 2: “1912” Both can generate correct hypotheses entailed by
a text
Pattern The Titanic sank in <answer/> (1) <answer/> is a location (2)
Compressed way: “The Titanic sank in <answer type=location/>”
40
Tipo de respuesta
Problemas desde la perspectiva de la evaluación
Consenso difícil en las taxonomías Tipos de pregunta y de respuesta
Documentalistas vs. (Li & Roth, COLING 2002)
Conocimiento implícito del mundo Atlantic Ocean es un lugar ¿Ontologías bien pobladas y
consistentes con las taxonomías de tipos de respuestas?
41
Completitud de la respuesta
Conocimiento implícito del mundo “¿Qué compañía adquirió Nokia en
1998?” Vienna Systems De acuerdo con: “Vienna Systems fue
adquirida por Nokia en 1998” “Vienna Systems is a company”
(presupuesto)
¿Qué presupuestos son aceptables?
42
ACCEPTACCEPT
AVE Assessment Mapping
Correct
Incorrect REJECTREJECT
Unsupported REJECTREJECT
Non-exact UNKNOWNUNKNOWN
QA assessments
AVE assessments
43
AVE 2006 Collections
Available for CLEF participants atnlp.uned.es/QA/ave/
Testing Training
English 2088 (10% YES) 2870 (15% YES)
Spanish 2369 (28% YES) 2905 (22% YES)
German 1443 (25% YES)
French 3266 (22% YES)
Italian 1140 (16% YES)
Dutch 807 (10% YES)
Portuguese 1324 (14% YES)
44
AVE 2006 Evaluation
Not balanced collections
Approach: Detect if there is enough evidence to accept an answer
Measures: Precision, recall and F over pairs YES (where text entails hypothesis)
Baseline system: Accept all answers, (give always YES)
45
AVE 2006 Participants and runs DE EN ES FR IT NL PT
Fernuniversität in Hagen 2 2Language Computer Corporation 1 1 2
U. Rome "Tor Vergata" 2 2U. Alicante (Kozareva) 2 2 2 2 2 2 1 13
U. Politecnica de Valencia 1 1
U. Alicante (Ferrández) 2 2LIMSI-CNRS 1 1U. Twente 1 2 2 1 1 2 1 10
UNED (Herrera) 2 2UNED (Rodrigo) 1 1ITC-irst 1 1R2D2 project 1 1
Total 5 11 9 4 3 4 2 38
46
AVE 2006 Results
Language Baseline (F)
Best (F)
Reported Techiques
English .27 .44 Logic
Spanish .45 .61 Logic
German .39 .54 Lexical, Syntax, Semantics, Logic, Corpus
French .37 .47 Overlapping, Learning
Dutch .19 .39 Syntax, Learning
Portuguese .38 .35 Overlapping
Italian .29 .41 Overlapping, Learning
47
AVE 2007
Problema en AVE 2006 No fue posible cuantificar la ganancia
potencial de los sistemas QA si incorporan los módulos de AV
Cambio de metodología en AVE 2007 Agrupar respuestas por pregunta
Eliminando respuestas repetidas Sistemas deben seleccionar una
respuesta
48
AVE 2007 Collections<q id="116" lang="EN">
<q_str>What is Zanussi?</q_str><a id="116_1" value="">
<a_str>was an Italian producer of home appliances</a_str><t_str doc="Zanussi">Zanussi For the Polish film director, see Krzysztof Zanussi. For the hot-air balloon, see Zanussi (balloon). Zanussi was an Italian producer of home appliances that in 1984 was bought</t_str>
</a><a id="116_2" value="">
<a_str>who had also been in Cassibile since August 31</a_str><t_str doc="en/p29/2998260.xml">Only after the signing had taken place was Giuseppe Castellano informed of the additional clauses that had been presented by general Ronald Campbell to another Italian general, Zanussi, who had also been in Cassibile since August 31.</t_str>
</a><a id="116_4" value="">
<a_str>3</a_str><t_str doc="1618911.xml">(1985) 3 Out of 5 Live (1985) What Is This?</t_str>
</a></q>
49
Comparing AV systems performance with QA systems in German
Group System SystemType
QAaccuracy
% of perfect selection
Perfect selection QA 0.54 100%
FUH iglockner_2 AV 0.50 93.44%
FUH iglockner_1 AV 0.48 88.52%
DFKI dfki071dede QA 0.35 65.57%
FUH fuha071dede QA 0.32 59.02%
Random AV 0.28 51.91%
DFKI dfki071ende QA 0.25 45.9%
FUH fuha072dede QA 0.21 39.34%
DFKI dfki071ptde QA 0.05 9.84%
50
AVE 2007 Results
9 groups, 16 systems, 4 languages All systems based on Textual Entailment 5 out of 9 groups participated in QA
Introduction of RTE techniques in QA Systems based on syntactic or semantic
analysis perform Automatic Hypothesis Generation Combination of the question and the answer Some cases directly in a logic form
51
Índice
Introducción Implicación Textual Answer Validation Exercise Técnicas y retos Conclusión Preguntas
52
Técnicas utilizadas en AVE 2007
10 informes (Overview AVE 2007)
Generates hypotheses 6
Wordnet 3
Chunking 3
n-grams, longest common Subsequences
5
Phrase transformations 2
NER 5
Num. expressions 6
Temp. expressions 4
Coreference resolution 2
Dependency analysis 3
Syntactic similarity 4
Functions (sub, obj, etc) 3
Syntactic transformations 1
Word-sense disambiguation 2
Semantic parsing 4
Semantic role labeling 2
First order logic representation
3
Theorem prover 3
Semantic similarity 2
53
Nivel Léxico
T: El precio del barril de petróleo se alzó hasta los 60 dólares
H: El precio del petróleo ha subido
Precio precio Petróleo petróleo alzar subir
54
Nivel Léxico
Representación de los textos Bolsas de términos
Implicación Si los términos de H están implicados
por los términos de T Solapamiento léxico Sustitución léxica (sinónimos,
hiperónimos, ...)
55
Nivel Léxico
Contar proporción de solapamientos Lemas, unigramas n-gramas Subsecuencias Derivaciones morfológicas
Han censado -> censo
56
WordNet (inferencia)
SynonymyObtain <-> receiveLift <-> riseAllow <-> grant
Hyponymy (encadenada, distancia)Glucose -> sugarCrude -> oil
AntonymyNeg(change) <-> stay <-> continue
57
WordNet (inferencia)
Verb EntailmentKill -> death
Part meronymyItaly -> Europe
PertainymyItalian -> Italy
MultiwordsMelanoma -> skin_cancer
58
Nivel Léxico
T: Sacrificaron al perro que mordió a la niña
H: Sacrificaron a la niña
Sacrificar sacrificar Niña niña
Necesidad de considerar sintaxis
59
Nivel Léxico
T: Bill Gates visita ValenciaH: La Comunidad Valenciana recibe al
fundador de Microsoft
(X) comunidad (X) fundador (X) Microsoft
Necesidad de reconocer entidades
60
Entidades
T: Según el último censo de la CAM, la población de la comunidad asciende a 6.122.435 habitantes
H: En Madrid viven más de 6 millones de personas
Expresiones numéricas: 6.122.435 -> más de 6 millones Entidades nombradas: CAM -> Madrid Correferencia: comunidad -> CAM
Paráfrasis: población asciende -> viven Reordenación de constituyentes Implicación léxica: habitante -> persona
61
Implicación numérica (rangos)
17 million citizens More than 15 million people
Texto Hipótesis
recognize
Lím. inferior: 17,000,000Lím. superior: 17,000,000Unidad: citizen
Lím. inferior: 15,000,000Lím. superior: infiniteUnidad: person
normalize
Entailment is TRUE if [17,000,000 .. 17,000,000] [15,000,000 .. Infinite)and citizen entails person
entailment
62
Entidades con nombre
T: Bill Gates visita Valencia
H: La Comunidad Valenciana recibe al fundador de Microsoft
Bill Gates -> fundador de Microsoft Valencia -> Comunidad Valenciana
Conocimiento del mundo
63
Resolución de correferencia
T: Desde su formación en 1948, Israel…
H: Israel fue establecida en 1948
64
Nivel sintáctico
Representación de los textos Árboles de dependencias (generalmente)
Implicación Si el árbol de H es similar, está incluido o
se puede obtener por transformación del árbol de T
65
Example: graph alignment
T: CNN reported that thirteen soldiers lost their lives in today’s ambush.
H: Several troops were killed in the ambush.
lost
soldiers lives ambush
thirteen their today’s
reported
CNN
dobjinnsubj
nn dep poss
nsubj ccomp
killed
troops were ambush
several the
auxinnsubjpass
amod det
© Stanford
66
Nivel Sintáctico
Distancia de edición entre árboles Cuantificar coste de borrar, insertar o sustituir
un nodo Medida de similitud sintáctica
Coincidencia léxica y de funciones Sujeto, objeto, modificador
Facilita algunas transformaciones Activa/pasiva Negación
67
Etiquetado de Roles Semánticos
T: Sacrificaron al perro que mordió a la niñaH: Sacrificaron a la niña
T: Sacrificaron [al [perro]A0 que mordió a [la niña]A1]A1
H: Sacrificaron a [la niña]A1
perro -/-> niña
68
Etiquetado de Roles Semánticos
Paradójicamente un análisis lingüístico más profundo hace más difícil tratar la variación
T: The diplomat visited Iraq in SeptemberH: The diplomat was in Iraq
T: [The diplomat]/ARG0 visited [Iraq]/ARG1 [in September]/AM_TMP
H: [The diplomat]/ARG0 was [in Iraq]/AM_LOC
69
Etiquetado de Roles Semánticos
Diferencias en la estructura de los verbos provocan falta de coincidencia entre el tipo de los argumentos
Necesidad de procesar los sintagmas verbales
T: David McCool took the money and decided to start Muzzy Lane in 2002
H: David McCool is the founder of Muzzy Lane
T: David McCool took the money and started Muzzy Lane in 2002
H: David McCool founded Muzzy Lane
70
Parsing semántico (LCC)
The Muslim Brotherhood, Egypt's biggest fundamentalist group established in 1928, advocates turning Egypt into a strict Muslim state by political means, setting itself apart from militant groups that took up arms in 1992.
AGENT(Muslim Brotherhood, advocate)
PURPOSE(turning Egypt into a strict Muslim state, advocate)
TEMPORAL(1928, establish)
TEMPORAL(1992, took up arms)
PROPERTY(strict, Muslim state)
MEANS(political means, turning Egypt into a strict Muslim state)
SYNONYMY(Muslim Brotherhood, Egypt's biggest fundamentalist group)
71
Hickl (RTE 2006)
75% accuracy
72
Monotonía
“Upward monotonity”. Generalizaciones en la hipótesis preservan la implicación.
T: Algunos historiadores coreanos piensan que…H: Algunos historiadores piensan que...
“Downward monotonity”. Generalizaciones en la hipótesis rompen la implicación.
T: La mayoría de los historiadores coreanos piensan que…H: La mayoría de los historiadores piensan que…
© Stanford
73
Monotonía y adjuntos
Si un adjunto presente en T desaparece en H se preserva la implicación
Si aparece en H, se rompe la implicación
T: Zerich compró petróleo de Irak por valor de 422 millones de dólares
H: Zerich compró petroleo de Irak durante el embargo
Salvo en contextos downward monotone
T: Zerich no compró petróleo Iraquí
H: Zerich no compró petróleo Iraquí durante el embargo
© Stanford
74
Verbos factuales e implicativos
T: Libia ha intentado desarrollar su propio misil SCUDH: Libia ha desarrollado un misil
Clases de implicatividad Unknown: say, tell, suspect, try, … Fact: know, acknowledge, ignore, … True: manage to, … False: fail to, forget to, … © Stanford
75
Presupuestos
T1: Juan ama a su mujer
T2: Juan no ama a su mujer
Ambos presuponen queH: Juan tiene mujer
El oyente incorpora el presupuesto: acomodación
76Hickl (RTE 2007)
77Hickl (RTE 2007)
78
Hickl (RTE 2007)
80% accuracy
79
Nivel Lógico
Nutcracker (Johan Bos) Herramientas disponibles
Parsing semántico (Clark and Curran, 2004) Combinatory Categorial Grammar
Obtener Estructuras de Representación del Discurso (DRS, Boxer) (Bos 2005)
Convertir DRSs a Lógica de Primer Orden Demostrador de teoremas: T -> H
Introducción natural de WordNet
80
Nivel Lógico
La demostración de “T->H” suele fallar en un demostrador de teoremas
Necesidad de valorar la proximidad a completar la demostración Comparar tamaño entre modelos lógicos (Bos) Relajar predicados sucesivamente (Tatu &
Moldovan)
81
Estrategias generales
Demostrar que no hay implicación Implicación por defecto Desarrollo de tests de fallo Aplicaciones como validación de respuestas
Demostrar que sí hay implicación No hay implicación por defecto Representación lógica e inferencia Transformaciones léxicas y sintácticas Generación de proposiciones atómicas,
presupuestos, compromisos de discurso
82
Estrategias generales
Detectar similitud Características de similitud (léxicas,
sintácticas, semánticas…)
Clasificador entrenado con toda la información obtenida Aprender el peso relativo de cada rasgo Entrenamiento: colecciones de desarrollo,
adquisición de corpus
83
Índice
Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusiones Preguntas
84
Conclusiones Es posible reformular la Validación de
Respuestas en términos de Implicación Textual Introduce un 4% de error en representaciones
textuales de la hipótesis ¿Representación conceptual?
Investigación abierta Consensuar taxonomías de tipos de preguntas y
respuestas Consideración de conocimiento implícito
(enciclopédico)
85
Conclusiones
Análisis superficial Modelo léxico Baseline fácil de alcanzar
Análisis profundo Mayoría de sistemas no mejoran el
baseline del modelo léxico Sin embargo, los mejores sistemas
realizan un análisis profundo
86
Investigación abierta
Adquirir grandes bases de conocimiento (lingüístico y del mundo) Reglas de transformación sintáctica Conjuntos de paráfrasis Relaciones léxicas Entidades y su variación terminológica …
Adquirir grandes corpus de entrenamiento para Implicación Textual
87
Investigación abierta
Adquisición de conocimiento No supervisada A partir de corpus general y web Representación del conocimiento Población de ontologías
Inferencia Interacción de niveles de información Más allá de vectores de características
y entrenar un modelo
88
Investigación abierta
Implicación textual es un problema todavía demasiado amplio
Validación de respuestas Subproblema Permite evaluación extrínseca (mejora
de una aplicación: QA) ¿Modelos semánticos capaces de
tratar la variabilidad del lenguaje?
89
Preguntas?
Gracias!
AVE: http://nlp.uned.es/QA/AVE/QA@CLEF: http://clef-qa.itc.it/CLEF: http://www.clef-campaign.orgPASCAL RTE: http://www.pascal-network.org/Challenges/RTE/