SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...

SEPLN 2007

Validación de RespuestasEvaluación y Retos para las Tecnologías del Lenguaje

Anselmo Peñas

Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor Peinado, Felisa Verdejo

Grupo de Recuperación de Informacióny Procesamiento del Lenguaje Natural

Universidad Nacional de Educación a Distancia

nlp.uned.es

2

Índice

Introducción (15 min.) Implicación Textual (15 min.) Answer Validation Exercise (20 min.) Técnicas y retos (25 min.) Conclusión (5 min.) Preguntas (10 min.)

Validación de Respuestas

3

QA system architecture

Question

Answer

QuestionAnalysis

Pre-processing/ indexing

Answer type/ structure

Key-terms Passageretrieval

Answerextraction

Answer validation/ scoring

Documents

4


Consulta con palabras clave + respuesta Más ocurrencias -> mejor candidata

Respuesta 1

…

Respuesta 2

Respuesta n

Oráculo

(Google)

Ranking

5


Validación como ranking Problema procesamiento en cascada

¿Es necesario cambiar de arquitectura?

Question

Answer

QuestionAnalysis

Passageretrieval

Answerextraction

Answer validation/ scoring

1.00.7 0.7 0.49x x =

Not enough evidence

6

QA with Spanish as target (evolution)

Top results around 50%

72006

81% preguntas contestadas por algún sistema

Mejor sistema responde el

52,5%

65% de las contestadas

Mejor en organizaciones

Mejor en definiciones y

personas

Mejor en fechas

8

¿Arquitecturas colaborativas?

Sistemas diferentes responden mejor tipos de preguntas diferentes Especialización Colaboración

¿Criterios de selección? Valor de confianza en la respuesta Mejorar la validación de respuestas

9

¿Por qué no se ha hecho ya?

Problema en la definición de la tarea de evaluación Sólo cuentan los aciertos No se penalizan los fallos Validación como ranking de respuestas No se construyen respuestas completas

60 dólares (significado únicamente en presencia de la

pregunta) El barril de petróleo asciende a 60 doláres

10

Marco de evaluación

Difícil cambiar la metodología o las medidas de evaluación

Nueva tarea de evaluación Answer Validation Exercise

2006 2007

11


Definición Entrada

Pregunta Respuesta Texto que soporta la respuesta

Salida Aceptación/rechazo de la respuesta

12


¿Cuántas personas viven en Madrid? Más de 6 millones

¿Es correcta la respuesta? ¿?

¿Es correcta de acuerdo con el texto? Según el último censo de la CAM, la población

de la comunidad asciende a 6.122.435 habitantes

Sí

13


Cambio de aproximación Validación basada en recursos externos y

redundancias (web) Validación basada en el análisis textual de:

Pregunta Respuesta Texto que soporta la respuesta

Efecto Introducir aprendizaje automático +PLN Atraer comunidad de investigación en

Implicación Textual

14

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusión Preguntas

15


¿De T se infiere H?

T: El precio del barril de petróleo se alzó hasta los 60 dólares

H: El precio del petróleo ha subido

16


Definición La verdad de un enunciado implica

la verdad de otro enunciado: T H

Primer enunciado: Texto T (contexto) Segundo enunciado: Hipótesis H

Relación dirigida

17


¿De T se infiere H? T: El éxito tecnológico conocido como GPS se incubó

en la mente de Ivan Getting

H: I. Getting inventó el Sistema de Posicionamiento Global

La verdad de un enunciado implica la verdad de otro enunciado ¿En cualquier interpretación posible?

(implicación estricta) ¿En alguna interpretación?

18


Definición

Un humano que leyera T inferirá que H seguramente es cierto

19


¿De T se infiere H?



¿Ha subido el precio del contenedor? El barril es una unidad de medida del petróleo

20


Involucra conocimiento externo del mundo...T H

Conocimiento H

... pero en el contexto de TT AND conocimiento H

Confirmar H en el contexto que proporciona T

21

Ambigüedad

Redefinición del problema de desambiguación

Interrelación texto-contexto: T -> H Desambigua(T) -> Desambigua(H)

Desambiguación: aquella que habilita la implicación (Matching)

Procesamiento lingüístico en contexto Cambio de perspectiva

Desambigua(T -> H)

22


DefiniciónExiste una interpretación del contexto

que permite afirmar una de las interpretaciones de la hipótesis

Del problema de la ambigüedad al problema de la variación

23


Variación lingüísticaVerdadero reto en Implicación Textual

T: El éxito tecnológico conocido como GPS se incubó en la mente de Ivan Getting

H: I. Getting inventó el Sistema de Posicionamiento Global

24

¿Por qué Implicación Textual?

Necesidad de introducir inferencia en aplicaciones textuales Aplicaciones -> Validación de Respuestas

Investigación en semántica deslabazada: WSD, NER, SRL, Lexical Semantics, etc.

Necesidad de un marco común de investigación en semántica

25

Planteamiento empírico

Desde los textos

Un humano que leyera T inferirá que H seguramente es cierto

Un humano es capaz de realizar esta tarea semántica

¿Cómo podría resolverlo una máquina?

26

Evaluación

Marco de Evaluación actual: PASCAL Recognizing Textual Entailment Challenge

(RTE)

Intrínseca y Global Pares Texto-Hipótesis 50-50% YES/NO Proporción de aciertos (accuracy) Baseline 50%

Grupos participantes 17 grupos en RTE1 23 grupos en RTE2 25 grupos en RTE3

27


Aplicaciones

T: La adquisición de Overture por Yahoo ha finalizado

Extracción de Información Resumen Automático Comprensión de lectura Búsqueda de respuestas

¿Quién compró a Overture? H: Yahoo compró a Overture

28

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusión Preguntas

29

Answer Validation Exercise

Ligar la evaluación a la tarea principal de QA Aprovechar los juicios humanos ya

realizados en la tarea principal Activar la tarea en todos los idiomas de

la tarea principal Inglés, Francés, Español, Alemán, Italiano,

Portugués, Holandés

30


ObjectiveValidate the correctness of the answers

Given by real QA systems...

...the participants at CLEF QA

31

AVE 2006

If the text semantically entails the hypothesis, then the answer is expected to be correct.

Question

Supporting snippet& doc ID

Exact AnswerQA system

Hypothesis

Into affirmativeform

Text

32

AVE 2006

Question:Who is the President of Mexico?

Answer (obsolete):Vicente Fox

Hypothesis:Vicente Fox is the President of Mexico

Supporting Text:“...President Vicente Fox promises a more democratic Mexico...”

Exercise Supporting Text entails Hypothesis? Answer: YES | NO

33

Answer Validation Exercise (AVE)

QuestionAnswering

QuestionCandidate answer

Supporting Text

Textual Entailment

Answer is not correct or not enough evidence

Automatic HypothesisGeneration

QuestionHypothesis

Answer is correct

AVE 2006

AVE 2007

Answer Validation

34


Conversión en problema RTE Asumiendo que es posible construir

automáticamente las hipótesis AVE 2006

Hipótesis construidas por la organización Semi-automáticamente Instanciando patrones de hipótesis Estudio de error 200 patrones diferentes por idioma (7 idiomas)

AVE 2007 Construcción automática de hipótesis Parte de la tarea de evaluación

35

Hypothesis generation

Question “Which is the capital of Croatia?”

Pattern“<answer/> is the capital of Croatia”

AnswerZagreb

HypothesisZagreb is the capital of Croatia

36

Hypothesis Generation

Question “Which is the capital of Croatia?”

AnswerZagreb was then seen as the political center

HypothesisZagreb was then seen as the political center is the

capital of Croatia

Wrong semantics but also wrong syntactic structure

Syntactic criteria for detecting wrong answers [Criteria for assessing Inexact answers in QA]

37

Hypothesis Generation Question: “Which is the capital of Croatia?” Answer: placed in the continental part of Croatia Supporting text

“The capital of Croatia is placed in the continental part of Croatia and has one million inhabitants”.

Pattern 1: The capital of Croatia is </answer>

The capital of Croatia is placed in the continental part of Croatia[Correct hypothesis: a non-responsive answer must be validated]

Pattern 2: <answer/> is the capital of Croatia

placed in the continental part of Croatia is the capital of Croatia[More robust pattern]

38


Question: What is Deep Blue? Answer: developed by IBM QA assessment: Wrong

Hypothesis: Deep Blue is developed by IBM Supporting text:

... Deep Blue, developed by IBM, was the first machine to win...

Entailment: YES

39


Question: “Where did the Titanic sink?” Pattern: “The Titanic sank in <answer/>” Answer 1: “Atlantic Ocean” Answer 2: “1912” Both can generate correct hypotheses entailed by

a text

Pattern The Titanic sank in <answer/> (1) <answer/> is a location (2)

Compressed way: “The Titanic sank in <answer type=location/>”

40

Tipo de respuesta

Problemas desde la perspectiva de la evaluación

Consenso difícil en las taxonomías Tipos de pregunta y de respuesta

Documentalistas vs. (Li & Roth, COLING 2002)

Conocimiento implícito del mundo Atlantic Ocean es un lugar ¿Ontologías bien pobladas y

consistentes con las taxonomías de tipos de respuestas?

41

Completitud de la respuesta

Conocimiento implícito del mundo “¿Qué compañía adquirió Nokia en

1998?” Vienna Systems De acuerdo con: “Vienna Systems fue

adquirida por Nokia en 1998” “Vienna Systems is a company”

(presupuesto)

¿Qué presupuestos son aceptables?

42

ACCEPTACCEPT

AVE Assessment Mapping

Correct

Incorrect REJECTREJECT

Unsupported REJECTREJECT

Non-exact UNKNOWNUNKNOWN

QA assessments

AVE assessments

43

AVE 2006 Collections

Available for CLEF participants atnlp.uned.es/QA/ave/

Testing Training

English 2088 (10% YES) 2870 (15% YES)

Spanish 2369 (28% YES) 2905 (22% YES)

German 1443 (25% YES)

French 3266 (22% YES)

Italian 1140 (16% YES)

Dutch 807 (10% YES)

Portuguese 1324 (14% YES)

44

AVE 2006 Evaluation

Not balanced collections

Approach: Detect if there is enough evidence to accept an answer

Measures: Precision, recall and F over pairs YES (where text entails hypothesis)

Baseline system: Accept all answers, (give always YES)

45

AVE 2006 Participants and runs DE EN ES FR IT NL PT

Fernuniversität in Hagen 2 2Language Computer Corporation 1 1 2

U. Rome "Tor Vergata" 2 2U. Alicante (Kozareva) 2 2 2 2 2 2 1 13

U. Politecnica de Valencia 1 1

U. Alicante (Ferrández) 2 2LIMSI-CNRS 1 1U. Twente 1 2 2 1 1 2 1 10

UNED (Herrera) 2 2UNED (Rodrigo) 1 1ITC-irst 1 1R2D2 project 1 1

Total 5 11 9 4 3 4 2 38

46

AVE 2006 Results

Language Baseline (F)

Best (F)

Reported Techiques

English .27 .44 Logic

Spanish .45 .61 Logic

German .39 .54 Lexical, Syntax, Semantics, Logic, Corpus

French .37 .47 Overlapping, Learning

Dutch .19 .39 Syntax, Learning

Portuguese .38 .35 Overlapping

Italian .29 .41 Overlapping, Learning

47

AVE 2007

Problema en AVE 2006 No fue posible cuantificar la ganancia

potencial de los sistemas QA si incorporan los módulos de AV

Cambio de metodología en AVE 2007 Agrupar respuestas por pregunta

Eliminando respuestas repetidas Sistemas deben seleccionar una

respuesta

48

AVE 2007 Collections<q id="116" lang="EN">

<q_str>What is Zanussi?</q_str><a id="116_1" value="">

<a_str>was an Italian producer of home appliances</a_str><t_str doc="Zanussi">Zanussi For the Polish film director, see Krzysztof Zanussi. For the hot-air balloon, see Zanussi (balloon). Zanussi was an Italian producer of home appliances that in 1984 was bought</t_str>

</a><a id="116_2" value="">

<a_str>who had also been in Cassibile since August 31</a_str><t_str doc="en/p29/2998260.xml">Only after the signing had taken place was Giuseppe Castellano informed of the additional clauses that had been presented by general Ronald Campbell to another Italian general, Zanussi, who had also been in Cassibile since August 31.</t_str>

</a><a id="116_4" value="">

<a_str>3</a_str><t_str doc="1618911.xml">(1985) 3 Out of 5 Live (1985) What Is This?</t_str>

</a></q>

49

Comparing AV systems performance with QA systems in German

Group System SystemType

QAaccuracy

% of perfect selection

Perfect selection QA 0.54 100%

FUH iglockner_2 AV 0.50 93.44%

FUH iglockner_1 AV 0.48 88.52%

DFKI dfki071dede QA 0.35 65.57%

FUH fuha071dede QA 0.32 59.02%

Random AV 0.28 51.91%

DFKI dfki071ende QA 0.25 45.9%

FUH fuha072dede QA 0.21 39.34%

DFKI dfki071ptde QA 0.05 9.84%

50

AVE 2007 Results

9 groups, 16 systems, 4 languages All systems based on Textual Entailment 5 out of 9 groups participated in QA

Introduction of RTE techniques in QA Systems based on syntactic or semantic

analysis perform Automatic Hypothesis Generation Combination of the question and the answer Some cases directly in a logic form

51

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas y retos Conclusión Preguntas

52

Técnicas utilizadas en AVE 2007

10 informes (Overview AVE 2007)

Generates hypotheses 6

Wordnet 3

Chunking 3

n-grams, longest common Subsequences

5

Phrase transformations 2

NER 5

Num. expressions 6

Temp. expressions 4

Coreference resolution 2

Dependency analysis 3

Syntactic similarity 4

Functions (sub, obj, etc) 3

Syntactic transformations 1

Word-sense disambiguation 2

Semantic parsing 4

Semantic role labeling 2

First order logic representation

3

Theorem prover 3

Semantic similarity 2

53

Nivel Léxico



Precio precio Petróleo petróleo alzar subir

54

Nivel Léxico

Representación de los textos Bolsas de términos

Implicación Si los términos de H están implicados

por los términos de T Solapamiento léxico Sustitución léxica (sinónimos,

hiperónimos, ...)

55

Nivel Léxico

Contar proporción de solapamientos Lemas, unigramas n-gramas Subsecuencias Derivaciones morfológicas

Han censado -> censo

56

WordNet (inferencia)

SynonymyObtain <-> receiveLift <-> riseAllow <-> grant

Hyponymy (encadenada, distancia)Glucose -> sugarCrude -> oil

AntonymyNeg(change) <-> stay <-> continue

57

WordNet (inferencia)

Verb EntailmentKill -> death

Part meronymyItaly -> Europe

PertainymyItalian -> Italy

MultiwordsMelanoma -> skin_cancer

58

Nivel Léxico

T: Sacrificaron al perro que mordió a la niña

H: Sacrificaron a la niña

Sacrificar sacrificar Niña niña

Necesidad de considerar sintaxis

59

Nivel Léxico

T: Bill Gates visita ValenciaH: La Comunidad Valenciana recibe al

fundador de Microsoft

(X) comunidad (X) fundador (X) Microsoft

Necesidad de reconocer entidades

60

Entidades

T: Según el último censo de la CAM, la población de la comunidad asciende a 6.122.435 habitantes

H: En Madrid viven más de 6 millones de personas

Expresiones numéricas: 6.122.435 -> más de 6 millones Entidades nombradas: CAM -> Madrid Correferencia: comunidad -> CAM

Paráfrasis: población asciende -> viven Reordenación de constituyentes Implicación léxica: habitante -> persona

61

Implicación numérica (rangos)

17 million citizens More than 15 million people

Texto Hipótesis

recognize

Lím. inferior: 17,000,000Lím. superior: 17,000,000Unidad: citizen

Lím. inferior: 15,000,000Lím. superior: infiniteUnidad: person

normalize

Entailment is TRUE if [17,000,000 .. 17,000,000] [15,000,000 .. Infinite)and citizen entails person

entailment

62

Entidades con nombre

T: Bill Gates visita Valencia

H: La Comunidad Valenciana recibe al fundador de Microsoft

Bill Gates -> fundador de Microsoft Valencia -> Comunidad Valenciana

Conocimiento del mundo

63

Resolución de correferencia

T: Desde su formación en 1948, Israel…

H: Israel fue establecida en 1948

64

Nivel sintáctico

Representación de los textos Árboles de dependencias (generalmente)

Implicación Si el árbol de H es similar, está incluido o

se puede obtener por transformación del árbol de T

65

Example: graph alignment

T: CNN reported that thirteen soldiers lost their lives in today’s ambush.

H: Several troops were killed in the ambush.

lost

soldiers lives ambush

thirteen their today’s

reported

CNN

dobjinnsubj

nn dep poss

nsubj ccomp

killed

troops were ambush

several the

auxinnsubjpass

amod det

© Stanford

66

Nivel Sintáctico

Distancia de edición entre árboles Cuantificar coste de borrar, insertar o sustituir

un nodo Medida de similitud sintáctica

Coincidencia léxica y de funciones Sujeto, objeto, modificador

Facilita algunas transformaciones Activa/pasiva Negación

67

Etiquetado de Roles Semánticos

T: Sacrificaron al perro que mordió a la niñaH: Sacrificaron a la niña

T: Sacrificaron [al [perro]A0 que mordió a [la niña]A1]A1

H: Sacrificaron a [la niña]A1

perro -/-> niña

68


Paradójicamente un análisis lingüístico más profundo hace más difícil tratar la variación

T: The diplomat visited Iraq in SeptemberH: The diplomat was in Iraq

T: [The diplomat]/ARG0 visited [Iraq]/ARG1 [in September]/AM_TMP

H: [The diplomat]/ARG0 was [in Iraq]/AM_LOC

69


Diferencias en la estructura de los verbos provocan falta de coincidencia entre el tipo de los argumentos

Necesidad de procesar los sintagmas verbales

T: David McCool took the money and decided to start Muzzy Lane in 2002

H: David McCool is the founder of Muzzy Lane

T: David McCool took the money and started Muzzy Lane in 2002

H: David McCool founded Muzzy Lane

70

Parsing semántico (LCC)

The Muslim Brotherhood, Egypt's biggest fundamentalist group established in 1928, advocates turning Egypt into a strict Muslim state by political means, setting itself apart from militant groups that took up arms in 1992.

AGENT(Muslim Brotherhood, advocate)

PURPOSE(turning Egypt into a strict Muslim state, advocate)

TEMPORAL(1928, establish)

TEMPORAL(1992, took up arms)

PROPERTY(strict, Muslim state)

MEANS(political means, turning Egypt into a strict Muslim state)

SYNONYMY(Muslim Brotherhood, Egypt's biggest fundamentalist group)

71

Hickl (RTE 2006)

75% accuracy

72

Monotonía

“Upward monotonity”. Generalizaciones en la hipótesis preservan la implicación.

T: Algunos historiadores coreanos piensan que…H: Algunos historiadores piensan que...

“Downward monotonity”. Generalizaciones en la hipótesis rompen la implicación.

T: La mayoría de los historiadores coreanos piensan que…H: La mayoría de los historiadores piensan que…

© Stanford

73

Monotonía y adjuntos

Si un adjunto presente en T desaparece en H se preserva la implicación

Si aparece en H, se rompe la implicación

T: Zerich compró petróleo de Irak por valor de 422 millones de dólares

H: Zerich compró petroleo de Irak durante el embargo

Salvo en contextos downward monotone

T: Zerich no compró petróleo Iraquí

H: Zerich no compró petróleo Iraquí durante el embargo

© Stanford

74

Verbos factuales e implicativos

T: Libia ha intentado desarrollar su propio misil SCUDH: Libia ha desarrollado un misil

Clases de implicatividad Unknown: say, tell, suspect, try, … Fact: know, acknowledge, ignore, … True: manage to, … False: fail to, forget to, … © Stanford

75

Presupuestos

T1: Juan ama a su mujer

T2: Juan no ama a su mujer

Ambos presuponen queH: Juan tiene mujer

El oyente incorpora el presupuesto: acomodación

76Hickl (RTE 2007)

77Hickl (RTE 2007)

78

Hickl (RTE 2007)

80% accuracy

79

Nivel Lógico

Nutcracker (Johan Bos) Herramientas disponibles

Parsing semántico (Clark and Curran, 2004) Combinatory Categorial Grammar

Obtener Estructuras de Representación del Discurso (DRS, Boxer) (Bos 2005)

Convertir DRSs a Lógica de Primer Orden Demostrador de teoremas: T -> H

Introducción natural de WordNet

80

Nivel Lógico

La demostración de “T->H” suele fallar en un demostrador de teoremas

Necesidad de valorar la proximidad a completar la demostración Comparar tamaño entre modelos lógicos (Bos) Relajar predicados sucesivamente (Tatu &

Moldovan)

81

Estrategias generales

Demostrar que no hay implicación Implicación por defecto Desarrollo de tests de fallo Aplicaciones como validación de respuestas

Demostrar que sí hay implicación No hay implicación por defecto Representación lógica e inferencia Transformaciones léxicas y sintácticas Generación de proposiciones atómicas,

presupuestos, compromisos de discurso

82

Estrategias generales

Detectar similitud Características de similitud (léxicas,

sintácticas, semánticas…)

Clasificador entrenado con toda la información obtenida Aprender el peso relativo de cada rasgo Entrenamiento: colecciones de desarrollo,

adquisición de corpus

83

Índice

Introducción Implicación Textual Answer Validation Exercise Técnicas utilizadas Conclusiones Preguntas

84

Conclusiones Es posible reformular la Validación de

Respuestas en términos de Implicación Textual Introduce un 4% de error en representaciones

textuales de la hipótesis ¿Representación conceptual?

Investigación abierta Consensuar taxonomías de tipos de preguntas y

respuestas Consideración de conocimiento implícito

(enciclopédico)

85

Conclusiones

Análisis superficial Modelo léxico Baseline fácil de alcanzar

Análisis profundo Mayoría de sistemas no mejoran el

baseline del modelo léxico Sin embargo, los mejores sistemas

realizan un análisis profundo

86

Investigación abierta

Adquirir grandes bases de conocimiento (lingüístico y del mundo) Reglas de transformación sintáctica Conjuntos de paráfrasis Relaciones léxicas Entidades y su variación terminológica …

Adquirir grandes corpus de entrenamiento para Implicación Textual

87


Adquisición de conocimiento No supervisada A partir de corpus general y web Representación del conocimiento Población de ontologías

Inferencia Interacción de niveles de información Más allá de vectores de características

y entrenar un modelo

88


Implicación textual es un problema todavía demasiado amplio

Validación de respuestas Subproblema Permite evaluación extrínseca (mejora

de una aplicación: QA) ¿Modelos semánticos capaces de

tratar la variabilidad del lenguaje?

89

Preguntas?

Gracias!

AVE: http://nlp.uned.es/QA/AVE/QA@CLEF: http://clef-qa.itc.it/CLEF: http://www.clef-campaign.orgPASCAL RTE: http://www.pascal-network.org/Challenges/RTE/

SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...

Documents

Transcript of SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo...