probabilidad de Máxima Entropía WSD usando Modelos...

WSD usando Modelos de probabilidad de Máxima Entropía

Armando Suárez Cueto

Manuel Palomar Sanz (Dtor.)

Grupo de Procesamiento del Lenguaje y Sistemas de Información

Dpto. de Lenguajes y Sistemas Informáticos

Universidad de Alicante

febrero de 2002 2

Índice

� Introducción

� Modelos de probabilidad de Máxima Entropía

� wsdME: implementación� esquema del sistema

� atributos (features)

� Experimentos y resultados� DSO

� SENSEVAL-2

� Conclusiones

� Trabajos futuros

febrero de 2002 3

Introducción

� Asignación del significado correcto a las palabras (Word Sense Disambiguation)

� Significados ←←←← Diccionarios (¿WordNet?)

� Métodos de asignación

• basados en el conocimiento

• basados en aprendizaje a partir de corpus

• supervisado (corpus anotado)

• no supervisado

febrero de 2002 4

Modelos de probabilidad de Máxima Entropía

� Modelos de probabilidad condicional de ME� Problema: clasificación de contextos

� Maximizar la entropía: máxima ignorancia sobre los datos

• caracterización contextos: fi(x, c)• Estimación de parámetros αααα i : Generalized Iterative Scaling (GIS)

∑∈∈

∈

=

=

CcX,x)|(log)|()(' -)(

)(maxarg*

xcpxcpxppH

pHpPp

∏=

=K

i

cxfi

i

xZxcp

1

),(

)(1)|( α

febrero de 2002 5


� Clasificación de contextos� Aprendizaje a partir de corpus anotado

• Ejemplos: contextos ya clasificados

• Caracterización de los contextos (features)

=

=casootroen

ccyxcpsicxf

0')(1

),(

“El BBVA muestra interés(1) por la compra de acciones de Airtel.”1"")1,(1),( ==−= cymuestraxpalabrasicxfh

2)1,(1),( ==+= cyADJxpossicxfi

febrero de 2002 6


� Aplicaciones ME en PLN� POS-tagging

� Sentence Boundary detection

� ...(Ratnaparki)

� WSD

• clasificar (desambiguar) nombres, verbos y adjetivos (y adverbios)

• Clases:

• sentidos WordNet

• dominios

• Contextos: ventanas, oraciones, párrafos, textos...

• palabras, lemas, información sintáctica, tópicos, ...

febrero de 2002 7

wsdME: implementación

� Esquema del sistema (C++, datos formato texto)

MÓDULOS DE FORMATO

MÓDULO DE APRENDIZAJE

MÓDULO DE CLASIFICACIÓN

MÓDULO DE EVALUACIÓN

�SEMCOR�DSO�SENSEVAL-2�texto plano

�TREE-TAGGER�MINIPAR�CONEXOR

�GISMÓDULO DE CARACTERIZACIÓN

DE CONTEXTOS

atributos?

febrero de 2002 8


� Módulos de formato

analizadores

traductores

preparadores

DSO SENSEVAL-2

SEMCOR

CorpusformatowsdME

datos

texto plano

febrero de 2002 9


� Módulos de aprendizaje, clasificación y evaluación

caracterización de contextos

aprendizaje (GIS) clasificación

corpusanotado

clasificadores

texto ambiguo

atributos

palabras clasificadas

evaluación

corpusanotado resultados

febrero de 2002 10



• |C|×|A|×|L| funciones

� Relajación

• |C|×|L| funciones

'),(1),(',

),,'( ccyalxpropsicxfCcAa

alc ===∈∀∈

},,{ CcXxcxCorpus ∈∈><=

C = sentidos posibles de la palabral = tipo de atributoA = valores posiblesa = valor predefinido (manual o automáticamente)prop(x, l) = atributo l en el contexto x

'),(1),(' ),'(),'( ccyWlxpropsicxfCc lclc =∈=∈∀

)},(,|{),( lxpropwcxwWCc lc =><∃=∈

febrero de 2002 11



� Funciones no relajadas• 0: palabra ambigua

• S: palabras en posiciones w±1, w±2, w±3

• Q: categoría gramatical de palabras in posiciones q±1, q±2, q±3

• Km: lemas de nombres en cualquier posición que aparecen al menos el m% de las veces con un sentido concreto

• R: rol gramatical de la palabra ambigua

� Funciones relajadas• L: lemas de palabras en posiciones l±1, l±2, l±3

• W: palabras en posiciones w±1, w±2, w±3

• B: lemas de colocaciones en posiciones (l-2,l-1), (l-1,l+1), (l+1,l+2)

• C: colocaciones en posiciones (w-2,w-1), (w-1,w+1), (w+1,w+2)

• P: categoría gramatical de palabras in posiciones p±1, p±2, p±3

• D: lema de la palabra de la que depende la ambigua

• M: palabra compuesta a la que pertenece la ambigua

febrero de 2002 13

x3:“El Gobierno argumentó que el legítimo interés(2) de la Nación no es incompatible con la solidaridad con los países más pobres.”


� atributosx1:“El BBVA muestra interés(1) por la compra de acciones de Airtel.”

x2:“El enorme interés(1) despertado por las acciones de la compañía...”

� l = w-1

• 3 x 2 = 6 funciones

• relajadas = 2 funciones

}"","{")1,1( enormemostrarW =−

}"{")1,2( legítimoW =−

febrero de 2002 14

Experimentos y resultados

� DSO (inglés)• nombres y verbos

� SENSEVAL-2 (Spanish lexical sample)• nombres, verbos y adjetivos

� Selección de features� El mejor resultado para cada palabra

� Incorporación progresiva de atributos

� Impacto de la relajación

febrero de 2002 15


� DSO (mejores resultados)

febrero de 2002 16


� DSO (no SQ)

febrero de 2002 17


� DSO

en mejores sin SQ0 L W S B C P Q K R D M 0 L W S B C P Q K R D M func accur

age,N 0CSQRDMK5 X X X X X X X X RDMCK3 X X X X X -1414 -4,0art,N 0CSQRDMK5 X X X X X X X X 0WC X X X -1524 -0,8car,N S X 0LB X X X -3007 -0,5

child,N SQ X X 0LWBC X X X X X -2684 -2,3church,N 0RDMCK3 X X X X X X 0RDMCK3 X X X X X X 0 0,0

cost,N 0W X X 0W X X 0 0,0head,N 0LWBCPK3RDM X X X X X X X X X X 0LWBCPK3RDM X X X X X X X X X X 0 0,0

interest,N 0SQRDM X X X X X X 0WCRDMK3 X X X X X X X -3657 -1,2line,N 0RDMCK5 X X X X X X 0RDMCK5 X X X X X X 0 0,0

work,N 0SQ X X X 0LWBCPK3RDM X X X X X X X X X X -3428 -0,4fall,V WCRDMK3 X X X X X X WCRDMK3 X X X X X X 0 0,0

know,V 0RDMCK10 X X X X X X 0RDMCK10 X X X X X X 0 0,0set,V BSQRDMK5 X X X X X X X 0WCRDMK3 X X X X X X X -3309 -4,2

speak,V 0SQ X X X 0WCRDMK3 X X X X X X X -1108 -1,4take,V LWBCSK10RDM X X X X X X X X X X WCRDMK5 X X X X X X -2385 -0,7

febrero de 2002 18


� DSO: impacto relajaciónfunciones accur boost mfs nb

MEJORES 2029 69,9 0,85 15,56 2,98NO SQ 528 68,9 -0,19 14,52 1,94

W S - P Q -age,N 63,6 68,2 -4,63 62,3 63,3 -1,04art,N 50,4 56,2 -5,85 49,8 51,6 -1,78car,N 96,6 97,1 -0,44 96,3 96,3 0,00child,N 86,5 90,2 -3,70 81,5 81,8 -0,28church,N 59,5 64,1 -4,60 61,8 62,0 -0,23cost,N 87,2 87,4 -0,27 89,6 89,6 0,00fall,V 81,4 84,6 -3,26 78,4 78,4 0,01head,N 62,1 78,1 -16,04 61,2 64,0 -2,77interest,N 60,0 65,2 -5,13 45,9 53,7 -7,85know,V 37,8 44,3 -6,52 36,1 37,0 -0,86line,N 33,9 35,0 -1,08 25,1 25,0 0,10set,V 41,6 51,9 -10,39 39,5 43,7 -4,11speak,V 67,7 72,9 -5,17 69,7 68,7 1,02take,V 36,9 36,8 0,10 19,0 20,1 -1,06work,N 41,3 47,8 -6,52 35,2 37,5 -2,21

-4,90 -1,40

febrero de 2002 19


� DSO: incorporación de atributos

-8,00

-6,00

-4,00

-2,00

0,00

2,00

4,00

6,00

8,00

10,00

LB

LWB

C

LWB

CP

0LB

0LW

BC

0LW

BC

P

0LW

BC

PK3R

DM SQ 0SQ

RD

M

0RD

M

todonombresverbos

febrero de 2002 20


� SENSEVAL-2� Spanish lexical sample (evaluación posterior)

40,0

45,0

50,0

55,0

60,0

65,0

70,0

75,0

80,0

85,0

LB

LWB

C

0LB

LWB

CP

LWB

CQ SQ

0LW

BC

Q

0LW

BC

0LW

BC

P

0SQ

0LB

K10

0LB

K5

LWS

BC

Q

0LW

SB

CQ

nounsverbsadjectivesALL

febrero de 2002 21


� SENSEVAL-2� buscando la mejor selección de atributos

resultados

uso de atributos(¡no prueba exhaustiva!)

nouns 17 69,1verbs 13 59,5

adjectives 9 81,1TOTAL 69,5

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

100,0

L B 0 W C Q S K P

ALLnounsverbsadjectives

febrero de 2002 22


� SENSEVAL-2 (Spanish)

resultados oficiales evaluación posteriorSystem PrecisionJHU (R) 71,2JHU 68,1Stanford - CS224N 66,9UMD - SST 62,7Duluth 8 61,5Duluth 10 60,7Duluth 7 59,5Duluth Z 59,5Duluth 6 58,1Duluth X 57,8Duluth 9 56,2Duluth Y 52,6Alicante 51,4

ME0LWSBCQ

nouns 0LBK5 63,8 63,0verbs 0LWSBCQ 55,4 55,4

adjectives LWSBCQ 78,1 78,0ALL 65,3 65,0

febrero de 2002 23

Conclusiones

� ME: basado en corpus, aprendizaje supervisado

� A la vista del corpus, no todas las palabras se desambiguan con los mismos atributos

� Se puede reducir el espacio de características� no degrada excesivamente los resultados

� incorporación de más tipos de características

� Resultados comparables a otros métodos

� wsdME: falta mucho preproceso

febrero de 2002 24

Trabajos futuros

� Dominios (Magnini)� nuevos atributos

� clases = dominios (no synsets)

� Ampliación� DSO completo

� Semcor

� Nuevo corpus GPLSI.LEXESP

� Pre/post proceso� incorporación de conocimiento

� Sistemas de cooperación entre diferentes métodos

probabilidad de Máxima Entropía WSD usando Modelos...

Documents

Transcript of probabilidad de Máxima Entropía WSD usando Modelos...