probabilidad de Máxima Entropía WSD usando Modelos...
Transcript of probabilidad de Máxima Entropía WSD usando Modelos...
WSD usando Modelos de probabilidad de Máxima Entropía
Armando Suárez Cueto
Manuel Palomar Sanz (Dtor.)
Grupo de Procesamiento del Lenguaje y Sistemas de Información
Dpto. de Lenguajes y Sistemas Informáticos
Universidad de Alicante
febrero de 2002 2
Índice
� Introducción
� Modelos de probabilidad de Máxima Entropía
� wsdME: implementación� esquema del sistema
� atributos (features)
� Experimentos y resultados� DSO
� SENSEVAL-2
� Conclusiones
� Trabajos futuros
febrero de 2002 3
Introducción
� Asignación del significado correcto a las palabras (Word Sense Disambiguation)
� Significados ←←←← Diccionarios (¿WordNet?)
� Métodos de asignación
• basados en el conocimiento
• basados en aprendizaje a partir de corpus
• supervisado (corpus anotado)
• no supervisado
febrero de 2002 4
Modelos de probabilidad de Máxima Entropía
� Modelos de probabilidad condicional de ME� Problema: clasificación de contextos
� Maximizar la entropía: máxima ignorancia sobre los datos
• caracterización contextos: fi(x, c)• Estimación de parámetros αααα i : Generalized Iterative Scaling (GIS)
∑∈∈
∈
=
=
CcX,x)|(log)|()(' -)(
)(maxarg*
xcpxcpxppH
pHpPp
∏=
=K
i
cxfi
i
xZxcp
1
),(
)(1)|( α
febrero de 2002 5
Modelos de probabilidad de Máxima Entropía
� Clasificación de contextos� Aprendizaje a partir de corpus anotado
• Ejemplos: contextos ya clasificados
• Caracterización de los contextos (features)
=
=casootroen
ccyxcpsicxf
0')(1
),(
“El BBVA muestra interés(1) por la compra de acciones de Airtel.”1"")1,(1),( ==−= cymuestraxpalabrasicxfh
2)1,(1),( ==+= cyADJxpossicxfi
febrero de 2002 6
Modelos de probabilidad de Máxima Entropía
� Aplicaciones ME en PLN� POS-tagging
� Sentence Boundary detection
� ...(Ratnaparki)
� WSD
• clasificar (desambiguar) nombres, verbos y adjetivos (y adverbios)
• Clases:
• sentidos WordNet
• dominios
• Contextos: ventanas, oraciones, párrafos, textos...
• palabras, lemas, información sintáctica, tópicos, ...
febrero de 2002 7
wsdME: implementación
� Esquema del sistema (C++, datos formato texto)
MÓDULOS DE FORMATO
MÓDULO DE APRENDIZAJE
MÓDULO DE CLASIFICACIÓN
MÓDULO DE EVALUACIÓN
�SEMCOR�DSO�SENSEVAL-2�texto plano
�TREE-TAGGER�MINIPAR�CONEXOR
�GISMÓDULO DE CARACTERIZACIÓN
DE CONTEXTOS
atributos?
febrero de 2002 8
wsdME: implementación
� Módulos de formato
analizadores
traductores
preparadores
DSO SENSEVAL-2
SEMCOR
CorpusformatowsdME
datos
texto plano
febrero de 2002 9
wsdME: implementación
� Módulos de aprendizaje, clasificación y evaluación
caracterización de contextos
aprendizaje (GIS) clasificación
corpusanotado
clasificadores
texto ambiguo
atributos
palabras clasificadas
evaluación
corpusanotado resultados
febrero de 2002 10
wsdME: implementación
� atributos (features)
• |C|×|A|×|L| funciones
� Relajación
• |C|×|L| funciones
'),(1),(',
),,'( ccyalxpropsicxfCcAa
alc ===∈∀∈
},,{ CcXxcxCorpus ∈∈><=
C = sentidos posibles de la palabral = tipo de atributoA = valores posiblesa = valor predefinido (manual o automáticamente)prop(x, l) = atributo l en el contexto x
'),(1),(' ),'(),'( ccyWlxpropsicxfCc lclc =∈=∈∀
)},(,|{),( lxpropwcxwWCc lc =><∃=∈
febrero de 2002 11
wsdME: implementación
� atributos (features)
� Funciones no relajadas• 0: palabra ambigua
• S: palabras en posiciones w±1, w±2, w±3
• Q: categoría gramatical de palabras in posiciones q±1, q±2, q±3
• Km: lemas de nombres en cualquier posición que aparecen al menos el m% de las veces con un sentido concreto
• R: rol gramatical de la palabra ambigua
� Funciones relajadas• L: lemas de palabras en posiciones l±1, l±2, l±3
• W: palabras en posiciones w±1, w±2, w±3
• B: lemas de colocaciones en posiciones (l-2,l-1), (l-1,l+1), (l+1,l+2)
• C: colocaciones en posiciones (w-2,w-1), (w-1,w+1), (w+1,w+2)
• P: categoría gramatical de palabras in posiciones p±1, p±2, p±3
• D: lema de la palabra de la que depende la ambigua
• M: palabra compuesta a la que pertenece la ambigua
febrero de 2002 13
x3:“El Gobierno argumentó que el legítimo interés(2) de la Nación no es incompatible con la solidaridad con los países más pobres.”
wsdME: implementación
� atributosx1:“El BBVA muestra interés(1) por la compra de acciones de Airtel.”
x2:“El enorme interés(1) despertado por las acciones de la compañía...”
� l = w-1
• 3 x 2 = 6 funciones
• relajadas = 2 funciones
}"","{")1,1( enormemostrarW =−
}"{")1,2( legítimoW =−
febrero de 2002 14
Experimentos y resultados
� DSO (inglés)• nombres y verbos
� SENSEVAL-2 (Spanish lexical sample)• nombres, verbos y adjetivos
� Selección de features� El mejor resultado para cada palabra
� Incorporación progresiva de atributos
� Impacto de la relajación
febrero de 2002 15
Experimentos y resultados
� DSO (mejores resultados)
febrero de 2002 16
Experimentos y resultados
� DSO (no SQ)
febrero de 2002 17
Experimentos y resultados
� DSO
en mejores sin SQ0 L W S B C P Q K R D M 0 L W S B C P Q K R D M func accur
age,N 0CSQRDMK5 X X X X X X X X RDMCK3 X X X X X -1414 -4,0art,N 0CSQRDMK5 X X X X X X X X 0WC X X X -1524 -0,8car,N S X 0LB X X X -3007 -0,5
child,N SQ X X 0LWBC X X X X X -2684 -2,3church,N 0RDMCK3 X X X X X X 0RDMCK3 X X X X X X 0 0,0
cost,N 0W X X 0W X X 0 0,0head,N 0LWBCPK3RDM X X X X X X X X X X 0LWBCPK3RDM X X X X X X X X X X 0 0,0
interest,N 0SQRDM X X X X X X 0WCRDMK3 X X X X X X X -3657 -1,2line,N 0RDMCK5 X X X X X X 0RDMCK5 X X X X X X 0 0,0
work,N 0SQ X X X 0LWBCPK3RDM X X X X X X X X X X -3428 -0,4fall,V WCRDMK3 X X X X X X WCRDMK3 X X X X X X 0 0,0
know,V 0RDMCK10 X X X X X X 0RDMCK10 X X X X X X 0 0,0set,V BSQRDMK5 X X X X X X X 0WCRDMK3 X X X X X X X -3309 -4,2
speak,V 0SQ X X X 0WCRDMK3 X X X X X X X -1108 -1,4take,V LWBCSK10RDM X X X X X X X X X X WCRDMK5 X X X X X X -2385 -0,7
febrero de 2002 18
Experimentos y resultados
� DSO: impacto relajaciónfunciones accur boost mfs nb
MEJORES 2029 69,9 0,85 15,56 2,98NO SQ 528 68,9 -0,19 14,52 1,94
W S - P Q -age,N 63,6 68,2 -4,63 62,3 63,3 -1,04art,N 50,4 56,2 -5,85 49,8 51,6 -1,78car,N 96,6 97,1 -0,44 96,3 96,3 0,00child,N 86,5 90,2 -3,70 81,5 81,8 -0,28church,N 59,5 64,1 -4,60 61,8 62,0 -0,23cost,N 87,2 87,4 -0,27 89,6 89,6 0,00fall,V 81,4 84,6 -3,26 78,4 78,4 0,01head,N 62,1 78,1 -16,04 61,2 64,0 -2,77interest,N 60,0 65,2 -5,13 45,9 53,7 -7,85know,V 37,8 44,3 -6,52 36,1 37,0 -0,86line,N 33,9 35,0 -1,08 25,1 25,0 0,10set,V 41,6 51,9 -10,39 39,5 43,7 -4,11speak,V 67,7 72,9 -5,17 69,7 68,7 1,02take,V 36,9 36,8 0,10 19,0 20,1 -1,06work,N 41,3 47,8 -6,52 35,2 37,5 -2,21
-4,90 -1,40
febrero de 2002 19
Experimentos y resultados
� DSO: incorporación de atributos
-8,00
-6,00
-4,00
-2,00
0,00
2,00
4,00
6,00
8,00
10,00
LB
LWB
C
LWB
CP
0LB
0LW
BC
0LW
BC
P
0LW
BC
PK3R
DM SQ 0SQ
RD
M
0RD
M
todonombresverbos
febrero de 2002 20
Experimentos y resultados
� SENSEVAL-2� Spanish lexical sample (evaluación posterior)
40,0
45,0
50,0
55,0
60,0
65,0
70,0
75,0
80,0
85,0
LB
LWB
C
0LB
LWB
CP
LWB
CQ SQ
0LW
BC
Q
0LW
BC
0LW
BC
P
0SQ
0LB
K10
0LB
K5
LWS
BC
Q
0LW
SB
CQ
nounsverbsadjectivesALL
febrero de 2002 21
Experimentos y resultados
� SENSEVAL-2� buscando la mejor selección de atributos
resultados
uso de atributos(¡no prueba exhaustiva!)
nouns 17 69,1verbs 13 59,5
adjectives 9 81,1TOTAL 69,5
0,0
10,0
20,0
30,0
40,0
50,0
60,0
70,0
80,0
90,0
100,0
L B 0 W C Q S K P
ALLnounsverbsadjectives
febrero de 2002 22
Experimentos y resultados
� SENSEVAL-2 (Spanish)
resultados oficiales evaluación posteriorSystem PrecisionJHU (R) 71,2JHU 68,1Stanford - CS224N 66,9UMD - SST 62,7Duluth 8 61,5Duluth 10 60,7Duluth 7 59,5Duluth Z 59,5Duluth 6 58,1Duluth X 57,8Duluth 9 56,2Duluth Y 52,6Alicante 51,4
ME0LWSBCQ
nouns 0LBK5 63,8 63,0verbs 0LWSBCQ 55,4 55,4
adjectives LWSBCQ 78,1 78,0ALL 65,3 65,0
febrero de 2002 23
Conclusiones
� ME: basado en corpus, aprendizaje supervisado
� A la vista del corpus, no todas las palabras se desambiguan con los mismos atributos
� Se puede reducir el espacio de características� no degrada excesivamente los resultados
� incorporación de más tipos de características
� Resultados comparables a otros métodos
� wsdME: falta mucho preproceso
febrero de 2002 24
Trabajos futuros
� Dominios (Magnini)� nuevos atributos
� clases = dominios (no synsets)
� Ampliación� DSO completo
� Semcor
� Nuevo corpus GPLSI.LEXESP
� Pre/post proceso� incorporación de conocimiento
� Sistemas de cooperación entre diferentes métodos