Estudio preliminar para la creación de Euskal PropBank
description
Transcript of Estudio preliminar para la creación de Euskal PropBank
Estudio preliminar Estudio preliminar para la creación depara la creación de
Euskal PropBankEuskal PropBankIzaskun Aldezabal RotetaIzaskun Aldezabal Roteta
Grupo Ixa, UPV-EHUGrupo Ixa, UPV-EHUSERES. Octubre, 2006SERES. Octubre, 2006
EsquemaEsquema FinalidadFinalidad
Recursos Recursos
MetodologíaMetodología
Conclusiones Conclusiones
FinalidadFinalidad Comprobar la validez del modelo Comprobar la validez del modelo
de etiquetado de PropBank para el de etiquetado de PropBank para el euskeraeuskera
Motivación:Motivación: Parten de un corpus etiquetado sintácticamenteParten de un corpus etiquetado sintácticamente Decisiones importantes tomadas: distinción Decisiones importantes tomadas: distinción
argumentos/adjuntos, sentidos...argumentos/adjuntos, sentidos... Se está trabajando con más lenguas: chino, Se está trabajando con más lenguas: chino,
español, catalán, euskera (español-catalán-español, catalán, euskera (español-catalán-euskera, en la acción complementaria CESS-euskera, en la acción complementaria CESS-ECE). Comparación multilingüe.ECE). Comparación multilingüe.
RecursosRecursos Corpus Eus3LBCorpus Eus3LB: Corpus del euskera : Corpus del euskera
etiquetado sintácticamente, basándose en etiquetado sintácticamente, basándose en dependencias (50.000 palabras).dependencias (50.000 palabras).
Base de datos creada con la información Base de datos creada con la información obtenida de PropBank y Verbnet. (Grupo Ixa + obtenida de PropBank y Verbnet. (Grupo Ixa + base de datos (de pago) PropBank).base de datos (de pago) PropBank).
Diccionarios monolingües y bilingüesDiccionarios monolingües y bilingües (euskera-castellano inglés)(euskera-castellano inglés)
Tesis de Aldezabal (2004)Tesis de Aldezabal (2004) Estudio de la Estudio de la subcategorización verbal. Análisis detallado de subcategorización verbal. Análisis detallado de 100 verbos en euskera, basándose en Levin 100 verbos en euskera, basándose en Levin (1993) y utilizando métodos automáticos(1993) y utilizando métodos automáticos..
MetodologíaMetodología Preparar la entrada léxica del verboPreparar la entrada léxica del verbo
Elegir el verbo en euskeraElegir el verbo en euskera Obtener la visión general de los sentidos del verbo en Obtener la visión general de los sentidos del verbo en
euskera y buscar sus equivalentes léxicos en ingléseuskera y buscar sus equivalentes léxicos en inglés Analizar los equivalentes sintácticos en inglésAnalizar los equivalentes sintácticos en inglés Aplicar las entradas equivalentes deAplicar las entradas equivalentes de VerbNet VerbNet y y PropBank PropBank al al
euskeraeuskera Etiquetar el corpus con los roles temáticosEtiquetar el corpus con los roles temáticos
Etiquetar el corpus Etiquetar el corpus Criterios generalesCriterios generales
Agrupar las dudas y completar la tabla de Agrupar las dudas y completar la tabla de comentarioscomentarios
Revisar/modificar la entradaRevisar/modificar la entrada
Metodología IMetodología IPreparar la entrada léxica del verbo (I)Preparar la entrada léxica del verbo (I)
Elegir el verbo en euskera:Elegir el verbo en euskera: Eus3lb Eus3lb
622 verbos diferentes622 verbos diferentes 40 verbos de más de 20 apariciones40 verbos de más de 20 apariciones 482 verbos de menos de 5 apariciones482 verbos de menos de 5 apariciones
Criterios: facilidad y frecuenciaCriterios: facilidad y frecuencia242 %38.0242 %38.0 eginegin236 %37.0236 %37.0 izanizan185 %29.0185 %29.0 esanesan104 %16.0104 %16.0 adieraziadierazi 94 %15.094 %15.0 eskatueskatu 76 %12.076 %12.0 emaneman 67 %10.067 %10.0 azalduazaldu 62 %9.062 %9.0 hartuhartu 61 %9.061 %9.0 jojo 61 %9.061 %9.0 salatusalatu
Metodología IMetodología IPreparar la entrada léxica del verbo (II)Preparar la entrada léxica del verbo (II)
Obtener la visión general de los sentidos del Obtener la visión general de los sentidos del verbo en euskeraverbo en euskera
Diccionarios monolingüesDiccionarios monolingües ‘‘Expresar algo mediante palabras’ / ‘prometer’ / ‘llamarse’ Expresar algo mediante palabras’ / ‘prometer’ / ‘llamarse’
Tesis Aldezabal (2004)Tesis Aldezabal (2004) Dos sentidos: Dos sentidos:
esan-DU-1 y esan-DU-2: actividad (de expresión) de una entidad esan-DU-1 y esan-DU-2: actividad (de expresión) de una entidad esan-DIO-3: asignación de un atributo o característica a una esan-DIO-3: asignación de un atributo o característica a una
entidadentidad ConclusionesConclusiones
Dos acepcionesDos acepciones alguien dice (a alguien) algo alguien dice (a alguien) algo alguien llama a algo de una maneraalguien llama a algo de una manera
Metodología IMetodología IPreparar la entrada léxica del verbo Preparar la entrada léxica del verbo
(III)(III)
Analizar los equivalentes léxicos en inglés para Analizar los equivalentes léxicos en inglés para esos sentidosesos sentidos
Diccionarios bilingüesDiccionarios bilingües alguien dice (a alguien) algo : alguien dice (a alguien) algo : saysay eta eta telltell alguien llama a algo de una madera: alguien llama a algo de una madera: callcall
Metodología IMetodología IPreparar la entrada léxica del verbo Preparar la entrada léxica del verbo
(IV)(IV) Analizar los equivalentes sintácticos en Analizar los equivalentes sintácticos en
PropBank y en Verbnet. Para ello:PropBank y en Verbnet. Para ello: Enterder la filosofía general de PropBankEnterder la filosofía general de PropBank Entender la filosofía general de Verbnet Entender la filosofía general de Verbnet
Metodología IMetodología IPreparar la entrada léxica del verboPreparar la entrada léxica del verbo (V) (V)
Filosofía general de PropBankFilosofía general de PropBank Dos niveles independientes:Dos niveles independientes:
Argumentos y adjuntosArgumentos y adjuntos Argumentos [0-4] (Arg0, Arg1, …, Arg4)Argumentos [0-4] (Arg0, Arg1, …, Arg4) Adjuntos (ArgM)Adjuntos (ArgM)
Roles semánticos específicos:Roles semánticos específicos:buyer, thing bought, speaker…buyer, thing bought, speaker…
Cada verbo tiene sus rolsets (sentidos) y cada rolset Cada verbo tiene sus rolsets (sentidos) y cada rolset tiene sus frames (realizaciones sintácticas: tiene sus frames (realizaciones sintácticas: frameset)frameset)
Metodología IMetodología IPreparar la entrada léxica del verboPreparar la entrada léxica del verbo (VI) (VI)
Ejemplo: Ejemplo: telltellEl El rolesetroleset de de tell.01 tell.01 es:es: arg 0 speakerarg 0 speakerarg 1 utterancearg 1 utterancearg 2 hearerarg 2 hearerLos frames asociados con el rolset tell.01 se expresan de la siguiente manera:
ditransitive (-) The score tell you what the characters are thinking and feeling.
Arg0: The scoreREL: tellArg2: youArg1: what the characters are thinking
and feeling
odd ditransitive (-) prepositional arg2 (-)fronted (-)
Metodología IMetodología IPreparar la entrada léxica del verboPreparar la entrada léxica del verbo
(VII)(VII)
Filosofía general de Verbnet: Filosofía general de Verbnet: http://http://wwwwww..ciscis..upennupenn.edu/.edu/groupgroup//verbnetverbnet//
Clasificación basada en Levin (1993):Clasificación basada en Levin (1993): Número de la clase: 9.1, 9.2, 10.1…Número de la clase: 9.1, 9.2, 10.1… Roles semánticos generales:Roles semánticos generales:
agent, theme, topic, beneficiary…agent, theme, topic, beneficiary… Propiedades semánticas:Propiedades semánticas:
±±animate, animate, ±±organization, organization, ±±communication, communication, ±±concrete, concrete, ±±location, location, ±±region, region, ±±animal …animal …
Metodologia IMetodologia I Preparar la entrada léxica del verboPreparar la entrada léxica del verbo
(VIII)(VIII)Consultar los verbos (Consultar los verbos (saysay, , telltell y y call)call) en la base de datos en la base de datos
Verbnet/PropBank Ej.:Verbnet/PropBank Ej.:
say.01 (LEVIN say 37.7)say.01 (LEVIN say 37.7)ARG0-null Sayer (VN Agent 37.7) = ARG0-null Sayer (VN Agent 37.7) = 1044910449 (by = 1)(by = 1)ARG1-null Utterance (VN Topic 37.7) = ARG1-null Utterance (VN Topic 37.7) = 1049110491 (by = 1)(by = 1)1050310503 ARG2-null Hearer (VN Recipient 37.7)ARG2-null Hearer (VN Recipient 37.7) = = 1212 (to = 10)(to = 10)ARG3-null Attributive (VN ) = ARG3-null Attributive (VN ) = 37 37 (null = 2, about = 10, ADV = 1, for = 2, (null = 2, about = 10, ADV = 1, for = 2, For = 3, in = 1, of = 16, Of = 2)For = 3, in = 1, of = 16, Of = 2)
tell.01 (LEVIN pass along information 37.1-1 37.2)tell.01 (LEVIN pass along information 37.1-1 37.2)ARG0-null Speaker (VN Agent 37.1-1:Agent 37.2) = 323ARG0-null Speaker (VN Agent 37.1-1:Agent 37.2) = 323 (by = 4) (by = 4)356356 ARG1-null Utterance (VN Topic 37.1-1:Topic 37.2) = 340 (about = ARG1-null Utterance (VN Topic 37.1-1:Topic 37.2) = 340 (about = 8, of =5)8, of =5)ARG2-null Hearer (VN Recipient 37.1-1:Recipient 37.)=310 (to=2, ARG2-null Hearer (VN Recipient 37.1-1:Recipient 37.)=310 (to=2, REC=1)REC=1)
Metodología IMetodología IPreparar la entrada léxica del verbo (IX)Preparar la entrada léxica del verbo (IX)
Tener en cuenta lo propuesto en la tesis de Tener en cuenta lo propuesto en la tesis de Aldezabal (2004)Aldezabal (2004) ( (esanesan))
3 frames sintáctico-semánticos (fss), correspondientes a dos 3 frames sintáctico-semánticos (fss), correspondientes a dos sentidos:sentidos:
1. alguien dice algo: 2 argumentos con 2 variantes sintácticas:1. alguien dice algo: 2 argumentos con 2 variantes sintácticas:esan-DU-1: experimentador (erg); tema (abs)esan-DU-1: experimentador (erg); tema (abs)esan-DU-2: experimentador (erg); tema (compl.)esan-DU-2: experimentador (erg); tema (compl.)
2. alguien a algo/alguien dice de un forma: 3 argumentos, sin 2. alguien a algo/alguien dice de un forma: 3 argumentos, sin variantes sintácticas:variantes sintácticas:
esan-DU-3: origen (erg); destino (dat); característica (abs)esan-DU-3: origen (erg); destino (dat); característica (abs)
Metodologia IMetodologia I Preparar la entrada léxica del verboPreparar la entrada léxica del verbo (X) (X)
Proponer la entrada léxica del verbo Proponer la entrada léxica del verbo esan esan al estilo PropBank, al estilo PropBank, manteniendo la información de los casos:manteniendo la información de los casos:esan.01esan.01(alguien dice algo a alguien sobre algo)(alguien dice algo a alguien sobre algo)Arg0Arg0 el que dice sayerel que dice sayer agent agent ERGERGArg1Arg1 lo dicholo dicho utteranceutterance topictopic ABS/COMPLABS/COMPLArg2Arg2 oyenteoyente hearerhearer recipientrecipient DATDATArg3Arg3 atributoatributo attributive???attributive??? INS / -i buruzINS / -i buruz
esan.02esan.02(alguien dice a algo/alguien de una manera)(alguien dice a algo/alguien de una manera)Arg0Arg0 el que dice el que dice callercaller agentagent ERGERGArg1Arg1 el calificado item being labelledel calificado item being labelled themetheme DATDATArg2Arg2 la calificaciónla calificación attribute of arg1 attribute of arg1 predicatepredicate ABSABS
Metodología IIMetodología IIEtiquetar el corpus con roles temáticos (I)Etiquetar el corpus con roles temáticos (I)
Etiquetar el corpus EPEC (corpus de referencia Etiquetar el corpus EPEC (corpus de referencia para el tratamiento del euskera). 300.000 palabras.para el tratamiento del euskera). 300.000 palabras.
Euskal gatazka ez dela armen bidez konponduko esan digu, politikoki baizik, Euskal gatazka ez dela armen bidez konponduko esan digu, politikoki baizik, borroka armatua eta errepresio itsua gaitzetsirik borroka armatua eta errepresio itsua gaitzetsirik (‘Nos ha dicho que el (‘Nos ha dicho que el conflicto vasco no se arreglará mediante las armas…’)conflicto vasco no se arreglará mediante las armas…’)
ccomp_obj (konp, esan, aditz_aurk, dela) ccomp_obj (konp, esan, aditz_aurk, dela) Arg1 Arg1 utterance/topicutterance/topicncsubj (erg, esan, pro2.1, pro2.1, subj)ncsubj (erg, esan, pro2.1, pro2.1, subj) nczobj (dat, esan, pro3.1, pro3.1, zobj)nczobj (dat, esan, pro3.1, pro3.1, zobj)auxmod (-, esan, digu)auxmod (-, esan, digu)
Gurreak ekintza salatu eta familiari elkartasuna adierazi zion, Gobernuaren Gurreak ekintza salatu eta familiari elkartasuna adierazi zion, Gobernuaren izenean izenean (‘Gurrea ha denunciado lo sucedido y le ha expresado su solidaridad a (‘Gurrea ha denunciado lo sucedido y le ha expresado su solidaridad a la familia…’)la familia…’)
ncsubj (erg, adierazi, pro1.1, pro1.1, subj)ncsubj (erg, adierazi, pro1.1, pro1.1, subj)nczobj (dat, adierazi, familiari, familiari, zobj) nczobj (dat, adierazi, familiari, familiari, zobj) Arg2 Arg2 entzulea/hearer/recipiententzulea/hearer/recipientncobj (abs, adierazi, elkartasuna, elkartasuna, obj) ncobj (abs, adierazi, elkartasuna, elkartasuna, obj) Arg1 Arg1 utterance/topicutterance/topic auxmod (-, adierazi, zion)auxmod (-, adierazi, zion)
Metodología IIMetodología IIEtiquetar el corpus con roles temáticos Etiquetar el corpus con roles temáticos
(II)(II)
Teniendo en cuenta los criterios generalesTeniendo en cuenta los criterios generales Los más importantesLos más importantes
Semántica superficialSemántica superficial (sólo los argumentos/adjuntos (sólo los argumentos/adjuntos que aparecen en el corpus)que aparecen en el corpus)
La unidad es la oración de cada verbo a tratar La unidad es la oración de cada verbo a tratar Dejar a un lado las oraciones dudosasDejar a un lado las oraciones dudosas
Metodología IIIMetodología IIIAgrupar las dudas. Revisar/modificar la Agrupar las dudas. Revisar/modificar la
entradaentrada
Agrupar dudas y completar la tabla de Agrupar dudas y completar la tabla de comentarioscomentariosProblemas con los argumentosProblemas con los argumentos::--Arg3Arg3 attributive attributive: : -ren kasuan-ren kasuan , , –ren aurrean–ren aurrean , , -ren gainean-ren gainean, , -ri -ri buruzburuz... Son attributive?. Comparar si con otros verbos estos casos ... Son attributive?. Comparar si con otros verbos estos casos complejos tienen el mismo valor. complejos tienen el mismo valor. Ejemplos dudososEjemplos dudosos::- Ambigüedad de los modificadores: ¿pertenecen a un verbo u otro?- Ambigüedad de los modificadores: ¿pertenecen a un verbo u otro?
Revisar/modificar la entrada, si hace falta: Revisar/modificar la entrada, si hace falta: añadir/quitarañadir/quitar
argumentosargumentos sentidossentidos realizaciones sintácticas realizaciones sintácticas
Conclusiones IConclusiones I
La adecuación al euskera de las entradas y el La adecuación al euskera de las entradas y el etiquetado del modelo PropBank no ha acarreado etiquetado del modelo PropBank no ha acarreado mayores problemas. Hemos trabajado con tres mayores problemas. Hemos trabajado con tres verbos (verbos (esan, adierazi, eskatuesan, adierazi, eskatu). Quizás hay que ). Quizás hay que probar con verbos más difíciles (ambiguos) probar con verbos más difíciles (ambiguos)
Con todo, el estudio preliminar ha demostrado Con todo, el estudio preliminar ha demostrado que el modelo PropBank es válido para el que el modelo PropBank es válido para el euskeraeuskera
Prevemos realizar el etiquetado de forma Prevemos realizar el etiquetado de forma semiautómatica. De la siguiente manera:semiautómatica. De la siguiente manera:
Conclusiones IIConclusiones IIEtiquetado semiautomáticoEtiquetado semiautomático
Etiquetado semiautómático:Etiquetado semiautómático: Se pueden utilizar heurísticos que Se pueden utilizar heurísticos que
garantizan un etiquetado autómatico garantizan un etiquetado autómatico correcto:correcto: Pueden ser generales:Pueden ser generales:
Caso de declinación ERG => Arg0Caso de declinación ERG => Arg0 Pueden ser específicos (para cada verbo)Pueden ser específicos (para cada verbo)
Conclusiones IIIConclusiones IIIEtiquetado semiautomáticoEtiquetado semiautomático Por ejemplo, con el verbo Por ejemplo, con el verbo esanesan, las ambigüedades , las ambigüedades
de los casos según los sentidos son las siguientes:de los casos según los sentidos son las siguientes:
Casos de Casos de declinacióndeclinación
RolesRoles Sentidos de Sentidos de esanesan
ERGERG Arg0: AgentArg0: Agent 01/0201/02
ABSABS Arg1: Topic / Arg2: PredicateArg1: Topic / Arg2: Predicate 01/0201/02
COMPCOMP Arg1: TopicArg1: Topic 0101
DATDAT Arg2: Recipient / Arg1: Arg2: Recipient / Arg1: ThemeTheme
01/0201/02
INS/INS/-I BURUZ…-I BURUZ… Arg3: AttributiveArg3: Attributive 0101
Conclusiones IIIConclusiones IIIEtiquetado semiautomáticoEtiquetado semiautomático Así:Así:
Los casos COMP, INS e -I BURUZ, Los casos COMP, INS e -I BURUZ, desambiguarían los sentidos y roles desambiguarían los sentidos y roles sin ningún error.sin ningún error.
En el corpus, el COMP aparece en un En el corpus, el COMP aparece en un 82 %, y el INS en un 3 %82 %, y el INS en un 3 %
Eso significa que sólo un 18 % Eso significa que sólo un 18 % quedaría ambíguo, para tratarlo quedaría ambíguo, para tratarlo manualmente.manualmente.
Conclusiones IIIConclusiones IIIEtiquetado semiautomáticoEtiquetado semiautomático
Los adjuntos hay que etiquetarlos manualmente.
Hace falta una revisión manual final
La tarea principal consiste en definir La tarea principal consiste en definir bien las entradas verbales. A partir de bien las entradas verbales. A partir de ahí, se pueden proponer métodos ahí, se pueden proponer métodos semiautomáticos que faciliten y semiautomáticos que faciliten y agilicen la tarea de etiquetado.agilicen la tarea de etiquetado.