Adquisicion de conocimiento usando tecnicas deprocesamiento de texto y red semantica
Sesion 6: Formacion de ontologıas desde texto
Dra. Olivia Sanchez Graillet
5 de abril de 2012
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 1 / 36
Ontologıas
Llenado de ontologıas: proceso de definir e instanciar una base deconocimiento
Aprendizaje de ontologıas: metodos semi-automaticos paradesarrollar ontologıas
Adquisicion de conocimiento desde textoTecnicas de machine-learning, IA, PLN
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 2 / 36
Aprendizaje de ontologıas
Es multidisciplinaria debido a su conexion con la red semantica
Representacion de conocimiento, logica, filosofıa , bases de datos, PLN,IA, etc.
En el contexto de la red semantica, se adquiere y se proveeconocimiento desde y hacia la web
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 3 / 36
Desarrollo de ontologıas
Definicion de conceptos y las relaciones entre ellos
Implica la adquisicion de conocimiento linguıstico desde texto de losterminos que se refieren a los conceptos y a sus sinonimos
La estructura base es una taxonomıa con relaciones is-a y otrasrelaciones no-jerarquicas
Reglas que deriven hechos que se puedan inferir de las relaciones en laontologıa
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 4 / 36
Las capas del aprendizaje de ontologıas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 5 / 36
Metodos para extraer terminos
Se etiqueta un corpus y se construyen patrones para reconocerterminos en el corpus
Metodos de NER (name entity recognition)
Metodos de PLN que resuelven ambiguedad usando una ontologıa
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 6 / 36
Sinonimos y variantes multilinguısticas
Adquisicion de variantes semanticas de terminos en el mismo y entrediferentes idiomas (traduccion de terminos)
Uso de WordNet y de EuroWordNet
Uso de metathesaurus especializados
Es necesario:
Escoger el significado adecuado en WordNet para un termino dadoConsiderar la desambiguacion de terminos (WSD)
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 7 / 36
Reconocimiento de conceptos
¿Como se compone exactamente un concepto?
La formacion de un concepto deberıa proveer:
una definicion intensional del conceptoun conjunto de instancias del concepto, i.e., su extensionun conjunto de representaciones linguısticas i.e., (plurilingue) terminospara ese concepto
De esta forma, se define un concepto como un par con un lexico(I,Σ)⊕ L, donde:
I es la intension del conceptoΣ es su extensionL describe su representacion linguıstica (pueden ser estructurascomplejas)
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 8 / 36
Reconocimiento de conceptos (2)
Generalmente se ve desde la perspectiva linguıstica o textual, comogrupos de terminos relacionados entre sı
Equivale a identificar terminos y sus sinonimos
Desde el punto de vista extensional, e.g., jerarquıas derivadas deentidades nombradas en texto
Se identifican las extensiones de un concepto
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 9 / 36
Reconocimiento de conceptos (3)
Trata de:
Encontrar las instancias de un concepto (llenado de ontologıa)
Adquisicion de definiciones formales e informales:
Definicion informal: puede ser una descripcion textual (glosa) delconceptoDefinicion formal: incluye la descripcion de las propiedades delconcepto, parte de las cuales es la extraccion de las relaciones entre unconcepto con otros conceptos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 10 / 36
Paradigmas para inducir taxonomıas desde textos
1 a) Patrones lexico-sintacticos para detectar relaciones de hiponimia:estos patrones no se encuentran frecuentemente en corporab) Metodos que usan NPs y las subclases derivadas de combinar susencabezados con sus modificadores
2 Uso de algoritmos de clustering jerarquicos para derivar las jerarquıasde los terminos desde texto (e.g. lattice)
3 Nocion basada en documentos para la inclusion (subsumption) determinos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 11 / 36
Ejemplo de patrones lexico-sintacticos
Hearst, 1992
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 12 / 36
Ejemplo de subclases encabezado-modificadores
“Transient ischemic attacks mimicking in some cases simple partial motorseizures”“Los ataques isquemicos transitorios que imitan en algunos casos a simplesconvulsiones motoras parciales”
Se crean clases para los encabezados del sujeto attack y del objetoseizure
Se crea el slot mimic para la clase attack con la clase seizure comosu rango, (i.e., las clases de todos las posibles palabras para ese slot)
Buitelaar et al., 2004
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 13 / 36
Identificacion de relaciones no-jerarquicas
Objetivo: descubrir relaciones entre conceptos conocidos (e.g.enfermedades, proteınas, genes, etc.) analizando grandes cantidadesde texto
Metodos de minerıa de textos: combinan estadıstica y analisissintactico o de dependencias gramaticales
Metodos para adquirir restricciones de seleccion para argumentos deverbos en PLN
Algoritmos para aprender reglas de asociacion entre entidades
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 14 / 36
Ejemplo de restricciones para argumentos de verbos
< viajar > < sujeto : humano > < por : vehiculo >
< sujeto : humano > y < por : vehiculo > son las subcategorıas delverbo viajar
El sujeto es un rol sintactico y “by” es una preposicion que introducealgo adjunto
humano y vehıculo son sus restricciones de seleccion
En forma mas general, el marco de subcategorizacion aprendido es:
< verbo > < rol sintactico|preposicion : sustantivo ∗ |concepto∗ > ∗
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 15 / 36
Ejemplo de reglas de asociacion
Algoritmos que encuentran asociaciones que ocurren entre entidades
e.g. los productos del supermercado en un conjunto de transacciones:
las compras se describen en un nivel apropiado de abstraccion: “lasbotanas se compran junto con las bebidas” en lugar de:
“las papas fritas se compran junto con cerveza” y los “cacahuates secompran junto con refrescos”
Maedche, A. y Staab, S. 2000
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 16 / 36
Extraccion de reglas
Objetivo: aprender reglas ontologicas desde textos
Relacionado con aprendizaje de reglas de derivacion de inferencialexica (entailment)
No existen muchos metodos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 17 / 36
Criterios de evaluacion
Evaluacion manual: realizada por expertos en el area especıfica de laontologıa
Comparacion con Gold-standard
Basada en tareas: se evalua que tanto una ontologıa ayuda a realizaruna tarea especıfica
Basada en corpus: que tanto una ontologıa cubre cierto dominio
Basada en criterios: que tanto una ontologıa se ajusta a ciertoscriterios deseados (e.g. estructura de la grafica, nociones filosoficas)
Dellschaft y Staab, 2008
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 18 / 36
Aplicaciones
Metodos cıclicos: aprendizaje automatico de ontologıas desde texto yuso de esta ontologıa para mejorar la extraccion de informacion desdetexto
OWLExporter: para llenado de ontologıas (exportacion de ontologıasdesde texto) (Witte et al., 2010)
Aprendizaje de conceptos desde corpus: identificar conceptos y suclasificacion de acuerdo a sus atributos (caracterısticas) y propiedades(Poesio y Albuhareb, 2004)
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 19 / 36
Aplicacion cıclica
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 20 / 36
OWLExporter
Etiqueta palabras con un pipeline de PLN (GATE) y las mapea aldominio correspondiente
Se exportan individuos a la ontologıas
Establece relaciones entre los conceptos de un ontologıa ya existente
Se exportan los tipos de datos o las propiedades de los objetos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 21 / 36
OWLExporter: mapeos de anotaciones PLN a conceptosOWL
Usa dos reglas gramaticales: OwlExportClass y OwlExportRelation
Usa dos ontologıas: PLN y la del dominio
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 22 / 36
OWLExporter: ejemplo de OwlExportClass
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 23 / 36
OWLExporter: flujo general
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 24 / 36
Aprendizaje de conceptos: teorıa
Conceptos: son objetos mentales complejos caracterizados por ciertonumero de atributos (caracterısticas) en teorıas filosoficas,psicologicas, linguısticas, IA
Segun Aristoteles (en Metafısica), la naturaleza de un concepto sepuede describir por cuatro causas:
1 material: el material con el cual un objeto esta compuesto2 agentiva: lo que causa la creacion o el movimiento de un objeto3 formal: lo que se espera o se planea que un objeto sea - su escencia y
forma4 final: la causa por la cual el objeto existe o es creado
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 25 / 36
Aprendizaje de conceptos: teorıa
Pustejovsky adopta esta vision en su teorıa “Generative Lexicon”
una parte integral de una entrada lexica es su estructura qualia en elsentido dado por Aristoteles
La estructura qualia consiste de cuatro tipos de roles(correspondientes a las cuatro causas de Aristoteles):
1 formal: conjunto de atributos que especifican el tipo de objeto quedenota al concepto -sus cualidades intrınsecas. Incluye supertipos(relacion is-a) y atributos que especifican su forma.E.g. concepto libro: un objeto fısico con ciertas cualidades como< figura > y < color >
2 constitutivo: especifica la materia y las partes de un objeto (e.g. unlibro esta hecho de papel, tiene capıtulos, ındice, etc.)
3 telico: especifica el proposito de un objeto (e.g. leer)4 agentivo: especifica como fue creado el objeto (e.g. escribiendolo)
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 26 / 36
Aprendizaje de conceptos
Objetivo: identificar las propiedades y atributos de objetos y usarestas propiedades para agrupar conceptos en clases
E.g.: “an ancient signet-ring”
“rings” pueden ser antiguos (“ancient”) o pueden tener edad (“age”)
Encontrar que “rings” y “bracelets” son mas parecidos que “rings” y“cats”, o “bracelets” y “cats”
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 27 / 36
Aprendizaje de conceptos: otros metodos
Otros metodos usan LSA e IE y se basan en la nocion “el significadode una palabra es especificado por la companıa que tiene”
Metodos usando modificadores y relaciones sintacticas queacompanan a una palabra
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 28 / 36
Aprendizaje de conceptos: con propiedades
patron: “[a|and|the]* C[is|was]”, en donde C es un concepto y * esuna sola palabra
E.g. “an inexpensive car”
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 29 / 36
Ejemplo: propiedades de “nose” fuertemente asociadas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 30 / 36
Aprendizaje de conceptos: con atributos
patron: “the * of the C [is|was]” E.g. “the size of the nose is”
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 31 / 36
Ejemplo: atributos de “nose” fuertemente asociadas
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 32 / 36
Aprendizaje de conceptos: Conclusion
El agrupamiento con atributos da mejores resultados usando menosinformacion
El agrupamiento con atributos es mas preciso (97.30 %) que conpropiedades (64.86 %)
Las propiedades tienen mas poder de discriminacion que los atributos
La precision mas alta (100 %) en clasificacion se obtuvo combinandopropiedades y atributos
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 33 / 36
Software: Boxer
Desarrollado por Johan Bos
Genera representaciones semanticas
Usa un parser CCG (Combinatory Categorial Grammar) y produceDRSs (Discourse Representation Structures, Teorıa de larepresentacion del discuros de Hans Kamp)
http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 34 / 36
Referencias
Buitelaar, P., Cimiano, P., Magnini, B. Ontology learning from text:methods, evaluation and applications. Ios Pr Inc
Buitelaar, P., Olejnik, D., Sintek, M. 2004. A Protege Plug-In forOntology Extraction from Text Based on Linguistic Analysis. En 1stEuropean Semantic Web Symposium, Heraklion, Greece.
Klaas Dellschaft y Steffen Staab. 2008. Strategies for the Evaluationof Ontology Learning. En Proceedings of the 2008 conference onOntology Learning and Population: Bridging the Gap between Textand Knowledge, P. Buitelaar and P. Cimiano (Eds.), 253-272.
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 35 / 36
Referencias
Maedche, A. y Staab, S. 2000. Discovering conceptual relations fromtext. En Proceedings of the 14th European Conference on ArtificialIntellignece (ECAI’2000).
Poesio, M. and Almuhareb, A. 2004. Feature-Based vs.Property-based KR: An Empirical perspective. En Achille Varzi andLaure Vieu (eds), Formal Ontology in Information Systems,Proceedings, IoS, Amsterdam, 177-184.
Witte, R., Khamis, N. and Rilling, J. 2010. Flexible OntologyPopulation from Text: The OwlExporter. En International Conferenceon Language Resources and Evaluation (LREC). Valletta, Malta,3845-3850.
Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 5 de abril de 2012 36 / 36
Top Related