PLN Introducción Ingeniería Lingüística1 Introducción al PLN 1 Presentación del curso...

Post on 29-Jan-2016

217 views 0 download

Transcript of PLN Introducción Ingeniería Lingüística1 Introducción al PLN 1 Presentación del curso...

PLN Introducción Ingeniería Lingüística 1

Introducción al PLN 1

• Presentación del curso• Ingeniería lingüística

• Tareas• Recursos• Aplicaciones

• Niveles de procesamiento lingüístico

• Presentación del curso• Ingeniería lingüística

• Tareas• Recursos• Aplicaciones

• Niveles de procesamiento lingüístico

PLN Introducción Ingeniería Lingüística 2

Del PLN a la Ingeniería Lingüística

• La Ingeniería Lingüística es la aplicación del conocimiento de la lengua al desarrollo de sistemas informáticos capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas.

• La IL comprende:• Métodos, Técnicas y Herramientas• Recursos (Lingware)• Aplicaciones

PLN Introducción Ingeniería Lingüística 3

Componentes de la Tecnología

TEXTO VOZ IMAGEN

ENTRADA

SALIDA

TEXTO VOZ IMAGEN

RECURSOS LINGÜÍSTICOS

Reconocer yValidar

Analizar yComprender Aplicar Generar

PLN Introducción Ingeniería Lingüística 4

Técnicas utilizadas

• Identificación del hablante. Verificación• Reconocimiento del habla• Reconocimiento de caracteres e imágenes• Comprensión de la lengua• Generación de lenguaje• Sistemas basados en diálogos• Síntesis del habla

PLN Introducción Ingeniería Lingüística 5

Identificación del hablante. Verificación

• Problemas:• Hablante desconocido• Ruido (en el entorno o en el medio de

transmisión)• Cambios temporales en el hablante

PLN Introducción Ingeniería Lingüística 6

Reconocimiento del habla

• Discurso discreto vs continuo• Adquisición y uso de modelos

estadísticos de los fonemas y palabras• Reconocimiento de cualquier locutor

(sin necesidad de entrenamiento)• Ruido• Acento, dialectos, agramaticalidades

PLN Introducción Ingeniería Lingüística 7

Reconocimiento de caracteres e imágenes

• Reconocimiento de caracteres impresos (OCR)• tipo de letra desconocido• mala calidad del texto

• Reconocimiento de texto escrito a mano (ICR)• Reconocimiento de imágenes

• Análisis del documento. • Separación en gráficos, texto, fotografías• Análisis del texto: títulos, encabezados, párrafos,

etc...

PLN Introducción Ingeniería Lingüística 8

Comprensión de la lengua

• Comprensión completa o parcial• Análisis incremental:

• Análisis parcial y/o superficial• localización de focos de interés• Análisis más detallados de dichos focos

• Técnicas lingüísticas, estadísticas e híbridas

• Modelos semánticos• Palabras desconocidas

PLN Introducción Ingeniería Lingüística 9

Generación de lenguaje

• Representación semántica del texto• Qué decir y Cómo decirlo (what to say,

how to say)• Planificación del contenido y de la forma• Elementos retóricos

PLN Introducción Ingeniería Lingüística 10

Sistemas basados en diálogos

• Alto nivel de comprensión• Calidad del diálogo• Detección del contenido ilocutivo de las

intervenciones del interlocutor humano• Acciones primitivas locutivas y no locutivas

• comunicaciones, órdenes, peticiones, preguntas, etc...

• Actos de habla directos e indirectos

PLN Introducción Ingeniería Lingüística 11

Síntesis del habla

• Contenido• Forma: intensidad, entonación, duración• Generación a partir de piezas

pregrabadas. Concatenación

PLN Introducción Ingeniería Lingüística 12

Recursos

• Lexicones generales• Diccionarios• Lexicones especializados• Ontologías• Gramáticas• Corpus textuales• Internet como fuente de información

PLN Introducción Ingeniería Lingüística 13

Lexicones generales

• Repositorios de palabras• lemarios, formarios, listas de palabras, ...

• Conocimiento sobre las palabras– Fonología– Morfología: categoría, concordancia..– Sintaxis: categoría, subcategorización, estructura

argumental, valencia, patrones de co-occurrencia...– Semántica: clase semántica,restricciones

selectivas...– Pragmática: uso, registro, dominio, ...

PLN Introducción Ingeniería Lingüística 14

Diccionarios

• MRDs• tipos: generales, normativos, de uso, de

aprendizaje, mono/bilingües...• tamaño, contenido, organización

• entrada, acepción, relaciones, ...

• Bases de datos léxicas• ej. Acquilex LDB

• Otras fuentes: enciclopedias, tesauros,...

PLN Introducción Ingeniería Lingüística 15

Lexicones especializados

• Nombres propios• Bases de datos terminológicas• Gazetteers• Diccionarios de locuciones, lexías,...• Wordnets• Siglas, jergas• Detectores de fechas, números,

fórmulas,...

PLN Introducción Ingeniería Lingüística 16

Ejemplo: relaciones morfoléxicas. U. Las Palmas (O. Santana)

PLN Introducción Ingeniería Lingüística 17

Ejemplo: utilización de Gazetteers en sistemas de Q&A

• Multitext (U.Waterloo)• Clarke et al, 2001, 2002

• Structured data• biographies (25,000), Trivial Q&A (330,000),

Country locations (800), acronyms (112,000), cities (21,000), animals (500), previous TREC Q&A (1393), ...

• 1 Tb of Web data• Altavista

• AskMSR (Microsoft)• Brill, 2002

PLN Introducción Ingeniería Lingüística 18

Gramáticas

• Gramáticas morfológicas• Gramáticas sintácticas

• Gramáticas de constituyentes• Gramáticas de dependencias• Gramáticas de casos• Gramáticas Transformacionales• Gramáticas sistémicas

• Gramáticas sintagmáticas vs de unificación• Gramáticas probabilísticas• Cobertura, lengua, categorías

PLN Introducción Ingeniería Lingüística 19

Ontologías

• Ontologías léxicas vs conceptuales• Ontologías generales vs de dominio• Ontologías de tareas, metaontologías• Contenido, granularidad, relaciones• Interlinguas: KIF, PIF• CYC, Frame-Ontology, WordNet,

EuroWordNet, GUM, MikroKosmos

PLN Introducción Ingeniería Lingüística 20

Corpus 1

• Textuales vs orales• Gran tamaño (1Mw - 1Gw)• Poco (o nada) estructurados• Información no disponible en forma más

tratable:• colocaciones, estructura argumental, contexto

de aparición, inducción gramatical, relaciones léxicas, restricciones selectivas, lexías, ejemplos de utilización,...

PLN Introducción Ingeniería Lingüística 21

Corpus 2

• Corpus anotados (tagged)• categoría gramatical (pos tagging) posible o

desambiguada• lema• acepción (granularidad)• parentizados• analizados sintácticamente (profundidad)• alineados

• Corpus equilibrados, piramidales, oportunistas

PLN Introducción Ingeniería Lingüística 22

Corpus 3 ejemplos

• Brown Corpus• ACL/DCI (Wall Street Journal, Hansard, ...)• ACL/ECI (European Corpus Initiative)• USA-LDC (Linguistic Data Consortium)• LOB (ICAME, International Computer Archive of Modern English)• BNC (British National Corpus)• SEC (Lancaster Spoken English Corpus)• TOSCA• Collins-Cobuild• PAROLE• IBM/Lancaster treebank• Penn Treebank• Susanne• SemCor• Trésor de la Langue Française (TLF)

PLN Introducción Ingeniería Lingüística 23

Corpus 4 ejemplos

• Instituto Cervantes. Observatorio Español de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm

• CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado

• CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintácticamente

• ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geográfica. UPC (TSC), UGr, UPMad, UPVal, UABar

• LEXESP, 5Mw, anotado morfosintácticamente, lematizado, UBar, UPC

• IEC en el marco del DCC (catalán)

PLN Introducción Ingeniería Lingüística 24

Ejemplo: proyecto 3lb

PLN Introducción Ingeniería Lingüística 25

Internet como fuente de información 1

• Fuente ingente de información• 1000 Millones de páginas, decenas de Tb,

• expansión (doble en 2 años)• (Cho, 2002)

• Heterogénea• contenido, lengua (70% inglés), formatos

• Servidores de información general• (Medialinks)

• 14.000 servidores (5000 periódicos, 70 en España)

PLN Introducción Ingeniería Lingüística 26

Internet como fuente de información 2

• Internet hoy• documentos HTML

• dirigidos al consumo (visualización) humano

• muchos generados automáticamente por aplicaciones

• acceso a través de• URLs conocidas

• buscadores (o metabuscadores) de propósito general

• buscadores específicos de una URL determinada

• Limitaciones• dificultad de consumir (por las aplicaciones) texto marcado

(generalmente mal) HTML

• dificultad de construcción (y mantenimiento!) de los wrappers

PLN Introducción Ingeniería Lingüística 27

Internet como fuente de información 3

• Tareas relacionadas con la gestión de información en Internet• Modelado y consulta a la Web

• Localización de páginas potencialmente útiles

• Consulta a fuentes heterogéneas

• Question Answering

• Extracción de Información

• Integración de Información

• Construcción (y reestructuración) de Web sites

• Agentes (crawlers, spiders, softbots, infobots ...)

PLN Introducción Ingeniería Lingüística 28

Internet como fuente de información 4

• Fuentes de información en la Web• Estructuradas

• Bases de datos

• Semi-estructuradas• Exhiben cierta regularidad

• No suelen emplear LN no restringido

• Elementos extraños que pueden ayudar (marcas HTML, XML) o confundir (applets, propaganda, ...)

• Una alta proporción de recursos actuales en Internet son fuentes semi-estructuradas => útiles

• Semantic Web

• Libres• texto no restringido

PLN Introducción Ingeniería Lingüística 29

Recursos: Repositorios y otras iniciativas 1

• ELRA (European Language Resources Association)• http://www.icp.grenet.fr/ELRA/home.html

• LDC (Linguistic Data Consortium)• http://www.ldc.upenn.edu/

• Eagles (Expert Advisory Group on Language Engineering Standards)• http://www.ilc.pi.cnr.it/EAGLES/home.html

• TEI (Text Encoding Initiative)• http://www.tei-c.org/

• ELSNET (European Network in Language and Speech)• http://www.elsnet.org/

PLN Introducción Ingeniería Lingüística 30

Recursos: Repositorios y otras iniciativas 2

• ACL NLP/CL Universe• http://www.summarization.com/~radev/u/db/acl/• ACL- DCI Data Collection Initiative• The NLP/CL Universe, a publicly extensible indexed

compilation of Web resources related to computational linguistics.

• Multext (Multilingual Text Tools and Corpora)• http://www.lpl.univ-aix.fr/projects/multext/

• CLR (Consortium for Lexical Resources)• EDR

PLN Introducción Ingeniería Lingüística 31

Aplicaciones 1

• Aplicaciones genéricas• (ayuda a la) traducción automática• gestión de la información (multilingüe)• authoring (multilingüe)• interfaz persona/máquina (multilingüe,

multimodal)• Obtención de recursos

• Aplicaciones específicas

PLN Introducción Ingeniería Lingüística 32

Aplicaciones 2

• traducción automática• TA con intervención humana, • TH. asistida• entornos de ayuda a la TH• Adquisición automática de recursos

para la TA (corpus alineados, modelos de traducción, memorias de traducción, ...)

PLN Introducción Ingeniería Lingüística 33

Aplicaciones 3

• gestión de la información• productores de resúmenes,• indiciadores,• {recuperación, extracción, formateo,

filtrado, encaminado} de información,• minería de información textual,• buscadores conceptuales, • alineadores de textos, • “guessers”• sistemas de búsqueda de la respuesta

PLN Introducción Ingeniería Lingüística 34

Aplicaciones 4

• “authoring”• correctores léxicos, gramaticales,

estilísticos, • consulta online de diccionarios, tesauros,

ontologías,• facilidades para la estructuración e

integración de documentos

• interfaz persona/máquina (multilingüe, multimodal)

PLN Introducción Ingeniería Lingüística 35

Aplicaciones 5

• Obtención de recursos lingüísticos• corpus alineados• gramáticas• gazetteers• morfología• restricciones de selección• patrones de subcategorización• Topic Signatures• ...

PLN Introducción Ingeniería Lingüística 36

Aplicaciones 4

• gestión de la información• productores de resúmenes, indiciadores, {recuperación,

extracción, formateo, filtrado, encaminado} de información, buscadores conceptuales, alineadores de textos, “guessers”

• “authoring”• correctores léxicos, gramaticales, estilísticos, consulta online

de diccionarios, tesauros, ontologías, facilidades para la estructuración e integración de documentos

• interfaz persona/máquina (multilingüe, multimodal)

PLN Introducción Ingeniería Lingüística 37

La ingeniería lingüística en Europa

• planes nacionales de investigación y desarrollo tecnológico

• 5º Programa Marco de I+D de la Unión Europea (1998-2002)• 9 áreas científico-tecnológicas

• área de las Tecnologías de la Información y las Comunicaciones

• 12 áreas sectoriales• área de la Sociedad de la Información

• 6º Programa Marco (2004-2008)

PLN Introducción Ingeniería Lingüística 38

Los programas marco de la UELos programas marco de la UE

• Ingeniería Lingüística• Dirección General XIII

• Human Language Technologies• Programas concretos

• ESPRIT (Information Technologies)• LRE (Linguistic Research Engineering)•MLIS (Multilingual Information Society)• INCO (International Cooperation)• LE (Language Engineering)•HLT (Human Language Technologies).

• Ingeniería Lingüística• Dirección General XIII

• Human Language Technologies• Programas concretos

• ESPRIT (Information Technologies)• LRE (Linguistic Research Engineering)•MLIS (Multilingual Information Society)• INCO (International Cooperation)• LE (Language Engineering)•HLT (Human Language Technologies).

PLN Introducción Ingeniería Lingüística 39

La investigación española en ingeniería lingüística

La investigación española en ingeniería lingüística

• Investigación de grupos españoles vs investigación sobre la lengua española• Técnicas independientes de la lengua• Mecanismos de evaluación para el inglés• Otras lenguas • Otros grupos europeos• Grupos americanos

• Investigación de grupos españoles vs investigación sobre la lengua española• Técnicas independientes de la lengua• Mecanismos de evaluación para el inglés• Otras lenguas • Otros grupos europeos• Grupos americanos

PLN Introducción Ingeniería Lingüística 40

Cuántos gruposCuántos grupos

• Unos 30 grupos• SEPLN (1997)• I.Cervantes

• Almansa et al, 1998• Llisterri, Garrido, 1998

• 75% en Universidades y C. Investigación

• Equilibrio texto/habla/recursos• Áreas, aplicaciones• Especial interés en Recursos

• Unos 30 grupos• SEPLN (1997)• I.Cervantes

• Almansa et al, 1998• Llisterri, Garrido, 1998

• 75% en Universidades y C. Investigación

• Equilibrio texto/habla/recursos• Áreas, aplicaciones• Especial interés en Recursos