Curso de traducción automática de lenguas naturales · 1. Un buscador que fuese capaz de...
Transcript of Curso de traducción automática de lenguas naturales · 1. Un buscador que fuese capaz de...
César Antonio Aguilar
Facultad de Lenguas y Letras
13/11/2015
Curso de traducción automática
de lenguas naturales
En la clase anterior,
tratamos de
desarrollar un
ejercicio que
consistía en la
construcción de un
modelo del lenguaje,
para lo cual hicimos
uso de la ley de Zipf
para distinguir el
vocabulario esencial
que describe a un
texto (o en nuestro
caso, a una
colección de textos).
Síntesis de la clase pasada (1)
¿Para qué nos sirve la ley de Zipf?
Básicamente, nos permite calcular
la distribución que tienen las
palabras de una lengua,
considerando su frecuencia de
aparición.
Un ejemplo sencillo es el
siguiente: en inglés, la palabra
más frecuente es el artículo
determinado the. Dado esto,
podemos considerar que su
frecuencia equivale al doble de
apariciones que tiene la
preposición of, el triple que la
tercera (digamos, el artículo
indefinido a), el cuádruple que la
cuarta y así sucesivamente.
Síntesis de la clase pasada (2)
Tomando en cuenta la explicación anterior, podemos decir que la ley
de Zipf nos permite:
Síntesis de la clase pasada (3)
1. Distinguir cuáles son las palabras de contenido que describen a un
texto, en contraste con aquellas palabras netamente funcionales
2. Calcular la distribución que tienen tales palabras de contenido, de
modo que podemos determinar cuál es su relevancia dentro de un
texto.
3. Hacer comparaciones entre textos o corpora, considerando estas
distribuciones.
Modelos estadísticos del lenguaje (1)
Una de los rasgos que distingue a la traducción automática frente a
otros tipos de traducción es su capacidad para hacer uso de
métodos estadísticos, los cuales le ayudan a hacer inferencias y
predicciones sobre cómo se comporta un modelo lingüístico en una
situación dada.
Modelos estadísticos del lenguaje (2)
Como hemos visto en
clases anteriores, los
corpus lingüísticos
funcionan precisamente
como modelos del
lenguaje a escala, de
modo que todo análisis
que podamos hacer
dentro de dichas
colecciones de datos
nos da pistas sobre el
comportamiento real de
una lengua específica.
Modelos estadísticos del lenguaje (3)
Ahora bien, un problema común cuando se aplican esta clase de
modelos en el análisis lingüístico es determinar el tamaño de nuestro
corpus: ¿qué tan grande debe ser una colección de datos? ¿Hay una
medida más o menos específica que se deba considerar a la hora de
crear un corpus? ¿Cómo podemos procesar una colección de datos
realmente grande?
La WEB como un corpus (1)
Una vía para tratar de solucionar esta
cuestión la desarrolló Adam Kilgarriff
a partir de su propuesta de considerar
a la WEB como un corpus enorme, el
cual podría ser explotado si se
contaran con las herramientas
adecuadas para ello.
En concreto, Kilgarriff pensó en dos
muy concretas:
1. Un buscador que fuese capaz de identificar y colectar páginas de Internet,
tomando en cuenta su vocabulario.
2. Un sistema capaz de editar y organizar la información obtenida de tales
páginas, el cual contara con varios recursos útiles para analizar tal
información desde un punto de vista lingüístico.
Adam Kilgarriff
(1960-2015)
La WEB como un corpus (2)
En el caso de la primera herramienta, Kilgarriff y sus colegas
diseñaron un motor de búsqueda que les permitiera identificar
páginas de Internet, considerando sobre todo criterios léxicos. Este
motor se le conoce como Web BootCaT (Bootstrap Corpora And
Terms from the Web):
http://bootcat.sslmit.unibo.it/
La WEB como un corpus (3)
BootCaT opera como cualquier buscador de páginas, de tal suerte
que al plantearle una consulta concreta, este buscador localizará
todas aquellas páginas relacionadas con ésta, tomando en cuenta el
contenido léxico de dichas páginas.
Lo que hace interesante a
BootCaT respecto a otros motores
de búsqueda, es su capacidad para
aprovechar al máximo el contenido
léxico de una página WEB.
Cada palabra contenida en dicha
página puede ser vista como una
semilla, la cual permite buscar
nuevos documentos asociados
temáticamente a dicha palabra.
La WEB como un corpus (4)
Una vez que tenemos el motor de búsqueda pertinente para colectar
páginas de Internet, pasemos a implementar un sistema que nos
permita administrar esta información.
Tal sistema es precisamente Sketch Engine, que como han visto en
las clases anteriores, es una herramienta multi-usos que nos
permite hacer distintos análisis de nuestros corpus.
Google Translate (1)
Teniendo en cuenta la propuesta de Kilgarriff junto con las dos
herramientas generadas por tal idea, en 2006 Google desarrolló e
implementó un traductor automático basado en reglas lingüísticas
que empezó a competir con varios sistemas comerciales de esa
época.
Un año después, dados los resultados obtenidos durante los
primeros 12 meses de tal traductor, se optó por cambiar la
perspectiva de su modelo de traducción hacia un enfoque basado en
técnicas estadísticas, lo que ayudó a mejorar tales resultados en los
años siguientes.
Google Translate (2)
Esta serie de ajustes llevaron a replantearse varios criterios
relacionados con la traducción estadística, ponderando varios
problemas relacionados como los siguientes:
• ¿Cuál es la mejor forma de evaluar un sistema de traducción
automática?
• ¿Es posible entrenarlo para ir mejorando la calidad de la
traducción?
• ¿Cómo sería este método de entrenamiento?
• ¿Cuál sería la cantidad de datos buenos y malos necesarios
para implementar tal proceso de entrenamiento?
Google Translate (3)
Será para el año 2007 que un doctor en ciencias de la computación,
Franz Josef Och, hará las más importantes modificaciones a los
algoritmos de traducción de Google Translate, tomando en cuenta
dos criterios básicos:
1. Es necesario priorizar los
enfoques basados en enfoques
estadísticos, dada la gran
complejidad que implica hacer
una descripción lingüística de
cada lengua natural
representada en la WEB.
2. Este enfoque estadístico debe
aprovechar al máximo los datos
brindados por la WEB, de modo
que estos sirvan como un
baseline que ayude a entrenar
un sistema de traducción.
Franz Josef Och
(1971)
Blog del curso:
http://cesaraguilar.weebly.com/traduccioacuten-
automaacutetica.html
Gracias por su atención