Curso de traducción automática de lenguas naturales · 1. Un buscador que fuese capaz de...

César Antonio Aguilar

Facultad de Lenguas y Letras

13/11/2015

Curso de traducción automática

de lenguas naturales

[email protected]

mailto:[email protected]

En la clase anterior,

tratamos de

desarrollar un

ejercicio que

consistía en la

construcción de un

modelo del lenguaje,

para lo cual hicimos

uso de la ley de Zipf

para distinguir el

vocabulario esencial

que describe a un

texto (o en nuestro

caso, a una

colección de textos).

Síntesis de la clase pasada (1)

¿Para qué nos sirve la ley de Zipf?

Básicamente, nos permite calcular

la distribución que tienen las

palabras de una lengua,

considerando su frecuencia de

aparición.

Un ejemplo sencillo es el

siguiente: en inglés, la palabra

más frecuente es el artículo

determinado the. Dado esto,

podemos considerar que su

frecuencia equivale al doble de

apariciones que tiene la

preposición of, el triple que la

tercera (digamos, el artículo

indefinido a), el cuádruple que la

cuarta y así sucesivamente.


Tomando en cuenta la explicación anterior, podemos decir que la ley

de Zipf nos permite:


1. Distinguir cuáles son las palabras de contenido que describen a un

texto, en contraste con aquellas palabras netamente funcionales

2. Calcular la distribución que tienen tales palabras de contenido, de

modo que podemos determinar cuál es su relevancia dentro de un

texto.

3. Hacer comparaciones entre textos o corpora, considerando estas

distribuciones.

Modelos estadísticos del lenguaje (1)

Una de los rasgos que distingue a la traducción automática frente a

otros tipos de traducción es su capacidad para hacer uso de

métodos estadísticos, los cuales le ayudan a hacer inferencias y

predicciones sobre cómo se comporta un modelo lingüístico en una

situación dada.


Como hemos visto en

clases anteriores, los

corpus lingüísticos

funcionan precisamente

como modelos del

lenguaje a escala, de

modo que todo análisis

que podamos hacer

dentro de dichas

colecciones de datos

nos da pistas sobre el

comportamiento real de

una lengua específica.


Ahora bien, un problema común cuando se aplican esta clase de

modelos en el análisis lingüístico es determinar el tamaño de nuestro

corpus: ¿qué tan grande debe ser una colección de datos? ¿Hay una

medida más o menos específica que se deba considerar a la hora de

crear un corpus? ¿Cómo podemos procesar una colección de datos

realmente grande?

La WEB como un corpus (1)

Una vía para tratar de solucionar esta

cuestión la desarrolló Adam Kilgarriff

a partir de su propuesta de considerar

a la WEB como un corpus enorme, el

cual podría ser explotado si se

contaran con las herramientas

adecuadas para ello.

En concreto, Kilgarriff pensó en dos

muy concretas:

1. Un buscador que fuese capaz de identificar y colectar páginas de Internet,

tomando en cuenta su vocabulario.

2. Un sistema capaz de editar y organizar la información obtenida de tales

páginas, el cual contara con varios recursos útiles para analizar tal

información desde un punto de vista lingüístico.

Adam Kilgarriff

(1960-2015)


En el caso de la primera herramienta, Kilgarriff y sus colegas

diseñaron un motor de búsqueda que les permitiera identificar

páginas de Internet, considerando sobre todo criterios léxicos. Este

motor se le conoce como Web BootCaT (Bootstrap Corpora And

Terms from the Web):

http://bootcat.sslmit.unibo.it/

http://bootcat.sslmit.unibo.it/


BootCaT opera como cualquier buscador de páginas, de tal suerte

que al plantearle una consulta concreta, este buscador localizará

todas aquellas páginas relacionadas con ésta, tomando en cuenta el

contenido léxico de dichas páginas.

Lo que hace interesante a

BootCaT respecto a otros motores

de búsqueda, es su capacidad para

aprovechar al máximo el contenido

léxico de una página WEB.

Cada palabra contenida en dicha

página puede ser vista como una

semilla, la cual permite buscar

nuevos documentos asociados

temáticamente a dicha palabra.


Una vez que tenemos el motor de búsqueda pertinente para colectar

páginas de Internet, pasemos a implementar un sistema que nos

permita administrar esta información.

Tal sistema es precisamente Sketch Engine, que como han visto en

las clases anteriores, es una herramienta multi-usos que nos

permite hacer distintos análisis de nuestros corpus.

Google Translate (1)

Teniendo en cuenta la propuesta de Kilgarriff junto con las dos

herramientas generadas por tal idea, en 2006 Google desarrolló e

implementó un traductor automático basado en reglas lingüísticas

que empezó a competir con varios sistemas comerciales de esa

época.

Un año después, dados los resultados obtenidos durante los

primeros 12 meses de tal traductor, se optó por cambiar la

perspectiva de su modelo de traducción hacia un enfoque basado en

técnicas estadísticas, lo que ayudó a mejorar tales resultados en los

años siguientes.


Esta serie de ajustes llevaron a replantearse varios criterios

relacionados con la traducción estadística, ponderando varios

problemas relacionados como los siguientes:

• ¿Cuál es la mejor forma de evaluar un sistema de traducción

automática?

• ¿Es posible entrenarlo para ir mejorando la calidad de la

traducción?

• ¿Cómo sería este método de entrenamiento?

• ¿Cuál sería la cantidad de datos buenos y malos necesarios

para implementar tal proceso de entrenamiento?


Será para el año 2007 que un doctor en ciencias de la computación,

Franz Josef Och, hará las más importantes modificaciones a los

algoritmos de traducción de Google Translate, tomando en cuenta

dos criterios básicos:

1. Es necesario priorizar los

enfoques basados en enfoques

estadísticos, dada la gran

complejidad que implica hacer

una descripción lingüística de

cada lengua natural

representada en la WEB.

2. Este enfoque estadístico debe

aprovechar al máximo los datos

brindados por la WEB, de modo

que estos sirvan como un

baseline que ayude a entrenar

un sistema de traducción.

Franz Josef Och

(1971)

Blog del curso:

http://cesaraguilar.weebly.com/traduccioacuten-

automaacutetica.html

Gracias por su atención

http://cesaraguilar.weebly.com/traduccioacuten-automaacutetica.html

Curso de traducción automática de lenguas naturales · 1. Un buscador que fuese capaz de...

Documents

Transcript of Curso de traducción automática de lenguas naturales · 1. Un buscador que fuese capaz de...