Relación contextual de palabras en libros de Shakespeare usando mapas autoorganizados

Post on 14-Feb-2017

221 views 0 download

Transcript of Relación contextual de palabras en libros de Shakespeare usando mapas autoorganizados

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

3rd International Symposium on Language & Knowledge Engineering

Relación contextual de palabras en libros de Shakespeare usando mapas

auto-organizados

Autores:Luis Alfredo Moctezuma

Jessica LopezCaleb JimenezMaya Carrillo

Luis ColmenaresJ. Guadalupe Ramos

Octubre 2015

ÍNDICE

Introducción

Preprocesamiento

Representación vectorial

Mapas auto-organizados

Resultados

Conclusiones

INTRODUCCIÓNEl procesamiento de lenguaje natural (PLN) se ocupa del reconocimiento y utilización de la información expresada en lenguaje humano para ser empleada en sistemas computacionales.

Generalmente se consideran tres niveles de análisis: Léxico Sintáctico Semántico

INTRODUCCIÓNEs posible distinguir entre significado independiente y significado dependiente del contexto. En este trabajo se intenta capturar el significado de la palabra en función de su contexto(pragmática).

Pragmática:

Según la RAE es una disciplina que estudia el lenguaje en su relación con los usuarios y las circunstancias de la comunicación.

Es una disciplina que estudia el lenguaje en relación al contexto donde se desarrolla la idea.

INTRODUCCIÓNEs posible distinguir entre significado independiente y significado dependiente del contexto. En este trabajo se intenta capturar el significado de la palabra en función de su contexto(pragmática).

Pragmática:

Según la RAE es una disciplina que estudia el lenguaje en su relación con los usuarios y las circunstancias de la comunicación.

Es una disciplina que estudia el lenguaje en relación al contexto donde se desarrolla la idea.

INTRODUCCIÓNObras analizadas de Shakespeare:

1. Macbeth2. Julio Cesar3. Hamlet

PREPROCESAMIENTOLas obras de Shakespeare fueron preprocesadas de acuerdo a los siguientes pasos:

Eliminación de marcas de puntuación y caracteres especiales

Conversión de texto a minúsculas Eliminación de palabras vacías Eliminación de palabras con una frecuencia

menor a 3

PREPROCESAMIENTO

Palabras analizadas: 67,805

Vocabulario después del preprocesamiento: 13,118 palabras

REPRESENTACIÓN VECTORIAL Para una palabra a que denominaremos clave,

el contexto fue capturado considerando la palabra que la precede y sucede (“predecesor”, “clave”, “sucesor”).

Cada palabra fue representada con una sucesión de 24 dígitos binarios únicos.

Palabra Clavereason 000000000000000000010000beare 000000000000000001101000heart 000000000000000000010100roome 000000000000000000110001

REPRESENTACIÓN VECTORIAL(fragmento tomado de Macbeth)A divinely appointed monarch has been assassinated, and it is a calamity of such epic proportion that even the workings of nature are disrupted.

divinely appointed monarch assassinated calamity epic proportion workings nature disrupted.

divinely appointed monarchappointed monarch assassinatedmonarch assassinated calamity

REPRESENTACIÓN VECTORIAL(fragmento tomado de Macbeth)A divinely appointed monarch has been assassinated, and it is a calamity of such epic proportion that even the workings of nature are disrupted.

divinely appointed monarch assassinated calamity epic proportion workings nature disrupted.

divinely appointed monarchappointed monarch assassinatedmonarch assassinated calamity

REPRESENTACIÓN VECTORIAL(fragmento tomado de Macbeth)A divinely appointed monarch has been assassinated, and it is a calamity of such epic proportion that even the workings of nature are disrupted.

divinely appointed monarch assassinated calamity epic proportion workings nature disrupted.

divinely appointed monarchappointed monarch assassinatedmonarch assassinated calamity

REPRESENTACIÓN VECTORIAL(fragmento tomado de Macbeth)A divinely appointed monarch has been assassinated, and it is a calamity of such epic proportion that even the workings of nature are disrupted.

divinely appointed monarch assassinated calamity epic proportion workings nature disrupted.

divinely appointed monarchappointed monarch assassinatedmonarch assassinated calamity

REPRESENTACIÓN VECTORIAL(fragmento tomado de Macbeth)A divinely appointed monarch has been assassinated, and it is a calamity of such epic proportion that even the workings of nature are disrupted.

divinely appointed monarch assassinated calamity epic proportion workings nature disrupted.

divinely appointed monarchappointed monarch assassinatedmonarch assassinated calamity

REPRESENTACIÓN VECTORIAL Para capturar el contexto se crearon vectores

de dimensión 72.

En los primeros 24 dígitos se almaceno la suma vectorial de todas las de las palabras que precedían a la palabra clave

En los últimos 24 dígitos se almaceno la suma vectorial de todas las palabras que sucedían a la palabra clave

Los 24 dígitos intermedios representaron las diferentes palabras del vocabulario

REPRESENTACIÓN VECTORIALPredeceso

rClave Sucesor

reason beare heartroome beare reason

Predecesor

Clave Sucesor

Palabra

00010000 01101000

00010100

beare

00110001 01101000

00010000

beareRepresentación de la palabra Palabra 01000001 11010001

00100100beare

Una vez obtenidos los vectores de contexto para las palabras del vocabulario, estos fueron la entrada del mapa auto-organizado.

Palabra Clavereason 00010000beare 01101000heart 00010100roome 00110001

MAPAS AUTO-ORGANIZADOSUna SOM(Self organizing map) es un tipo de red neuronal artificial de aprendizaje no supervisado.

Usa una función de vecindad para preservar las propiedades topológicas del espacio de entrada.

Es útil para tareas de agrupamiento y auto-organización de grandes cantidades de datos de manera eficiente.

MAPAS AUTO-ORGANIZADOS

00001100 00000110 01001100 lord 00001110 00000111 01000100 man00100010 00010001 00100100 crime00000010 00000100 00101000 people

lord

heart

powerhonor

man

crime peopl

e

ghost

Paso 1: Cada nodo se inicia con un peso aleatorio.

MAPAS AUTO-ORGANIZADOS

lord man

crime peopl

ePaso 2: Se selecciona al azar un vector del conjunto de entrenamiento.

heart

powerhonor

ghost

MAPAS AUTO-ORGANIZADOS

lord man

crime peopl

ePaso 3: Se calcula el nodo de la red que tiene el peso mas similar al vector de entrenamiento.

heart

powerhonor

ghost

MAPAS AUTO-ORGANIZADOS

lord man

crime peopl

ePaso 4: Calcular radio de vecindad.

Donde d es la distancia entre neuronas y disminuye en cada iteración.

heart

powerhonor

ghost

Donde d es la distancia entre neuronas y disminuye en cada iteración.

lord man

crime peopl

ePaso 4: Calcular radio de vecindad.

heart

powerghos

t

honor

MAPAS AUTO-ORGANIZADOS

MAPAS AUTO-ORGANIZADOS

lord man

crime peopl

ePaso 5: Cada nodo en el radio de la vecindad ajusta su peso para parecerse al vector de entrenamiento, los nodos vecinos se ven mas modificados

𝑾 𝒋 (𝒏+𝟏 )=𝑾 𝒋 (𝒏 )+˄𝒊𝒋 (𝒏)𝜼 (𝒏 ) (𝑿 (𝒏 )−𝑾 𝒋 (𝒏 ) )

heart

powerhonor

ghost

MAPAS AUTO-ORGANIZADOS

lord man

crime peopl

ePaso 5: Cada nodo en el radio de la vecindad ajusta su peso para parecerse al vector de entrenamiento, los nodos vecinos se ven mas modificados

heart

power

honor

ghost

MAPAS AUTO-ORGANIZADOS

lord man

crime peopl

ePaso 6: Repetir desde el paso 2 (el numero de veces que se considere necesario).

Parar cuando el radio R

heart

power

honor

ghost

MAPAS AUTO-ORGANIZADOS

Paso 1-5:

lord man

crime

people

heart

power

honor

ghost

MAPAS AUTO-ORGANIZADOS

Paso 1-5:

lord man

crime

people

heart

power

honor

ghost

MAPAS AUTO-ORGANIZADOS

Paso 1-5:

lordman

crime

people

heart

power

honor

ghost

MAPAS AUTO-ORGANIZADOS

Paso 1-5:

Parar cuando el radio R

lordman

crime

people

heart

power

honor

ghost

MAPAS AUTO-ORGANIZADOS

lordman

crime

people

heart

power

honor

ghost

RESULTADOSSe obtuvo que la similitud entre palabras puede definirse indirectamente, capturando su significado en función del contexto en el que aparecen.

AGRUPAMIENTO DE VECTORES DE CONTEXTO EN LA OBRA MACBETH:

AGRUPAMIENTO DE VECTORES DE CONTEXTO EN LA OBRA JULIO CESAR

AGRUPAMIENTO DE VECTORES DE CONTEXTO EN LA OBRA HAMLET:

CONCLUSIONESTemática en las obras de Shakespeare: El rol de la humanidad en la sociedad, guerra,

lealtad, muerte, entre otras.

Por los resultados obtenidos en este trabajo, se puede ver que se puede aplicar esta misma técnica a otros autores y ver las diferentes temáticas en cada uno de ellos.

CONCLUSIONESLas aplicaciones:

Atribución de autoría Busca de predadores en chat’s