'Desarrollo de un entorno para análisis sintáctico de...

Click here to load reader

Transcript of 'Desarrollo de un entorno para análisis sintáctico de...

"Desarrollo de un entorno para anlisis sintctico de lengua " [P.F.C.]

DESARROLLO DE UN ENTORNO PARA EL ANLISIS SINTCTICO DE UNA LENGUA NATURALPRIVADO

APLICACIN AL CASTELLANO

AUTOR : Juan Manuel Montero Martnez

TUTOR : Jos Cols Pasamontes

Departamento de Ingeniera Electrnica

Escuela Tcnica Superior de Ingenieros De Telecomunicacin

Universidad Politcnica de Madrid

PROYECTO FIN DE CARRERA

TITULO

DESARROLLO DE UN ENTORNO PARA EL ANLISIS SINTCTICO DE UNA LENGUA NATURAL. APLICACIN AL CASTELLANO

AUTOR JUAN MANUEL MONTERO MARTNEZ

TUTORJOS COLAS PASAMONTES

DEPARTAMENTOINGENIERA ELECTRNICA

GRUPOTECNOLOGA DEL HABLA

MIEMBROS DEL TRIBUNAL CALIFICADOR

PRESIDENTEJOS MANUEL PARDO MUOZ

VOCAL

JOS CARLOS GONZLEZ CRISTBAL

VOCAL SECRETARIOJOS COLAS PASAMONTES

FECHA DE LECTURA

CALIFICACIN

CAPITULO I

INTRODUCCION 1

1.1 Justificacin 1

I.2.Ingeniera lingstica 2

I.2.1 Sntesis de voz 3

I.2.2 Traduccin y doblaje automticos 4

I.2.3 Correctores sintcticos 5

I.2.4 Interfaces naturales hombre-mquina 6

I.2.5 estudios terico-prcticos de lingstica 8

I.2.6 Otros 8

CAPITULO II

LA LENGUA NATURAL 9

II.1 Caracterizacin 9

II.2 Mecanismos habituales en una lengua natural 10

CAPITULO III

LOS LENGUAJES FORMALES 15

III.1 Definicin 15

III.2 Jerarqua de Chomsky 16

III.2.1 Tipo 3 17

III.2.1.1 Limitaciones de los lenguajes regulares 18

III.2.2 Tipo 2 20

III.2.2.1 Limitaciones de los lenguajes de contexto 21

III.2.3 Tipo 1 23

III.2.4 Tipo 0 24

CAPITULO IV

EL MODELO LINGSTICO 24

IV.1 Presentacin 25

IV.2 Componente lxico 26

IV.3. Componente sintctico 28

IV.4 Componente fonolgico 30

IV.5 Componente semntico 30

IV.6 Esquema orientado al reconocimiento 32

CAPITULO V

COMPILACIN DE DICCIONARIOS 34

V.1 Presentacin 34

V.2 Acceso secuencial 34

V.3 Compilacin en forma de autmata 35

V.3.1 Independencia del orden de operaciones 41

V.3.2 La suma de gramticas 44

V.3.3 Eficiencia de compilacin 44

V.4 Utilizacin de lxicos en presencia de ruido 48

V.5 Programas empleados 48

V.5.1. Implementacin en PC 48

CAPITULO VI

ANLISIS SINTCTICO DE GRAMTICAS DE CONTEXTO LIBRE 50

VI.1 Presentacin 50

VI.2 Anlisis LR(1) 51

VI.2.1 Tablas LALR(1) ampliadas 52

VI.3 ATNs 53

VI.4 Algoritmos generales 55

VI.4.1 Algoritmo de Cocke-Younger-Kasami

55

VI.4.1.1 Preproceso

55

VI.4.1.2 CYK en forma matricial 56

VI.4.1.3 CYK en forma asncrona 56

VI.4.1.4 CYK en forma sncrona 57

VI.4.1.5 Algoritmo de reconstruccin 57

VI.4.1.6 Ejemplo de reconocimiento 58

VI.4.1.7 CYK con prediccin 64

VI.4.1.8 Diferentes implementaciones 64

VI.4.1.9 Linealizacin del Chart

67

VI.4.2 Algoritmo de Earley 68

VI.4.2.1 Funcionamiento bsico 68

VI.4.2.2 Reconstruccin del rbol sintctico 68

VI.4.2.3 La cadena vaca 68

VI.4.2.4 Un ejemplo completo 70

VI.4.2.5 Complejidad del algoritmo 80

CAPITULO VII

EL ENTORNO PARA EL DESARROLLO DE GRAMTICAS 81

VII.1 Presentacin 81

VII.2 Estructura de la gramtica 82

VII.3 Formato del diccionario 83

VII.4 Formato de los ficheros .REG 84

VII.5 Formato del fichero .GRA 84

VII.6 Semntica de la notacin empleada 86

VII.7 Extensin de las reglas 87

VII.8 Dependencias intra-gramaticales 88

VII.9 MEN PRINCIPAL 90

VII.9.1 Cargar 90

VII.9.1.1 Avisos y errores 92

VII.9.1.2 Estadsticas 94

VII.9.2 Editar 96

VII.9.2.1 Submen de edicin 96

VII.9.3 Finalizar 97

VII.9.4 Opciones

97

VII.9.5 Mostrar reglas 97

VII.9.6 Mostrar smbolos 98

VII.9.6 Analizar texto 98

CAPITULO VIII

LINGSTICA APLICADA 100

VIII.1 Los conceptos de oracin y enunciado 100

VIII.2 Sintaxis del enunciado fragmentario

100

VIII.2.1 Fragmentos y elipsis verbal 101

VIII.2.2 Clasificacin pragmtica de los fragmentos 102

VIII.2.3 Clasificacin sintctica de los fragmentos 102

VIII.3 La oracin formal 103

VIII.3.1 El sintagma nominal 104

VIII.3.1.2 Constituyentes del Sintagma Nominal 105

VIII.3.1.2.1 El nombre propio 105

VIII.3.1.2.2 Los pronombres personales 105

VIII.3.1.1.3 El nombre comn 106

VIII.3.1.3 Nominalizacin o elipsis? 106

VIII.3.2 El sintagma verbal 107

VIII.4 La coordinacin y la yuxtaposicin 108

VIII.4.1 Paradigma transformacional 108

VIII.4.1 Aritmtica coordinativa 109

VIII.4.2 Coordinacin y elipsis 110

VIII.4.3 Homogeneidad de coordinacin 111

VII.5.La sintaxis X con barra 112

CAPITULO IX

EJEMPLO DE DESARROLLO DE UNA GRAMTICA : EL NOMBRE PROPIO

113

CAPITULO X

INTEGRACIN DE LA SINTAXIS EN LOS SISTEMAS DE RECONOCIMIENTO DE VOZ 119

X.1 Parsing de un lattice 121

X.1.1 CYK 121

X.1.2 Algoritmos predictivos 121

X.2 Integracin sncrona 124

X.2.1 Integracin de CYK con la programacin dinmica 124

X.2.2 Guiado del reconocimiento mediante prediccin sintctica 125

CAPITULO XI

LNEAS FUTURAS 128

BIBLIOGRAFA 132

PRIVADO CAPITULO ITC \l 1 "CAPITULO I"

INTRODUCCION Y MOTIVACIONES

PRIVADO 1.1 JustificacinTC \l 2 "1.1 Justificacin"

El desarrollo vivido en la ltima dcada por el reconocimiento del habla ha permitido la inclusin de mdulos no acsticos en las nuevas versiones de los sistemas implementados. Conceptos clsicos de la lingstica como la sintaxis, la semntica, la morfologa... entran con fuerza en la bibliografa reciente, aadindose a otros ya habituales como el de lxico o fontica.

Inicialmente, las arquitecturas usadas eran plenamente modulares y de funcionamiento secuencial: subsistemas de anlisis sintctico, de verificacin semntica o de gestin de dilogo son aadidos para posprocesar la informacin generada por mdulos de tratamiento acstico o acceso lxico (cadenas de fonemas o de palabras). La asptica separacin (al menos idealmente) entre los problemas acsticos y los propios de la gramtico-pragmtica permita su tratamiento aislado, evitndose los mltiples problemas inevitablemente presentes en toda interaccin fuerte.

La continua evolucin de las tcnicas registrada en los aos ochenta (Programacin Dinmica, Modelos Ocultos de Markov tanto de fonemas como de palabras, reconocimiento de habla continua... ) va dejando obsoletos los sistemas desarrollados. Cuando estas nuevas tcnicas alcanzan su madurez, comienzan a aparecer artculos y comunicaciones a congresos interesndose por la definitiva incorporacin de informacin no fontica con objeto de mejorar las tasas de reconocimiento. Los "lattices"o celosas de fonemas o palabras contenan errores de insercin, sustitucin y borrado que dan lugar a que, an con buenas tasas de reconocimiento de palabras, se acepten numerosas frases gramaticalmente errneas. Esta vez se incorpora el modelo del lenguaje dentro del propio reconocedor, de tal modo que un autmata (equivalente en cuanto a potencia expresiva a un lenguaje tipo 3 de la jerarqua propuesta en Chomsky[57] y que posteriormente explicaremos) gua la tarea de reconocer y evita la aceptacin de errores.

La integracin del mdulo gramatical en el acstico-fontico supuso una mejora, especialmente en aplicaciones de complejidad limitada donde los autmatas modelaban aceptablemente las posibles situaciones. Sin embargo la investigacin se encaminaba rpidamente hacia el uso de unos modelos del lenguaje humano ms complejos. Los algoritmos surgidos en los aos sesenta y setenta, en los albores de la lingstica computacional, cuando se buscaban mtodos potentes y rpidos para compilar lenguajes de programacin, fueron retomados y mejorados para adaptarlos a las nuevas necesidades: ambigedades, errores en la cadena de entrada, integracin en los sistemas de reconocimiento, integracin VLSI de los mismos...

Teniendo in mente este marco, se inicia una lnea de investigacin en el DIE para incorporar informacin sintctica a la algortmica de reconocimiento que ya se posea, continuacin de las primeras experiencias en sintaxis y guiado mediante autmatas conseguidas en diversos Proyectos Fin de Carrera previos.

Tras un estudio de la bibliografa reciente y procurando no desbordar nuestras posibilidades de tiempo y personal investigador, optamos por abordar en paralelo la realizacin de una gramtica de contexto libre con que modelar el castellano, y el estudio de la complejidad e integrabilidad de los algoritmos ms utilizados. Para ello se hizo necesaria la elaboracin de un entorno que nos permitiera desarrollar cmodamente la gramtica de un modo incremental, realimentado mediante el anlisis de textos. Tambin se precisa obtener un diccionario categorizado que sirva de base para el anlisis (ampliado posteriormente al ir introduciendo nuevos textos).

PRIVADO I.2.Ingeniera lingsticaTC \l 2 "I.2.Ingeniera lingstica"

Con el nacimiento de las llamadas Industrias del Lenguaje, la utilidad de los conocimientos gramaticales que esperamos obtener no se reducen al reconocimiento de voz para gran vocabulario y alta calidad. Entre otros campos donde sera posible usar informacin sintctica, encontramos:

-sntesis de voz

-traduccin y doblaje automticos

-correctores sintcticos para ayuda a la edicin

-interfaces naturales hombre-mquina

-estudios terico-prcticos de lingstica

PRIVADO I.2.1 Sntesis de vozTC \l 3 "I.2.1 Sntesis de voz"

Los sistemas de sntesis de voz a partir de texto, a pesar de haber conseguido una elevada inteligibilidad en su conversin grafema-fonema, no producen un habla natural como sera deseable para provocar en los potenciales oyentes humanos un rechazo mnimo, una aceptacin mxima.

Abordar la lectura automtica de frases o prrafos largos sin caer en ese pausado irregular que dan las reglas heursticas de corto alcance, requiere de informacin relativamente completa sobre la estructura de los enunciados (Garrido[91], pg.10 ).

En el siguiente ejemplo tomado de Alcina[75], pg.457, se puede observar como las relaciones sintcticas influyen poderosamente en la introduccin "lgica" de pausas (sealadas con barra vertical):

"Cruzan por las calles | viejas enlutadas"

Viejas enlutadas es el sujeto del verbo cruzan, con quien concuerda. La lejana entre ambos ( se ha interpuesto por las calles) obliga a la pausa o el paso de entonacin ascendente a descendente con el fin de marcar que existen elementos concordantes en orden diferente al habitual.

La teora de la acentuacin por foco sugiere asignar el acento a los constituyentes sintcticos de las oraciones, no a las palabras o las slabas. Un constituyente (una palabra o grupo de palabras estrechamente relacionadas) ser acentuado si est marcado como focal en las reglas sintcticas, o si la palabra que lo constituye est sealada como fuerte en el lexicn y el nodo que la domina inmediatamente es acentuado (Dirksen [92], pgs.22-25.

Si el acento recae sobre una palabra marcada como dbil no provocar inversiones de acento caso de intentar acentuarla mediante la regla anterior.

Si se suceden varias palabras dbiles complementando a una fuerte (adjetivos y un sustantivo) ser necesario hacer alternativamente alguna de ellas fuerte para llevar un ritmo agradable y no montono.

En el Esbozo[73], apartado 1.5, encontramos una clasificacin de las categoras del castellano en dbiles y fuertes (acentuadas y no acentuadas).

PRIVADO I.2.2 Traduccin y doblaje automticosTC \l 3 "I.2.2 Traduccin y doblaje automticos"

Traducir una frase de un idioma a otro no se limita, desgraciadamente, a consultar palabra tras palabra en un diccionario bilinge. Las estructuras sintctico-semnticas son diferentes para las diversas lenguas naturales.

Veamos unos ejemplos de cmo la sintaxis es necesaria para la traduccin ingls-castellano y castellano-ingls (aunque, obviamente, no lo nico necesario):

-numerosos sintagmas preposicionales con de se convierten en aposiciones antepuestas (inexistentes en castellano) al traducir del ingls: tipo de inters pasa a interest rate.

-mientras el ingls tiende a anteponer los adjetivos, el castellano tiende a posponerlos: cuenta corriente ser current account.

-la reglas de omisin de determinante difieren: los bonos del Tesoro se convierten en Treasury notes debido a la aposicin.

-la combinacin de todo lo anterior, puede dar lugar a una fuerte reordenacin: la transformacin efectiva de Espaa sera Spain's efective transformation.

-los sujetos inexistentes o elpticos tan comunes en castellano deben ser explcitos en ingls. "nobody talks..." o "it's said..." resultara de la traduccin de "no se habla..."

-el ordenamiento libre de sintagmas que caracteriza al castellano debe ser linealizado. "est llegando una ola que..." debera pasar como "a wave that...is arriving"

-las sustantivaciones de adjetivos... por medio del uso de determinantes, requieren rodeos lingsticos: lo poltico frente a the political cuestion

-los verbos subcategorizadores: transitivos, con preposicin... distan mucho de coincidir. "sorprenderse de..." equivale a "be surprised by..." (obsrvese el cambio de voz activa a voz pasiva)

-la concordancia de nmero posee diferente aritmtica en ambos idiomas: tres dlares en castellano, pero three dollar en ingls.

-los pronombres requieren interpretacin semntica de sus antecedentes. En "nadie habla en Espaa de ella misma", ella tiene a Espaa como referente, y no a nadie. Adems el referente puede ser lingstico (una oracin, un sintagma...) o contextual.

-la capacidad de creacin de nuevas palabras hace necesaria la utilizacin de reglas morfolgicas. Cmo cabra traducir politicismo ?

-existen ambigedades lxicas bidireccionales dependientes de los contextos sintctico y semntico. banco puede ser traducido como bench o como bank. bank, a su vez, podra corresponderse con banco u orilla.

-el contexto pragmtico obligara a usar inteligencia artificial. En el ayuntamiento compr los bancos por cinco millones" es obvio que la traduccin requerira usar benches y no banks.

La utilidad de los sistemas de traduccin automtica, o de ayuda a la traduccin, de traduccin automtica por el autor, o adaptados a un entorno determinado y restringido, de traduccin inmediata aunque imperfecta... sera inmensa

PRIVADO I.2.3 Correctores sintcticos TC \l 3 "I.2.3 Correctores sintcticos "(Granda[91], IBM-Espaa[91])

La extensin alcanzada por los microordenadores en todos los mbitos laborales o acadmicos ha permitido que los editores de texto sean una herramienta de trabajo cotidiana (nosotros mismos utilizamos uno de los ms populares en la redaccin de este proyecto). Al incorporarles ms y ms funciones se han convertido en procesadores de textos, aunque para una perfecta comodidad en su manejo por parte de nosotros los "escritores", se echa en falta la correccin automtica o semiautomtica de esos errores que nuestra impericia, precipitacin o desconocimiento de la lengua nos hacen cometer:

Las actuales funciones de anlisis lxico resultan insuficientes. Mediante simple consulta en el diccionario de cada palabra que usemos, no se pueden corregir errores tan tpicos como:

-palabras unidas o separadas sin querer: tam poco, tanpoco...

-sustitucin de letras con resultado de palabra presente en el diccionario: menores por mejores...

-acentuacin diacrtica incorrecta: ste por este, como por cmo...

-comentarios entre guiones o parntesis, abiertos pero no cerrados o viceversa.

Para una verificacin gramatical de amplio espectro, necesitaremos modelar la lengua formalmente, compilar la informacin en forma de gramtica y probarla mediante crpora textuales. Aunque, como en la arquitectura propuesta en Granda[91], se adopte un esquema de anlisis sintctico local (centrado en sintagma) y no global (centrado en la oracin), como haremos nosotros, la informacin sigue siendo vlida y slo habr que adaptarla a nuestras condiciones de anlisis sintctico veloz, robusto... (al fin y al cabo la lengua es la misma siempre).

PRIVADO I.2.4 Interfaces naturales hombre-mquina TC \l 3 "I.2.4 Interfaces naturales hombre-mquina "

Cualquier lenguaje para la manipulacin de una base de datos posee una sintaxis artificial que dificulta nuestro acceso a ella (especialmente para los no habituados a la informtica o los "alrgicos" a la misma).Sin embargo, todos conocemos al menos un idioma (con nuestro propio vocabulario y nuestra propia gramtica, eso s) y por medio de l somos capaces de pedir informacin en cualquier organismo pblico.La utilizacin de lengua natural en nuestras interacciones con las mquinas simplificara notablemente la labor del usuario.

La versatilidad del lenguaje natural multiplica las fuentes de error: la pronunciacin o la ortografa, palabras desconocidas, absurdos que suenan bien, peticiones ambiguas, fragmentos con significado, correcciones sobre al marcha, sintaxis mala pero comprensible, referencias al contexto de la peticin... Ello justifica la adicin de mdulos induccin y correccin, de gestin de dilogo...

Tomando ejemplos de ATIS (Young[91],Seneff[92], Pieraccini[91] y [92]), donde se muestran peticiones hechas a una base de datos de lneas areas, podemos comprobar:

-las oraciones casi se limitan a los modos interrogativo e imperativo

-no abundan ni son variadas la recursin subordinada ni la coordinada

-la semntica viene guiada por los verbos (list... ), que son los que imponen los marcos de predicacin, y las palabras tpicas (flight...)

-la correcta asignacin de complemento se ve dificultada por los muchos sintagmas preposicionales. En las figuras comprobamos como sintagmas muy similares realizan funciones diferentes.

-algunas estructuras sintcticas son ms empleadas en este entorno que en la vida cotidiana,y deben ser tratada muy especialmente. Por ejemplo "from...to..." debera tener menor prioridad (luego mayor posibilidad de reflejar relaciones lejanas) que "...in NombrePropio",de tal modo que se pueda integrar una en la otra caso de darse conjuntamente. En:

"from the airport in Dallas to Boulders"

"in Dallas" forma parte del trmino del sintagma preposicional "from..." y no funciona como complemento de un hipottico verbo.

Lo mismo sucede con las expresiones de tiempo: before noon, this week...

PRIVADO

ORACION

Interrogacin OInterrog Interrogacin

OInterrCompl

SNInterrog V SPdirecc

SNIntSimple PrepDest SNDest

DetInterrogat N SAdjPost NomGeoSin

Adj NomGeoSimple

qu transportes terrestres hay hasta Barcelona ?

Figure 1 Ejemplos de ATIS(I).

-los pronombres: debemos hallar su antecedente:

"show the flights from.. to... as well as their minimun fares"

PRIVADO

ORACION

Interrog OInterrog Interrog

OInterrCompl

SNInterrog V SPdirecc

SNIntSimple PrepOrig SNOrig PrepDest SNDest

DetInterrogat N SAdjPost NomGeoSin NomGeoSin

Adj NomGeoSimple NomGeoSimple

qu transportes terrestres hay de Madrid a Barcelona ?

Figure 2 Ejemplos de ATIS(II).

PRIVADO

ORACIN

Interrogacin OInterrog Interrogacin

OInterrCompl

SNInterrog V SPTemp

SNIntSimple SPTempDest

DetInterrogat N SAdjPost PrepDest ArtDet Numeral

Adj

qu transportes terrestres hay hasta las tres ?

Figure 3 Ejemplos de ATIS(III).

PRIVADO I.2.5 estudios terico-prcticos de lingsticaTC \l 3 "I.2.5 estudios terico-prcticos de lingstica"

Un conocimiento profundo del funcionamiento del sistema de la lengua debe conllevar su imitacin y simulacin. Las teoras deben ser contrastadas en la prctica, y sta sirve para su perfeccionamiento. Hallebeek[91] utiliza un entorno similar al que desarrollaremos aqu para estudiar la esquemas de nominalizacin de adjetivos, sintagmas preposicionales... proponiendo que se traten sintctica y no lxicamente, categorizando los adjetivos nominalizables como sustantivos.

PRIVADO

ORACION

Interrogacin OInterrog Interrogacin

OInterrCompl

SNInterrog V SPdirecc

SNIntSimple PrepDest SNDest

DetInterrogat N SAdjPost NomGeoSin

Adj NomGeoSimple

qu transportes terrestres hay hasta Barcelona ?

Figure 4 Ejemplos de ATIS (IV).

PRIVADO I.2.6 OtrosTC \l 3 "I.2.6 Otros"

-Mquinas de escribir predictivas

-Etiquetado automtico de lxico para la confeccin de diccionarios

-procesamiento inteligente de informacin textual

PRIVADO CAPITULO IITC \l 1 "CAPITULO II"

LA LENGUA NATURAL

PRIVADO II.1 CaracterizacinTC \l 2 "II.1 Caracterizacin"

Las lenguas son sistemas ms o menos complejos que asocian contenidos de pensamiento y significacin a manifestaciones simblicas tanto orales como escritas. Aunque en sentido estricto el lenguaje sera la capacidad humana para comunicarse mediante lenguas, se suele usar para denotar los mecanismos de comunicacin no humanos (el lenguaje de las abejas o el de los delfines) o los creados por los hombres con fines especficos (los lenguajes de programacin, el lenguaje de la lgica, de la aritmtica...).

La caracterstica externa fundamental de las lenguas naturales (los idiomas humanos "de propsito general") es su enorme complejidad formal. De la sintaxis, componente clsico de la mayora de nuestros modelos de lenguaje, dijo el lingista norteamericano F. Palmer que era "aquella disciplina lingstica que todo el mundo espera que estudien los dems". Mientras cualquier lenguaje de programacin puede ser descrito por medio de menos de cuatrocientas reglas sintcticas, modelar groseramente, en sus mecanismos generales, un idioma como el castellano precisa de al menos esa cifra (sin incluir las palabras propiamente dichas, que ya son miles).

Otro grave problema descriptivo que presentan es la inexistencia de un nico modelo comn a todos los hablantes: cada uno tiene su propio idiolecto (manera individual de hablar), interiorizado e inconsciente (nadie es capaz de describir con fidelidad su idiolecto, ni cmo lo ha adquirido). Ello nos obliga a usar crpora textuales que verifiquen nuestras intuiciones lingsticas, a escribir nuestra gramtica por aproximaciones sucesivas.

La depuracin tendr por fin satisfacer los tres criterios de adecuacin que Chomsky propuso:

-adecuacin observacional: predecir correctamente qu oraciones pertenecen o no a la lengua en cuestin.

Mientras "Todos mis amigos son lingistas" o "Todos los lingistas son mis amigos" constituyen enunciados aceptables, "Mis todos lingistas son amigos" o "Todos lingsticos son los mis amigos" no lo son.

-adecuacin descriptiva: adems debe especificarse la estructura de relaciones de esas oraciones.

En "Todos mis amigos lingistas son lingistas", las concordancias entre todos, mis, amigos, lingistas y son debe ser explicitada para justificar la incorreccin de "Todos el amigas lingistas es lingista".

-adecuacin explicativa: nuestro modelo debera contener un conjunto muy limitado de principios simples y generales.

Dadas frases tan relacionadas como "Los caballos del rancho comen hierba fresca" y "Qu comen los caballos del rancho?", o "Empleados del Ayuntamiento derribaron el edificio" y "El edificio fue derribado por empleados del Ayuntamiento", deberan de ser explicados de un modo conjunto y no aislado, duplicando esfuerzos...

Sin embargo, en la prctica estos criterios sern excesivamente exigentes en su conjunto y para una introduccin en el tema; una arquitectura simple, como la que utilizaremos en este proyecto, har que el nmero de reglas que nos garanticen cubrir una amplia porcin del castellano con un mnimo de oraciones agramaticales aceptadas, sea elevado.

PRIVADO II.2 Mecanismos habituales en una lengua naturalTC \l 2 "II.2 Mecanismos habituales en una lengua natural"

Con objeto de dejar clara la diferencia de complejidad entre los lenguajes artificiales y las lenguas naturales, daremos aqu un breviario de fenmenos lingsticos presentes en una lengua natural como el castellano:

-el fenmeno de la recursin (presente tambin en los lenguajes de programacin) se halla limitado por restricciones de tipo pragmtico que hacen casi inaceptables oraciones como:

"tu vecina es muy, muy, muy, muy... pero que muy simptica"

"persegu al ratn que persegua al gato que persegua a la rata ..."

-la homonimia (o ambigedad lxica) hace que a una misma palabra se le puedan asignar diversos significados con dependencia o no del contexto lingstico. En:

"las llamas lo asustan"

es el contexto extralingstico (otro mecanismo tpicamente natural) el que nos especifica si con "llamas" nos estamos refiriendo al conocido herbvoro sudamericano o al efecto de una combustin.Igual sucede con:

"el rgimen me lo tena prohibido"

donde, variando el contexto, el rgimen puede ser poltico o alimenticio.

-la anfibologa estructural: las relaciones entre los constituyentes de la oracin es ambigua, pudindose dar ms de una interpretacin. Al decir:

"Pedro habl a los estudiantes de lingstica"

no queda claro si es que habl de lingstica a los estudiantes, o habl de esa materia, o de cualquier otra, a los estudiantes que cursan la disciplina de lingstica.

Tomando el idioma ingls encontramos:

"I can't stand John"

equivalente a "no puedo soportar a John" y "John, no puedo soportarlo".

-ambigedades temticas: la asignacin de papeles temticos (instrumento, agente...) puede tambin dar lugar a equvocos:

"la invitacin del gobernador provoc problemas"

puede ser una invitacin hecha por el gobernador (=AGENTE), o podra ser el gobernador (=OBJETO) quien fue invitado.

-el lxico tiene un carcter dinmico (lleno de importantes irregularidades que caracterizan el hablar con correccin: anduve y no and...). Continuamente aparecen nuevas palabras, nombres, denominaciones... siendo tarea imposible el inventariarlas. Los mecanismos de derivacin y composicin de palabras permiten a cualquier hablante ampliar el vocabulario existente sin que por ello tenga que dejar de ser entendido. Cada regin, familia, clase social, profesin... incluso cada hablante tiene su propia visin del lenguaje comn por todos empleado (la variedad del fenmeno no es comparable a los dialectos "intencionados" de un lenguaje de programacin).

-la elipsis (existencia de unidades lingsticas carentes de realizacin fontica, pero recuperables a partir de sus huellas en el discurso) es un recurso muy complejo que es propio de las lenguas naturales. Palabras o secuencias largas de palabras pueden ser omitidas porque un delicado sistema de redundancias permite su reconstruccin.Desde la ya citada elipsis de sujeto (redundante por la conjugacin del verbo) hasta la omisin de gran parte de la respuesta a una pregunta, son muchos las posibilidades que nos brinda este mecanismo.

-la anfora permite que ciertos elementos nos remitan a otros sin necesidad de que aparezcan explcitamente:

"Qu foto suya que le rob Pedro busca Pepe"

donde "suya" se refiere a Pepe y no a Pedro o a un tercero, Juan.

-la libertad en el ordenamiento de los constituyentes (grupos conexos de elementos del lenguaje interrelacionados) cuando no de las mismas palabras (como en el caso del latn,aunque con restricciones) sin por ello alterar necesariamente el significado de lo expresado. En castellano son tpicamente muy mviles los adverbios acabados en -mente:

"Francamente, yo creo que Mara tiene razn"

"Yo, francamente, creo que Mara tiene razn"

"Yo creo, francamente, que Mara tiene razn"

"Yo creo que, francamente, Mara tiene razn"

"Yo creo que Mara tiene razn, francamente"

En el ya clsico hiprbaton:

"Del saln en el ngulo oscuro,

de su dueo tal vez olvidada,

silenciosa y cubierta de polvo,

vease el arpa"

(G. A. Becker)

destaca la concordancia de gnero, numero y persona entre palabras notablemente dispersas:

olvidada, silenciosa, cubierta, vease y arpa

o como del saln modifica a ngulo, de su dueo a olvidada, olvidada a "arpa", el primer verso no es sino un complemento circunstanscial del verbo vease y el segundo un predicativo.

-la asignacin de significados a las oraciones es notablemente ms compleja que la que caracteriza a los lenguajes de programacin, sean estos imperativos,funcionales ... La construccin del ms complejo de los compiladores es mucho ms sencilla que la de un mdulo de interpretacin o comprensin de cuentos infantiles.

-las concordancias y otras relaciones intra-oracionales "lejanas". En las interrogativas parciales como:

"Qu casa dijo Pepe que comprara a su prima?"

donde SNInterrogativo[qu casa] es el complemento directo del verbo de la proposicin sustantiva que contiene al verbo comprara.

En el ingls es caracterstica la posibilidad de separacin entre la preposicin y su trmino:

"who did he talk to in the pub?"

donde "who" es ncleo del sintagma nominal asociado a "talk to" (ms "lgica" parece "to whom did he talk in the pub?").

-la existencia e influjo de la entonacin, la acentuacin y el pausado. Una misma frase ser enunciativa o interrogativa o exclamativa dependiendo de cmo la pronunciemos o de cmo pongamos los signos de puntuacin:

"Quiere que vaya pronto"

"Quiere que vaya pronto?"

"Quiere que vaya pronto!"

-la subcategorizacin (necesidad por parte de ciertos elementos de la presencia de otros para tener sentido pleno: la tradicional transitividad verbal, la reccin prepositiva...) es mucho ms libre que en las "llamadas a funcin" o "a procedimiento", equivalente conceptual en el campo de los lenguajes de programacin.

-ante situaciones de ruido o desconocimiento de palabras, el ser humano reacciona infiriendo, habitualmente con gran acierto.

Por supuesto estos rasgos diferenciadores no ocultan las similitudes generales(la recursividad, la estructura jerrquica de relaciones entre constituyentes, la categorizacin de los elementos...) que justifican el estudio de las lenguas naturales mediante la teora de lenguajes formales.

PRIVADO CAPITULO IIITC \l 1 "CAPITULO III"

LOS LENGUAJES FORMALES

PRIVADO III.1 DefinicinTC \l 2 "III.1 Definicin"

De un modo extensivo, un lenguaje se definira enumerando todos los enunciados que lo componen. Como la mayora de los lenguajes de inters son recursivos en mayor o menor medida (a partir de un enunciado existen procedimientos que permiten formar otros mayores y ms complejos), debemos encontrar propiedades o conjuntos de propiedades que los definan unvocamente (definicin intensiva).

Dada la oracin castellana: "este perro es de mi padre", es posible construir otras como:

"mi madre dice que este perro es de mi padre"

"mi madre dice que este perro es de mi padre y este perro es de mi padre"

"si mi padre asegura que mi madre dice: "este perro es de mi padre", mi madre dice que este perro es de mi padre"

Como es obvio, resultara absurdo intentar escribir todas las posibles combinaciones de palabras aceptadas en castellano.

La posibilidad de una definicin intensional completa de un lenguaje es lo que nos permite llamarlo formal. Para las lenguas naturales, creadas por el hombre de un modo colectivo y por tanto no personalmente consciente, la formalizacin no existe: aunque todos somos generalmente capaces de decir si una frase pertenece a nuestro idioma materno (incluso muchos son capaces de hacerlo con algunos otros), y comprender su o sus significados, nadie ha sido capaz en ms de dos mil aos de inters por el fenmeno lingstico, de caracterizar uno biunvocamente!

Pero son los formalismos la llave que puede abrirnos la puerta del tratamiento informtico cmodo y generalizado: dada una secuencia perteneciente a un idioma como el nuestro y un conjunto de propiedades que debe satisfacer, slo habremos de aplicarlas

para verificar su gramaticalidad. Del mismo modo podra llegar a la traduccin automtica entre lenguajes formales, a la generacin ms o menos intencionada y automtica de oraciones correctas...

El paradigma formal ms famoso y rpidamente desarrollado para la caracterizacin de lenguajes es el derivado del concepto de gramtica generativa de Chomsky. En Chomsky[59], esta celebrrimo lingista norteamericano partiendo de que un lenguaje L es un subconjunto de todas las secuencias (finitas o no) que podemos formar mediante la concatenacin de elementos de un vocabulario (, define la gramtica mediante la cuaterna siguiente:

-( : vocabulario finito de smbolos Terminales, que son smbolos porque referencian realidades objetivas, subjetivas o meramente gramaticales, pero que son terminales por aparecer efectivamente en los enunciados.

-N : conjunto finito de smbolos No Terminales, metasmbolos que describen directa o indirectamente cadenas o subcadenas del lenguaje, con propiedades comunes.

-S : un smbolo No Terminal bsico (axiomtico segn la definicin de Chomsky), que describe oraciones ( y no subcadenas) del lenguaje.

-P : un conjunto tambin finito de reglas de produccin que nos dicen cmo se puede generar los enunciados, cmo partiendo del axioma podemos llegar a la oracin terminal. Este conjunto ser un simple subconjunto de:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

1

lo cual expresado en una notacin ms clsica en lingstica sera:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

2

donde:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

3

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

4

siendo posible que tanto ( como ( como ( sean iguales a la cadena nula.

El lenguaje L as definido se obtendra aplicando el siguiente procedimiento no algortmico (no garantiza tiempo finito para una gramtica genrica):

-S es una forma oracional

-si ((( es una forma oracional y (->( pertenece a P, ((( tambin ser forma oracional

-una forma oracional compuesta nicamente por smbolos terminales constituir una oracin del lenguaje.

Como ejemplo veamos la derivacin de una oracin en castellano basndonos en una pequea gramtica:

S->SintagmaNominalSujeto SintagmaVerbalPredicado

->Determiante Sustantivo SVP

->Det Sust Verbo SintagmaNominal

->Det Sust Verb Det Sust

->el chfer destroz el coche

PRIVADO III.2 Jerarqua de ChomskyTC \l 2 "III.2 Jerarqua de Chomsky"

A fin de precisar ms que tipo de gramtica es capaz de generar un lenguaje lo ms similar posible a los naturales, Chomsky distingui cuatro formatos de reglas que se correspondan con gramticas generativas ms o menos potentes.

PRIVADO III.2.1 Tipo 3TC \l 3 "III.2.1 Tipo 3"

Es el descriptivamente ms dbil.Sus reglas poseen un formato:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

SEC Equation \* ARBIGO \h

donde B puede existir o no.

Equivalen, en cuanto a poder descriptivo, a las redes finitas de transicin de estados que se estudian en teora de autmatas. Dado un lenguaje regular (aquel que es posible caracterizar usando una gramtica de tipo 3), siempre ser posible hallar su autmata equivalente (cada smbolo No Terminal es un estado, cada regla A(aB una rama que conecta los estados A y B por medio del smbolo Terminal a y cada regla A(a nos dice que A se une al estado final a travs del smbolo 'a').

Dada la sencillez estructural de estos lenguajes, la notacin chomskiana resulta pesada. Las notaciones ms compactas para la expresin de lenguajes regulares son las BNF (Backus Normal Form, Backus Naur Form, en homenaje a Backus, su creador, y Naur, su continuador), que reducen a uno el nmero de reglas necesarias. Para ello utilizan los siguientes metasmbolos:

-la barra disyuntiva '|': unifica en una dos reglas con el mismo smbolo No Terminal a la izquierda del igual. A(aA y A(bB se convierten en A(aA|bB.

-el parntesis de opcionalidad '(...)': dos reglas iguales salvo una expresin inserta equivalen a la mayor de ellas con la expresin inserta, entre parntesis. A(aB y A(a se reduce a A(a(B).

-el signo ms de recursividad '+': adjuntado a una expresin equivale a las regla A(...A y A(... Por ejemplo: A(aA y A(a se transforman en A(a+

-el asterisco que equivale a una expresin con ms y entre parntesis. As, A* es lo mismo que (A+).

-el corchete para alterar la prioridad en la interpretacin de los metasmbolos. Como '+' y '*' tienen mayor prioridad que la barra, son expresiones diferentes: A|B+ y [A|B]+.

Traduciendo esta notacin infija a prefija se gana en facilidad de procesamiento pero no en facilidad de escritura (hay que escribir ms).

Cualquiera de estas notaciones no constituye un lenguaje regular de contexto libre (siguiente nivel en la jerarqua de Chomsky).

PRIVADO

NotacinBNF( Expresin

Expresin ( Trmino | Expresin

Expresin ( Trmino

Trmino1 ( Parntesis

Trmino1 ( Trmino *

Trmino1 ( Trmino +

Trmino1 ( Trmino

Trmino ( Smbolo

Trmino ( Corchete

Corchete ( [ Expresin ]

Parntesis ( ( Expresin )

1 Gramtica de la notacin BNF.

Un ejemplo de gramtica regular para el Sintagma Nominal del castellano se muestra en el recuadro 3 donde se ha permitido la utilizacin de smbolos auxiliares no recursivos (con lo cual nunca podremos exceder los lmites de los lenguajes regulares).

PRIVADO III.2.1.1 Limitaciones de los lenguajes regularesTC \l 4 "III.2.1.1 Limitaciones de los lenguajes regulares"

Un autmata categorial cuidadosamente diseado y compilado (no el de la figura 3, por supuesto) puede reconocer un amplio subconjunto de un lenguaje natural como el castellano . En Subirats[91] se encuentra un texto periodstico completo aceptado por un autmata similar al nuestro, con frases tan espectaculares como simples:

PRIVADO

NotacinBNF ( SEC( Expresin )

Expresin ( Trmino Expresin

Expresin ( DISY( Trmino Expresin )

Trmino ( OPC( Expresin )

Trmino ( OPC Smbolo

Trmino ( REC-0( Expresin )

Trmino ( REC-0 Smbolo

Trmino ( REC-1( Expresin )

Trmino ( REC-1 Smbolo

Trmino ( Smbolo

2 Gramtica de la notacin BNF prefija.

"La importante reduccin en la remuneracin de los bonos del Tesoro hasta el 14,505 por ciento en tasa interna bruta de rentabilidad supone el inicio de un descenso progresivo de los tipos de los ttulos pblico y adelantar al otoo la reduccin de los

PRIVADO Sintagma_Nominal = (Determinante) (Numeral) (Sintagma_Adjetival) Ncleo_Nominal (Sintagma_Adjetival) Sintagma_Preposicional*

Determinante = PreArtculo[Artculo | Posesivo | Demostrativo]

Numeral = Cardinal | Ordinal

Ncleo_Nominal = Sustantivo |Infinitivo

Sintagma_Adjetival = Adverbio* [Adjetivo | Participio]+

([ , Adverbio* [Adjetivo | Participio] ]* [y | o] Adverbio* [ Adjetivo | Participio])

Sintagma_Preposicional = Preposicin (Determinante) (Numeral) (Sintagma_Adjetival) Ncleo_Nominal (Sintagma_Adjetival)

3 Pequea gramtica del sintagma nominal en castellano.

tipos de inters".

Esta adecuacin observacional no oculta la incapacidad de los lenguajes regulares para, con sencillez y elegancia, decirnos cul es la estructura de este sintagma nominal (a qu ncleo nominal a adjetival estn complementando cada uno de los sintagmas preposicionales, cmo se encadenan stos entre s...) ni explicar las ambigedades estructurales de oraciones como las vistas en el captulo dedicado a la lengua natural.

En Edinburgh[89], cap. 2, se incluye un ejemplo de Gazdar y Pullam contra el carcter regular del ingls:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

6

que traducido al castellano queda, aproximadamente:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

7

Aunque el ejemplo es extremo e inaceptable (una gramtica que falle en esa frase no puede ser rechazada en la prctica), pretende mostrar que la insercin generalizada y recursiva de proposiciones en posicin relativa y no absoluta, con sus parejas de sujetos y predicados, constituye un fenmeno lingstico no elegantemente regular. Cuando todos escuchamos la oracin:

"el coche que el chfer que Pedro contrat condujo ayer parece rpido"

mentalmente asignamos sujeto a los distintos verbos percibiendo la estructura de niveles que supone la insercin de una proposicin dentro de otra; cada verbo no tiene al sustantivo anterior ms cercano como sujeto, sino al anterior ms cercano que no tenga un verbo ms cercano an.

Trucos como la adicin de una pila para la subordinacin inserta, o la utilizacin de gramticas ambiguas y desdoblamiento del anlisis al pasar por un estado de ambigedad, o el etiquetado de los sintagmas al llegar a determinados estados, complican en exceso el sencillo funcionamiento de los autmatas, y son formas poco recomendables de convertir el lenguaje aceptado en algo ms que regular.

PRIVADO III.2.2 Tipo 2TC \l 3 "III.2.2 Tipo 2"

Describen los llamados lenguajes de contexto libre (en ellos se pueden insertar proposiciones dentro de proposiciones independientemente del contexto de la oracin).

El formato segn Chomsky ser:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

8

donde ( es una cadena, vaca o no, de smbolos terminales o no terminales.

Equivale, en cuanto a potencia descriptiva, al autmata con pila y nos permite describir adecuadamente las relaciones intra- e inter-sintagmticas de la lengua natural:

-concordancia sujeto-verbo

-concordancia sujeto-atributo

-insercin de proposiciones en posiciones centrales

(

(

La representacin grfica de un anlisis de contexto libre es un clsico rbol sintctico con los smbolos No Terminales en los nodos intermedios y smbolos Terminales en los finales.

PRIVADO

ORACION

Proposicin

SN SVAtrib

DET Nucl SP VerbCop Atrib

Det N Prep SN SAdj

DET Nucl SAdjPost SPde SAdjConAdv NexoMonoCop Adj

Det N Adj PrepDe SN SAdv Adj

NombreProp Adv2

las opiniones sobre la realidad efectiva de Espaa son sobremanera deficientes y desoladoras

ORACION

Proposicin

SN SVAtrib

DET Nucl SP VerbCop Atrib

Det N Prep SN SAdj

DET Nucl SAdjPost SPde SAdv SAdjCoord

Det N Adj PrepDe SN Adv Adj NexoMonoCop Adj

NombreProp

las opiniones sobre la realidad efectiva de Espaa son sobremanera deficientes y desoladoras

Figure 5 Ejemplos de rboles sintcticos de una frase en castellano.

PRIVADO III.2.2.1 Limitaciones de los lenguajes de contextoTC \l 4 "III.2.2.1 Limitaciones de los lenguajes de contexto" libre

Mucho se ha argumentado a favor y en contra de si los lenguajes naturales podan ser descritos sintacticamente mediante gramticas de contexto libre, basndose desde ejemplos sencillos aunque muy discutibles, hasta referencias a estructuras presentes en holands, bambara... (Perrault[84], Edinburgh[89]).

Hay quien objeta que la multiplicacin de categoras sintcticas necesaria para contemplar las concordancias es claramente antinatural, que sera mejor que los smbolos llevaran asociados rasgos como el gnero, el nmero, la persona... Parece poco natural la creacin de categoras sintcticas como Sintagma Nominal masculino plural propio geogrfico, Sintagma Adjetival largo con sintagma adverbial antepuesto... o incluso de categoras lxicas como sustantivo masculino plural propio geogrfico, adjetivo femenino singular especificativo... Sin embargo, nuestro intento como ingenieros es modelar la lengua externamente de un modo sencillo; la multiplicacin de reglas y smbolos que supondra una gramtica poco elegante como la del recuadro 4

Los ejemplos del alemn de Suiza, donde existen construcciones del tipo:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

9

o de la lengua Bambara de Senegal, que contiene sintagmas de estructura:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

10

PRIVADO

Proposicin = SNSujetomasculinosingular SintagmaVerbalsingular

SNSujetomasculinosingular=

(Determinantemasculinosingular)

(SintagmaAdjetivalPreviomasculinosingular) Nombremasculinosingular (SintagmaAdjetivalPreviomasculinosingular)

(SintagmaPreposicional) (OracinDeRelativo)

SintagmaAdjetivalPreviomasculinosingular=

(SintagmaAdverbialPrevioDeGrado)*

AdjetivoPreviomasculinosingular

4 Ejemplos de reglas de una gramtica con concordancias.

son dependientes de contexto, pero no afectan al castellano, que es nuestro objetivo.

Se ha argumentado que en oraciones como:

"Pedro y Mara compraron un piso y un coche respectivamente"

hay un fenmeno que no es elegante describir mediante GCL (requeriran categoras como SintagmaNominalcon2elementos...). Sin embargo, la gramaticalidad parece ms ligada a la semntica de "respectivamente", ms fcil de verificar por el componente semntico:

"sus dos hermanos heredaron la casa y el coche respectivamente"

En castellano, el ordenamiento libre de los sintagmas dar lugar a constituyentes discontinuos, cuyos rboles sintcticos deberan tener ramas cruzadas. Dichos rboles no son posibles si usamos gramticas de contexto libre, pero cabe la posibilidad de realizar un anlisis sintagmtico (ms que sintctico) laso, que luego la semntica reordenar, ligar... Los hiprbaton suelen requerir del oyente una cierta transformacin, un posproceso que no todos los hablantes son capaces de realizar con correccin (depende mucho de su cultura especialmente de la literaria si nos enfrentamos a enunciados de corte potico).

PRIVADO III.2.3 Tipo 1 TC \l 3 "III.2.3 Tipo 1 "

Contienen reglas que se ajustan a:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

11

Permiten que la gramtica sea sensible al contexto, y un sintagma pueda ser sistemticamente igual a otro como en el ejemplo ya visto de la lengua Bambara. Obsrvese en la figura 5 lo complejo de las reglas necesarias

La complejidad de su parsing es exponencial con la longitud de la cadena de entrada (lo cual es inaceptable con fines de reconocimiento).

Prcticamente no existen referencias bibliogrficas sobre este tipo de gramticas, las de menor xito de toda la jerarqua.

PRIVADO S ( a S B C

S ( a b C

b B ( b b

b C ( b c

c C ( c c

C B ( C D

C D ( E D

E D ( E C

E C ( B C

5 Gramtica sensible al contexto.

PRIVADO III.2.4 Tipo 0TC \l 3 "III.2.4 Tipo 0"

e "III.5 Tipo 0"

Su potencia es la de una mquina de Turing y sus reglas de la forma:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

12

No existe algoritmo que en tiempo finito nos diga si una cadena obedece o no las

reglas de una gramtica de reescritura tan generalizada.

Cuando Chomsky formul sus objeciones a las gramticas de estructura de sintagma (tipo 2), propuso la utilizacin de reglas de tipo 0 para el reordenamiento, elisin... de elementos. La no existencia de algoritmo de parsing mostraba que su potencia superaba en mucho a las lenguas naturales y el formato de las reglas de reescritura se limit mucho (los clsicos movimientos de sintagmas por tematizacin, interrogacin...

PRIVADO CAPITULO IVTC \l 1 "CAPITULO IV"

EL MODELO LINGSTICO

PRIVADO IV.1 PresentacinTC \l 2 "IV.1 Presentacin"

Es tradicional dividir la gramtica, o modelo de la lengua, en partes de todos conocidas:

-la fontica: estudio de la estructura material del sonido, de sus propiedades y cualidades fsicas que nos permiten diferenciarlos, pronunciarlos... Tono, intensidad, timbre, cantidad y lugar de articulacin son objeto de estudio para la fontica acstica; lugar y modo de articulacin lo son para la fontica articulatoria

-la fonologa: qu funcin desempean los elementos fnicos y cul es su capacidad para formar mensajes y signos diferentes: cmo se forman las slabas, cmo remarcamos la intensidad en algunas de ellas (acento real, no ortogrfico), en qu consiste la entonacin y para qu la usamos...

-la lxico-morfologa: estudia las palabras y su forma, abstradas de cualquier contexto textual

-la sintaxis: describe cmo se combinan entre s las palabras para formar oraciones

-la semntica: trata de los significados gramaticales, de la interpretacin que damos a los enunciados

-la gramtica del discurso: influjos lingsticos ms all del restrictivo mundo de las oraciones tradicionalmente considerado por la sintaxis

-la pragmtica: cmo influye el contexto extralingstico (sociedad, cultura...) en la interpretacin de los enunciados

Aunque es evidente que "el establecimiento de niveles es una mera ficcin metodolgica"(Blecua citado en Hernanz[87], pg. 18) y "que no se corresponde con distinciones naturales" (Saussure, citado en Alcina[75], pg. 132), su simplicidad la hace especialmente apropiada como punto de partida (tras tantos siglos de preocupacin por la lengua parecemos hallarnos todava saliendo de nuestras marcas hacia una meta de incierta llegada) para ir aislando problemas cuya complejidad es suficiente como para no pensar en tratarlos conjuntamente. Los enfoques modulares y los esquemas simplificados han desempeado un importante papel en la historia de la ciencia y de la ingeniera, a los que ahora se une la simulacin automtica.

La descomposicin empleada en esta obra se basar en la ms clsica dentro del marco generativista, centrndonos en el subsistema sintctico por inters del obletivo del proyecto.

Tomamos de Hernanz[87] la Ilustr. 6, que representar el modelo conceptual de lengua que usaremos. Detallemos a continuacin el contenido de cada mdulo.

PRIVADO

componente lxico

componente sintctico

componente fontico componente semntico

Figure 6 Modelo global de la gramtica

PRIVADO IV.2 Componente lxicoTC \l 2 "IV.2 Componente lxico"

Aunque en los textos de lingstica se suele denominar a este mdulo lexicn o diccionario, las capacidades lxicas del ser humano sobrepasan ampliamente la funcin de mero almacn de datos. Como se ha sealado al caracterizar la lengua natural, el lxico presenta notables regularidades que no se tienen en cuenta con una simple lista de palabras ( por eso el concepto actual de diccionario automtico no se limita a ser una lista, sino ms bien una base de datos relacional o un autmata basados en morfologa...).

Las palabras no son entes simples: se componen de morfemas tanto lexemticos como categorizadores. Si nos basamos en los primeros agrupamos las palabras por familias lxicas (lo cual es muy importante desde el punto de vista de los significados); si optamos por los segundos, en categoras lxicas. Por ejemplo:

cas-a, cas-ero, cas-ero... pertenecen a una misma familia lxica a la que podemos denotar con el ms sencillo de sus componentes: casa.

Es obvio el estrecho vnculo existente entre stas palabras que, sin embargo, no impide que su comportamiento al relacionarse con otras no sea bien distinto: mientras casa o casero son, segn la Gramtica Tradicional nombres sustantivos, casero es un adjetivo.

Este carcter estructurado que poseen las palabras nos permite que ante una palabra nueva como observacionalmente, y mediante la extraccin de su lexema observ- (del verbo observar) y sus morfemas -acion- (sustantivador) , -al- (adjetivador) y mente (que convierte a la palabra en adverbio generalmente de modo), deduzcamos que significa "desde el punto de vista basado en la observacin". Tambin nos permite elidir morfemas flexibles cuando, por redundancia, su informacin es recuperable. En:

"El prncipe llor amarga y desconsoladamente"

la coordinacin copulativa de dos adverbios de similar morfologa categorizadora nos permite omitir, por razones estticas normalizadas, el morfema -mente que acompaara a amarga.

Sin embargo, y a pesar de la potencia del lenguaje humano a la hora de componer o modificar morfemas para formar palabras, un elemento irregularizador, la norma y la costumbre, hace que el adverbio ms comn derivado de observar sea observ-ador-a-mente. Quizs slo los que conozcan la existencia de la adecuacin observ-acion-al encontrarn fcilmente el sentido de observacionalmente. Los dems la considerarn una palabra extraa, propia de un alterador de la norma.

Dado que la elaboracin de un mdulo lxico est siendo abordada ya por otro equipo del Departamento (aunque no se halla todava disponible), no hemos gastado tiempo en la misma labor, y en nuestro sistema lo redujimos a una simple lista de palabras (fcilmente almacenable en disco o en memoria de un modo eficiente), concentrndonos en el mdulo central: el sintctico.

PRIVADO IV.3. Componente sintcticoTC \l 2 "IV.3. Componente sintctico"

La Sintaxis, del griego "((((((((", que significa ordenamiento, estudia cmo se combinan y distribuyen las piezas lxicas para formar enunciados pertenecientes a la lengua.

Est claro que secuencias de piezas lxicas que el sistema de la lengua cataloga como mal formadas. "el madre comi nio helado de su el " posee las mismas palabras que "el nio comi el helado de su madre", y mientras la segunda nos resulta perfectamente comprensible a todos los castellano-parlantes, la primera carece de una mnima organizacin lgica.

Ligeras variaciones del orden de una oracin correcta como la anterior nos hacen ver que las palabras forman grupos relativamente ligados y que, caso de poder moverse, lo harn juntas. As, su acompaar a madre en todos sus movimientos y "de su madre el nio comi el helado" es aceptable (aunque retrica) pero no "el nio comi el helado de madre su". Es fcil extraer como constituyentes de la oracin: el nio, comi, el helado y de su madre.

Sin embargo, estos constituyentes tampoco son totalmente independientes: "el helado comi el nio de su madre" no significa lo mismo que la original y "de su madre comi el nio el helado" es agramatical aunque comprensible con un poco de buena intencin. La sintaxis debe desvelar cmo se forman los constituyentes y cules son las relaciones existentes entre ellos. El modo usual de representarlo son los diagramas arbreos.

Ms justificaciones al empleo de anlisis jerrquico podran ser:

-el fenmeno de las concordancias tambin est regido por criterios de estructura: el y nio poseen el mismo gnero y nmero y la variacin de slo uno de ellos da lugar a agramaticalidad; el nio concuerda en la persona con el verbo "comi"...

-la conversin de una oracin enunciativa a interrogativa con sustitucin de un constituyente por un pronombre interrogativo no es razonable si no observamos el rbol sintctico. "Quin comi el helado de su madre?", es correcta; "Quin el nio comi el helado?", no (de su madre est ligado a el helado y para ser pronominalizado es necesario transformar la frase: "De quin era el helado que comi el nio?").

-la entonacin y el pausado dependen, como ya hemos visto, de la estructura de constituyentes (aunque tambin de la cultura, intenciones, estado anmico... del hablante). Segmentar correctamente una oracin en sintagmas permitira pausar frases como:

"cuando llegamos a casa | te vi salir"

"posaba el terciopelo de sus patas | en dos simtricos remiendos de tela nueva"

donde los fenmenos de la subordinacin oracional y la subcategorizacin verbal, son imprescindibles para comprenderlo.

-La distincin entre la aposicin entre comas y la enumeracin separada por comas, necesita de informacin sobre relaciones, a menudo lejanas, en el interior de la oracin:

"sus cuadros, todo lo suyo me suele gustar, no parecen comprados por ellos"

frente a:

"sus cuadros, todo lo suyo y de su marido me suele gustar"

-La coordinacin puede darse en el nivel sintagmtico:

"compr un piso y una casa"

o en el oracional:

"compr un piso y vendi su casa"

siendo diferente la entonacin en ambos casos.

-Los paralelismos coordinados :

"lleno de luz y esperanza, de humildad y devocin"

no admiten un tratamiento sintctico local, pues pueden implicar influencias remotas.

-El vocativo:

"seorita, no se puede"

"no llores, Babs, todo eso no es verdad"

no puede ser entonado como una enumeracin o una aposicin tpicas.

-La interrogativas totales y parciales poseen sus implicaciones sintcticas:

"quien vive con vosotros?"

frente a:

"quien vive con vosotros os dijo eso?"

donde un sencillo error de escritura (supresin de una tilde) provoca la indiferenciacin si no se analiza globalmente la frase.

Por supuesto, existen algunos fenmenos jerrquicos que requeriran rboles con una estructura ms libre o ms general: ramas cruzadas, correferencias entre elementos... Las dificultades para su anlisis automatizado nos harn excluirlos.

PRIVADO IV.4 Componente fonolgicoTC \l 2 "IV.4 Componente fonolgico"

La conversin de los sonidos en fonemas es seguramente el mdulo ms desarrollado de nuestro modelo. No obstante, las muchas tcnicas empleadas adolecen de falta de "humanidad". En nuestra capacidad de entender sonidos no empleamos slo un modelo acstico-fontico de la lengua, sino tambin uno sintctico-semntico: al ir escuchando y reconociendo fonemas, morfemas... predecimos automticamente qu nos podemos encontrar a continuacin. Al encontrarnos con algo incoherente, volvemos sobre lo escuchado e intentamos corregir nuestra transcripcin fontica (formulando palabras hiptesis en cierto modo) que nos hagan coherente el enunciado o la pregunta.

PRIVADO IV.5 Componente semnticoTC \l 2 "IV.5 Componente semntico"

Busca describir el contenido literal (gramatical, independiente del contexto extralingstico) de la oracin.

Relacionados con la semntica estn dos de los puntos ms conflictivos de nuestro planteamiento: la autonoma de la sintaxis respecto a la semntica y la de sta respecto a la pragmtica.

Aislar la sintaxis de la semntica podra parecer simple (segn Chomsky, su ms ardoroso defensor, es una hiptesis de trabajo bsica para adentrarnos en la organizacin de la lengua). La Sintaxis buscara la estructura formal de la oracin debida a la categorizacin o tipado de sus elementos; la semntico interpretara esa estructura a la luz de los significados de los mismos. La sintaxis sera capaz de hallar una estructura a la oracin "saba que M estaba enferma, pero no era verdad" ( la misma que la de "crea que M estaba enferma, pero no era verdad"); sin embargo, se trata de una oracin absurda, como muy lgicamente detectara una buena semntica.

Los lmites se pueden hacer difusos al analizar la serie siguiente:

1) Mi to opina que soy un gran cocinero

2) Mi gato opina que soy un gran cocinero

3) Mi nacimiento opina que soy un gran cocinero

4) Mi desde opina que soy un gran cocinero

La oracin n1 no presenta problemas, y todos coincideremos en que es sintctica y semnticamemte bien formada (aunque podra ser falsa en la realidad).

Una sintaxis integrada con semntica considerara anmalo el segundo enunciado, ya que el verbo opina exigira a su sujeto la presencia del rasgo [+HUMANO] del cual carece mi gato. Sin embargo, la oracin cobrara pleno sentido en un contexto de cuento fantstico. Puede ser semnticamente correcta sin serlo previamente en el plano sintctico? Juzgamos que no: la oracin tiene sentido sintctico, si al verbo en torno al cual gira somos capaz de asignarle un sujeto ("mi gato") y un complemento directo ("que soy un gran cocinero"), con lo que ve saciadas sus necesidades sintcticas.

Para la tercera no soy capaz de hallar contexto en el que resulte aceptable. Aunque pasara el filtro sintctico, sera semnticamente mal formada si no tenemos en cuenta el contexto.

Por fin, la ltima oracin no pasara la verificacin sintctica usando cualquier gramtica comn del castellano.

La confusin entre semntica y pragmtica se pone ya de relieve en la segunda oracin de la serie anterior: Es un hecho lingstico la deduccin de que nos encontramos en un ambiente de cuento, con las implicaciones que ello conlleva? No es algo netamente influido por la cultura...? No seran pocos los que catalogaran, despectivamente, el texto de un cuento as como perteneciente a la literatura infantil (luego absurda y poco til en el estudio de la comunicacin humana).

Igual que al hablar de fonologa hemos destacado cmo la sintaxis condiciona, hasta cierto punto, lo que esperamos or, un mdulo superior semntico-pragmtico podra deducir informacin de un enunciado sintcticamente errneo: inducir palabras no escuchadas, desconocidas, estructuras sintcticas de moda... El modelado de fenmenos tan relacionados con la inteligencia humana deberan por ahora obligar a una hipottica mquina dialogante a interrogarnos acerca de lo que acabamos de decir (algo, por cierto, habitual al hablar dos o ms personas).

Resear, como colofn, que entre los distintos enfoques dados a la semntica se hallan: el que pretende emplear de la lgica de predicados, el funcional (el verbo sera el predicado que selecciona a los dems elementos: sus argumentos), el generativista...

PRIVADO IV.6 Esquema orientado al reconocimientoTC \l 2 "IV.6 Esquema orientado al reconocimiento"

El esquema lingstico anteriormente presentado es generativo, y no se adapta al problema del reconocimiento, que es el objetivo ltimo de nuestro trabajo.

Ya sabemos que al reconocer poseemos una secuencia sonora de la cual deseamos saber, si es que existe, su transcripcin grafmica. Para esta labor disponemos de la informacin fonolgica que nos permitir pasar los fonemas a grafemas (se producirn inserciones, sustituciones y borrados). Estos grafemas ser preciso unirlos para formar palabras: deberemos consultar el diccionario lxico (en este nivel comenzarn a aparecer ambigedades). Un mdulo sintctico deber discriminar qu secuencias de palabras son gramaticales y cuales no. Finalmente la semntica interpretar lo dicho. Nuestro esquema secuencial simplificado ser el de la Ilustr. 7, Ilustr. 13.

PRIVADO

componente semntico

componente sintctico

componente lxico

componente fontico

Figure 7 Esquema simple de reconocimiento.

Entre todos los niveles debera ser posible realimentar informacin al anterior y que ste la propague hasta el ms bajo, pero la opcin elegida suele ser que el mdulo inferior sea lo suficientemente laxo como para aceptar todas las posibilidades (asignndoles una cierta probabilidad de ocurrencia por l estimada) y permitir que sea su superior quien, manejando un modelo ms completo de la lengua, decida. Como ya mencionamos al hablar del componente fonolgico, llegados arriba y sin posibilidad de interpretar lo enunciado, slo nos queda rogar una repeticin de lo dicho, una aclaracin a un trmino...

PRIVADO CAPITULO VTC \l 1 "CAPITULO V"

COMPILACIN DE DICCIONARIOS

PRIVADO V.1 PresentacinTC \l 2 "V.1 Presentacin"

Los diccionarios forman parte, de algn u otro modo, de la mayora de los sistemas de reconocimiento y sntesis de habla, de procesamiento de textos de lengua natural...

Un reconocedor basado en alfonos tendr, por ejemplo, al menos dos diccionarios implcitos o explcitos: el de los alfonos que debe detectar, pequeo y muy ligado al algoritmo de reconocimiento, y el lexicn de palabras que permitir extraer stas de la secuencia, matriz o celosa de unidades aceptadas.

Para vocabularios pequeos y determinados, si nuestro algoritmo de reconocimiento permite el guiado sintctico, la informacin sobre qu cadenas de alfonos son posibles permitira limita considerablemente el espacio de bsqueda: reconocer una cierta unidad fnica reduce el nmero de posibles sucesoras (Niemann[86], Antoniol[89], Fissore[89]). La perplejidad media (cuantas unidades pueden suceder a una dada) tender a 1 en vocabularios no muy amplios.

Nuestro entorno de anlisis sintctico de oraciones escritas tambin precisa de acceso al lxico. Dado un texto debemos leerlo carcter a carcter, segmentarlo en unidades que consideremos como las mnimas significativas (palabras, o quiz, morfemas), extraer del diccionario la informacin que sobre ellas dispongamos y, finalmente, realizar el anlisis propiamente dicho.

PRIVADO V.2 Acceso secuencialTC \l 2 "V.2 Acceso secuencial"

La forma ms sencilla de guardar y acceder a un diccionario es la secuencial ordenada. Guardamos en memoria o en disco cada una de las palabras en un orden determinado y, si necesitamos la informacin caracterstica de una de ellas,la buscamos ordenadamente.

Aunque la utilizacin de ndices (punteros a la zona de las palabras que empiezan por un determinado carcter o por una secuencia de caracteres) puede acelerar el proceso de bsqueda ( especialmente si el almacenamiento se realiza en disco magntico), se desperdicia mucho espacio debido a las redundancias del vocabulario: numerosas palabras comienzan o terminan con la misma cadena de signos...

PRIVADO V.3 Compilacin en forma de autmataTC \l 2 "V.3 Compilacin en forma de autmata"

Todo vocabulario de cardinal finito, como ya hemos sealado al hablar de los lenguajes formales, puede ser descrito unvocamente en trminos de una gramtica tipo 3 regular.

Los smbolos terminales de la gramtica seran las unidades bsicas de las palabras del vocabulario : alfonos, fonemas, grafemas, morfemas... El axioma ser en nuestro caso la palabra, y los smbolos no terminales carecern, por lo general, de significacin intencionada ( un conjunto de caracteres podra corresponderse con un smbolo no terminal y con un morfema de nuestro lenguaje, pero no por nuestra voluntad expresa).

Las reglas gramaticales tendran la forma siguiente:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

13

(

(

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

14

El autmata presenta dos ventajas:

-puede aprovechar las redundancias del vocabulario para reducir el espacio que nos ocupa a la hora de almacenarlo, en memoria especialmente

-el tiempo que tarda en reconocer una cadena de entrada es independiente del tamao del diccionario y lineal respecto a la longitud de la secuencia

Un modo trivial de compilar el lexicn en forma de autmata finito sera convertir cada unidad de una palabra en un estado diferente y encadenarlos de acuerdo con la regla que describe dicha palabra. Los autmatas por palabras as conseguidos, seran individualmente deterministas, aunque globalmente indeterministas. Si los sumamos todos ( hacemos comunes sus estados inicial y final), ser normal que al estado inicial le sucedan varios estados con igual smbolo en su rama intermedia. El algoritmo de conversin de AFN a AFD queda reducido, por el carcter arbreo de nuestro autmata, a la fusin en las cabeceras de palabra de los estados equivalentes: aquellos que tienen igual predecesor e igual smbolo.

PRIVADO

3

1

2

ini fin

4 1 2

5 1 3

Ilustr. 8Ejemplo de unificacin de cabeceras de palabra.

Obsrvese como usando un vocabulario comn ordenado se obtiene una importante reduccin en el nmero de estados presentes en el autmata.

Similar operacin podra ser realizada con los finales de palabra (las "colas"), pero perderamos la morfologa en rbol, y algunos algoritmos de reconocimiento de voz admiten slo este tipo de estructuras para su guiado: la eliminacin o no aceptacin de un estado supone la inmediata exclusin de sus sucesores en el rbol.

Como en castellano los lexemas o prefijos+lexemas suelen tener mayor longitud que los sufijos terminales, la fusin de "colas" ser menos eficiente que la de cabeceras.

Si permitisemos que una unidad fuese unificada como cola y como cabecera de una palabra, el autmata podra aceptar palabras no pertenecientes a nuestro

vocabulario. El pequeo vocabulario siguiente:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

15

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

16

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

17

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

18

cuyo autmata contiene, adems de las anteriores palabras, otras dos: "5 1 2" y "4 1 3".

Otro error que podra surgir sera la aparicin de ciclos. El vocabulario:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

19

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

20

se podra convertir, tras la unificacin de cabeceras, en:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

21

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

22

y en:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

23

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

24

tras la unificacin de colas.

El autmata resultante (Ilustr. 9) sera:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

25

en vez del correcto:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

26

PRIVADO

ini 115 17 115 fin

Ilustr. 9 Autmata tras errnea unificacin de colas y cabeceras.

La fusin ordenada presenta 2 opciones combinables:

-operar palabra a palabra, o globalmente con todo el vocabulario

-unificar primero las colas y luego las cabeceras, o primero las cabeceras

Partiendo del mini-diccionario:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

27

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

28

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

29

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

30

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

31

si operamos globalmente y unificamos primero las cabeceras, obtendremos:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

32

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

33

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

34

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

35

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

36

y, al unificar las colas, queda:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

37

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

38

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

39

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

40

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

41

En cambio, al realizar las operaciones tambin globalmente pero en orden inverso, primero colas y luego cabeceras, el resultado es ms eficiente:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

42

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

43

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

44

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

45

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

46

La mayor o menor redundancia entre colas o cabeceras hace que se reduzca ms o menos el nmero de estados. Sin embargo, la unificacin de las colas primero puede dar lugar a autmatas no deterministas como:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

47

donde al hallarnos en 5 sub 0 y recibir un 1 no sabramos si ir a 1 sub 0 o a 1 sub 1.

Si operamos palabra a palabra, primero las cabeceras y luego las colas, los cuatro pasos sern:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

48

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

49

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

50

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

51

Al variar el orden de las palabras, obtendremos:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

52

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

53

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

54

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

55

Trabajando palabra a palabra tambin influye qu unificamos primero, si colas o cabeceras. Si empezamos por las cabeceras:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

56

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

57

y si por los finales:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

58

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

59

Pero aunque el mtodo de unificacin de colas y cabeceras no nos da un nmero de estados mnimo, si nos garantiza que conforme vamos reconociendo la cadena de entrada podamos saber qu palabra es la reconocida, sin necesidad de posproceso (buscar en otro diccionario). Cada palabra est caracterizada por la presencia de una secuencia de dos estados: el ltimo estado de su mxima cabecera de unificacin (el estado inicial es por defecto) y el siguiente (puede ser el estado final si ha habido fusin de cabeceras en esa palabra). En nuestro primer ejemplo con los nmeros, la secuencias caractersticas son

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

60

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

61

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

62

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

63

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

64

PRIVADO V.3.1 Independencia del orden de operacionesTC \l 3 "V.3.1 Independencia del orden de operaciones"

Las diferencias debidas al orden en el que unifiquemos slo se producen cuando las palabras contienen unidades que se pueden fundir simultneamente como cabeceras y como colas.

Comparando :

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

65

y

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

66

donde la primera ha unificado antes las cabeceras, vemos que el estado 5 sub 0 posee dos predecesores y un solo sucesor, cuando podra tener uno de cada, reducindose el nmero total de estados.

Una regla iterativa podra ser:

-si el cardinal del conjunto de los estados que estn asociados al smbolo 'I' es mayor que el nmero de estados que los preceden o mayor que el nmero de estados que los suceden, podramos igualar dicho cardinal al menor de los cardinales de los sucesores y los predecesores (Ilustr. 10).

El problema de permitir reducir el nmero de estados en funcin de sus sucesores es que existe la posibilidad de indeterminacin. El ya visto:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

67

pasara a ser:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

68

donde se elimina un estado asociado al smbolo 1 (ya que slo posea dos sucesores), pero se crea una indeterminacin en el estado 5 sub 0.

Otra regla iterativa muy lgica nos dice que si dos estados del mismo smbolo poseen el mismo conjunto de predecesores o sucesores, deben ser equivalentes. Esta fusin de dos estados en uno no provoca indeterminacin: si previamente dos estados de un mismo smbolo no tienen un estado comn predecesor, al unirse debido a la igualdad de sucesores, tampoco suceder (XXXX).

Volviendo al ejemplo anterior y aplicando la ltima regla:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

69

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

70

Se han fundido en uno los estados 1 sub 0 y 1 sub 2,quedando intacto el 1 sub 2.

Error!Nombre de archivo no especificado.

Ilustr. 10 Primera regla iterativa.

Un problema que surge de la aplicacin de estas reglas es la prdida de la informacin sobre qu palabra hemos reconocido: no hay una secuencia de dos estados que caracterice a cada palabra. Por ejemplo la primera contiene las subcadenas: EstadoInicial+ 1 sub 0, 1 sub 0+ 2 sub 0, 2 sub 0+EstadoFinal, que son compartidas con otras. Ampliar el nmero de estados necesarios para caracterizar nos llevara a la realizacin de un vocabulario paralelo (con la prdida de la eficiencia en la memoria ocupada) pues siempre es posible encontrar un ejemplo que necesite ms estados para caracterizar sus palabras:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

71

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

72

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

73

'Completamente' se caracteriza por una secuencia de cinco estados:

Instal

l Equa

tion E

ditor

and do

uble

-

click

here t

o view

equat

ion.

74

La necesidad de consultar un diccionario en disco retrasar la finalizacin del reconocimiento.

Error!Nombre de archivo no especificado.

Ilustr. 11 El algoritmo de reduccin de nmero de estados.

Error!Nombre de archivo no especificado.

Ilustr. 12 Segunda regla iterativa.

PRIVADO V.3.2 La suma de gramticasTC \l 3 "V.3.2 La suma de gramticas"

Cuando se desarrolla un sistema de reconocimiento de vocabulario finito, se debe dar al propietario la posibilidad de ampliar y redefinir el vocabulario dentro de las limitaciones de memoria...

Una pequea ampliacin no debera suponer la adicin de las nuevas palabras al diccionario y volver a aplicarle a todo ello el algoritmo de reduccin (la complejidad del algoritmo es dependiente de la longitud del vocabulario): debemos guardar en un fichero los resultados del algoritmo sobre el lxico original (la secuencia de estados, smbolo y subndice, que componen cada palabra), para as poder recuperarlos a la hora de ampliar, aadirle las nuevas palabras con nuevos estados, y aplicar el algoritmo sobre una base ya bastante optimizada.

PRIVADO V.3.3 Eficiencia de compilacinTC \l 3 "V.3.3 Eficiencia de compilacin"

La capacidad para compactar vocabularios depende totalmente de las redundancias contenidas en ellos.

Para un vocabulario poco redundante como los dgitos del cero al nueve la disminucin no vale la pena. Estos casos (que llamaramos lexemticos) tienen gran variedad de lexemas y apenas morfemas.

Una mejor medida nos la dar un diccionario castellano de cierto tamao. Usando la mxima reduccin:

PRIVADO nmero de palabras

nmero total de alfonos

nmero total de estados

tamao de tabla del autmata

perplejidad del autmata

reduccin

440

3083

811

1258

1,5388

3,8015

628

4383

1138

1763

1,5094

3,8515

1004

6893

1577

2578

1,6347

4,3710

Usando al unificacin de colas y cabeceras:

PRIVADO nmero de palabras

nmero total de alfonos

nmero total de estados

tamao de la tabla del autmata

perpleji-dad del autmata

reduccin

440

3083

812

1250

1,5394

3,7968

628

4383

1139

1765

1,5496

3,8481

1004

6893

1578

2580

1,6350

4,3682

Compilando en forma de rbol:

PRIVADO numero de pala