CAPÍTULO 5 PREPROCESAMIENTOlorien.die.upm.es/juancho/pfcs/AJP/cap5.pdfLa primera tarea consiste en...

57
Capítulo 5. Preprocesamiento 49 CAPÍTULO 5 PREPROCESAMIENTO La función del Preprocesador es convertir el texto de entrada (secuencia de caracteres) a un formato adecuado para su tratamiento por el resto de los módulos del conversor texto-voz, especialmente el de Análisis Lingüístico. El Preprocesador es el único que trata de forma directa con el texto de entrada, el resto de los módulos parten de los resultados por él generados. Queremos resaltar que en todo momento consideramos texto correctamente escrito, y que los posibles fallos del sistema debidos a errores tipográficos (palabras mal escritas, sin acentuar, frases escritas sin espacios en blanco entre las palabras, ...) no son computables a la hora de evaluar el sistema. Las principales funciones del pre-procesado de textos se presentan esquemáticamente en la Figura 5.1 A la descripción detallada de cada una de ellas irá dedicado este capítulo.

Transcript of CAPÍTULO 5 PREPROCESAMIENTOlorien.die.upm.es/juancho/pfcs/AJP/cap5.pdfLa primera tarea consiste en...

Capítulo 5. Preprocesamiento

49

CAPÍTULO 5

PREPROCESAMIENTO

La función del Preprocesador es convertir el texto de entrada (secuencia de

caracteres) a un formato adecuado para su tratamiento por el resto de los módulos del

conversor texto-voz, especialmente el de Análisis Lingüístico. El Preprocesador es el

único que trata de forma directa con el texto de entrada, el resto de los módulos parten

de los resultados por él generados.

Queremos resaltar que en todo momento consideramos texto correctamente

escrito, y que los posibles fallos del sistema debidos a errores tipográficos (palabras mal

escritas, sin acentuar, frases escritas sin espacios en blanco entre las palabras, ...) no son

computables a la hora de evaluar el sistema.

Las principales funciones del pre-procesado de textos se presentan

esquemáticamente en la Figura 5.1 A la descripción detallada de cada una de ellas irá

dedicado este capítulo.

Capítulo 5. Preprocesamiento

50

Texto

frase

Figura 5.1. Principales funciones del Preprocesado

5.1 SEGMENTACIÓN

Proporcionar unidades para el análisis lingüístico es el cometido de la

segmentación. La primera tarea consiste en delimitar dentro del texto la unidad de

trabajo para el resto de los módulos de análisis. En nuestro caso, coincidiendo con la

mayoría de los conversores texto-voz actuales, la unidad elegida es la frase. Hemos

decidido que el final de frase viene marcada por uno de los siguientes signos:

- cierre de interrogación ( ? )

- cierre de exclamación ( ! )

- puntos suspensivos

- final de párrafo ( ¶ )

- punto fin de frase

seguido por una palabra que comience por letra mayúscula o por nada (final del texto).

Detección ytratamientode unidadesespeciales

abreviaturas

y siglas

preparación delas categorías

de cada palabra

números,fechas, horas,

y romanos

nombrespropios y

compuestos

segmentación

Capítulo 5. Preprocesamiento

51

De esta manera, el sistema comprende el texto de entrada como una sucesión de

frases que irá procesando secuencialmente.

A continuación, el preprocesador reconoce y aísla las diferentes palabras que

componen la frase. Inicialmente se realiza una separación ciega por los espacios en

blanco y, a partir de ella, se separan palabras y signos de puntuación. Los signos

ortográficos se consideran suficientemente importantes como para formar una unidad

independiente con su propia categoría gramatical. Esta segunda separación es bastante

laboriosa ya que implica resolver importantes ambigüedades, por ejemplo, determinar si

un punto es fin de frase o si forma parte de una expresión numérica o una abreviatura.

En el primer caso, fin de frase, lo consideramos como una unidad independiente y por lo

tanto, debe aparecer aislado, mientras que en el segundo no puede separarse ya que

forma parte del conjunto y todo él es una unidad. Por tanto, la división de una frase en

las distintas palabras que la forma no es una tarea trivial, sino que requiere un cuidadoso

tratamiento.

En nuestro sistema cada frase forma una única estructura de datos delimitada por

una marca de comienzo y otra de fin de frase. Definimos los comienzos y finales de

frase de la siguiente forma:

• COMIENZOS DE FRASE

Consideramos comienzos de frase:

- signos ortográficos: ¿, ¡, (, “ , «, seguidos de una palabra que empiece por letra

mayúscula.

- palabras que comiencen por letra mayúscula

y vayan antecedidos por un signo de final de frase o por nada (comienzo de texto).

• FINALES DE FRASE

Como delimitadores de frase utilizamos los signos de final de interrogación ( ? ),

exclamación ( ! ), puntos suspensivos ( ... ) y el punto siempre que no forme parte de

abreviaturas o nombres propios. En el caso de expresiones numéricas o de siglas se

estudia si el punto es final de frase o forma parte de la palabra.

El error cometido por no considerar finales de frase válidos las abreviaturas es del

0.066%, evaluado sobre 10544 frases.

Capítulo 5. Preprocesamiento

52

La determinación de las palabras que componen la frase se lleva a cabo en dos fases.

La primera utiliza como separador de palabras los espacios en blanco. La segunda fase

comprueba si el resultado de la primera separación contiene signos ortográficos. En

caso afirmativo, estudia si se trata de signos ambiguos (puntos, comas, guiones, puntos

suspensivos) o de signos de interrogación, exclamación, puntos y comas. En este último

caso el proceso termina con la separación palabra-signo, resultando dos unidades

independientes.

Los signos ortográficos ambiguos requieren un tratamiento más complejo. En

primer lugar hay que estudiar si se trata de signos de puntuación o forman parte de

expresiones numéricas (ej. 11.3 litros, 2,03 metros, 12.546,7 ), fechas (ej. día 21.09.92,

fecha 28.06.94, domingo 28.08.1994 ), siglas (ej. U.S.A, S.O.S, S.A ) o abreviaturas

(ej. pág., min., etc. ). Algunas de estas unidades pueden reconocerse por tener una

estructura regular, como es el caso de los números o las fechas.

Otro signo interesante es el de los puntos suspensivos. Dada la alta variabilidad con

que pueden venir representados, consideraremos puntos suspensivos secuencias de dos,

tres o más puntos seguidos, sin espacios en blanco entre sí. Una vez aislados, hay que

determinar si funcionan como limitadores de frases o como un signo ortográfico dentro

de la frase. Por ejemplo, en la frase:

funciona como limitador , mientras que en esta otra:

funciona como signo ortográfico dentro de la frase.

Algunas de sus funciones principales son [Castro 99]:

a) marcar interrupciones en un discurso: Y así seguimos hasta que... En fin, hasta

que ganamos.

La publicación del libro está prevista para el próximo verano, pero un «duende

de imprenta» acaba de filtrar a la prensa el más jugoso de sus capítulos: una

tórrida escena de amor entre una espía alemana y el jefe de personal de la Casa

Blanca...

Patalea, protesta... pero nada, no ha sido capaz de detener esta producción.

Capítulo 5. Preprocesamiento

53

b) Indicar una pausa que precede a una sorpresa para el lector: Y cuando llegó él,

apareció... ¡su esposa!

c) Expresar emoción, titubeo, expectación, etc.: Sí... claro... buf, qué horror.

d) Omitir datos que se creen conocidos por el lector dentro de una enumeración:

Son abundantes los topónimos árabes en América: Guadalupe, Guadalajara...

e) Sustituir palabras o fragmentos de palabras que el autor no quiere mencionar: El

maldito ... siempre estaba fastidiándonos.

Los puntos suspensivos pueden ir acompañados de otros signos, a excepción del

punto. Asimismo, si se cita un texto en el que se omiten algunos fragmentos, deberán

incluirse puntos suspensivos entre corchetes. Si una frase comienza por puntos

suspensivos porque se omite intencionadamente el comienzo, los puntos deben ir

seguidos de un espacio. La combinación de puntos suspensivos con etcétera es

redundante y debe evitarse.

Ejemplos

Un signo ortográfico especialmente importante en la segmentación del texto es el

guión. Este elemento puede desempeñar múltiples funciones; ser usado como paréntesis

(ej. “¿Es Navarra –como usted sostiene- «una nacionalidad» histórica?” o “La

decisión del presidente sudafricano –aunque esperada- suscitó ayer un enorme revuelo

en todo el espectro político del país.”), como continuador al final de una línea (en los

textos periodísticos con los que trabajamos no hemos encontrado ningún guión que

desempeñe esta función), para la formación de palabras compuestas (ej. físico-químico,

franco-alemanes, ex-cargo), siglas (ej. Tele-5, TV-3, PSE-PSOE ), abreviaturas (ej.

carretera N-III, m/s, km/h), fechas (ej. 31-12-88, 23-3-1992, 14-9-1980 ).

Las principales etnias negras —bantúes, masais, hutus...— llegaron después.

¿Debería divorciarme?...

¡No tires, me vas a romper la ...!

Sobre el siglo XVI [...] los flamencos [...] admitieron la superioridad comercial.

... a la orilla del mar, por fin.

Capítulo 5. Preprocesamiento

54

Para ilustrar el funcionamiento del bloque de segmentación, veamos un ejemplo:

• Texto de entrada:

El doctor Faraco merece felicitación pública. En esta España de tantas campañas

sanitarias, donde a todos nos quieren quitar del tabaco, nadie habla del mal ejemplo de

salud dental que dan muchos políticos, con la boca poco menos que cayéndoseles a

pedazos. Quizá como la odontología, salvo las extracciones dentarias, no está incluida

en la Seguridad Social, no quiere el Ministerio de Sanidad poner la miel en los labios

de lo que la mayoría de los españoles se tienen que pagar de su bolsillo o con cargo a

la iguala sanitaria privada, como es la siempre más que dolorosa factura del dentista.

Se ve que González, que antes no era precisamente ejemplo de higiene bucal, tiene la

dentadura mejor cuidada desde que Faraco es el encargado de la bodeguilla

estomatológica.

• Segmentación en frases:

Frase1. El doctor Faraco merece felicitación pública.

Frase2. En esta España de tantas campañas sanitarias, donde a todos nos quieren

quitar del tabaco, nadie habla del mal ejemplo de salud dental que dan

muchos políticos, con la boca poco menos que cayéndoseles a pedazos.

Frase3. Quizá como la odontología, salvo las extracciones dentarias, no está

incluida en la Seguridad Social, no quiere el Ministerio de Sanidad poner la

miel en los labios de lo que la mayoría de los españoles se tienen que pagar

de su bolsillo o con cargo a la iguala sanitaria privada, como es la siempre

más que dolorosa factura del dentista.

Frase 4. Se ve que González, que antes no era precisamente ejemplo de higiene bucal,

tiene la dentadura mejor cuidada desde que Faraco es el encargado de la

bodeguilla estomatológica.

Capítulo 5. Preprocesamiento

55

• División de las frases en palabras:

Frase: Según el ex gobernador, había dado órdenes a Manuel de la Concha

para que no invirtiera en bancos, ya que era incompatible con su condición de máximo

responsable del banco emisor.

Tras la división:

[Según] [el] [ex] [gobernador] [,] [había] [dado] [órdenes] [a] [Manuel]

[de] [la] [Concha] [para] [que] [no] [invirtiera] [en] [bancos] [,] [ya] [que]

[era] [incompatible] [con] [su] [condición] [de] [máximo] [responsable] [del]

[banco] [emisor] [.]

5.2 DETECCIÓN DE UNIDADES ESPECIALES

Tras delimitar la frase y las diferentes palabras que la componen, el siguiente

paso es detectar unidades que requieren un procesado especial: números, fechas, horas,

abreviaturas, nombres propios, números romanos, ... Esta tarea es necesaria para la

correcta y completa categorización de la frase y en definitiva para su correcta lectura.

Para que el sistema pueda detectar estas unidades especiales tiene que saber qué

es lo que debe reconocer. Por lo tanto, lo primero es definir cada uno de los casos a

reconocer.

5.2.1 DEFINICIÓN DE UNIDADES

• ABREVIATURAS

La abreviatura se forma de una sola letra o de una sola palabra y no se puede

pronunciar en la mayor parte de los casos: cta., cuenta; sta., señorita. Tienen flexión de

género: Sr., Sra., ntro., ntra., y de número; si están constituidas por una sola letra,

normalmente ésta se duplica para indicar el plural: de c.f., ff.cc. (ferrocarriles). Si la

abreviatura es de un tiempo verbal no admite forma plural; así, v. (véase o véanse).

Cuando la abreviatura termina en consonante, el plural se forma añadiendo el morfema

Capítulo 5. Preprocesamiento

56

–es: de gral., grales.; Sr., Sres. Aunque hay algunas excepciones: Ud., Uds.; pág.,

págs.; o vol., vols. Cuando la abreviatura termina en vocal, el plural se forma

añadiendole una –s: de Sra., Sras.; Itre., Itres. Las abreviaturas llevan punto y cuando

van seguidas van separadas por espacio: p. ej., (por ejemplo). Después del punto

admiten cualquier signo de puntuación, excepto otro punto.

Es imposible sujetar a números y reglas fijas y constantes las abreviaturas, habiendo

libertad para convenir en cuantas sean necesarias y oportunas. No obstante, la

costumbre si ha consagrado algunas abreviaturas de uso común, incluidas en una lista

por la Real Academia Española en el Esbozo de una nueva gramática de la lengua

española.

De acuerdo con la Academia y con todos los lingüistas, las abreviaturas terminan en

punto y tienen flexiones de género y número. Sin embargo, algunas abreviaturas

aprobadas en 1949 por la asamblea general de la Unión Internacional de Física son

consideradas como símbolos, cuando se trata de medidas del sistema métrico decimal;

se escriben sin punto y son invariables, es decir van siempre en singular: cl

(centilitro/s), cm (centímetro/s). Con los símbolos es imposible la regla de empezar con

mayúscula la primera letra después de punto. Por ejemplo, dl es abreviatura de decilitro;

si hubiéramos puesto Dl, esta no sería la abreviatura de decilitro, sino la de decalitro.

Es importante observar que mientras que las abreviaturas que tratamos en este texto,

pertenecen a la lengua española, los símbolos del sistema métrico son una convención

internacional y su grafía es, por lo tanto, la misma en todas las lenguas que utilicen el

alfabeto latino.

La Real Academia no establece la diferencia entre las abreviaturas y los símbolos.

La lista se titula Abreviaturas que más comúnmente se usan en castellano; a pesar de

ello, faltan símbolos tan comúnmente usados como km (kilómetro); figura el símbolo m.

(minuto/s), en cambio no figura el de hora ni el de metro. Desconocemos cuál es el

criterio de la Academia con respecto a c.c. (centímetro/s cúbico/s), en lugar de c c; y

algo semejante ocurre con pta. (peseta), que en la lista anterior tiene dos plurales: ptas.,

pts. (pesetas). El símbolo pta (peseta/s) forma parte del sistema métrico decimal, y así

es reconocido internacionalmente, no es necesario el punto ni la forma plural, ya que

suele ir precedido por un número [EFE 99].

De acuerdo con lo expuesto anteriormente, para la detección de la abreviaturas, el

sistema comprueba que se trata de palabras terminadas en punto, no escritas

Capítulo 5. Preprocesamiento

57

completamente en mayúsculas y seguidas de una palabra escrita en minúsculas. Se

admiten tres posibles formatos:

- palabras escritas en minúsculas y terminadas en punto. Ejemplos: min., ej., etc.

- palabras cuya primera letra es mayúscula, el resto son minúsculas y acaban en

punto. Ejemplos: Pág., Sr., Cap..

- letra + punto + letra. Ejemplos: a.m, V.O, c.c.

Posteriormente un módulo se encarga de su expansión.

• SIGLAS

Las siglas, al igual que las abreviaturas, se reconocen vía expresión regular. Se

distinguen tres casos:

- palabras de entre dos y cinco letras escritas en mayúsculas. Ejemplos: PP, ETA,

PSOE. La decisión de limitar el tamaño de las siglas de dos a cinco letras se

debe a que palabras de una letra y de más de cinco no son fiables1.

- palabras con el formato “mayúscula + punto “. Ejemplos: U.S.A, C.E.E, S.A.

- palabras de la forma “mayúscula + número”. Ejemplos: U2, C15, CD4.

Para el caso de las siglas se reduce la variabilidad tipográfica admitiendo un único

formato (palabra con todas sus letras en mayúsculas) con el propósito de facilitar su

tratamiento posterior. En el mismo proceso de reconocimiento se quitan los puntos, en

el caso de que los tengan. Así, si en el texto de entrada aparece U.S.A, se convierte en

USA. Posteriormente un módulo se encarga de su expansión, al igual que en el caso de

las abreviaturas.

• NÚMEROS

Conjuntos de dígitos que responden a una de las siguientes estructuras:

- uno o más dígitos del 0 al 9. Ejemplos: 25, 795, 3204.

- uno o más dígitos del 0 al 9 seguidos por una coma y uno o más dígitos del 0 al 9

(formato decimal español). Ejemplos: 2,06, 87,3, 52,270.

- Grupos de tres dígitos del 0 al 9 separados por puntos. El primer grupo puede

constar de 1, 2 ó 3 dígitos. El punto se utiliza para indicar unidades, decenas,

1 En el apartado 5.2.4 de este Capítulo se justifica esta decisión.

Capítulo 5. Preprocesamiento

58

centenas de mil, de millar ... El último grupo puede ir seguido de una coma y uno o

más dígitos del 0 al 9. Ejemplos: 1.200, 360.000, 40.020.

Los dos últimos formatos coinciden con lo expuesto por en [Oroz 99] sobre la forma

de escribir los números. En los números, la coma se utiliza solamente para separar la

parte entera de la parte decimal. Para facilitar la lectura, los números pueden estar

divididos en grupos de tres cifras (a partir de la coma, si hay alguna): estos grupos no se

separan jamás por puntos ni comas. La separación en grupos no se utiliza para los

números de cuatro cifras que designan un año.

Además hemos aceptado dentro de este grupo número cuyo primer dígito es una l,

ya que hemos observado que algunos autores utilizan dicha letra en lugar del 1 (error

tipográfico). Ejemplos: el l2 de junio, (l927-l936), año l939.

• FECHAS

Conjuntos de números que presentan uno de los siguientes formatos:

- día-mes-año o día/mes/año: número del 1 al 31 + (-, /) + número del 1 al 12 + (-. /)

+ grupo de 1 a 4 dígitos del 0 al 9. Ejemplos: 21-02-94, 21-06-94, 26/7/94.

- día.mes.año: número del 1 al 31 + . + número del 1 al 12 + . + grupo de 1 a 4 dígitos

del 0 al 9. En un principio no considerábamos este formato pero durante la fase de

entrenamiento decidimos incluirlo. Ejemplos: 28.12.94, 24.11.1994, 04.12.84.

- día-mes o día/mes: el formato es el mismo que el anterior suprimiendo la parte

correspondiente al año (el grupo final de dígitos). No hemos encontrado ningún caso

con este formato.

- Mismo formato que los anteriores pero con el mes escrito con números romanos.

Ejemplos: 31-XII-1987, 18-II-1995, 9-I-1990.

- Mismo formato que los anteriores pero el mes aparece escrito con letras. En este

caso se comprobará que la palabra se corresponde con un mes (enero, febrero...

diciembre). Ejemplos: 1-marzo-1995, 7-enero-1995, 25-noviembre-1991.

El orden normal en nuestro idioma es día + mes + año, tanto si se escribe todo con

letras como si se combina números y letras, o sólo números. En países donde coexistan

varios formatos de hora o donde la influencia de otro idioma sea grande, puede ser

Capítulo 5. Preprocesamiento

59

recomendable escribir los meses en números romanos. Los nombres de los meses –igual

que los de las estaciones y los días de la semana- se escriben en minúsculas [Castro 99].

• HORAS

Dos o tres grupos de dígitos separados por dos puntos (:) con la siguiente

estructura:

- hora : minuto : segundo. Número del 0 al 23 + : + número del 0 al 59 + : + número

del 0 al 59. Ejemplos: 11:24:54, 1:13:10, 12:38:35.

- hora : minuto. Número del 0 al 23 + : + número del 0 al 59. Ejemplos: 19:30,

21:38, 12:51.

- Khora.minuto. K + número del 0 al 23 + . + número del 0 al 59. Ejemplos:

K22.00 h., K23.30 h., K13.00 h. Este formato horario aparece en los artículos de

Televisión para indicar la hora y cadena de emisión de un determinado programa,

por ejemplo: El programa de Cousteau también muestra imágenes insólitas de la

isla. K22.00 h. La 2¶, En el espacio también se ofrece una entrevista con la actriz

Rosa María Sardá y el director Fernando Colomo. K22.30 h. A 3¶.

En algunos países hispanohablantes se emplea el sistema estadounidense (p.m y

a.m) y, en otros, el sistema de veinticuatro horas. En cualquier caso, las horas no pueden

separarse con comas, pues no son cifras decimales sino sexagesimales. El iso emplea

los dos puntos para separar las horas y este es el criterio adoptado por nosotros.

• NÚMEROS ROMANOS

Determinadas combinaciones de las siguientes letras escritas en mayúsculas: I, V,

X, L, C, D y M. Ejemplos: siglo XIX , II Guerra Mundial, IV Asamblea Federal. El

detector comprueba que sea una combinación válida, así VV ó LMX no serían

considerados números romanos.

• NOMBRES PROPIOS

Palabras que empiecen por mayúscula y las demás letras sean minúsculas.

Ejemplos: España, Rodríguez, Cristina.

Cuando un nombre propio aparece al comienzo de una frase, si no está en alguno de

los diccionarios de nombres propios no se considera como tal. El error cometido por

esta decisión es del 2.7%, evaluado sobre 10544 frases.

Capítulo 5. Preprocesamiento

60

• COMPUESTOS

Distinguimos los siguientes casos:

1. Nombres propios

Grupos de dos o más palabras que se caracterizan porque cada una de ellas

comienza por mayúscula y las demás letras son minúsculas. Ejemplos: El Corte Inglés,

Semana Santa, Ramón Mendoza.

2. Nombres propios con abreviatura

Igual que el caso anterior pero al menos una de las palabras que forman el

compuesto es de la forma “mayúscula + punto”. Ejemplos: Luis R. Manzanares, César

V.A, O. Menocal.

3. Compuestos con de/del

Grupos de tres o más palabras entre las que aparece la partícula “de” o “del”. Se

contemplan dos casos:

- Una o más palabras cuya primera letra es mayúscula y las restantes son minúsculas

+ de/del + palabras que empiecen por mayúscula y las demás letras sean minúsculas.

Ejemplos: Ministerio del Interior, Instituto Nacional de Estadística, Comunidad de

Madrid.

- Una o más palabras cuya primera letra es mayúscula y las demás son minúsculas +

de + la/los/las + una o más palabras que comienzan por mayúscula. Ejemplos:

Congreso de los Diputados, Ricardo de la Cierva, Instituto Nacional de la

Seguridad Social.

4. Compuestos con guión

Grupos de dos o más palabras que se caracterizan por estar unidas por un guión y

empezar por letra mayúscula. Ejemplos: Díaz-Ambrona, Ruíz-Giménez, Castilla-León.

• FIRMAS DE AUTORES

Nombres propios escritos en mayúsculas. Se distinguen dos casos:

1. Sin abreviatura

Ejemplos: ANTONIO GARCIA-TREVIJANO, ANTONIO JIMENEZ ALVAREZ,

JUAN DELIBES.

Capítulo 5. Preprocesamiento

61

2. Con abreviatura

Ejemplos: LUIS G . CAVIEDES, P.BLASCO/B.MUÑOZ, F.BERMEJO.

Estos nombres corresponden a artículos firmados por parte de sus autores. Veamos

dos ejemplos concretos:

Ejemplo1

Ejemplo 2

• TITULOS

Palabras escritas en mayúsculas que dan nombre al artículo. Distinguimos dos casos:

- Una o varias palabras escritas en mayúsculas + . + -. Ejemplos: DESPILFARRO.-,

LONDRES.-, PROPIEDADES EN ESPAÑA . -.

- Grupos de palabras escritos en mayúsculas cuya primera palabra no es un nombre

propio. Ejemplos: LA FISCAL SIN PIEDAD, TENIS PALERMO, BASTIONES DE

PODER.

A continuación figuran dos ejemplos para clarificar más a lo que nos estamos

refiriendo:

La burla sardónica de González¶Sr. Director:¶Tras recibir a los señores Carlos Lage y José Luis Rodríguez,enviados de Castro, el señor don Felipe González, presidente [...]¿O es que no interesa la libertad de Cuba? ¿Será, tal vez,éste el quid de la cuestión?¶OFELIA G. MENOCAL ¶

Se suele decir que a los italianos les faltael valor en la guerra y les sobra el talento en la política.[...]Y si lo abandona, en favor de la fórmula políticaBerlusconi, empezará en Italia el conflicto social que amenazael retorno al Estado liberal.¶ANTONIO GARCIA-TREVIJANO es abogado y escritor.¶

Capítulo 5. Preprocesamiento

62

Ejemplo 1

Ejemplo 2

• COMBINACIONES DE LETRAS, NÚMEROS, NÚMEROS ROMANOS Y

GUIONES

Los casos contemplados son los siguientes:

- Mayúscula + - + número. Ejemplos: A-3, F-18, M-30.

- Mayúscula + / + número. Ejemplos: A/310, K/5104 .

- Mayúscula + - + número romano. Ejemplos: N-VI, N-III .

- Letra + - + palabra. Ejemplos: e-mail, T-shirt, M-Technic.

- letra + / + palabra. Ejemplos: y/o, c/Gabelas, B/C.

• GUIONES ( -, / )

Los guiones encontrados en el texto cumplen las siguientes funciones:

- Formación de palabras compuestas. Ejemplos: contencioso-administrativo,

hombre-máquina, castellano-manchego.

- Siglas. Ejemplos: A3-TV, SOMA-FIE-UGT, TV-3.

- Abreviaturas. Ejemplos: kg./cm2, km/hora, pts./metro.

- Expresar género y número. Ejemplos: querido/a, los/las, lectores/as.

TEXTO : El Príncipe Eduardo de Inglaterra se casaráen julio¶LONDRES.- El Príncipe Eduardo, hijo menor de la Reina deInglaterra, se casará a finales del próximo mes de julioo a principios de agosto, según la prensa británica, queasegura que los preparativos para el enlace se encuentranmuy avanzados.

No parece que los guerristasvayan a consentir la maniobra, ni que quieran perder unade sus todavía plazas fuertes.¶BASTIONES DE PODER En Canarias, tras la pérdida delGobiernoa manos de la coalición nacionalista, Jerónimo Saavedrarecibió el premio de un Ministerio.

Capítulo 5. Preprocesamiento

63

- Paréntesis. Ejemplos: Rocha –según declaración de otra de las inculpadas- había

ingresado dos días antes del 28 de septiembre la cantidad de 243.000 pesos”, “ Los

gatos –blancos o negros- siguen relamiéndose.

• GUIONES DOBLES ( -- )

Expresiones o frases en las que aparezcan dos guiones seguidos. Ejemplos: Dos

años de AVE--Se cumplen dos años de AVE, que es lo único que queda de [...],

BERLIN.- El Bundestag -Parlamento alemán-- aprobó ayer por tan sólo 7 votos de

ventaja la controvertida ley [...].

• PALABRAS SIN VOCALES

Palabras que no contienen ninguna vocal, tanto acentuada como sin acentuar.

Ejemplos: m2, SPf66, Cds.

• %, #, &, @, $

Ejemplos:

- 60%, 2,25% .

- #El Ecofín no sabe cómo financiar la red de infraestructuras¶

- rock & rol, AT&T, Plaza & Janés.

- [email protected], tó[email protected].

- Gil $¶

Andrijasevic $$$¶

Gudelj $$¶

Cambios: J.Aguirre por Vicente en el min.77 $¶

Salva por Ratkovic en el min.86 $¶

El signo & es una duda común entre los profesionales que trabajan con el idioma.

Su nombre es español es et, pues es una deformación gráfica del vocablo latino er. En

inglés se denomina ampersand, como deformación de and per se and. Se pronuncia Y,

pues a tal conjunción sustituye. No es cierto que sea un símbolo inglés, ya que del latín

pasó a muchos idiomas, incluido el español, aunque su uso en nuestra lengua es

superfluo pues no resulta económico (a diferencia de otros idiomas) ya que la

conjunción Y tiene una grafía breve y sencilla. Según Buonocore, «la traducción del

Capítulo 5. Preprocesamiento

64

signo & es y, and, et, und, etc., según el idioma sea el español, inglés, francés [o latín] o

alemán». En textos españoles antiguos pueden hallarse la forma &c o & cétera

[Castro 99].

• PALABRAS CON CARACTERES ESPECIALES ( ¨, ‘ , ç, ^)

Ejemplos:

- Citroën, Tannhäuser, Maitre.

- Ornella d`Orazzi, L`Oreal, Fouquet`s.

- Barça, força, François.

- Château, tête, Côte-d»Or.

5.2.2 EL DETECTOR DE UNIDADES ESPECIALES

El módulo encargado del reconocimiento de las unidades definidas en el

apartado anterior recibe como entrada una frase donde las palabras y signos ortográficos

están claramente definidos, es decir, la salida del módulo de segmentación. El detector

de unidades especiales va recorriendo la frase, palabra por palabra, comprobando si se

ajustan a alguna de las definiciones anteriores. Cada palabra lleva asociado un código o

rasgo; se trata de un conjunto de 64 bytes, aunque nosotros solo utilizamos 32, para

indicar si se trata de una unidad especial o no, y en caso afirmativo, de qué unidad

concreta se trata. Por ejemplo, una abreviatura tendrá un ‘1’ en el byte 1, mientras que

una hora tendrá un ‘1’ en el byte 31.

Algunos de estos rasgos no son excluyentes entre sí; así una palabra puede ser

número romano y fin de frase, por ejemplo XXI :

o comienzo de frase y abreviatura (bytes 0 y 1 a ‘1’), por ejemplo Pág.:

Personajes del mundo de la política y de las artes acudieron a esta cita, que

desbordó todas las previsiones de los responsables del Club Siglo XXI.

Nirvana era uno de los grupos de rock más representativos de los años 90.

Pág. 81¶

Capítulo 5. Preprocesamiento

65

Si la palabra analizada no se corresponde con ninguna unidad especial, tendrá un

‘0’ en todos los bytes de su rasgo. De manera que leyendo este campo se puede saber si

se trata de una unidad especial o de una palabra normal, y distinguir el tipo de unidad

especial en cuestión.

Nuestro detector de unidades se implementa como un autómata finito

reconocedor de secuencias regulares, libres de errores tipográficos. Para realizar su tarea

cuenta con la ayuda de un conjunto de diccionarios2, tanto generales como específicos

(siglas, abreviaturas, nombres, etc.).

La categorización de las unidades especiales se realiza según se van

reconociendo. En consecuencia, el detector realiza una doble labor: identificar las

unidades especiales que hay en la frase, y una vez detectadas, les asigna la categoría

gramatical correspondiente. Además existe un fichero de depuración para cada unidad

especial con su mismo nombre. Cuando el detector reconoce una abreviatura, por

ejemplo, la marca con el rasgo NUM_RASGO_ABREVIATURA, es decir, pone a ‘1’

el byte 1 y la escribe en el fichero abreviaturas.dep.

5.2.3 LOS RASGOS

En un principio definimos 29 rasgos (bytes 0-28). Sin embargo, durante el

proceso de entrenamiento decidimos variar el conjunto inicial introduciendo nuevos

rasgos y cambiando otros ya existentes. La Tabla 5.1 muestra el conjunto inicial de

rasgos.

Los rasgos cambiados fueron:

- NUM_RASGO_SIGLA12. Este rasgo desapareció debido a que decidimos no

considerar como siglas aquellas palabras de una sola letra mayúscula, y las de dos

letras las agrupamos dentro del rasgo NUM_RASGO_SIGLA.

- NUM_RASGO_SIGLA_DUDA.

Por otra parte, definimos 5 nuevos rasgos:

- NUM_RASGO_COMPUESTO860: Compuestos cuya primera palabra en un

nombre propio.

2 Ver Capítulo 6.

Capítulo 5. Preprocesamiento

66

- NUM_RASGO_COMPUESTO_DUDA: Compuestos cuya primera palabra es

desconocida para el sistema o es una forma verbal.

- NUM_RASGO_COMP_ABREVIA_M: Nombres propios con abreviatura escritos

en mayúsculas.

- NUM_RASGO_SIGNO_ESPECIAL: %, #, &, @, $ y palabras que contienen

alguno de los siguientes signos: ¨, ‘, `, ^, ç.

- NUM_RASGO_LETRA: Letras mayúsculas y minúsculas seguidas de un ‘)’o un

punto.

El conjunto final consta de 32 rasgos (bytes 0-31) y se muestra en la Tabla 5.2.

RASGO NÚMERO RASGO NÚMERO

NUM_RASGO_COMIENZO 0 NUM_RASGO_NUMERO 14

NUM_RASGO_ABREVIATURA 1 NUM_RASGO_NUMERO_ERROR 15

NUM_RASGO_ABREVIA_DUDA 2 NUM_RASGO_NUMERO_GUION 16

NUM_RASGO_SIGLAOK 3 NUM_RASGO_TITULO 17

NUM_RASGO_SIGLA12 4 NUM_RASGO_FIRMA 18

NUM_RASGO_SIGLA 5 NUM_RASGO_FIRMA_DUDA 19

NUM_RASGO_PROPIOS 6 NUM_RASGO_ESPECIAL 20

NUM_RASGO_PROPIOS_DUDA 7 NUM_RASGO_HORA 21

NUM_RASGO_COMPUESTO 8 NUM_RASGO_NO_HORA 22

NUM_RASGO_COMPUESTO_D 9 NUM_RASGO_FECHA 23

NUM_RASGO_COMP_ABREVIA 10 NUM_RASGO_FECHA_LETRA 24

NUM_RASGO_GUION 11 NUM_RASGO_NO_FECHA 25

NUM_RASGO_ROMANO 12 NUM_RASGO_LNUMERO 26

NUM_RASGO_ROMANO_DUDA 13

Tabla 5.1. Rasgos iniciales para la caracterización de las unidades especiales

Capítulo 5. Preprocesamiento

67

RASGO NÚMERO RASGO NÚMERO

NUM_RASGO_COMIENZO 0 NUM_RASGO_NUMERO 16

NUM_RASGO_ABREVIATURA 1 NUM_RASGO_NUMERO_ERROR 17

NUM_RASGO_ABREVIA_DUDA 2 NUM_RASGO_NUMERO_GUION 18

NUM_RASGO_SIGLAOK 3 NUM_RASGO_TITULO 19

NUM_RASGO_SIGLA 4 NUM_RASGO_FIRMA 20

NUM_RASGO_PROPIOS 5 NUM_RASGO_FIRMA_DUDA 21

NUM_RASGO_PROPIOS_DUDA 6 NUM_RASGO_ESPECIAL 22

NUM_RASGO_COMPUESTO860 7 NUM_RASGO_HORA 23

NUM_RASGO_COMPUESTO 8 NUM_RASGO_NO_HORA 24

NUM_RASGO_COMP_DUDA 9 NUM_RASGO_FECHA 25

NUM_RASGO_COMPUESTO_D 10 NUM_RASGO_FECHA_LETRA 26

NUM_RASGO_COMP_ABREVIA 11 NUM_RASGO_NO_FECHA 27

NUM_RASGO_COMP_ABREVIA_M

12 NUM_RASGO_SIGNO_ESPECIAL 28

NUM_RASGO_GUION 13 NUM_RASGO_SIN_VOCALES 29

NUM_RASGO_ROMANO 14 NUM_RASGO_LETRA 30

NUM_RASGO_ROMANO_DUDA 15 NUM_RASGO_LNUMERO 31

Tabla 5.2. Rasgos finales empleados para la caracterización de unidades especiales

5.2.4 FICHEROS DE DEPURACIÓN

Cada unidad especial reconocida por el detector se escribe en un fichero de

depuración de manera que posteriormente se pueda evaluar el porcentaje de acierto del

detector. También permiten sacar diccionarios específicos, por ejemplo, de siglas o

nombres propios o completar los ya existentes.

Hay 46 ficheros de depuración, ya que muchas unidades llevan asociados dos

ficheros, por ejemplo para el caso de las horas, las que se ajustan a alguno de los

formatos válidos se escriben en el fichero horas.dep y las que no en dos_puntos.dep.

Lo mismo ocurre para los números, los números romanos y las fechas.

Por otra parte, para los nombres propios también existen dos ficheros:

propios.dep, cuando se encuentra en alguno de los diccionarios de nombres propios, y

propios_duda.dep para los candidatos a nombres propios, aquellas palabras que

Capítulo 5. Preprocesamiento

68

cumplen la definición de nombre propio pero no se encuentran en ninguno de los

diccionarios de nombres propios. En este segundo grupo tenemos, además de los

nombres propios, las firmas y las abreviaturas.

Las siglas y los compuestos forman un caso especial ya que hay 5 ficheros de

depuración para acrónimos: siglas2.dep, siglas_números.dep, siglas_ok.dep,

siglas.dep y siglas_duda.dep, y 6 para los compuestos: compuestos860.dep,

compuestos.dep, compuestos_duda.dep, compuestos_d.dep, comp_abrevia.dep y

comp_abrevia_M.dep.

Además los comienzos y finales de frase, los verbos y las formas verbales con

pronombre enclítico también tienen su correspondiente fichero de depuración. Todas las

unidades especiales detectadas, así como el número de artículos, frases, palabras

procesadas se resumen en el fichero resultados.dep.

La Tabla 5.3 presenta los ficheros de depuración existentes así como la unidad

especial a la que se asocian.

• COMIENZOS

En este fichero se escriben todos los comienzos de frase. Hemos hecho un

estudio de qué palabras para saber cuáles son las más habituales.

Si analizamos los textos del periódico EL MUNDO, los comienzos de frase que

más se repiten son 3:

- « (1.93 %)

- Según (0.71 %)

- ¿ (0.59 %)

- P (0.38 %)

- R (0.35 %)

- # (0.27 %)

P y R son, respectivamente, las abreviaturas de Pregunta y Respuesta, utilizadas en

los artículos de entrevista. El símbolo # se utiliza para indicar el comienzo de título de

un artículo, por ejemplo: #Elecciones: los deseos y la realidad¶.

3 Datos correspondientes a los comienzos de frase de un año.

Capítulo 5. Preprocesamiento

69

Fichero de depuración Unidad especial Fichero de depuración Unidad especial

Abreviaturas Abreviaturas Propios_duda Nombres propios

Abrevia_duda Abreviaturas Compuestos860 Nombres propios

Siglas1 Siglas Compuestos Compuestos

Siglas2 Siglas Compuestos_duda Compuestos

Siglas_numeros Siglas Compuestos_d Compuestos

Siglas_ok Siglas Comp_abrevia Compuestos de/del

Siglas Siglas Comp_abrevia_M Compuestos conabreviatura

Siglas_duda Siglas Guiones Guiones

Letras Letras Guiones_dobles Guiones_dobles

Casos_especiales Combinaciones deletras, números y

guiones

Palabras_conSigno Palabras concaracteres especiales

( ¨, ‘ , ç, ^) Numeros Números Firmas Firmas con

abreviatura Lnumero Números Firmas_duda Firmas de autores

Numeros_error Números Títulos Títulos

Numeros_guion Números Signos_especiales %, #, &, @, $

Romanos Números romanos Sin_vocales Palabras sin vocales

Romanos_duda Números romanos Comienzos -

Fechas Fechas Finales -

Fechas_letra Fechas Verbos -

No_fechas Fechas Encliticos -

Horas Horas Verbos_conPrefijo -

Horas_k Horas Palabras_conPrefijo -

Dos_puntos Horas Erratas -

Propios Nombres propios Resultados -

Tabla 5.3. Ficheros de depuración

Capítulo 5. Preprocesamiento

70

Dentro de las palabras, sin considerar los signos de puntuación, tenemos:

- Según (0.71 %)

- Pese (0.22 %)

- Esta (0.19 %)

- Este (0.16 %)

- Así (0.15 %)

En cuanto a los textos860 los comienzos de frase más frecuentes son:

- La (10.38 %)

- El (7.48 %)

- En (4.97 %)

- Los (4.42 %)

- Las (2.78 %)

Dentro de los signos de puntuación, los que aparecen con mayor frecuencia son:

- ( (0.56 %)

- ¿ (0.56 %)

- - (0.40 %)

- “ (0.30 %)

En este tipo de textos los signos de puntuación son menos frecuentes al

comienzo de frase que en los textos periodísticos de EL MUNDO, aunque el signo ‘¿’

aparece en ambos. Por el contrario, si nos referimos a las palabras, en los textos860 se

repiten más los comienzos de frase, mientras que en EL MUNDO hay más variedad, lo

cual parece lógico puesto que los primeros son textos sobre temas específicos; sin

embargo los artículos de EL MUNDO tratan temas de todo tipo.

Desde el punto de vista morfológico podemos decir que los comienzos de frase

más habituales son, por este orden: artículos (26.46%), sustantivos (14.94%) y

preposiciones (13.36%). Mientras que abreviaturas (0 %), siglas (0.37 %) y números

romanos (0.83 %) son los menos frecuentes.

La siguiente Tabla presenta todos los resultados obtenidos, en %, sobre un total

de 10544 frases.

Capítulo 5. Preprocesamiento

71

Signos puntuación 1.45 Adjetivos 5.01

Sustantivos 14.94 Verbos 8.23

Nombres propios 2.70 Adverbios 7.62

Artículos 26.46 Números 8.55

Pronombres 3.30 Números romanos 0.83

Preposiciones 13.36 Siglas 0.37

Conjunciones 4.41 Abreviaturas 0

Tabla 5.4. Distribución de comienzos de frase desde el punto de vista morfológico.

Signos de puntuación

“ ¿ ¡ (, {, [

20.92 38.56 1.96 38.56

Tabla 5.5. Distribución de los signos de puntuación que son comienzos de frase. Porcentaje sobre el total de signos de puntuación encontrados.

• FINALES

En este fichero se escriben las palabras que acompañan a los terminadores de

frase; por ejemplo, si la frase acaba en punto, se escribe la palabra anterior al punto. Al

igual que en el caso de los comienzos, hemos hecho un estudio de los finales de frase

que se repiten con mayor frecuencia.

Si analizamos los textos del periódico EL MUNDO, los finales de frase que

más se repiten son 4:

- » (1.02 %)

- ) (0.70 %)

- nada (0.59 %)

- Madrid (0.54 %)

- París (0.53 %)

4 Datos correspondientes a los finales de frase de un año.

Capítulo 5. Preprocesamiento

72

Aparentemente existe una contradicción entre el número de ‘«’ (apertura) y ‘»’

(cierre), sin embargo los datos son correctos ya que, algunas veces ‘«’ es comienzo de

frase pero ’»’ no es fin de frase. Por ejemplo: ... para incentivar la imposición de

multas. «Dinero negro», en definitiva.

En cuanto a los textos860 los finales de frase más frecuentes son:

- ) (4.13 %)

- 1 (3.82 %)

- 2 (2.67 %)

- 3 (1.55 %)

- Comunidad (1.46 %)

Considerando únicamente palabras:

- Comunidad (1.46 %)

- Miembros (1.18 %)

- Comisión (0.72 %)

- Europeas (0.60 %)

- años (0.45 %)

Como vemos el paréntesis (cierre) aparece en ambos casos y también debemos

destacar la frecuente aparición de nombres propios finalizando frases.

Desde el punto de vista morfológico podemos decir que los finales de frase más

frecuentes son: sustantivos (38.19 %), números (17.58 %) y nombres propios (6.8 %).

Por el contrario, artículos (0 %), conjunciones (0.019 %) y preposiciones (0.028 %) son

los menos frecuentes.

La siguiente Tabla presenta todos los resultados obtenidos, en %, sobre un total de

10544 frases.

Capítulo 5. Preprocesamiento

73

Sustantivos 38.19 Siglas 1.66

Números 17.58 Números romanos 1.24

Nombres propios 6.80 Pronombres 0.73

Verbos 5.87 Abreviaturas 0.07

Signos de puntuación 5.36 Conjunciones 0.02

Adjetivos 2.05 Artículos 0

Tabla 5.6. Distribución de finales de frase desde el punto de vista morfológico.

La Tabla 5.7 muestra la distribución de los signos de puntuación finales de frase

encontrados en los textos860.

Signos de puntuación

“ ? ! ), }, ]

13.45 8.67 0.53 77.34

Tabla 5.7. Distribución de los signos de puntuación finales de frase. Porcentaje sobre el total de signos de puntuación encontrados.

• ABREVIATURAS

Este fichero contiene las abreviaturas que aparecen en el texto procesado y que se

encuentran en el diccionario de abreviaturas. Ejemplos: etc., km/h, seg.

• ABREVIA_DUDA

Palabras que cumplen la definición de abreviatura y que no se encuentran en el

diccionario de abreviaturas. Este fichero nos ha permitido ampliar nuestro diccionario

de abreviaturas con otras que no teníamos: a.m, c.c, ms, p.p, upm, v.gr, www.

• SIGLAS1

Contiene todos los monosílabos escritos en mayúscula que aparecen en el texto.

Dada la alta tasa de error de este fichero decidimos considerar siglas aquellas palabras

escritas en mayúsculas que tuvieran como mínimo dos letras.

Capítulo 5. Preprocesamiento

74

La siguiente Tabla muestra los monosílabos encontrados en este fichero y su

distribución en %:

A 41.64 H 0.16 P 10.00 U 0.08

B 0.93 J 0.47 Q 0.03 W 0.04

E 1.19 K 0.21 R 9.63 Y 25.49

F 0.39 N 0.35 S 0.32 Z 0.10

G 0.34 O 8.32 T 0.30

Tabla 5.8. Distribución de los monosílabos encontrados en “Siglas1.dep” (%).

La aparición de dichas palabras en el texto puede agruparse en los siguientes casos:

- comienzos de frase. Las palabras que cumplen esta función son: A, E, O, P e Y.

Ejemplos: A pesar de que dos de cada tres personas en el Reino Unido ...”, “ Y que

suene, por fin, la hora de la verdad.¶.

- expresiones numéricas: 150 A y 150 B, 2º B, Inta-300 B.

- letras: apartado A, proteínas G, Ediciones Z, Athletic B.

- nombres propios extranjeros: O` Neal, O»Brien, AT&T Corporation. La versión

actual del programa no separa los nombres con apóstrofe sino que los trata como

una unidad.

- letras: T de trabajo, K de kilómetro, con P mayúscula.

- entrevistas: P.- ¿Cómo accedió a la contratación con Osakidetza si tenía deudas

con Hacienda?¶

R.- Creo recordar que la empresa en el año 90 tenía una deuda con la Hacienda

vasca de aproximadamente 8.500 pesetas. ¶.

- títulos: La francesa Dyane Kurys vuelve a sus historias de amistad femenina en A

la folie, Concluyó elogiando el periodismo americano al modo en que Capote lo

había reactivado en A sangre fría.

- fechas: 27 E, 23 F, 12 J.

- expresiones extranjeras: “If I ever loose my faith in you de Sting”, Get A Grip , “A

whole new world de la películo Aladdin”.

- comienzo de títulos de los artículos: ”N Televisión regional unida en consorcio con

otras televisiones autonómicas/regionales.”, “ K Comienza el juicio por corrupción

contra el ex ministro italiano de Exteriores Gianni de Michelis¶”.

Capítulo 5. Preprocesamiento

75

- errores tipográficos: “E l hecho de que Luis Mazzantini enamorase...”, “ S e hacen

llamar las «Chicas de la Abstinencia».

• SIGLAS2

Palabras bisílabas escritas en mayúsculas. A partir de este fichero formamos un

diccionario de siglas de dos letras: “Siglas2.ord”.

• SIGLAS_OK

Palabras que se ajustan a la definición de siglas y tienen uno de los siguientes

formatos:

- Mayúscula + . + Mayúscula. Ejemplo: U.S.A

- Mayúsculas + . + Mayúscula. Ejemplo: CC.OO

Los errores encontrados en este fichero se pueden dividir en varios grupos:

- Mayúscula + . + nombre propio: A.Martín, M.SEGOVIA.

- Mayúscula + . + número: A.4, A.000, U.60. Para las siglas con números hemos

creado otro fichero de depuración: “Siglas_números.dep”.

- P, R + . + - + Mayúscula: R.-Su importancia es vital., P.-En consecuencia nada

de federalismo.¶

- P, R + . + - + ¿ + Mayúscula: P.-¿Debe hacer las maletas Scalfaro, como dicen los

«liguistas»?¶

• SIGLAS

Palabras que tienen de 3 a 5 letras, cumplen la definición de siglas y se encuentran

en el diccionario de siglas o en ningún diccionario. La decisión de limitar el tamaño de

letras de las siglas fue tomada tras analizar este fichero de depuración. Sin restricción de

tamaño, el error cometido era del 26.9 %. Limitando el tamaño máximo a 5 letras el

error era de 2.23 % , lo que significa una reducción del error del 91.45 %.

En este caso sólo evaluamos las siglas no encontradas en ningún diccionario. A

partir de este fichero hemos sacado un diccionario de siglas: "SiglasEM.ord" .

• SIGLAS_DUDA

Palabras de 3 a 5 letras que cumplen la definición de siglas y se encuentran en algún

diccionario exceptuando el de siglas. Este fichero de depuración junto con el de

Capítulo 5. Preprocesamiento

76

Siglas.dep nos ha servido para ampliar nuestros diccionarios de siglas con un nuevo

diccionario: “SiglasEM.ord” .

• SIGLAS_NÚMEROS

Palabras de la forma: mayúsculas + números.

Los casos encontrados se pueden agrupar de la siguiente forma:

- cadenas de televisión: A3, TV3, TVE1.

- modelos de automóviles y aviones: Audi A6, Porsche C32, aviones de transporte

C212 .

- categorias y clases deportivas: categoría GT2, clase W60.

- grupos musicales y sinfonías: U2, UB40, Requiem en re menor K.626 de Mozart.

- Miscelánea que va desde tipos de folios e impresos (DIN A4, impreso F1) hasta

servicios secretos (servicios secretos del MI5 Y MI6 ), pasando por conceptos

relacionados con la medicina y la biología (El gen es el denominado B7, proteínas

humanas de «bandera blanca»: la CD46 y CD59, el núcleo intersticial del

hipotálamo 3 (INAH3 , en sus siglas inglesas)), nombres de asociaciones ((logia

masónica criminal) Propaganda P2 ).

• CASOS_ESPECIALES

En este fichero se escriben combinaciones de letras, números, números romanos

y guiones. El contenido de este fichero se pueden resumir como sigue:

- modelos de automóviles, aviones, tanques: Lancia Y-10 Selectronic, tanques T-555,

cazas F-16 Falcons.

- matrículas: M-1277-KB, B-8498-JL, C-4894-BF.

- siglas: K-Tel, A-3, G-7.

- abreviaturas: s/n, k/h.

- carreteras, autovías, autopistas: M-40, A-49, N-VI , C-1313.

- nombres extranjeros: Musa A-Sabah, Giovanni D/Averrazano.

- nombres de calles: C/San Bernardo, C/Prado, C/Preciados.

- y/o: nacionalidad y/o raza, olor y/o sabor, familiares y/o amigos.

- líneas de metro y ferrocarril: línea C-1 de cercanías, líneas C-3 de Sevilla, C-2 de

Málaga y C-9 de Madrid.

- separación de letras o sílabas: E-u-r-o-d-i-p-u-t-a-d-o, c-a-d-e-n-c-i-a,

a-ce-le-ra.

Capítulo 5. Preprocesamiento

77

• NÚMEROS

Contiene todos los números encontrados en el texto que se ajustan a uno de los

formatos numéricos definidos5.

• NÚMEROS_ERROR

Este fichero recoge las expresiones numéricas que no se ajustan a ninguno de los

formatos definidos. El tamaño de este fichero es unas 75 veces menor que el de

numeros.dep.

El contenido de este fichero se puede agrupar en los siguientes casos:

- horas: las 21.30 horas, las 9.15 del día..., las 17.00 horas.

- fechas: fecha 31.03.95, día 4.12.83, sábado 4.03.95. Este formato fue después

aceptado como válido para las fechas, por lo que ya no se incluyen en este fichero

de depuración sino en fechas.dep.

- artículos jurídicos: artículo 394.4 del Código Penal, La Constitución española en su

artículo 149.1.21ª señala...

- tiempos de deportes: 58.71 segundos, Adriano Baffi (ITA/Mapei) 5h24.27.

- porcentajes: 29.5 %, 89.2 %.

- modelos y marcas de vehículos: motor 1.4 Energy, Daily 40.8 Chasis Cabina,

Laguna 2.0 RT.

- números de teléfono: 91.3848558, 900.19.10.10, 442.25.26.

- emisoras de radio: el 91.0 del dial.

- clasificaciones deportivas: el indio Visvanathan Arnaud, de 24 años, segundo en la

clasificación internacional; el ruso Vladimir Kramnik (18,4º) y el estadounidense de

origen soviético Gata Kamsky, (19,6º).

- formato decimal con punto en lugar de coma: 1.90 de estatura, 229.3 km/h, 11.6

litros.

• LNUMERO

Expresiones numéricas que cambian el 1 por la letra l. En total hemos encontrado

239 casos. El 59 % corresponden a años (l985, l993). El 41 % restante se reparte entre

números (l00.000 millones, l50 personajes), fechas (l9 de enero, l4 de julio), siglas

5 Ver apartado 5.2.1 de este Capítulo.

Capítulo 5. Preprocesamiento

78

(Diario l6), decretos (Decreto l85/l985), tiempos en deportes (l2:55.30, 11,6 seg.),

porcentajes (12%, 100%).

• ROMANOS

Números romanos de más de una letra que no se encuentran entre los casos

peligrosos. Se comprueba que el número romano no se encuentra entre los siguientes:

IC, IIII, LL, LCI, LDL, VV, VCC, XM, DD, DC, DIM, XXXX, CLM, CDC, CID,

CCMM, CCCC.

Analizando este fichero hemos ampliado nuestra lista de combinaciones no válidas

con casos como: LLL, MX.

Los errores cometidos se deben en su mayor parte a que no se trata de números

romanos sino de siglas, por ejemplo: CCII, MX, LM.

Para los números romanos es muy difícil elaborar una lista que abarque todas las

combinaciones no válidas.

• ROMANOS_DUDA

Números romanos de una letra y combinaciones peligrosas, por ejemplo VI, que

puede ser tanto número romano como pasado del verbo ver.

A partir de este fichero hemos elaborado una lista con palabras que acompañan a un

número romano:

Anteriores al número romano

artículo nacionalanexo salacapítulo siglofase tramogrupo versolegión

Posteriores al número romano

aniversario cumbre millaasamblea curso muestrabandera división mundialcampeonato edición premiocarrera encuentro repúblicacentenario exposición reuniónconcurso festival semanaconferencia flota seminario

Capítulo 5. Preprocesamiento

79

congreso foro simposioconvenio grupo simposiumconvocatoria guerra torneocuerpo jornadas trofeo

• FECHAS

Las fechas que aparecen en los textos periodísticos procesados y que se ajustan a

alguno de los formatos definidos son de tres tipos:

- día + mes + año: 18-3-64, 18-01-1995, 27/1/10.

- día + mes en número romano + año: 18/II/1995, 9-I-1990, 15-IV-1994.

Inicialmente este último caso no lo considerábamos pero tras analizar el fichero de

fechas no válidas los incluimos.

• NO_FECHAS

Las expresiones que combinan números y guiones y no cumplen la definición de

fechas se recogen en este fichero, cuyo contenido puede agruparse en:

- enumeraciones:

1-Decirle que la quiero.¶

2-Abrazarla.¶

3-Besarla.¶

4-Mandarle flores.¶

- órdenes y sumarios judiciales: la orden queda registrada con el número 2913/91,

En este caso la orden lleva el número 2502/91, El sumario 13/85 fue sobreseído

por la Audiencia Nacional.

- cuentas bancarias: 0030/1028/15/010128727, 0182/2370/41/00119500004.

- fechas clave: 27-E, 6-J, 23-F. Este nuevo formato de fechas se ha incluido en el

fichero de depuración Fechas_letra.dep.

- periodos de tiempo: curso 94-95, período 1994-1998 , marzo 94-marzo 93.

- expresiones racionales: 2/3 se pronunciaron a favor y 1/3 en contra, un retroceso

de 2/3 en los últimos 15 años.

- resultados deportivos: por 7-5, 4-6 y 6-1, 9/14 en tiros de campo, 87-87 en el

marcador.

- números de teléfono: 91-470-24-63, 906-300300, 900-21.10.65.

- porcentajes: 4-4.5%, 2%-2.5%.

Capítulo 5. Preprocesamiento

80

- fechas con número romano: 10-XII-87, 14-VI-88. Este nuevo formato de fechas se

admite ahora como válido y se escriben en el fichero Fechas.dep.

- matriculas de vehiculos: Madrid 7236-OK, Madrid 2867-ND.

- leyes y decretos: ley 37/1984, Decreto 2.244/79.

- separador de cantidades: 80.000-100.000 millones, 7.6/8.1 litros, 1.280/1.245 kilos.

- miscelánea donde aparecen desde modelos de aviones (Boeing 737/300) hasta

títulos de libros ( su último libro, Doisneau 40-44), números de fax (fax 21-25-54),

indicaciones de lugares (sala 1-2-9-3 del edificio de la universidad alcalaína),

tensión arterial (tensión arterial: 12-6).

• FECHAS_LETRA

Fechas con el formato:

- día + mes + año. Ejemplo: 7-enero-1995, 16-diciembre-1991.

- día + abreviatura del mes + año. Ejemplo: 23-Feb-94, 2-ene-94.

• HORAS

Contiene todas las expresiones horarias que cumplen la definición dada para las

horas.

• HORAS_K

Expresiones horarias que llevan una K delante. Ejemplo: K18.30, K2.00.

Los errores cometidos se deben a expresiones que no llevan ningún punto

intermedio: K10, K4D, K20.

• DOS_PUNTOS

En este fichero se escriben todas las expresiones numéricas que contienen ‘:’ y no

se ajustan a ninguno de los formatos horarios válidos. El contenido de este fichero es

siempre del mismo tipo: tiempos en competiciones deportivas. Ejemplos: 15 Arsenio

González (MAP) a 1:16, 500 c.c: 1.Michael Doohan (AUS/Honda) 46:10.991,

1 ONCE 112h.12:14.

Capítulo 5. Preprocesamiento

81

• PROPIOS

Palabras que cumplen la definición de nombre propio y se encuentran en alguno de

los diccionarios de nombres propios.

En un principio aceptábamos como nombre propio cualquier palabra que comenzara

por letra mayúscula y el resto fueran minúsculas. Con esta definición el error cometido

era muy elevado (41,43 %). Los errores se debían a palabras que pueden funcionar

como nombres propios y como:

- sustantivos: Bienvenida, Concha, León.

- verbos: Van, Hay, Leo.

- adjetivos: Alto, Bravo, Rico.

- adverbios: Cerca, Nada, No.

- preposiciones: Ante, Contra, Para.

Tras analizar el fichero de depuración Propios.dep llegamos a la conclusión de que

los comienzos de frase y las palabras escritas en mayúsculas antecedidas por un signo

ortográfico comienzo de frase, por ejemplo ¿, tampoco eran fiables, por lo que

decidimos no considerarlas. El error cometido por imponer estas condiciones es del

2.77%; 2.7% para el caso de nombre propio comienzo de frase y 0.066 % para el de

signo ortográfico comienzo de frase seguido de nombre propio.

Aceptamos este error de partida y estudiamos el porcentaje de aciertos del sistema

con esta definición más restrictiva de nombre propio. En este caso obtuvimos un error

del 1.11 %, que sumado al 2.77 % nos da un error total del 3.88%. Esta nueva tasa de

error representa una mejora sustancial con respecto a la situación inicial.

• PROPIOS_DUDA

En este fichero aparecen las palabras que empiezan por mayúscula, no son

comienzos de frase y no se encuentran en ninguno de los diccionarios de nombres

propios.

Los errores cometidos en este fichero responden a los siguientes tipos:

- interjecciones: Ah, Bah, Uf.

- abreviaturas sin punto: Arg, Ath, Mr .

- siglas no escritas en mayúsculas: Cds, Ph, Rh.

- palabras con números: Aa2, Hoyo2, Us3.

Capítulo 5. Preprocesamiento

82

• COMPUESTOS860

Conjuntos de palabras que se ajustan a la definición de compuestos y cuya primera

palabra se encuentra en alguno de los diccionarios de nombres propios.

En este caso encontramos tres tipos de errores:

- nombre propio + M: Abel M, Antonio Mata M. Esta M aparece siempre al final de

una línea, por lo que parece ser un terminador o separador de líneas.

- falsos compuestos: Ortiz Si, Media Italia amaneció ayer[...], Mañana Bossi se

entrivistará [...].

- compuestos cuya primera palabra no forma parte del compuesto: Para Juan

Barranco, Con Woody Allen, Pero Ernesto Cisnero.

• COMPUESTOS

Grupos de palabras que cumplen la definición de compuesto y cuya primera palabra

se encuentra en alguno de los diccionarios exceptuando los de nombres propios y

verbos.

Los errores en este fichero se deben a:

- conjuntos de palabras que cumplen la definición de compuesto pero que realmente

no lo son: De Antonio González, En Kigali, El Real Madrid.

- falta de signos de puntuación: Audiencia Nacional Carlos Bueren ha decidido[...],

miembro de Fuerza Italia Michele Stornello no tenía [...].

• COMPUESTOS_DUDA

Compuestos cuya primera palabra no se encuentra en ningún diccionario o es una

forma verbal.

Los errores cometidos se pueden clasificar de la siguiente forma:

- nombre propio + M: Joao Pinto M, Dertycia M. Como ya indicamos anteriormente

esta “M” es un separador de frases.

- falsos compuestos: Junio-1985 Firma, Octubre-1984 El, Lp Uncle Meat.

- falta de signos de puntuación: Olot Ningún dato [...], Unzue Martagón Diego

Ferreira Soler Marcos Rafa Paz Simeone Moya Sucker Linde Cambios: [...].

Este último caso nos llevó a limitar la longitud del compuesto. Revisando este

fichero decidimos que cuatro era la longitud máxima permitida para una compuesto.

Capítulo 5. Preprocesamiento

83

• COMPUESTOS_D

Entre los errores encontrados figuran:

- compuestos cuya primera palabra no forma parte del compuesto: Para Alicia de

Larrocha, La Feria de Sevilla, General Asensio de Palma.

- falsos compuestos: Miles de Vallecanos, Oviedo-Athletic de Bilbao, Los de

Madrid.

• COMP_ABREVIA

Hemos encontrado los siguientes errores en este fichero:

- compuestos con abreviatura escritos en mayúsculas: A. INTERNACIONAL,

L.AOJEDA.

- compuestos sin abreviatura que son finales de frase: Auditorio Nacional., Viernes

Santo., Sinead O,Connor.

- Preguntas y respuestas: P.-Usted es un histórico del Partido Socialista., R.-No, no

me lo imagino y no pienso en esa posibilidad.

• COMP_ABREVIA_M

Nombres propios escritos en mayúscula y con abreviatura.

En este fichero los errores encontrados son:

- preguntas y respuestas: P.-El PSOE de Andalucía ha dicho [...], R.-El PP tiene en

sus filas a defensores de la democracia [...].

• FIRMAS, FIRMAS_DUDA, TITULOS

Estos tres ficheros de depuración no los vamos a evaluar ya que no son objeto de

nuestro estudio.

• GUIONES

Se han encontrados los siguientes casos:

1. Palabras compuestas

Pares de palabras unidas por un guión intermedio y escritas en minúsculas.

Ejemplos: físico-químico, ante-sala, anglo-irlandés.

Capítulo 5. Preprocesamiento

84

2. Siglas

Conjuntos de palabras escritas en mayúsculas y números unidos por un guión

intermedio. Ejemplos: CSI-CSIF, PSE-EE, TVE-1.

3. Género y número

Para indicar masculino/femenino o singular/plural. Ejemplos: señor/a, chicos/as,

querido/os.

4. Antítesis y juegos de palabras

Ejemplos: arriba/abajo, hombre-mujer, sólido-líquido, espulga/expurga,

paso-peso, magnate/mangante, desmadra/desmanda.

5. Paréntesis

Ejemplos:

• GUIONES_DOBLES

El contenido de este fichero puede clasificarse en:

1. Separador de frases

2. Paréntesis

La Policía les acusa de la muerte de un vagabundo ebrio en una salida del metro

de Moscú -- La responsabilidad recaerá sobre la madre, una alcohólica que ha

sido declarada enferma mental¶

La Seguridad Social --como el Estado-- no puede quebrar, a no ser que la

economía en su conjunto se hunda;

Estaría hecho una pena –dije-.

¿Es Navarra –como usted sostiene- «una nacionalidad» histórica?

La decisión del presidente sudafricano –aunque esperada- suscitó ayer

un enorme revuelo en todo el espectro político del país.

Capítulo 5. Preprocesamiento

85

3. Direcciones de correo electrónico

4. Entrevistas

5. Separador título-texto

6. Separador texto-firma del autor

7. Errores tipográficos

Ejemplos: mansión—fortaleza.

Nos gustaría comentar un último caso, la combinación de ambos guiones: /-.

Ejemplo:

Declara el poema Ciénagas: De la turba han sacado el esqueleto/del

Gran Alce Irlandés/y lo han puesto en exposición/-una asombrosa

jaula ¶

RESPUESTA.--Es un momento complejo. Lo imprevisible puede ser el más

común de los denominadores.

http://www.yahoo.com

http://www.offcampus.es/elmundo.campus

http://simo.sei.es

TIEMPO DE IMPUNIDAD.--Esta misma semana, portavoces de KAS

(Koordinadora Abertzale Sozialista) y de Herri Batasuna (HB) advertían a los

dirigentes del Partido Nacionalista Vasco (PNV) y de la Ertzaintza (Policía

Autónoma vasca) que «el tiempo de la impunidad ha pasado».¶

Este concepto empresarial ha sentado una negativa cultura de

relaciones laborales.--Amelia Fernández de Gorostiza. Madrid¶

Capítulo 5. Preprocesamiento

86

• SIGNOS_ESPECIALES

La siguiente Tabla resume los signos encontrados en el corpus de entrenamiento:

Carácter 1994 1995 Total

$ 13787 92 13816

% 24950 23577 48527

& 712 761 1473

# 230 10166 10396

@ - 2 2

Tabla 5.9. Signos especiales encontrados en el Corpus de Entrenamiento (EL MUNDO)

• PALABRAS_CONSIGNO

Palabras que contienen alguno de los siguites signos: ^ , ̈ , ̀ , ç.

Se distinguen los siguientes casos:

- nombres propios: Château, François, Barça, Weizsäcker.

- nombres comunes: garçon, calçadas, cançó.

- palabras extranjeras: infâme, commenç, prêt-a-porter, laïcité.

- siglas: FPLÖ, SPÖ, ÖVP.

- vocales acentuadas: 2 ó 3%, monte á la dehesa.

- errores tipográficos: veinte é ocho.

• SIN_VOCALES

El contenido de este fichero puede agruparse como sigue:

- abreviaturas: Sr, pm, km, s.c, m.73, nº, Gª.

- Siglas: Cds, BSkyB, PSdG, SPf66.

- Letras: ll , ch, rr .

- Combinaciones de letras y números: c6, d4, cd4.

- Errores tipográficos: m¡n, ls Policía, con cl sector guerrista, Clasificacion trs el

primer recorrido.

Capítulo 5. Preprocesamiento

87

• VERBOS, ENCLÍTICOS, PALABRAS_CONPREFIJO, VERBOS_CONPREFIJO

Estos ficheros de depuración se estudiarán más adelante en el Capítulo 7.

• ERRATAS

Cuando la longitud supera los 80 caracteres (longitud máxima permitida para

una palabra) lo escribimos en este fichero de depuración y no procesamos esa frase.

Hemos encontrado dos casos:

• RESULTADOS

Es el fichero donde se sacan todos los datos obtenidos por el programa. Tiene la

siguiente estructura:

- fecha y hora de comienzo del programa.

- Datos generales: número de artículos, frases y palabras procesadas.

- Información sobre verbos: número de formas verbales encontradas, enclíticos y

verbos con prefijo.

- Datos de las unidades especiales detectadas. Además del número total de unidades

reconocidas, para cada uno de los casos se sacan, por este orden, tres informaciones:

número total, porcentaje sobre el número de palabras procesadas y porcentaje sobre

el número total de unidades especiales detectadas (en tanto por uno).

- Datos de categorización: palabras categorizadas (número total y tanto por uno),

número medio de categorías por palabra categorizada, unidades especiales no

categorizadas (número total y tanto por uno). En este caso todos los porcentajes son

sobre número total de palabras procesadas.

- Datos sobre los terminadores de frase: puntos finales, fin de párrafo, puntos

suspensivos, finales de interrogación y finales de exclamación ( tanto por uno sobre

el total de frases procesadas).

- Fecha y hora de finalización del programa y tiempo de ejecución en segundos.

• LAJOVENKATRINAGIBSONSECONVIERTEENELCENTRODELOSPRO

BLEMASDELOSHABITANTESDE«ELPARAISO»¶ (julio 1994).

• Vera,exsecretariodeEstado;Corcuera,exministrodelInterior;yRoldán,exdirector

generaldelaGuardiaCivil,enunafotodearchivo.¶ (octubre 1994).

Capítulo 5. Preprocesamiento

88

A continuación se muestra un ejemplo de este fichero:

Fecha y Hora de comienzo del programa: Fri Jul 09 21:23:58 1999

Artículos procesados: 4093Frases: 82860Palabras: 2209374Comienzos: 82860 0.037504Finales: 82860 0.037504Nº de palabras del diccDinamico: 6920 0.003132Verbos: 433142 0.196047Verbos con enclíticos: 4662 0.002110Verbos con encliticos/Número Verbos: 0.010763

Excepciones detectadas(total): 174562 0.079010Caracteres especiales {&,$,@,#}: 3892 0.001762Palabras con signos especiales {^,`,´,¨}: 176 0.000080Abreviaturas: 513 0.000232Candidatos a Abreviaturas: 4 0.000002Siglas_OK: 395 0.000179Siglas con una letra: 6205 0.002808Siglas con dos letras: 1976 0.000894Candidatos a Siglas: 9156 0.004144Siglas dudosas: 2695 0.001220Palabras sin vocales: 1426 0.000645Nombres Propios: 46555 0.021072Candidatos a Nombres Propios: 19213 0.008696Compuestos860: 25227 0.011418Compuestos: 6457 0.002923Candidatos a Compuestos: 5505 0.002492Compuestos con de/del: 10286 0.004656Compuestos con guion: 2511 0.001137Dobles guiones: 1 0.000000Nombres Propios con Abreviatura: 441 0.000200Firmas de autores: 724 0.000328Firmas de autores con abreviatura: 280 0.000127Candidatos a Firmas: 187 0.000085Candidatos a Titulos: 2070 0.000937Números: 25402 0.011497Números erróneos: 272 0.000123Números con guión: 0 0.000000Números Romanos: 390 0.000177Candidatos a Numeros Romanos: 1169 0.000529Combinaciones de letras, números y guiones: 165 0.000075Horas: 540 0.000244Formato horario incorrecto: 81 0.000037Fechas: 4 0.000002Fechas incorrectas: 1646 0.000745Fechas con formato extraño: 41 0.000019Fechas con letra: 0 0.000000

Locuciones de dos palabras: 27197 0.012310Locuciones de tres palabras: 8790 0.003979Locuciones de cuatro palabras: 615 0.000278Locuciones de cinco palabras: 28 0.000013Locuciones de seis palabras: 2 0.000001

Palabras Categorizadas: 2147285 0.971897Número medio de categorías/palabra con categoria: 2.053538

Fecha y Hora de finalización del programa: Sat Jul 10 03:40:25 1999

Tiempo de ejecución(seg): 22587.0

Capítulo 5. Preprocesamiento

89

• ESTRUCTURA DE LOS FICHEROS DE DEPURACIÓN

Cuando el detector identifica una unidad especial la escribe en el

correspondiente fichero de depuración junto con información sobre la categoría

gramatical, si la ha encontrado o no en algún diccionario y el contexto en el que

aparece. Cada unidad detectada representa una línea del fichero y todas las líneas tienen

la siguiente estructura:

unidad especial categoría encontrada o noen diccionario

nombre deldiccionario

contexto

• unidad especial

Se escribe la unidad especial detectada (sigla, abreviatura, número, ...) . En el caso

de los compuestos, hay una o varias líneas para cada palabra del compuesto en función

de si solo tiene una categoría gramatical o hay varias posibles.

• categoría

En este campo se escribe la categoría gramatical correspondiente a la unidad

especial o ########## si no se sabe con seguridad que categoría asignarle. Algunas

unidades pueden pertenecer a varias categorías a la vez. Por ejemplo las palabras que

forman un compuesto, en ese caso se escribe la lista de posibles categorías.

• encontrada o no en diccionario

Se escribe 0 ó 1 dependiendo de si la unidad considerada se ha encontrado en algún

diccionario o no.

• nombre del diccionario

Si la unidad no se ha encontrado en ningún diccionario se escribe (null), en caso

contrario se escribe el nombre de diccionario o los nombres en el caso de encontrarse en

varios.

• contexto

Se escriben por este orden: la palabra precedente, la unidad especial y las dos

palabras siguientes. Si la unidad detectada es final de frase sólo aparecerá como palabra

siguiente el punto.

A continuación se presentan algunos ejemplos:

Capítulo 5. Preprocesamiento

90

1. Siglas.dep

2. Compuestos.dep

5.3 RESULTADOS DEL MÓDULO DE PREPROCESAMIENTO

5.3.1 SEGMENTACIÓN

1994 1995 Total

Artículos 4086 3958 4022

Frases 85997 91042 88519

Palabras 2238564 2264090 2251327

Tabla 5.6. Resultados de la segmentación (datos mensuales medios)

Finales de frase %

. 48.08

¶ 50.09

? 1.26

! 0.21

... 0.36

Tabla 5.7. Terminadores de frase

PSOE M04####### 1 siglas860.ord ->del PSOE .

UHF ########## 0 (null) ->antigua UHF de los

Congreso N00##S.M## 1 860.ord ->el Congreso Judío Mundial .Judío A11..S.M## 1 drae.ord ->el Congreso Judío Mundial .Mundial A11..S.N## 1 860.ord ->el Congreso Judío Mundial .

Unidad N00##S.F## 1 860.ord ->la Unidad Central Operativa de laCentral A11..S.N## 1 drae.ord ->la Unidad Central Operativa de laCentral N00##S.N## 1 860.ord ->la Unidad Central Operativa de laOperativa A11..S.F## 1 860.ord ->la Unidad Central Operativa de la

Capítulo 5. Preprocesamiento

91

5.3.2 EL DETECTOR DE UNIDADES ESPECIALES

Unidad especial Año 1994 Año 1995 Total %, #, &, @, $ 0.1480 0.1267 0.1373 Palabras_conSigno 0.0098 0.0125 0.0111 Abreviaturas 0.0079 0.0192 0.0135 Abrevia_duda 0.00042 0.00055 0.00048 Siglas_ok 0.0168 0.0089 0.0128 Siglas1 0.02596 0.2504 0.2512 Siglas2 0.1023 0.1088 0.1055 Siglas 0.4162 0.3673 0.3917 Siglas_duda 0.1316 0.1289 0.1302 Sin_vocales 0.0364 0.0259 0.0321 Propios 2.0943 2.0051 2.0497 Propios_duda 0.8376 0.8303 0.8339 Compuestos860 1.0809 1.0549 1.0679 Compuestos 0.2806 0.3046 0.2926 Compuestos_duda 0.2510 0.2413 0.2461 Compuestos_d 0.4681 0.4518 0.4599 Comp_guion 0.1100 0.1280 0.1190 Comp_abrevia 0.0197 0.0162 0.0179 Numeros 1.1763 1.1385 1.1574 L_numero 0.00056 0.00034 0.00045 Numeros_error 0.0163 0.0284 0.0223 Romanos 0.0170 0.0163 0.0166 Romanos_duda 0.0331 0.0209 0.0270 Horas 0.0329 0.0266 0.0297 Horas_k 0.0021 0.00042 0.0013 Dos_puntos 0.0150 0.0260 0.0205 Fechas 0.00032 0.00029 0.00031 No_fechas 0.0477 0.0467 0.0472

Combinacionesletras, numeros y

guiones0.0082 0.0088 0.0085

Guiones_dobles 0.000025 0.000081 0.000053 Firmas 0.0307 0.0257 0.0282 Firmas_abrevia 0.0127 0.0071 0.0099 Firmas_duda 0.0104 0.0094 0.0099 Titulos 0.0912 0.0880 0.0896

Tabla 5.8. Porcentaje de unidades especiales reconocidas por el detector sobre el total de palabras del texto

(datos mensuales medios)

Capítulo 5. Preprocesamiento

92

Unidad especial Año 1994 Año 1995 Total %, #, &, @, $ 1.93 1.71 1.81 Palabras_conSigno 0.13 0.17 0.15 Abreviaturas 0.24 0.26 0.25 Abrevia_duda 0.0036 0.0074 0.0055 Siglas_ok 0.19 0.11 0.15 Siglas1 3.31 3.32 3.32 Siglas2 1.37 1.58 1.48 Siglas 5.38 4.92 5.15 Siglas_duda 1.67 1.74 1.71 Sin_vocales 0.46 0.34 0.40 Propios 27.24 26.80 27.02 Propios_duda 10.87 11.19 11.03 Compuestos860 14.06 14.12 14.10 Compuestos 2.66 4.18 3.92 Compuestos_duda 3.27 3.22 3.24 Compuestos_d 6.11 6.09 6.10 Comp_guion 1.41 1.72 1.56 Comp_abrevia 0.23 0.22 0.23 Numeros 15.23 15.32 15.26 L_numero 0.0056 0.0034 0.0045 Numeros_error 0.21 0.38 0.29 Romanos 0.22 0.22 0.22 Romanos_duda 0.42 0.28 0.35 Horas 0.39 0.36 0.37 Horas_k 0.027 0.042 0.035 Dos_puntos 0.031 0.098 0.064 Fechas 0.0024 0.0042 0.0033 No_fechas 0.61 0.63 0.62

Combinacionesletras, numeros y

guiones0.087 0.12 0.11

Guiones_dobles 0.0032 0.0081 0.0022 Firmas 0.40 0.34 0.37 Firmas_abrevia 0.11 0.15 0.13 Firmas_duda 0.14 0.12 0.13 Titulos 1.19 1.19 1.19

Tabla 5.9. Porcentaje de unidades especiales sobre el total de unidades especiales reconocidas

(datos mensuales medios)

Capítulo 5. Preprocesamiento

93

5.4 EVALUACIÓN

5.4.1 SEGMENTACIÓN

Para evaluar el error cometido en el proceso de segmentación seleccionamos 20

textos aleatoriamente y comprobamos el porcentaje de aciertos. La tasa de error

obtenida fue del 4.76 %. En total encontramos 16 errores, de los cuales, 4 eran debidos

a siglas , 2 a abreviaturas y 4 a números fin de frase. Los 6 restantes eran errores

propios del programa.

A continuación intentamos mejorar el porcentaje de aciertos tratando el

problema de los números final de frase, de manera que el segmentador evalúe si se trata

de un número más un punto final de frase, o bien el punto forma parte de la expresión

numérica y no es un final de frase.

Realizamos una segunda evaluación, con otro conjunto de 20 textos elegidos

aleatoriamente. Esta vez la tasa de error fue del 1.38 %. Los errores cometidos se debían

en su mayor parte a siglas final de frase. De un total de 7 errores, 5 eran por siglas fin de

frase y 2 eran errores del programa.

Siguiendo un procedimiento análogo al de los números fin de frase, intentamos

nuevamente disminuir la tasa de error. En esta tercera evaluación, conseguimos una tasa

de error del 0.42 %.

La Tabla 5.10 resume los resultados obtenidos en las tres pruebas.

Nº total frases Frases correctas Acierto (%) Tasa error (%)

1ª Prueba 336 320 95.24 4.76

2ª Prueba 508 501 98.62 1.38

3ª Prueba 479 477 99.58 0.42

Tabla 5.10. Resultados de la segmentación de frases

Las clasificaciones deportivas son la parte que mayor dificultad plantea al

segmentador. Aquí caben múltiples opciones, para ilustrar la que hemos elegido

presentamos a continuación dos ejemplos:

Capítulo 5. Preprocesamiento

94

Ejemplo 1

• Texto de entrada:

• Tras la segmentación6:

6 El símbolo $$$$ es un separador de frases.

7ª ETAPA¶

Charleroi - Lieja / 203 kms.¶.¶VENCEDOR: Johan Bruyneel (ONCE).¶

SPRINTS ESPECIALES: Kilómetro 40: Abdoujaparov (6 segundos),

Jalabert (4) y Stephens (2).¶

Kilómetro 134: Kasputis (6), Den Bakker (4), Laurent (2).¶

Kilómetro 174,5: Jalabert (6), Abdoujaparov (4), Rijs (2).¶

ABANDONOS: Kirsipú (fuera de control), Nelson Rodríguez,

Dotti, Blijlevens.¶

.¶LIDER: Johan Bruyneel (ONCE).¶

7ª ETAPA Charleroi - Lieja / 203 kms .$$$$.$$$$VENCEDOR : Johan Bruyneel ( ONCE ) .$$$$SPRINTS ESPECIALES : Kilómetro 40 : Abdoujaparov ( 6 segundos ) ,Jalabert ( 4 ) y Stephens ( 2 ) .$$$$Kilómetro 134 : Kasputis ( 6 ) , Den Bakker ( 4 ) , Laurent ( 2 ) .$$$$

Kilómetro 174,5 : Jalabert ( 6 ) , Abdoujaparov ( 4 ) , Rijs ( 2 ) .

$$$$ABANDONOS : Kirsipú ( fuera de control ) , Nelson Rodríguez , Dotti ,Blijlevens .$$$$.$$$$LIDER : Johan Bruyneel ( ONCE ) .$$$$

Capítulo 5. Preprocesamiento

95

Ejemplo2

• Texto de entrada:

• Tras la segmentación:

También nos gustaría indicar el criterio adoptado para los títulos de los artículos.

En este caso, el título se considera parte de la frase y después, durante la división de la

frase en palabras, se aisla como una unidad y se escribe en el fichero titulos.dep.

Veamos un ejemplo:

ZResultados¶

Semifinales individuales: Carlos Costa (ESP, 6) a Alex Corretja

(ESP) por 6-3 y 6-3. Richard Krajicek (HOL, 7) a Ronald

Agenor (HAI) por 6-4 y 6-2.¶

Semifinales de dobles: Yevgeni Kafelnikov-David Rikl (RUS-RCH)

a Jan Appel-Peter Nyborg (SUE) por 4-6, 7-6 (7-5) y 6-4.

Jim Courier-Javier Sánchez (USA-ESP) a Lars Johnson-Francisco

Montana (SUE-USA), 2-6, 7-6 (7-4) y 6-4.¶

ZResultados

$$$$

Semifinales individuales : Carlos Costa ( ESP , 6 ) a Alex Corretja

( ESP ) por 6-3 y 6-3 . Richard Krajicek ( HOL , 7 ) a Ronald

Agenor ( HAI ) por 6-4 y 6-2 .

$$$$

Semifinales de dobles : Yevgeni Kafelnikov-David Rikl ( RUS - RCH )

a Jan Appel-Peter Nyborg ( SUE ) por 4-6 , 7-6 ( 7 - 5 ) y 6-4 .

Jim Courier-Javier Sánchez ( USA - ESP ) a Lars Johnson-Francisco

Montana ( SUE - USA ) , 2-6 , 7-6 ( 7 - 4 ) y 6-4 .

$$$$

Capítulo 5. Preprocesamiento

96

• Texto de entrada:

• Tras la segmentación:

Como podemos comprobar MADRID.- no se considera una frase independiente,

sino que forma parte de la siguiente. Esto es debido a que el ‘.-‘ no se considera un

terminador de frase.

#Pérez-Reverte vende un millón de ejemplares¶

MADRID.- El escritor Arturo Pérez-Reverte ha vendido en cuatro años

un millón de ejemplares en todo el mundo, según informaron fuentes

de la editorial Alfaguara.

En España, la novela La tabla de Flandes ya lleva veinte ediciones en

Alfaguara Hispánica, sin contar con las dos ediciones en Alfaguara

Extra y la edición en castellano que Random House publicó en Estados

Unidos.

# Pérez-Reverte vende un millón de ejemplares

$$$$

.

$$$$

MADRID . - El escritor Arturo Pérez-Reverte ha vendido en cuatro años

un millón de ejemplares en todo el mundo , según informaron fuentes de

la editorial Alfaguara .

$$$$

En España , la novela La tabla de Flandes ya lleva veinte ediciones en

Alfaguara Hispánica , sin contar con las dos ediciones en Alfaguara

Extra y la edición en castellano que Random House publicó en Estados

Unidos .

$$$$

Capítulo 5. Preprocesamiento

97

5.4.2 DETECCIÓN DE UNIDADES ESPECIALES

Para la evaluación del detector de unidades especiales revisamos manualmente

los ficheros de depuración con el fin de determinar el error cometido. Los ficheros

evaluados han sido:

Siglas_OK

Siglas

Propios

Propios_duda

Compuestos860

Compuestos

Compuestos_duda

Compuestos_D

Comp_abrevia

Comp_abrevia_M

Romanos

Romanos_duda

Guiones dobles

Horas_K

Los ficheros Numeros, Numeros_guion, L_numero, Fechas, Horas y

Abreviaturas.dep tienen un porcentaje de acierto del 100 %.

La siguiente Tabla muestra los resultados obtenidos:

Unidad especial Total Acietos Error (%)

Siglas_OK 2087 1801 11.58

Siglas 6965 6881 2.23

Propios 5957 5891 1.11

Propios_duda 4867 4831 0.74

Compuestos860 1690 1652 2.25

Compuestos 2121 1939 8.58

Compuestos_duda 1558 1529 1.80

Compuestos_D 2115 1979 6.43

Comp_abrevia 6868 6124 10.83

Romanos 2102 1850 11.99

Guiones_dobles 2037 1801 11.58

Horas_K 350 340 2.86

Tabla 5.11 Porcentaje de error en la detección de unidades especiales

Capítulo 5. Preprocesamiento

98

5.5 LOCUCIONES

Las locuciones son conjuntos de dos o más palabras que funcionan como

elemento oracional y cuyo sentido unitario no se justifica, sin más, como suma del

significado normal de los componentes. Las locuciones se clasifican según el papel que

desempeñan; por ejemplo, las locuciones adverbiales son las que hacen oficio de

adverbio, las conjuntivas las hacen oficio de conjunción, etc.

Debido a que funcionan como una unidad dentro de la frase disponemos de un

detector de locuciones que se encarga de su identificación y categorización. La longitud

mínima de una locución es de dos palabras y la máxima que admitimos es seis.

El funcionamiento del detector de locuciones es el siguiente: dada una frase, la

va recorriendo de principio a fin comprobando si contiene locuciones, comenzando por

las de seis palabras y terminando por las de dos. Para saber si el conjunto de palabras

considerado es una locución o no cuenta con la ayuda de los diccionarios de

locuciones7. Por ejemplo para comprobar si una frase contiene locuciones de cinco

palabras, el detector va agrupando las palabras que componen la frase de cinco en cinco,

busca cada uno de esos grupos en el diccionario Locuc5.ord y si lo encuentra, categoriza

cada una de las palabras con la categoría que aparece en el diccionario. Solo

consideramos locuciones aquellas que se encuentran en alguno de los diccionarios

específicos, si el grupo considerado no se encuentra en el correspondiente diccionario

de locuciones no será reconocido como tal.

Antes de la búsqueda en el diccionario, es necesario que el grupo de palabras bajo

estudio tenga la misma estructura que las palabras que componen los diccionarios de

locuciones. En estos diccionarios las palabras que forman una locución están unidas por

guiones bajos, mientras que en la frase, las palabras están separadas por espacios en

blanco, sin ningún tipo de unión.

El detector va formando grupos de un determinado número de palabras, uniéndolas

entre sí por guiones bajos y una vez así, se procede a su búsqueda en el diccionario

correspondiente. En la frase seguirán apareciendo aisladas, la unión con guiones bajos

es únicamente para la búsqueda en los diccionarios.

7 Los diccionarios de locuciones que utiliza el programa se describen en el Capítulo 6.

Capítulo 5. Preprocesamiento

99

Los diccionarios de locuciones extranjeras (English_guiones1.ord,

French_guiones1.ord, etc.8) tienen este mismo formato. El procedimiento de búsqueda

en dichos diccionarios es el descrito anteriormente. En el funcionamiento normal del

programa no se cargan diccionarios extranjeros9 y por tanto no se realiza la búsqueda de

locuciones extranjeras.

5.5.1 FICHERO DE DEPURACIÓN

Es el fichero de depuración de las locuciones encontradas en el texto de entrada. No

existe un fichero para las locuciones de dos palabras, otro para las de tres, etc. sino que

todas ellas se recogen en un único fichero. Presenta un formato diferente al del resto de

ficheros en la parte final, ya que en este caso en lugar de sacar el contexto en el que

aparece la palabra clave se saca la frase donde se encuentra la locución reconocida:

Locución Categoría frase

Ejemplo del fichero locuciones.dep

8 Véase apartado 6.5 del Capítulo 6.9 En el Capítulo 6, apartado 6.12, se justifica la decisión de no cargar los diccionarios

extranjeros.

junto_con P..##.60## -> Lo cual , junto con la inauguración de nuevos tramos

de autovía , se ha traducido en el descenso del número

de accidentes ( 3.600 durante el último año frente a los

3.800 de 1992 ) .

al_frente_de P..##.60## -> Será su primera visita oficial a España desde que

Capítulo 5. Preprocesamiento

100

5.5.2 RESULTADOS DEL DETECTOR DE LOCUCIONES

Locuciones 2 palabras 3 palabras 4 palabras 5 palabras 6 palabras

Año 1994 2.46 0.798 0.0564 0.0036 0.000050

Año 1995 2.46 0.788 0.0534 0.0034 0.000084

Total 2.46 0.792 0.0548 0.0035 0.000066

Tabla 5.12 Resultados del detector de locucionesPorcentajes sobre el número total de palabras procesadas

(Datos medios mensuales)

Como podemos comprobar las locuciones más utilizadas son las de dos palabras

mientras que las de seis son las menos usadas. Sin embargo, hay que tener en cuenta

que a medida que aumenta el número de palabras de la locución disminuye el tamaño de

los diccionarios10, así disponemos de 893 locuciones de dos palabras, frente a las 5 del

diccionario Locuc6.ord.

5.5.3 EVALUACIÓN

Con el fin de determinar el porcentaje de error cometido en las locuciones,

revisamos manualmente el fichero de depuración locuciones.dep. Los errores

encontrados se deben a grupos de palabras que en determinadas frases no funcionan

como locuciones, aunque en otras sí lo sean y se trata siempre de locuciones de dos

palabras. En las locuciones de tres o más palabras, el sistema acierta siempre.

Consideremos el caso de puesto_que. En la frase:

puesto_que funciona como locución conjuntiva, sin embargo en esta otra frase:

10 En la Tabla 6.2 del Capítulo 6 figura el tamaño de los diccionarios de Locuciones.

Sanidad no iniciará ninguna campaña de vacunación puesto que no cree que

entre dentro de sus competencias.

Capítulo 5. Preprocesamiento

101

puesto y que no forman una unidad, sino que puesto funciona como sustantivo y que

es el pronombre que introduce la oración de relativo que tenía asignado.

Como conclusión general podemos deducir que cuanto mayor es el tamaño de la

locución (número de palabras que la forman) menor es la probabilidad de error.

La Tabla 5.13 recoge los resultados de la evaluación, todos los errores

encontrados se deben a locuciones de dos palabras.

Total Correctas Error (%)

Locuciones 602 586 2.66

Locuciones de dospalabras

347 331 4.61

Tabla 5.13 Porcentaje de error en las locuciones

5.5.4 LOCUCIONES MÁS UTILIZADAS EN EL CORPUS DE

ENTRENAMIENTO

Locuciones Frecuencia absoluta Locuciones Frecuencia absoluta

lo_que 3219 ya_que 565

para_que 1013 antes_de 588

después_de 965 más_que 497

sin_embargo 849 sobre_todo 349

más_de 746 a_través_de 324

Tabla 5.14 Locuciones más frecuentes en 12 meses (Datos medios mensuales)

Juan no era la persona idónea para cubrir el puesto que tenía asignado,

por eso le cambiaron de sección.

Capítulo 5. Preprocesamiento

102

Como muestra la Tabla 5.14, las locuciones más utilizadas son las de dos

palabras. Las siguientes Tablas pretenden dar una idea del uso de las locuciones de tres,

cuatro, cinco y seis palabras. Parece que existen una relación entre la longitud de la

locución y su frecuencia de uso, de manera que, cuanto mayor es la longitud de la

locución, menor es su utilización en los textos periodísticos evaluados.

Locuciones de3 palabras

Frecuenciaabsoluta

Locuciones de4 palabras

Frecuenciaabsoluta

a_través_de 324 a_lo_largo_de 128

a_partir_de 268 a_pesar_de_que 112

a_pesar_de 375 con_el_fin_de 77

Tabla 5.15 Locuciones de tres y cuatro palabras más utilizadas en 12 meses (Datos medios mensuales)

Locuciones de5 palabras

Frecuenciaabsoluta

Locuciones de6 palabras

Frecuenciaabsoluta

al_fin_y_al_cabo 28 al_fin_y_a_la_postre 0.67

a_las_primeras_de_cambio 3 es_por_esto_por_lo_que 0.33

al_pie_de_la_letra 4 un_día_sí_y_otro_no 0.25

Tabla 5.16 Locuciones de cinco y seis palabras más utilizadas en 12 meses(Datos medios mensuales)

5.6 EL DETECTOR DE PALABRAS EXTRANJERAS

Para completar el módulo de Preprocesamiento hemos incluido un detector de

palabras y nombres propios extranjeros, que se encarga de su reconocimiento y

categorización gramatical.

Capítulo 5. Preprocesamiento

103

El funcionamiento del detector de palabras extranjeras11 se basa en tres

conceptos:

1. Silabicación de las palabras. Se hace la división en sílabas de la palabra

considerada y se estudia cada una de las sílabas resultantes, de manera que si

se encuentra una combinación de consonantes no permitida en castellano, la

palabra será extranjera. Por ejemplo, en castellano puede aparecer la

combinación ns al final de una sílaba (ins-ta-lar), pero no la combinación ng

(ma-king). Ejemplos de palabras extranjeras detectadas por este método son:

fans, light , Becklund, Steward.

2. Doble consonante. Palabras que repiten la misma consonante dos o más veces

seguidas, a excepción de c , l , n y r; así, acción, llave, innovación y arrastrar

contienen dos veces la misma consonante y son palabras castellanas.

Ejemplos de palabras extranjeras que contienen doble consonate: Massi,

Bisset, homme, mezzogiornos.

3. Palabras que contienen ‘y’ . Para que una palabra que contiene una ‘y’ sea

extranjera, dicha letra no debe ir en posición inicial ni entre dos vocales. En

inglés muchas palabras terminan en ‘y’ ; en estos casos el detector da buenos

resultados pero es necesario comprobar que realmente se trata de una palabra

extranjera porque rey o Godoy acaban en ‘y’ , y, sin embargo, no son

extranjeras. Ejemplos de palabras extranjeras reconocidas: Beverly, Corey,

bye, rallye.

Cuando una palabra es reconocida como extranjera, se marca con el rasgo

NUM_RASGO_EXTRANJERA o NUM_PROPIO_EXTRANJERO, según se trate de

una palabra común o de un nombre propio, se le asigna la categoría extranjero12 y se

11 En este apartado utilizaremos la denominación de palabras extranjeras para referirnos a

sustantivos, adjetivos, nombres propios, etc. extranjeros.12 En el Anexo A figura la lista de categorías que utiliza el programa.

Capítulo 5. Preprocesamiento

104

escribe en el correspondiente fichero de depuración: extranjeras.dep o

propios_extranjeros.dep. El formato de estos ficheros es el mismo que el de los

restantes ficheros de depuración; dicho formato se describe en el apartado 5.2.4 de este

Capítulo.

Para evaluar el detector de palabras extranjeras hemos revisado manualmente el

contenido de ambos ficheros de depuración, los resultados obtenidos se muestran en la

siguiente Tabla:

Total Aciertos Error (%)

Palabras extranjeras 128 127 0.78

Propios extranjeros 1129 1122 0.62

Tabla 5.17 Porcentaje de error en la detección de palabras extranjeras

Capítulo 5. Preprocesamiento

49

CAPÍTULO 5 PREPROCESAMIENTO................................................................49

5.1 SEGMENTACIÓN................................................................................................50

5.2 DETECCIÓN DE UNIDADES ESPECIALES...............................................................55

5.2.1 definición de unidades..............................................................................55

5.2.2 EL DETECTOR DE UNIDADES ESPECIALES .......................................64

5.2.3 LOS RASGOS...........................................................................................65

5.2.4 ficheros de depuración .............................................................................67

5.3 RESULTADOS DEL MÓDULO DE PREPROCESAMIENTO.......................90

5.3.1 SEGMENTACIÓN....................................................................................90

5.3.2 EL DETECTOR DE UNIDADES ESPECIALES .......................................91

5.4 EVALUACIÓN...............................................................................................93

5.4.1 SEGMENTACIÓN....................................................................................93

5.4.2 DETECCIÓN DE UNIDADES ESPECIALES...........................................97

5.5 LOCUCIONES................................................................................................98

5.5.1 FICHERO DE DEPURACIÓN.................................................................99

5.5.2 RESULTADOS DEL DETECTOR DE LOCUCIONES............................100

5.5.3 evaluación..............................................................................................100

5.5.4 locuCiones más utilizadas en el corpus de entrenamiento.......................101

5.6 EL DETECTOR DE PALABRAS EXTRANJERAS......................................102