Post on 19-Sep-2018
Anlisis decontenidos Manela Junc Campdepadrs PID_00195714
CC-BY-NC-ND PID_00195714 Anlisis de contenidos
Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia deReconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlosy transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND PID_00195714 Anlisis de contenidos
ndice
Introduccin............................................................................................... 5
1. El resumen humano y automtico................................................ 7
1.1. Tipos de resmenes ..................................................................... 10
1.2. Resumen automtico ................................................................... 12
2. La indizacin y la recuperacin: lenguajes documentales
y lenguaje natural............................................................................. 16
2.1. Lenguaje natural y lenguaje documental ................................... 19
2.1.1. Nmero de trminos ..................................................... 19
2.1.2. Control de las formas .................................................... 20
2.1.3. Control del significado .................................................. 20
2.1.4. Relaciones de significado de los trminos ..................... 22
2.2. Cmo se indiza ........................................................................... 24
2.3. Lenguajes documentales ............................................................. 29
2.3.1. Clasificar y recuperar con sistemas de clasificacin ...... 36
2.3.2. Indexar y recuperar con listas de encabezamientos y
listas de autoridades ...................................................... 50
2.3.3. Indexacin y recuperacin con tesauros ....................... 59
2.3.4. Indizacin con listas de descriptores libres: etiquetas
e Indizacin social ......................................................... 68
2.3.5. Indizacin automtica ................................................... 77
3. Calidad y coherencia en la representacin de contenidos...... 87
3.1. La calidad del indizador ............................................................. 87
3.1.1. Errores tcnicos .............................................................. 88
3.1.2. Errores ticos .................................................................. 89
3.1.3. Cmo se mide la calidad de un indizador? ................. 91
3.2. Evaluacin de la recuperacin .................................................... 91
3.2.1. Microevaluacin: silencio y ruido ................................. 92
3.2.2. Macroevaluacin: exhaustividad y precisin ................ 93
3.3. El papel del vocabulario en la recuperacin ............................... 93
3.3.1. Falta de especificidad del lenguaje documental ............ 94
3.3.2. Coordinaciones falsas .................................................... 95
3.3.3. Relaciones incorrectas entre trminos ........................... 95
Bibliografa................................................................................................. 99
CC-BY-NC-ND PID_00195714 5 Anlisis de contenidos
Introduccin
El objetivo del anlisis de contenido es identificar y representar de manera
precisa la materia de los documentos, con el objetivo de permitir la recupe-
racin. Esta parte del anlisis documental establece los puntos de acceso por
materias o contenidos de los documentos.
Se basa en dos operaciones:
a) El resumen, que es la representacin abreviada y precisa del contenido.
b) La indizacin, que consiste en representar el contenido del documento
mediante trminos de indizacin extrados de lenguajesdocumentales: no-
taciones, encabezamientos de materias, descriptores, identificadores, palabras
clave, unitrminos. Cuando se representa el contenido siguiendo un sistema
de clasificacin en lugar de una indizacin se conoce como clasificacin.
Las normativas que usamos en esta parte del anlisis documental son:
UNO 50-103-90, preparacin de resmenes.
UNO 50-121-91, mtodos para el anlisis de documentos, determinacin
de su contenido y seleccin de trminos de indizacin.
Las normativas propias de cada lenguaje documental: vocabulario, com-
binaciones, mantenimiento, actualizacin.
Campos propios del anlisis de contenido en la referencia de PierreBonnassie: materia y resumen
Campos propios del anlisis de contenido en la referencia de Pierre Bonnassie
Materia Historia medieval - Terminologa
Resumen Este es un libro poco corriente. Ni diccionario ni manual, significa una nueva y eficaz forma de introduccin a la vez analtica y sinttica a los problemas de la historia de la Edad Media. En efecto, a partir del anlisis demedio centenar de conceptos fundamentales y de su evolucin semntica, el profesor Pierre Bonnassie, de laUniversidad de Toulouse, consigue definir, con inslita precisin, las grandes cuestiones que hoy tiene plantea-das la historia medieval. El resultado es un texto innovador, de uso obligado para profesores y estudiantes, queencontrarn en l un instrumento de trabajo insustituible.
Los lenguajes documentales usados tradicionalmente en los archivos son cua-
dros de clasificacin construidos a medida del fondo. El anlisis de conteni-
do es sinttico, no se analizan los documentos individualmente, sino el fon-
do en su conjunto o los expedientes, dado que un documento forma parte
de una cadena de documentos ordenados (cronolgicamente, orgnicamente,
funcionalmente) y aislado pierde su contexto. La clasificacin puede ser org-
nica, funcional (por funciones, por grandes materias) o mixta. No obstante,
para describir el contenido de un expediente o de una serie, ms all de sus
Clasificacin orgnica
La clasificacin orgnica es elretrato de la estructura orgni-ca de la entidad que haya ge-nerado la documentacin.
CC-BY-NC-ND PID_00195714 6 Anlisis de contenidos
funciones o situacin orgnica, hay lenguajes documentales, como los tesau-
ros, que permiten identificar las temticas para la posterior explotacin de la
informacin contenida en los documentos.
En bibliotecas y centros de documentacin se usan la mayora de los lenguajes
documentales. Los ms habituales son los sistemas de clasificacin, como la
Clasificacin Decimal Universal (CDU) o la Clasificacin Dewey, los listados
de autoridades, las listas de encabezamientos de materia, los tesauros y la in-
dizacin automtica por palabras clave.
En este mdulo veremos con detenimiento las tcnicas de resumen y los len-
guajes documentales, como instrumentos para describir el contenido de los
documentos.
CDU
CDU es la sigla de ClasificacinDecimal Universal.
CC-BY-NC-ND PID_00195714 7 Anlisis de contenidos
1. El resumen humano y automtico
Segn la norma UNE 50-103-90 Preparacin de resmenes, un resumen es
la presentacin abreviada y precisa de un documento, sin interpretacin
ni crtica y sin mencin expresa del autor del resumen.
Cuando decimos documento nos estamos refiriendo a todo tipo de documen-
to, sea cual sea su soporte material. Podemos resumir un texto, la imagen de
una fotografa, un vdeo, audios, informacin en lnea o hipertextos, un ex-
pediente o una serie.
Los resmenes, como la indizacin, pueden ser de elaboracin humana o au-
tomtica. En el primer caso hay cuatro tipos de personas que pueden redactar
un resumen. En el caso de los resmenes automticos, se trata de un software.
1)Resumenhumano:
a) El autor del documento. Los resmenes elaborados por los propios autores
son muy habituales en el mundo de las comunicaciones cientficas y tecno-
lgicas.
b) Un especialista en la materia de la que trata el documento.
c) La editorial. Son los resmenes que aparecen en la contraportada de los
libros impresos y que tienen una funcin claramente publicitaria.
d) Un profesionaldeladocumentacin. Aporta su conocimiento sobre la re-
daccin de buenos resmenes y los elabora pensando en las utilidades futuras.
Ved tambin
Encontraris la norma UNO50-103-90 en el espacio Ma-teriales y fuentes de las aulas.
2)Resumenautomtico: los programas se conocen como programas resumi-
dores de textos o Automatic Text Summarizer.
La norma internacional ISO 214:1976, traducida por AENOR como norma
UNE 50-103-90 Preparacin de resmenes, establece las directrices que se tienen
que seguir para presentar los resmenes en los documentos. Pone especial n-
fasis en la preparacin de resmenes por parte de los autores de los documen-
tos primarios y en la misma publicacin.
Programas resumidores detextos
Un ejemplo de programas re-sumidores de textos es Swe-sum, que hace un anlisis es-tadstico del texto y elaborael resumen con los fragmen-tos que contienen las palabrasms ponderadas (ms repeti-das pero con significado).
http://swesum.nada.kth.se/index-eng.htmlhttp://swesum.nada.kth.se/index-eng.html
CC-BY-NC-ND PID_00195714 8 Anlisis de contenidos
Redactar un resumen es fcil. Lo difcil es redactar un buen resumen. El punto
de inflexin es la calidad del resumen, que lo har ms o menos til en un
sistema documental. Un resumen propagandstico no aportar muchos con-
ceptos principales para indizar, aunque haya sido un buen reclamo para las
ventas.
Ejemplo de resumen elaborado por la editorial con finalidad publicitaria
Sagan, Carl. Cosmos. Traducci: Albert Santamaria i Martnez; prleg: Ricard Guerrero.Barcelona: Publicacions i Edicions de la Universitat de Barcelona: Omnis Cellula, cop.2006.
He aqu una de las obras ms destacadas de la literatura internacional de divulgacincientfica, publicada por primera vez en cataln. Una obra imprescindible de uno de losgrandes maestros de la divulgacin, que nos introduce en los grandes enigmas que lahumanidad ha tratado de entender y explicar desde tiempos inmemoriales, y por loscuales ha nacido lo que llamamos ciencia.
Desde la infinitud del Universo hasta el mundo invisible de los tomos, desde el naci-miento de las estrellas hasta la aparicin de la vida, Carl Sagan consigue transmitir losconocimientos de la ciencia actual de una manera clara y apasionante.
Para un analista slo tendra utilidad el ltimo prrafo, en qu aparecen trminos comouniverso, tomos, estrellas, vida.
El resumen es til en la fase de descripcin y es un excelente instrumen-
to de recuperacin, ya que el resumen ofrece ms datos que la simple
referencia documental. La principal utilidad del resumen es la de difun-
dir la informacin.
Adems, el resumen tiene otras utilidades, tal como dice la norma UNE
50-103-90:
a) Determinar la pertenencia: un resumen bien elaborado capacita a los lecto-
res para identificar de forma rpida y precisa el contenido de un documento
y decidir si hay que leerlo en su totalidad.
b) Evitar la lectura del texto completo en documentos de inters secundario.
Un resumen bien elaborado proporciona suficiente informacin sobre temas
que no sean de inters principal para el lector. Ahorra tiempo al usuario.
c) Ayudar en la bsqueda automatizada. Los resmenes automatizados incor-
porados en los catlogos son muy tiles para:
Extraer trminos de indizacin de su texto, es decir, indizar a partir del
resumen.
Hacer bsquedas de palabras clave que no se encuentran en el ttulo.
Difundir la informacin
Cada vez ms bases de da-tos referenciales ofrecen el re-sumen de sus monografas yrevistas, como por ejemploEbsco, Dialnet, Compludoc,CBUC, Eric database o ISI cu-rrent contents connect. Tam-bin lo hacen las bases de da-tos de novedades editoriales,por ejemplo la editorial Trea(recomendamos el acceso des-de la biblioteca de la UOC).
http://www.trea.es/
CC-BY-NC-ND PID_00195714 9 Anlisis de contenidos
Servir de control bibliomtrico, al comparar los trminos usados en una
ecuacin de bsqueda con los trminos que aparecen en un resumen y as
establecer la pertinencia de la recuperacin.
Ayudar a la difusin desde los servicios de alerta.
Segn Mara Pinto (1992), las caractersticasdeunresumen son las siguien-
tes:
Brevedad. Se tienen que omitir datos preliminares o temas del conocimien-
to comn.
Pertinencia. El resumen se tiene que adecuar al mensaje principal del do-
cumento, sin obviar o interpretar los datos.
Claridad y coherencia. Frases completas, dotadas de coherencia lineal y
global.
Profundidad. Vara en funcin del tipo de resumen o de los diferentes ni-
veles de detalle que se persigan.
Consistencia lingstica. Un resumen se tiene que adaptar a las pautas lin-
gsticas en uso y tiene que tener en cuenta las reglas morfolgicas y sin-
tcticas correspondientes.
Proximidad cronolgica entre las ediciones del documento original y el
resumen. Es importante que el tiempo transcurrido entre la publicacin
del original y el resumen no sea excesivo, especialmente en mbitos cien-
tficos y tcnicos.
A modo de conclusin
El resumen es la presentacin abreviada y precisa de un documento, sin interpreta-cin ni crtica y sin mencin expresa del autor del resumen.
El resumen puede ser redactado por el autor del documento, un especialista en lamateria, la editorial, un documentalista o un programa informtico.
El resumen es til en dos fases de la cadena: en los procesos de seleccin y adquisicinque se da en la primera fase de la cadena y en la fase de salida, donde es un excelenteinstrumento de recuperacin.
La principal utilidad del resumen es la de difundir la informacin, pero adems, elresumen tiene otras utilidades, como determinar la pertinencia, evitar la lectura deltexto completo en documentos marginales y ayudar a la bsqueda automatizada.
Los resmenes automatizados incorporados en los catlogos son muy tiles para ex-traer trminos de indizacin del texto, para hacer bsquedas de palabras clave que nose encuentran en el ttulo, para servir de control bibliomtrico y ayudar a la difusina travs de los servicios de alerta.
Lectura complementaria
Podis ampliar la informa-cin sobre el resumen leyen-do la obra siguiente:M.PintoBatanea (1992). Elresumen documental: principiosy mtodos. Madrid: Pirmi-de/Fundacin Germn Sn-chez Ruiprez (Biblioteca delLibro, Y).
CC-BY-NC-ND PID_00195714 10 Anlisis de contenidos
1.1. Tipos de resmenes
Hay diversos tipos de resmenes, segn el tamao, los usuarios y la profundi-
zacin en el contenido. Los tipos ms habituales son los resmenes informa-
tivos, indicativos y selectivos.
1)Resumeninformativo
Redactaremos el tema central, temas adicionales, naturaleza y objetivo del do-
cumento, metodologa, resultados, conclusiones y anexos. La idea de fondo es
que un resumen informativo puede sustituir en ocasiones la lectura del docu-
mento original. La norma UNE 50-103-90 recomienda que el esquema a seguir
sea el de:
objetivo + metodologa + resultados (o conclusiones)
Sin embargo, no hay que seguir forzosamente este orden, ya que hay entornos,
como el tcnico cientfico, donde se prefieren los resmenes orientados a los
resultados (para que la discriminacin sea ms rpida).
En cuanto al tamao del resumen, la norma da pautas pero advirtiendo que el
contenido del documento es ms significativo que las pautas para determinar
la extensin del resumen. De todas maneras la norma nos sugiere:
Monografas, informes, tesis: 500 palabras.
Artculos de revista, captulos de monografas: 250 palabras.
Comunicaciones breves: 100 palabras.
Ejemplo de resumen informativo
Consuegra Fernndez, Jess: El Ajedrez: evolucin y claves de un juego milenario. EnMundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61.
Artculo divulgativo sobre el juego del ajedrez, estructurado segn sus orgenes, anti-gedad, expansin, variantes y simbolismo.
El origen del ajedrez es hind y el primer representante conocido es el Ghaturanga, apa-recido entre el 3000 y el 2000 a.C. en Sri Lanka, aunque no aparece documentado hastael siglo VII d.C.
Del Ghaturanga proceden en cascada las diferentes variantes del ajedrez: de la India viaja Persia en el siglo VI d.C., donde pas de los 4 jugadores originales a 2 en la versin persaShatranj. Desde Persia se extendi hacia Occidente y hacia Oriente.
Hacia Occidente: paralela a la expansin rabe, el juego llega a la Pennsula Ibrica du-rante la Alta Edad Media, y desde aqu se expande al resto de Europa y al resto del mundoen la poca de las colonizaciones.
Hacia Oriente: en la China, en el s. VII d.C., el ajedrez toma la forma del ajedrez chinoXiang qi; en el Japn, el Shogi; en Indochina, el ajedrez birmano y tailands. Tanto enOriente como en Occidente, el ajedrez presenta innumerables variaciones locales.
CC-BY-NC-ND PID_00195714 11 Anlisis de contenidos
El tablero y las fichas parecen poseer un significado simblico. El tablero, con la alter-nancia de casillas blancas y negras, forma un mandala. El simbolismo de las fichas esmenos esotrico y ha ido cambiando segn los tiempos: obispos, elefantes, etc.
El autor concluye que el ajedrez, adems de un juego, es una herramienta educativa deprimer orden, casi una ciencia.
Como podis comprobar, este resumen tiene 237 palabras.
2)Resumenindicativo
Redactaremos slo las ideas centrales del documento. Su lectura no puede sus-
tituir la lectura del original. Como su nombre sugiere, el resumen indicativo
presenta de forma abreviada y muy sinttica el contenido o la tipologa del
documento. Su extensin puede oscilar entre una frase o 4 lneas de texto.
Ejemplo de resumen indicativo
Consuegra Fernndez, Jess: El Ajedrez: evolucin y claves de un juego milenario. EnMundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61.
Artculo divulgativo sobre el juego del ajedrez, trata de su origen hind, antigedad,expansin histrica tanto en Oriente como en Occidente, variantes nacionales y simbo-lismo del tablero y las fichas.
3)Resumenselectivo
Redactaremos slo una parte concreta del documento. El ms habitual es el
resumen de conclusiones, pero tambin hay otros tipos, como la resea (re-
view), que es un anlisis del documento con elementos crticos. Este tipo de
resumen se adapta muy bien a las necesidades de los usuarios, por ejemplo in-
vestigadores o tcnicos que necesitan un dato muy concreto sobre el objetivo
del documento o las conclusiones a las que llega.
Ejemplo de resumen selectivo
Consuegra Fernndez, Jess: El Ajedrez: evolucin y claves de un juego milenario. EnMundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61.
El ajedrez, adems de un juego, es una herramienta educativa de primer orden, casi unaciencia.
A modo de conclusin
Los resmenes ms habituales son el resumen informativo, el indicativo y el selectivo:
El resumeninformativo consigna el tema central, temas adicionales, naturaleza yobjetivo del documento, metodologa, resultados, conclusiones y anexos. La idea defondo es que un resumen informativo puede sustituir en ocasiones a la lectura deldocumento original.
El resumenindicativo consigna slo las ideas centrales del documento. Su lecturano puede sustituir a la lectura del original.
El resumenselectivo consigna slo una parte concreta del documento. El ms ha-bitual es el resumen de conclusiones, pero tambin hay otros tipos, como la resea(review).
CC-BY-NC-ND PID_00195714 12 Anlisis de contenidos
1.2. Resumen automtico
Una de las necesidades ms perentorias ante el aumento de informacin digi-
tal debido al crecimiento exponencial de Internet es manejar y filtrar el gran
volumen de informacin. Una de las soluciones aportadas por el PLN han si-
do los programas de resumen automtico, que actan sobre textos, imgenes,
webs y correo electrnico.
Los primeros en trabajar en el campo de la automatizacin de los resmenes
fueron Hans Peter Luhn en el ao 1958 y Edmundson en 1969, que aplicaron
tcnicas como la frecuencia de las palabras, o la posicin de una frase dentro
de un documento para redactar resmenes sin intervencin humana.
A partir de estas primeras investigaciones se han perfeccionado muchas tcni-
cas diferentes basadas en conocimiento y recursos lingsticos (como las de
Lin y Hovy, 2002; Gotti et al., 2007) o basadas en mtodos estadsticos y de
aprendizaje automtico (Hirao et al., 2002; Svore, 2007) (autores citados en
Lloret et al., 2008; y Mateo et al., 2003).
Hans Peter Luhn
ltimamente las investigaciones giran en torno al resumen multidocumento,
es decir, resumir ms de un documento (Goldstein et al., 2000; Qiu, 2007; Huo
y Chen, 2008) de contenidos afines o redundantes (autores citados en Lloret
et al., 2008; y Mateo et al., 2003).
Los resmenes automticos se conocen tambin como extracts. La terminolo-
ga anglosajona diferencia as los extracts y los abstracts. Los extracts son los
resmenes formados a partir de la extraccin de algunas frases del texto pre-
viamente seleccionadas por un programa, mientras que los abstracts son los
resmenes elaborados por una persona.
La base de todas las tcnicas de funcionamiento de un programa de
resmenes automtico es el cmputo de la frecuencia de las palabras.
Hay diversas herramientas para hacer estos clculos, por ejemplo WVTool. Se
trata de contar cuntas veces sale una palabra no vaca en el texto.
Lecturascomplementarias
Podis consultar los resulta-dos de las investigaciones deestos autores en los artculossiguientes:E.Lloret;O.Ferrndez;R.Muoz;M.Palomar (2008).Integracin del reconoci-miento de la impliacin tex-tual en tareas automticas deresmenes de textos. Proce-samiento del lenguaje natural,n. 41, pg. 183-190.P.L.Mateo;J.C.Gonzlez;J.Villena;J.L.Martnez(2003). Un sistema para resu-men automtico de textos encastellano.
http://wvtool.sourceforge.net/http://hdl.handle.net/10045/8577http://hdl.handle.net/10045/8577http://hdl.handle.net/10045/8577http://hdl.handle.net/10045/8577http://www.daedalus.es/fileadmin/daedalus/doc/I+D/DAEDALUS-RP-SEPLN_2003.pdfhttp://www.daedalus.es/fileadmin/daedalus/doc/I+D/DAEDALUS-RP-SEPLN_2003.pdfhttp://www.daedalus.es/fileadmin/daedalus/doc/I+D/DAEDALUS-RP-SEPLN_2003.pdf
CC-BY-NC-ND PID_00195714 13 Anlisis de contenidos
Ejemplo de funcionamiento de un programa de resmenes automtico(extrado de Lloret et al., 2008)
Tropical storm Gilbert formed in the eastern Caribbean and strengthened into a hurri-cane Saturday night. There were no reports of casualties.
Oracin 1: Tropical (2) storm (6) Gilbert (7) formed (1) in (0) the (0)eastern (1) Caribbean (1) and (0) strengthened (1) into(0) a (0) hurricane (7) Saturday (4) night (2).
Oracin 2: There (0) were (0) no (0) reports (1) of (0) casualties (1).
Lo primero que vemos es que las palabras vacas, es decir, las palabras que no tienensignificado (preposiciones, artculos, verbos) no se computan.
Al lado de cada palabra con significado vemos el nmero de veces que sale en todo el tex-to. Se suman los valores, de manera que la oracin 1 tiene 3,2 puntos y la oracin 2, 0,2.El programa seleccionar la frase 1 como ms representativa para el resumen automtico.
Este sistema de resumir a partir de las frases con las palabras ms significativas
en el texto parece simplista pero tiene cierta justificacin. Segn Kupiec et al.
(1995) aproximadamente el 80% de las frases en resmenes humanos estn
copiadas literalmente o con pequeas modificaciones del texto original.
A partir de esta base estadstica se incorporan otras tcnicas para dotar al pro-
grama de ms conocimiento y paliar la escasa coherencia del resultado, como
puede ser, por ejemplo, la resolucin de la anfora o aplicar programas (por
ejemplo, WordNet) que proporcionen relaciones como las de sinonimia o hi-
peronimia, o mecanismos para detectar y eliminar la redundancia.
Definimos brevemente qu son las anforas y la hiperonimia:
a) Las anforas son la relacin de referencia entre un elemento lingstico y
otro anterior en el discurso.
b) Decimos que una palabra es hipernima cuando tiene un campo significa-
tivo que incluye otro de menor extensin.
Los expertos consideran que la tecnologa actual no tiene problemas para de-
tectar las frases con ms significado, pero s para ordenarlas segn su impor-
tancia.
Los programas funcionan a grandes rasgos de la siguiente manera: se copia
el texto a resumir o bien se escribe la direccin del documento. Se escoge el
tipo de documento (acadmico, periodstico, etc.) y el tanto por ciento de
reduccin del texto.
A continuacin tenis unos cuantos programas de los ms conocidos:
Connexor
Daedalus
Anfora
El Saln del Hobby ha tenidoms de 60.000 visitantes esteao. Este saln se ha converti-do en la feria de ocio familiarms visitada.En este ejemplo, la anfora seda en este saln, que hacereferencia al Saln del Hobby,expresado en la frase anterior.Como se puede comprobar, sien el resumen automtico apa-rece slo la segunda frase, ellector no sabr a qu saln ha-ce referencia.
Hiperonimia
Color es un hipernimo. Sucontrario es hipnimo: amari-llo, naranja, verde son hipni-mos.
http://wordnet.princeton.edu/http://www.connexor.com/http://stilus.daedalus.es/demoIL.php?demo=res
CC-BY-NC-ND PID_00195714 14 Anlisis de contenidos
Extractor
FociSum
InTEXT (Dynamic Summarizing)
Inxight Summarizer
IslandInText
K-Site de Daedalus
Pertinence Summarizer
Sinope Summarizer
Summarizer
SweSum1
System Q
TextAnalyst
Trestle
El programa K-Site de Daedalus
De entre los programas de resumen automtico mencionados, veamos el funcionamientodel programa K-Site de Daedalus. Este programa tiene cinco mdulos:
Mdulo1:Anlisismorfosintctico. En este mdulo se determina la categora lxi-ca de cada palabra: sustantivo, verbo, adjetivo, artculo, preposicin, etc. Tambin sedetermina el lema. Estas operaciones permiten distinguir las palabras con significado(sustantivos, adjetivos, verbos) de las vacas (artculos, preposiciones, pronombres,etc.). El lema permite agrupar todas las palabras que son flexiones de otra (info/in-formar/informacin/informador/informacional/etc.). El producto final es un listadocon las palabras puntuadas y un listado de frases candidatas.
Mdulo2:Ponderacindefrases. Este mdulo recibe las palabras etiquetadas porel mdulo anterior, y su funcin es escoger entre todas las frases candidatas. Parahacerlo se ayuda de diversos submdulos que ponderan las frases segn los parme-tros siguientes: la frecuencia, la presencia de palabras indicativas (buscan palabrascomo importante, esencial, conclusiones, etc.), buscan frases que contengan palabrasque aparezcan en el ttulo, o que tengan nombres propios, o que la tipografa seadestacada (negritas, cursivas, tamao superior, etc.) y seleccionan frases que aparez-can en posiciones destacadas en el texto (al principio de cada prrafo, al final a modode conclusin).
Mdulo3:Deteccindeanforas. Una vez tiene las frases seleccionadas, puede serque se d el caso de anforas mal resueltas (una frase contiene una anfora que seencontraba en la frase previa y que no ha sido seleccionada). El programa busca lasanforas (especialmente los demostrativos pronominales o pronombres personales,por ejemplo este, aquel, lo que, eso) y su posicin en la frase: al principio, entre las seisprimeras palabras, en otras posiciones.
Mdulo4:Seleccindefrases. Este mdulo computa toda la informacin recogidaen las fases anteriores: frases candidatas, puntuaciones, deteccin de anforas. Selec-ciona las frases candidatas de puntuacin ms alta hasta llegar al tanto por cientopedido por el usuario. Si entre estas frases hay alguna que contenga una anfora, seselecciona la frase anterior (que contiene la palabra a la cual se est haciendo referen-cia) siempre y cuando forme parte de las frases candidatas y no sobrepase la longituddel resumen.
Mdulo5:Postprocesadodelextracto. Su funcin es detectar expresiones que co-nectan partes del texto, ya sea para mostrar causalidad, contraposicin, etc. Son ex-presiones del tipo por lo tanto, en contra, etc. Como en el caso de las anforas, si for-man parte de una frase seleccionada, se procura incluir en el resumen la frase con lacual estn relacionadas.
(1)Podis practicar con el programaSwesum, que es gratuito y traduceal espaol.
http://www.extractor.com/http://www1.cs.columbia.edu/~hjing/sumDemo/FociSum/http://www.intext.com/http://www.inxight.com/products/sdks/sum/http://www.islandsoft.com/products.htmlhttp://stilus.daedalus.es/demoIL.php?demo=reshttp://www.pertinence.net/index.htmlhttp://www.sinope.info/en/index.phphttp://www.copernic.com/en/products/summarizer/http://www.mcs.surrey.ac.uk/SystemQ/http://www.megaputer.com/http://nlp.shef.ac.uk/trestle/http://stilus.daedalus.es/demoIL.php?demo=reshttp://swesum.nada.kth.se/index-eng.html
CC-BY-NC-ND PID_00195714 15 Anlisis de contenidos
Por ltimo, debemos recordar que algunos procesadores de textos, como Mi-
crosoft Word, tambin ofrecen esta opcin (Autosummarize o Auto-resumen).
A modo de conclusin
Los resmenes automticos (extracts) son una de las soluciones aportadas por el PLNpara hacer frente al manejo de grandes volmenes de informacin en lnea.
Los primeros en trabajar en el campo de la automatizacin de los resmenes fueronHans Peter Luhn en el ao 1958 y Edmundson en 1969.
Las tcnicas han evolucionado de los primeros cmputos sobre la frecuencia de laspalabras, o la posicin de una frase dentro de un documento, a las tcnicas basadasen conocimiento y recursos lingsticos o en mtodos estadsticos y de aprendizajeautomtico.
La base de todas las tcnicas es el cmputo de la frecuencia de las palabras. A partirde esta base estadstica, se incorporan otras tcnicas para dotar al programa de msconocimiento y paliar la escasa coherencia del resultado, por ejemplo la resolucin dela anfora o se aplican programas que proporcionen relaciones como las de sinonimiao hiperonimia o mecanismos para detectar y eliminar la redundancia.
Los expertos consideran que la tecnologa actual no tiene problemas para detectar lasfrases con ms significado, pero s para ordenarlas segn su importancia.
CC-BY-NC-ND PID_00195714 16 Anlisis de contenidos
2. La indizacin y la recuperacin: lenguajesdocumentales y lenguaje natural
Indizar es la accin de describir o identificar un documento con relacin a su conteni-do.
Norma UNE 50-121-91.
Indizar es el resultado de examinar el documento, seleccionar los con-
ceptos y almacenarlos en una base de datos.
Esta definicin implica tres acciones, de las cuales la ms significativa es la
seleccin de los conceptos y su traduccin al lenguaje documental.
Al igual que se ha tratado en el resumen, la indizacin la puede realizar una
persona o un programa.
Si la indizacin es intelectual, es decir, la llevan a cabo personas, estas personas
pueden ser:
Profesionales (documentalistas), que llevan a cabo la tarea de indizacin
de manera individual o en equipo. A su vez, los equipos pueden indizar
de manera centralizada o coordinada.
Amateurs (usuarios de Internet que indizan de manera social o tagging,
por ejemplo, en Delicious).
El elemento humano permite un anlisis ms rico del documento, captando
conceptos y matices que un programa no llegara a detectar, pero tiene el in-
conveniente del tiempo que se tiene que dedicar y la coherencia entre indi-
zadores.
La indizacin automtica se realiza a travs de un programa informtico. Su
funcionamiento es muy sencillo: extrae del ttulo, resumen o texto completo
las palabras ms significativas. Es un mtodo econmico y muy rpido.
Larecuperacin
La recuperacin es un proceso paralelo a la indizacin.
Si se busca un dato concreto, como un ttulo (Hamlet, web semntica) o un
autor (Shakespeare, Llus Codina), la bsqueda no reviste ninguna dificultad,
ya que la peticin se efecta con unos datos objetivos y la respuesta solo puede
ser tengo resultados o no tengo resultados. En cambio, cuando no se busca
http://delicious.com/
CC-BY-NC-ND PID_00195714 17 Anlisis de contenidos
por un dato concreto sino por un tema, entonces entran en juego las mismas
tres fases (examen, seleccin y traduccin ) que en la indizacin, pero con la
diferencia de que lo que se examina y se selecciona es la peticin del usuario.
1) Examinar la peticin del usuario para identificar el contenido.
2) Seleccionar los conceptos principales de la peticin.
3) Traducir a un lenguaje documental.
En la recuperacin, una de las claves es conocer bien el lenguaje documental
que debemos consultar, porque si es as podremos llevar a cabo bsquedas
ms precisas, sobre todo en el caso de lenguajes controlados (por las relaciones
semnticas que establecen entre los trminos). As pues, el primer paso ser
averiguar qu tipo de indizacin se encuentra tras la caja de bsqueda.
Los lenguajes documentales que hay tras una fuente de informacin no son
evidentes, tienden a la invisibilidad. Los programas prefieren pantallas de bs-
queda muy simples (por ejemplo, Scirus), donde aparece una caja en blanco:
sencillo y amigable para el usuario, pero a nosotros no nos puede pasar por
alto que esconde un lenguaje documental o, ms probablemente, una combi-
nacin de lenguajes.
En el proceso de bsqueda probablemente pasaremos de una fuente de infor-
macin a otra y, en consecuencia, de un tipo de indizacin a otro.
Mientras la bsqueda se lleve a cabo en buscadores, la indizacin ser auto-
mticaylibre, pero cuando entramos en intranets y bases de datos, la indi-
zacin cambiar, probablemente, a una controlada, en cuyo caso deberemos
saber qu tipo de lenguaje las controla.
Ejemplo
Usamos un buscador generalcomo Google (indizacin auto-mtica) para llegar a la web dela Biblioteca de Catalunya y asu catlogo, que est clasifica-do con CDU, LEMAC y LENOTI(tres lenguajes controlados).
http://www.scirus.com
CC-BY-NC-ND PID_00195714 18 Anlisis de contenidos
Figura 1. Fuentes de informacin y lenguajes documentales.
Observacin
No se puede disear una tabla que relacione el tipo de fuentes de informacin y el len-guaje que utilizan porque, a pesar de que se sigue cierta tendencia, no son siempre iguales.
Las fuentes de informacin ms estndares son los catlogosbibliotecarios
(que suelen estar indizados con sistemas de clasificacin, listas de encabeza-
mientos de materia y listas de autoridades) o de archivos, y los buscadores,
que no podran existir sin la indizacin automtica. Ahora bien, el resto es
muy diverso, de modo que podemos llegar a encontrar bases de datos indiza-
das por tesauros (Unesco) o, simplemente, por descriptores libres (Delicious).
Para saber qu lenguaje indiza la fuente, es til observar si lleva un men de
opciones con enlaces del tipo Normalizacin, para profesionales, o incluso
directamente LEMAC2 o LCSH3, es decir, el nombre del lenguaje, irreconocible
para un profano pero perfectamente reconocible para los documentalistas.
En segundo trmino, podemos reconocer el lenguaje:
(2)Lista de encabezamientos demateria en cataln
(3)Library of Congress Subject Hea-dings
CC-BY-NC-ND PID_00195714 19 Anlisis de contenidos
por la forma del trmino (un cdigo ser una clasificacin, dos palabras
separadas por guin ser un encabezamiento de materia);
por un nmero de trminos en plural (nos dice que se trata de descripto-
res, habr que averiguar si son controlados de un tesauro o libres des-
criptores libres o tags);
por el tipo de fuente (un catlogo o un buscador usan siempre el mismo
tipo de lenguaje);
por la institucin que hay tras l;
por la experiencia del documentalista.
2.1. Lenguaje natural y lenguaje documental
Para indizar necesitamos los lenguajes documentales. Qu diferencia hay en-
tre el lenguaje natural y el documental?
Por lenguajenatural entendemos el lenguaje que usamos de forma co-
tidiana: cataln, castellano, vasco, gallego, francs, etc.
Por lenguajedocumental entendemos el listado o vocabulario de tr-
minos que usamos para indizar y que puede estar en formato libre o
controlado.
Y por qu hay que controlar los trminos del lenguaje natural? Porque el len-
guaje natural es ambiguo, los conceptos se pueden representar de formas di-
versas, dando lugar a problemas de recuperacin. El lenguaje natural es rico en
terminologa, en formas (plurales y singulares), tiempos verbales, acrnimos,
sinnimos, polisemias, etc.
La principal diferencia entre el lenguaje natural y el documental controlado es
precisamente el control terminolgico, que permite representar los conceptos
de forma unvoca, sin ambigedades.
Para ser ms concretos, las diferencias se dan en el nmero de trminos del
vocabulario, el control de las formas, el control del significado y las relaciones
de significado entre trminos.
2.1.1. Nmero de trminos
Los lenguajes documentales son entrpicos (Blanca Gil, 2004, pg. 20),
es decir, tienden a la seleccin, a la restriccin del vocabulario. Es el
proceso contrario del lenguaje natural, que tiende a la abundancia, a la
reiteracin de conceptos, a la sinonimia en beneficio de una expresin
ms rica.
La riqueza del lenguajenatural
Ejemplos de sinnimos delmismo concepto: Cosmos /Universo / Infinito / Firma-mento / Cielo.
Ejemplo del mismo concep-to en formas diferentes, si-glas o frases, y en idiomasdiferentes: OTAN / NATO /Organitzaci del Tractat delAtlntic Nord / Organiza-cin del Tratado del Atln-tico Norte / North AtlanticTreaty Organization.
Ejemplo de polisemia: Ban-co / Planta / Carta / Sierra /Estrella / Lengua / Capital.
Univocidad
La univocidad consiste en re-presentar un concepto con unnico trmino.
CC-BY-NC-ND PID_00195714 20 Anlisis de contenidos
Los lenguajes documentales reducen considerablemente el nmero de trmi-
nos del lenguaje natural, ya que slo tienen en consideracin los sustantivos
y algunos sintagmas nominales, pero no adjetivos, preposiciones, conjuncio-
nes, adverbios, verbos, etc. Adems, entre todos los sustantivos, escogen uno
que representar al resto cuando el significado sea el mismo. Y entre diversas
formas aceptadas por el mismo trmino, slo una ser la aceptada, como es
el caso de las siglas.
Los lenguajes documentales son en esencia sencillos, su eficacia aumenta a
medida que las reiteraciones y la redundancia son controladas en una nica
forma que rene conceptos afines.
2.1.2. Control de las formas
Los lenguajes documentales controlan las formas plural/singular, el uso
de acrnimos y siglas y la construccin de las frases, y de esta manera
establecen unos modelos.
Modelo Ejemplo
Sustantivo Pintura
Sustantivo + adjetivo Pintura medieval
Sustantivo + preposicin + sustantivo Pintores de vitrales
Estas reglas gramaticales y sintcticas unifican las palabras seleccionadas y las
frases.
Ejemplos en las listas de encabezamientos de materia
Se acostumbra a usar el singular para expresar conceptos abstractos. As, por ejemplo,es solidaridad y no solidaridades.
No se permite el uso de siglas; se prefiere la expresin entera del concepto y en lalengua del servicio de informacin y documentacin (SID4). Por ejemplo, Organiza-cin del Tratado del Atlntico Norte.
Es preferible la expresin natural del concepto compuesto, y no su forma inversa. Escorrecto Objetos de arte, y no Arte, objetos de.
2.1.3. Control del significado
Los problemas ms importantes en cuanto al significado son la sinonimia y
la polisemia.
(4)SID es la sigla de servicio de infor-macin y documentacin.
CC-BY-NC-ND PID_00195714 21 Anlisis de contenidos
a)Sinonimia: decimos que las palabras son sinnimas cuando tienen el mis-
mo significado. En un sistema documental, si no se controlan y se usan indis-
criminadamente, comportan silencio documental. En el caso de alimento,
nutriente, comida, provisin, el usuario puede estar buscando por alimento
y no recuperar documentos porque se encuentran indizados con otras formas,
como nutriente. La solucin de los lenguajes controlados es recoger todos
los trminos sinnimos y seleccionar uno para representar a todo el conjunto
de trminos que tienen el mismo significado, porque dos sinnimos son sus-
tituibles el uno por el otro en cualquier contexto.
Ejemplo
Una lista de encabezamientos de materia como la del Consejo Superior de InvestigacionesCientficas (CSIC) recoge todos estos sinnimos:
Hispanoamericanos. Iberoamericanos. Latinoamericanos. Sudamericanos.
Pero slo da como trmino aceptado Latinoamericanos. Si al SID5 llegara un documen-to titulado Los sudamericanos del siglo XX, el analista lo indizara como Latinoameri-canos, ya que es el trmino aceptado.
b)Polisemia: decimos que dos palabras son polismicas cuando el mismo
signo lingstico, palabra o sonido tiene ms de un significado. Habitualmente
el contexto de la conversacin o lectura donde est insertada la palabra desha-
ce los problemas de ambigedad, pero una palabra polismica introducida en
un sistema documental, sin el contexto, puede dar lugar a ruido documental.
Ejemplo
Un usuario puede estar buscando sobre columnas en arquitectura y recuperar datos sobrecolumnas tipogrficas de diarios. Los lenguajes documentales controlan la polisemia di-ferenciando cada significado con parntesis, usando el plural o el singular, adjetivando,etc.
Un tipo de polisemia es la homonimia. La diferencia entre ellas radica en la
etimologa de la palabra. Si la etimologa de las dos palabras es la misma, ha-
blamos de polisemia; si la etimologa es diferente, hablamos de homonimia.
Ejemplos de polisemia y homonimia
Mismaetimologa=polisemia
La polisemia se da cuando una palabra tiene un nico origen etimolgico y acaba te-niendo significados diferentes sin cambiar su categora gramatical: por ejemplo, no pasade sustantivo a verbo, como pasa en castellano entre el vino (bebida) y el vino (verbovenir). Es una palabra que con el tiempo ha ido adquiriendo diferentes significados, peroaun as, todos guardan entre s una relacin de significado; por ejemplo, en cataln ycastellano fulla/hoja, que viene del latn folia, tiene diversos significados, como hoja deuna planta, hoja de metal de una herramienta, pgina de un libro, cada una de las partesde una puerta doble o ventana, etc. Y en todos los significados lleva implcita la idea deuna lmina.
Si queremos saber si una palabra es gramaticalmente polismico, basta con consultar undiccionario etimolgico y ver si proviene de un mismo origen. Encontraremos la palabra,un nico origen y una lista de diferentes significados. En castellano podemos consultarel Diccionario de la Real Academia.
(5)A partir de ahora denotamos ser-vicios de informacin y documenta-cin con la sigla SID.
http://buscon.rae.es/draeI/
CC-BY-NC-ND PID_00195714 22 Anlisis de contenidos
Ms ejemplos de polisemia:
Servicio, del latn servitium, que ha dado lugar a oficios religiosos, lavabos, misionesmilitares, cubiertos para comer y, en deportes, poner la pelota en juego. Y en todosellos permanece la idea de ser til.
Crucero, del latn crux, significando cruz, interseccin entre las dos naves de unaiglesia, encargado de llevar la cruz a la cabeza de una procesin, viaje de placer porel mar, etc. En estos significados la idea es la de la forma de cruz, el cruzar como irde un extremo a otro.
Columna, del latn columna, que usamos para referirnos a los pilares arquitectnicos,las partes verticales de una pgina impresa de un diario, en fsica la forma que adoptanalgunos fluidos, como columnas de humo, en el mbito militar, la formacin debarcos o soldados. Y la idea que permanece es la de verticalidad.
Diferenteetimologa=homonimia
La homonimia se da cuando dos conceptos han llegado a tener el mismo nombre, lamisma forma, pero vienen de orgenes diferentes y, por lo tanto, tienen etimologas di-ferentes.
Por ejemplo, metro puede ser el transporte urbano, una unidad de medida o el utensiliopara medir. Pero el origen etimolgico entre el transporte y los otros dos significados esevidente: el primero es una abreviacin de la palabra inglesa metropolitan, y en el segundocaso viene del griego y significa medida.
Otro ejemplo: la palabra castellana botn puede venir del latn bota y significar calzadohasta el tobillo, o puede venir del alemn bytin y significar premio de una conquista.
En castellano y cataln este fenmeno es menos frecuente que en otras lenguas, como elingls o el francs, en las que abundan las palabras homnimas que dan mucho juegoen los chistes.
Dentro de la homonimia podemos diferenciar las palabras que escribindose igual tienensignificados diferentes, llamadas homgrafas, como las anteriores metro o botn, de laspalabras que sonando igual tambin tienen significados diferentes, conocidas como pa-labras homfonas: vell/bell en cataln, o tubo/tuvo en castellano.
En resumidas cuentas, la sinonimia provoca silencio documental y la
polisemia y variantes provocan ruido documental. El control termino-
lgico del vocabulario garantiza el criterio de univocidad que tienen que
tener los lenguajes documentales controlados, segn el cual un concep-
to se representa con un trmino y un trmino slo puede tener un sig-
nificado.
2.1.4. Relaciones de significado de los trminos
Por relacionesdesignificado entendemos la relacin de genrico, es-
pecfico o relacionado que puede tener un trmino con respecto a otro.
En el lenguaje natural estas relaciones son implcitas. Por ejemplo, cuando ha-
blamos de manzanas todos entendemos que se trata de una fruta fresca y que
las Fuji y las Golden son variedades concretas. Es decir, situamos el trmino
manzana dentro de una jerarqua de trminos conceptualmente ms gen-
ricos (fruta) y ms especficos (Golden, Fuji). Incluso podemos relacionar por
CC-BY-NC-ND PID_00195714 23 Anlisis de contenidos
asociacin de ideas la manzana con otras frutas, como la naranja o el pltano.
Pero en un lenguaje documental hay que definir estas relaciones, agrupando
y relacionando los trminos afines.
La estructura que relaciona los trminos es implcita en el lenguaje natural,
pero en los lenguajes documentales hay que hacerla explcita. Eso se puede
hacer de dos maneras:
a) En una secuencia jerrquica, donde la propia posicin del concepto ya de-
fine sus trminos genricos y especficos. Tambin deshace problemas de sig-
nificado.
Ejemplo de la pesca
Ved el ejemplo de la pesca extrado de la Clasificacin Decimal Universal (CDU). El con-cepto pesca puede ser la actividad econmica o la pesca como deporte. Si nos fijamos enla cadena jerrquica vemos que cada uno cuelga de una clase diferente:
6 Ciencias aplicadas. Medicina. Tecnologa63 Agricultura y ciencias relacionadas 639 Caza. Pesca
7 Bellas artes. Juegos. Deportes79 Diversiones. Espectculos. Juegos 799 Caza deportiva. Pesca deportiva.
b) En una presentacin alfabtica donde cada trmino se acompaa de todos
sus trminos relacionados, ya sean equivalentes, genricos, especficos o rela-
cionados.
El tesauro del CSIC
En el tesauro de Psicologa del CSIC6 , consultamos Sueos y encontramos:
Sueos
TGDinmica de la personalidad
TEContenido del sueoTEPesadilla
TRDj vuTRInterpretacin de los sueosTRSueo fisiolgicoTRSueo REMTRTrastornos de consciencia
Las siglas nos informan del tipo de relacin que establecen: TG significa trmino genri-co (por encima de Sueos el tesauro tiene Dinmica de la personalidad), TE son lostrminos especficos (son trminos especficos de Sueos: Contenido del sueo, Pesa-dilla) y los TR son los trminos relacionados (se relacionan con Sueo, Dja vu, laInterpretacin de los sueos, el Sueo REM, etc.).
Finalmente, las principales ventajas e inconvenientes del lenguaje natural y
el documental controlado son:
(6)Centro Superior de Investigacio-nes Cientficas
CC-BY-NC-ND PID_00195714 24 Anlisis de contenidos
Ventajas e inconvenientes de los lenguajes documentales
Ventajas Inconvenientes
Lenguajenatural AmigableActualizadoEconmico
Dificulta la bsquedaPoco preciso
Lenguajedocumentalcon-trolado
UnvocoFacilita la bsqueda
CaroPoco actualizado
A modo de conclusin
Indizar es la accin de describir o identificar un documento en relacin con su contenido.
La indizacin la puede realizar una persona (de forma centralizada o de forma coordina-da) o un programa.
Por lenguaje natural entendemos el lenguaje que usamos de forma cotidiana (cataln,castellano, vasco), y por lenguaje documental entendemos el listado o vocabulario detrminos que usamos para indizar y que puede estar en formato libre o controlado. Laprincipal diferencia entre el lenguaje natural y el documental controlado es el controlterminolgico:
El control del nmero de trminos del vocabulario: los lenguajes documentales sonentrpicos, tienden a la seleccin, a la restriccin del vocabulario.
El control de las formas: los lenguajes controlados, controlan las formas plural/sin-gular, el uso de acrnimos y siglas y la construccin de las frases.
El control del significado: los lenguajes controlados controlan la sinonimia y la poli-semia. Decimos que las palabras son sinnimas cuando tienen el mismo significado.Decimos que dos palabras son polismicas cuando el mismo signo lingstico tienems de un significado. La sinonimia provoca silencio documental y la polisemia yvariantes provocan ruido documental. El control terminolgico del vocabulario ga-rantiza el criterio de univocidad que tienen que tener los lenguajes documentalescontrolados, segn el cual un concepto se representa con un trmino y un trminoslo puede tener un significado.
Las relaciones de significado entre los trminos son las relaciones de genrico, espe-cfico o relacionado que puede tener un trmino con respecto a otro. En el lenguajenatural estas relaciones son implcitas pero en los lenguajes documentales hay quehacerlas explcitas a travs de una secuencia jerrquica o una presentacin alfabtica.
2.2. Cmo se indiza
Ahora que ya hemos visto la necesidad de contar con lenguajes documentales
para paliar la ambigedad del lenguaje natural, estamos en condiciones de
preguntarnos por el proceso de indizacin que lleva a cabo un analista.
A continuacin presentamos las fases que proponen diversos autores antes de
llegar a la que nos servir como marco de referencia en este subapartado:
Dos fases: anlisis del texto y traduccin (Chaumier, 1988; Fidel, 1994).
Tres fases: anlisis del texto, identificacin de conceptos y traduccin
(Amat, 1989; Norma UNE 50-121-91).
Cuatro fases: anlisis del texto, identificacin de conceptos, traduccin y
establecer enlaces sintcticos entre descriptores (Slype, 1991).
CC-BY-NC-ND PID_00195714 25 Anlisis de contenidos
Cinco fases: registro de datos, anlisis del texto, identificacin de concep-
tos, traduccin y examen de la indizacin.
En este mdulo seguiremos la normaUNE50-121-91 y sus tres etapas:
1) Examinar el documento para identificar su contenido.
2) Seleccionar los conceptos principales del contenido.
3) Traducir a un lenguaje documental.
Ejemplo
Examinamos un libro titulado Mitos de antiguas civilizaciones. Leemos el ttulo, el resu-men, el sumario, etc.
En una segunda etapa seleccionamos como conceptos principales: Mitos, Grecia, Roma,India, Japn, Indios norteamericanos.
En la tercera etapa indizamos. Si indizamos con un lenguaje libre podemos escribir eltrmino como deseamos o como salga en el texto. Por ejemplo:
Mitologa india americana.
En cambio, si indizamos con un lenguaje controlado tendremos que traducir estos con-ceptos a una forma controlada. Pongamos por ejemplo que pensbamos indizar Mitolo-ga india americana. Veamos cmo quedara en tres lenguajes documentales diferentes:
CDU259.2LEMACMitologia amerndiaLEM del CSIC Indios de Amrica - Religin y mitologa
A continuacin se detalla cada parte del proceso.
1)Examendeldocumentoeidentificacindelosconceptos
El analista tiene que examinar con precisin el documento. La lectura com-
pleta es, a menudo, impracticable, pero s que tiene que prestar atencin al
ttulo, resumen, sumario, introduccin, ilustraciones y palabras o frases des-
tacadas en una tipografa diferente.
No se recomienda la indizacin slo a partir del ttulo, ya que hay ttulos que
llevan a error, y tampoco confiar en que el resumen sea un sustituto del texto,
ya que no todos los resmenes estn bien elaborados.
Norma UNE 50-121-91
UNE50-121-91. Mtodos parael anlisis de documentos, de-terminacin de su contenido yseleccin de trminos de indiza-cin.
CC-BY-NC-ND PID_00195714 26 Anlisis de contenidos
Ejemplo de ttulos y resmenes que no aportan datos significativos para laindizacin
Chesneaux, Jean. Hacemos tabla rasa del pasado? Mxico: Siglo XXI Editores 1981.Su materia es Historia, historiadores, historiografa. En el catlogo de la Biblioteca Na-cional de Espaa (BNE7) lo encontramos indizado como Historia.
Mallol, Tomas. Si la memria no em falla. Girona: CCG Ediciones 2005.Su materia es Memorias, cine, coleccionismo. En la Biblioteca de Catalunya (BC8) loencontramos indizado como Cine amateur.
Si recordamos el resumen del libro de Carl Sagan, Cosmos, nos daremos cuenta de queno era suficiente para indizar el contenido de la obra. Por estos motivos se recomiendauna lectura gil del resto de partes significativas del documento.
2)Seleccindelostrminosdeindizacin
Tal como dice la norma UNE, el analista tiene que identificar las nociones que
son elementos esenciales de la descripcin del contenido. Si la indizacin es
compartida, la institucin que la patrocina tiene que establecer claramente los
factores que considera importantes.
Para seleccionar los conceptos del documento, el analista tiene que ser cons-
ciente del nmero de conceptos (criterio de exhaustividad) y de la exactitud
de los mismos (criterio de especificidad).
a)Exhaustividad
A medida que el analista va leyendo, tiene que ir tomando nota de los con-
ceptos interesantes del documento.
Una buena praxis es la que identifica los conceptos relevantes sobre:
El tema.
Los nombres personales que puedan ser interesantes de indizar.
Los nombres geogrficos.
Las fechas cronolgicas.
La forma en que se presenta el documento: artculo, estadstica, formulario
o divulgacin, cientfico, etc.
La exhaustividad es un criterio relacionado con el nmero de conceptos que
se tienen en cuenta para caracterizar el contenido entero de un documento.
El principal criterio de seleccin es el valor potencial del concepto para los
usuarios de su SID.
(7)BNE es la sigla de Biblioteca Na-cional de Espaa.
(8)BC es la sigla de Biblioteca de Ca-talunya.
CC-BY-NC-ND PID_00195714 27 Anlisis de contenidos
Podemos distinguir entre una exhaustividad baja, media y alta en funcin del
nmero de descriptores. Es en este entorno donde la norma UNE 50-121-91
da sus recomendaciones en cuanto a la exhaustividad. Los criterios que el in-
dizador tiene que tener en cuenta son:
El tipo de SID y perfil de usuario. No es lo mismo indizar para una base de
datos genrica que para una especfica.
El tipo de documento. No se indiza con el mismo nmero de descriptores
una monografa que un artculo de revista, una tesis, etc.
Tal como recomienda la norma UNE, no es conveniente ser estrictos con el
nmero de trminos, no se tiene que limitar el nmero de forma arbitraria,
tipo para una monografa dos trminos de indizacin, ya que puede condu-
cir a una prdida de objetividad y a una deformacin de la informacin. Es
preferible sugerir un baremo, entre tantos y tantos trminos para cada tipo
documental y SID y ser flexibles, ya que los criterios que tienen que regir son
el propio contenido del documento y su posterior recuperacin.
A partir del siguiente resumen informativo, elaboraremos tres tipos de indizaciones su-giriendo un baremo (para esta asignatura y sus prcticas) y una finalidad:
Anlisis y descripcin de los errores ms frecuentes que cometen los profesionales y afi-cionados a la fotografa astronmica mientras intentan descubrir nuevos objetos celestestodava no identificados.
Estos errores son debidos a cuatro causas: errores en el proceso de positivado de la copiacomo consecuencia de la presencia de partculas de polvo en los negativos o en las lentesdel equipo de laboratorio; errores en el negativo debidos a defectos de lavado, deficien-cias en la emulsin, rayas y rasguos o por el uso de pelculas de color destinadas a serforzadas, y errores en las lentes de los objetivos, debidos a efectos de distorsin y a alte-raciones en la refraccin. Finalmente se describen otras causas: reflejos de la luz del solsobre las antenas de satlites artificiales Iridum, retoques digitales o de fotocopiadoras yduplicadoras, uso de objetivos sencillos y poco potentes para captar imgenes de cieloprofundo y, en ltimo trmino, oscilaciones del condensador de luz del microscopio.
Todos estos errores pueden dar lugar a imgenes falseadas: objetos inditos, dimetroserrneos, efectos de redondeo, alineaciones planetarias errneas, etc. El artculo facilitaimgenes de estos errores fotogrficos.
Los autores concluyen que hace falta ser cauteloso y hacer las oportunas comprobacionesantes de dar a conocer el descubrimiento de un nuevo objeto celeste a las sociedadesastronmicas.
Cuervo Herrero, C.; Fernndez Gonzlez, A.: Objetos celestes errneos. Tribuna de As-tronoma y Universo. Revista de Astronoma, Astrofsica y Ciencias del espacio. 2000. II poca,n 16 octubre. p. 36-40.
Ejemplo de los tres grados de exhaustividad
Exhaustividad baja Exhaustividad media Exhaustividad alta
Baremo1-3 Baremo4-6 Baremo7...
Ejemplo de uso: catlogo de una bibliote-ca pblica
Ejemplo de uso: bases de datos de una bi-blioteca especializada en astronoma
Ejemplo de uso: bases de datos de una bi-blioteca especializada en astrofotografa
CC-BY-NC-ND PID_00195714 28 Anlisis de contenidos
Exhaustividad baja Exhaustividad media Exhaustividad alta
Baremo1-3 Baremo4-6 Baremo7...
Errores fotogrficosFotografa astronmica
AstrofotografaErrores fotogrficosDescubrimientosIdentificacin de objetos celestesObjetos errneos
Alineaciones planetariasDefectos de lavadoDeficiencias de la emulsinDimetros errneosEfectos de redondeoErrores en el negativoErrores en el positivadoErrores en las lentesObjetos inditosObjetivosOscilaciones del microscopioPartculas de polvoRayadasReflejos del solRetoques digitales
b)Especificidad
La especificidad est relacionada con la exactitud en que un concepto parti-
cular que aparece en un documento est representado por un trmino de in-
dizacin.
Si en el texto que estamos indizando aparece el concepto Diplomacia, y este trmino apa-rece en el lenguaje documental controlado, tenemos que indizar Diplomacia. Si indi-zamos Relaciones internacionales o Embajadores no estaremos siendo especficos,como podis ver en la tabla siguiente:
Ejemplo de especificidad
Correcto,yporlotanto: Incorrectopor:Materia
Especfico Genrico Demasiadoespecfico
Diplomacia Diplomacia Relaciones internacionales Embajadores
Los conceptos se tienen que identificar de la manera ms especfica posible,
pero en determinados casos se pueden preferir nociones ms genricas:
Cuando el indizador considere que un exceso de especificidad puede ser
negativa en la recuperacin; por ejemplo, puede decidir que un modelo
muy especfico de una mquina se indice con el nombre ms genrico de
este tipo de mquinas.
Cuando la idea no est plenamente desarrollada en el documento, o slo
se haga alusin a ella.
Cuando se est a la espera de validar el trmino ms especfico.
CC-BY-NC-ND PID_00195714 29 Anlisis de contenidos
3)Traduccinaunlenguajedocumentalcontrolado
Para traducir el concepto inicial escrito en lenguaje natural a un lenguaje do-
cumental, el indizador tiene que consultar las listas del lenguaje buscando la
forma correcta de introducir el concepto.
Ejemplos
Conceptotalcomosaleeneltexto Traduccin Lenguajedocumentalutilizado
Tragicomdia 791.221.28 Classificacin Decimal Universal (CDU)
Eoltic Edat de la pedra Lista de encabezamientos de materia en cataln
Matriz tero Lista de encabezamientos del CSIC
Monarqua absoluta Absolutismo Tesauro de Historia contempornea del CSIC
Cuando el analista procede a traducir el concepto del texto se puede encontrar en lassiguientes situaciones:
a) Encuentra el concepto, solo o repartido por las tablas:
Consulta el lenguaje y encuentra el concepto a la primera. Entonces indiza con estetrmino de indizacin. Por ejemplo, buscaba Eoltic y encuentra que tiene queindizar Absolutismo.
Consulta el lenguaje y encuentra el concepto o las partes del concepto repartidospor el lenguaje. Entonces tiene que conocer las reglas de combinacin de las partesintegrantes del trmino de indizacin. Ejemplos: Una notacin con CDU como 391.91(961.3) Tatuajes de la isla de Samoa est
formada por 2 elementos, tatuajes + Samoa. Estos elementos van colocados enun orden determinado por las reglas de precoordinacin de la CDU (primero laclase principal + auxiliar).
Un encabezamiento construido con la LEM del CSIC como Agua-Aspectos eco-nmicos est formado por dos partes: Agua + Aspectos econmicos, que es unencabezamiento y un subencabezamiento respectivamente y van en este orden.
Con los lenguajes tesauros y listado de autoridades no hay una sintaxis de combinacin.
b) No encuentra el concepto:
Consulta el lenguaje y no encuentra el concepto. Entonces el indizador tiene queconocer las obras de referencia que su SID considera como autoridades reconocidas enla materia. Estas obras de referencia son diccionarios, enciclopedias, otros lenguajesdocumentales (especialmente los tesauros construidos de acuerdo con las normas ISOy UNE 50-106 y UNE 50-125), atlas, etc.
Hay lenguajes, como tesauros, donde el indizador tiene que proponer el trminonuevo como descriptor candidato y esperar a que la direccin del tesauro lo validecomo descriptor. Mientras tanto indiza con un trmino ms genrico.
2.3. Lenguajes documentales
Para indizar necesitamos los lenguajes documentales, que son vocabularios de
trminos que facilitan la representacin del contenido de los documentos.
CC-BY-NC-ND PID_00195714 30 Anlisis de contenidos
Las principales funciones de los lenguajes documentales son indizar el
contenido de los documentos y permitir su recuperacin a partir del
campo materia.
Los lenguajes documentales son de seis tipos:
1) los sistemas de clasificacin,
2) las listas de encabezamientos de materia,
3) las listas de autoridades,
4) los tesauros,
5) las listas de descriptores libres, y
6) las listas de palabras clave o indizacin automtica.
Lostrminosdeindizacin
Cada lenguaje documental proporciona un nombre diferente a su trmino de
indizacin y es conveniente que, cuando nos expresemos, lo hagamos con
propiedad.
Trminos de indizacin
Lenguaje documental Su trmino de indiza-cin se conoce como
Ejemplo
Sistemas de clasificacin Notacin o smbolo de clase 351.851:069 (Ley de Museos)
Listas de encabezamientos de materia Encabezamiento Francs-argot
Listas de autoridades Autoridad, identificador o descriptor Bcquer, Gustavo Adolfo, 1836-1870
Tesauro Descriptor Ramon Berenguer III el Gran NA: [1097-1131]
Listas de descriptores libres Descriptor Semana_santa
Listas de palabras clave Palabra clave Metro
Existe otro trmino, denominado unitrmino, que no hace referencia a nin-
gn lenguaje documental concreto, sino al hecho de que el trmino de indi-
zacin sea simple o compuesto.
La Norma UNE 50-113-92/1 define los unitrminos como el elemento
significativo ms pequeo de un lenguaje documental utilizado para
representar un concepto especfico en un sistema de indizacin coordi-
nado; no se tiene que confundir con palabra clave o descriptor.
Tercera funcin de loslenguajes documentales
Existe una tercera finalidad,que solo se da en los sistemasde clasificacin: la ordenacinaltamente significativa del fon-do documental del SID.
CC-BY-NC-ND PID_00195714 31 Anlisis de contenidos
El descriptor Semana Santa est formado por dos unitrminos: Semana ySanta. Y el des-criptor Navidad est formado por un nico unitrmino.
Diferencia entre descriptor y unitrmino
Una palabra Ms de una
Navidad Semana Santa
Hay que prestar atencin al trmino palabraclave porque su uso en la biblio-
grafa cientfica tiene varias aplicaciones que nos pueden confundir. Es habi-
tual encontrar en los artculos un apartado, bajo el resumen, denominado "pa-
labras clave", en el que el autor nos da los trminos que considera ms repre-
sentativos del texto. Estas palabras clave son muy a menudo descriptores de
procedencia desconocida (no sabemos si son libres o controlados). En cambio,
en este material docente, palabra clave se entiende como el trmino de indiza-
cin proveniente de la indizacin automtica habitualmente coincidente con
un unitrmino.
Lastipologasdeloslenguajesdocumentales
Las tipologas de los lenguaje documentales son los criterios que nos permiten
agrupar o clasificar los seis lenguajes documentales en categoras afines. Son
las siguientes:
1)Naturaleza:codificadoonatural
Por codificado entendemos el uso de un cdigo artificial compuesto por n-
meros, letras y smbolos que traducen un concepto. Solo existe un tipo de len-
guaje codificado: los sistemas de clasificacin.
Ejemplos de trminos de indizacin codificados
CDU DDC LCC
94 483 RE 1-994
Por natural entendemos el uso de palabras del lenguaje usual, habitual, no
cdigos. Es mucho ms prximo al usuario, ms amigable. Hay cinco lenguajes
documentales naturales: las listas de encabezamientos de materia, las listas de
autoridades, los tesauros, las listas de descriptores libres y las listas de palabras
clave.
Siguiendo el ejemplo anterior:
Ejemplos de trminos de indizacin naturales
Historia Diccionarios de griego clsico Oftalmologa
Reflexin
Si dominis las tipologas, po-dris responder a cuestionesdel tipo: comparad lenguajes,buscad ventajas e inconvenien-tes, causas de la complemen-tariedad, etc. Se recomiendaque las interioricis.
CC-BY-NC-ND PID_00195714 32 Anlisis de contenidos
2)Control:libreocontrolado
Un vocabulario libre es una lista de trminos extrados del lenguaje na-
tural sin sufrir ningn tipo de actuacin sobre el nmero de trminos,
la forma (singular, plural, masculino, femenino), el significado (sinni-
mo, polismico) o las relaciones entre los trminos.
Normalmente, los lenguajes libres se usan en sistemas automatizados en los
que hay un fichero inverso o diccionario de la base de datos. Presentan nume-
rosas ventajas en la indizacin, como por ejemplo el gasto mnimo de cons-
truccin, la actualizacin inmediata, una mxima coherencia y la riqueza ter-
minolgica. Sin embargo, plantean inconvenientes en la recuperacin, ya que,
al trabajar con lenguaje natural, arrastra todos los problemas derivados de la
ambigedad (sinonimia, polisemia, homonimia). Hay dos tipos de lenguajes
libres: las listas de descriptores libres y la lista de palabras clave.
Un vocabulariocontrolado es una lista previamente redactada de tr-
minos que se consideran aceptados y unvocos para la indizacin. Solo
los trminos de la lista se pueden emplear para indizar.
Se trata de trminos seleccionados tanto en su forma (plural, singular, sintag-
ma nominal, adjetivo, siglas, etc.) y en su contenido (se elige un sinnimo
de todos los posibles, los homnimos se diferencian entre ellos con parnte-
sis o adjetivos, etc.) como en sus relaciones de jerarqua y asociacin (trmi-
nos conceptualmente ms genricos o especficos y trminos que se evocan
mutuamente). Requieren unos gastos de construccin elevados, no solo en
personal cualificado, sino tambin en tiempo. Para muchos autores, son los
verdaderos lenguajes documentales. Tambin se conocen con el nombre de
lenguajesartificiales.
Su funcin documental es la de representar un concepto con un nico
trmino y que solo haya un trmino por concepto, lo que se conoce
como univocidad.
Los lenguajes controlados son cuatro:
los sistemas de clasificacin,
las listas de encabezamientos,
las listas de autoridades, y
los tesauros.
CC-BY-NC-ND PID_00195714 33 Anlisis de contenidos
Ejemplos de trminos libres y controlados
Concepto Libre Controlado
Limpieza Higiene, Limpieza, Profilaxis, Aseo, Sanidad, Desinfeccin CDU: 613LEMAC: Higiene
3)Coordinacin:precoordinacinoposcoordinacin
La precoordinacin consiste en determinar a priori cmo se combinan
los trminos, tanto en la construccin del lenguaje como a la hora de
indizar o recuperar el documento.
Asimismo, se hace referencia a la precoordinacin como la sintaxis del len-
guaje documental. Por ejemplo, en las listas de encabezamientos de materia,
los epgrafes siguen un orden concreto para evitar la dispersin de encabeza-
mientos.
As, un documento de congresos catalanes sobre arqueologa submarina se indizara co-mo Arqueologa submarina Catalunya Congresos, y no con ninguna otra de las com-binacionesposibles.
Combinaciones posibles
Las combinaciones errneas son las siguientes:
Catalunya Congresos Arqueologa submarina Arqueologa submarina Congresos Catalunya Congresos Arqueologa submarina Catalunya Arqueologa submarina Congresos Catalunya
Recordemos que el orden viene determinado por las indicaciones que acompaan a cadaepgrafe. As, vemos que Arqueologa submarina puede llevar subdivisin geogrfica y queCongresos es una subdivisin que puede ir detrs de nombres propios de persona, familias,entidades, clases de personas, grupos tnicos, guerras y temas; por lo tanto, el nico ordenposible es el de la solucin aportada.
Existen dos lenguajes precoordinados: los sistemas de clasificacin y las listas
de encabezamientos de materia.
La poscoordinacin consiste en indizar trminos sueltos. No tienen
sintaxis en el momento de la indizacin, sino que se combinarn a la
hora de la recuperacin siguiendo la lgica de los operadores booleanos.
Cada trmino indizado es un punto de acceso al documento: cuanto ms tr-
minos indicemos, mayor es la posibilidad de recuperarlo. Siguiendo con el ca-
so anterior, lo formularamos poniendo los tres conceptos en cualquier orden,
ya que no resulta relevante, por ejemplo:
Congresos and Catalunya and Arqueologa submarina
La precoordinacin en lasbibliotecas manuales
La precoordinacin era unaautntica necesidad en el en-torno de las bibliotecas ma-nuales (fichas de cartulina), yaque no se poda buscar poruna combinacin de dos tr-minos o ms.
CC-BY-NC-ND PID_00195714 34 Anlisis de contenidos
Existen cuatro lenguajes poscoordinados: las listas de autoridades, los tesauros,
las listas de descriptores libres y la indizacin automtica.
4)Estructura:jerrquicaoalfabtica(combinatoria)
En la estructurajerrquica o sistemtica, el vocabulario se presenta en forma
de arborescencia, con trminos genricos que agrupan otros ms especficos.
Todos los trminos dependen de un trmino superior y de significado ms
genrico. Esta estructura permite agrupar los conceptos por temas, as como
situarlos en su contexto, ya que la secuencia jerrquica nos informa del campo
temtico al que se adscribe el concepto.
La estructura jerrquica informa del campo del conocimiento.
Clase 1 Clase 3 Clase 6
123 Libertad y necesidad123.1 LIBERTAD. INDETERMI-NISMO123.11 Casualidad123.2 NECESIDAD123.21 Fatalismo
342.7 DERECHOS FUNDAMENTALES.DERECHOS HUMANOS.DERECHOS Y DEBERES DE LOS CIUDADANOS342.71 Nacionalidad. Ciudadana342.72/.73 Derechos de los ciudadanos. Derechosciviles. El Estado y el ciudadano342.721 Libertad individual. Habeas corpus
62-23 ENGRANAJES. ELEMENTOS MECNICOS DETRANSMISIN. DISPOSITIVOS TRANSPORTADO-RES Y DE SUJECIN62-231 Estructuras de los mecanismos de transmi-sin62-231.2 Sistemas lineales. Pares cinemticos62-231.21 Sistemas sin grados de libertad. Acopla-miento automtico. Centrado automtico62-231.22 Sistemas con un grado de libertad. Coji-nete. Barra de gua. Par de roscado (tornillo y tuer-ca)
Los lenguajes jerrquicos son dos: los sistemasdeclasificacin y los tesauros
(en la parte de presentacin sistemtica o jerrquica).
En la estructuracombinatoria, los trminos no forman cadena, sino que se
organizan en listas por orden alfabtico. Este tipo de estructura surgi como
contrapunto a la rigidez de la estructura jerrquica, que no era fcil de actua-
lizar.
Ejemplo extrado de la Lista de encabezamientos del CSIC.
rbol de la papaya
rbol de la vida
rbol del conocimiento
rboles
rboles Crecimiento
rboles Cuidados
rboles Cultivo
rboles Culto
La estructura combinatoria permite la inclusin de trminos nuevos y la elimi-
nacin de los obsoletos sin que esto afecte al resto de la estructura del lenguaje.
Ejemplo
Pongamos como ejemplo elconcepto libertad, que tienemuchas acepciones. Simple-mente viendo dnde est in-sertado, ya deducimos si setrata de la libertad filosfica,de derechos humanos o de lalibertad de movimientos enmquinas.
CC-BY-NC-ND PID_00195714 35 Anlisis de contenidos
En la secuencia anterior podramos incluir: rboles Adobo, sin alterar el resto.
La facilidad para actualizar el vocabulario los convierte en lenguajes adecua-
dos para todo tipo de entornos: enciclopdicos, cientficos y tcnicos. Los len-
guajes de estructura combinatoria son cinco:
las listas de encabezamientos de materia,
las listas de autoridades,
los tesauros,
la lista de descriptores libres, y
las listas de palabras clave.
5)Anlisis:pormaterias,porconceptosoporpalabrasclave
La diferencia entre uno y los otros estriba en indizar un tema del documento,
varios conceptos o todas las palabras con significado.
a)Pormaterias
Es la indizacin ms sinttica: indiza uno o dos trminos de indizacin. Res-
ponde a la pregunta cul es el tema de este documento?. Existen dos len-
guajes que indizan por materias: los sistemas de clasificacin y las listas de
encabezamientos de materia.
b)Porconceptos
Responden a la pregunta cules son los conceptos de este documento?.
Van ligados necesariamente a sistemas automatizados, ya que no sera factible
elaborar tantas fichas de cartulina como conceptos se indizaran. Existen tres
lenguajes que indizan por conceptos: las listas de autoridades, los tesauros y
las listas de descriptores libres.
c)Porpalabrasclave
Indizar por palabras clave representa indizar todas y cada una de las palabras
con significado del texto. Es el proceso ms analtico que hay. No se trata de
una tarea de indizacin humana, sino automtica. Solo hay un lenguaje por
palabras clave, y es evidentemente el nico lenguaje automtico: la lista de
palabras clave.
Resumen de las tipologas
Sistemas declasificacin
Listas de en-cabezamien-
tos de materia
Listas deautoridades
Tesauros Lista dedescripto-res libres
Lista de pa-labras clave
Codificado XSegnlanatura-lezadelostr-minos Natural X X X X X
Tesauro
Como podis observar, el te-sauro participa de las dos es-tructuras: tiene una presenta-cin sistemtica en forma je-rrquica y una presentacin al-fabtica en forma combinato-ria.
Reflexin
Hoy en da, la evolucin y au-tomatizacin de los sistemasde informacin posibilitan queestos lenguajes, en origen sin-tticos, puedan indizar de ma-nera ms analtica, en especiallos encabezamientos de ma-teria, que pueden indizar dos,tres o cuatro encabezamientos.O las notaciones con sistemasde clasificacin, que duplicanel campo 080 del MARC.
CC-BY-NC-ND PID_00195714 36 Anlisis de contenidos
Sistemas declasificacin
Listas de en-cabezamien-
tos de materia
Listas deautoridades
Tesauros Lista dedescripto-res libres
Lista de pa-labras clave
Libre X XSegnelniveldecontrolsobrelostrminos Controlado X X X X
Precoordinado X XSegnelniveldecoordinacindelostrminos Poscoordinado X X X X
Jerrquico X XSegnlaformadeagruparlostrminosoes-tructura
Alfabtico X X X X X
Por materias X X
Por conceptos X X X
Segnelniveldeanlisis
Por palabrasclave
X
Una buena praxis es estudiar los seis lenguajes segn la tipologa y re-
cordar frmulas como por ejemplo:
1 codificado + 5 naturales = 6
4 controlados + 2 libres = 6
2 precoordinados + 4 poscoordinados = 6
2 jerrquicos + 4 combinatorios = 6
2 por materias + 3 por conceptos + 1 por palabras clave = 6
2.3.1. Clasificar y recuperar con sistemas de clasificacin
Este apartado apuesta por redescubrir la potencia combinatoria de los sistemas
de clasificacin y comprobar su estado actual. Constataremos que, si bien son
muy prcticos en la indizacin, no lo son tanto en la recuperacin en lnea,
al menos por el momento.
CC-BY-NC-ND PID_00195714 37 Anlisis de contenidos
Sistemas de clasificacin en la Web
De los nueve principales sistemas de clasificacin implementados en estos mo-
mentos en todo el mundo, seleccionamos tres para hacer las prcticas de es-
te mdulo, aunque el porcentaje ms elevado de prcticas lo haremos con la
clasificacin decimal universal, en la versin abreviada en espaol:
1) Clasificacin decimal universal (CDU)
Universal Decimal Classification Consortium Homepage (2002, 1 de agos-
to) [en lnea]. La Haia: UDC Consortium. Act. 2002-08-01. [Fecha de con-
sulta: 10 de octubre del 2008.]
2) Clasificacin decimal Dewey (DDC)
http://www.oclc.org/dewey/resources/summaries/default.htm, 025.431:
The Dewey blog [en lnea]. [Fecha de consulta: 10 de octubre del 2008.]
Online Computer Library Center. Dewey services, Dewey decimal classifi-
cation for use with OCLC's online cataloging services [en lnea]. [Fecha de
consulta: 10 de octubre del 2008.]
3) Clasificacin de la Library of Congress (LCC)
Library of Congress Classification system [en lnea]. [Fecha de consulta: 1
de octubre del 2008.]
Clasificacin en la actualidad
Sistemas de clasificacindocumental vigentes
Los sistemas de clasificacindocumental vigentes son lossiguientes: clasificacin deci-mal universal (CDU), clasifica-cin Dewey (DDC), clasifica-cin de la Library of Congres(LCC), clasificacin china, cla-sificacin japonesa, clasifica-cin rusa (LBC, antigua BBK),clasificacin Colon (CC), cla-sificacin Bliss (CB) y clasifica-cin Brown.
Los sistemas de clasificacin son ms que centenarios. Estn considerados los
primeros lenguajes documentales verdaderos y, desde su generalizacin en las
bibliotecas en el siglo XIX, han demostrado su eficacia recuperando por mate-
rias. Ahora bien, no han estado exentos de los embates de la crtica, ya que
algunas de sus caractersticas inherentes (como el tiempo que requieren, la
sntesis o la codificacin) no parecan encajar en momentos de explosin do-
cumental, de acceso a grandes bases de datos y en red.
La dcada de 1960 supuso un momento crtico, al cuestionarse que los sistemas
de clasificacin fueran el lenguaje documental adecuado para abarcar la gran
cantidad de documentacin cientfica que se iba generando (documentacin
cada vez ms abundante y, por lo tanto, lenta de clasificar), con terminologa
nueva (que la lentitud de las actualizaciones hara imposible de asumir), con
necesidades nuevas como acceder por conceptos y palabras (cuando las clasi-
ficaciones optaban por materias).
Sistemas de clasificacin
Los sistemas de clasificacinson lenguajes controlados, co-dificados, precoordinados, sis-temticos o jerrquicos y sint-ticos por materias.
http://www.udcc.org/http://www.oclc.org/dewey/resources/summaries/default.htmhttp://ddc.typepad.com/http://ddc.typepad.com/http://www.oclc.org/dewey/updates/default.htmhttp://www.oclc.org/dewey/updates/default.htmhttp://geography.about.com/library/congress/bllc.htm
CC-BY-NC-ND PID_00195714 38 Anlisis de contenidos
Otro embate, este ms reciente, ha sido el papel que pueden tener estos siste-
mas en un entorno web, donde imperan los paradigmas de la indizacin social
y la indizacin automtica. En este contexto, tienen sentido las jerarquas y
las notaciones codificadas?
Afortunadamente, todos los lenguajes documentales tienen cabida en la repre-
sentacin del conocimiento. Las jerarquas, tambin llamadas presentaciones
sistemticas, arborescencias o incluso taxonomas, presentan una virtud ex-
cepcional a la hora de indizar y recuperar, y es que permiten situarnos en una
secuencia de trminos ms genricos o ms especficos; por lo tanto, podemos
elegir el grado de especificidad y el trmino en el contexto que nos interesa.
En la cadena siguiente observamos cmo se abre el concepto religin hasta llegar a las re-ligiones especficas del hinduismo. El analista decidir si indiza con una clase ms gen-rica o ms especfica. La decisin depender de las necesidades del SID. Por ejemplo, unSID especializado en documentacin sobre religiones probablemente indizar de maneraespecfica y escoger uno de los tres ltimos.
En el ejemplo siguiente observamos que la posicin dentro de una cadena nos informadel contexto de cada concepto. Podemos localizar el concepto iglesia cristiana en la clase27 Religin o en la 726.54 Arquitectura, segn si nos interesa un enfoque de la fe o dela arquitectura.
Ejemplo de enfoque
2 Religin 7 Arte
27 Cristianismo. Iglesias cristianas 72 Arquitectura726 Arquitectura religiosa726.5 Arquitectura de las iglesias726.54 Iglesia
Esta eleccin es posible en cuadros jerrquicos, no en listas alfabticas que
resuelven el tema de los enfoques reservando el trmino simple para un tema
y creando uno compuesto para el otro.
En la LEMAC se soluciona de la manera siguiente:
Solucin en una lista de encabezamientos de materia.
Religin Arte
Iglesia Arquitectura religiosa
CC-BY-NC-ND PID_00195714 39 Anlisis de contenidos
A los sistemasdeclasificacin se les reconoce el papel principal que han te-
nido a la hora de estructurar el conocimiento creando sistemas que permitan
representar y recuperar los datos a partir del significado de los documentos,
es decir, a partir de la materia y no de datos formales como nombres propios
o ttulos.
Las estructuras clasificatorias son elementos muy importantes en la organiza-
cin del conocimiento. Nos permiten representar y ordenar el conocimiento,
y esto, en un momento como el actual, en el que la informacin est cada vez
ms atomizada y dispersa, hace que los sistemas de clasificacin nos propor-
cionen una visin coherente y homognea, una perspectiva integradora.
Por lo que respecta a las notaciones, los cdigos numricos o alfanumricos,
todava suponen una buena opcin ante el uso amigable del lenguaje natu-
ral? Esta pregunta equivale a interrogarse sobre si un lenguaje documental
codificado tiene suficientes utilidades para merecer la inversin en tiempo y
esfuerzo. Pues bien, obtendremos la respuesta observando las ventajas que re-
presenta la codificacin, y que son las siguientes:
Los cdigos son internacionales y, por lo tanto, la codificacin permite el
intercambio (en red de mbito nacional o internacional).
Permite ordenar el fondo y disponerlo en anaqueles de manera altamente
significativa.
Permite elaborar tanto productos bibliogrficos como bibliografas nacio-
nales o selectivas (existe constancia de que la CDU se usa al menos en
treinta bibliografas nacionales).
Permite confeccionar ndices y guas por materias.
Permite difundir de forma selectiva la informacin (DSI).
Observacin
En la bibliografa cientfica encontraris que contraponen la codificacin de las clasifica-ciones con el lenguaje natural, no con el lenguaje libre, por lo que el principal inconve-niente de los sistemas de clasificacin no es que sean controlados, sino que estn codi-ficados. Si el problema fuera el control, otros lenguajes, como los encabezamientos demateria, las autoridades y los tesauros, tambin recibiran la misma crtica.
Como hemos visto, las estructuras, las jerarquas y los cdigos tienen su utili-
dad; aun as, los sistemas de clasificacin han evolucionado y han mejorado
tres aspectos bsicos: la estructura, el contenido y la visibilidadenlaWeb.
Estructura
En el caso de la CDU, que es la clasificacin que ms trabajaremos, la mejora
de la estructura pasa por potenciar lafacetacin (Broughton, 2009).
Encuesta sobre el uso de laCDU
En una encuesta del Consor-cio de la CDU (Aida Slavic,2007) llevada a cabo en dos-cientos siete pases del mundo,se concluy que ciento veinti-cuatro pases (el 60%) clasifi-caban con CDU. De estos pa-ses, treinta y cuatro (el 28%)tienen la CDU como sistemaprincipal, cuarenta y cinco (el36%) la usan en determina-dos tipos de bibliotecas y loscuarenta y cinco restantes (el36%) solo la usan en algunasbibliotecas de sus naciones.
CC-BY-NC-ND PID_00195714 40 Anlisis de contenidos
Las facetas son principios de divisin, caractersticas que las materias
tienen en comn. Las facetas agrupan los conceptos segn una caracte-
rstica concreta que comparten con otras clases.
Hay facetas de tipo universal, aplicables a todos los campos del saber (como
el tiempo y el espacio), y laspropiasdeunamateria.
Ejemplo de facetas
El espacio, el tiempo, la forma, la lengua. Por ejemplo, dentro de la faceta formapodemosencontrar miniatura, que podremos aplicar a todo tipo de conceptos,