Los metadatos
-
Upload
servicio-de-biblioteca-universidad-de-la-laguna -
Category
Internet
-
view
74 -
download
0
Transcript of Los metadatos
LOS METADATOS
José Manuel Erbez
Objetivo: Encontrar información relevante en InternetProblema: Los métodos automáticos para identificar recursos en la red (robots de búsqueda y metabuscadores) recuperan gran cantidad de información pero con poca precisiónCausa: Los documentos de la red carecen de datos suficientes de descripción
Descripciones normalizadas de recursos quesirven para que éstos puedan ser correctamente identificados y recuperados en sistemas de información digital
¿Qué son los metadatos?
Normalizadas: Los datos responden a unas “normas” (que se denominan esquemas de metadatos)
Recursos: Los datos se refieren a recursos, documentos u objetos, que puede ser tanto físicos como lógicos (digitales)
Identificados y recuperados: La finalidad de los metadatos es facilitar la localización de los documentos mediante las diferentes herramientas de recuperación de la información
● Permiten indizar gran cantidad de datos de diferentes tipos sin necesidad de utilizar un gran ancho de banda ya que se indiza la representación del objeto y no el objeto en sí
● Ayudan a describir y recuperar recursos en la red, ya que analizan el contenido del recurso en profundidad
● Comparten e integran recursos de información heterogéneos y localizados en sitios muy diversos
● Pueden controlar el acceso a información restringida
¿Para qué sirven los metadatos?
Metadatos
Metadatos
Metadatos
Repositorio
Metadatos
MetadatosMeta
datos
Repositorio
Metadatos
Metadatos
Recolector
Metadatos
Metadatos
Metadatos
Metadatos
Formalmente, los metadatos adoptan la forma de registros, que presentan secuencias de pares “atributo” - “valor". Los atributos son las características o propiedades genéricas de una clase de objetos que se han de representar, mientras que los valores son propios y distintivos de cada recurso.
Registros de metadatos
Atributos Valores
Nombre o título Sitio web de la Universidad de La Laguna
Autor Universidad de La Laguna
Fecha o fecha de actualización 2013
Localización (URL) http://www.ull.es
Tema Educación Superior, Universidades, Canarias
Conjunto de reglas y elementos que constituyen un modelo de metadatos.
Recogen cuáles son las características más representativas de los objetos que tratan de describir, así como la forma de elaborar los registros de metadatos correspondientes.
Establecen los elementos y orden en que habrán de disponerse éstos, así como el formato de etiquetado o codificado de los metadatos.
Ofrecen recomendaciones de uso de los elementos, de vocabularios especializados o acepciones específicas de términos en determinados dominios
Esquemas de metadatos
Dos maneras: ● Interna (embedded metadata), mediante integración en
el código fuente del recurso. Se suelen generar en el momento de creación de los recursos
Descripción mediante metadatos
Descripción interna
● Externa (stand-alone metadata). Se generan con posterioridad○ fichero separado de meta-información ○ campos de una base de datos que mantiene un
enlace al documento descrito; se suele usar para dar acceso a recursos externos
Descripción externa
Tipos de metadatos
Los metadatos pueden generarse por diversos métodos:● Por el propio autor/creador del recurso, con la ayuda de
herramientas creadas “ex profeso” para la generación automática de metadatos
● Por la organización que gestiona los recursos de información (P. ej., editores de bases de datos)
● Por un servicio de información, es decir, creadores externos a través de medios humanos (bibliotecarios, por ejemplo) o automáticos
Generación de metadatos
Capacidad de dos o más sistemas o componentes para intercambiar información y usar la información que han intercambiado
Interoperabilidad
Significa● Capacidad de los sistemas para trabajar entre sí en
tiempo real.● Capacidad del software para trabajar en diferentes
sistemas.● Capacidad de los datos para ser intercambiados entre
diferentes sistemas (portabilidad).
Interoperabilidad
Requiere● Formatos estandarizados de documentos.● Formatos estandarizados de metadatos.● Formatos estandarizados de protocolos de
comunicación y recuperación.● Medios estandarizados de autenticación y seguridad.
Interoperabilidad
Ejemplo de interoperabilidad: correspondencia Dublic Core / MARC
La Interoperabilidad se garantiza por medio del uso de estándares.
Los estándares son documentos que contienen especificaciones técnicas u otros criterios precisos, de modo que aquellos materiales productos, procesos y servicios que los cumplan sean compatibles entre sí.
Interoperabilidad y estándares
Estándares: identificación y localización
DOI (Digital Object Identifier). trata de proporcionar enlaces permanentes a los recursos a los que se refiere
10.5678/ISBN-0-7645-4889-4
URI (Universal Resource Identifier): cadena de caracteres que identifican a un recurso en la red. El más común es el URL (Uniform Resource Locator)
http://www.ull.es/view/institucional/ull/La_Institucion/es
Código de la organización Código específico del recurso
Protocolo de comunicación Nombre de dominio Ruta de la página
Estándares: lenguajes de marcado
HTML (HyperText Markup Language)● trata de facilitar la publicación de contenidos en la web mediante su
codificación con etiquetas (tags)● formato no propietario, independiente de plataformas● falta de capacidad expresiva, orientado a la presentación de los documentos y
no a su contenido● número limitado de etiquetas
XML (eXtensible Markup Language)● ofrece un modelo para representar el contenido informativo de los recursos de
manera que éste sea fácilmente procesable por distintas aplicaciones● permite diferenciar entre la forma de presentación de los documentos, su
estructura y su contenido informativo● número ilimitado de etiquetas
RDF (Resource Description Framework)● sistema para expresar las relaciones entre los datos (sujeto-predicado-objeto)● orientado a representar la semántica implícita en los documentos de manera
que ésta pueda ser procesada y “comprendida” por máquinas● generalmente se basa en XML
Estándares: protocolos
Z39.50● utilizado principalmente en el ámbito bibliotecario● permite realizar búsquedas en distintos catálogos de bibliotecas● permite intercambiar registros
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)● permite intercambiar registros de metadatos de publicaciones académicas
entre los distintos repositorios● “harvesting” o “recolección” de registros de metadatos hacia una base de
datos centralizada que actúa como intermediaria entre los repositorios que los contienen y el usuario final.
Estándar Dublin Core (ISO 15836:2003)
Problema:● La creciente cantidad de documentos electrónicos disponibles en la red
imposibilita su tratamiento profesional
Objetivo:● Facilitar que los propios autores dieran un tratamiento documental básico
a los contenidos que publican en la web con mínimas garantías de poder ser recuperados mediante motores de búsqueda
Estándar Dublin Core: características
Sigue cuatro principios:1. Simplicidad de creación y mantenimiento: mínimo número de elementos.2. Interdisciplinariedad. Los elementos se encuentran en documentos de
distintas disciplinas3. Alcance internacional. Existen versiones en varias lenguas.4. Extensibilidad. Se puede adaptar en función de las necesidades
mediante los denominados “perfiles de aplicación”, que posibilitan el uso del esquema DC junto con elementos procedentes de otros esquemas u otros de creación local (denominadas “extensiones”).
Se compone de 15 elementos:● Todos están al mismo nivel jerárquico.● Todos ellos son opcionales y repetibles tantas veces como sea preciso.● El orden en que se presenten es indiferente.
DC Simple y DC Cualificado
DC Simple: ● 15 elementos que sirven para describir un recurso informativo de manera
genérica
DC Cualificado: ● 15 elementos del DC Simple + 7 elementos adicionales + 33
subelementos (cualificadores)● los cualificadores matizan, especifican o precisan (no extienden) el
alcance de los elementos
DC Simple: Elementos
title [Título]: Nombre por el que formalmente se conoce el recurso.
creator [Creador]: Persona o entidad responsable de la creación del recurso o la versión del mismo
de que se trata.
subject [Materia]: Tema de que trata el recurso.
description [Descripción]: Descripción, a texto libre, del contenido del recurso.
publisher [Editor]: Entidad responsable de la publicación del recurso.
contributor [Colaborador]: Persona o entidad con responsabilidad parcial en la creación del
recurso.
date [Fecha]: Fecha de creación o publicación del recurso.
type [Tipo de recurso]: Naturaleza del recurso, en función de su contenido.
format [Formato]: Naturaleza del recurso, en función de sus características técnicas.
DC Simple: Elementos
identifier [Identificador]: Referencia para la identificación inequívoca del recurso (URI, URL, DOI,
etc,)
source [Fuente]: Referencia al identificador del recurso del que se deriva el recurso descrito.
language [Idioma]: Idioma o idiomas empleados en el recurso.
relation [Relación]: Referencia al identificador del recurso o recursos con los que está relacionado
el recurso descrito.
coverage [Cobertura]: Alcance espacial, temporal o jurisdiccional asociado al contenido del
recurso.
rights [Derechos]: Datos relativos al régimen de protección de derechos de autor que afecta al uso
del recurso descrito.
Ventajas y desventajas del uso de metadatos en la Web
En la Web, la recuperación de la información se hace, principalmente, a través de la interrogación a las grandes bases de datos que conforman los buscadores.
Interrogación: proceso mediante el cual un sistema es capaz de hacer coincidir las estrategias debúsqueda introducidas por un usuario con las representaciones de los documentos que la base contiene.
Precisión (relevancia): grado de adecuación de una respuesta documental a una necesidad de información concreta.
Ventajas y desventajas del uso de metadatos en la Web
Ventajas del uso de metadatos en la recuperación de información en la Web:
1. Su capacidad para representar el contenido de los documentos textuales
mejor que los propios documentos y que las representaciones
automáticas que de ellos efectúan los buscadores.
2. La mejora de la precisión de los sistemas de recuperación, posibilitando la
prestación de servicios “inteligentes”.
3. La posibilidad de representar el contenido de documentos no textuales,
tales como imágenes, sonidos o vídeos, que no se prestan fácilmente a
técnicas de indización automática.
Ventajas y desventajas del uso de metadatos en la Web
Inconvenientes:
1. Su creación, eminentemente manual, frente al V3 (Volumen, Variedad y
Volatilidad) que caracteriza la Web, hace que su coste sea elevado.
2. Su aplicación no resulta especialmente eficaz si no es en entornos
delimitados, finitos de la Web.
3. Puede ser objeto de usos malintencionados. Por ejemplo, mediante el uso
de en las metaetiquetas “keywords” o “description” de términos que no se
correponden con el cntenido pero que hacen que el recurso aparezca
bien posicionado.
Metadatos y Web semántica
Web semántica: una extensión de la web actual, en la que se otorga a la
información significado bien definido, mejorando las posibilidades de que los
ordenadores y las personas trabajen de forma cooperativa.
Los recursos web deben estar dotados de anotaciones semánticas
comprensibles para las máquinas (esto es, metadatos) con objeto de
desarrollar servicios sofisticados basados en técnicas automáticas de
recuperación de información.
Herramientas:
● XML
● RDF
● Agentes basados en ontologías (vocabularios)
Metadatos y Web 2.0
Web 2.0: una extensión de la web actual, en la que en la que el soporte
tecnológico tiende a hacerse invisible, facilitando la publicación de contenidos
y la comunicación entre los usuarios.
El usuario pasa a ocupar un primer plano, en el que desempeña un papel
activo
Sistemas sencillos de asignación de metadatos a los recursos por parte de
sus autores
Ventaja: facilidad de uso.
Inconveniente: falta de rigor y precisión.
Aplicaciones en bibliotecas
Una biblioteca es una unidad o sistema de información que presta servicios de
mediación de acceso a la información y los documentos
La biblioteca actual combina los soportes tradicionales con los nuevos
soportes de información
digitales (de contenido textual, imágenes, sonidos, videos, etc.).
La biblioteca ha ido avanzando en el desarrollo de distintos estándares que posibiliten una adecuada gestión de recursos de información para la prestación de dichos servicios.
Aplicaciones en bibliotecas: MODS
MODS (Metadata Object Description Schema)
Esquema XML para la descripción de recursos, a medio camino entre el MARC 21 y el Dublin Core.● Es más sofisticado y completo que DC.● No es tan complejo como el formato MARC.● Presenta un mayor grado de compatibilidad con MARC que cualquier otro esquema, por lo
que la pérdida de datos entre conversiones es menor.● Es más amigable que MARCXML
Se emplea:● Como extensión de METS.● Para generar descripciones de recursos que posibiliten su recolección (OAI-PMH).● Como formato admitido por el protocolo SRU (Search/Retrieval via URL,para la
interoperabilidad de datos de registros y su recuperación en sistemas distribuidos.● Como elemento de convergencia entre descripciones MARC y otras descripciones en lenguaje
XML.● Para la descripción de recursos en XML de manera más sencilla que con MARC.● Para generar registros de metadatos que deban ser empaquetados junto a recursos
electrónicos.
La conversión de registros de metadatos de MARC a MODS no se hace de forma directa, sino que se ha de realizar previamente una conversión de MARC a MARCXML y de ahí a MODS.
Aplicaciones en bibliotecas: MODS
Aplicaciones en bibliotecas: METS
METS (Metadata Encoding and Transmission Standard)
Especificación para la descripción, gestión e intercambio de todo tipo de recursos que puedan ser albergados en repositorios y bibliotecas digitales.
Componentes:
● Encabezamiento (metsHdr). Información relativa a la creación del documento: nombre del archivo, fecha de creación y modificación del mismo, nombre del responsable, etc.
● Metadatos descriptivos (dmdSec). Tipo de material, idioma, etc.● Metadatos administrativos (amdSec). Dispone de cuatro subcomponentes: metadatos
técnicos, derechos de acceso y uso, origen, y metadatos de conservación.● Directorio de archivos (fileSec). Registro de todos los ficheros que componen el recurso.● Mapa estructural (structMap). Especifica las relaciones jerárquicas y estructurales entre los
ficheros que componen el recurso● Enlaces estructurales (structLink). Recoge los hiperenlaces entre los ficheros indicados en
el mapa estructural.● Comportamiento (behaviorSec). Por ejemplo, tipo de aplicación necesaria para utilizar el
recurso
Aplicaciones en bibliotecas: PREMIS
PREMIS (Preservation Metadata: Implementation Strategies)
Estándar para almacenar la información necesaria para la conservación adecuada de un objeto digital
Muchas gracias