Post on 17-Dec-2014
description
Construcción de bibliotecas digitales
Greenstone
Que es una “biblioteca digital”?
Las computadoras hacen activa a la informaciónWWW ≠ BD!— organización, selección
Es una colección de objetos digitales (texto, video, audio) junto a métodos de acceso y recuperación
locales o remotos.
Para qué sirven las BD?
Adm. de conocimientos/contenidosAdministrar y acceder a repositorios de información internos
Comunicación, educación, investigaciónE-journals, e-prints, e-books, e-learning
Acceso a colecciones culturales
Archivo y preservación
…
Software BD: requerimientos claves
Tipos de documentos (libros, periódicos, páginas web, …)Formatos (texto, PDF, Word, PS, HTML …)Adquisición de contenidos (online y offline)
Metadata, content taggingIndexación y recuperación
Indexación estructurada / full textExtracción automática de metadatos
AlmacenamientoCompresión de datosAlmacenamiento eficiente de metadatosUbicación rápida de metadatos y documentos
Acceso y entregaBúsquedas estructuradas, navegación jerárquicaDistribución en CD/DVD
Software BD: Más requerimientos
Escalable para grandes coleccionesSoporte MultilingualAdm. de seguridad de accesoMonitoreo y reporte de utilizaciónConformidad con estándares
XML, Dublin Core, UnicodeInteroperación
OAI, Z39.50, MARC, CDS/ISIS, …
“Colecciones” de material digitalHasta varios Gb de texto …… + imágenes asociadas, películas, mp3,etc, etcTotalmente “indexada”Servida en WWW, o publicada en CD-ROMMulti-plataforma (Unix + Windows + Mac)Multi-formato de documentos y metadataMulti-lingual: documentos e interfasesMultimediaMetadata: estándar y no-estándar
A qué se apunta…
Greenstone ha sido elaborado como parte del proyecto de Biblioteca Digital de Nueva Zelanda por la Universidad de Waikato y actualmente es desarrollado y distribuido en colaboración con la UNESCO y la ONG Human Info. Es un software de código abierto disponible en http://www.greenstone.org bajo los términos y condiciones de la Licencia Pública General de GNU.
Qué es Greenstone?
Qué es Greenstone?
Paquete de software para crear, mantener y distribuir colecciones digitales
Código abierto (Open-source)
Desarrollado por la University de Waikato
Socios para su distribución:
UNESCO
Human Info NGO, Bélgica
Plugins — documento nuevo, formatos de metadatosClasificadores — creación libre
Greenstone
Accesible via Web browserEl Servidor corre en Windows y UnixColecciones publicadas en CD-ROM
Acceso
Full-text y por camposOpciones flexibles de navegaciónBasado en Metadata (Dublin Core)Independiente en cada colecciónBúsqueda jerárquica de frases
Búsqueda/ navegación
Documentos e interfasesChino, Arabe, Maori, Ruso, etcMultimedia: video, audio
Multilingual
Extensible
Proceso de construcción de una colección
Nº 1 Definición del alcance de la colección.
Nº 2 Configuración de la colección.
Nº 3 Selección e importación de los documentos.
Nº 4 Agregado de metadatos.
Nº 5 Construcción de la colección.
Nº 6 Puesta en servicio / Recuperación de la información.
Proceso de construcción de una colección
Input: un conjunto de documentosGreenstone “importa” esos documentos y los convierte al formato GA (XML/HTML)Greenstone “construye” los índices y las estructuras de navegación usando los archivos GAEl archivo de configuración de la colección determina la conversión del contenido, la extracción y construcción de índices y los clasificadoresLa presentación de los resultados de las búsquedas y/o clasificadores y de la interfase se determina con las cadenas deformateo y las macros
Documentos
Import Conversion al formato GAExtracción de metadatos
GA + docs fuente
Build
Collect.cfg(plugins)
Estructuras de índices y navegación, compresión…
ColecciónGreenstone
Collect.cfg(índices,
clasificadores)
Metadatosadicionales GLI
Buscar ResultadosCollect.cfg + macros
(main.cfg)
Modelo jerárquico de documento
Metadatos especificados a cualquier nivel
Búsqueda y navegaciónBúsqueda
Navegación por metadatos
Titulo Fecha Medio
Dublin Core / ad hoc
Múltiples índices de búsqueda
Independientes entre una colección y otra
Consultas lógicas y otros ajustes
Plugins (conectores)
Usados en la construcción para poderprocesar los documentos de origen.
Circuito del Plugin: los archivos son pasados por cada uno, en orden, hastaencontrar uno que pueda procesarlo.
GAPlug procesa archivos GA generados durante el importArcPlug procesa archivos GA listados en archives.infRecPlug recorre estructuras de carpetas recursivamente
TEXTPlugHTMLPlugEMAILPlugWORDPlugRTFPlugPDFPlugPSPlugFoxPlug…
Clasificador AZList
Clasificador DateList
Clasificador List
Clasificador Hierarchy
Cadenas de Formateo
texto de documentosclasificadores (HList o VList separadas)resultados de búsquedas
HTML[Text]: muestra el texto del doc.[Title], [Howto] …: muestra metadata[link] … [/link]: link al documento[parent]: refiere al documento “padre”[icon]: icono de carpeta o páginasentencias if / or statement
format
componentes
Se interpretan al mostrar la interfase o el documento
Plataformas
Sistemas operativos:Windows (+95)Linux (cualquier versión)Unix Mac OS X (algunos problemas con GLI)
Restricciones:No corre sobre Windows 3.1/3.11Para la Interfase de Bibliotecario (GLI) se necesitaJava— el cual no está mas soportado en Windows 95
Espacio en disco50 MB para el programa
250 MB para la colección de demo (opcional)25 MB para la función “exportar a CD”
Métodos de instalación
Instalar desde el ejecutableWindowsLinux
Instalar compilando el código fuenteWindowsLinuxUnixMac
Instalación de Greenstone
95/98/Me
Unix
Se necesita usuario“root” para instalar
Versióncompleta
Versióncompleta
Versióncompleta
Código probado Códigoprobado
No probado
Linux Sun Solaris o Macintosh OS/X
Otros
Windows o Unix?
Windows
Binarios para todaslas versiones
?????? Versióncompleta
Versióncompleta
3.x NT/2000
Solo “Administradores”pueden instalarlo
Biblioteca Local
El paquete de instalación de Windows contiene todos loscomponentes necesarios para instalar Greenstone con la colección de demo.
Directorio de instalación por defecto:C:\archivos de programa\greenstone
Levantar la aplicación:Inicio Greenstone digital library
Usar la Interfase de Bibliotecario(GLI): Inicio Greenstone digital library
Biblioteca Local vs Biblioteca Web
Biblioteca local: standaloneSirve colecciones en una PC …Y a otros en una misma redIncluye un servidor Web integrado
Biblioteca Web: usa un server web externoApache, Microsoft PWS/IIS
Biblioteca Local vs Biblioteca Web
Windows: ambas opcionesTodas las versiones: 95, 98, NT, 2000, ME, XPBinariosGeneralmente se usa la biblioteca local (sino hay queconfigurar el servidor web)Biblioteca web funciona con Microsoft PWS, IIS
Unix, Mac OS/10: biblioteca web soloUsa Apache (u otro servidor web)Linux binaries suppliedProbado en SUN Solaris, Mac OS/10Necesita GDBM (estandar en Linux)
Práctica
Instalación de Greenstone y colecciones de demo
(Práctica)
$GSDLHOME
collect
demo
C:\Program Files\gsdl
bin, etc, images, macrossrc, lib, packages
english.dmfrench.dmspanish.dm
Otras colecciones
Estructura de Greenstone
Conversión del Documento
Indices Clasificadores
Indice textocompleto
Base de datos
Archivosasociados
Import
Build
Documento
Metadatos
Ambos
Extracción de metadatos
Formateo interno
Documento
Metadatos
Ambos
txts, PDF, PostScript, codigo fuente, imágenes …
HTML, WORD, Email, TIFF, …
Formato XML , BibTex, OAI, MARC, …
Identificar idioma, acrónimos, miniaturas de imágenes
Procesos
Recorrer estructuras de directorios, partir archivos, abrir ZIPs…
XMLIncluye MetadatosDivisión en seccionesLinks a archivos externos
Extraer metadatos
Conversión del Documento
Formateo interno
Herramienta GLI
Ejercicio:
Descripción y armado de una pequeña colección
Herramienta GLI
Diego Spano
diegospano@gmail.com