Trabajo de Preservacion Web

1SEMINARIO DE NUEVAS TECNOLOGASPRESERVACIN WEB

Trabajo de Investigacin: Archivos web y anlisis comparativo

Profesora: Claudia LenAlumno: Jos Adrian Guilln

UNIVERSIDAD DE LOS ANDESFACULTAD DE INGENIERA

POSTGRADO EN COMPUTACIN

2CONTENIDO

PgINTRODUCCION 3ANLISIS DE ARCHIVOS WEB 4

1. Archivo Digital de la Universidad Politcnica de Madrid(UPM)

4

2. Padicat El Archivo Web de Catalua 63. ONDARENET: El Archivo del Patrimonio Digital Vasco 124. Biblioteca Virtual de Prensa Histrica (BVPH) 225. SciELO - Scientific Electronic Library Online (Biblioteca

Cientfica Electrnica en Lnea)27

CUADRO COMPARATIVO 31CONCLUSIONES 32

3INTRODUCCINEl resguardo de la informacin en la actualidad, se ha convertido en una prioridad para lasorganizaciones, instituciones, gobiernos, entre otros entes, dada la necesidad de preservar la mismapara ser empleada en un futuro en consultas de inters de cualquier ndole, que va desde locientfico hasta lo histrico. El valor de la informacin es el principal motivo de preservacin de lamisma, es por ello que entes de diversa naturaleza, se preocupan por resguardarla y conservarla enel tiempo como un patrimonio que representa un valor documental para dicho ente. Las nuevastecnologas y herramientas computacionales y la Internet, son recursos que han aprovechado estosentes, para conservar el patrimonio documental que consideran de valor, por medio del archivadoweb.En este sentido el presente trabajo, analiza algunos sitios de la web, en donde se resguarda de formadigital informacin importante de acuerdo a intereses y reas especficas, se presenta un cuadrocomparativo de las diferentes variables que los caracteriza, para vislumbrar sus diferencias ysemejanzas, entre un archivo y otro.

4ANALISIS DE ARCHIVOS WEBEste punto trata sobre el anlisis a cinco archivos web, seleccionados de acuerdo a ciertos interesesen particular, se analiza estos archivos en funcin de algunas variables.

1. Archivo Digital de la Universidad Politcnica de Madrid

Su direccin electrnica es http://oa.upm.es/ , la figura 1, muestra su sitio web.

Figura 1: Sitio web de archivo digital UPM.

El Archivo Digital UPM es el repositorio digital institucional mantenido por la Biblioteca de laUniversidad Politcnica de Madrid, creado en el ao 2005 tiene como principal propsito albergaren formato digital la documentacin acadmica y cientfica (tesis, pfc, artculos, etc..) generada enla institucin y hacerla accesible a travs de Internet, en el marco de la Iniciativa por el AccessoAbierto de Budapest y la Declaracin de Berln, de la que es signataria la Universidad Politcnica deMadrid. El ente responsable del archivo es la Universidad Politcnica de Madrid. Biblioteca UPM.Servicio de Coordinacin de Bibliotecas, mientras que los proyectos Comunidad de Madrid y FP7 /OpenAire son quienes financian el repositorio. Las colecciones que se gestionan y publican en el

5archivo digital, se pueden clasificar en: documentacin acadmica y cientfica, tales como tesisdoctorales, tesis o trabajos fin de master, PFC/TFG, artculos, ponencias, informes, libros, captulosde libros, entre otras. Estos documentos son organizados en el archivo por Ao, Materia, Tipo,Escuela, Departamento, Autor y Director.Los documentos del Archivo Digital UPM son recuperables desde buscadores reputados comoGoogle, Google Academics, Yahoo, Scirus y desde recolectores OAI reconocidos como E-ciencia,DRRD, Recolecta (REBIUN-FECYT), Driver, Oaister. El archivo digital UPM esta desarrollado ygestionado con GNU EPrints 3.3.12 EPrints, el cual es un software libre desarrollado en Escuela deElectrnica e Informtica en la Universidad de Southampton, Inglaterra. Las tecnologas empleadasy soportadas son MySQL, Apache Webserver, Perl, mod_perl, XML, DOM, ParaCite.

62. Padicat El Archivo Web de Catalua

El sitio de este archivo se puede encontrar en http://www.padi.cat/es , la figura 2, visualiza la pginaprincipal.

Figura 2: Archivo web de Catalua.

A continuacin explicaremos y analizaremos sus elementos ms resaltantes.

PADICAT (Patrimonio Digital de Catalunya) es una iniciativa de la Biblioteca de Catalunya paracapturar, preservar y difundir el archivo web de Catalua. La Biblioteca de Catalunya, responsablede capturar, conservar y difundir el patrimonio bibliogrfico de Catalua, y por extensin elpatrimonio digital, cuenta con la colaboracin tecnolgica del Consorci de Serveis Universitaris deCatalunya (CSUC) para preservar y dar acceso a versiones antiguas de pginas web publicadas enInternet, desde 2005.La misin del PADICAT es capturar, conservar y difundir el patrimonio digital de Catalua nacido enInternet. El sistema se basa en la aplicacin de una serie de programas informticos que permiten

7la captura, el almacenamiento, la organizacin y el acceso permanente a las pginas web publicadasen Internet.Sus objetivos son:

Compilar masivamente el dominio .cat. Impulsar el depsito sistemtico de la produccin web de las entidades y las empresas de

Catalua. Promover lneas de investigacin procesando de manera monogrfica los recursos de

eventos de la vida pblica catalana, como campaas electorales en Internet, el fenmenode la msica en lnea, o los museos en Internet.

Despus de unas etapas de nacimiento (2005-2006), crecimiento (2007-2008) y consolidacin(2009-2011), a partir del 2012 se persigue sistematizar la capacidad de crecimiento con la meta deincorporar anualmente unas 75.700 versiones de aproximadamente 32.000 pginas web,procedentes de:

Compilacin semestral de 30.000 recursos del dominio .cat. Compilacin semestral de 550 recursos de las 450 entidades con las que se ha llegado a un

convenio de cooperacin. Compilacin semestral de los 800 recursos procedentes de recomendaciones de los

usuarios. Compilacin nica de 1.000 recursos de colecciones monogrficas. Compilacin diaria de una parte sustancial de 30 publicaciones seriadas en lnea.

A estas metas concretas se aaden cuatro ejes permanentes de trabajo: Definicin de las estrategias de preservacin digital para el patrimonio nacido en Internet.

PADICAT proporciona radiografas peridicas de la web catalana; detecta los formatos queexperimentan a corto plazo problemas de ilegibilidad; identifica los lenguajes ms usados,etc.

Impulso a lneas de investigacin a partir de la creacin de colecciones monogrficas quecuentan con la implicacin de expertos de cada materia.

Creacin y mantenimiento de la hemeroteca digital en Internet, con la capturasistematizada de publicaciones digitales en serie. Actualmente, con una muestrarepresentativa en cuanto a tipos y contenidos, seleccionando las nacidas digitales, sinequivalente analgico.

8 Cooperacin con otros archivos web y depsitos de preservacin digital, de bibliotecas,archivos y museos, para dar una respuesta eficiente a los retos de preservacin digital yacceso a los recursos depositados.

La Biblioteca de Catalunya coordina el PADICAT. El Consorci de Serveis Universitaris de Catalunya(CSUC) es el colaborador tecnolgico del repositorio. La Generalitat de Catalunya patrocina elrepositorio, que se enmarca dentro de las polticas del Departamento de Cultura y delDepartamento de Economa y Coneixement. La Fundacin puntCAT da soporte al repositorio con elobjetivo de promover la lengua y la cultura catalanas en el mbito de Internet y de las nuevastecnologas de la informacin. El International Internet Preservation Consortium, del cual la BC esmiembro, tiene como objetivo adquirir, preservar y hacer accesible el conocimiento e informacinde Internet para las generaciones futuras de todo el mundo, promoviendo el intercambio global ylas relaciones internacionales. Cerca de quinientas entidades catalanas de todo tipo: universidadesy centros de investigacin, administraciones pblicas, empresas, colegios profesionales, partidospolticos y sindicatos, museos y sociedades culturales, clubs deportivos y asociaciones sociales, hanfirmado convenios de cooperacin con la BC para preservar su patrimonio digital. Las comunidadesinternacionales son imprescindibles para el buen funcionamiento del sistema en que se apoya elrepositorio PADICAT y su programario de cdigo abierto: Heritrix, NucthWax, Wera, Web Curator, yWayback.Desde el 21 de Julio de 2006 el sistema ha evolucionado para capturar sistemticamente y demanera eficaz un nmero creciente de sitios web. Tambin ha evolucionado el espacio necesariopara almacenar y dar acceso a estos datos. En la exposicin de datos estadsticos, nos referimos aweb, o sitio web, como un recurso publicado en Internet que est identificado por una URLindependiente. Y nos referimos a archivo, como cada uno de los archivos informticos quecontiene un sitio web. Se incluyen otros datos tcnicos que pueden ser de inters del pblico dePADICAT.

9Contenidos del repositorio:Concepto Total

Nmero de webs 72.241Nmero de capturas 306.032Nmero de ficheros 432.358.714Espacio de ARC (TB) 16,2Espacio de ndices (TB) 1,3Espacio total (TB) 17,5

Procedencia de las capturasLos recursos depositados en el repositorio proceden: de la captura del dominio .cat; de recursoscompilados para crear colecciones monogrficas; de pginas web recomendadas por el pblico dePADICAT; y de recursos digitales de las instituciones que han firmado convenio de cooperacin conla Biblioteca de Catalunya.

PADICAT se basa en la aplicacin de una serie de programas informticos que permiten la captura,el almacenamiento, la organizacin, la preservacin y el acceso permanente a las pginas webpublicadas en Internet. La Biblioteca de Catalunya cuenta con la colaboracin del Consorci de ServeisUniversitaris de Catalunya (CSUC).

Concepto Nmero dewebs

Nmero decapturas

Convenios 598 4.138Recomendados 11.507 69.655Monogrficos 7.184 95.228

.cat 43.856 108.798Total 63.145 277.819

10

Posteriormente a la fase de anlisis y test de software se determin que se utilizara el programainformtico Heritrix, empleado en la mayor parte de proyectos de captura de recursos digitales. Estees el programa encargado de compilar las pginas web tal y como las ve el usuario que navega porInternet y almacenarlas en archivos comprimidos en formato ARC. A continuacin, el programaHeritrix se complementa con NutchWax, o bien la combinacin de Hadoop y Wayback, que llevan acabo unos procesos de indexacin de la informacin compilada que permiten, ulteriormente, utilizarestos ndices para localizar los recursos dentro de la coleccin mediante sus respectivas interfacesde consulta: Wera, que permite la bsqueda por palabras clave a travs de los ndices generadospor NutchWax; y Wayback, que permite la consulta directa por URL en los ndices generados porHadoop y el mismo Wayback.

Figura 3: Arquitectura tecnolgica de PADICAT.

11

Se ha aprovechado el programa Web Curator Tool, desarrollado por la National Library of NewZealand y la British Library, como sistema de gestin documental que permite la asignacin demetadatos a una parte significativa de la coleccin, con la intencin de poder integrar, en el futuro,el fondo del depsito a la bsqueda en otros catlogos, tanto de la Biblioteca de Catalua, como deotras instituciones. Respecto al hardware que sostiene el sistema, se cuenta con seis nodos HPProLiant DL360 G4p, encargados de las tareas de recoleccin e indexacin de las pginas web. De labsqueda y la visualizacin de resultados en la interface web, se encarga de ello un clster Linux dealta disponibilidad con caractersticas de balanceo de carga de peticiones y de tolerancia de erroresen caso de desastre tcnico de ndulos que integran la plataforma. Una cabina NetApp FAS3170presenta un espacio de 19TB de disco va NFS a estos nodos.Los nodos estn conectados mediante fibra a una Storage Area Network (SAN) y el sistema secompleta con un robot donde se guardan, en cinta, copias de seguridad de los datos.Est prevista la inclusin paralela de los contenidos depositados en PADICAT al sistema COFRE(COnservem per al Futur Recursos Electrnics), un instrumento de preservacin en alta seguridadcreado a partir de la propia experiencia de la Biblioteca de Catalunya.

12

3. ONDARENET: El Archivo del Patrimonio Digital Vasco

Su URL es:http://www.ondarenet.kultura.ejgv.euskadi.net:8085/consulta/editConsultaBase.do?dispatch=editConsultaBase , ver interfaz en la figura 4.

Figura 4: Interfaz de ONDARENET.

Proyecto de recuperacin, preservacin y difusin del patrimonio digital vasco, que elDepartamento de Cultura del Gobierno Vasco est desarrollando desde el 2007. Al hablar deluniverso digital de la Comunidad Autnoma de Euskadi se hace referencia tanto al conjunto deentidades e instituciones pblicas y privadas productoras de elementos digitales o digitalizados,como al conjunto de elementos que componen el contenido digital y que son fundamentalmente:

pginas web, tanto estticas como dinmicas que contienen informacin de todo tipo(noticias, eventos, informacin cultural, etc.)

recursos de comunicacin como blogs, foros o listas de distribucin.

13

ficheros digitales asociados a los contenidos: documentos, imgenes, vdeos, grabacionesen diferentes formatos (.doc., .pdf., .jpg, .avi, etc.)

Figura 5: Distribucin del universo digital vasco.

Por otro lado, la Ley 11/2007, de 26 de octubre, de Bibliotecas de Euskadi crea la Biblioteca deEuskadi, que tal y como se recoge en el punto 4 del art. 27 se constituye en sede del patrimoniodigital vasco y entre cuyos objetivos destacan:

1. Disponer los mecanismos adecuados para garantizar la creacin, preservacin y difusin delpatrimonio digital vasco y el acceso a l.

2. Fomentar programas de cooperacin en materia de patrimonio digital.3. Velar, en colaboracin con otras instituciones, por la conservacin del patrimonio

bibliogrfico vasco en cualquier tipo de soporte.

14

Para el Departamento de Cultura del Gobierno Vasco el Patrimonio Digital Vasco es el conjunto derecursos digitales que son fruto del saber o de la expresin de la sociedad vasca en sus mltiplesfacetas y que por su valor deben ser conservadas para la posteridad.

Para dar respuesta a esta preocupacin por conservar y preservar el patrimonio digital vasco ycumplir, al mismo tiempo, el mandato legal que la Ley 11/2007, de Bibliotecas de Euskadi estableceal respecto, desde el Departamento de Cultura del Gobierno Vasco junto con la Sociedad Informticadel Gobierno Vasco (EJIE) se valor la creacin de un repositorio institucional destinado a albergarlos recursos digitales que conforman el patrimonio digital vasco.

Este es el inicio y punto de partida de Ondarenet, que se constituir como el archivo electrnico delpatrimonio digital vasco, siendo sus objetivos la captura, la conservacin y la difusin de los objetosdigitales depositados.

Resumiendo El proyecto di sus primeros pasos en 2007, encabezado por el Departamento deCultura del Gobierno Vasco con el respaldo y la colaboracin de EJIE (la empresa de servicios de TIdel Gobierno Vasco)

En lo referente a la eleccin de las herramientas informticas necesarias para llevar a cabo elproyecto se valoraron dos posibilidades: contratar un software comercial que desarrollara a medidalas herramientas necesarias o utilizar el Toolkit propuesto por el International Internet PreservationConsortium (IIPC) con un desarrollo adicional llevado a cabo por una empresa especializada ysupervisado en todo momento por los tcnicos de EJIE. Se analizaron los pros y los contras de cadaeleccin y se opt por la segunda de las opciones por varias razones: son las herramientas utilizadaspor la mayora de las iniciativas internacionales similares existentes, son relativamente fciles deinstalar y mantener, y son de cdigo abierto lo que permite una total libertad en un desarrollo adhoc y abarata los costes.

Heritrix. El robot de captura que realiza el proceso de recoleccin de los componentesdigitales sitios y pginas web de la coleccin.

NutchWAX. El motor de bsqueda de cdigo abierto que permite la bsqueda e indizacinde los elementos de la coleccin recolectados por Heritrix.

15

Web Curator. Es la herramienta diseada por la Biblioteca Nacional de Nueva Zelanda encolaboracin con la British Library que gestiona los procesos de captura y recoleccin de loselementos digitales (urls) que van a componer la coleccin. Proporciona un interfaz web defcil utilizacin a travs del cual planificar y programar las capturas.

WERA. Es la aplicacin que hace posible al usuario final la consulta de los sitios capturadospor Heritrix e indizados por WERA. Permite realizar bsquedas tanto simples comoavanzadas.

Figura 6: Herramientas del sistema de informacin del proyecto Ondarenet.

Una vez elegido el soporte informtico sobre el que sustentar las capturas, se comenz con la fasede implantacin de las herramientas seleccionadas en los servidores de EJIE, con el fin de detectarerrores y ajustar los procesos.Durante este periodo de implantacin, entre otras tareas, se optimiz la bsqueda avanzada deWERA con vistas a mejorar los resultados de las bsquedas de caracteres latinos como las tildes o

16

la letra ee, se automatiz el proceso de insercin de direcciones seleccionadas para las descargassimplificando de ese modo el proceso, se defini la estructura de directorios definitiva de laaplicacin y se afinaron los procesos de indizacin.

Diseo del mdulo de estadsticas: Asimismo se consider como un aspecto esencial del proyectoel contar con un mdulo de estadsticas que permita obtener informacin relevante acerca delnmero de descargas realizadas, de los tiempos, del volumen y tipos de los contenidos descargados,de las fechas en las que se realizan estas descargas as como de los posibles errores que pudieranhaber ocurrido. La explotacin de este tipo de datos posibilita ajustar las caractersticas de lasdescargas y optimizar las capturas. Este mdulo estadstico se realiz ad hoc sobre un esquemade base de datos ORACLE vinculado a una herramienta que realiza el proceso de descarga decontenidos. Esto es posible gracias a que tanto Heritrix como Web Curator Tool generan sus propiosficheros de informes (ficheros log) para cada una de las descargas realizadas de los que se puedeextraer informacin estadstica relevante.

Por ltimo, mencionaremos que el mdulo de estadsticas permite la explotacin de la informacinde los ficheros log, mediante la emisin de diferentes informes en formato PDF, diseados a travsde la herramienta de cdigo libre IReports lo que facilita la lectura e interpretacin de los datos.

Captura y almacenamientoModelo y tipos de capturas: Entendemos por captura la descarga de un sitio web, pgina ocomponente del mismo mediante el uso de un software adecuado. Existen mltiples experienciasrelacionadas con el archivo de webs nacionales que definen sus capturas segn dos modelos. Porun lado encontramos el modelo integral o exhaustivo consistente en realizar una serie deinstantneas de la web de un pas y que es el utilizado por Suecia, Austria o Noruega. Por otrolado hablamos de la captura selectiva (llevado a cabo por Australia o el Reino Unido) que consisteen realizar capturas de las web ms representativas del pas desde una poltica selectiva biendefinida basada en criterios como el tema, la lengua, etc. Ambos modelos cuentan con ventajas einconvenientes. Mientras que una captura integral permite llevar a cabo una recoleccin automticaa menor coste, el resultado es una coleccin irregular e incompleta que, por ejemplo, no accede arecursos de la denominada Internet invisible. Por otro lado, el modelo selectivo permite lacreacin de colecciones equilibradas pero suponen un alto coste y pueden resultar un tanto

17

parciales. Con el tiempo ambos modelos han dado paso a uno nuevo denominado hbrido quecombina la captura sistemtica de la web nacional con acuerdos con instituciones productorassegn los intereses temticos.

Con el fin de conseguir los objetivos marcados en el proyecto de patrimonio digital vasco, se haoptado por seguir un modelo hbrido que aglutina tanto procesos de recoleccin integral regionalconsistente en la realizacin de instantneas de la web vasca en Internet de forma peridica, comode recoleccin selectiva y temtica basada en la captura de urls previamente seleccionadas y quesean de inters tanto por sus contenidos, como por las caractersticas del productor. La capturaintegral se lleva a cabo sobre una serie de sitios web completos que en su conjunto componen unaimagen representativa de la web vasca bien por estar albergados en el Pas Vasco, pertenecer aentidades relacionadas con Euskadi o estar en euskera. La captura selectiva se corresponde a urlsde inters por su temtica y alcance que requieren de un mantenimiento manual. Se prev realizardentro de este apartado las denominadas capturas sobre eventos y hechos relevantes (elecciones,exposiciones, etc.) con el fin de conformar colecciones especializadas.

Elaboracin de un sistema de clasificacin: Con el fin de facilitar la bsqueda y recuperacin de lainformacin era necesario contar con un sistema de clasificacin por materias que permitiera indizarlas webs descargadas de manera unificada facilitando la localizacin de los recursos capturados atravs de un sencillo ndice de navegacin. Se consultaron las clasificaciones utilizadas por proyectossimilares como Padicat, Pandora y UK Web Archive y se comprob que todos estos proyectos utilizanun nmero ms o menos reducido de grandes grupos de temas, subdivididos, a su vez, en unsegundo nivel de materias ms especficas. Siguiendo ese mismo esquema se elabor unaclasificacin propia, dividida en 12 temas principales:

Arte Euskera

Ciencia y tecnologa Ocio y cultura

Cultura Vasca Poltica y gobierno

Economa y negocios Salud

Empresa Sociedad

Educacin e investigacin Sociedad de la informacin

18

La difusin: la interfaz de consulta: Aunque Ondarenet se configura como el archivo electrnico delpatrimonio digital vasco, su finalidad prioritaria es facilitar su acceso y consulta a los usuarios. Coneste fin se ha diseado una interfaz de consulta que permita de una forma sencilla, amigable eintuitiva la localizacin de los recursos capturados. Esta interfaz se encuentra integrada en la pginaweb del Servicio de Bibliotecas del Gobierno Vasco, accesible a travs de la direccin(http://www.kultura.ejgv.euskadi.net/r46-4878/es), y se estructura en tres tipos de consultas:

Bsqueda simple, permite recuperar la informacin bien introduciendo el trmino otrminos de bsqueda en el cajetn Texto de forma que cuando el usuario lanza unabsqueda a travs del interfaz lo hace de forma similar a como se realiza con un buscadortradicional. Asimismo es posible teclear la direccin completa en el cajetn Url si lo queinteresa es recuperar las capturas de una url concreta.

Bsqueda avanzada, permite delimitar el trmino o trminos de bsqueda medianteparmetros como el formato (imagen, sonido, etc), la fecha y la coleccin. Es posible,adems, especificar el orden en el que se quiere recuperar los resultados.

ndices, permite realizar bsquedas a travs de un ndice basado en la clasificacin utilizadapara indizar las webs capturadas.

Figura 7: Interfaz de bsqueda de Ondarenet.

19

Las bsquedas realizadas devuelven los resultados de manera similar a como los presentanbuscadores como Google o Yahoo resaltando el trmino o trminos buscados entre el contenido dela url capturada.

Figura 8: Resultado de bsqueda en Ondarenet.

Una vez implementado el soporte informtico y seleccionado el modelo de captura se realizaronuna serie de pruebas de capturas reales con el fin de detectar errores, estimar los tiempos dedescarga, etc. Se decidi iniciar la captura con una relacin de webs pertenecientes a cada uno delos 12 grandes temas de la clasificacin elaborada para lo que se seleccionaron una serie de websrepresentativas de cada una de ellas. El anlisis de estas capturas de prueba mostr que algunos delos sitios seleccionados se descargaban de forma errnea o incompleta por lo que se realiz unaseleccin ms amplia con el fin de ir descartando los errores detectados. Finalmente se consigui lacaptura correcta de 15 sitios webs.

El volumen de descargas en el entorno de pruebas de estos primeros 15 sitios web fue de 9.5Gb, yel tiempo medio de descarga de 2 horas y 49 minutos. En el siguiente cuadro se refleja el volumeny tiempo de descarga de cada una de las webs seleccionadas.

20

Observamos la gran diferencia que existe entre los tiempos de descarga de las dos urls con mayorvolumen de informacin: http://www.inguma.org/ (3.1 Gb) y http://www.eusko-ikaskuntza.org(2.56 Gb). Mientras que la primera se descarg en cerca de 5 horas y media, la segunda necesitms de un da para su descarga completa. Por ello, y dado que los tiempos dependen del estado dela red y de los agentes de descarga, parece deducirse que estas mediciones no resultan del todorepresentativas en los casos de sitios con mayor volumen de informacin.

La seleccin y captura de los sitios web es tan slo la primera parte del proyecto. Desde elDepartamento de Cultura del Gobierno Vasco se ha establecido, adems, como un objetivoprioritario la descripcin de los recursos capturados por medio de estndares internacionales que

Grupo Subgrupo Target Duracin(dd/hh/mm/ss)

Volumen

Ciencia y tecnologa Investigacin ydesarrollo

http://www.inguma.org/

00: 05:24:17 3.1 Gb

Cultura vasca Etnografa yfolklore

http://www.eusko-ikaskuntza.org

01:04:06:16 2.56 Gb

Poltica y gobierno Administracinlocal

http://www.eudel.net/ 00:00:27:50 823.76 Mb

Salud Asociaciones yfundaciones

http://www.bioef.org/ 00:02:02:35 765.69 Mb

Educacin e investigacin Formacin no-reglada

http://www.isei-ivei.net/

00:01:21:21 726.94 Mb

Cultura Vasca Historia http://www.berrikuntza.net

00:00:54:03 512.99 Mb

Educacin e investigacin Formacin no-reglada

http://www.berritzeguneak.net/

00:02:24:32 323.25 Mb

Poltica y gobierno Administracinlocal

http://www.zeberio.net

00:00:19:43 223.52 Mb

Ocio y cultura Archivos,bibliotecas ycentros dedocumentacin

http://www.eresbil.com

00:01:10:50 94.24 Mb

Arte Musica http://www.euskadikoorkestra.es/

00:00:57:06 90 Mb

Empresa Asociaciones yfundaciones

http://www.euskolabel.net/

00:00:54:43 68.45 Mb

Sociedad Religin http://www.santuariodeloyola.com/

00:00:08:51 15.06 Mb

Euskera Asociaciones yfundaciones

http://www.bagera.net/

00:00:09:04 13.92 Mb

Economa y negocios Asociaciones yfundaciones

http://www.eke-fce.com/

00:00:05:33 8.53 Mb

Sociedad de la informacin Portales temticos http://www.jalgi.com/ 00:00:01:07 981.41 Kb

21

permitan una descripcin completa y una posterior recuperacin de la informacin, garantizando asu vez la interoperabilidad con otros sistemas. Web Curator Tool, posibilita la programacin de lasdescargas de los sitios web, y permite describir los recursos capturados mediante el estndar DublinCore. De esta manera es posible aadir campos como ttulo, autor o materia mediante un breveformulario compuesto por los 15 principales campos recogidos por Dublin Core Metadata Initiative.A pesar de ello, es importante mencionar que no se trata de una herramienta de descripcin y dichosdatos no son recuperables, sino que la informacin se almacena en ficheros ARC, un formato queslo puede ser ledo por Nutch Wax.

Figura 9: Ficha descriptiva en Web Curator.

As, uno de los retos de futuro del proyecto es conseguir que los resultados de las bsquedas sepresenten en fichas descriptivas basadas en esquemas de datos XML para estndares de descripcininternacionales (Dublin Core, MODS, METS, etc.), y de esa forma convertir Ondarenet en unrepositorio institucional que cumpla con el protocolo OAI-PMH para la comunicacin e intercambiode metadatos.

22

4. Biblioteca Virtual de Prensa Histrica

La URL de este archivo web es: http://prensahistorica.mcu.es , en la figura 10, se aprecia la interfaz

Figura 10: Sitio Web de la BVPH.

La Biblioteca Virtual de Prensa Histrica constituye uno de los principales proyectos de digitalizacinque se han realizado en Espaa y tiene a nivel internacional un peso considerable, tanto por suvolumen como por sus funcionalidades. El proyecto es el resultado de la cooperacin de la DireccinGeneral del Libro, Archivos y Bibliotecas, a travs de la Subdireccin General de CoordinacinBibliotecaria, con las Comunidades Autnomas as como de diversas instituciones de carctercientfico o cultural como ateneos, fundaciones, universidades, e incluso empresas periodsticas queperviven a partir de cabeceras fundadas en el s. XIX o a principios del XX.

Estn representadas en la base de datos diecisis Comunidades Autnomas (Andaluca, Aragn,Asturias, Canarias, Castilla-La Mancha, Castilla-Len, Catalua, Comunidad Valenciana,Extremadura, Galicia, Islas Baleares, La Rioja, Madrid, Navarra, Pas Vasco y Regin de Murcia), 47provincias y 145 localidades. El Ministerio de Cultura tiene previsto ir incluyendo progresivamente

23

colecciones de las Comunidades Autnomas y provincias que an no estn representadas en la basede datos. El proyecto se inici con dos objetivos fundamentales: por una parte, preservar unosmateriales bibliogrficos que, por la propia naturaleza del soporte, se encuentran y se encontrarncada da en ms grave peligro de desaparicin y, por otra, difundir de la manera ms amplia posibleunos recursos informativos muy solicitados por investigadores y ciudadanos en general.

Fue necesario emprender junto a la digitalizacin en si misma de los materiales un proceso completode asignacin de datos y metadatos que facilitasen el recurso de la bsqueda y recuperacin de lainformacin en un entorno virtual. As, al formato MARC habitual en las aplicaciones de los sistemasde informacin bibliogrfica se le aadieron, con distintos objetivos, un amplio conjunto deesquemas de metadatos que van desde el MARC XML, para la descripcin bibliogrfica, a DublinCore/ISO 15836:2003, para la recuperacin de la informacin, a METShttp://www.loc.gov/standards/mets/ para la transmisin de los metadatos, e, incluso. a PREMIShttp://www.oclc.org/research/projects/pmwg/ para las polticas futuras de preservacin a largoplazo.

Con el estndar MARC21XML se han catalogado los registros bibliogrficos y los fondos ylocalizaciones en un nivel que rara vez aparece reflejado en los catlogos tradicionales, pero que eneste caso s era posible haciendo coincidir la descripcin bibliogrfica con la digitalizacin yvalidacin de todas y cada una de las hojas que componen cada ejemplar de cada publicacinperidica, en los hasta seis niveles de numeracin y cronologa que la normativa MARC prevbasndose tanto en la norma ISO 10324 como en la Z39.71 de NISO.

La creacin de los ficheros de esquemas Dublin Core permite alimentar o actualizarpermanentemente el repositorio OAI-PMH con que cuenta la Biblioteca Virtual de Prensa Histricalo que hace que sea recolectable por los recolectores ms importantes y as figura como proveedorde datos de OAI http://www.openarchives.org/Register/BrowseSites y OAISterhttp://www.oaister.org/viewcolls.html.

Adems, la estructura de OAI-PMH y Dublin Core permite que se establezcan SiteMaps con losbuscadores como Google o Yahoo lo que da una alta visibilidad no a la base de datos de la BibliotecaVirtual de Prensa Histrica sino a cada uno de los registros que la componen y que se pueden

24

recolectar directamente por los buscadores. Tambin los METS que se utilizan para el intercambiode colecciones de metadatos, encapsulando en ellos la descripcin de datos en formato MARC, lasdirecciones de los ficheros multipgina que componen el conjunto de las imgenes digitales, lagestin de los derechos a travs del esquema METSRigth y, como importante aportacin, losesquemas de metadatos PREMIS se ven, a su vez, complementados por el uso de un servidorSRU/SRW, pionero en Espaa tras el de la Biblioteca Virtual del Patrimonio Bibliogrficohttp://bvpb.mcu.es y acorde con las iniciativas internacionales de acceso a la informacin quepermiten superar la arquitectura cliente servidor Z39.50 y que recientemente se estn definiendopor OAIS como un web service ms. Existe, adems, la posibilidad de establecer importantessinergias entre el repositorio OAI y el servidor SRU y en esa lnea se est trabajando actualmente.

Por ltimo, hay que citar tres importantes mejoras que se han aadido en el ltimo ao. Por un lado,el acceso multilinge a la informacin que si bien es muy visible en la BVPB no lo es tanto en la BVPHaunque si se da en los casos en los que ha sido posible establecer equivalencias siguiendo lanormativa MARC y la metodologa VIAF al proyecto. La segunda es la incorporacin de ficheros PDFque permiten la consulta diferenciada de la presentacin JPEG y que para determinadas consultasy finalidades resultan a veces ms tiles. La tercera es el inicio de proyecto de reconocimiento pticode caracteres sujeta al estndar METS / ALTO que se utiliza asimismo en los principales proyectosde digitalizacin de prensa histrica como los realizados en Estados Unidos, Reino Unido, Holandao Australia. La Fsica Moderna. Revista mensual ilustrada. 1887.

En agosto de 2009 la Library of Congress por medio de la Network Development and MARCStandards Office decidi adoptar ALTO como norma y cre un comit editorial en el que participanlas bibliotecas que promueven los mayores proyectos de digitalizacin en el mundo, CCS ContentConversion Specialists GmbH, British Library, National Library of Finland, University of Kentucky,Library of Congress, Schlukbier Consultants, OCLC, Koninklijke Bibliotheek. Y lo que es msimportante, imbricarlo con un amplio conjunto de normativas, tanto norteamericanas (a travs deNISO) como internacionales (a travs de ISO y de IFLA). Desde este punto de vista, destaca laposibilidad de utilizar METS (Metadata Encoding & Transmission Standard) para, mediante unaextensin, transmitir en forma de metadatos los caracteres presentados y organizados conforme aALTO.

25

ALTO permite, por un lado, mantener de forma facsimilar la imagen de la prensa digitalizada y, porotro lado, indicar las coordenadas de todos y cada uno de los caracteres reconocidos en una pgina,lo que posibilita su indexacin y posterior bsqueda a texto completo.

La posibilidad de intercambiar, utilizando METS, informacin digital entre distintas bibliotecas se haprobado extraordinariamente til en el caso de la Biblioteca Virtual de Patrimonio Bibliogrficodnde se hace uso de estos metadatos de forma habitual. Conviene destacar igualmente laposibilidad de utilizar diversos gestores de referencias bibliogrficas, por ejemplo Zotero, paradescargar las descripciones y los vnculos a las pginas gracias a la implementacin de COinS,estructura de metadatos que transmite la informacin y la referencia bibliogrfica mediante unafamilia de estilos de citas bibliogrficas, lo que sin duda facilita considerablemente el uso porinvestigadores, especialistas y por lectores de todo tipo de la amplsima informacin que ya recogela Biblioteca Virtual de Prensa Histrica en esta versin 6.0 del programa que la gestiona.

Las aproximadamente 5 millones de pginas que en 25 de marzo de 2010 recoge la Biblioteca Virtualde Prensa Histrica, fecha de presentacin de Hispana, a travs de la cual se contribuir al granproyecto Europeana, cuentan adems, con nuevas funcionalidades que se describen someramente,tales como las nuevas herramientas para la web 2.0 o la actualizacin de las estructuras de datos alnuevo estndar de catalogacin MARC 21/RDA. Tambin se incluye un nuevo visor de imgenes quepermite la consulta de imgenes como las que se obtienen al digitalizar a su tamao originalperidicos de gran formato. Algunas estadsticas importantes, son las que se vislumbran acontinuacin:

GeneralesNmero de cabeceras digitalizadas 2.211Nmero de ejemplares digitalizados 1.158.292Nmero de imgenes digitalizadas 7.006.172Nmero de ejemplares con informacin de OCR 1.155.207Nmero de imgenes con informacin de OCR 6.948.466Nmero de bibliotecas con obras digitalizadas 88Nmero de localidades 183Nmero de provincias 59Nmero de impresores o editores 2.446

26

Por Comunidad de la BibliotecaCabeceras Pginas

Andaluca 149 716.698Aragn 39 94.377Asturias 15 167.638Castilla y Len 381 1.023.869Castilla-la Mancha 123 318.001Catalua 450 945.680Ciudad Autnoma de Ceuta 2 3.588Ciudad Autnoma de Melilla 1 41.799Extremadura 177 190.546Galicia 15 162.145Illes Balears 94 229.108Islas Canarias 9 191.671La Rioja 7 107.778Madrid 381 1.225.420Murcia 28 227.157Navarra 41 67.269Pas Vasco 7 89.516Valencia 179 646.999

Fechas Lmite de los Ejemplares DigitalizadosAo del ejemplar digitalizado ms antiguo 1753Ao del ejemplar digitalizado ms moderno 2013

27

5. SciELO - Scientific Electronic Library Online (Biblioteca CientficaElectrnica en Lnea)

Su direccin en la web es : http://www.scielo.org , ver figura 11.

Figura 11: Pgina Principal de SciELO.

Es un modelo para la publicacin electrnica cooperativa de revistas cientficas en Internet.Especialmente desarrollado para responder a las necesidades de la comunicacin cientfica en lospases en desarrollo y particularmente de Amrica Latina y el Caribe, el modelo proporciona unasolucin eficiente para asegurar la visibilidad y el acceso universal a su literatura cientfica,contribuyendo para la superacin del fenmeno conocido como 'ciencia perdida'. Adems, elModelo SciELO contiene procedimientos integrados para la medida del uso y del impacto de lasrevistas cientficas.

El Modelo SciELO es el producto de la cooperacin entre FAPESP (http://www.fapesp.br) - laFundacin de Apoyo a la Investigacin del Estado de So Paulo, BIREME (http://www.bireme.br) -

28

Centro Latinoamericano y del Caribe de Informacin en Ciencias de la Salud, as como institucionesnacionales e internacionales relacionadas con la comunicacin cientfica y editores cientficos. Unproyecto piloto, envolviendo 10 revistas brasileas de diferentes reas del conocimiento, fuellevado a cabo con xito entre Marzo de 1997 y Mayo de 1998, con el desarrollo y la evaluacin deuna metodologa adecuada para la publicacin electrnica en Internet. Desde Junio de 1998 elproyecto opera regularmente, incorporando nuevos ttulos de revistas y expandiendo su operacinpara otros pases. A partir de 2002, el Proyecto cuenta con el apoyo del CNPq (http://www.cnpq.br)- Consejo Nacional de Desenvolvimiento Cientfico y Tecnolgico.

El Modelo SciELO contiene tres componentes:El primer componente es la Metodologa SciELO, que permite la publicacin electrnica de edicionescompletas de las revistas cientficas, la organizacin de bases de datos bibliogrficas y de textoscompletos, recuperacin de textos por su contenido, la preservacin de archivos electrnicos y laproduccin de indicadores estadsticos de uso e impacto de la literatura cientfica. El segundocomponente del Modelo SciELO es la aplicacin de la Metodologa SciELO en la operacin de sitiosweb de colecciones de revistas electrnicas. El Modelo SciELO favorece la operacin de sitiosnacionales y tambin de sitios temticos. La aplicacin pionera es el sitio SciELO Brasil(http://www.scielo.br). Tambin estn en operacin aplicaciones en Chile (http://www.scielo.cl) yen Cuba (http://www.scielo.sld.cu). El tercer componente del Modelo es el desarrollo de alianzasentre los actores nacionales e internacionales de la comunicacin cientfica - autores, editores,instituciones cientficas y tecnolgicas, agencias de apoyo, universidades, bibliotecas, centros deinformacin cientfica y tecnolgica etc, con el objetivo de diseminar, perfeccionar y mantener elModelo SciELO. La operacin de la red SciELO se basa fuertemente en infraestructuras nacionales,lo que contribuye para garantizar su futura sostenibilidad.

En SciELO hay un paquete que dispone de servicios basados en el modelo OAI-PMH disponibles paraque todos tengan acceso a la recoleccin de los metadados a travs de esos servicios, La interfazpara acceso al servicio OAI de SciELO, se muestra en la figura 12.

29

Figura 12: Interfaz de los Servicios OAI-PMH de SciELO.

El flujo de trabajo de operacin de un Sitio SciELO empieza con el recibimiento de los textoscompletos en formato electrnico enviados por los editores y/o publicadores de las revistas quecomponen la coleccin. Los textos convertidos al formato HTML, preservan la integridad del textoimpreso, y tienen su estructura y elementos bibliogrficos (metadatos) marcados siguiendo lanorma general ISO 8879/1986 SGML (Standard Generalized Markup Language) y especficamentelas DTDs ( Document Type Definition) de SciELO. Los textos marcadosson cargados en base de datos para su operacin en un servidor Internet. Tras la carga en la basede datos, los metadatos de los textos completos son exportados para bases de datos externas aSciELO, como LILACS, MEDLINE y los datos curriculares de los autores en la bases de datos deCVLACS, por ejemplo, para el establecimiento de enlaces dinmicos. La aplicacin de la metodologaconsiste inicialmente en implantar la inclusin de la revista en una coleccin y, regularmente, en eltratamiento de los textos de cada nuevo nmero a travs de sus cinco mdulos, como muestra lafigura 13 que sigue:

30

Figura 13: Metodologa de Implantacin de Sitios SciELO.

La principal tecnologa empleada en SciELO es PHP y un conjunto de sistemas gestores de base dedatos.

31

CUADRO COMPARATIVO

A los fines de resumir cada uno de los sitios web digitales ya explicados, se consolida en un cuadroalgunas de las variables ms importantes en el anlisis de estos sistemas.

ARCHIVOS WEBVARIABLE UPM PADICAT ONDARENET BVPH SciELOURL http://oa.upm.es/ http://www.padi.c

at/eshttp://www.ondarenet.kultura.ejgv.euskadi.net:8085/consulta/editC

onsultaBase.do?dispatch=editConsultaBasehttp://prensahistoric

a.mcu.eshttp://www.sci

elo.orgObjetivo Albergar en

formato digital ladocumentacinacadmica y

cientfica (tesis,pfc, artculos,

etc..) generada enla institucin UPMhacerla accesible atravs de Internet

Capturar,preservar ydifundir el

patrimonio digitalde Cataluanacido enInternet.

Tratamiento, seleccin, conservacin y almacenamientoy difusin del patrimonio digital Vasco

Preservar materialesbibliogrficos ydifundir recursosinformativos muysolicitados porinvestigadores yciudadanos en

general

Publicar deforma

cooperativarevistascientficas

electrnicas eninternet

Enfoque deseleccin Recolectores OAI ARCS OAI-PMH OAI-PMH OAI-PMHTecnologas GNU Eprints,MySQL, Apache,

Perl, XMLHeritrix,

NutchWax,Hadoop, Wayback

Heritrix, NutchWax, Web Curator, WeraMarc XML, DublinCore/ISO, METS,

PREMISPHP, MySQL,

ApacheColeccionespreservadas

Cuadro Comparativo de Archivos Web.

32

CONCLUSIONES

Se concluye varios aspectos importantes, el primero, el vertiginoso desarrollo de las nuevastecnologas de la informacin y la comunicacin permite llevar a cabo de manera relativamentesencilla tareas de digitalizacin de documentos impresos que, por un lado, facilitan la conservacinde registros con un alto valor histrico o bibliogrfico y por otro, fomentan la universalizacin de loscontenidos, posibilitando que cualquier persona desde cualquier lugar acceda directamente adichos documentos. Al mismo tiempo el desarrollo tecnolgico y la popularizacin de Internet hanfavorecido que cada vez mayor parte de la informacin y el conocimiento que se genera se elaborenya en formatos digitales tales como textos, imgenes, bases de datos, etc. y se publiquendirectamente en Internet, es lo que se viene a denominar born digital. El segundo aspecto es quenos encontramos de este modo con el denominado Patrimonio Digital al que la UNESCO definecomo los recursos que son fruto del conocimiento o la expresin de los seres humanos, ya sean decarcter cultural, educativo, cientfico o administrativo, o comprendan informacin tcnica, jurdica,mdica o de otro tipo, y que se generan cada vez ms a menudo directamente en formato digital, ose convierten a l a partir de material ya existente.

Otro punto es, que esta nueva realidad ha obligado a que tanto los archivos como las bibliotecastrabajen en la bsqueda de nuevos modelos y estndares que permitan adquirir, preservar y haceraccesibles el conocimiento y la informacin de Internet a futuras generaciones desde cualquier lugarpromoviendo el cambio global y las relaciones internacionales. Finalmente es en este contexto enel que han surgido proyectos internacionales tales como Pandora, Minerva, Internacional Archiveso Padicat, enfocados todos ellos a la recuperacin y preservacin del patrimonio digital. Laexperiencia y el conocimiento aportados por las instituciones que lideran cada uno de dichosproyectos, hacen que sean un referente y, por tanto, un modelo a seguir a la hora de poner enmarcha proyectos relacionados con la preservacin y difusin del patrimonio digital.

Trabajo de Preservacion Web

Documents

Transcript of Trabajo de Preservacion Web