Download - Archivo web fesabid1

Transcript
Page 1: Archivo web fesabid1

El archivo de Internet, bibliotecas que piensan en el futuro

Mar Pérez Morillo

Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España

Page 2: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA2

Índice

– Contexto

• Consideraciones generales

– Panorama internacional

• IIPC

• Biblioteca Nacional de Francia

• Biblioteca Nacional de Austria

• ISO TC 46/SC 8/WG 9

– La ley de Depósito Legal

– El proyecto de la BNE

• Primeros pasos

• Situación actual – Planes inmediatos

• Perspectivas de futuro

El archivo de Internet, bibliotecas que piensan en el futuro

Page 3: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA3

Contexto

Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)

– Volumen de los datos.

– Duración de la información en línea (44 días y 2 años).

– Internet constituye un invalorable espejo de la sociedad.

– La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar.

El archivo de Internet, bibliotecas que piensan en el futuro

Page 4: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA4

Contexto: consideraciones generales

– Tarea llena de retos

– Finales de los 90: Internet → fundamental en la difusión del

conocimiento

– Los documentos en línea desaparecen de repente

– Falta de perspectiva histórica: valor impredecible

– La web no es un depósito de ejemplares

– Características de la web: grande, global, rápida, intangible,

universal

El archivo de Internet, bibliotecas que piensan en el futuro

Page 5: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA5

Panorama Internacional: IIPC

– Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive

– Adquirir, preservar y hacer accesible la información en internet para el futuro

– Objetivos:

• Posibilitar recolección, preservación y acceso a largo plazo a contenidos de internet

• Desarrollar herramientas comunes para crear archivos internacionales

• Defender iniciativas internacionales con este propósito

• Apoyar a instituciones dedicadas a esta tarea

El archivo de Internet, bibliotecas que piensan en el futuro

Page 6: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA6

Panorama Internacional: IIPC

– Grupos de trabajo muy activos:

• Recolección

• Acceso

• Preservación

– Proyectos de colaboración:

• Facebook

• Wikileaks

• Terremoto y tsunami en Japón (Internet Archive - National Diet)

• Olimpiadas 2012

• Memento

El archivo de Internet, bibliotecas que piensan en el futuro

Page 7: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA7

Panorama Internacional

– BnF (Biblioteca Nacional de Francia) → desde 2002

• Al amparo de su ley de DL

• Sólo acceso para investigadores en sus instalaciones

• Combinan recolección masiva y selectiva

• Empezaron con Internet Archive y se independizaron

– Biblioteca Nacional de Austria

• Empezaron haciendo sólo recolección selectiva y por acontecimientos

• En 2010 hicieron su primera recolección del dominio .at

• Su política es combinar los tres modelos (selectiva, por acontecimientos y masiva)

– Ambas utilizan Netarchive Suite

El archivo de Internet, bibliotecas que piensan en el futuro

Page 8: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA8

Panorama Internacional: Iniciativas de archivado web

El archivo de Internet, bibliotecas que piensan en el futuro

Page 9: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA9

Panorama Internacional: ISO TC 46/SC 8/WG 9

El archivo de Internet, bibliotecas que piensan en el futuro

Estadísticas y aspectos de calidad en los archivos web

– Objetivo: elaborar un informe técnico

– Definición de términos y elementos relativos a estos proyectos

– Establecer aspectos cuantificables para medir la calidad

– Repaso de distintos aspectos relacionados con este tipo de proyectos:

• Personal

• Costes

• Evaluación → establecimiento de indicadores de calidad

• Tipos de proyectos según distintos criterios

– Estado actual de la cuestión

Page 10: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA10

La Ley de Depósito Legal en España

El archivo de Internet, bibliotecas que piensan en el futuro

– Decreto del 57:

• Preocupación por regular “las obras derivadas de los inventos modernos”

– Anteproyecto de ley de DL (2011)

• Publicaciones digitales → patrimonio a preservar

• Acceso y consulta de publicaciones almacenadas

• Publicaciones digitales →objeto de DL

• Sitios web → incluidos en el DL

• Centros de conservación → habilitados para rastrearlos y conservarlos

• Límites: propiedad intelectual y protección de datos

Page 11: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA11

El proyecto de la BNE: Primeros pasos

El archivo de Internet, bibliotecas que piensan en el futuro

• Primer contrato con Internet Archive: 2009-2010

• Objetivo: recolectar, archivar y preservar el dominio .es

• Primeras recolecciones

4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010

• Después de cada recolección:

Deduplicación

Indización

Rastreo de parcheado

Page 12: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA12

El proyecto de la BNE: Primeros pasos

El archivo de Internet, bibliotecas que piensan en el futuro

Page 13: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA13

El proyecto de la BNE: Situación actual

El archivo de Internet, bibliotecas que piensan en el futuro

• Resultados:

30 TB de información almacenada

Más de 875 millones de URL:

Más de 317 millones en la primera recolección

Cantidades menores en las tres siguientes complementarias

• Acceso a la colección

• Interfaz de consulta que necesita personalización

• Búsquedas:

Por URL

Por palabra a texto completo (necesita depuración)

Page 14: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA14

El proyecto de la BNE: Situación actual

El archivo de Internet, bibliotecas que piensan en el futuro

• Informes

MIME (Multipurpose Internet Mail Extension)

Respuestas de servidores

Servidores

Exclusiones

• Análisis de la colección mediante calas:

Páginas recolectadas con éxito

Niveles de navegación que se han guardado

Porcentaje de webs guardadas que han desaparecido (casi un 3%)

Otros dominios capturados aparte de .es

Aproximación a porcentaje de temáticas

Page 15: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA15

El proyecto de la BNE: Planes inmediatos

El archivo de Internet, bibliotecas que piensan en el futuro

• Perspectivas de crecimiento 2011-2012

• Nuevo contrato con Internet Archive:

2 recolecciones masivas (2011), alternadas con

2 recolecciones selectivas (2011 y 2012):

Temáticas

Acontecimientos (Elecciones Generales 2012)

• Buscar colaboradores para las recolecciones selectivas

• Probablemente estaremos cerca de duplicar la colección actual

• Análisis de la colección muy de cerca durante los rastreos

• Pruebas de rastreo propias con NetarchiveSuite podremos evaluar en algunos aspectos nuestra capacidad de autogestión

Page 16: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA16

El proyecto de la BNE: Planes inmediatos

El archivo de Internet, bibliotecas que piensan en el futuro

Page 17: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA17

El proyecto de la BNE: Planes inmediatos

El archivo de Internet, bibliotecas que piensan en el futuro

Page 18: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA18

El proyecto de la BNE: Perspectivas de futuro

El archivo de Internet, bibliotecas que piensan en el futuro

• Acceso a la colección ¿en local o en remoto?

• Personalización de la interfaz

• Traslado de la colección:

Propuesta con varias alternativas por parte de IA

Habilitación de espacio físico

Recursos para el mantenimiento de la colección

• Recolectamos nosotros adopción y desarrollo de un software

• Gestión de la colección:

Organización temática

Planificación de nuevas recolecciones

Inclusión de otros dominios españoles fuera del .es

• Colaboración con Comunidades Autónomas (??)

Page 19: Archivo web fesabid1

BIBLIOTECA NACIONAL DE ESPAÑA19

Referencias de interés

– IIPC: www.netpreserve.org

– Proyecto Memento: http://www.mementoweb.org/

– Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives

– Internet Archive: www.archive.org

– Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html

– Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm

– Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html

– NetarchiveSuite: http://netarchive.dk/suite/Welcome

– “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0

El archivo de Internet, bibliotecas que piensan en el futuro

Page 20: Archivo web fesabid1

Mar Pérez Morillo

Servicio de Coordinación Web

[email protected]

Pº de Recoletos, 20-22

28071 Madrid

España

T +34 915 807 800

www.bne.es

BIBLIOTECA NACIONAL DE ESPAÑA