El archivo de Internet, bibliotecas que piensan en el futuro
Mar Pérez Morillo
Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España
BIBLIOTECA NACIONAL DE ESPAÑA2
Índice
– Contexto
• Consideraciones generales
– Panorama internacional
• IIPC
• Biblioteca Nacional de Francia
• Biblioteca Nacional de Austria
• ISO TC 46/SC 8/WG 9
– La ley de Depósito Legal
– El proyecto de la BNE
• Primeros pasos
• Situación actual – Planes inmediatos
• Perspectivas de futuro
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA3
Contexto
Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)
– Volumen de los datos.
– Duración de la información en línea (44 días y 2 años).
– Internet constituye un invalorable espejo de la sociedad.
– La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar.
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA4
Contexto: consideraciones generales
– Tarea llena de retos
– Finales de los 90: Internet → fundamental en la difusión del
conocimiento
– Los documentos en línea desaparecen de repente
– Falta de perspectiva histórica: valor impredecible
– La web no es un depósito de ejemplares
– Características de la web: grande, global, rápida, intangible,
universal
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA5
Panorama Internacional: IIPC
– Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive
– Adquirir, preservar y hacer accesible la información en internet para el futuro
– Objetivos:
• Posibilitar recolección, preservación y acceso a largo plazo a contenidos de internet
• Desarrollar herramientas comunes para crear archivos internacionales
• Defender iniciativas internacionales con este propósito
• Apoyar a instituciones dedicadas a esta tarea
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA6
Panorama Internacional: IIPC
– Grupos de trabajo muy activos:
• Recolección
• Acceso
• Preservación
– Proyectos de colaboración:
• Wikileaks
• Terremoto y tsunami en Japón (Internet Archive - National Diet)
• Olimpiadas 2012
• Memento
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA7
Panorama Internacional
– BnF (Biblioteca Nacional de Francia) → desde 2002
• Al amparo de su ley de DL
• Sólo acceso para investigadores en sus instalaciones
• Combinan recolección masiva y selectiva
• Empezaron con Internet Archive y se independizaron
– Biblioteca Nacional de Austria
• Empezaron haciendo sólo recolección selectiva y por acontecimientos
• En 2010 hicieron su primera recolección del dominio .at
• Su política es combinar los tres modelos (selectiva, por acontecimientos y masiva)
– Ambas utilizan Netarchive Suite
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA8
Panorama Internacional: Iniciativas de archivado web
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA9
Panorama Internacional: ISO TC 46/SC 8/WG 9
El archivo de Internet, bibliotecas que piensan en el futuro
Estadísticas y aspectos de calidad en los archivos web
– Objetivo: elaborar un informe técnico
– Definición de términos y elementos relativos a estos proyectos
– Establecer aspectos cuantificables para medir la calidad
– Repaso de distintos aspectos relacionados con este tipo de proyectos:
• Personal
• Costes
• Evaluación → establecimiento de indicadores de calidad
• Tipos de proyectos según distintos criterios
– Estado actual de la cuestión
BIBLIOTECA NACIONAL DE ESPAÑA10
La Ley de Depósito Legal en España
El archivo de Internet, bibliotecas que piensan en el futuro
– Decreto del 57:
• Preocupación por regular “las obras derivadas de los inventos modernos”
– Anteproyecto de ley de DL (2011)
• Publicaciones digitales → patrimonio a preservar
• Acceso y consulta de publicaciones almacenadas
• Publicaciones digitales →objeto de DL
• Sitios web → incluidos en el DL
• Centros de conservación → habilitados para rastrearlos y conservarlos
• Límites: propiedad intelectual y protección de datos
BIBLIOTECA NACIONAL DE ESPAÑA11
El proyecto de la BNE: Primeros pasos
El archivo de Internet, bibliotecas que piensan en el futuro
• Primer contrato con Internet Archive: 2009-2010
• Objetivo: recolectar, archivar y preservar el dominio .es
• Primeras recolecciones
4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010
• Después de cada recolección:
Deduplicación
Indización
Rastreo de parcheado
BIBLIOTECA NACIONAL DE ESPAÑA12
El proyecto de la BNE: Primeros pasos
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA13
El proyecto de la BNE: Situación actual
El archivo de Internet, bibliotecas que piensan en el futuro
• Resultados:
30 TB de información almacenada
Más de 875 millones de URL:
Más de 317 millones en la primera recolección
Cantidades menores en las tres siguientes complementarias
• Acceso a la colección
• Interfaz de consulta que necesita personalización
• Búsquedas:
Por URL
Por palabra a texto completo (necesita depuración)
BIBLIOTECA NACIONAL DE ESPAÑA14
El proyecto de la BNE: Situación actual
El archivo de Internet, bibliotecas que piensan en el futuro
• Informes
MIME (Multipurpose Internet Mail Extension)
Respuestas de servidores
Servidores
Exclusiones
• Análisis de la colección mediante calas:
Páginas recolectadas con éxito
Niveles de navegación que se han guardado
Porcentaje de webs guardadas que han desaparecido (casi un 3%)
Otros dominios capturados aparte de .es
Aproximación a porcentaje de temáticas
BIBLIOTECA NACIONAL DE ESPAÑA15
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
• Perspectivas de crecimiento 2011-2012
• Nuevo contrato con Internet Archive:
2 recolecciones masivas (2011), alternadas con
2 recolecciones selectivas (2011 y 2012):
Temáticas
Acontecimientos (Elecciones Generales 2012)
• Buscar colaboradores para las recolecciones selectivas
• Probablemente estaremos cerca de duplicar la colección actual
• Análisis de la colección muy de cerca durante los rastreos
• Pruebas de rastreo propias con NetarchiveSuite podremos evaluar en algunos aspectos nuestra capacidad de autogestión
BIBLIOTECA NACIONAL DE ESPAÑA16
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA17
El proyecto de la BNE: Planes inmediatos
El archivo de Internet, bibliotecas que piensan en el futuro
BIBLIOTECA NACIONAL DE ESPAÑA18
El proyecto de la BNE: Perspectivas de futuro
El archivo de Internet, bibliotecas que piensan en el futuro
• Acceso a la colección ¿en local o en remoto?
• Personalización de la interfaz
• Traslado de la colección:
Propuesta con varias alternativas por parte de IA
Habilitación de espacio físico
Recursos para el mantenimiento de la colección
• Recolectamos nosotros adopción y desarrollo de un software
• Gestión de la colección:
Organización temática
Planificación de nuevas recolecciones
Inclusión de otros dominios españoles fuera del .es
• Colaboración con Comunidades Autónomas (??)
BIBLIOTECA NACIONAL DE ESPAÑA19
Referencias de interés
– IIPC: www.netpreserve.org
– Proyecto Memento: http://www.mementoweb.org/
– Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
– Internet Archive: www.archive.org
– Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html
– Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm
– Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
– NetarchiveSuite: http://netarchive.dk/suite/Welcome
– “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0
El archivo de Internet, bibliotecas que piensan en el futuro
Mar Pérez Morillo
Servicio de Coordinación Web
Pº de Recoletos, 20-22
28071 Madrid
España
T +34 915 807 800
www.bne.es
BIBLIOTECA NACIONAL DE ESPAÑA
Top Related