L’UK Governement Web Archive e la pagina web come fonte per la storia
In Inghilterra oltre la metà di tutte le relazioni tra lo Stato e i cittadini avviene oramai on-line. Attraverso le pagine web istituzionali lo Stato informa i cittadini lasciando tracce di sé.
I National Archives, l’amministrazione archivistica inglese, hanno avvertito la responsabilità di raccogliere e conservare i siti web in quanto fonte per la storia e testimonianza del cambiamento nella relazioni tra Stato e cittadino.
Nasce così l’UK Government Web Archive, servendosi per questo periodo iniziale di sperimentazione, di Internet Archive e del suo web crawler(1) in una versione apposta modificata. Internet Archive è una organizzazione no profit con sede a San Francisco fondata al fine di costruire una “biblioteca di internet” e con l’intento di offrire un accesso gratuito e permanente a ricercatori, storici e studenti alle raccolte storiche in formato digitale. Internet Archive sta analizzando il web dal 1996, per creare una delle più grandi raccolte di dati del mondo. Attualmente il suo archivio contiene più di 100 terabytes di dati e si sta implementando al ritmo di 12 terabytes al mese.
I National Archiveshanno scelto Internet Archive, col quale hanno stabilito un contratto di un anno a partire dal giugno 2003, poiché è uno dei più grandi e importanti servizi di archiviazione web nel mondo.
I siti archiviati sono 50, tutti di organi istituzionali quali i Dipartimenti, le Agenzie esecutive, l’Ufficio di Gabinetto etc…Si tratta delle pagine che meglio rappresentano l’intero dominio web dello Stato. I siti sono raccolti usando un “crawler software” che recupera e registra ogni pagina del sito. Questa operazione è chiamata “harvesting” (“mietitura”) ed avviene ogni settimana per alcuni siti e ogni 6 mesi per altri. Questi poi vengono archiviati e conservati in un particolare formato sviluppato da Internet Archive al quale si può accedere grazie al software Wayback Machine. Gli utenti inseriscono l’URL del sito che desiderano vedere e poi selezionano attraverso la data la versione disponibile in archivio.
Ma tutto ciò è solo l’inizio. Infatti si stanno cercando ulteriori approcci tecnici per la conservazione dei siti web. Il sistema di Internet Archive verrà valutato al fine di sviluppare una propria strategia a lungo termine.
Per iniziativa dei National Archives nel giugno 2004 è partito un progetto pilota della durata di due anni al quale hanno aderito la British Library, il Wellcome Trust, l’Higher Education Finding Council of England, la National Library of Scotland, e la National Library of Wales, tutti riuniti nel UK Web Archive Consortium.
Nel corso del progetto saranno raccolti ed archiviati circa 6.000 siti. Ogni membro del consorzio selezionerà e catturerà specifici siti, con il permesso dei proprietari usando strumenti hardware e software condivisi. Il software che verrà usato per compiere i processi di archiviazione, il Sistema di archiviazione digitale PANDORA (PANDAS), è stato sviluppato dalla National Library of Australia, e il consorzio intraprendere ulteriori sviluppi tecnici.
http://www.nationalarchives.gov.uk/preservation/webarchive/
(1) Si tratta di un off line browser che archivia tutte le pagine presenti in un sito web e permette di navigare in un sito non in linea.
a cura di Pierpaolo Caputo
