Indietro

ⓘ Pavia Archivi Digitali




                                     

ⓘ Pavia Archivi Digitali

PAD, acronimo di Pavia Archivi Digitali è un progetto promosso dallUniversità degli studi di Pavia. Nato nel 2009, si propone di raccogliere archivi nativi digitali e documenti in formato elettronico di personalità rappresentative della cultura e della società odierna, garantendone la conservazione nel tempo e la possibilità di studio.

                                     

1. Storia

Nel 2009 Beppe Severgnini, allora presidente dell’Associazione Alunni dell’Università, lancia l’idea di fondare un archivio di memorie native digitali di scrittori, giornalisti e intellettuali del nostro tempo. Partendo dalla tradizione portata avanti a Pavia dal Centro per gli studi sulla tradizione manoscritta di autori moderni e contemporanei Centro Manoscritti che conserva raccolte di materiale documentario di scrittori del XIX e XX secolo, lUniversità ha creato uno strumento per estendere questa funzione di raccolta e conservazione anche agli archivi nati su supporti digitali. L’archivio PAD raccoglie materiali di diverso tipo, garantisce la conservazione a lungo termine dei fondi ed eventualmente, in base alle disposizioni degli autori, è accessibile agli studiosi. Negli anni successivi alla creazione si sono concentrati gli sforzi per trasformare il prototipo in un progetto sostenibile nel tempo, in grado di gestire grandi masse di dati e di conservarle in sicurezza.

Sul piano scientifico, il progetto ha fin da subito previsto una struttura tecnica svincolata da prodotti commerciali. Si è ritenuto che i sistemi di gestione di repository già esistenti non fossero in grado di supportare la complessità del progetto; si è optato per la costruzione di un sistema che si mantenesse aperto e incrementabile, con possibilità di interoperabilità con altre piattaforme. Dopo il perfezionamento delle procedure di acquisizione e preservazione, si sono implementati i software per la gestione dei fondi, e dallanno accademico 2015/16 è iniziato la programmazione di seminari tecnici per stabilire le modalità di catalogazione del materiale.

                                     

2. Funzionamento del progetto

La prima fase è quella della presa di contatto con gli autori, nella quale il comitato direttivo seleziona l’autore. A questo punto viene avviato il programma di controllo qualità, per tenere memoria delle varie fasi del processo. Poi viene stipulato tra le parti un contratto, che regola, tra le altre cose, le restrizioni di accesso allarchivio le modalità di consultazione. I documenti vengono copiati direttamente dagli strumenti informatici dellautore; qualora questo ne possedesse su supporti obsoleti, i file verrebbero convertiti in formati leggibili e riconsegnati a lui per visionarli e decidere se conferirli.

Quando i file arrivano allUniversità di Pavia, i dati vengono copiati in un deposito temporaneo protetto che assicura il Disaster Recovery. Qui i dati sono preservati senza trattamento per garantire l’integrità dell’archivio in caso di errori. Il programma genera una lista dei file conferiti che viene inviata allautore per una convalida. In caso di ripensamenti l’autore può decidere di eliminare un file o un gruppo di file. Con la convalida del documento vengono avviate le procedure di conservazione e archiviazione. Nel caso in cui l’autore voglia ampliare il proprio fondo PAD, l’archivio verrà aggiornato, mantenendo separati le strutture e i dati precedenti.

I vari fondi sono suddivisi in aree di lavoro separate, spazi di memorizzazione dei dati, divise l’una allaltra, con restrizioni d’accesso differenti, una per ogni fase, dalla consegna alla conservazione permanente. Per ogni fondo, la parte amministrativa e gestionale è salvata su server interno a PAD e una copia in un server dislocato presso la sede di Cremona, in caso di catastrofe ambientale. Una terza copia viene messa su un dispositivo hardware conservato in banca.

I metadati vengono estratti in modo automatico dallarchivio. Poiché si tratta di un numero ingente di dati, essi vengono ridotti, conservando solo quelli utili. Attraverso i metadati avviene l’operazione fondamentale di identificazione del formato, senza la quale non sarebbe possibile passare alla successiva normalizzazione. I file che si trovano nellarea di working, prima di essere archiviati in modo permanente, vengono sottoposti alloperazione di normalizzazione, secondo gli standard suggeriti dalla Library of Congress. Vengono convertiti in formato TXT, PDF e Open Document, in modo da salvaguardarne la fruibilità.

Nella stessa area di lavoro, se ci fossero documenti non più leggibili, perché creati con software o sistemi operativi obsoleti, si può consentirne la visualizzazione tramite virtualizzazione, cioè attraverso l’emulazione dell’ambiente originale. PAD ha messo a punto delle macchine virtuali che supportano sistemi quali MS-DOS, Windows 95, Windows NT, Mac OS, Linux. In queste macchine sono installati programmi originali ormai obsoleti, che permettono l’apertura e la visualizzazione di file altrimenti non eseguibili con i nuovi software.

Attraverso un software di catalogazione appositamente sviluppato, larchivio viene riordinato, senza però alterarne la struttura originale.

                                     

3. Web archiving

Tenendo conto delle tendenze crescenti alluso della rete, dal 2018 il progetto si è allargato elaborando un sistema per la salvaguardia dei siti web di contenuto culturale e delle pagine social media. La richiesta per l’inserimento nel progetto deve partire dallautore o dallistituzione culturale a cui fa capo il sito, interagendo direttamente con il committente per stabilire tempi e metodi per il salvataggio e la consultabilità. Attraverso un software per il web scraping, il sito dell’autore viene riprodotto in locale, in modo da garantirne il browsing offline.