Indietro

ⓘ Internet Archive




Internet Archive
                                     

ⓘ Internet Archive

Internet Archive è una biblioteca digitale non profit che ha lo scopo dichiarato di consentire un "accesso universale alla conoscenza". Essa offre uno spazio digitale permanente per laccesso a vari tipi di risorse: ad esempio, siti web, audio, immagini in movimento e libri. Internet Archive fu fondata da Brewster Kahle nel 1996 e fa parte della IIPC. In aggiunta alla sua funzione primaria di archiviazione, Internet Archive è unorganizzazione che si batte per una Internet libera ed aperta ed è unassociazione non profit riconosciuta ufficialmente negli Stati Uniti dAmerica.

Gli uffici amministrativi hanno sede a San Francisco mentre i Centri elaborazione dati sono collocati a San Francisco, a Redwood City e a Mountain View, in California. La più massiccia raccolta digitale della biblioteca è larchivio web, una sorta di collezione di "fermi immagine" del World Wide Web catalogati secondo la data di acquisizione. Per assicurare la stabilità e la sicurezza dei dati archiviati, lintera collezione ha un mirror nei server della Bibliotheca Alexandrina ad Alessandria dEgitto. Larchivio permette al pubblico il caricamento e lo scaricamento di materiale digitale da e verso i suoi server a costo zero.

Esso inoltre permette laccesso a uno dei più vasti progetti di archiviazione digitale di libri esistente, è parte dellAmerican Library Association ed è ufficialmente riconosciuta dallo stato della California come biblioteca pubblica. La società conta 200 dipendenti, molti dei quali impegnati nella scansione di volumi cartacei presso i centri specializzati. Lufficio principale di San Francisco conta trenta dipendenti. Internet Archive ha un budget annuale di circa 10 milioni di dollari, derivanti in massima parte da una varietà di fonti: i profitti dei servizi riguardanti il web crawling, collaborazioni varie, sovvenzioni, donazioni, e la Kahle-Austin Foundation.

Secondo il sito web di Internet Archive "molte società danno importanza alla conservazione di manufatti riguardanti la loro eredità culturale. Senza questi manufatti la civiltà non ha memoria e non ha modo di imparare dai propri successi e dai propri fallimenti. La nostra cultura ora produce sempre più prodotti in forma digitale. La missione di Internet Archive è di aiutare a conservare questi manufatti e creare una biblioteca digitale su Internet per ricercatori, storici e studiosi".

                                     

1. Storia

Brewster Kahle fondò Internet Archive nel 1996, nello stesso periodo in cui fondò la società Alexa Internet, compagnia impegnata in servizi di web crawling. Internet Archive ha iniziato ad archiviare il World Wide Web dal 1996, ma la collezione non fu accessibile fino al 2001, quando fu sviluppata la Wayback Machine. Nel 1999, Internet Archive si espanse aggiungendo altre raccolte tra cui il Prelinger Archive. LInternet Archive comprende attualmente, tra laltro, testi, audio, immagini in movimento e software. Ospita una serie di altri progetti tra cui un archivio di immagini della NASA, il servizio di indicizzazione Archive-It e Open Library, un catalogo di volumi editabile tramite un software simile a un wiki.

                                     

2.1. Progetti Wayback Machine

Wayback Machine è linterfaccia web utilizzata da Internet Archive per lestrapolazione dagli archivi dei dati riguardanti siti web. I siti archiviati rappresentano una sorta di "fermi immagine" raccolti al momento dellacquisizione delle pagine tramite il software di indicizzazione di Internet Archive. Il nome "Wayback Machine" deriva dal termine WABAC Machine utilizzato in una delle storie della serie animata Rocky e Bullwinkle. Il servizio, grazie allo spider di Alexa, memorizza nel tempo i cambiamenti le evoluzioni dei diversi siti web. Per i siti minori non ha un frequente caching, ovvero le pagine vengono memorizzate solo raramente.

Si rivela un servizio utile nei seguenti casi:

  • recupero di pagine e siti andati persi;
  • studio dellevoluzione dei siti Web;
  • ricerca di prove una volta pubblicate e quindi cancellate.

Il servizio permette di accedere a versioni archiviate di pagine web del passato, una sorta di "archivio tridimensionale" secondo le parole di Internet Archive. Milioni di siti web con i rispettivi dati sono archiviati in un gigantesco database. Non tutti i siti web sono disponibili a causa della scelta di molti proprietari di siti di escludere i loro siti dallindicizzazione. Come per tutti i siti basati su dati provenienti da web crawler, inoltre, mancano vaste aree del web per una serie di ragioni tecniche. Diverse problematiche legali riguardanti larchiviazione e la copertura o meno di siti sono state infine riscontrate negli anni, sebbene queste non siano il risultato di azioni deliberate.

Luso del termine "Wayback Machine" nel contesto di Internet Archive è diventato così comune che "Wayback Machine" e "Internet Archive" sono divenuti quasi sinonimi nella cultura di massa; ad esempio, nella serie televisiva Law & Order: Criminal Intent, uno dei protagonisti dellepisodio utilizza la "Wayback Machine" per scovare la copia archiviata di un sito web. Le "istantanee" dei siti archiviate durante i vari passaggi del crawler diventano accessibili pubblicamente di solito dopo 6-18 mesi.

Esempi di siti web archiviati da Internet Archive e visualizzati attraverso la Wayback Machine:

  • Google, su web.archive.org.
  • Internet Archive archiviazione ricorsiva
  • Wikipedia, su web.archive.org.

Internet Archive utilizza il protocollo Robots Exclusion Standard attraverso il file robots.txt per lesclusione volontaria dei siti dal proprio database. Internet Archive rispetta le direttive del file robots.txt facendo in modo che i suoi bot non indicizzino le pagine. Per questo motivo, Internet Archive ha reso indisponibili un certo numero di siti web che sono del tutto inaccessibili attraverso la Wayback Machine. In caso di siti bloccati, viene archiviato il solo file robots.txt.

LInternet Archive applica le regole robots.txt con effetto retroattivo: se un sito blocca lo spider di Internet Archive attraverso il file robots.txt, allora diventano non disponibili tutte le pagine già archiviate dal dominio. Inoltre, lo stesso comportamento è riservato a tutti i siti web che ne fanno esplicita richiesta: per questo, ogni volta che il proprietario di un sito ne chiede lesclusione dallindice, si acconsente alla richiesta, non essendo "Internet Archive interessato a preservare o offrire laccesso a siti Web o ad altri documenti su Internet di proprietà di persone che non vogliono i loro materiali nella nostra collezione".

Ad esempio, lindirizzo *, mostra le copie consultabili della pagina

, suddivise in base alla data del salvataggio su Internet Archive.
                                     

2.2. Progetti Archive-It

Sviluppato nel 2006, Archive-It è un servizio che permette a istituzioni ed entità individuali di costruire e preservare collezione di materiale digitale. Attraverso unapplicazione web, i sottoscrittori del servizio possono raccogliere, catalogare, indicizzare e, nel corso di 24 ore, accedere interamente allarchivio. Le collezioni sono ospitate su server di Internet Archive e accessibili al pubblico tramite ricerche full-text. Tutto il materiale digitale è conservato in duplice copia una primaria e una di back up, viene periodicamente indicizzato nellarchivio generale di Internet Archive e una copia dei dati può essere mandata ai sottoscrittori su richiesta. Al 2009 Archive-It conta 125 istituzioni partner in 42 stati americani e in 11 nazioni per un totale di 1.5 miliardi di URL e 963 collezioni pubbliche. Le istituzioni che hanno sottoscritto il servizio Archive-It sono in larga parte biblioteche universitarie e di college, archivi di stato, istituzioni federali, musei e organizzazioni culturali, tra cui la Electronic Literature Organization, lArchivio di Stato della Carolina del Nord, il Texas State Library and Archives Commission, la Stanford University, la National Library of Australia, il Research Libraries Group RLG, e molti altri.



                                     

2.3. Progetti NASA Images

Il progetto NASA Images fu creato grazie ad uno Space Act Agreement tra Internet Archive e la NASA per rendere accessibili al pubblico gli archivi delle immagini, dei video e degli audio prodotti dallagenzia nel corso degli anni attraverso un singolo archivio interamente indicizzato e fruibile tramite ricerche. Il sito web fu lanciato nel luglio del 2008 ed è arrivato a contenere oltre 100 000 files.

                                     

2.4. Progetti Collezioni di risorse multimediali

Oltre agli archivi web, Internet Archive mantiene grosse collezioni di risorse multimediali digitali riconosciute, da chi le ha caricate sul sito, nel pubblico dominio negli Stati Uniti o distribuiti con una licenza che ne rende possibile la redistribuzione libera, come ad esempio le licenze Creative Commons. Le risorse sono classificate a seconda del tipo di media e in altre sotto-classificazioni secondo vari criteri.

                                     

2.5. Progetti Collezione di immagini in movimento

La collezione di immagini in movimento Moving Image Collection di Internet Archive comprende: cinegiornali; cartoni animati classici; propagande di guerra; il Prelinger Archive, un archivio speciale che contiene materiale considerato "effimero" come film sponsorizzati da aziende e organizzazioni, film didattici e filmati amatoriali, pubblicità e altro materiale i cui diritti dautore sono scaduti. Le collezioni di risorse digitali sono molte e variano per argomento e fonte di reperimento; la collezione di brickfilm, ad esempio, contiene numerosi film girati in stop-motion con mattoncini Lego; unaltra collezione riguarda le elezioni presidenziali USA del 2004 e la relativa campagna elettorale. La collezione Independent News comprende una serie di raccolte tra cui quella del concorso del 2001 Internet Archives World At War, per il quale i concorrenti crearono cortometraggi per dimostrare limportanza dellaccesso alle informazioni e alla storia. Larchivio riguardante lattacco alle Torri gemelle dell11 settembre 2001 contiene materiale darchivio prodotto dai principali network televisivi mondiali sullevento e andato in onda in diretta quel giorno.



                                     

2.6. Progetti Film

Nelle collezioni di immagini in movimento sono presenti anche versioni originali di celebri film, tra cui:

                                     

2.7. Progetti Collezione audio

La collezione audio comprende musica, audiolibri, notiziari, vecchie trasmissioni radio e una grande varietà di altri file audio. La collezione Live Music Archive comprende oltre 50 000 registrazioni di concerti di artisti indipendenti e artisti affermati ed ensemble musicali che adottano norme permissive sulla registrazione dei loro concerti, come i Grateful Dead, e gli Smashing Pumpkins.

                                     

2.8. Progetti Collezione di testi

La collezione comprende testi di libri digitalizzati da varie biblioteche di tutto il mondo così come molte collezioni speciali. Internet Archive dispone di 23 centri di scansione in cinque paesi, per una digitalizzazione di circa 1 000 libri al giorno, finanziata da biblioteche e fondazioni. Nel novembre 2008, quando cerano circa 1 milione di testi, lintera collezione occupava circa 0.5 petabyte, Incluse immagini raw, file PDF, OCR e dati grezzi.

Tra il 2006 e il 2008 Microsoft Corporation instaura un rapporto di collaborazione con Internet Archive attraverso il suo progetto Live Search Books, con la scansione più di 300 000 libri che sono stati aggiunti alla raccolta, nonché con il sostegno finanziario e con le attrezzature di scansione. Il 23 maggio 2008 Microsoft annunciò che avrebbe posto fine al progetto Live Book Search e alla scansione di nuovi libri. Microsoft ha reso i libri digitalizzati disponibili senza restrizioni contrattuali e ha donato la sua attrezzatura di scansione al suo ex partner.

Nellottobre del 2007 gli utenti di Internet Archive hanno iniziato il caricamento di libri di dominio pubblico da Google Libri. Dal mese di gennaio 2010 sono stati raccolti 900 000 libri digitalizzati da Google, che rappresentano oltre la metà dei libri del totale disponibile su archive.org. I libri sono identici alle copie trovate su Google, e sono disponibili per un uso illimitato e per il downloading, come tutti i materiali Internet Archive.

Internet Archive è un membro della Open Book Alliance, organizzazione che è stata tra le più critiche nei confronti dellaccordo tra lassociazione degli editori americani e Google per la digitalizzazione di libri.

Nel 2016, anche seguito dello scandalo delle elezioni presidenziali, lInternet Archive avviò una collaborazione con le versioni di Wikipedia in molteplici lingue, elaborando un programma per la sostituzione automatica dei link non funzionanti nei template di citazione. In loro sostituzione, lInternet Archive Bot inserisce lURL della copia digitale delle fonte presente nellInternet Archive, con unanteprima di due pagine per contestualizzare la citazione.