Internet non dimentica niente, o quasi. Esiste infatti una macchina dei ricordi che funziona come la sua memoria storica, la Wayback Machine.
Scopriremo come viaggiare nel tempo rispolverando pagine, articoli, immagini e link dalla soffitta del web. Ma non solo. Ecco una guida pratica per usare Wayback Machine alla massima potenza, vedremo tutte le tecniche che faranno gola a consulenti SEO, webmaster, giornalisti ed internauti seriali.
Che cos’è Wayback Machine di Internet Archive
Wayback Machine è la libreria digitale che oggi contiene oltre 800 miliardi di pagine web, raccolte a partire dal 1996 per mano dell’organizzazione non-profit Internet Archive. Pare che il suo nome sia stato ispirato dall’omonima macchina del tempo del cartone americano Rocky & Bullwinkle.
Archive.org (Internet Archive) che cos’è
Come recita lo statuto, Archive.org (Internet Archive) nasce con lo scopo di fornire l’accesso universale a tutte le conoscenze. Costruire dunque un patrimonio informativo da mettere a disposizione di storici, ricercatori e studenti.
Archive.org è una risorsa preziosa per chi vuole conoscere la storia di Internet. L’archivio contiene informazioni preziose che possono essere utilizzate per scopi didattici, di ricerca o semplicemente per divertimento.
Insomma, molto più di una “semplice” copia cache dei contenuti pubblici che compaiono sul web!
Alla stessa stregua di Google, Internet Archive ha i suoi instancabili crawler che scandagliano il web catturando delle istantanee (snapshot) delle pagine web incontrate. Queste vengono poi archiviate e inserite all’interno di una linea temporale.
Grazie alla macchina dei ricordi possiamo curiosare su come è cambiato un sito nel corso del tempo e, volendo, anche resuscitare non solo gli url eliminati ma molti dei siti che oggi non sono online. Vediamo in breve come muovere i primi passi su Wayback Machine per poi passare alle sue funzionalità meno conosciute, ma non per questo meno interessanti.
Quali contenuti è possibile recuperare dalle pagine web cancellate utilizzando Archive.org?
Libri, film, file audio, immagini, videogiochi, canzoni, corsi online in lingua italiana, sono solo alcune delle categorie di contenuti che è possibile recuperare tramite questa piattaforma. Archive.org è una vera e propria miniera d’oro per gli appassionati di cultura, intrattenimento e tecnologia, che possono scoprire e riscoprire opere rare, dimenticate o scomparse.
Come usare la Wayback Machine per recuperare lo storico di siti e Pagine Web Cancellate
Ottimo, è giunto il momento di salire sulla macchina del tempo e fare un viaggio nel vasto archivio di siti web, scopriamo come recuperare pagine web cancellate.
Ecco come usare Wayback Machine:
- digita l’URL del sito nella barra di ricerca in homepage,
- ripercorri la linea temporale verso sinistra per risalire alle prime catture,
- clicca nell’anno di tuo interesse per verificare gli snapshot disponibili,
- seleziona le catture consultabili, colorate in blu o verde.
Come vedi, è fin troppo facile. Abbiamo dunque scoperto che il nostro sito web aziendale è stato salvato ben 205 volte tra il 2007 e il 2020. Il numero di catture pare che sia proporzionale alla fama e all’autorità. Non a caso, le pagine di siti del calibro di Google o Amazon vengono catturate anche più di 30 volte al mese. Se vuoi approfondire, Forbes ha stilato la classifica dei siti web più catturati nel 2015.
Grazie a Wayback Machine abbiamo riportato in vita l’homepage di Neting del 2014. Ottimo, e se ora ti dicessimo che questo è solo l’inizio? Dopo aver recuperato una pagina, riusciamo anche a fare un confronto diretto fra questa e le altre versioni archiviate e addirittura avere una misura di quanto è cambiata negli anni.
Scoprire quando e quanto è cambiata una pagina web
Ora parliamo della sezione Cambiamenti, il cuore della Wayback Machine. Nonostante si tratta di una funzionalità in beta, offre degli spunti pratici davvero interessanti per tante attività. Cercando un determinato URL otteniamo, anche in questo caso, lo storico delle catture disponibili.
Una volta selezionato un certo screenshot, le altre catture assumeranno colori diversi a seconda del grado di similitudine: grigio quando sono identiche, e poi una scala che varia dal giallo al blu al crescere della diversità. Così attraverso la scala delle variazioni comprendiamo subito quando è stata modificata una pagina e l’intensità del cambiamento.
Il prossimo passo sarà avviare la comparazione e pazientare qualche secondo. Come per magia, otterremo all’interno della stessa finestra le due versioni selezionate messe a confronto. Il bello è che lo strumento segnala i contenuti aggiunti in giallo mentre i contenuti eliminati marcati in blu.
A titolo di esempio, abbiamo fatto un test sulla landing page di un noto prodotto scoprendo il recente cambio di sfondo e della sezione above the fold.
Se sei web designer puoi dunque sfruttare cambiamenti per guardare i cambi a livello di grafica e layout. Per giornalisti e copywriter diventa il posto giusto per indagare su eventuali revisioni di articoli. Ancora, noi consulenti SEO possiamo dare in pasto gli url di sitemap e robots.txt verificando la loro evoluzione storica e scoprire con facilità le modifiche effettuate attraverso le evidenziazioni.
Contrastare i plagi con la funzione Salva Pagina
La Wayback Machine, come abbiamo visto, non funge solo da archivio di siti web e del loro storico, ma include una funzionalità davvero interessante. In home troviamo infatti la funzione salva pagina che si rivela utile in molti casi. Su tutti, quando abbiamo bisogno di dimostrare la proprietà intellettuale di un certo contenuto. Inserendo una pagina nell’archivio storico abbiamo in mano una prova concreta e inconfutabile contro i plagi. Niente male vero?
Una soluzione utile non solo per i blog aziendali ma per tutti quelli che lavorano nel content marketing e nell’editoria. L’unico requisito è non avere blocchi da robots.txt ma questo lo vedremo più avanti. Se pensi di usare spesso questa funzionalità, puoi valutare questa alternativa ovvero un’ottima estensione per Google Chrome.
Trovare tutte le vecchie immagini e tutti i documenti di un sito
Per ciascun dominio archiviato possiamo recuperare tutte le risorse presenti con un colpo solo. Ecco come ottenere la cartella contenente tutti gli url/file archiviati di un certo dominio, basta digitare:
http://web.archive.org/*/www.iltuosito.com/*
Così otteniamo quello che ci serve senza dover setacciare ad occhio l’intero archivio, cattura per cattura. Per intenderci, questo è un bel trucco per risparmiare tempo e sapere quante sono le risorse immagazzinate su Internet Archive.
Continuando con gli esempi, puoi vedere tutti gli url catturati sul nostro dominio. Il prossimo passo è quello di filtrare gli url scegliendo il tipo di estensione del file che ci serve (.jpg, .png, .pdf e così via).
Attenzione alle colonne che dichiarano il numero di catture, duplicati e unici. Con un po’ di furbizia possiamo utilizzarla in combo con la sezione Cambiamenti per ottenere il numero di modifiche effettuate su una pagina.
Recuperare video da Archive.org
Sì, puoi recuperare anche video da Archive.org. L’archivio contiene oltre 200 milioni di video, che coprono una vasta gamma di argomenti, tra cui film, programmi TV, musica, sport, documentari, ecc.
Per recuperare un video da Archive.org, è sufficiente inserire l’URL del video nella barra di ricerca.
Il bot restituirà una cronologia delle versioni del video, che è possibile visualizzare in ordine cronologico.
Una volta trovata la versione desiderata del video, è possibile riprodurla direttamente sul sito web di Archive.org. È inoltre possibile scaricare il video in diversi formati, tra cui MP4, MOV, FLV, AVI, ecc.
Per scaricare un video da Archive.org, è sufficiente fare clic sul pulsante “Download”.
Il video verrà quindi scaricato sul computer.
Ecco alcuni suggerimenti per recuperare video da Archive.org:
- Utilizza parole chiave specifiche nella ricerca per trovare il video desiderato più rapidamente.
- Cerca tra le versioni precedenti del video per trovare la qualità desiderata.
- Se il video è protetto da copyright, è possibile scaricarlo solo per uso personale.
Come eliminare un sito da Wayback Machine
Il diritto all’oblio è sacrosanto. Per evitare che il proprio sito web finisca nell’archivio, bisognerà intervenire attraverso il robots.txt aggiungendo queste due righe:
Pare che abbia anche effetto retroattivo. In alternativa è possibile scrivere una mail a info@archive.org indicando l’URL del sito da rimuovere dalla libreria.
Wayback Machine per la SEO
Le situazioni in cui puoi usare Wayback Machine in supporto alla SEO sono numerose. Si rivelerà infatti molto utile per:
- Trovare vecchi contenuti e url rimossi.
- Individuare link da redirezionare.
- Analizzare cambiamenti del sito in seguito a variazioni di traffico.
- Verificare l’evoluzione di robots.txt e sitemap nel tempo.
- Scoprire modifiche a livello di struttura del sito e degli URL.
- Controllare la presenza di codici di tracciamento.
- Valutare lo storico di un dominio scaduto prima di acquistarlo.
Ancora, osservando lo storico delle pagine otteniamo spunti pratici per indagare su crolli di traffico avvenuti dopo una migrazione gestita male o di un aggiornamento algoritmico.
Prima di salutarci, ti sveleremo una tecnica fenomenale che apprezzerai soprattutto se ti occupi di SEO.
Estrarre tutti gli URL presenti su Time Machine (Il trucco dei trucchi)
Ecco una chicca scoperta sul blog di Exposure Ninja. Sono sufficienti un browser, un foglio di calcolo e un minimo di dimestichezza con Excel per ottenere la lista completa contenente tutti (ma proprio tutti) gli url scovati da Wayback Machine per un certo dominio.
- Scarica il file di testo contenente usando la stringa speciale
- Incollalo sul foglio e separa i dati in colonne.
- Rimuovi tutte le colonne lasciando solo quella che contiene gli URL.
- Usa trova e sostituisci per rimuovere :80 dagli URL.
- Rimuovi i duplicati con la funzione unique.
Per ottenere il file di testo indicato nel punto 1 è sufficiente digitare sul proprio browser:
http://web.archive.org/cdx/search/cdx?url=tuosito.com*&output=txt&from=2010&to=2018
Con una manciata di clic e funzioni abbiamo ottenuto l’elenco completo di tutti gli url che aveva in pancia l’archivio. Il passo successivo è quello di verificare lo status code degli url caricandoli in modalità lista su Screaming Frog. Bingo, hai appena scoperto una miniera d’oro per i tuoi redirect.
I limiti di Wayback Machine
Nessuno è perfetto, figuriamoci la Wayback Machine. Facendo esperienza con lo strumento ti accorgerai che molte volte le catture non sono complete.
Proviamo a spiegarti il perché. Molto spesso è una questione di server come del javascript non eseguibile e delle server side image map. Gli url assenti invece potrebbero rappresentare pagine orfane oppure sono intervenuti dei blocchi nel tentativo di scansione.
Vale anche in questo caso lo stesso principio googleano secondo cui più l’html è semplice migliore risulterà il lavoro dei crawler.
Vuoi approfondire qualche funzionalità tra quelle citate? Ti invitiamo a lasciare un commento. Se hai trovato utile la nostra guida sentiti libero di condividerla. Non ci resta che augurarti…buon viaggio!
ottimo articolo Danis, grazie!
ho provato a mettere la mia mail nella barra di ricerca e nei risultati ci sono molti accessi giornalieri che significa?
Ciao Silvio, potresti spiegare meglio?
Ciao, ma molto semplicemente ho inserito la mia mail nella barra di ricerca all”interno del sito wayback machine,quella dove c’è scritto browse history e ad esempio nel calendar, ci sono giorni cerchiati di verde altri di celeste, se ci clicko sopra mi da una lista di snapshots ognuno con un’ora diversa