La Wayback Machine di Internet Archive: i segreti che (ancora) non conoscevi

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su email
Copertina-Guida-Wayback-Machine

Internet non dimentica niente, o quasi. Esiste infatti una macchina dei ricordi che funziona come la sua memoria storica, la Wayback Machine


Scopriremo come viaggiare nel tempo rispolverando pagine, articoli, immagini e link dalla soffitta del web. Ma non solo. Ecco una guida pratica per usare Wayback Machine alla massima potenza, vedremo tutte le tecniche che faranno gola a consulenti SEO, webmaster, giornalisti ed internauti seriali.

Che cos’è Wayback Machine di Internet Archive

Wayback Machine è la libreria digitale che oggi contiene oltre 330 miliardi di pagine web, raccolte a partire dal 1996 per mano dell’organizzazione non-profit Internet Archive. Pare che il suo nome sia stato ispirato dall’omonima macchina del tempo del cartone americano Rocky & Bullwinkle.

La mission di Internet Archive
Internet Archive: Che Cos’è

Come recita lo statuto, lo scopo è quello di fornire l’accesso universale a tutte le conoscenze. Costruire dunque un patrimonio informativo da mettere a disposizione di storici, ricercatori e studenti. Insomma, molto più di una “semplicecopia cache dei contenuti pubblici compaiono sul web!

Alla stessa stregua di Google, Internet Archive ha i suoi instancabili crawler che scandagliano il web catturando delle istantanee (snapshot)delle pagine web incontrate. Queste vengono poi archiviate e inserite all’interno di una linea temporale.

Grazie alla macchina dei ricordi possiamo curiosare su come è cambiato un sito nel corso del tempo e, volendo, anche resuscitare non solo gli url eliminati ma molti dei siti che oggi non sono online. Vediamo in breve come muovere i primi passi su Wayback Machine per poi passare alle sue funzionalità meno conosciute, ma non per questo meno interessanti. 

Come usare la Wayback Machine per recuperare siti e pagine

Ottimo, è giunto il momento di salire sulla macchina del tempo. Ecco come usare Wayback Machine:

  1. digita l’URL del sito nella barra di ricerca in homepage,
  2. ripercorri la linea temporale verso sinistra per risalire alle prime catture,
  3. clicca nell’anno di tuo interesse per verificare gli snapshot disponibili,
  4. seleziona le catture consultabili, colorate in blu o verde.
Esempio di sito recuperato con Wayback Machine
Ecco come recuperare un sito

Come vedi, è fin troppo facile. Abbiamo dunque scoperto che il nostro sito web aziendale è stato salvato ben 205 volte tra il 2007 e il 2020. Il numero di catture pare che sia proporzionale alla fama e all’autorità. Non a caso, le pagine di siti del calibro di Google o Amazon vengono catturate anche più di 30 volte al mese. Se vuoi approfondire, Forbes ha stilato la classifica dei siti web più catturati nel 2015.

Recuperare una vecchia homepage con Wayback Machine

Grazie a Wayback Machine abbiamo riportato in vita l’homepage di Neting del 2014. Ottimo, e se ora ti dicessimo che questo è solo l’inizio? Dopo aver recuperato una pagina, riusciamo anche a fare un confronto diretto fra questa e le altre versioni archiviate e addirittura avere una misura di quanto è cambiata negli anni.

Scoprire quando e quanto è cambiata una pagina 

Ora parliamo della sezione Cambiamenti, il cuore della Wayback Machine. Nonostante si tratta di una funzionalità in beta, offre degli spunti pratici davvero interessanti per tante attività. Cercando un determinato URL otteniamo, anche in questo caso, lo storico delle catture disponibili. 

Esempio di come utilizzare la funzione cambiamenti di Wayback Machine
Come appare la sezione Cambiamenti

Una volta selezionato un certo screenshot, le altre catture assumeranno colori diversi a seconda del grado di similitudine: grigio quando sono identiche, e poi una scala che varia dal giallo al blu al crescere della diversità. Così attraverso la scala delle variazioni comprendiamo subito quando è stata modificata una pagina e l’intensità del cambiamento.

Come si presenta la scala di variazioni di Wayback Machine
La scala delle variazioni

Il prossimo passo sarà avviare la comparazione e pazientare qualche secondo. Come per magia, otterremo all’interno della stessa finestra le due versioni selezionate messe a confronto. Il bello è che lo strumento segnala i contenuti aggiunti in giallo mentre i contenuti eliminati marcati in blu

Esempio del confronto incrociato fra due versioni storiche di un URL
Confrontare le versioni di una pagina su Wayback Machine

A titolo di esempio, abbiamo fatto un test sulla landing page di un noto prodotto scoprendo il recente cambio di sfondo e della sezione above the fold.

Se sei web designer puoi dunque sfruttare cambiamenti per guardare i cambi a livello di grafica e layout. Per giornalisti e copywriter diventa il posto giusto per indagare su eventuali revisioni di articoli. Ancora, noi consulenti SEO possiamo dare in pasto gli url di sitemap e robots.txt verificando la loro evoluzione storica e scoprire con facilità le modifiche effettuate attraverso le evidenziazioni.

Contrastare i plagi con la funzione Salva Pagina

Dentro la home di Wayback Machine troviamo la funzione salva pagina che si rivela utile in molti casi. Su tutti, quando abbiamo bisogno di dimostrare la proprietà intellettuale di un certo contenuto. Inserendo una pagina nell’archivio storico abbiamo in mano una prova concreta e inconfutabile contro i plagi. Niente male vero?

Come appare la funzione Salva Pagina sulla homepage di Internet Archive

Una soluzione utile non solo per i blog aziendali ma per tutti quelli che lavorano nel content marketing e nell’editoria. L’unico requisito è non avere blocchi da robots.txt ma questo lo vedremo più avanti. Se pensi di usare spesso questa funzionalità, puoi valutare questa alternativa ovvero un’ottima estensione per Google Chrome

Trovare tutte le vecchie immagini e tutti i documenti di un sito

Per ciascun dominio archiviato possiamo recuperare tutte le risorse presenti con un colpo solo. Ecco come ottenere la cartella contenente tutti gli url/file archiviati di un certo dominio, basta digitare:

http://web.archive.org/*/www.iltuosito.com/*

Così otteniamo quello che ci serve senza dover setacciare ad occhio l’intero archivio, cattura per cattura. Per intenderci, questo è un bel trucco per risparmiare tempo e sapere quante sono le risorse immagazzinate su Internet Archive.

Esempio di come recuperare immagini perse o eliminate

Continuando con gli esempi, puoi vedere tutti gli url catturati sul nostro dominio. Il prossimo passo è quello di filtrare gli url scegliendo il tipo di estensione del file che ci serve (.jpg, .png, .pdf e così via).

Attenzione alle colonne che dichiarano il numero di catture, duplicati e unici. Con un po’ di furbizia possiamo utilizzarla in combo con la sezione Cambiamenti per ottenere il numero di modifiche effettuate su una pagina

Come eliminare un sito da Wayback Machine

Il diritto all’oblio è sacrosanto. Per evitare che il proprio sito web finisca nell’archivio, bisognerà intervenire attraverso il robots.txt aggiungendo queste due righe:

Come scrivere il robots.txt per impedire il salvataggio
Ecco le regole da usare

Pare che abbia anche effetto retroattivo. In alternativa è possibile scrivere una mail a info@archive.org indicando l’URL del sito da rimuovere dalla libreria. 

Wayback Machine per la SEO

Le situazioni in cui puoi usare Wayback Machine in supporto alla SEO sono numerose. Si rivelerà infatti molto utile per:

  • Trovare vecchi contenuti e url rimossi.   
  • Individuare link da redirezionare.
  • Analizzare cambiamenti del sito in seguito a variazioni di traffico.
  • Verificare l’evoluzione di robots.txt e sitemap nel tempo.
  • Scoprire modifiche a livello di struttura del sito e degli URL.
  • Controllare la presenza di codici di tracciamento.
  • Valutare lo storico di un dominio scaduto prima di acquistarlo.

Ancora, osservando lo storico delle pagine otteniamo spunti pratici per indagare su crolli di traffico avvenuti dopo una migrazione gestita male o di un aggiornamento algoritmico.

Prima di salutarci, ti sveleremo una tecnica fenomenale che apprezzerai soprattutto se ti occupi di SEO.

Estrarre tutti gli URL presenti su Time Machine (Il trucco dei trucchi)

Ecco una chicca scoperta sul blog di Exposure Ninja. Sono sufficienti un browser, un foglio di calcolo e un minimo di dimestichezza con Excel per ottenere la lista completa contenente tutti (ma proprio tutti) gli url scovati da Wayback Machine per un certo dominio. 

  1. Scarica il file di testo contenente usando la stringa speciale
  2. Incollalo sul foglio e separa i dati in colonne.
  3. Rimuovi tutte le colonne lasciando solo quella che contiene gli URL.
  4. Usa trova e sostituisci per rimuovere :80 dagli URL.
  5. Rimuovi i duplicati con la funzione unique.

Per ottenere il file di testo indicato nel punto 1 è sufficiente digitare sul proprio browser:

Come ricavare

http://web.archive.org/cdx/search/cdx?url=tuosito.com*&output=txt&from=2010&to=2018

Con una manciata di clic e funzioni abbiamo ottenuto l’elenco completo di tutti gli url che aveva in pancia l’archivio. Il passo successivo è quello di verificare lo status code degli url caricandoli in modalità lista su Screaming Frog. Bingo, hai appena scoperto una miniera d’oro per i tuoi redirect

I limiti di Wayback Machine

Nessuno è perfetto, figuriamoci la Wayback Machine. Facendo esperienza con lo strumento ti accorgerai che molte volte le catture non sono complete.

Proviamo a spiegarti il perché. Molto spesso è una questione di server come del javascript non eseguibile e delle server side image map. Gli url assenti invece potrebbero rappresentare pagine orfane oppure sono intervenuti dei blocchi nel tentativo di scansione.

Vale anche in questo caso lo stesso principio googleano secondo cui più l’html è semplice migliore risulterà il lavoro dei crawler.

Vuoi approfondire qualche funzionalità tra quelle citate? Ti invitiamo a lasciare un commento. Se hai trovato utile la nostra guida sentiti libero di condividerla. Non ci resta che augurarti…buon viaggio!

Condividi
Condividi su facebook
Condividi su google
Condividi su twitter
Condividi su linkedin
guest
1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
admin

ottimo articolo Danis, grazie!

Potrebbe Interessarti

Denis Vesprini
Un laureato in Economia focalizzato sul Web Marketing. La mia passione per Internet risale ai tempi in cui i modem cantavano in 56k. Nel 2015 ho fondato un’etichetta che stampa musica elettronica su vinile: Dancing Like Quagmire.
Condividi
Condividi su facebook
Facebook
Condividi su linkedin
LinkedIn
Vuoi migliorare il posizionamento SEO e la visibilità del tuo sito su Google?

contatta uN ESPERTO seo di NETING

Ecco la tua checklist

Ci sei quasi, ti stiamo inviando la tua checklist editabile. Compila il form qui sotto. Grazie!

Checklist Sito Web Popup