BLOG

5 Fattori che Possono Impedire al Vostro Sito Web di Essere Indicizzato Correttamente da Google

Luca Mainieri | Settembre 1, 2014 | Tempo di lettura: 4 minuti

Malgrado i vostri sforzi, il vostro sito non appare nelle ricerche di Google? I fattori che bloccano il posizionamento di un sito web su Google possono essere molti, ma cerchiamo di analizzare di seguito quelli principali.

Innanzi tutto potrebbe essere che tu stia bloccando la scansione di Google del tuo sito web senza saperlo. Questo significa che il sito è realizzato correttamente, ma che tuttavia esistino dei blocchi programmatici che impediscano a Google di indicizzare tutte le pagine del tuo sito.

In questo articolo di approfondimento, imparerai come bloccare volutamente l’indicizzazione di Google sul tuo sito e come evitare che succeda inavvertitamente.

1. Errori nel file robots.txt

Un file robots.txt è un file di testo che fornisce ai motori di ricerca indicazioni sulla scansione di alcune (o di tutte le) pagine del tuo sito. Questo file consiste essenzialmente in un elenco di comandi, come Allow e Disallow, che comunicano ai web crawler quali URL possono o non possono recuperare.

Pertanto, se un URL è impostato come disallowed nel tuo file robots.txt, tale URL e il suo contenuto non appariranno nei risultati della Ricerca Google.

La direttiva Disallow del file robots.txt è un metodo semplice per escludere singoli file o intere cartelle del tuo sito dall’indicizzazione da parte di Google. Per escludere singoli file, è sufficiente aggiungere le pochie righe che seguono al tuo file robots.txt:

User-agent: * Disallow: /directory/name-di-file/

Per escludere intere directory invece, è sufficiente utilizzare:

User-agent: * Disallow: / prima-directory / Disallow: / secondo-directory /

*Nota: se il vostro sito web ha un file robots.txt, è consigliato ricontrollarlo per assicurarsi che non siano escluse directory che si desidera far visualizzare nei risultati di ricerca di Google.

Se si vuole verificare subito se è presente un file robots.txt nel nostro sito è sufficiente digitare accanto all’url del proprio sito /robots.txt, ad esempio: www.miosito.com/robots.txt. Se questo file è presente appariranno una serie di informazioni a riguardo, in caso contrario apparirà l’avviso “pagina url non trovata”.

Si noti che i visitatori del sito web possono ancora vedere le pagine escluse dalla scansione di Google tramite il file robots.txt

2. Utilizzo di Meta tag robots noindex

Il tag noindex meta robots consente di dire ai motori di ricerca che una pagina in particolare, non deve essere indicizzata. Per escludere una pagina Web dai risultati della ricerca, aggiungi il seguente codice nella sezione <head> di una pagina web:

<meta name = “robots” content = “noindex, nofollow”>

In questo caso, i motori di ricerca non indicizzeranno la pagina e non seguiranno i link in essa riportati. Se invece si desidera dire ai motori di ricerca di seguire i link presenti sulla pagina, sarà necessario utilizzare questo tag:

<meta name = “robots” content = “noindex, follow”>

La pagina non apparirà sulla pagina dei risultati di Google, ma il motore di ricerca seguirà comunque i link riportati e procederà ad indicizzare le relative pagine (a meno che esse stesse non abbiano un tag noindex). Se si desidera che Google indicizzi tutte le pagine sarà sufficiente rimuovere il meta-tag.

Il tag robots noindex influenza solo i robot dei motori di ricerca. I visitatori abituali del tuo sito web potranno ancora vedere le pagine.

3. Il vostro server web ritorna un codice di stato HTTP errato

Un server web, una volta interrogato, ritorna un codice di stato che fornisce all’utente delle indicazioni sullo stato della risorsa richiesta. Quindi, nel caso si digiti un URL su un browser, questo interroga il server il quale ritorna un codice di stato. Se la pagina (o meglio, la risorsa) esiste sl server, il server web ha solitamente un codice di stato “200 OK”; codice quest’ultimo relativo ad un funzionamento corretto della pagina. Ad esempio, è possibile utilizzare, consapevolmente, questi tipi di codice di stato del server:

301 moved permanently: tutte le future richieste dovranno essere reinderizzate ad un nuovo URL.
403 forbidden: il server si rifiuta di rispondere alla richiesta.

Ai fini di una corretta ottimizzazione per i motori di ricerca, un reindirizzamento di tipo 301 dovrebbe essere utilizzato solo nel caso in cui desiderassi che i visitatori di vecchie pagine vengano reindirizzati automaticamente alle nuove pagine del tuo sito web.

Pertanto, un codice di stato non corretto, potrebbe indicare al motore di ricerca che la pagina non è corretta (ad esempio, nel caso di pagine che vengono spostate o modificate). Vi consigliamo pertanto di tenere d’occhio gli errori di scansione del vostro sito web per verificare eventuali errori nei codici di stato.

4. Pagine protette da password

Se si protegge con password le pagine, solo i visitatori che conoscono la password saranno in grado di visualizzare il contenuto. Questo accade ad esempio, se alcuni contenuti del sito sono in area riservata, con accesso con utente e password. Ogni risorsa protetta da autenticazione potrebbe quindi non essere accessibile ai motori di ricerca. In questo caso i Robot dei motori di ricerca non saranno in grado di accedere alle pagine e il contenuto non sarà quindi indicizzato da Google.

5. Pagine che richiedono Cookies o JavaScript

Cookies e codici JavaScript possono impedire ai robot dei motori di ricerca di scansionare e indicizzare il nostro sito web correttamente. Ad esempio, è possibile nascondere il contenuto rendendolo accessibile solo agli user agent che accettano i cookies.

È inoltre possibile utilizzare script JavaScript molto complessi per generare i contenuti o per navigare nelle pagine. La maggior parte dei robot dei motori di ricerca non eseguono codici JavaScript complessi e quindi non saranno in grado di leggere le relative pagine.

Conclusioni

Il vostro sito non è correttamente posizionato su Google o avete difficoltà ad avere una buona visibilità sui motori di ricerca? Vi consigliamo, in prima battuta, di verificare i 5 punti sopra riportati.

L’utilizzo del Google Webmaster Tool è altamente consigliato, in quanto questo strumento consente di verificare tutti i 5 punti sopra riportati.

Nel caso il sito risulti tuttavia ancora non visibile su Google, vi invitiamo a contattarci per una consulenza, saremo felici di aiutarvi ad ottenere il massimo dal vostro sito web.

Luca Mainieri

Ingegnere per formazione, innovation manager, creativo per passione! Mi interesso di web dal 1998 e il digital è diventata la mia professione. Dopo essermi dedicato alla programmazione (web, server e mobile) mi sono occupato di consulenza, affiancando importanti aziende nell'area sviluppo, project management e web marketing. Dal 2006 sono CEO di Neting.it.

0 comments

Andrea Pernici ha detto:

Settembre 4, 2014 alle 8:03 am

Bloccare una risorsa via robots.txt non ne impedisce l’indicizzazione. Impedisce solo l’accesso.
L’unico caso in cui si può de-indicizzare una risorsa via robots.txt è usando una direttiva non standard Noindex:/
Trovi un case study qui http://bit.ly/1edhz6i

Lascia un commento

CHIEDI AGLI ESPERTI

Contatta un Consulente

Giovani, dinamici e preparati. I consulenti di Neting sono a disposizione per una consulenza gratuita. Contatta ora il Team e inizia a svliuppare la tua strategia online.

contatta il team

Richiedi Preventivo

Area Clienti

Info e Contatti

Help Desk