Come trovare e risolvere i problemi di copertura dell'indice

Come trovare e risolvere i problemi di copertura dell'indice

Hannah Dango

Avete problemi con l'indicizzazione di Google? Questo problema può portare a un calo del traffico e dei tassi di conversione.

È necessario controllare le pagine indicizzate e non indicizzate del vostro sito per risolvere rapidamente qualsiasi problema. Qui spieghiamo passo dopo passo come farlo con la Google Search Console - Index Coverage Report.

Con il seguente metodo, siamo riusciti a risolvere i problemi di copertura dell'indice su centinaia di siti web con milioni o miliardi di pagine escluse. Utilizzatelo in modo che nessuna delle vostre pagine rilevanti perda visibilità nei risultati di ricerca e aumenti il vostro traffico SEO!

Fase 1: controllare il rapporto di copertura dell'indice

Il rapporto di copertura della console di ricerca indica quali pagine sono state scansionate e indicizzate da Google e perché gli URL si trovano in quello stato particolare. È possibile utilizzarlo per rilevare eventuali errori riscontrati durante il processo di crawling e indicizzazione.

Rapporto di copertura

Per controllare il rapporto di copertura dell'indice, vai su Google Search Console e clicca su Coverage (appena sotto l'indice). Una volta aperto, vedrete un riepilogo con quattro diversi stati che categorizzano i vostri URL:

  • Errore: Queste pagine non possono essere indicizzate e non appariranno nei risultati della ricerca a causa di alcuni errori.
  • Valido con le avvertenze: Queste pagine possono essere visualizzate o meno nei risultati di ricerca di Google.
  • Valido: Queste pagine sono state indicizzate e possono essere mostrate nei risultati della ricerca. Non è necessario fare nulla.
  • Escluso: Queste pagine non sono state indicizzate e non appariranno nei risultati della ricerca. Google ritiene che non si voglia indicizzarle o che non si ritenga che il contenuto non valga la pena indicizzarle.

È necessario controllare tutte le pagine che si trovano sul sito Errore e correggerli al più presto perché potresti perdere l'opportunità di guidare il traffico verso il tuo sito.

Se hai tempo, guarda le pagine incluse nello stato Valido con avviso poiché potrebbero esserci alcune pagine vitali che non dovrebbero in nessun caso mancare nei risultati della ricerca.

Infine, assicuratevi che il escluso Le pagine sono quelle che non si vogliono indicizzare.

Fase 2: Come risolvere i problemi riscontrati in ciascuno degli stati di copertura dell'indice

Una volta aperto il rapporto di copertura dell'indice, selezionare lo stato desiderato (Errori, Valido con avvertimenti, o Escluso) e vedere i dettagli forniti in fondo alla pagina. Troverete un elenco di tipi di errore in base alla sua gravità e il numero di pagine interessate, quindi si consiglia di iniziare a indagare i problemi dall'inizio del tavolo.

Vediamo ognuno degli errori in diversi stati e come è possibile correggerli. 

Stato di errore

Pagine di errore nel rapporto di copertura GSC

 

Errori del server (5xx):

Si tratta di URL che restituiscono a Google un codice di stato 5xx.

Azioni da intraprendere:

  • Controlla quale tipo di codice di stato 500 sta tornando . Qui avete un elenco completo con la definizione di ogni codice di stato di errore del server.
  • Ricaricare l'URL per vedere se l'errore persiste. 5xx errori sono temporanei e non richiedono alcuna azione.
  • Verificare che il server non sia sovraccarico o configurato in modo errato. In tal caso, chiedete aiuto ai vostri sviluppatori o contattate il vostro fornitore di hosting.
  • Eseguire un'analisi dei file di registro per controllare i registri degli errori del vostro server. Questa pratica fornisce ulteriori informazioni sul problema.
  • Esaminate le modifiche che avete apportato recentemente al vostro sito web per vedere se qualcuna di esse può essere la causa principale. ex) plugin, nuovo codice backend, ecc.

Reindirizzare gli errori:

GoogleBot ha riscontrato un errore durante il processo di reindirizzamento che non permette di strisciare la pagina. Uno dei seguenti motivi causa spesso questo problema.

  • Una catena di reindirizzamento troppo lunga
  • Un loop di reindirizzamento
  • Un URL di reindirizzamento che supera la lunghezza massima dell'URL
  • C'era un URL errato o vuoto nella catena di reindirizzamento

Azioni da intraprendere:

  • Eliminare le catene e i loop di reindirizzamento. Fate in modo che ogni URL esegua un solo reindirizzamento. In altre parole, un reindirizzamento dal primo all'ultimo URL.

URL inviato bloccato da Robots.txt:

Si tratta di URL che avete inviato a Google caricando una Sitemap XML su Google Search Console ma che sono stati bloccati dal file Robots.txt.

Azioni da intraprendere:

Verificate se volete che i motori di ricerca indicizzino o meno la pagina in questione.

  • Se non si vuole che venga indicizzato, caricare una mappa del sito XML rimuovendo l'URL.
  • Al contrario, se volete che sia indicizzato, modificate le linee guida nel Robots.txt. Ecco una guida su come modificare robots.txt.

Inserito l'URL contrassegnato con "noindex":

Queste pagine sono state inviate a Google attraverso una mappa del sito XML, ma hanno una direttiva 'noindex' sia in tag meta robot che in intestazioni HTTP.

Azioni da intraprendere:

  • Se si desidera che l'URL venga indicizzato, è necessario rimuovere la direttiva noindex
  • Se ci sono URL che non si desidera che Google indicizzi, eliminarli dalla Sitemap XML

L'URL inviato sembra essere un Soft 404:

L'URL che avete inviato attraverso una Sitemap XML a scopo di indicizzazione è un soft 404. Questo errore si verifica quando il server restituisce un codice di stato 200 a una richiesta, ma Google ritiene che dovrebbe visualizzare un 404. In altre parole, la pagina appare a Google come un errore 404. In alcuni casi, potrebbe essere perché la pagina non ha contenuto, sembra sbagliata, o di bassa qualità a Google. 

Azioni da intraprendere:

  • Verificare se questi URL devono restituire un codice di stato (reale) 404. In tal caso, rimuoverli dalla mappa del sito XML.
  • Se trovate che non dovrebbero restituire un errore, assicuratevi di fornire contenuti appropriati su queste pagine. Evitate contenuti sottili o duplicati. Verificate che se ci sono reindirizzamenti, siano corretti.

L'URL inviato restituisce la richiesta non autorizzata (401):

L'URL inviato a Google attraverso una Sitemap XML restituisce un errore 401. Questo codice di stato indica che non si è autorizzati ad accedere all'URL. Potresti aver bisogno di un nome utente e di una password, o forse, ci sono restrizioni di accesso basate sull'indirizzo IP.

Azioni da intraprendere:

  • Verificare se gli URL devono restituire un 401. In tal caso, eliminarli dalla mappa del sito XML.
  • Se non si vuole che visualizzino un codice 401, rimuovere l'eventuale autenticazione HTTP. 

URL inviato non trovato (404):

Avete inviato l'URL per l'indicizzazione a Google Search Console, ma Google non può eseguire il crawl a causa di un problema diverso da quelli sopra menzionati. 

Azioni da intraprendere:

  • Vedi se vuoi che la pagina sia indicizzata o meno. Se la risposta è sì, correggila, in modo da restituire un codice di stato di 200. È anche possibile assegnare un reindirizzamento 301 all'URL, in modo da visualizzare una pagina appropriata. Ricordate che se optate per un redirect, dovete aggiungere l'URL assegnato alla mappa del sito XML e rimuovere quello che dà un 404.   
  • Se non volete che la pagina sia indicizzata, rimuovetela dalla mappa del sito XML.

L'URL inviato ha un problema di crawl: 

L'URL è stato inviato all'SGC a fini di indicizzazione, ma non può essere ricercato da Google a causa di un problema diverso da quelli sopra menzionati. 

Azioni da intraprendere:

  • Utilizzare l'URL Inspection Tool per ottenere maggiori informazioni su cosa sta causando il problema.
  • A volte questi errori sono temporanei, quindi non richiedono alcuna azione.

Valido con stato di avviso

Valido con le avvertenze

Queste pagine sono indicizzate, anche se sono bloccate da robots.txt. Google cerca sempre di seguire le direttive indicate nel file robots.txt. Tuttavia, a volte si comporta in modo diverso. Questo può accadere, ad esempio, quando qualcuno si collega all'URL indicato.

Trovate gli URL in questa categoria perché Google dubita che vogliate bloccare queste pagine sui risultati della ricerca

Azioni da intraprendere: 

  • Google non consiglia di utilizzare il file robots.txt per evitare l'indicizzazione delle pagine. Se invece non volete vedere queste pagine indicizzate, utilizzate il noindex nei metarobot o un header di risposta HTTP.
  • Un'altra buona pratica per impedire a Google di accedere alla pagina è l'implementazione di un'autenticazione HTTP.
  • Se non si desidera bloccare la pagina, apportare le necessarie correzioni nel file robots.txt.
  • È possibile identificare quale regola sta bloccando una pagina utilizzando l'opzione robot.txt tester.

Natzir Turrado,
Consulente FandangoSEO
Tecnico SEO Freelance @ Natzir Turrado

In occasione di una grande migrazione verso SalesForce, abbiamo chiesto agli sviluppatori di rendere inaccessibili (offuscati) i filtri che non volevamo indicizzare. Quando il sito web di SalesForce è entrato in funzione, tutto è stato un successo. Ma quando una nuova versione è stata rilasciata mesi dopo, l'offuscamento è stato accidentalmente interrotto. Questo ha fatto scattare tutti gli allarmi poiché, in soli sette giorni, ci sono state ~17,5 milioni di richieste di Googlebot-Mobile e ~12,5 milioni di Googlebot/2.1, oltre a una cache con il 2% di hit rate. Qui sotto potete vedere in Search Console come sono aumentate le pagine indicizzate ma bloccate dai robot.


Per questo motivo raccomando di monitorare continuamente i registri e di rivedere il Rapporto di copertura dell'SGC (anche se qualsiasi problema verrà rilevato prima di controllare i registri). E ricordate che il robots.txt non impedisce l'indicizzazione delle pagine. Se volete che Google non cerchi un URL, è meglio rendere l'URL inaccessibile!

Stato escluso

Pagine escluse nel rapporto di copertura dell'SGC

Queste pagine non sono indicizzate sui risultati della ricerca e Google ritiene che sia la cosa giusta. Ad esempio, questo potrebbe essere dovuto al fatto che si tratta di pagine duplicate di pagine indicizzate o al fatto che si danno linee guida sul proprio sito web ai motori di ricerca per indicizzarle.

Il rapporto di copertura mostra 15 situazioni in cui la vostra pagina può essere esclusa.

 

Escluso dal tag 'noindex': 

Stai dicendo ai motori di ricerca di non indicizzare la pagina dando una direttiva "noindex". 

Azioni da intraprendere: 

  • Verificare se effettivamente non si vuole indicizzare la pagina. Se volete che la pagina venga indicizzata, rimuovete il tag "noindex". 
  • Potete confermare la presenza di questa direttiva aprendo la pagina e cercando "noindex" sul corpo di risposta e sull'intestazione della risposta.

Bloccato dallo strumento di rimozione della pagina: 

Yo hanno presentato una richiesta di rimozione dell'URL per queste pagine su GSC.

Azioni da intraprendere:

  • Google frequenta questa richiesta solo per 90 giorni, quindi se non vuoi indicizzare la pagina, usa le direttive "noindex", implementa un'autenticazione HTTP o rimuovi la pagina.

Bloccato da robots.txt: 

State bloccando l'accesso a Googlebot a queste pagine con il file robots.txt. Tuttavia, potrebbe comunque essere indicizzato se Google potesse trovare informazioni su questa pagina senza caricarla. Forse Google ha indicizzato la pagina prima di aggiungere il disallow in robots.txt

Azioni da intraprendere: 

  • Se non volete che la pagina sia indicizzata, utilizzate una direttiva "noindex" e rimuovete il blocco robots.txt.

Bloccato a causa di una richiesta non autorizzata (401): 

Bloccate l'accesso a Google utilizzando un'autorizzazione di richiesta (risposta 401). 

Azioni da intraprendere: 

  • Se vuoi permettere a GoogleBot di visitare la pagina, rimuovi i requisiti di autorizzazione. 

Anomalia di strisciata: 

La pagina non è stata indicizzata a causa di un codice di risposta all'errore 4xx o 5xx.

Azioni da intraprendere: 

  • Utilizzare lo strumento di ispezione URL per ottenere maggiori informazioni sui problemi.

Strisciato - Attualmente non indicizzato

Questa pagina è stata strisciata da GoogleBot ma non è stata indicizzata. Potrebbe essere indicizzata o meno in futuro. Non è necessario inviare questo URL per la scansione.

Azioni da intraprendere:

  • Se volete che la pagina sia indicizzata nei risultati della ricerca, assicuratevi di fornire informazioni preziose.  

Scoperto - Attualmente non indicizzato:

Google ha trovato questa pagina, ma non è ancora riuscito a strisciare. Questa situazione di solito accade perché quando GoogleBot ha cercato di crawlarla, il sito era sovraccarico. Il crawl è stato programmato per un'altra volta.

Non è richiesta alcuna azione.

 

Pagina alternativa con l'apposito tag canonico:

Questa pagina indica una pagina canonica, quindi Google capisce che non si vuole indicizzarla.

Azioni da intraprendere:

  • Se si desidera indicizzare questa pagina, è necessario modificare il parametro rel=attributi canonici per dare a Google le linee guida desiderate.

Duplicare senza canonici selezionati dall'utente: 

La pagina ha dei duplicati, ma nessuno di essi è contrassegnato come canonico. Google ritiene che questa non sia quella canonica. 

Azioni da intraprendere:

Duplicato, Google ha scelto un canonico diverso dall'utente: 

Avete contrassegnato questa pagina come canonica, ma Google, invece, ha indicizzato un'altra pagina che pensa funzioni meglio come canonica. 

Azioni da intraprendere:

  • Potete seguire la scelta di Google. In questo caso, contrassegnare la pagina indicizzata come canonica e questa come un duplicato dell'URL canonica.
  • In caso contrario, scopri perché Google preferisce un'altra pagina a quella che hai scelto, ed effettua le modifiche necessarie. Utilizzate l'URL Inspection Tool per scoprire la "pagina canonica" selezionata da Google.

Ferran Gavin,
SEO Manager @ Softonic

Uno dei "fallimenti" più curiosi che abbiamo sperimentato con l'Index Coverage Report è stato scoprire che Google non elaborava correttamente i nostri canonici (e noi lo facevamo male da anni!). Google indicava sulla console di ricerca che il canonico specificato non era valido quando la pagina era perfettamente formattata. Alla fine, si è rivelato essere un bug di Google stesso, confermato da Gary Ilyes.

 

Non trovato (404): 

La pagina restituisce un codice di stato di errore 404 quando Google fa una richiesta. GoogleBot non ha trovato la pagina attraverso una mappa del sito, ma probabilmente attraverso un altro sito web che si collega all'URL. È anche possibile che questo URL sia esistito in passato e che sia stato rimosso. 

Azioni da intraprendere:

  • Se la risposta 404 è intenzionale, potete lasciarla così com'è. Non danneggerà le vostre prestazioni SEO. Tuttavia, se la pagina si è spostata, implementare un reindirizzamento 301.

Pagina rimossa a causa di una denuncia legale: 

Questa pagina è stata eliminata dall'indice a causa di un denuncia legale.

Azioni da intraprendere: 

  • Indagate su quali norme legali potreste aver violato e prendete le misure necessarie per correggerle.

Pagina con il reindirizzamento: 

Questo URL è un redirect e quindi non è stato indicizzato.

Azioni da intraprendere:

  • Se l'URL non doveva reindirizzare, rimuovere l'implementazione del reindirizzamento. 

Morbido 404: 

La pagina restituisce quella che Google ritiene essere una risposta soft 404. La pagina non è indicizzata perché, sebbene dia un codice di stato di 200, Googles pensa che dovrebbe restituire un 404

Azioni da intraprendere:

  • Esaminate se dovreste assegnare un 404 alla pagina, come suggerisce Google.
  • Aggiungete contenuti preziosi alla pagina per far sapere a Google che non si tratta di un Soft 404.

Duplicato, URL inviato non selezionato come canonico: 

Avete inviato l'URL all'SGC per l'indicizzazione. Tuttavia, non è stato indicizzato perché la pagina ha dei duplicati senza tag canonici, e Google ritiene che ci sia un candidato migliore per il canonico. 

Azioni da intraprendere:

  • Decidete se volete seguire la scelta di Google per la pagina canonica. In questo caso, assegnare il rel=attributi canonici per puntare alla pagina selezionata da Google.
  • È possibile utilizzare l'URL Inspection Tool per vedere quale pagina è stata scelta da Google come canonica.
  • Se volete questo URL come canonico, analizzate il motivo per cui Google preferisce l'altra pagina. Offrite più contenuti di alto valore sulla pagina di vostra scelta.

Fase 3. Rapporto di copertura dell'indice Problemi più comuni

Ora conoscete i diversi tipi di errori che potete trovare nel rapporto di copertura dell'indice e quali azioni intraprendere quando li incontrate. Di seguito trovate una breve panoramica dei problemi che si presentano più frequentemente.

Più Esclusi di Pagine Valide

A volte si possono avere più pagine escluse di quelle valide. Questa circostanza di solito è data su siti di grandi dimensioni che hanno subito un significativo cambiamento di URL. Si tratta probabilmente di un vecchio sito con una lunga storia, oppure il codice web è stato modificato.

Se avete una differenza significativa tra il numero di pagine dei due stati (Escluso e Valido), avete un problema grave. Iniziate a rivedere le pagine escluse, come vi spieghiamo sopra. 

 

Esteve Castells

Esteve Castells,
Responsabile SEO di Gruppo @ Adevinta

Il problema più grande che ho visto nel Coverage Report è uno dei siti web che gestisco, che ha finito per avere 5 miliardi di pagine escluse. Sì, l'hai letto correttamente, 5 miliardi di pagine. La navigazione sfaccettata è andata completamente fuori di testa, e per ogni pageview, stavamo creando 20 nuovi URL da far strisciare su Googlebot.

Questo ha finito per essere l'errore più costoso in termini di strisciare, in assoluto. Abbiamo dovuto disconoscere completamente tramite robots.txt gli URL di navigazione sfaccettati, perché Googlebot stava eliminando il nostro server con più di 25 milioni di visite al giorno.

 

Picchi di errore

Quando il numero di errori aumenta in modo esponenziale, è necessario controllare l'errore e correggerlo al più presto. Google ha rilevato qualche problema che danneggia gravemente le prestazioni del vostro sito web. Se non correggete il problema oggi, avrete problemi significativi domani.

Errori del server

Assicurarsi che questi errori non siano 503 (Servizio non disponibile). Questo codice di stato significa che il server non è in grado di gestire la richiesta a causa di un sovraccarico temporaneo o di una manutenzione. All'inizio l'errore dovrebbe scomparire da solo, ma se continua a verificarsi, è necessario esaminare il problema e risolverlo.

Se avete altri tipi di errori 5xx, vi consigliamo di controllare la nostra guida per vedere le azioni da intraprendere in ogni caso.

404 errori

Sembra che Google abbia rilevato un'area del vostro sito web che genera 404 pagine non trovate. Se il volume cresce notevolmente, consultate la nostra guida per trovare e riparare i link rotti.

Pagine o siti mancanti

Se non è possibile visualizzare una pagina o un sito nel report, può essere per diversi motivi.

  1. Google non l'ha ancora scoperto. Quando una pagina o un sito è nuovo, potrebbe volerci un po' di tempo prima che Google lo trovi. Presentare una richiesta di ricerca per la mappa del sito o per la scansione delle pagine per accelerare il processo di indicizzazione. Inoltre, assicuratevi che la pagina non sia orfana e che non sia collegata dal sito web.
  2. Google non può accedere alla tua pagina a causa di una richiesta di accesso. Rimuovere i requisiti di autorizzazione per consentire a GoogleBot di strisciare la pagina.
  3. La pagina ha un tag noindex o è stata eliminata dall'indice per qualche motivo. Rimuovere il tag noindex e assicurarsi di fornire contenuti preziosi sulla pagina.

Errori ed esclusioni "Presentato ma/sottoposto e".

Questo problema si verifica quando c'è incongruenza. Se si invia una pagina attraverso una mappa del sito, bisogna assicurarsi che sia valida per l'indicizzazione e che sia collegata al sito.

Il vostro sito dovrebbe essere composto per lo più da pagine di valore che vale la pena di collegare. 

Sommario

Ecco un riassunto in tre fasi dell'articolo "Come trovare e correggere gli errori di copertura dell'indice".  

  • La prima cosa che si vuole fare quando si utilizza il rapporto di copertura dell'indice è correggere le pagine che appaiono nello stato di errore. Questo deve essere 0 per evitare le penalità di Google.
  • Insecondo luogo, controllate le pagine escluse e vedete se si tratta di pagine che non volete indicizzare. In caso contrario, seguite le nostre linee guida per risolvere i problemi.
  • Se avete tempo, vi consigliamo vivamente di controllare le pagine valide con un avvertimento. Assicuratevi che le linee guida che fornite nel robots.txt siano corrette e che non ci siano incongruenze.

Speriamo che lo troviate utile! Fateci sapere se avete domande sul rapporto di copertura dell'indice. Ci farebbe piacere ricevere suggerimenti da voi nei commenti qui sotto.

Diffondere l'amore

Altri grandi articoli

google EAT

Guida completa di Google EAT

Nell'agosto 2018, abbiamo iniziato a sentire parlare di E-A-T di Google, e da allora, è stato un tema costante nel...

Leggi la storia
Reindirizza

Reindirizzamenti: Migliori pratiche SEO 

I reindirizzamenti aiutano a mantenere il posizionamento del sito web e facilitano il motore di ricerca a capire le modifiche che facciamo ai nostri siti web....

Leggi la storia
intento di ricerca

Intento di ricerca e SEO: La guida definitiva

Quando creiamo contenuti per le nostre pagine web, il nostro obiettivo dovrebbe essere lo stesso di Google: rispondere alle...

Leggi la storia
Arrow-up