Il crawl budget è un aspetto cruciale da considerare per il SEO. Questo articolo spiega i fondamenti del crawl budget e come ottimizzarlo per ottenere il massimo da esso.
Che cos'è il budget di crawl?
Cominciamo con la definizione di crawl. Il crawl è il processo con cui i motori di ricerca come Google inviano i loro bot (noti anche come spider o crawler) per trovare e analizzare i contenuti del sito web. Questo include immagini, video, PDF, ecc.
Ci sono miliardi di pagine web. Questo numero rende in qualche modo impraticabile per Googlebot scansionarle ogni secondo, ogni giorno. Farlo porterebbe a una quantità estremamente elevata di larghezza di banda consumata online. Questo porterebbe, a sua volta, a siti web più lenti. Per eliminare questa situazione, Google distribuisce un budget di crawl per ogni sito web. Il budget assegnato determina il numero di volte in cui Googlebot scansiona il sito web alla ricerca di pagine da indicizzare.
Un Googlebot, d'altra parte, è un proxy automatico che si sposta all'interno di un sito alla ricerca di pagine che devono essere aggiunte al suo indice. E' qualcosa che si comporta come un navigatore digitale. Conoscere Googlebot e come funziona è solo un passo per aiutarti a capire l'idea dei budget di scansione per il processo SEO.
Come misurare il tuo budget di crawl
Il modo migliore per misurare il crawl budget è eseguire l'analisi dei log. Questa è una pratica vitale per vedere come Google si comporta sul tuo sito web e su quali pagine spende il crawl budget.
Utilizzando un analizzatore di log come FandangoSEO, puoi controllare istantaneamente la media degli hit (visite di Googlebot) al tuo sito per giorno e ora o valutare come il tuo budget di crawl è distribuito su diversi tipi di pagina. Allo stesso modo, sarete in grado di vedere le scansioni dei motori di ricerca in tempo reale per confermare se il vostro contenuto più recente viene trovato.
Perché è importante il limite di crawl rate
Questo concetto ha alcune differenze rispetto al crawl budget. Il limite di crawl rate definisce il numero di connessioni simultanee che Googlebot utilizza per scansionare i siti e il tempo che impiega prima di recuperare un'altra pagina. Si dovrebbe notare che Google si concentra sull'esperienza dell'utente. Il Googlebot, quindi, utilizza il limite di velocità di scansione. Questo limite impedisce ai siti di essere superati dagli agenti automatici al punto che gli utenti umani hanno difficoltà a caricare un sito sui loro browser web.
Alcuni fattori influenzeranno il crawl rate. Alcuni di loro includono:
- Velocità del sito web - Se i siti web rispondono rapidamente a Googlebot, Google estenderà il tasso limite di crawl. Google ridurrà poi il tasso di crawl per altri siti web pigri.
- Impostazioni nella Search Console - Uno sviluppatore web o un architetto può impostare i limiti di crawl attraverso la Search Console. Se un webmaster pensa che Google stia eseguendo un crawl eccessivo sul suo server, può diminuire il tasso di crawl, ma non può aumentarlo.
Si noti che un tasso di crawl sano può ottenere le pagine indicizzate più velocemente, ma un tasso di crawl più alto non è un fattore di ranking.
La richiesta di strisciare
Il limite del crawl rate potrebbe non essere raggiunto, ma l'attività di Google sarà comunque ridotta se la domanda di indicizzazione non è presente. Questa riduzione di attività da parte di Googlebot è chiamata riduzione della domanda di crawl. I due fattori che determinano in modo significativo la domanda di crawl rate sono:
- Popolarità -Gli URL che sono popolari su Internet sono scansionati frequentemente per mantenerli sempre freschi nell'indice di Google.
- Staleness-I sistemi di Google di solito cercano di evitare che gli URL diventino stantii nel suo indice.
Inoltre, incidenti in tutto il sito, come gli spostamenti del sito, possono attivare un aumento della domanda di scansione. Questo succede per reindicizzare il contenuto del sito nei nuovi URL.
Quali fattori influenzano il budget di crawl per il SEO?
Un crawl budget combina la domanda di crawl e il crawl rate. Questa combinazione è quella che Google definisce come il numero totale di URL che Googlebot è disposto e in grado di eseguire la scansione. Google ha identificato gli esatti fattori che influenzano il crawl budget. Ecco l'elenco di questi fattori:
- Parametri URL - Questo è soprattutto il caso in cui l'URL di base aggiunto con i parametri restituisce la stessa pagina. Questo tipo di configurazione può portare a diversi URL unici che contano verso un budget di crawl anche se questi URL restituiscono ancora la stessa pagina.
- Pagine di errore soft - Queste pagine di errore hanno anche un impatto sul budget della scansione. Tuttavia, essi sono riportati anche nella Console di ricerca.
- Duplicare i contenuti - A volte, gli URL possono essere unici senza parametri di richiesta, ma restituire lo stesso contenuto web.
- Pagine pirata - I siti pirata di solito hanno il loro budget di scansione limitato.
- Contenuti di bassa qualità - Google probabilmente limiterà il budget di scansione per i siti che soffrono di scarsa qualità.
- Impaginazione senza fine - I siti con link sconfinati troveranno che Googlebot spende gran parte del suo budget per i link che potrebbero non essere importanti.
Come ottimizzare il tuo budget di crawl
Fortunatamente, ci sono semplici linee guida che possono essere messe in pratica per ottimizzare il vostro budget di crawl di Google. Soprattutto quelle che vedremo di seguito:
Controlla che le tue pagine principali siano crawlabili
È fondamentale assicurarsi che .htaccess e robots.txt non blocchino le vostre pagine più importanti e che i bot non abbiano problemi ad accedere ai file CSS e Javascript. Dovresti anche occuparti di bloccare i contenuti che non dovrebbero essere visualizzati nella SERP. Si consiglia di utilizzare un SEO Crawler che permette di rilevare facilmente eventuali problemi di crawling.
Dai una struttura semplice al tuo sito web
Il tuo sito dovrebbe avere una home page, categorie o tag e pagine di contenuto. Includi link interni per stabilire una gerarchia del sito e rendere facile per i crawler trovare le pagine. Ancora una volta, suggeriamo di usare uno strumento SEO che ti permette di vedere la struttura del tuo sito a colpo d'occhio.
Non smettere di aggiornare la tua sitemap XML
L'aggiornamento della sitemap XML è essenziale, perché questo aiuta i bot a capire dove vanno i link interni del sito. Questa pratica permette anche a Google di indicizzare e classificare più rapidamente le nuove pagine.
Evitare le catene di reindirizzamento
Non è affatto consigliabile che il vostro sito abbia 301 e 302 redirect. Si può difficilmente notare se occasionalmente si lasciano uno o due redirect, ma non si dovrebbe lasciare che il numero continui a crescere.
Gestisci correttamente i tuoi parametri URL
Nel caso in cui il vostro sistema di gestione dei contenuti generi un gran numero di URL dinamici, essi potrebbero portare ad una sola pagina. Ma i motori di ricerca li tratteranno separatamente, spendendo inutilmente il vostro budget di crawling. Quindi, per evitare problemi di contenuto duplicato, è necessario gestire correttamente i parametri dell'URL.
Eliminare le pagine di errore 404 e 410
Questi tipi di pagine sprecano il vostro budget di crawl e possono anche danneggiare l'esperienza dell'utente. Da qui l'importanza di correggere i codici di stato 4xx e 5xx.
Ridurre la velocità di caricamento del sito
La velocità del sito è di fondamentale importanza per migliorare il budget di crawl e per fare in modo che il tuo sito web si posizioni in alto. I bot scansionano molto più velocemente le pagine che si caricano più rapidamente. È anche un fattore critico per migliorare l'esperienza dell'utente, e quindi il posizionamento della pagina.
Usa i feed a tuo vantaggio
Google dice che i feed sono un modo per i siti web grandi e piccoli di distribuire contenuti oltre i visitatori che si rivolgono ai browser. Consentono la sottoscrizione di aggiornamenti regolari consegnati automaticamente tramite un portale web, un newsreader, e talvolta anche una vecchia e-mail.
Questi feed sono molto utili ai crawler, poiché sono tra i siti più visitati dai bot dei motori di ricerca.
Includere link interni che puntano alle pagine con meno traffico
Non c'è dubbio che il collegamento interno è una grande strategia SEO. Migliora la navigazione, distribuisce l'autorità della pagina e aumenta il coinvolgimento degli utenti. Ma è anche una buona tattica per migliorare il budget di crawl, poiché i link in entrata aprono la strada al crawler mentre naviga il sito.
Costruire link esterni
Gli studi hanno dimostrato una forte correlazione tra il numero di volte che gli spider passano da un sito web e il numero di link in uscita che contiene.
Come aumentare il tuo budget di crawl
Matt Cutts, che era a capo del team Web Spam di Google, ha spiegato questo argomento parlando della relazione tra budget di crawl e autorità. Ha sostenuto che il numero di pagine scansionate è più o meno proporzionale al loro PageRank.
Come ha spiegato Cutts, se ci sono molti link in entrata sulla pagina principale, vengono scansionate. Poi questa pagina radice può puntare ad altre, che otterranno PageRank, e saranno anch'esse scansionate. Ma il PageRank diminuirà man mano che ci si addentra nel sito.
Bene, anche se Google ora aggiorna pubblicamente i valori di PageRank, questo parametro è ancora presente negli algoritmi del motore di ricerca. Parliamo della page authority invece del PageRank: la conclusione è che è strettamente legata al crawl budget.
Quindi, è chiaro che è necessario aumentare l'autorità del sito per ottenere un budget di crawl più alto. Questo si ottiene in gran parte con più link esterni.