Le migliori pratiche di Robots.txt

Anche se gli specialisti SEO mettono la maggior parte dei loro sforzi per migliorare la visibilità delle pagine per le parole chiave corrispondenti, in alcuni casi è necessario nascondere certe pagine ai motori di ricerca.

Scopriamo un po' di più su questo argomento.


Cos'è un file robots.txt?

Robots.txt è un file che contiene le aree di un sito web in cui è vietato ai robot dei motori di ricerca di effettuare il crawling. Elenca gli URL che il webmaster non vuole che Google o qualsiasi altro motore di ricerca indicizzi, impedendo loro di visitare e tracciare le pagine selezionate. Questa azione si realizza attraverso il tag robots.txt disallow, che si vedrà negli esempi più avanti.

Quando un bot trova un sito web su Internet, la prima cosa che fa è controllare il file robots.txt per sapere cosa gli è consentito esplorare e cosa deve ignorare durante la scansione.

Esempio di Robots.txt

Per fare un esempio di robots.txt, questa è la sua sintassi:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Cos'è robot.txt in SEO

Questi tag sono necessari per guidare i bot di Google quando si trova una nuova pagina. Sono necessari perché:

  • Aiutano a ottimizzare il budget di scansione, poiché lo spider visiterà solo ciò che è veramente rilevante e farà un uso migliore del suo tempo di scansione di una pagina. Un esempio di una pagina che non vorresti che Google trovasse è una "pagina di ringraziamento".
  • Il file Robots.txt è un buon modo per forzare l'indicizzazione delle pagine, indicando le pagine.
  • I file Robots.txt controllano l'accesso dei crawler a certe aree del tuo sito.
  • Possono proteggere intere sezioni di un sito web, poiché è possibile creare file robots.txt separati per ogni dominio principale. Un buon esempio è, ovviamente, la pagina dei dettagli di pagamento.
  • È anche possibile bloccare le pagine dei risultati di ricerca interni dall'apparire nelle SERP.
  • Robots.txt può nascondere i file che non dovrebbero essere indicizzati, come i PDF o certe immagini.

Dove si trova robots.txt

I file Robots.txt sono pubblici. Puoi semplicemente digitare un dominio root e aggiungere /robots.txt alla fine dell'URL e vedrai il file....se ce n'è uno!

Attenzione: Evitare di inserire informazioni private in questo file.

È possibile trovare e modificare il file nella directory principale sul vostro hosting, controllando i file admin o l'FTP del sito web.

 

Come modificare robots.txt

Puoi farlo da solo

  • Creare o modificare il file con un editor di testo semplice
  •  Nominate il file "robots.txt", senza alcuna variazione come l'uso di lettere maiuscole.

Ecco un esempio in cui si desidera che il sito venga carrellato. Prestare attenzione a come si utilizza il tag robots.txt disallow.


User-agent: *
Disallow:

Notate che abbiamo lasciato "Disallow" vuoto, il che indica che non c'è nulla che non possa essere scansionato.

Se vuoi bloccare una pagina, aggiungi questo (usando l'esempio della pagina di ringraziamento):


User-agent: *
Disallow: /thank-you/

  • Usa un file robots.txt separato per ogni sottodominio.
  • Mettete il file nella directory di primo livello del sito web.
  • Puoi testare i file robots.txt usando Google Webmaster Tools prima di caricarli nella tua directory principale.
  • Prendi nota che FandangoSEO è l'ultimo robots.txt checker . Usalo per monitorarli!

Non è così difficile configurare il file robots.txt e modificarlo in qualsiasi momento. Tenete presente che tutto ciò che volete da questa azione è sfruttare al massimo le visite dei bot. Impedendo loro di vedere pagine non pertinenti, farete in modo che il tempo trascorso sul sito web sia molto più proficuo.

Infine, ricordate che la migliore pratica del SEO per robots.txt è garantire che tutti i contenuti rilevanti siano indicizzabili e pronti per essere scansionati! Potete vedere la percentuale di pagine indicizzabili e non indicizzabili tra le pagine totali di un sito utilizzando la scansione di FandangoSEO, così come le pagine bloccate dal file robots.txt.


Casi d'uso di Robots.txt

Il robots.txt controlla l'accesso del crawler ad alcune aree del sito web. Questo a volte può essere rischioso, soprattutto se il GoogleBot non è accidentalmente autorizzato a strisciare l'intero sito, ma ci sono situazioni in cui un file robots.txt può essere utile.

robots.txt

Alcuni dei casi in cui è consigliabile usare robots.txt sono i seguenti

  • Quando si vuole mantenere la privacy di alcune sezioni di un sito web, per esempio, perché è una pagina di prova.
  • Per evitare che i contenuti duplicati appaiano nella pagina dei risultati di Google, i meta-bot sono un'opzione ancora più auspicabile.
  • Quando non vuoi che le pagine dei risultati della ricerca interna appaiano su una pagina pubblica di risultati.
  • Per specificare la posizione delle mappe del sito.
  • Per impedire ai motori di ricerca di indicizzare certi file sul sito web.
  • Per indicare un ritardo di scansione per evitare il sovraccarico del server quando i crawler caricano diversi contenuti contemporaneamente.

Se non ci sono aree del sito in cui si vuole controllare l'accesso dell'user-agent, potrebbe non essere necessario un file robots-txt.


Migliori pratiche SEO Robots.txt

Seguite questi consigli per gestire correttamente i file robots.txt:

Non bloccare i contenuti che vuoi che siano tracciati

Né si dovrebbero bloccare le sezioni del sito web che dovrebbero essere tracciate.

Tenete presente che i bot non seguiranno i link delle pagine bloccate da robots.txt

A meno che non siano anche collegate da altre pagine a cui i motori di ricerca possono accedere perché non sono state bloccate, le risorse collegate non saranno scansionate e potrebbero non essere indicizzate.

Inoltre, nessun valore di collegamento può essere passato dalla pagina bloccata alla destinazione del collegamento. Se avete delle pagine a cui volete dare autorità, dovete usare un meccanismo di blocco diverso da robots.txt.

Non usare robots.txt per evitare di mostrare dati riservati nella pagina dei risultati del motore di ricerca

Altre pagine possono collegarsi direttamente alla pagina contenente informazioni riservate (evitando così le linee guida robots.txt nel vostro dominio principale o nella vostra home page), motivo per cui può ancora essere indicizzata.

Dovresti usare un metodo diverso, come la protezione con password o il meta tag noindex, per evitare che la pagina appaia nei risultati di ricerca di Google.

Ricorda che alcuni motori di ricerca hanno più user agent

Google, per esempio, usa GoogleBot per la ricerca organica e GoogleBot-Image per la ricerca di immagini.

La maggior parte degli user agent dello stesso motore di ricerca segue le stesse regole, motivo per cui non è necessario specificare le linee guida per ogni crawler del motore di ricerca, ma farlo permette di controllare come il contenuto del sito verrà scansionato.

Il motore di ricerca mette in cache il contenuto del robots.txt ma di solito aggiorna i dati in cache quotidianamente

Se cambiate il file e volete aggiornarlo più velocemente, potete inviare l'URL robots.txt a Google.


bot

Limitazioni del file Robots.txt

Infine, vedremo quali aspetti limitano la funzione del file robots.txt:

Le pagine continueranno ad apparire nei risultati di ricerca

Quelle pagine che sono inaccessibili ai motori di ricerca a causa del file robots.txt ma che hanno dei link ad esse possono ancora apparire nei risultati di ricerca da una pagina strisciabile.

Contiene solo direttive

Google rispetta molto il file robots.txt, ma è ancora una direttiva e non un mandato.

Dimensione del file

Google supporta un limite di 521 kilobyte per i file robots.txt, e se il contenuto supera questa dimensione massima, può ignorarlo. Non sappiamo se anche altri motori di ricerca fissano un limite per questi file.

Robot txt. è in cache per 24 ore

Secondo Google, il file robots.txt è di solito nella cache fino a 24 ore. Qualcosa da tenere a mente quando si fanno modifiche al file.

Non è del tutto chiaro come gli altri motori di ricerca gestiscono il file nella cache, ma è meglio evitare la cache del robots.txt in modo che i motori di ricerca non impieghino più tempo a rilevare i cambiamenti.



5xx Errori del server Tag Meta Robots

Hai già aggiunto un file robots.txt?

Controlla i tuoi robot con FandangoSEO

Prova gratuita per 14 giorni

Accesso completo a tutte le nostre funzioni. Nessun obbligo di sorta.

Per iniziare

Arrow-up

Prima di andare...

Se non vuoi perdere nessun consiglio e aggiornamento da FandangoSEO, iscriviti alla nostra newsletter.

+5000 SEO fidati di noi, unisciti alla comunità