Le migliori pratiche di Robots.txt

Anche se gli specialisti SEO mettono la maggior parte dei loro sforzi per migliorare la visibilità delle pagine per le parole chiave corrispondenti, in alcuni casi è necessario nascondere certe pagine ai motori di ricerca.

Scopriamo un po' di più su questo argomento.


Cos'è un file robots.txt?

Robots.txt è un file che contiene le aree di un sito web che i robot dei motori di ricerca non possono scansionare. Elenca gli URL che il webmaster non vuole che Google o qualsiasi altro motore di ricerca indicizzi e impedisce loro di visitare e tracciare le pagine selezionate.

Quando un bot trova un sito web su Internet, la prima cosa che fa è controllare il file robots.txt per imparare cosa gli è permesso esplorare e cosa deve ignorare durante la scansione.

Per fare un esempio di robots.txt, questa è la sua sintassi:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Cos'è robot.txt in SEO

Questi tag sono necessari per guidare i bot di Google quando si trova una nuova pagina. Sono necessari perché:

- Aiutano a ottimizzare il budget di scansione, poiché lo spider visiterà solo ciò che è veramente rilevante e farà un uso migliore del suo tempo di scansione di una pagina. Un esempio di una pagina che non vorresti che Google trovasse è una "pagina di ringraziamento".

- Il file Robots.txt è un buon modo per forzare l'indicizzazione delle pagine, indicando le pagine.

- I file Robots.txt controllano l'accesso crawler ad alcune aree del tuo sito.

- Possono mantenere al sicuro intere sezioni di un sito web, in quanto è possibile creare file robots.txt separati per domini root. Un buon esempio è -ha indovinato- la pagina dei dettagli di pagamento, naturalmente.

- È inoltre possibile bloccare le pagine interne dei risultati della ricerca che appaiono sulle SERP.

- Robots.txt può nascondere file che non dovrebbero essere indicizzati, come i PDF o alcune immagini.

 


Dove si trova robots.txt

I file Robots.txt sono pubblici. Puoi semplicemente digitare un dominio root e aggiungere /robots.txt alla fine dell'URL e vedrai il file....se ce n'è uno!

Attenzione: evitare di inserire informazioni private in questo file.

È possibile trovare e modificare il file nella directory principale sul vostro hosting, controllando i file admin o l'FTP del sito web.

 

Come modificare robots.txt

Puoi farlo da solo

- Creare o modificare il file con un editor di testo semplice

- Nominare il file "robots.txt", senza alcuna variazione come l'uso delle lettere maiuscole.

Dovrebbe assomigliare a questo se si vuole avere il sito strisciato:


User-agent: *
Disallow:

- Notare che abbiamo lasciato vuoto "Disallow", il che indica che non c'è nulla che non è permesso di essere scansionato.

Se vuoi bloccare una pagina, aggiungi questo (usando l'esempio della pagina di ringraziamento):


User-agent: *
Disallow: /thank-you/

- Utilizzare un file robots.txt separato per ogni sottodominio.

- Posizionare il file nella directory di primo livello del sito web.

- È possibile testare i file robots.txt utilizzando Google Webmaster Tools prima di caricarli nella directory principale.

- Si noti che FandangoSEO è l'ultimo robot.txt checker. Usatelo per controllarli!

Vedere che non è così difficile configurare il file robots.txt e modificarlo in qualsiasi momento. Basta tenere a mente che tutto ciò che si vuole veramente da questa azione è quello di sfruttare al meglio le visite dei bot. Bloccando loro di vedere pagine irrilevanti, ti assicurerai che il loro tempo trascorso sul sito web sarà molto più redditizio.

Infine, ricordate che la migliore pratica del SEO per robots.txt è garantire che tutti i contenuti rilevanti siano indicizzabili e pronti per essere scansionati! Potete vedere la percentuale di pagine indicizzabili e non indicizzabili tra le pagine totali di un sito utilizzando la scansione di FandangoSEO, così come le pagine bloccate dal file robots.txt.


Casi d'uso di Robots.txt

Il robots.txt controlla l'accesso del crawler ad alcune aree del sito web. Questo a volte può essere rischioso, soprattutto se il GoogleBot non è accidentalmente autorizzato a strisciare l'intero sito, ma ci sono situazioni in cui un file robots.txt può essere utile.

robots.txt

Alcuni dei casi in cui è consigliabile usare robots.txt sono i seguenti

  • Quando si vuole mantenere la privacy di alcune sezioni di un sito web, per esempio, perché è una pagina di prova.
  • Per evitare che il contenuto duplicato appaia nella pagina dei risultati di Google, anche se i meta-bot sono un'opzione ancora più desiderabile per questo scopo.
  • Quando non vuoi che le pagine dei risultati della ricerca interna appaiano su una pagina pubblica di risultati.
  • Per specificare la posizione delle mappe del sito.
  • Per impedire ai motori di ricerca di indicizzare certi file sul sito web.
  • Per indicare un ritardo di scansione per evitare il sovraccarico del server quando i crawler caricano diversi contenuti contemporaneamente.

Se non ci sono aree del sito in cui si vuole controllare l'accesso dell'user-agent, potrebbe non essere necessario un file robots-txt.


Migliori pratiche SEO Robots.txt

Seguite questi consigli per gestire correttamente i file robots.txt:

Non bloccare i contenuti che vuoi che siano tracciati

Né si dovrebbero bloccare le sezioni del sito web che dovrebbero essere tracciate.

Tenete presente che i bot non seguiranno i link delle pagine bloccate da robots.txt

A meno che non siano anche collegate da altre pagine a cui i motori di ricerca possono accedere perché non sono state bloccate, le risorse collegate non saranno scansionate e potrebbero non essere indicizzate.

Inoltre, nessun valore di collegamento può essere passato dalla pagina bloccata alla destinazione del collegamento. Se avete delle pagine a cui volete dare autorità, dovete usare un meccanismo di blocco diverso da robots.txt.

Non usare robots.txt per evitare di mostrare dati riservati nella pagina dei risultati del motore di ricerca

Altre pagine possono collegarsi direttamente alla pagina contenente informazioni riservate (evitando così le linee guida robots.txt nel vostro dominio principale o nella vostra home page), motivo per cui può ancora essere indicizzata.

Dovresti usare un metodo diverso, come la protezione con password o il meta tag noindex, per evitare che la pagina appaia nei risultati di ricerca di Google.

Ricorda che alcuni motori di ricerca hanno più user agent

Google, per esempio, usa GoogleBot per la ricerca organica e GoogleBot-Image per la ricerca di immagini.

La maggior parte degli user agent dello stesso motore di ricerca segue le stesse regole, motivo per cui non è necessario specificare le linee guida per ogni crawler del motore di ricerca, ma farlo permette di controllare come il contenuto del sito verrà scansionato.

Il motore di ricerca mette in cache il contenuto del robots.txt ma di solito aggiorna i dati in cache quotidianamente

Se cambiate il file e volete aggiornarlo più velocemente, potete inviare l'URL robots.txt a Google.


bot

Limitazioni del file Robots.txt

Infine, vedremo quali sono gli aspetti che limitano la funzione del file robots.txt:

Le pagine continueranno ad apparire nei risultati di ricerca

Quelle pagine che sono inaccessibili ai motori di ricerca a causa del file robots.txt ma che hanno dei link ad esse possono ancora apparire nei risultati di ricerca da una pagina strisciabile.

Contiene solo direttive

Google rispetta molto il file robots.txt, ma è ancora una direttiva e non un mandato.

Dimensione del file

Google supporta un limite di 521 kilobyte per i file robots.txt, e se il contenuto supera questa dimensione massima, può ignorarlo. Non sappiamo se anche altri motori di ricerca fissano un limite per questi file.

Robot txt. è in cache per 24 ore

Secondo Google, il file robots.txt è di solito nella cache fino a 24 ore. Qualcosa da tenere a mente quando si fanno modifiche al file.

Non è del tutto chiaro come gli altri motori di ricerca gestiscono il file nella cache, ma è meglio evitare la cache del robots.txt in modo che i motori di ricerca non impieghino più tempo a rilevare i cambiamenti.



Hai già aggiunto un file robots.txt?

Controlla i tuoi robot ora

Prova gratuita per 14 giorni

Accesso completo a tutte le nostre funzioni. Nessun obbligo di sorta.

Per iniziare

Arrow-up