Meilleures pratiques pour Robots.txt

Même si les spécialistes du référencement consacrent la majeure partie de leurs efforts à améliorer la visibilité des pages pour les mots clés correspondants, il est parfois nécessaire de masquer certaines pages aux moteurs de recherche.

Essayons d'en savoir un peu plus sur ce sujet.


Qu'est-ce qu'un fichier robots.txt ?

Robots.txt est un fichier qui contient les zones d'un site Web que les robots des moteurs de recherche ne peuvent pas explorer. Il répertorie les URL que le webmaster ne veut pas que Google ou tout autre moteur de recherche indexe et les empêche de visiter et de suivre les pages sélectionnées.

Lorsqu'un robot trouve un site web sur l'internet, la première chose qu'il fait est de vérifier le fichier robots.txt afin de savoir ce qu'il est autorisé à explorer et ce qu'il doit ignorer pendant l'exploration.

Pour vous donner un exemple de robots.txt, voici sa syntaxe :

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Qu'est-ce que robots.txt dans SEO

Ces balises sont nécessaires pour guider les robots Google lors de la recherche d'une nouvelle page. Ils sont nécessaires parce que :

- Ils permettent d'optimiser le budget d'exploration, car l'araignée ne visitera que ce qui est vraiment pertinent et utilisera mieux le temps qu'elle consacre à l'exploration d'une page. Une "page de remerciement" est un exemple de page que vous ne voudriez pas que Google trouve.

- Le fichier Robots.txt est un bon moyen de forcer l'indexation des pages, en les signalant.

- Les fichiers Robots.txt contrôlent l'accès des robots à certaines zones de votre site.

- Ils peuvent conserver des sections entières d'un site Web en toute sécurité, car vous pouvez créer des fichiers robots.txt séparés par domaine racine. Un bon exemple est - vous l'avez deviné - la page des détails de paiement, bien sûr.

- Vous pouvez également empêcher les pages de résultats de recherche interne d'apparaître sur les SERP.

- Robots.txt peut cacher des fichiers qui ne sont pas censés être indexés, tels que des PDF ou certaines images.

 


Où trouvez-vous le fichier robots.txt ?

Les fichiers Robots.txt sont publics. Vous pouvez simplement taper un domaine racine et ajouter /robots.txt à la fin de l'URL et vous verrez le fichier...s'il existe !

Attention : évitez de lister des informations privées dans ce fichier.

Vous pouvez trouver et éditer le fichier dans le répertoire racine de votre hébergement, en vérifiant les fichiers admin ou le FTP du site.

 

Comment éditer le fichier robots.txt

Vous pouvez le faire vous-même

- Créer ou modifier le fichier à l'aide d'un éditeur de texte brut

- Nommez le fichier "robots.txt", sans aucune variation comme si vous utilisiez des majuscules.

Il devrait ressembler à ceci si vous voulez faire ramper le site :


User-agent: *
Disallow:

- Notez que nous avons laissé "Disallow" vide, ce qui indique qu'il n'y a rien qui n'est pas permis d'être crawlé.

Si vous souhaitez bloquer une page, ajoutez-la (en utilisant l'exemple "Page de remerciement") :


User-agent: *
Disallow: /thank-you/

- Utilisez un fichier robots.txt distinct pour chaque sous-domaine.

- Placez le fichier dans le répertoire de premier niveau du site Web.

- Vous pouvez tester les fichiers robots.txt à l'aide des outils Google Webmaster Tools avant de les télécharger dans votre répertoire racine.

- Prenez note que FandangoSEO est le vérificateur robots.txt ultime. Utilisez-le pour les surveiller !

Voyez qu'il n'est pas si difficile de configurer votre fichier robots.txt et de l'éditer à tout moment. Gardez juste à l'esprit que tout ce que vous voulez vraiment de cette action est de tirer le meilleur parti des visites des robots. En les empêchant de voir des pages non pertinentes, vous vous assurerez que leur temps passé sur le site sera beaucoup plus rentable.

Enfin, rappelez-vous que la meilleure pratique SEO pour robots.txt est de s'assurer que tout le contenu pertinent est indexable et prêt à être parcouru ! Vous pouvez voir le pourcentage de pages indexables et non-indexables parmi le nombre total de pages d'un site utilisant le crawl de FandangoSEO, ainsi que les pages bloquées par le fichier robots.txt.


Cas d'utilisation de Robots.txt

Le fichier robots.txt contrôle l'accès du robot d'exploration à certaines zones du site Web. Cela peut parfois être risqué, notamment si le GoogleBot n'est accidentellement pas autorisé à explorer l'ensemble du site, mais il y a des situations où un fichier robots.txt peut être pratique.

robots.txt

Voici quelques-uns des cas dans lesquels il est conseillé d'utiliser le fichier robots.txt

  • Lorsque vous souhaitez préserver la confidentialité de certaines sections d'un site web, par exemple parce qu'il s'agit d'une page de test.
  • Pour éviter que le contenu dupliqué n'apparaisse sur la page de résultats de Google, bien que les méta-bots soient une option encore plus souhaitable à cette fin.
  • Lorsque vous ne voulez pas que les pages de résultats de recherche internes apparaissent sur une page de résultats publique.
  • Pour spécifier l'emplacement des cartes de site.
  • Pour empêcher les moteurs de recherche d'indexer certains fichiers sur le site web.
  • Indique un délai d'exploration pour éviter la surcharge du serveur lorsque les robots d'exploration chargent plusieurs éléments de contenu à la fois.

S'il n'y a pas de zones sur le site où vous voulez contrôler l'accès de l'agent utilisateur, vous n'avez peut-être pas besoin d'un fichier robots-txt.


Robots.txt Meilleures pratiques de référencement

Suivez ces conseils pour gérer correctement les fichiers robots.txt:

Ne bloquez pas le contenu que vous souhaitez voir suivre.

Vous ne devez pas non plus bloquer les sections du site Web qui doivent faire l'objet d'un suivi.

Gardez à l'esprit que les robots ne suivront pas les liens des pages bloquées par le fichier robots.txt.

À moins qu'elles ne soient également liées à d'autres pages auxquelles les moteurs de recherche peuvent accéder parce qu'elles n'ont pas été bloquées, les ressources liées ne seront pas explorées et ne seront peut-être pas indexées.

De même, aucune valeur de lien ne peut être transmise de la page bloquée à la destination du lien. Si vous avez des pages auxquelles vous voulez donner de l'autorité, vous devez utiliser un mécanisme de blocage autre que robots.txt.

N'utilisez pas le fichier robots.txt pour éviter d'afficher des données confidentielles sur la page de résultats du moteur de recherche.

D'autres pages peuvent renvoyer directement à la page contenant les informations confidentielles (évitant ainsi les directives de robots.txt dans votre domaine racine ou votre page d'accueil), ce qui explique pourquoi elle peut encore être indexée.

Vous devez utiliser une autre méthode, comme la protection par mot de passe ou la balise méta noindex, pour empêcher la page d'apparaître dans les résultats de recherche de Google.

N'oubliez pas que certains moteurs de recherche ont plusieurs agents utilisateurs

Google, par exemple, utilise GoogleBot pour la recherche organique et GoogleBot-Image pour la recherche d'images.

La plupart des agents utilisateurs d'un même moteur de recherche suivent les mêmes règles. C'est pourquoi il n'est pas nécessaire de spécifier des directives pour chaque robot d'exploration de moteur de recherche, mais cela vous permet de contrôler la façon dont le contenu du site sera exploré.

Le moteur de recherche met en cache le contenu du fichier robots.txt, mais actualise généralement les données mises en cache quotidiennement.

Si vous modifiez le fichier et souhaitez le mettre à jour plus rapidement, vous pouvez envoyer l'URL du fichier robots.txt à Google.


robot

Limitations du fichier Robots.txt

Enfin, nous allons voir quels sont les aspects qui limitent la fonction du fichier robots.txt :

Les pages continueront à apparaître dans les résultats de recherche

Les pages qui sont inaccessibles aux moteurs de recherche en raison du fichier robots.txt mais qui ont des liens vers elles peuvent tout de même apparaître dans les résultats de recherche à partir d'une page explorable.

Ne contient que des directives

Google respecte fortement le fichier robots.txt, mais il s'agit toujours d'une directive et non d'un mandat.

Taille du fichier

Google prend en charge une limite de 521 kilo-octets pour les fichiers robots.txt, et si le contenu dépasse cette taille maximale, il peut l'ignorer. Nous ne savons pas si d'autres moteurs de recherche fixent également une limite pour ces fichiers.

Le texte du robot est mis en cache pendant 24 heures.

Selon Google, le fichier robots.txt est généralement mis en cache pendant 24 heures au maximum. C'est un élément à garder à l'esprit lorsque vous apportez des modifications au fichier.

On ne sait pas exactement comment les autres moteurs de recherche traitent le fichier en cache, mais il est préférable d'éviter de mettre en cache votre fichier robots.txt afin que les moteurs de recherche ne mettent pas plus de temps à détecter les modifications.



Avez-vous déjà ajouté un fichier robots.txt ?

Vérifiez vos robots maintenant

Essayez-le gratuitement pendant 14 jours

Accès complet à toutes nos fonctionnalités. Aucune obligation de quelque nature que ce soit.

Démarrer

Arrow-up