Meilleures pratiques Robots.txt

Même si les spécialistes du référencement consacrent l'essentiel de leurs efforts à améliorer la visibilité des pages pour leurs mots-clés correspondants, dans certains cas, il est nécessaire de cacher certaines pages aux moteurs de recherche. Voyons un peu plus à ce sujet.

Qu'est-ce qu'un fichier robots.txt ?

Robots.txt est un fichier qui contient les zones d'un site Web que les robots des moteurs de recherche ne peuvent pas explorer. Il liste les URL que le webmaster ne veut pas que Google ou un moteur de recherche indexe et les empêche de visiter et de suivre les pages sélectionnées.
Quand un bot trouve un site web sur Internet, la première chose qu'il fait est de vérifier le fichier robots.txt afin d'apprendre ce qu'il est autorisé à explorer et ce qu'il doit ignorer pendant l'exploration.

Pour vous donner un exemple de robots.txt, voici sa syntaxe :

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 

Qu'est-ce que robots.txt dans SEO

Ces balises sont nécessaires pour guider les robots Google lors de la recherche d'une nouvelle page. Ils sont nécessaires parce que :

- Ils permettent d'optimiser le budget d'exploration, car l'araignée ne visitera que ce qui est vraiment pertinent et elle utilisera mieux son temps à parcourir une page. Un exemple de page que vous ne voudriez pas que Google trouve est une "page de remerciement".

- Le fichier Robots.txt est un bon moyen de forcer l'indexation des pages, en indiquant les pages.

- Les fichiers Robots.txt contrôlent l'accès des robots à certaines zones de votre site.

- Ils peuvent conserver des sections entières d'un site Web en toute sécurité, car vous pouvez créer des fichiers robots.txt séparés par domaine racine. Un bon exemple est - vous l'avez deviné - la page des détails de paiement, bien sûr.

- Vous pouvez également empêcher les pages de résultats de recherche interne d'apparaître sur les SERP.

- Robots.txt peut cacher des fichiers qui ne sont pas censés être indexés, tels que des PDF ou certaines images.

 

Où trouvez-vous le fichier robots.txt ?

Les fichiers Robots.txt sont publics. Vous pouvez simplement taper un domaine racine et ajouter /robots.txt à la fin de l'URL et vous verrez le fichier...s'il existe !

Attention : évitez de lister des informations privées dans ce fichier.

Vous pouvez trouver et éditer le fichier dans le répertoire racine de votre hébergement, en vérifiant les fichiers admin ou le FTP du site.

 

Comment éditer le fichier robots.txt

Vous pouvez le faire vous-même

- Créer ou modifier le fichier à l'aide d'un éditeur de texte brut

- Nommez le fichier "robots.txt", sans aucune variation comme si vous utilisiez des majuscules.

Il devrait ressembler à ceci si vous voulez faire ramper le site :


User-agent: *
Disallow:

- Notez que nous avons laissé "Disallow" vide, ce qui indique qu'il n'y a rien qui n'est pas permis d'être crawlé.

Si vous souhaitez bloquer une page, ajoutez-la (en utilisant l'exemple "Page de remerciement") :


User-agent: *
Disallow: /thank-you/

- Utilisez un fichier robots.txt distinct pour chaque sous-domaine.

- Placez le fichier dans le répertoire de premier niveau du site Web.

- Vous pouvez tester les fichiers robots.txt à l'aide des outils Google Webmaster Tools avant de les télécharger dans votre répertoire racine.

- Prenez note que FandangoSEO est le vérificateur robots.txt ultime. Utilisez-le pour les surveiller !

Voyez qu'il n'est pas si difficile de configurer votre fichier robots.txt et de l'éditer à tout moment. Gardez juste à l'esprit que tout ce que vous voulez vraiment de cette action est de tirer le meilleur parti des visites des robots. En les empêchant de voir des pages non pertinentes, vous vous assurerez que leur temps passé sur le site sera beaucoup plus rentable.

Enfin, rappelez-vous que la meilleure pratique SEO pour robots.txt est de s'assurer que tout le contenu pertinent est indexable et prêt à être parcouru ! Vous pouvez voir le pourcentage de pages indexables et non-indexables parmi le nombre total de pages d'un site utilisant le crawl de FandangoSEO, ainsi que les pages bloquées par le fichier robots.txt.

 

Avez-vous déjà ajouté un fichier robots.txt ?

Vérifier les robots maintenant

 

Arrow-up