Comment trouver et régler les problèmes de couverture de l'indice

Comment trouver et résoudre les problèmes de couverture de l'indice

Hannah Dango

Vous avez des problèmes d'indexation sur Google ? Ces problèmes peuvent entraîner une baisse du trafic et des taux de conversion.

Il est nécessaire de vérifier les pages indexées et non indexées de votre site pour résoudre rapidement tout problème. Nous vous expliquons ici, étape par étape, comment procéder avec la console de recherche Google - Rapport sur la couverture de l'index .

Grâce à la méthode suivante, nous avons réussi à résoudre les problèmes de couverture de l'index sur des centaines de sites web comportant des millions ou des milliards de pages exclues. Utilisez-la pour qu'aucune de vos pages pertinentes ne perde de sa visibilité dans les résultats de recherche et pour augmenter votre trafic SEO !

Étape 1 : Vérifier le rapport sur la couverture de l'indice

Le rapport de couverture de la console de recherche vous indique quelles pages ont été explorées et indexées par Google et pourquoi les URL sont dans cet état particulier. Vous pouvez l'utiliser pour détecter toute erreur constatée lors du processus d'exploration et d'indexation.

Rapport de couverture

Pour consulter le rapport sur la couverture de l'index, allez dans la console de recherche Google et cliquez sur Couverture (juste en dessous de Index). Une fois que vous l'aurez ouvert, vous verrez un résumé avec quatre statuts différents classant vos URL :

  • Erreur : Ces pages ne peuvent pas être indexées et n'apparaîtront pas dans les résultats de recherche en raison de certaines erreurs.
  • Valable avec des avertissements : Ces pages peuvent ou non figurer dans les résultats de recherche Google.
  • Valable : Ces pages ont été indexées et peuvent être affichées dans les résultats de recherche. Vous n'avez rien à faire.
  • Exclus : Ces pages n'ont pas été indexées et n'apparaîtront pas dans les résultats de recherche. Google estime que vous ne voulez pas les indexer ou que vous considérez que le contenu ne vaut pas la peine d'être indexé.

Vous devez consulter toutes les pages du site Erreur et corrigez-les dès que possible, car vous risquez de perdre l'occasion d'augmenter le trafic sur votre site.

Si vous avez le temps, regardez les pages incluses dans l'état Valable avec avertissement car il peut y avoir des pages vitales qui ne doivent en aucun cas manquer d'apparaître dans les résultats de la recherche.

Enfin, assurez-vous que le exclus sont celles que vous ne voulez pas voir indexées.

Étape 2 : Comment résoudre les problèmes rencontrés dans chacun des états de couverture de l'index

Une fois que vous avez ouvert le rapport sur la couverture de l'index, sélectionnez le statut souhaité (Erreurs, Valable avec avertissements, ou Exclu) et voir les détails fournis en bas de page. Vous y trouverez une liste de les erreurs sont classées selon leur gravité et le nombre de pages concernées, Nous recommandons donc de commencer à examiner les questions en partant du haut de la table.

Voyons chacune des erreurs dans les différents statuts et comment vous pouvez les corriger. 

Statut d'erreur

Pages d'erreur dans le rapport de couverture du SGC

 

Erreurs de serveur (5xx) :

Il s'agit d'URL renvoyant un code de statut 5xx à Google.

Actions à entreprendre :

  • Vérifiez quel type de code de statut 500 est renvoyé . Vous trouverez ici une liste complète avec la définition de chaque code de statut d'erreur de serveur.
  • Rechargez l'URL pour voir si l'erreur persiste. Les erreurs 5xx sont temporaires et ne nécessitent aucune action.
  • Vérifiez que votre serveur n'est pas surchargé ou mal configuré. Dans ce cas, demandez de l'aide à vos développeurs ou contactez votre fournisseur d'hébergement.
  • Effectuez une analyse du fichier journalpour vérifier les journaux d'erreurs de votre serveur. Cette pratique vous fournit des informations supplémentaires sur le problème.
  • Examinez les modifications que vous avez apportées récemment à votre site web pour voir si l'une d'entre elles peut en être la cause. ex) plugins, nouveau code de fond, etc.

Rediriger les erreurs :

GoogleBot a rencontré une erreur lors du processus de redirection qui ne permet pas d'explorer la page. L'une des raisons suivantes est souvent à l'origine de ce problème.

  • Une chaîne de redirection trop longue
  • Une boucle de redirection
  • Une URL de redirection qui a dépassé la longueur maximale de l'URL
  • Il y avait une URL erronée ou vide dans la chaîne de redirection

Actions à entreprendre :

  • Éliminer les chaînes et les boucles de redirection. Faire en sorte que chaque URL n'effectue qu'une seule redirection. En d'autres termes, une redirection de la première URL vers la dernière.

URL soumise bloquée par Robots.txt :

Il s'agit des URL que vous avez soumises à Google en téléchargeant un sitemap XML dans la console de recherche Google mais qui ont été bloquées par le fichier Robots.txt.

Actions à entreprendre :

Vérifiez si vous souhaitez que les moteurs de recherche indexent la page en question ou non.

  • Si vous ne voulez pas qu'il soit indexé, téléchargez un plan de site XML en supprimant l'URL.
  • Au contraire, si vous voulez qu'il soit indexé, modifiez les directives dans le fichier Robots.txt. Voici un guide sur la façon de modifier le fichier robots.txt.

L'URL soumise est marquée "noindex" :

Ces pages ont été soumises à Google via un plan de site XML, mais elles ont une directive "noindex" soit dans la balise des méta-robots soit dans les en-têtes HTTP.

Actions à entreprendre :

  • Si vous souhaitez que l'URL soit indexée, vous devez supprimer la directive "noindex
  • S'il y a des URL que vous ne voulez pas que Google indexe, éliminez-les de la carte du site XML

L'URL soumise semble être un Soft 404 :

L'URL que vous avez soumise par le biais d'un plan de site XML à des fins d'indexation renvoie un 404 soft. Cette erreur se produit lorsque le serveur renvoie un code d'état 200 à une requête, mais que Google estime qu'il devrait afficher un 404. En d'autres termes, la page ressemble à une erreur 404 pour Google. Dans certains cas, cela peut être dû au fait que la page n'a pas de contenu, qu'elle semble erronée ou de mauvaise qualité pour Google. 

Actions à entreprendre :

  • Vérifiez si ces URL doivent renvoyer un (vrai) code de statut 404. Dans ce cas, supprimez-les du plan du site XML.
  • Si vous estimez qu'elles ne doivent pas renvoyer une erreur, assurez-vous de fournir un contenu approprié sur ces pages. Évitez les contenus trop fins ou les doublons. Vérifiez que s'il y a des redirections, elles sont correctes.

L'URL soumise renvoie une demande non autorisée (401) :

L'URL soumise à Google via un Sitemap XML renvoie une erreur 401. Ce code d'état vous indique que vous n'êtes pas autorisé à accéder à l'URL. Vous pouvez avoir besoin d'un nom d'utilisateur et d'un mot de passe, ou peut-être y a-t-il des restrictions d'accès basées sur l'adresse IP.

Actions à entreprendre :

  • Vérifiez si les URL doivent renvoyer un 401. Dans ce cas, éliminez-les du plan du site XML.
  • Si vous ne voulez pas qu'ils affichent un code 401, supprimez l'authentification HTTP s'il y en a une. 

URL soumise non trouvée (404) :

Vous avez soumis l'URL à des fins d'indexation à la console de recherche Google, mais Google ne peut pas l'explorer en raison d'un problème différent de ceux mentionnés ci-dessus. 

Actions à entreprendre :

  • Voyez si vous voulez que la page soit indexée ou non. Si la réponse est oui, corrigez-la, elle renvoie alors un code de statut 200. Vous pouvez également attribuer une redirection 301 à l'URL, afin qu'elle affiche une page appropriée. N'oubliez pas que si vous optez pour une redirection, vous devez ajouter l'URL assignée au plan du site XML et supprimer celle qui donne un 404.   
  • Si vous ne souhaitez pas que la page soit indexée, supprimez-la du plan du site XML.

L'URL soumise a un problème de crawl : 

Vous avez soumis l'URL à des fins d'indexation au SGC, mais elle ne peut être explorée par Google en raison d'un problème différent de ceux mentionnés ci-dessus. 

Actions à entreprendre :

  • Utilisez l'outil d'inspection des URL pour obtenir plus d'informations sur la cause du problème.
  • Ces erreurs sont parfois temporaires et ne nécessitent donc aucune action.

Valable avec un statut d'avertissement

Valable avec avertissements

Ces pages sont indexées, bien qu'elles soient bloquées par robots.txt. Google essaie toujours de suivre les directives données dans le fichier robots.txt. Cependant, il se comporte parfois différemment. Cela peut se produire, par exemple, lorsque quelqu'un crée un lien vers l'URL donnée.

Vous trouvez les URL dans cette catégorie parce que Google doute que vous vouliez bloquer ces pages dans les résultats de recherche

Actions à entreprendre : 

  • Google ne recommande pas l'utilisation du fichier robots.txt pour éviter l'indexation des pages. Si vous ne souhaitez pas voir ces pages indexées, utilisez plutôt le noindex des méta-robots ou un en-tête de réponse HTTP.
  • Une autre bonne pratique pour empêcher Google d'accéder à la page consiste à mettre en place une authentification HTTP.
  • Si vous ne voulez pas bloquer la page, faites les corrections nécessaires dans le fichier robots.txt.
  • Vous pouvez identifier la règle qui bloque une page en utilisant le robots.txt testeur.

Natzir Turrado,
Conseiller FandangoSEO
Freelance technique SEO @ Natzir Turrado

Lors d'une importante migration vers SalesForce, nous avons demandé aux développeurs de rendre inaccessibles (obscurcis) les filtres que nous ne voulions pas indexer. Lorsque le site web de Salesforce a été mis en ligne, tout a été un succès. Mais lorsqu'une nouvelle version est sortie des mois plus tard, l'obscurcissement a été accidentellement rompu. Cela a déclenché toutes les alarmes puisque, en seulement sept jours, il y a eu ~17,5 millions de demandes Googlebot-Mobile et ~12,5 millions Googlebot/2.1, ainsi qu'un cache de 2% de taux de réussite. Vous pouvez voir ci-dessous, dans la console de recherche, comment les pages indexées mais bloquées par les robots ont augmenté.


C'est pourquoi je recommande de surveiller en permanence les journaux et de revoir le rapport de couverture du SGC (bien que vous détecterez tout problème plus tôt en vérifiant les journaux). Et n'oubliez pas que le fichier robots.txt n'empêche pas l'indexation des pages. Si vous souhaitez que Google n'explore pas une URL, il est préférable de rendre l'URL inaccessible !

Statut d'exclusion

Pages exclues dans le rapport sur la couverture du SGC

Ces pages ne sont pas indexées dans les résultats de recherche, et Google estime que c'est la bonne chose à faire. Par exemple, cela peut être dû au fait qu'il s'agit de pages dupliquées de pages indexées ou au fait que vous donnez des indications sur votre site web aux moteurs de recherche pour les indexer.

Le rapport de couverture vous montre 15 situations dans lesquelles votre page peut être exclue.

 

Exclu par la balise "noindex" : 

Vous dites aux moteurs de recherche de ne pas indexer la page en donnant une directive "noindex". 

Actions à entreprendre : 

  • Vérifiez si vous ne voulez pas indexer la page. Si vous voulez que la page soit indexée, supprimez la balise "noindex". 
  • Vous pouvez confirmer la présence de cette directive en ouvrant la page et en recherchant "noindex" sur le corps de la réponse et l'en-tête de la réponse.

Bloqué par l'outil de suppression de page : 

Yous avez soumis une demande de suppression d'URL pour ces pages sur le SGC.

Actions à entreprendre :

  • Google ne répond à cette demande que pendant 90 jours. Si vous ne souhaitez pas indexer la page, utilisez les directives "noindex", implémentez une authentification HTTP ou supprimez la page.

Bloqué par robots.txt : 

Vous bloquez l'accès à Googlebot à ces pages avec le fichier robots.txt. Cependant, il pourrait toujours être indexé si Google pouvait trouver des informations sur cette page sans la charger. Peut-être que Google a indexé la page avant que vous n'ajoutiez l'interdiction dans le fichier robots.txt

Actions à entreprendre : 

  • Si vous ne voulez pas que la page soit indexée, utilisez une directive "noindex" et supprimez le bloc robots.txt.

Bloqué en raison d'une demande non autorisée (401) : 

Vous bloquez l'accès à Google en utilisant une autorisation de demande (réponse 401). 

Actions à entreprendre : 

  • Si vous souhaitez autoriser GoogleBot à visiter la page, supprimez les conditions d'autorisation. 

Anomalie de rampe : 

La page n'a pas été indexée en raison d'un code de réponse d'erreur 4xx ou 5xx.

Actions à entreprendre : 

  • Utilisez l'outil d'inspection des URL pour obtenir plus d'informations sur les questions.

Rampés - Actuellement non indexés

Cette page a été explorée par GoogleBot mais n'a pas été indexée. Elle pourrait être indexée ou non à l'avenir. Il n'est pas nécessaire de soumettre cette URL pour le crawling.

Actions à entreprendre :

  • Si vous souhaitez que la page soit indexée dans les résultats de la recherche, assurez-vous de fournir des informations utiles.  

Découverte - Actuellement non indexée :

Google a trouvé cette page, mais n'a pas encore réussi à l'explorer. Cette situation se produit généralement parce que lorsque GoogleBot a essayé d'explorer la page, le site était surchargé. Le crawl a été programmé pour une autre fois.

Aucune action n'est requise.

 

Alterner la page avec la balise canonical appropriée :

Cette page pointe vers une page canonique, donc Google comprend que vous ne voulez pas l'indexer.

Actions à entreprendre :

  • Si vous voulez indexer cette page, vous devez modifier le rel=attributs canoniques pour donner à Google les directives souhaitées.

Duplicata sans canon sélectionné par l'utilisateur : 

La page a des doublons, mais aucun d'entre eux n'est marqué comme canonique. Google considère que celle-ci n'est pas canonique. 

Actions à entreprendre :

Dupliqué, Google a choisi un canon différent de l'utilisateur : 

Vous avez marqué cette page comme canonique, mais Google, à la place, a indexé une autre page qui pense fonctionner mieux comme canonique. 

Actions à entreprendre :

  • Vous pouvez suivre le choix de Google. Dans ce cas, marquez la page indexée comme canonique et celle-ci comme un double de l'URL canonique.
  • Sinon, découvrez pourquoi Google préfère une autre page à celle que vous avez choisie, et apportez les modifications nécessaires. Utilisez l'outil d'inspection des URL pour découvrir la "page canonique" sélectionnée par Google.

Ferran Gavin,
Responsable SEO @ Softonic

L'un des "échecs" les plus curieux que nous ayons connus avec le rapport sur la couverture de l'index a été de constater que Google ne traitait pas correctement nos canoniques (et nous le faisions mal depuis des années !). Google indiquait sur la console de recherche que le canonique spécifié n'était pas valide lorsque la page était parfaitement formatée. En fin de compte, il s'est avéré que c'était un bug de Google lui-même, confirmé par Gary Ilyes.

 

Non trouvé (404) : 

La page renvoie un code d'état d'erreur 404 lorsque Google fait une requête. GoogleBot n'a pas trouvé la page grâce à un plan du site, mais probablement grâce à un autre site web renvoyant à l'URL. Il est également possible que cette URL ait existé dans le passé et qu'elle ait été supprimée. 

Actions à entreprendre :

  • Si la réponse 404 est intentionnelle, vous pouvez la laisser telle quelle. Cela ne nuira pas à vos performances en matière de référencement. Cependant, si la page a été déplacée, mettez en place une redirection 301.

Page retirée en raison d'une plainte légale : 

Cette page a été éliminée de l'index en raison d'une plainte légale.

Actions à entreprendre : 

  • Examinez les règles juridiques que vous avez pu enfreindre et prenez les mesures nécessaires pour y remédier.

Page avec la redirection : 

Cette URL est une redirection et n'a donc pas été indexée.

Actions à entreprendre :

  • Si l'URL n'était pas censée rediriger, supprimez la mise en œuvre de la redirection. 

Soft 404 : 

La page renvoie ce que Google considère comme une réponse 404 douce. La page n'est pas indexée car, bien qu'elle donne un code de statut 200, Google pense qu'elle devrait renvoyer un 404

Actions à entreprendre :

  • Vérifiez si vous devez attribuer un 404 à la page, comme le suggère Google.
  • Ajoutez du contenu de valeur à la page pour faire savoir à Google qu'il ne s'agit pas d'un Soft 404.

Duplicata, URL soumise non sélectionnée comme canonique : 

Vous avez soumis l'URL au SGC à des fins d'indexation. Cependant, elle n'a pas été indexée car la page comporte des doublons sans balises canoniques, et Google considère qu'il existe un meilleur candidat pour les balises canoniques. 

Actions à entreprendre :

  • Décidez si vous voulez suivre le choix de Google pour la page canonique. Dans ce cas, affectez le rel=attributs canoniques pour pointer vers la page sélectionnée par Google.
  • Vous pouvez utiliser l'outil d'inspection des URL pour voir quelle page a été choisie par Google comme canonique.
  • Si vous voulez que cette URL soit canonique, analysez pourquoi Google préfère l'autre page. Proposez davantage de contenus de grande valeur sur la page de votre choix.

Étape 3. Rapport sur la couverture de l'index Questions les plus courantes

Vous connaissez maintenant les différents types d'erreurs que vous pouvez trouver dans le rapport sur la couverture de l'index et les mesures à prendre lorsque vous rencontrez chacune d'entre elles. Voici un bref aperçu des problèmes qui se posent le plus fréquemment.

Plus d'exclusions que de pages valides

Parfois, il peut y avoir plus de pages exclues que de pages valides. Cette circonstance est généralement donnée sur les grands sites qui ont connu un changement d'URL important. Il s'agit probablement d'un ancien site ayant une longue histoire, ou le code web a été modifié.

Si vous avez une différence importante entre le nombre de pages des deux statuts (Exclus et Valide), vous avez un problème grave. Commencez à examiner les pages exclues, comme nous l'expliquons ci-dessus. 

 

Esteve Castells

Esteve Castells,
Responsable SEO du groupe @ Adevinta

Le plus gros problème que j'ai jamais vu dans le rapport de couverture est l'un des sites web que je gère, qui a fini par avoir 5 milliards de pages exclues. Oui, vous l'avez bien lu, 5 milliards de pages. La navigation à facettes est devenue complètement folle, et pour chaque page, nous créions 20 nouvelles URL à parcourir pour Googlebot.

Cela s'est avéré être l'erreur la plus coûteuse en termes de rampement, de tous les temps. Nous avons dû interdire complètement les URL de navigation à facettes via le site robots.txt, car Googlebot détruisait notre serveur avec plus de 25 millions de visites par jour.

 

Les pics d'erreur

Lorsque le nombre d'erreurs augmente de manière exponentielle, vous devez vérifier l'erreur et la corriger le plus rapidement possible. Google a détecté un problème qui nuit gravement aux performances de votre site web. Si vous ne corrigez pas le problème aujourd'hui, vous aurez des problèmes importants demain.

Erreurs de serveur

Assurez-vous que ces erreurs ne sont pas 503 (Service non disponible). Ce code de statut signifie que le serveur ne peut pas traiter la demande en raison d'une surcharge temporaire ou d'une maintenance. Au début, l'erreur devrait disparaître d'elle-même, mais si elle continue à se produire, vous devez examiner le problème et le résoudre.

Si vous avez d'autres types d'erreurs 5xx, nous vous recommandons de consulter notre guide pour voir les mesures à prendre dans chaque cas.

404 erreurs

Il semble que Google ait détecté une zone de votre site web qui génère des pages 404 - introuvables. Si le volume augmente considérablement, consultez notre guide pour trouver et réparer les liens cassés.

Pages ou sites manquants

Si vous ne pouvez pas voir une page ou un site dans le rapport, cela peut être pour plusieurs raisons.

  1. Google ne l'a pas encore découvert. Lorsqu'une page ou un site est nouveau, cela peut prendre un certain temps avant que Google ne le trouve. Soumettez une demande de sitemap ou de page crawl pour accélérer le processus d'indexation. Assurez-vous également que la page n'est pas orpheline et qu'elle n'est pas liée au site web.
  2. Google ne peut pas accéder à votre page en raison d'une demande de connexion. Supprimez les conditions d'autorisation pour permettre à GoogleBot d'explorer la page.
  3. La page a une balise "noindex" ou a été supprimée de l'index pour une raison quelconque. Retirez la balise noindex et assurez-vous que vous fournissez un contenu de valeur sur la page.

"Soumis mais/Soumis et" erreurs et exclusions

Ce problème se pose lorsqu'il y a incongruité. Si vous envoyez une page par le biais d'un plan du site, vous devez vous assurer qu'elle est valable pour l'indexation et qu'elle est liée au site.

Votre site doit être composé principalement de pages utiles qui méritent d'être reliées entre elles. 

Résumé

Voici un résumé en trois étapes de l'article "Comment trouver et corriger les erreurs de couverture de l'indice".  

  • La première chose que vous souhaitez faire lorsque vous utilisez le rapport de couverture de l'index est de corriger les pages qui apparaissent dans le statut d'erreur. Ce statut doit être 0 pour éviter les pénalités de Google.
  • Ensuite, vérifiez les pages exclues et voyez si ce sont des pages que vous ne voulez pas indexer. Si ce n'est pas le cas, suivez nos directives pour résoudre les problèmes.
  • Si vous avez le temps, nous vous recommandons vivement de vérifier les pages valides avec un avertissement. Assurez-vous que les directives que vous donnez dans le fichier robots.txt sont correctes et qu'il n'y a pas d'incohérences.

Nous espérons que vous le trouverez utile ! Faites-nous savoir si vous avez des questions concernant le rapport sur la couverture de l'indice. Nous serions également heureux de recevoir vos conseils dans les commentaires ci-dessous.

Répandez l'amour

Autres articles intéressants

Référencement en page

SEO en page : Le guide ultime pour 2021

Lors du positionnement de votre site web, vous devez tenir compte d'une série de facteurs externes et internes qui affectent vos performances en matière de référencement. Sur la page...

Lire l'article
pages orphelines

Pages orphelines. Comment les détecter et les réparer en une seconde

Qu'est-ce qu'une page orpheline ? Nous appelons pages orphelines les pages web qui n'ont pas de lien vers...

Lire l'article
Analyse des logs

Le quoi, le pourquoi et le comment de l'analyse des logs

Savez-vous comment l'analyse des logs peut améliorer votre référencement ? Découvrez les avantages de l'analyse de vos fichiers journaux et comment...

Lire l'article
Arrow-up