Le budget de crawl est un aspect crucial que vous devez prendre en compte pour le référencement. Cet article explique les principes fondamentaux du budget de crawl et comment l'optimiser pour en tirer le meilleur parti.
Quel est le budget du crawl ?
Commençons par la définition du crawl. Le crawl est le processus par lequel les moteurs de recherche comme Google envoient leurs bots (également connus sous le nom de spiders ou crawlers) pour trouver et analyser le contenu des sites Web. Cela inclut les images, les vidéos, les PDF, etc.
Il existe des milliards de pages Web. En raison de ce nombre, il est quelque peu impossible pour Googlebot de les explorer chaque seconde, chaque jour. Cela entraînerait une consommation extrêmement élevée de la bande passante en ligne. Les sites Web seraient alors moins performants. Pour éliminer cette situation, Google répartit un budget d'exploration pour chaque site Web. Le budget alloué détermine le nombre de fois où Googlebot parcourt le site Web à la recherche de pages à indexer.
Un Googlebot, d'autre part, est un proxy automatisé qui rampe autour d'un site comme il recherche les pages qui doivent être ajoutées à son index. C'est quelque chose qui se comporte comme un internaute numérique. Connaître Googlebot et son fonctionnement n'est qu'une étape pour vous aider à comprendre l'idée des budgets rampants pour le processus SEO.
Comment mesurer votre budget crawl
La meilleure façon de mesurer le budget de crawl est d'effectuer une analyse des journaux. Il s'agit d'une pratique essentielle pour voir comment Google se comporte sur votre site Web et sur quelles pages il dépense le budget d'exploration.
En utilisant un analyseur de logs comme FandangoSEO, vous pouvez vérifier instantanément le nombre moyen de visites (visites de Googlebot) sur votre site par jour et par heure ou évaluer comment votre budget de crawl est réparti entre les différents types de pages. De même, vous serez en mesure de voir les crawls du moteur de recherche en temps réel pour confirmer si votre contenu le plus récent est trouvé.
Pourquoi la limite de vitesse d'accès est-elle importante ?
Ce concept présente quelques différences par rapport au budget de crawl. La limite de vitesse d'exploration définit le nombre de connexions simultanées que Googlebot utilise pour explorer les sites et le temps qu'il met avant de récupérer une autre page. Il convient de noter que Google se concentre sur l'expérience utilisateur. Le Googlebot utilise donc la limite de vitesse d'exploration. Cette limite permet d'éviter que les sites soient envahis par les agents automatisés au point que les utilisateurs humains aient du mal à charger un site sur leur navigateur Web.
Certains facteurs influent sur le taux de rampement. Certains d'entre eux incluent :
- Vitesse des sites web - Si les sites web répondent rapidement à Googlebot, alors Google prolongera le taux limite de crawl. Google réduira ensuite le taux d'exploration pour les autres sites web lents.
- Paramètres dans la Search Console - Un développeur ou un architecte Web peut définir les limites d'exploration via la Search Console. Si un webmaster pense que Google effectue trop d'exploration sur son serveur, il peut diminuer le taux d'exploration, mais il ne peut pas l'augmenter.
Notez qu'un taux d'exploration sain peut permettre d'indexer les pages plus rapidement, mais un taux d'exploration plus élevé n'est pas un facteur de classement.
La demande de crawl
La limite du taux d'indexation peut ne pas être atteinte, mais l'activité de Google sera quand même réduite si la demande d'indexation n'est pas satisfaite. Cette réduction de l'activité du Googlebot s'appelle la réduction de la demande de crawl. Les deux facteurs qui déterminent de façon significative la demande de vitesse rampante sont :
- Popularité -Les URL populaires sur Internet sont fréquemment explorées afin qu'elles restent toujours présentes dans l'index de Google.
- Staleness-Les systèmes de Google essaient généralement d'empêcher les URL de devenir périmées dans leur index.
De plus, les incidents à l'échelle du site, tels que les déménagements, peuvent entraîner une augmentation de la demande de rampes d'accès. Ceci se produit pour réindexer le contenu du site dans les nouvelles URLs.
Quels sont les facteurs qui influent sur le budget du référencement ?
Un budget rampant combine la demande et le taux de rampement. Cette combinaison est ce que Google définit comme le nombre total d'URL que Googlebot est prêt et capable de parcourir. Google a identifié les facteurs exacts qui affectent le budget d'exploration. Voici la liste de ces facteurs :
- Paramètres URL - Dans la plupart des cas, l'URL de base ajoutée avec les paramètres renvoie la même page. Ce type de configuration peut conduire à ce que plusieurs URLs uniques soient prises en compte dans un budget d'exploration, même si ces URLs renvoient toujours la même page.
- Pages d'erreurs légères - Ces pages d'erreurs ont également un impact sur le budget d'exploration. Cependant, ils sont également signalés dans la console de recherche.
- Dupliquer le contenu - Parfois, les URLs peuvent être uniques sans paramètres de requête, mais renvoient toujours le même contenu web.
- Pages piratées - Les sites piratés ont généralement leur budget d'exploration limité.
- Contenu de faible qualité - Google limitera probablement le budget de recherche pour les sites qui souffrent d'une mauvaise qualité.
- Pagination sans fin- Les sites avec des liens illimités trouveront que Googlebot dépense une grande partie de son budget de recherche sur les liens qui pourraient ne pas être importants.
Comment optimiser votre budget crawl
Heureusement, il existe des directives simples qui peuvent être mises en pratique pour optimiser votre budget de crawl Google. En particulier celles que nous allons voir ci-dessous :
Vérifiez que vos pages principales sont accessibles aux robots.
Il est essentiel de s'assurer que les fichiers .htaccess et robots.txt ne bloquent pas vos pages les plus importantes et que les robots n'ont aucun problème pour accéder aux fichiers CSS et Javascript. Vous devez également veiller à bloquer le contenu qui ne doit pas être affiché dans les SERP. Nous vous recommandons d'utiliser un SEO Crawler qui vous permet de détecter facilement tout problème de crawling.
Donnez une structure simple à votre site web
Votre site doit comporter une page d'accueil, des catégories ou des balises, et des pages de contenu. Incluez des liens internes pour établir une hiérarchie du site et permettre aux robots d'indexation de trouver facilement les pages. Là encore, nous vous suggérons d'utiliser un outil de référencement qui vous permet de voir la structure de votre site d'un seul coup d'œil.
N'arrêtez pas de mettre à jour votre sitemap XML
Lamise à jour du sitemap XML est essentielle, car elle aide les robots à comprendre où vont les liens internes du site. Cette pratique permet également à Google d'indexer et de classer plus rapidement les nouvelles pages.
Évitez les chaînes de redirection
Il n'est pas du tout conseillé que votre site ait des redirections 301 et 302. Vous pouvez à peine remarquer si vous laissez occasionnellement une ou deux redirections, mais vous ne devez pas laisser ce nombre augmenter.
Gérez correctement vos paramètres d'URL
Si votre système de gestion de contenu génère un grand nombre d'URL dynamiques, elles peuvent mener à une seule page. Mais les moteurs de recherche les traiteront séparément, dépensant inutilement votre budget d'exploration. Pour éviter les problèmes de contenu dupliqué, vous devez donc gérer correctement les paramètres de vos URL.
Éliminer les pages d'erreur 404 et 410
Ces types de pages gaspillent votre budget de crawl et peuvent également nuire à l'expérience des utilisateurs. D'où l'importance de corriger les codes d'état 4xx et 5xx.
Réduire la vitesse de chargement du site
La vitesse du site est d'une importance fondamentale pour améliorer le budget d'exploration et pour que votre site soit bien classé. Les robots explorent beaucoup plus rapidement les pages qui se chargent plus vite. C'est également un facteur essentiel pour améliorer l'expérience utilisateur, et donc le positionnement de la page.
Utilisez les flux à votre avantage
Selon Google, les flux sont un moyen pour les sites Web, grands et petits, de diffuser du contenu au-delà des visiteurs qui se tournent vers les navigateurs. Ils permettent de s'abonner à des mises à jour régulières délivrées automatiquement via un portail web, un lecteur de nouvelles, et parfois même un vieux courriel.
Ces flux sont très utiles aux robots d'exploration, car ils figurent parmi les sites les plus visités par les robots des moteurs de recherche.
Inclure des liens internes pointant vers les pages les moins fréquentées
Il ne fait aucun doute que les liens internes constituent une excellente stratégie de référencement. Il améliore la navigation, distribue l'autorité de la page et augmente l'engagement des utilisateurs. Mais c'est aussi une bonne tactique pour améliorer le budget d'exploration, car les liens internes ouvrent la voie à l'explorateur lorsqu'il navigue sur le site.
Créer des liens externes
Des études ont montré une forte corrélation entre le nombre de passages des araignées sur un site web et le nombre de liens sortants qu'il contient.
Comment augmenter votre budget "crawl" ?
Matt Cutts, qui dirigeait l'équipe de lutte contre le spam sur le Web de Google, a expliqué ce sujet en parlant de la relation entre le budget d'exploration et l'autorité. Il a fait valoir que le nombre de pages crawlées est plus ou moins proportionnel à leur PageRank.
Comme Cutts l'a expliqué, s'il y a beaucoup de liens entrants sur la page racine, ils sont explorés. Cette page racine peut ensuite pointer vers d'autres pages, qui obtiendront un PageRank et seront également explorées. Mais le PageRank diminue à mesure que l'on s'enfonce dans le site.
Eh bien, même si Google met désormais publiquement à jour les valeurs du PageRank, ce paramètre est toujours présent dans les algorithmes du moteur de recherche. Parlons de l'autorité de la page plutôt que du PageRank : la conclusion est qu'elle est étroitement liée au budget de crawl.
Il est donc clair que vous devez augmenter l'autorité du site pour obtenir un budget de crawl plus élevé. Cet objectif est en grande partie atteint avec davantage de liens externes.