Robots.txt Beste Praktijken

Hoewel SEO-specialisten zich vooral inspannen om de zichtbaarheid van pagina's voor hun overeenkomstige zoekwoorden te verbeteren, is het in sommige gevallen nodig om bepaalde pagina's te verbergen voor zoekmachines.

Laten we eens wat meer over dit onderwerp te weten komen.


Wat is een robots.txt bestand?

Robots.txt is een bestand dat de delen van een website bevat waar zoekmachinerobots niet mogen kruipen. Het bevat de URL's waarvan de webmaster niet wil dat Google of een andere zoekmachine ze indexeert, zodat ze de geselecteerde pagina's niet kunnen bezoeken en volgen. We bereiken deze actie via de robots.txt disallow tag die u in de voorbeelden verderop zult zien.

Wanneer een bot een website op het internet vindt, is het eerste wat hij doet het robots.txt-bestand controleren om te leren wat hij mag onderzoeken en wat hij moet negeren tijdens de crawl.

Robots.txt voorbeeld

Om u een robots.txt voorbeeld te geven, dit is de syntaxis ervan:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Wat is robots.txt in SEO?

Deze tags zijn nodig om de Google-bots te begeleiden bij het vinden van een nieuwe pagina. Ze zijn nodig omdat:

  • Ze helpen het crawlbudget te optimaliseren, omdat de spider alleen bezoekt wat echt relevant is en de tijd die hij aan het crawlen van een pagina besteedt, beter benut. Een voorbeeld van een pagina die Google niet mag vinden is een "bedankpagina".
  • Het Robots.txt bestand is een goede manier om pagina indexatie af te dwingen, door de pagina's aan te wijzen.
  • Robots.txt bestanden controleren crawler toegang tot bepaalde delen van uw site.
  • Ze kunnen hele secties van een website veilig houden, omdat u per hoofddomein aparte robots.txt-bestanden kunt aanmaken. Een goed voorbeeld is -je raadt het al- de betaalgegevenspagina, natuurlijk.
  • U kunt ook voorkomen dat interne zoekresultatenpagina's op de SERP's verschijnen.
  • Robots.txt kan bestanden verbergen die niet geïndexeerd horen te worden, zoals PDF's of bepaalde afbeeldingen.

Waar vind je robots.txt

Robots.txt bestanden zijn openbaar. U kunt eenvoudigweg een root-domein intypen en /robots.txt toevoegen aan het einde van de URL en u ziet het bestand....als er een is!

Waarschuwing: Vermijd het vermelden van privé informatie in dit bestand.

U kunt het bestand vinden en bewerken in de hoofdmap van uw hosting, waarbij u de bestanden admin of de FTP van de website controleert.

 

Hoe robots.txt bewerken

Je kunt het zelf doen.

  • Maak of bewerk het bestand met een platte tekst editor
  •  Geef het bestand de naam "robots.txt", zonder enige variatie zoals het gebruik van hoofdletters.

Hier is een voorbeeld waarbij u de site wilt laten crawlen. Let op hoe we de robots.txt disallow tag gebruiken.


User-agent: *
Disallow:

Merk op dat we "Disallow" leeg hebben gelaten, wat aangeeft dat er niets is dat niet gecrawld mag worden.

Als u een pagina wilt blokkeren, voeg deze dan toe (met behulp van het voorbeeld "Bedankt pagina"):


User-agent: *
Disallow: /thank-you/

  • Gebruik een apart robots.txt bestand voor elk subdomein.
  • Plaats het bestand in de top-level directory van de website.
  • U kunt de robots.txt-bestanden testen met Google Webmasterhulpprogramma's voordat u ze uploadt naar uw hoofdmap.
  • Houd er rekening mee dat FandangoSEO de ultieme robots.txt checker is . Gebruik het om ze te controleren!

Het is niet zo moeilijk om uw robots.txt-bestand te configureren en op elk moment te bewerken. Bedenk dat u met deze actie alleen maar het beste uit de bezoeken van de bots wilt halen. Door hen te beletten irrelevante pagina's te zien, zorgt u ervoor dat hun tijd op de website veel rendabeler wordt.

Tot slot, vergeet niet dat de SEO best practice voor robots.txt is om ervoor te zorgen dat alle relevante inhoud indexeerbaar is en klaar om te worden gecrawld! U kunt het percentage indexeerbare en niet-indexeerbare pagina's zien ten opzichte van het totaal aantal pagina's van een site met behulp van FandangoSEO's crawl, evenals de pagina's die geblokkeerd worden door de bestandsrobots.txt.


Robots.txt gebruikssituaties

De robots.txt regelt de toegang van de crawler tot bepaalde delen van de website. Dit kan soms riskant zijn, vooral als de GoogleBot per ongeluk niet de hele site mag crawlen, maar er zijn situaties waarin een robots.txt-bestand handig kan zijn.

robots.txt

Enkele van de gevallen waarin het raadzaam is robots.txt te gebruiken zijn

  • Wanneer u de privacy van sommige delen van een website wilt handhaven, bijvoorbeeld omdat het een testpagina is.
  • Om te voorkomen dat dubbele inhoud op de resultatenpagina van Google verschijnt, zijn meta-bots een nog wenselijker optie.
  • Wanneer u niet wilt dat interne zoekresultaatpagina's verschijnen op een openbare resultaatpagina.
  • Om de locatie van de site maps op te geven.
  • Om te voorkomen dat zoekmachines bepaalde bestanden op de website indexeren.
  • Om een crawlvertraging aan te geven om overbelasting van de server te voorkomen wanneer crawlers meerdere inhoudsdelen tegelijk laden.

Als er geen onderdelen op de site zijn waar u de toegang tot de user-agent wilt controleren, hebt u misschien geen robots-tekstbestand nodig.


Robots.txt SEO Beste Praktijken

Volg deze tips om de robots.txt-bestanden goed te beheren:

Blokkeer geen inhoud waarvan je wilt dat die getraceerd wordt

Evenmin moet u delen van de website blokkeren die moeten worden gevolgd.

Hou er rekening mee dat de bots de links van de door robots.txt geblokkeerde pagina's niet zullen volgen

Tenzij ze ook gelinkt zijn vanuit andere pagina's die zoekmachines kunnen benaderen omdat ze niet geblokkeerd zijn, zullen de gelinkte bronnen niet gecrawld en mogelijk niet geïndexeerd worden.

Ook kan er geen linkwaarde worden doorgegeven van de geblokkeerde pagina naar de linkbestemming. Als u pagina's hebt waaraan u autoriteit wilt geven, moet u een ander blokkeringsmechanisme gebruiken dan robots.txt.

Gebruik geen robots.txt om te voorkomen dat vertrouwelijke gegevens op de resultatenpagina van de zoekmachine worden getoond

Andere pagina's kunnen rechtstreeks linken naar de pagina met vertrouwelijke informatie (en zo de robots.txt-richtlijnen in uw hoofddomein of startpagina omzeilen), waardoor deze nog steeds kan worden geïndexeerd.

U moet een andere methode gebruiken, zoals wachtwoordbeveiliging of de noindex meta tag, om te voorkomen dat de pagina in de Google zoekresultaten verschijnt.

Vergeet niet dat sommige zoekmachines meerdere user agents hebben

Google, bijvoorbeeld, gebruikt GoogleBot voor organisch zoeken en GoogleBot-Image voor het zoeken naar afbeeldingen.

De meeste user agents van dezelfde zoekmachine volgen dezelfde regels, en daarom hoef je niet voor elke zoekmachinecrawler richtlijnen op te stellen, maar als je dat wel doet, kun je bepalen hoe de inhoud van de site gecrawld zal worden.

De zoekmachine slaat de inhoud van de robots.txt op in het cachegeheugen, maar werkt de cachegegevens meestal dagelijks bij

Als u het bestand wijzigt en het sneller wilt bijwerken, kunt u de URL van de robots.txt naar Google sturen.


bot

Robots.txt bestand beperkingen

Tot slot gaan we kijken welke aspecten de functie van het robots.txt-bestand beperken:

Pagina's zullen blijven verschijnen in zoekresultaten

Pagina's die ontoegankelijk zijn voor zoekmachines vanwege het robots.txt-bestand, maar waarnaar links zijn opgenomen, kunnen toch in de zoekresultaten verschijnen vanaf een crawlable pagina.

Bevat alleen richtlijnen

Google respecteert het robots.txt bestand zeer, maar het is nog steeds een richtlijn en geen mandaat.

Bestandsgrootte

Google ondersteunt een limiet van 521 kilobytes voor robots.txt bestanden, en als de inhoud deze maximale grootte overschrijdt, kan het deze negeren. We weten niet of andere zoekmachines ook een limiet instellen voor deze bestanden.

Robot txt. wordt 24 uur in cache opgeslagen

Volgens Google wordt het robots.txt-bestand meestal tot 24 uur in de cache bewaard. Iets om in gedachten te houden wanneer u wijzigingen aanbrengt in het bestand.

Het is niet helemaal duidelijk hoe andere zoekmachines omgaan met het bestand in de cache, maar het is het beste om het cachen van uw robots.txt te vermijden, zodat zoekmachines er niet langer over doen om wijzigingen te detecteren.



5xx Serverfouten Meta Robots Tag

Hebt u al een robots.txt bestand toegevoegd?

Controleer uw Robots met FandangoSEO

Probeer het 14 dagen gratis uit.

Volledige toegang tot al onze functies. Geen enkele verplichting.

Aan de slag

Pijl omhoog

Voordat je gaat...

Als u geen tips en updates van FandangoSEO wilt missen, schrijf u dan in voor onze nieuwsbrief.

+5000 SEO vertrouw ons, word lid van de gemeenschap