Robots.txt Beste Praktijken

Hoewel SEO-specialisten zich vooral inspannen om de zichtbaarheid van pagina's voor hun overeenkomstige zoekwoorden te verbeteren, is het in sommige gevallen nodig om bepaalde pagina's te verbergen voor zoekmachines.

Laten we eens wat meer over dit onderwerp te weten komen.


Wat is een robots.txt bestand?

Robots.txt is een bestand dat de delen van een website bevat die door de robots van zoekmachines niet mogen worden gecrawld. Het bevat een lijst met URL's waarvan de webmaster niet wil dat Google of een andere zoekmachine ze indexeert en voorkomt dat ze de geselecteerde pagina's bezoeken en volgen.

Wanneer een bot een website op het internet vindt, is het eerste wat hij doet het robots.txt-bestand controleren om te weten te komen wat hij mag onderzoeken en wat hij tijdens het crawlen moet negeren.

Om u een robots.txt voorbeeld te geven, dit is de syntaxis ervan:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Wat is robots.txt in SEO?

Deze tags zijn nodig om de Google-bots te begeleiden bij het vinden van een nieuwe pagina. Ze zijn nodig omdat:

- Ze helpen het crawlbudget te optimaliseren, omdat de spider alleen bezoekt wat echt relevant is en de tijd die hij aan het crawlen van een pagina besteedt, beter benut. Een voorbeeld van een pagina die Google niet mag vinden is een "bedankpagina".

- Het Robots.txt bestand is een goede manier om pagina indexatie af te dwingen, door de pagina's aan te wijzen.

- Robots.txt-bestanden controleren de crawlertoegang tot bepaalde delen van uw site.

- Ze kunnen hele delen van een website veilig bewaren, omdat u aparte robots.txt-bestanden per hoofddomein kunt aanmaken. Een goed voorbeeld is -je raadt het al - de pagina met betalingsgegevens, natuurlijk.

- U kunt ook voorkomen dat interne zoekresultatenpagina's op de SERPs verschijnen.

- Robots.txt kan bestanden verbergen die niet geïndexeerd zouden moeten worden, zoals PDF's of bepaalde afbeeldingen.

 


Waar vind je robots.txt

Robots.txt bestanden zijn openbaar. U kunt eenvoudigweg een root-domein intypen en /robots.txt toevoegen aan het einde van de URL en u ziet het bestand....als er een is!

Waarschuwing: vermijd het vermelden van persoonlijke informatie in dit bestand.

U kunt het bestand vinden en bewerken in de hoofdmap van uw hosting, waarbij u de bestanden admin of de FTP van de website controleert.

 

Hoe robots.txt bewerken

Je kunt het zelf doen.

- Maak of bewerk het bestand met een tekstverwerker met platte tekst of bewerk het bestand

- Noem het bestand "robots.txt", zonder enige variatie zoals het gebruik van hoofdletters.

Het zou er zo uit moeten zien als je de site wilt laten kruipen:


User-agent: *
Disallow:

- Merk op dat we "Disallow" leeg hebben gelaten, wat aangeeft dat er niets is dat niet mag worden gekropen.

Als u een pagina wilt blokkeren, voeg deze dan toe (met behulp van het voorbeeld "Bedankt pagina"):


User-agent: *
Disallow: /thank-you/

- Gebruik een apart robots.txt-bestand voor elk subdomein.

- Plaats het bestand in de bovenste directory van de website.

- U kunt de robots.txt-bestanden testen met behulp van Google Webmaster Tools voordat u ze naar uw hoofdmap uploadt.

- Let op dat FandangoSEO de ultieme robots.txt checker is. Gebruik het om ze in de gaten te houden!

Het is niet zo moeilijk om je robots.txt bestand te configureren en te bewerken wanneer je maar wilt. Houd er gewoon rekening mee dat het enige wat je echt wilt van deze actie is om het meeste uit de bots bezoeken te halen. Door te voorkomen dat ze irrelevante pagina's zien, zorgt u ervoor dat hun tijd die ze op de website doorbrengen, veel winstgevender is.

Tot slot, vergeet niet dat de SEO best practice voor robots.txt is om ervoor te zorgen dat alle relevante inhoud indexeerbaar is en klaar om te worden gecrawld! U kunt het percentage indexeerbare en niet-indexeerbare pagina's zien ten opzichte van het totaal aantal pagina's van een site met behulp van FandangoSEO's crawl, evenals de pagina's die geblokkeerd worden door de bestandsrobots.txt.


Robots.txt gebruikssituaties

De robots.txt regelt de toegang van de crawler tot bepaalde delen van de website. Dit kan soms riskant zijn, vooral als de GoogleBot per ongeluk niet de hele site mag crawlen, maar er zijn situaties waarin een robots.txt-bestand handig kan zijn.

robots.txt

Enkele van de gevallen waarin het raadzaam is robots.txt te gebruiken zijn

  • Wanneer u de privacy van sommige delen van een website wilt handhaven, bijvoorbeeld omdat het een testpagina is.
  • Om te voorkomen dat dubbele inhoud op de Google-resultatenpagina verschijnt, hoewel meta-bots voor dit doel een nog wenselijker optie zijn.
  • Wanneer u niet wilt dat interne zoekresultaatpagina's verschijnen op een openbare resultaatpagina.
  • Om de locatie van de site maps op te geven.
  • Om te voorkomen dat zoekmachines bepaalde bestanden op de website indexeren.
  • Om een crawlvertraging aan te geven om overbelasting van de server te voorkomen wanneer crawlers meerdere inhoudsdelen tegelijk laden.

Als er geen onderdelen op de site zijn waar u de toegang tot de user-agent wilt controleren, hebt u misschien geen robots-tekstbestand nodig.


Robots.txt SEO Beste Praktijken

Volg deze tips om de robots.txt-bestanden goed te beheren:

Blokkeer geen inhoud waarvan je wilt dat die getraceerd wordt

Evenmin moet u delen van de website blokkeren die moeten worden gevolgd.

Hou er rekening mee dat de bots de links van de door robots.txt geblokkeerde pagina's niet zullen volgen

Tenzij ze ook gelinkt zijn vanuit andere pagina's die zoekmachines kunnen benaderen omdat ze niet geblokkeerd zijn, zullen de gelinkte bronnen niet gecrawld en mogelijk niet geïndexeerd worden.

Ook kan er geen linkwaarde worden doorgegeven van de geblokkeerde pagina naar de linkbestemming. Als u pagina's hebt waaraan u autoriteit wilt geven, moet u een ander blokkeringsmechanisme gebruiken dan robots.txt.

Gebruik geen robots.txt om te voorkomen dat vertrouwelijke gegevens op de resultatenpagina van de zoekmachine worden getoond

Andere pagina's kunnen rechtstreeks linken naar de pagina met vertrouwelijke informatie (en zo de robots.txt-richtlijnen in uw hoofddomein of startpagina omzeilen), waardoor deze nog steeds kan worden geïndexeerd.

U moet een andere methode gebruiken, zoals wachtwoordbeveiliging of de noindex meta tag, om te voorkomen dat de pagina in de Google zoekresultaten verschijnt.

Vergeet niet dat sommige zoekmachines meerdere user agents hebben

Google, bijvoorbeeld, gebruikt GoogleBot voor organisch zoeken en GoogleBot-Image voor het zoeken naar afbeeldingen.

De meeste user agents van dezelfde zoekmachine volgen dezelfde regels, en daarom hoef je niet voor elke zoekmachinecrawler richtlijnen op te stellen, maar als je dat wel doet, kun je bepalen hoe de inhoud van de site gecrawld zal worden.

De zoekmachine slaat de inhoud van de robots.txt op in het cachegeheugen, maar werkt de cachegegevens meestal dagelijks bij

Als u het bestand wijzigt en het sneller wilt bijwerken, kunt u de URL van de robots.txt naar Google sturen.


bot

Robots.txt bestand beperkingen

Tot slot gaan we bekijken welke aspecten de werking van het robots.txt bestand beperken:

Pagina's zullen blijven verschijnen in zoekresultaten

Pagina's die ontoegankelijk zijn voor zoekmachines vanwege het robots.txt-bestand, maar waarnaar links zijn opgenomen, kunnen toch in de zoekresultaten verschijnen vanaf een crawlable pagina.

Bevat alleen richtlijnen

Google respecteert het robots.txt bestand zeer, maar het is nog steeds een richtlijn en geen mandaat.

Bestandsgrootte

Google ondersteunt een limiet van 521 kilobytes voor robots.txt bestanden, en als de inhoud deze maximale grootte overschrijdt, kan het deze negeren. We weten niet of andere zoekmachines ook een limiet instellen voor deze bestanden.

Robot txt. wordt 24 uur in cache opgeslagen

Volgens Google wordt het robots.txt-bestand meestal tot 24 uur in de cache bewaard. Iets om in gedachten te houden wanneer u wijzigingen aanbrengt in het bestand.

Het is niet helemaal duidelijk hoe andere zoekmachines omgaan met het bestand in de cache, maar het is het beste om het cachen van uw robots.txt te vermijden, zodat zoekmachines er niet langer over doen om wijzigingen te detecteren.



Hebt u al een robots.txt bestand toegevoegd?

Controleer uw robots nu

Probeer het 14 dagen gratis uit.

Volledige toegang tot al onze functies. Geen enkele verplichting.

Aan de slag

Pijl omhoog