Robots.txt Beste Praktiken

Auch wenn SEO-Spezialisten den größten Teil ihrer Arbeit in die Verbesserung der Sichtbarkeit von Seiten für die entsprechenden Keywords stecken, ist es in manchen Fällen erforderlich, bestimmte Seiten vor den Suchmaschinen zu verstecken.

Lassen Sie uns ein wenig mehr über dieses Thema herausfinden.


Was ist eine robots.txt-Datei?

Robots.txt ist eine Datei, die die Bereiche einer Website enthält, die von Suchmaschinen-Robotern nicht gecrawlt werden dürfen. Sie listet die URLs auf, von denen der Webmaster nicht möchte, dass Google oder eine andere Suchmaschine sie indiziert und verhindert, dass sie die ausgewählten Seiten besuchen und verfolgen.

Wenn ein Bot eine Website im Internet findet, prüft er als erstes die robots.txt-Datei, um zu erfahren, was er erforschen darf und was er beim Crawlen ignorieren muss.

Um Ihnen ein Beispiel für robots.txt zu geben, ist dies die Syntax:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Was ist robots.txt in SEO?

Diese Tags sind erforderlich, um die Google-Bots beim Auffinden einer neuen Seite zu führen. Sie sind notwendig, weil:

- Sie helfen dabei, das Crawl-Budget zu optimieren, da der Spider nur das besucht, was wirklich relevant ist und er seine Zeit beim Crawlen einer Seite besser nutzt. Ein Beispiel für eine Seite, von der Sie nicht möchten, dass Google sie findet, ist eine "Dankeseite".

- Die Datei Robots.txt ist eine gute Möglichkeit, die Indexierung von Seiten zu erzwingen, indem sie auf die Seiten hinweist.

- Robots.txt-Dateien steuern den Crawler-Zugriff auf bestimmte Bereiche Ihrer Website.

- Sie können ganze Abschnitte einer Website sicher halten, da Sie separate robots.txt-Dateien pro Root-Domäne erstellen können. Ein gutes Beispiel ist - Sie haben es erraten - natürlich die Seite mit den Zahlungsdaten.

- Sie können auch verhindern, dass interne Suchergebnisseiten auf den SERPs erscheinen.

- Robots.txt kann Dateien ausblenden, die nicht indiziert werden sollen, wie z.B. PDFs oder bestimmte Bilder.

 


Wo findest du die Datei robots.txt?

Robots.txt-Dateien sind öffentlich. Du kannst einfach eine Root-Domain eingeben und /robots.txt am Ende der URL hinzufügen und du siehst die Datei....wenn es eine gibt!

Warnung: Vermeiden Sie es, private Informationen in dieser Datei aufzulisten.

Sie können die Datei im Stammverzeichnis Ihres Hostings finden und bearbeiten, indem Sie den Datei-Administrator oder das FTP der Website überprüfen.

 

Wie man robots.txt bearbeitet

Du kannst es selbst machen.

- Erstellen oder bearbeiten Sie die Datei mit einem einfachen Texteditor.

- Benennen Sie die Datei "robots.txt", ohne Variationen wie Großbuchstaben.

Es sollte so aussehen, wenn Sie die Website durchsuchen lassen möchten:


User-agent: *
Disallow:

- Beachten Sie, dass wir "Verbieten" leer gelassen haben, was bedeutet, dass es nichts gibt, was nicht gecrawlt werden darf.

Wenn Sie eine Seite blockieren wollen, dann fügen Sie diese hinzu (am Beispiel der "Danke-Seite"):


User-agent: *
Disallow: /thank-you/

- Verwenden Sie für jede Subdomain eine separate robots.txt-Datei.

- Platzieren Sie die Datei im obersten Verzeichnis der Website.

- Sie können die robots.txt-Dateien mit den Google Webmaster-Tools testen, bevor Sie sie in Ihr Stammverzeichnis hochladen.

- Beachten Sie, dass FandangoSEO der ultimative robots.txt-Checker ist. Benutzen Sie es, um sie zu überwachen!

Sehen Sie, dass es nicht so schwierig ist, Ihre robots.txt-Datei zu konfigurieren und jederzeit zu bearbeiten. Denke nur daran, dass alles, was du wirklich von dieser Aktion willst, ist, das Beste aus den Bots-Besuchen zu machen. Indem Sie sie daran hindern, irrelevante Seiten zu sehen, stellen Sie sicher, dass ihre Zeit auf der Website viel profitabler wird.

Schließlich denken Sie daran, dass die SEO Best Practice für robots.txt darin besteht, sicherzustellen, dass alle relevanten Inhalte indexierbar und bereit für das Crawlen sind! Sie können den Prozentsatz der indexierbaren und nicht indexierbaren Seiten an den Gesamtseiten einer Website mit dem Crawl von FandangoSEO sowie die von der Datei robots.txt blockierten Seiten sehen.


Robots.txt Anwendungsfälle

Die robots.txt steuert den Zugriff des Crawlers auf einige Bereiche der Website. Dies kann manchmal riskant sein, vor allem wenn der GoogleBot versehentlich nicht die gesamte Website crawlen darf, aber es gibt Situationen, in denen eine robots.txt-Datei praktisch sein kann.

robots.txt

Einige der Fälle, in denen es ratsam ist, robots.txt zu verwenden, sind die folgenden

  • Wenn Sie die Vertraulichkeit einiger Bereiche einer Website wahren möchten, z. B. weil es sich um eine Testseite handelt.
  • Um zu vermeiden, dass doppelte Inhalte auf der Google-Ergebnisseite erscheinen, obwohl Meta-Bots für diesen Zweck eine noch wünschenswertere Option sind.
  • Wenn Sie nicht möchten, dass interne Suchergebnisseiten auf einer öffentlichen Ergebnisseite erscheinen.
  • So legen Sie den Speicherort der Lagepläne fest.
  • Um Suchmaschinen daran zu hindern, bestimmte Dateien auf der Website zu indizieren.
  • Zur Angabe einer Crawl-Verzögerung, um eine Überlastung des Servers zu vermeiden, wenn Crawler mehrere Inhaltsstücke auf einmal laden.

Wenn es keine Bereiche auf der Website gibt, in denen Sie den Zugriff durch Benutzer-Agenten steuern möchten, benötigen Sie möglicherweise keine robots-txt-Datei.


Robots.txt SEO Best Practices

Befolgen Sie diese Tipps, um die robots.txt-Dateien richtig zu verwalten:

Blockieren Sie keine Inhalte, die verfolgt werden sollen

Sie sollten auch keine Bereiche der Website blockieren, die nachverfolgt werden sollen.

Beachten Sie, dass die Bots den Links der durch robots.txt blockierten Seiten nicht folgen werden

Wenn sie nicht auch von anderen Seiten verlinkt sind, auf die Suchmaschinen zugreifen können, weil sie nicht gesperrt wurden, werden die verlinkten Ressourcen nicht gecrawlt und möglicherweise nicht indiziert.

Außerdem kann kein Linkwert von der blockierten Seite an das Linkziel weitergegeben werden. Wenn Sie Seiten haben, denen Sie Autorität verleihen möchten, müssen Sie einen anderen Blockierungsmechanismus als robots.txt verwenden.

Verwenden Sie keine robots.txt, um zu vermeiden, dass vertrauliche Daten auf der Ergebnisseite der Suchmaschine angezeigt werden

Andere Seiten können direkt auf die Seite mit den vertraulichen Informationen verlinken (und so die robots.txt-Richtlinien in Ihrer Root-Domain oder Ihrer Homepage umgehen), weshalb sie weiterhin indiziert werden kann.

Um zu verhindern, dass die Seite in den Google-Suchergebnissen erscheint, sollten Sie eine andere Methode verwenden, z. B. einen Passwortschutz oder das noindex-Meta-Tag.

Denken Sie daran, dass einige Suchmaschinen mehrere Benutzeragenten haben

Google zum Beispiel verwendet GoogleBot für die organische Suche und GoogleBot-Image für die Bildersuche.

Die meisten User-Agents einer Suchmaschine folgen den gleichen Regeln, weshalb Sie nicht für jeden Suchmaschinen-Crawler Richtlinien festlegen müssen, aber dadurch können Sie steuern, wie der Inhalt der Website gecrawlt werden soll.

Die Suchmaschine zwischenspeichert den Inhalt der robots.txt, aktualisiert die zwischengespeicherten Daten aber normalerweise täglich

Wenn Sie die Datei ändern und schneller aktualisieren möchten, können Sie die robots.txt-URL an Google senden.


Bot

Einschränkungen der Robots.txt-Datei

Schließlich werden wir sehen, welche Aspekte die Funktion der robots.txt-Datei einschränken:

Die Seiten werden weiterhin in den Suchergebnissen angezeigt

Die Seiten, die aufgrund der robots.txt-Datei für Suchmaschinen unzugänglich sind, aber Links zu ihnen haben, können trotzdem in den Suchergebnissen von einer crawlbaren Seite erscheinen.

Enthält nur Direktiven

Google respektiert die robots.txt-Datei in hohem Maße, aber es handelt sich immer noch um eine Richtlinie und nicht um ein Mandat.

Dateigröße

Google unterstützt ein Limit von 521 Kilobyte für robots.txt-Dateien, und wenn der Inhalt diese maximale Größe überschreitet, kann er ignoriert werden. Wir wissen nicht, ob andere Suchmaschinen auch ein Limit für diese Dateien festlegen.

Robot txt. wird 24 Stunden gecached

Laut Google wird die robots.txt-Datei in der Regel bis zu 24 Stunden lang zwischengespeichert. Etwas, das Sie im Hinterkopf behalten sollten, wenn Sie Änderungen an der Datei vornehmen.

Es ist nicht ganz klar, wie andere Suchmaschinen die zwischengespeicherte Datei behandeln, aber es ist am besten, das Zwischenspeichern Ihrer robots.txt zu vermeiden, damit die Suchmaschinen nicht länger brauchen, um Änderungen zu erkennen.



Haben Sie bereits eine robots.txt-Datei hinzugefügt?

Prüfen Sie jetzt Ihre Roboter

Probieren Sie es 14 Tage lang kostenlos aus.

Voller Zugriff auf alle unsere Funktionen. Keine Verpflichtungen jeglicher Art.

Erste Schritte

Pfeil nach oben