Die robots.txt für Suchmaschinen verstehen und richtig einsetzen

Eine kleine Datei macht Ihre Homepage auffindbar für Suchmaschinen: Die robots.txt. Der Name dieser Textdatei rührt daher, dass er sich explizit an die automatischen Scanner der Suchmaschinen, auch Robots, Bots oder Crawler genannt, richtet. Diese Datei folgt einem strengen Script, dass die Auffindbarkeit für die Robots deutlich vereinfachen kann. Fehlerhafte Inhalte können jedoch auch schnell grossen Schaden anrichten.

Wo erstelle ich eine robots.txt?

Die robots.txt wird – wenn sie vorhanden ist – von den Suchmaschinen immer als erstes aufgerufen, bevor irgendwelche anderen Inhalte der Seite geladen werden. Dazu muss die Datei im root-Verzeichnis (Wurzelverzeichnis) der Homepage liegen, darf also nicht verschachtelt in irgendwelchen Unterordnern versteckt sein. Wenn die Seite beispielsweise www.suchmaschinenoptimierung.de heisst, sollte die robots.txt unter folgendem Link abrufbar sein: www.suchmaschinenoptimierung.de/robots.txt

Was genau macht die robots.txt?

In der Textdatei wird definiert, welche Unterseiten eine Suchmaschine beim Indexieren aufrufen darf und welche nicht. Standardmässig scannen Suchmaschinen alle Seiten, Verzeichnisse und Unterverzeichnisse einer Seite. Für eine suchmaschinenoptimierte Website kann es allerdings sinnvoll sein, gewisse Seiten vom Scannen auszuschliessen, um auf die dominanten, wichtigen Inhalte einer Seite hinzuweisen und diese in den Vordergrund zu stellen. Dafür sollten unerwünschte Unterseiten in der robots.txt für Suchmaschinen blockiert werden. Übrigens: Das Blockieren über die robots.txt hält Suchmaschinen nicht davon ab, die entsprechende Seite trotzdem zu Indexieren, sie wird nur weniger stark bewertet. Wenn beispielsweise auf anderen Seiten im Internet auf eine bestimmte, blockierte Seite verlinken, taucht sie früher oder später trotzdem in den Suchergebnissen der entsprechenden Suchmaschine auf. Die Suchmaschine wird lediglich den Inhalt dieser Seite nicht gescannt haben.

Wie ist eine robots.txt aufgebaut?

Eine robots.txt besteht aus mehreren Einträgen, die immer gleich aufgebaut sind. Ein Beispiel:

User-agent: Googlebot
Disallow: /shop/

Mit diesem Befehl wird dem Crawler der Suchmaschine Google mitgeteilt, dass das Unterverzeichnis /shop/ der Website nicht aufgerufen werden soll. Für verschiedene andere Suchmaschinen, beispielsweise Bing oder Yahoo, existieren andere Namen für den Parameter User-agent. Soll nun lediglich das Verzeichnis /shop/ nicht aufgerufen, dafür aber das Unterverzeichnis /shop/sonderangebote, dann würde der Befehl so aussehen:

User-agent: Googlebot
Disallow: /shop/
Allow: /shop/sonderangebote/

Mit dem Sternchensymbol (*) als Platzhalter lassen sich die Befehle darüber hinaus flexibel anpassen. So bezeichnet ein * für den Parameter User-agent also alle Bots jedweder Suchmaschine. Es lassen sich damit auch Inhalte sperren, die bestimmte Zeichenketten beinhalten. Der Befehl /*.jpg$ würde beispielsweise jedes Bild im jpg-Format davon abhalten, gescannt zu werden. Natürlich lassen sich auch bestimmte Suchmaschinen-Bots gänzlich ausschliessen. Das würde dann folgendermassen aussehen:

User-agent: Googlebot-Image
Disallow: /

Damit wäre das gesamte Wurzelverzeichnis für den Scanner der Google-Bildersuche gesperrt. Das kann beispielsweise sinnvoll sein, wenn eine Website noch in Bearbeitung und in einem gewissen experimentellen Status ist.

Trotz dieser vielseitigen Möglichkeiten muss bei der robots.txt immer beachtet werden, dass sie nur wie eine Art ‚Leitfaden‘ für die Suchmaschine agiert. Dass sich die Crawler am Ende auch daran halten, ist nicht garantiert. Nichtsdestotrotz kann eine gut definierte robots.txt einen wesentlichen Beitrag zu einer eleganten und zweckmässigen Suchmaschinenoptimierung leisten – insbesondere, wenn die zu optimierende Seite sehr komplex ist und viele Fremdlinks und andere Inhalte hat.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.