SEO: Deshalb ist die robots.txt-Datei wichtig für eure Website [Teil 2]
Stichwort Crawling-Budget: Google sollte sich beim Erfassen eurer Webseiten auf diejenigen Inhalte konzentrieren, die für die Suche relevant sind. Über die robots.txt-Datei könnt ihr Bereiche eurer Website, die für die Google-Suche unbedeutend sind, vom Crawling (Erfassen durch Google) ausschließen. Wie ihr das bewerkstelligt, sagt euch dieser zweite Teil meines Blog-Beitrags.
Über die robots.txt-Datei können per Disallow-Befehle URLs vom Crawling ausgeschlossen werden. |
Teil 1 meines Beitrags (Link am Seitenende) behandelte folgende Themen:
- Was ist robots.txt?
- robots.txt: So gewichtet Google die Befehle
- Warum eine optimierte robots.txt-Datei aus SEO-Sicht wichtig ist
Damit eine Suchmaschine eine Webseite in den unbezahlten Suchergebnissen anzeigen kann, muss sie diese zunächst erfassen. Dieses Erfassen nennt man Crawling (zu Deutsch "kriechen" oder "krabbeln"). Das Bild rührt daher, dass Suchmaschinen bildhaft gesprochen über Webseiten "krabbeln", um deren Inhalte zu untersuchen.
Google und andere Suchmaschinen wollen effizient arbeiten: Sie beschäftigen sich pro Besuch nur zeitlich begrenzt mit den Inhalten eines Online-Auftritts. Deshalb ist es wichtig, dieses Crawling-Budget zu optimieren: Google sollte sich vorrangig mit denjenigen Seiten einer Website beschäftigen, die unbedingt in der Suche sichtbar sein müssen.
Dieser zweite Teil meines Blog-Beitrags beantwortet die Frage, wie ihr welche Seiten in der robots.txt vom Crawling ausschließen könnt. So unterstützt ihr die Suchmaschinen dabei, sich beim Crawlen auf eure wichtigen Seiten zu konzentrieren.
Wichtig: Schließt ihr Seiten in der robots.txt vom Crawling aus, ist das keine
Garantie, dass diese Seiten nicht in der Google-Suche auftauchen. Ist es euer
Ziel, bestimmte Seiten auf keinen Fall in der Google-Suche erscheinen zu
lassen, braucht es andere Methoden. Am Ende des Beitrags erläutere ich das
genauer. Jetzt blicken wir erstmal auf das Thema "Optimierung des
Crawling-Budgets per robots.txt".
4 Seiten-Typen, bei denen ein Crawling-Ausschluss per robots.txt überlegenswert ist
↓ 1. Interne Bereiche eurer Website:
Beispiele: Login-Seiten und administrative Bereiche. Diese sind für die Google-Suche unbedeutend und können deshalb vom Crawling ausgeschlossen werden.
Beispiel-URLs: www.deinewebsite.de/login – www.beispielwebsite.de/admin
Beispielhafte robots.txt, um solche Bereiche vom Crawling durch
Suchmaschinen auszuschließen:
User-agent: *
Disallow: /login
Disallow: /admin
↓ 2. Online-Shops:
a) Filter- und Sortieroptionen: Shop-Seiten mit verschiedenen Filter- und Sortierparametern, die ähnliche oder identische Inhalte anzeigen, produzieren doppelte Inhalte (Duplicate Content). Das kann die Suchmaschine verwirren: Sie weiß dann nicht, welche Version sie indexieren soll.
Beispiel-URLs: www.deinewebsite.de/produkte?kategorie=schuhe – www.deinewebsite.de/produkte?sort=preis
b) Warenkorb-Seiten und Bestellseiten: Diese Seiten sind für die Google-Suche irrelevant.
Beispiel-URLs: www.deinewebsite.de/warenkorb – www.deinewebsite.de/bestellung
Beispielhafte robots.txt, um solche Bereiche vom Crawling durch Suchmaschinen auszuschließen:
User-agent: *
# Blockiert alle Filter- und Sortierparameter, die an die Produktseiten angehängt werden
Disallow: /produkte?*kategorie=
Disallow: /produkte?*sort=
# Blockiert die Warenkorb- und Bestellseiten
Disallow: /warenkorb
Disallow: /bestellung
# Erlaubt das Crawling der Hauptproduktseiten ohne Parameter
Allow: /produkte
↓ 3. Interne Suchergebnisseiten:
Interne Suchergebnisseiten können zu doppelten Inhalten (Duplicate Content) führen und können vom Crawling ausgeschlossen werden.
Beispiel-URL: www.deinewebsite.de/suche?q=schuhe
Beispielhafte robots.txt, um solche Bereiche vom Crawling durch Suchmaschinen auszuschließen:
User-agent: *
Disallow: /suche
↓ 4. Seiten mit Paginierung (Seitennummerierung):
Ist ein Beitrag auf einer Website über mehrere Seiten verteilt, entsteht eine Paginierung (page=2, page=3, etc). Diese Seiten können via robots.txt blockiert werden, um unnötiges Crawling zu vermeiden.
Beispiel-URL: www.deinewebsite.de/blog?page=2
Beispielhafte robots.txt, um solche Bereiche vom Crawling durch Suchmaschinen auszuschließen:
User-agent: *
Disallow: /*?page=
Achtung: Im Falle von Paginierung kommt es ganz besonders auf den
Einzelfall an. Wenn der Inhalt auf Folgeseiten wenig bis keinen Mehrwert
bietet, kann ein Ausschluss per robots.txt sinnvoll sein. Wenn der Inhalt auf
Folgeseiten einen deutlichen Mehrwert bietet, solltet ihr die Seiten nicht per
robots.txt blockieren.
SEO: robots.txt oder Noindex oder Canonical?
Soweit eine Übersicht zu vier Seiten-Typen, die ihr per robots.txt vom Crawling ausschließen könnt.
Wichtig: Die oben genannten Darstellungen schildern einen beispielhaften robots.txt-Einsatz. Im Einzelfall solltet ihr immer klären, ob der Einsatz eines Noindex- oder Canonical-Tags die besseren Alternativen zu einem Disallow-Befehl innerhalb der robots.txt sind.
➤ Disallow in robots.txt: Verhindert das Crawlen von Seiten – aber nicht zwangsläufig die Indexierung. Die Seiten können theoretisch dennoch in der Google-Suche auftauchen.
➤ Noindex-Tag: Verhindert die Indexierung, lässt aber das Crawlen zu (und beansprucht damit Crawling-Budget). Wollt ihr sicherstellen, dass Seiten auf keinen Fall in der Google-Suche erscheinen, ist Noindex eure erste Wahl.
➤ Canonical-Tag: Verhindert Duplicate Content und zeigt die bevorzugte
Version einer Seite an, auch wenn sie unter verschiedenen URLs erreichbar ist.
Diese Option bietet sich an, wenn ihr sicherstellen wollt, dass Google nicht
von doppelten Inhalten (Duplicate Content) auf eurer Website verwirrt wird.
Die Canonical-Methode beansprucht Crawling-Budget.
robots.txt: Kleine Textdatei – große Wirkung
Soweit mein Überblick, wie ihr mittels der robots.txt-Datei das Crawling-Budget eurer Website optimieren könnt.
Ich wünsche euch viel Erfolg bei eurer technischen Suchmaschinen-Optimierung. :-)
Link-Tipps:
Kommentare