SEO: Deshalb ist die robots.txt-Datei wichtig für eure Website [Teil 1]
Mittels einer robots.txt-Datei sagt ihr Google, welche Bereiche eures Online-Auftritts es crawlen (erfassen) darf und welche nicht. Das hilft, euer Crawl-Budget zu optimieren (= sicherzustellen, dass Google sich auf die wichtigen Bereiche eures Online-Auftritts konzentriert). Ihr könnt in einer robots.txt-Datei aber auch einiges falsch machen. Hier kommen meine SEO-Tipps.
Was ist robots.txt?
robots.txt ist eine Textdatei. Sie wird im Stammverzeichnis (root directory) eures Online-Auftritts hinterlegt. Beispielhaft sieht das so aus:
➤ www.name-eurer-website.de/robots.txt
Gängige Content-Management-Systeme (CMS) wie Wordpress ermöglichen den Upload.
Die robots.txt-Datei gehört zu den ersten Informationen, die sich Google anschaut, bevor es sich mit den Inhalten eurer Webseiten beschäftigt. Die in der robots.txt-Datei enthaltenen Informationen sagen der Suchmaschine, welche Bereiche eures Online-Auftritts sie crawlen (erfassen) darf – und welche nicht.
Dieses Crawling ist die Grundvoraussetzung dafür, dass eure Webseiten überhaupt in den Suchtreffern einer Suchmaschine erscheinen können (also indexiert werden).
Schauen wir uns beispielhafte die robots.txt-Datei meines Blogs an:
User-agent: *
Disallow: /search
Allow: /
Sitemap:
https://der-onliner.blogspot.com/sitemap.xml
Das sind die einzelnen Bestandteile:
➤ Ein User-agent ist ein Programm, das mit einem Server kommuniziert. In der robots.txt-Datei wird festgelegt, für welche Crawler (User-agents) welche Regeln gelten. Ein Crawler (auch Webcrawler oder Bot genannt) ist ein Programm (z. B. eine Suchmaschine), welches das Internet durchsucht und dabei Webseiten aufruft und deren Inhalte analysiert. Googles Crawler heißt Googlebot.
Das Sternchen-Symbol (*) dient als Platzhalter und bestimmt damit, dass alle Crawler meinen Blog erfassen dürfen – neben dem Googlebot also zum Beispiel auch die Crawler von Suchmaschinen wie Bing (Bingbot) oder DuckDuckGo (DuckDuckbot).
➤ Disallow (Englisch für "nicht erlauben"): Bereiche, die hier genannt werden, dürfen nicht gecrawlt werden. Im obigen Beispiel bedeutet Disallow: /search, dass Ergebnisse der internen Suchfunktion meines Blogs nicht von Suchmaschinen erfasst werden dürfen. Das ist sinnvoll, da interne Suchergebnisseiten sogenannten Duplicate Content (doppelte Inhalte) produzieren: Google würde dieselbe Seite zweimal vorfinden, als tatsächliche URL des Blogbeitrags und als Treffer auf der internen Blog-Suchergebnisseite. Folge: Die Suchmaschine wüsste nicht eindeutig, welche Version sie indexieren soll. Das Crawl-Budget würde leiden: Google würde sich mit Inhalten aufhalten, die als Suchtreffer nicht relevant sind.
➤ Allow (Englisch für "erlauben"): Hier werden die Bereiche genannt, die der Crawler ausdrücklich erfassen darf. Im obigen Beispiel bedeutet Allow: /, dass Crawler meinen gesamten Blog erfassen dürfen (außer den über Disallow ausgeschlossenen Suchergebnisseiten).
➤ Sitemap: Hier erscheint ein Link zur Sitemap meines Blogs. Eine
Sitemap ist eine Datei, die der Suchmaschine eine Übersicht zu allen Seiten
eines Online-Auftritts bietet.
robots.txt: So gewichtet Google die Befehle
Zwei robots.txt-Regeln solltet ihr beachten:
➤ 1. robots.txt-Regel: Die URL mit mehr Details gewinnt
Beispiel:
User-agent: *
Disallow: /downloads/
Allow: /downloads/gratis/
Man könnte diese Anordnung wie folgt lesen: Disallow: /downloads/ besagt, dass User-agents wie der Googlebot nichts aus dem Unterverzeichnis /downloads/ crawlen dürfen.
Aber: Allow: /downloads/gratis/ bezeichnet ein Unterverzeichnis und ist deshalb detaillierter als Disallow: /downloads/. Google gewichtet deshalb den Allow-Befehl höher.
Heißt: Google wird den Unterordner /downloads/gratis/ crawlen, aber
alles andere im Verzeichnis /downloads/ ignorieren.
➤ 2. Regel: Bei Allow-/Disallow-Befehlen mit identischer URL gewinnt der am wenigsten hemmende
Stichwort fehlerhafte robots.txt: Trifft Google in einer robots.txt auf mehrere Befehle mit identischer URL, wird es dem am wenigsten einschränkenden Befehl folgen.
Beispiel:
User-agent: *
Disallow: /downloads/
Allow: /downloads/
Der Disallow- und der Allow-Befehl beziehen sich auf exakt dieselbe URL, heben sich quasi gegenseitig auf: Ersterer besagt, das Verzeichnis /downloads/ nicht crawlen zu dürfen. Letzterer besagt das Gegenteil.
Hier würde Google den weniger beschränkenden Befehl wählen, also den Allow-Befehl ausführen und das Downloads-Verzeichnis crawlen.
Tipp: Lasst es erst gar nicht zu so einer nicht schlüssigen
Befehlskombination in eurer robots.txt-Datei kommen.
Warum eine optimierte robots.txt-Datei aus SEO-Sicht wichtig ist
Stichwort Crawl-Budget: Der Googlebot saust permanent durchs World Wide Web, um Webseiten zu erfassen und gegebenenfalls in sein Suchverzeichnis aufzunehmen. Der Suchmaschinenriese muss dabei mit seinen Ressourcen haushalten: Er widmet jedem Online-Auftritt, dem er begegnet, nur eine gewisse Menge Zeit.
Die Gefahr: Google "übersieht" wichtige Inhalte eures Online-Auftritts und indexiert sie nicht (bringt sie nicht in sein Suchverzeichnis). Diese Seiten wären dann über die Google-Suche nicht auffindbar.
Hier hilft die robots.txt-Datei: Für die Google-Suche irrelevante
Seiten eures Online-Auftritts zu blockieren, unterstützt die Suchmaschine dabei,
sich auf die wichtigen Inhalte eurer Website zu konzentrieren.
robots.txt: Das erwartet euch in Teil 2
Der zweite Teil von "SEO: Deshalb ist die robots.txt-Datei wichtig für eure Website" beantwortet euch die Frage, welche Seiten eures Online-Auftritts ihr vom Crawling ausschließen solltet.
Bis dann!
Link-Tipps:
Kommentare