Von WP SEO Plugin erzeugte Sitemap in robots.txt einbinden, so gehts

Ich nutze schon eine ganze Weil das wirklich sehr gute und umfangreiche WordPress Plugin WordPress SEO by Yoast. Dieses Plugin erzeugt netterweise auch gleich eine Sitemap für den gesamten Blog.

Damit das Ganze funktioniert man lediglich zwei kleinere Eingriffe vornehmen:

  1. Im WordPress Admin Panel muss man unter SEO > XML-Sitemaps die Sitemap Funktion zunächst aktivieren. Optional kann man noch angeben, was genau in der XML Sitemap aufgenommen bzw. nicht aufgeführt werden soll
  2. Dann muss man diese Sitemap noch der Welt zur Verfügung stellen. Leider trägt das SEO Plugin die Sitemap nicht automatisch in die robots.txt ein, daher müsst Ihr das einmalig von Hand machen.

Sofern Ihr selbst noch keine robots.txt angelegt habt erstellt WordPress diese bei jeder Anfrage dynamisch mit minimalem Inhalt:

Aus meiner Sicht reicht das auch völlig, weil man ja über das SEO Plugin sehr schön steuern kann, welche Seiten indiziert werden sollen und welche nicht. Davon abgesehen glaube ich, dass die ganzen „kleinen“ Bots von unbekannteren Suchmaschinen eher noch den Meta Tag „robots“ auslesen würden als die robots.txt.

Aber es soll hier auch gar nicht detailliert um die robots.txt bzw. Meta Tags gehen, sondern um die Möglichkeit die Sitemap in die robots.txt zu integrieren. Denn an dieser Stelle werden zumindestens die „großen“ (und somit relevanten) Suchmaschinen nach einer Sitemap suchen.

Sollte also in Euren WordPress Hauptverzeichnis noch keine Datei namens robots.txt existieren, so erstellt einfach eine neue Datei und tragt die Sitemap zusammen mit den eben schon genannten Minimalangaben ein. Das sieht dann so aus:

Natürlich müsst Ihr den Domainnamen noch durch Eure Domain austauschen! So sieht also meine robots.txt aus. Wenn Ihr Euch unsicher sein solltet wo die Sitemap ganz genau liegt, könnt Ihr einfach im Admin Panel unter SEO > XML-Sitemaps auf den Button neben „Ihre XML-Sitemap finden Sie hier“ klicken, dann öffnet sich Eure robots.txt in einem neuen Fenster (bzw. Tab).

Das wars schon!

Alternativ (oder zusätzlich) könnt Ihr die Sitemap auch direkt in den Webmaster Tools von bspw. Google und Bing eintragen. Weitere Informationen zur Optimierung der robots.txt findet Ihr zudem unter anderem auf der WordPress Codex Seite.

Vielleicht abschließend noch ein paar Worte zur robots.txt: Generell folgt diese Datei der Regel „alles was nicht explizit verboten wurde, ist erlaubt“. Steht also nichts in der robots.txt darf der Suchmaschinen-Bot erstmal alles indizieren. Mittels Meta Tag „robots“ kann man das natürlich noch feiner steuern. Hier gilt ebenfalls „was nicht verboten ist, ist erlaubt“ als Regel. Daher bitte auch nicht wundern, wenn viele Seiten Eures Blogs gar keinen Meta Tag „robots“ enthalten.

Damit man jetzt auch irgendwo mal einen solchen „robots“ Meta Tag gesehen hat, von dem ich die ganze Zeit gesprochen habe… bitte schön ;)

Dieser Tag gehört in den HTML Quelltext in den Block <head> und weist Suchmaschinen-Bots an die aktuelle Seite nicht zu indizieren, jedoch den Links auf der aktuellen Seite weiter zu folgen (um diese dann je nach Einstellung dieser Seiten ggf. zu indizieren).


Nachtrag (01.12.2014):

Da Google inzwischen Seiten SEO technisch abstraft, die verhindern, dass CSS und JS Dateien indiziert werden dürfen, hat WordPress (spätestens mit der aktuellen Version 4.0.1) seine Standard robots.txt bereits angepasst und diese Zeile entfernt:

Entsprechend habe ich diesen Beitrag angepasst und diese Zeile aus meinem Beispiel ebenfalls entfernt, da viele Plugins (die im Verzeichnis wp-includes liegen) auch CSS und/oder JS Dateien zur Verfügung stellen.

Mehr zu den Hintergründen in diesem t3n.de Beitrag zum Thema Google Webmaster Guidelines.

Ähnliche Beiträge

2 Antworten

  1. Ansas sagt:

    Kleiner Nachtrag: Bitte achtet darauf, dass Ihr das Verzeichnis „wp-includes“ nicht mehr über die „robots.txt“ ausschließt, damit Ihr nicht von Google abgestraft werdet.

  2. Christian sagt:

    Hallo! Danke für den Tipp, ich hatte viele Sachen per Robots.txt ausgeschlossen und mich gewundert, warum die Besucherzahlen nicht voran kommen bei unserer Seite :) Vielleicht wird’s ja jetzt besser.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.