robots.txt mit Google überprüfen
Posted by admin under Internet, Onlinedienste
Die Datei robots.txt teilt den Bots der Suchmaschinen mit welche Verzeichnisse und Dateien indiziert werden dürfen und welche nicht. Dabei kann eine robots.txt Datei im Extremfall verhindern, dass die Webseite überhaupt von Suchmaschinen indiziert wird was natürlich für jeden Webmaster eine Katastrophe sondergleichen ist.
Es kann bis zu zwei Wochen dauern bis die Veränderungen in der robots.txt Datei bemerkbar machen was eine sehr lange Zeit sein kann wenn man einen Fehler gemacht hat.
Eine hervorragende Möglichkeit den robots.txt zu testen bevor man sie veröffentlicht ist der sogenannte Google’s Webmaster Central Dienst. Bevor man ihn nutzen kann muss man sich dazu kostenlos anmelden.
Wenn dieses einmal geschehen ist kann man den Dienst von Google sofort nutzen. Nachdem man mindestens eine Webseite hinzugefügt hat kann man den Menüpunkt robots.txt -Analyse aufrufen der eine eventuell vorhandene robots.txt Datei von der Webseite lädt und darstellt. Zusätzlich wird die Haupturl zu der Liste der zu testenden Urls hinzugefügt.
Nun kann man die robots.txt Datei editieren um so zum Beispiel neue Einträge hinzuzufügen und zu testen. Zusätzlich können weitere Urls zu den zu testenden Seiten hinzugefügt werden. Dies ist für viele Seite absolut erforderlich. Nimmt man zum Beispiel meine Seite als Beispiel unterscheiden sich die Einzelseiten von der Hauptseite, daher habe ich sowohl die Hauptseite als auch eine einzelne Artikelseite zu diesen Seiten hinzugefügt. Für mein Wordpressblog habe ich nun die folgende robots.txt Datei erstellt:
robots.txt
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /rss/
Disallow: /comments/feed/
Disallow: /page/
Disallow: /date/
Disallow: /comments/
User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*?*
Disallow: /*?
# den Adsense Bot auf alles zugreifen lassen
User-agent: Mediapartners-Google*
# Alles erlauben
Allow: /*
URLs anhand dieser robots.txt-Datei testen
http://www.ghacks.net/
http://www.ghacks.net/2007/05/20/support-ghacks/
http://www.ghacks.net/tag/
http://www.ghacks.net/category/
http://www.ghacks.net/2007/05/20/flitter-a-flickr-twitter-realtime-screensaver/trackback/
Man kann weitere Bots von Google zu den Bots hinzufügen um so z.B. zu testen ob alle Seiten für den Adsense Bot erreichbar sind. Wenn man nun Überprüfen aufruft überprüft Google ob die Bots auf die angegebenen Urls zugreifen können.
Zulässig bedeutet dabei, dass der Bot die Seite aufrufen kann während Blockiert bedeutet, dass diese Seite nicht indiziert wird. Zudem wird bei Blockiert angegeben welche Einstellung in der robots.txt Datei für dieses verantwortlich ist.

[...] mit einer entsprechenden Recherche relativ leicht festgestellt werden, indem die Klassiker, wie falsche robots.txt-Einträge und ähnliches, ausgeschlossen [...]