Aufbau der Datei robots.txt – Seiten für die Robots konfigurieren
Oft ist es sinnvoll bestimmte Seiten oder gar Bereiche einer Web-Seite vor der Indizierung von Suchmaschinen zu schützen. Zum Beispiel wenn es sich um Administrative, oder Seiten an denen noch gearbeitet wird, handelt.
Ggf. wollen Sie auch bestimmte Bilder, Logfiles oder Programmdateien vor der Indizierung der Suchmaschinen schützen damit diese nicht in den Suchergebnissen angezeigt werden.
Um dem gerecht zu werden wurde der Robots Exclusion Standard eingeführt, an den sich seriöse Suchmaschinen wie Google, Bing oder Yahoo! orientieren.
Nach diesem Standard muss eine Textdatei mit dem Namen robots.txt
erstellt und diese im Stammverzeichnis der Domain platziert werden, so dass die Robots sie finden und beachten können.
<pre>http://www.beispiel.de/robots.txt http://download.beispiel.de/robots.txt http://beispiel.de:8080/robots.txt </pre>
Der Aufbau der robots.txt erfolgt nach dem folgendem Shema. Zuerst gibt man an für welchen Crwaler eine Anweisung gelten soll, gefolgt von den einzelnen Anweisungen:
# robots.txt fuer http://www.beispiel.de/ User-agent: BeispielRobot Disallow: /temp/ # Die Dateien sind nur Temporär und nicht von Bedeutung Disallow: /logfiles/ # Sollen nicht allg. Verfügbar sein Disallow: /bilder/ # Bilder sind teilweise geschützt und nicht zum download bestimmt Disallow: /cgi-bin/ # CGI Ausgaben nicht indizieren Disallow: /privat.html # Die pirivat.html soll nicht über die Suchmaschine gefunden werden
Mit User-agent: BeispielRobot
bestimmt man, dass die Anweisungen nur für den genannten Crawler (BeispielRobot
) gelten. Mit Hilfe der einzelnen Disallow
Einträgen werden Verzeichnisse und Dateien bestimmt, welche nicht indiziert werden sollen. Mit Hilfe des Raute-Symbol (#)
können Kommentare definiert werden, diese werden von den Robots ignoriert.
Ein Ausschluss aller Crawler ist mit Hilfe des sog. Wildchar *
möglich:
# Alle Robots ausschließen User-agent: * Disallow: /temp/
Sollen nur bestimmte Crawler ausgeschlossen werden, sondern kann man diese wie folgt realisieren:
# Download-Tools vom CGI Verzeichnis fernhalten
User-agent: webmirror User-agent: webzip User-agent: webcopy User-agent: wget Disallow: /cgi-bin/
Eine Seite ganz von der Indizierung durch Suchmaschinen auszuschließen geht wie folgt:
# Komplette Webseite für alle Robots sperren User-agent: * Disallow: /
Durch entfernen des Slash (/
) wird die Seite ganz für die Indizierung frei gegeben:
# Ganze Seite für Robots freigeben User-agent: * Disallow:
Die Groß- und Kleinschreibung wird bei Disallow Einträgen nicht durch die Robots berücksichtigt.
Sie Benötigen Unterstützung bei der Anpassung Ihrer robots.txt oder Optimierung (SEO) Ihrer Webseite bzw. Optimierung der Inhalte?
Fly2Mars-Media unterstützt Sie in diesen und vielen anderen Bereichen rund um das Thema Internet & IT!
Für ein individuelles Angebot nehmen Sie noch heute Kontakt mit uns auf.