robots.txt vs. noindex

13. Dezember 2013 at 17:51

seokanzler contest

Des Öfteren werde ich gefragt welche die Beste Möglichkeit ist die indexierung einer Seite durch Google zu unterbinden.

Methoden um die indexierung von webseiten zu unterbinden

Dazu gibt es bekannterweise verschiedene Möglichkeiten, am interessantesten ist hierbei der Einsatz der robots.txt sowie den meta noindex-Metatag .

Klingt erst mal einfach, ist es aber nicht! 😉

Der Irrglaube

Weit verbreitet ist der Irrglaube dass eine in der robots.txt mit disallow markierte URL nicht indexiert werden kann. Das ist schlichtweg falsch! Die robots.txt dient nur zur Steuerung des jeweiligen Crawlers der Suchmaschinenanbieter. In der Regel halten sich diese an die Einträge in der robots.txt, eine Pflicht dazu gibt es allerdings nicht. Praxis Erfahrungen zeigen das selbst Google sich nicht immer an diese Einträge hält.

Übrigens der historische Zweck der robots.txt war, den Crawler von den Bereichen der Website fern zu halten, die eine besonders hohe Serverlast erzeugten. Der Nebeneffekt dabei: die per robots.txt “geschützten” URLs konnten nicht in den Index gelangen.

Aktuell ist es allerdings so, das Google selbst eintscheidet welche Links sie verfolgen und indexieren und welche nicht. Hat ein Link bzw. eine Seite für Google eine sehr hohe Bedeutung, so kann bereits ein Link auf eine URL reichen um die URL in den Index mit aufzunehmen. Dabei nimmt Google so gar Seiten auf, wenn sie vom Crawler noch nicht einmal besucht wurden.

Und schwups sind Seiten im Index die per robots.txt gesperrt sind.

Die Praxis-Falle

In der Praxis würde jetzt der Webseitenbetreiber nachträglich ein meta-tag mit noindex setzen – <meta name=“robots“ content=“noindex“>. Gut gemeint aber jetzt passiert folgendes: nix

???

Da die Seite per Disallow-Anweisung in der robots.txt-Datei für den crawler gesperrt ist, besucht dieser die Seite nicht und z.B. Google kennt diesen Meta-Tag auf dieser Seite nicht, da die Seite selbst nicht besucht wird.

Der Einsatz von robots.txt und des Noindex-Metatags widerspricht sich hiermit und deshalb sollten die Einträge abgestimmt werden!

robots.txt und metatag-nofollow richtig einsetzen

Wie lösen wir jetzt das Problem bzw. wie setzen wir die beiden „Tools“ korrekt ein?

Die robots.txt sollte immer nur dann verwendet werden, wenn es erwünscht ist dass ein Crawler auf eine geschützten URLs nicht zugreifen soll oder einfach die Last des Servers gesenkt werden soll. Das kann sein z.b. der Login-Bereich, bestimmte Bilder, Dateien, etc. pp, auch das duplicate Content Problem kann damit angegangen werden.

So erreichen wir dass der Crawler sich nicht mit unnötigen URLs verlustiert und anschließend keine Ressourcen mehr für die wichtigen Seiten übrig hat. Aus SEO-Sicht müssen wir ggf. damit leben, dass manche URLs trotzdem im Google-Index gelistet werden.

Wollen wir definitiv das Listing einer Seite im Google-Index verhindern, so kommen wir um den Einsatz eines noindex-Metatag nicht herum. Dabei ist zu berücksichtigen dass die Suchmaschinen Zugriff auf diese Seite haben und sie NICHT per robots.txt als disallow markiert ist.

Übrigens, der Einsatz des nofollow-attributes für links ist nur eine Empfehlung für die Suchmaschinen diese Seite nicht zu indexieren. In der Praxis hält sich Google sowieso nicht daran, bewertet die Links nur schlechter beim Ranking. Hinzu kommt das Google seiten auch negativ sieht welche nur nofollow-tags haben. Ist ja klar, die Seite erlaubt Google keine ausgehenden Links zu scannen und ist für den Crawler eine Sackgasse.

Wenn euch der Tipp geholfen hat, bitte diesen Artikel auch bei Google+ und Facebook teilen, danke für euren Support!

robots.txt

11. Oktober 2013 at 10:31

Die robots.txt dient zur Rechteverwaltung einer Webseite für die Crawler der Suchmaschinen, nähere Infos unter:

http://de.wikipedia.org/wiki/Robots.txt

Zusätzlich sollte dort die jeweilige sitemap.xml eingetragen werden. Magento verwaltet die Sitemap.xml’s auf Webseitenebene, daher ist es wichtig pro Webseite eine eigene sitemap.xml anzulegen sowie diese regelmäßig zu aktualisieren.

Ebenfalls zu beachten ist, dass bei einem Multi Domain Shop jeweils eine eigene robots.txt pro Domain ausgeliefert wird und auch die Sitemap.xml jeweils mit der korrekten Domain verlinkt ist.

Irrelevante Seiten sperren

Auch die interne Linkstruktur ist ein wesentlicher Faktor für die Suchmaschinenoptimierung. Nicht alle Seiten einer Webseite sind auch für Suchmaschinen interessant. Folgende Seiten bzw. Links sollten nicht in den Index der Suchmaschinen aufgenommen werden und deshalb mittels dem meta-robots  „noindex“-Attribut (<meta name=“robots“ content=“noindex,follow“>) gesperrt werden, z.B.:

  • Kundenkonto-Login
  • Warenkorb
  • Hinzufügen zum Warenkorb aus Produkten
  • Kommentar/Bewertungs-Funktion
  • Allgemeine Geschäftsbedingungen
  • Datenschutzerklärung

 

Robots.txt in Magento

5. März 2013 at 15:32

Die Robots.txt dient zur Steuerung der Webcrawler diverse Suchmaschinen, primär wird dort fest gelegt welche Seiten nicht gecrawlt werden sollen.

Magento hat viele Ordner und Dateien sowie Parameter/Filter, etc. welche nicht gescannt werden sollten, sei es aus Sicherheitsgründen als auch um das Duplicate Content Problen in den Griff zu bekommen:

## robots.txt for Magento Community and Enterprise

## GENERAL SETTINGS

## Enable robots.txt rules for all crawlers
User-agent: *

## Crawl-delay parameter: number of seconds to wait between successive requests to the same server.
## Set a custom crawl rate if you’re experiencing traffic problems with your server.
# Crawl-delay: 30

## Magento sitemap: uncomment and replace the URL to your Magento sitemap file
# Sitemap: http://www.example.com/sitemap/sitemap.xml

## DEVELOPMENT RELATED SETTINGS

## Do not crawl development files and folders: CVS, svn directories and dump files
Disallow: CVS
Disallow: .svn
Disallow: .idea
Disallow: .sql
Disallow: .tgz

## GENERAL MAGENTO SETTINGS

## Do not crawl Magento admin page
Disallow: /admin/

## Do not crawl common Magento technical folders
Disallow: /app/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /lib/
Disallow: /pkginfo/
Disallow: /shell/
Disallow: /var/

## Do not crawl common Magento files
Disallow: /api.php
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /get.php
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /README.txt
Disallow: /RELEASE_NOTES.txt

## MAGENTO SEO IMPROVEMENTS

## Do not crawl sub category pages that are sorted or filtered.
Disallow: /*?dir*
Disallow: /*?dir=desc
Disallow: /*?dir=asc
Disallow: /*?limit=all
Disallow: /*?mode*

## Do not crawl 2-nd home page copy (example.com/index.php/). Uncomment it only if you activated Magento SEO URLs.
## Disallow: /index.php/

## Do not crawl links with session IDs
Disallow: /*?SID=

## Do not crawl checkout and user account pages
Disallow: /checkout/
Disallow: /onestepcheckout/
Disallow: /customer/
Disallow: /customer/account/
Disallow: /customer/account/login/

## Do not crawl seach pages and not-SEO optimized catalog links
Disallow: /catalogsearch/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/

## SERVER SETTINGS

## Do not crawl common server technical folders and files
Disallow: /cgi-bin/
Disallow: /cleanup.php
Disallow: /apc.php
Disallow: /memcache.php
Disallow: /phpinfo.php

## IMAGE CRAWLERS SETTINGS

## Extra: Uncomment if you do not wish Google and Bing to index your images
# User-agent: Googlebot-Image
# Disallow: /
# User-agent: msnbot-media
# Disallow: /

Verschiedene versionen der robots.txt pro domain/store per htaccess ausliefern – so geht’s

Mit hilfer der folgenden Einträge in der .htaccess-Datei könnt ihr anhand der Domain/Subdomain verschiedene robots.txt ausliefern:

 RewriteEngine on

RewriteCond %{HTTP_HOST} ^.*?domain2\.tld$ [NC]
RewriteRule ^robots\.txt$ robots.version1.txt

RewriteCond %{HTTP_HOST} ^.*?domain1\.tld$ [NC]
RewriteRule ^robots\.txt$ robots.version2.txt

Aufbau der Datei robots.txt – Seiten für die Robots konfigurieren

29. Oktober 2009 at 14:04

Oft ist es sinnvoll bestimmte Seiten oder gar Bereiche einer Web-Seite vor der Indizierung von Suchmaschinen zu schützen. Zum Beispiel wenn es sich um Administrative, oder Seiten an denen noch gearbeitet wird, handelt.
Ggf. wollen Sie auch bestimmte Bilder, Logfiles oder Programmdateien vor der Indizierung der Suchmaschinen schützen damit diese nicht in den Suchergebnissen angezeigt werden.

Um dem gerecht zu werden wurde der Robots Exclusion Standard eingeführt, an den sich seriöse Suchmaschinen wie Google, Bing oder Yahoo! orientieren.

Nach diesem Standard muss eine Textdatei mit dem Namen robots.txt erstellt und diese im Stammverzeichnis der Domain platziert werden, so dass die Robots sie finden und beachten können.

<pre>http://www.beispiel.de/robots.txt
http://download.beispiel.de/robots.txt
http://beispiel.de:8080/robots.txt
</pre>

Der Aufbau der robots.txt erfolgt nach dem folgendem Shema. Zuerst gibt man an für welchen Crwaler eine Anweisung gelten soll, gefolgt von den einzelnen Anweisungen:

# robots.txt fuer http://www.beispiel.de/
User-agent: BeispielRobot
Disallow: /temp/       # Die Dateien sind nur Temporär und nicht von Bedeutung
Disallow: /logfiles/   # Sollen nicht allg. Verfügbar sein
Disallow: /bilder/     # Bilder sind teilweise geschützt und nicht zum download bestimmt
Disallow: /cgi-bin/    # CGI Ausgaben nicht indizieren
Disallow: /privat.html # Die pirivat.html soll nicht über die Suchmaschine gefunden werden

Mit User-agent: BeispielRobot bestimmt man, dass die Anweisungen nur für den genannten Crawler (BeispielRobot) gelten. Mit Hilfe der einzelnen Disallow Einträgen werden Verzeichnisse und Dateien bestimmt, welche nicht indiziert werden sollen. Mit Hilfe des Raute-Symbol (#)können Kommentare definiert werden, diese werden von den Robots ignoriert.

Ein Ausschluss aller Crawler ist mit Hilfe des sog. Wildchar * möglich:

# Alle Robots ausschließen
User-agent: *
Disallow: /temp/

Sollen nur bestimmte Crawler ausgeschlossen werden, sondern kann man diese wie folgt realisieren:

# Download-Tools vom CGI Verzeichnis fernhalten
User-agent: webmirror
User-agent: webzip
User-agent: webcopy
User-agent: wget
Disallow: /cgi-bin/

Eine Seite ganz von der Indizierung durch Suchmaschinen auszuschließen geht wie folgt:

# Komplette Webseite für alle Robots sperren
User-agent: *
Disallow: /

Durch entfernen des Slash (/) wird die Seite ganz für die Indizierung frei gegeben:

# Ganze Seite für Robots freigeben
User-agent: *
Disallow:

Die Groß- und Kleinschreibung wird bei Disallow Einträgen nicht durch die Robots berücksichtigt.

Sie Benötigen Unterstützung bei der Anpassung Ihrer robots.txt oder Optimierung (SEO) Ihrer Webseite bzw. Optimierung der Inhalte?

Fly2Mars-Media unterstützt Sie in diesen und vielen anderen Bereichen rund um das Thema Internet & IT!

Für ein individuelles Angebot nehmen Sie noch heute Kontakt mit uns auf.