Aufbau der Datei robots.txt – Seiten für die Robots konfigurieren

29. Oktober 2009 at 14:04

Oft ist es sinnvoll bestimmte Seiten oder gar Bereiche einer Web-Seite vor der Indizierung von Suchmaschinen zu schützen. Zum Beispiel wenn es sich um Administrative, oder Seiten an denen noch gearbeitet wird, handelt.
Ggf. wollen Sie auch bestimmte Bilder, Logfiles oder Programmdateien vor der Indizierung der Suchmaschinen schützen damit diese nicht in den Suchergebnissen angezeigt werden.

Um dem gerecht zu werden wurde der Robots Exclusion Standard eingeführt, an den sich seriöse Suchmaschinen wie Google, Bing oder Yahoo! orientieren.

Nach diesem Standard muss eine Textdatei mit dem Namen robots.txt erstellt und diese im Stammverzeichnis der Domain platziert werden, so dass die Robots sie finden und beachten können.

<pre>http://www.beispiel.de/robots.txt
http://download.beispiel.de/robots.txt
http://beispiel.de:8080/robots.txt
</pre>

Der Aufbau der robots.txt erfolgt nach dem folgendem Shema. Zuerst gibt man an für welchen Crwaler eine Anweisung gelten soll, gefolgt von den einzelnen Anweisungen:

# robots.txt fuer http://www.beispiel.de/
User-agent: BeispielRobot
Disallow: /temp/       # Die Dateien sind nur Temporär und nicht von Bedeutung
Disallow: /logfiles/   # Sollen nicht allg. Verfügbar sein
Disallow: /bilder/     # Bilder sind teilweise geschützt und nicht zum download bestimmt
Disallow: /cgi-bin/    # CGI Ausgaben nicht indizieren
Disallow: /privat.html # Die pirivat.html soll nicht über die Suchmaschine gefunden werden

Mit User-agent: BeispielRobot bestimmt man, dass die Anweisungen nur für den genannten Crawler (BeispielRobot) gelten. Mit Hilfe der einzelnen Disallow Einträgen werden Verzeichnisse und Dateien bestimmt, welche nicht indiziert werden sollen. Mit Hilfe des Raute-Symbol (#)können Kommentare definiert werden, diese werden von den Robots ignoriert.

Ein Ausschluss aller Crawler ist mit Hilfe des sog. Wildchar * möglich:

# Alle Robots ausschließen
User-agent: *
Disallow: /temp/

Sollen nur bestimmte Crawler ausgeschlossen werden, sondern kann man diese wie folgt realisieren:

# Download-Tools vom CGI Verzeichnis fernhalten
User-agent: webmirror
User-agent: webzip
User-agent: webcopy
User-agent: wget
Disallow: /cgi-bin/

Eine Seite ganz von der Indizierung durch Suchmaschinen auszuschließen geht wie folgt:

# Komplette Webseite für alle Robots sperren
User-agent: *
Disallow: /

Durch entfernen des Slash (/) wird die Seite ganz für die Indizierung frei gegeben:

# Ganze Seite für Robots freigeben
User-agent: *
Disallow:

Die Groß- und Kleinschreibung wird bei Disallow Einträgen nicht durch die Robots berücksichtigt.

Sie Benötigen Unterstützung bei der Anpassung Ihrer robots.txt oder Optimierung (SEO) Ihrer Webseite bzw. Optimierung der Inhalte?

Fly2Mars-Media unterstützt Sie in diesen und vielen anderen Bereichen rund um das Thema Internet & IT!

Für ein individuelles Angebot nehmen Sie noch heute Kontakt mit uns auf.

Pro & Kontra des cloud computing

23. Oktober 2009 at 11:03

Cloud Computing ist einer der Top-Themen 2009! Das Konzept dahinter ist nicht wirklich neu, gerade große Unternehmen setzen dieses oder ähnliche Konzepte seit Jahren ein zwecks Lastenverteilung, Ausfallsicherheit oder als Backup-Strategie.

Aber wie sicher ist Cloud Computing? Lohnt sich ein Umstieg? Was sind die Pro & Kontra?

Das „Sidekick-Desaster“ in der vergangenen Woche hat nicht nur den beteiligten Firmen Microsoft, Danger und T-Mobile schlechte Presse beschert, sondern auch dem Thema Cloud Computing. Alle Daten der Sidekick-Nutzer waren auf Servern innerhalb der Cloud gespeichert und gingen durch ein misslungenes Update verloren. Und zum Spot für die Kritiker war kein Backup vorhanden. Dabei werden die Ausfall- und Backup-Sicherheit mit als die Stärken des Cloud Computing verkauft.

Hier möchten wir Euch eine kurze Übersicht der Pro & Kontras geben:

pro

  • Durch Cloud Services ist der Zugriff auf Anwendungen und damit das Arbeiten von überall möglich – Der Designer kann von zu Hause genauso auf die Applikationen zu greifen wie von einem Internet-Café im Urlaub. Dadurch werden Fixkosten gespart da z.B. nicht für jeden Client eine Lizenz erforderlich ist.
  • Sehr hohe Erreichbarkeit. Teilweise wird mit 100% Uptime geworben, allerdings kann diese Zahl wohl nicht immer gewährleistet sein. Z.B. bei Server-Ausfall können einzelne Knoten ausfallen oder überlastet sein bis der Ausfall der Server oder die Wiederherstellung des Backup abgeschlossen ist.
  • Cloud Computing erfordert nur geringe Investitionen. Gerade kleinere Unternehmen/Webseiten verfügen nur über ein geringes Eigenkapital. Anstatt Zeit und Geld in Technik zu investieren können sie sich auf ihr Produkt konzentrieren.

Contra

  • Abhängigkeit des Anbieters der Cloud-Applikation bzw. des Dienstes. Hat dieser technische Probleme oder geht gar in die Insolvenz, so ist es selten möglich „mal eben“ selbst ein Cloud-Server-Dienst zur Verfügung zu stellen (im Vergleich zu einem auf Apache & Linux basierten Webserver).
  • Datenschutz und Sicherheit: Die Daten liegen verteilt auf verschiedene Server & Standorte . Teilweise nicht durchschaubar wer auf diese Daten Zugriff hat, wo deren Standorte sind, wie das Backup-Konzept läuft, etc.! Es bleibt meist nur dem Anbieter zu vertrauen, dass er Informationen ausreichend vor Missbrauch schützt und ein gutes Backup-Konzept fährt.
  • Die Performance von Cloud-Diensten und vor allem Anwendungen welche Offline-Client-Applikationen ablösen, hängt von der Geschwindigkeit des Internet-Zugangs ab. Bei lokalen Anwendungen gibt es das Problem nicht!
  • Der Zugriff auf den Dienst hängt von der Verfügbarkeit des Dienstes/Anbieters ab. Bei z.B. Wartungsarbeiten, ist der Dienst nicht verfügbar. Zeitkritische Aufgaben können in diesem Fall ggf. nicht fertig gestellt werden.
  • Durch Cloud Services ist zudem ein verteiltes Arbeiten möglich. Der Redakteur kann im Internet-Café im Himalaya sitzen und dort an seinen Texten arbeiten. Präsenzarbeit ist überflüssig und es werden Fixkosten eingespart.

Urheberrechtsfibel – nicht nur für Piraten

20. Oktober 2009 at 21:34

Die Urheberrechtsfibel von Klaus Graf steht zum kostenlosen download als ebook bereit. Das in gedruckter Form immerhin 300 Seiten starke Werk stellt eine Art Kurzkommentar zum UrhG dar. Der Autor ist kein Jurist, beschäftigt sich aber seit vielen Jahren, z.T. leidenschaftlich mit dem Urheberrecht und hält es für grundlegend reformbedürftig.

Der Verlag kündigt das Werk so an:

„Das deutsche Urheberrecht entspricht nicht mehr dem digitalen Zeitgeist, den Bedürfnissen der Netzbürgerinnen und Netzbürger. Nicht nur die Piratenpartei bezweifelt, dass es zukunftstauglich ist. Dieses Buch ist eine bissige Abrechnung mit dem Urheberrechtsgesetz, das den Text vom ersten bis zum letzten Paragraphen allgemeinverständlich erläutert und kritisch auseinander nimmt. Es ist kein gelehrter akademischer Kommentar, sondern eine Streitschrift für digitale Freiheiten und freie Inhalte, die sich vehement gegen eine Verschärfung des Urheberrechts und für eine radikale Reform ausspricht.“

Ein Download lohnt sich.

Quelle: www.internet-law.de