Navigation


Robots Exclusion Standard

18.05.2012 @ 20:04, Varina,

Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis („root“) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung, dazu sind Seiten oder Unterverzeichnisse eines Servers durch HTTP-Authentifizierung, eine Access Control List (ACL) oder einen ähnlichen Mechanismus zu schützen. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.

Das Protokoll wurde 1994 von einer unabhängigen Gruppierung entwickelt, ist inzwischen jedoch allgemein anerkannt und kann als Quasi-Standard betrachtet werden. Anfang Juni 2008 bekannten sich Google,[http://googlewebmastercentral-de.blogspot.com/2008/06/verbesserungen-des-robots-exclusion.html Verbesserungen des Robots-Exclusion-Protokolls]. Auf: Google-Blog Webmaster Zentrale, 10. Juni 2008. Microsoft und Yahoo zu einigen Gemeinsamkeiten.[http://searchengineland.com/080612-101402.php Everything You Wanted To Know About Blocking Search Engines]. Auf: searchengineland.com, 12. Juni 2008.

Mit ACAP 1.0 (Automated Content Access Protocol) wurde am 30. November 2007 eine Alternative zum Robots Exclusion Standards geschaffen. Von den großen Suchmaschinenbetreibern wird dies aber bislang nicht verwendet – von Google sogar ausgeschlossen es in der derzeitigen Form zu nutzen.[http://www.itwire.com/your-it-news/home-it/17206-acap-content-protection-protocol-qdoesnt-workq-says-google-ceo itwire.com]

Aufbau

Die Datei robots.txt ist eine Textdatei in einem einfach lesbaren Format. Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennt werden.


User-agent: Sidewinder
Disallow: /

Die erste Zeile beschreibt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Regeln richten. Es darf beliebig viele solcher Blöcke geben. Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich ein Block auf sie bezieht. Nach einem Block, dessen erste Zeile mit User-agent: * beginnt, stoppt ein Webcrawler und liest den Rest der Datei nicht mehr. Also sollten in der Datei zuerst die Blöcke für spezielle Webcrawler stehen und als letztes der Block für alle. Für jede URL, die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.

{| class="wikitable"
|- style="background-color:#ABCDEF"
! Anweisung
! Beschreibung
! Beispiel
! Funktion
|-
|User-agent:
|Spezifizierung des Webcrawlers
|User-agent: Sidewinder
|Gilt nur für den Webcrawler namens „Sidewinder“
|-
| |
|User-agent: *
|Wildcard für User-agent; gilt für alle Webcrawler
|-
|Disallow:
|Auslesen nicht gestatten
|Disallow:
|Kein Ausschluss; die komplette Webpräsenz darf durchsucht werden
|-
| |
|Disallow: /
|Die komplette Webpräsenz darf nicht durchsucht werden
|-
| |
|Disallow: /Temp/
Disallow: /default.html
|Das Verzeichnis „Temp“ und die Datei „default.html“ dürfen nicht durchsucht werden
|-
| |
|Disallow: /default
|Alle Dateien und Verzeichnisse, die mit „default“ beginnen, werden nicht durchsucht z. B. „default.html“, „default.php“, „default-page.html“, „defaultfolder/“, usw. Ein Verbot von „default.html“ verbietet also auch z. B. „default.html.php“ oder „default.html/“, auch wenn diese Konstellation eher selten vorkommen dürfte.
|-
|$
|Zeilenende-Anker (nur Googlebot, Yahoo! Slurp, msnbot)
|Disallow: /*.pdf$
|Alle PDF-Dateien werden ignoriert
|-
|?
|URLs mit '?' behandeln (nur Googlebot)
|Disallow: /*?
|Alle URLs die ein '?' enthalten werden ignoriert
|-
| |
|Allow: /*?$
|Alle URLs die mit einem '?' enden werden erlaubt
|-
|Allow:
|Auslesen erlauben (nur Ask.com, Googlebot, Yahoo! Slurp, msnbot)
|Disallow: /
Allow: /public/
|Nur das Verzeichnis „public“ darf durchsucht werden, der Rest nicht
|-
|Crawl-delay:
|Auslesegeschwindigkeit (nur Yahoo! Slurp, msnbot)
|Crawl-delay: 120
|Nur alle 120 Sekunden darf eine neue Seite zum Auslesen aufgerufen werden.
|-
|Sitemap:
|URL der Sitemap (nur Googlebot, Yahoo! Slurp, msnbot, Ask.com)
|Sitemap: http://example.com/sitemap.xml
|Die Sitemap gemäß dem Sitemap-Protokoll liegt unter der angegebenen Adresse.

|}

Beispiele



# robots.txt für example.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder

Disallow: /

User-agent: Microsoft.URL.Control

Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte verschwinden bald
Disallow: /Privat/Familie/Geburtstage.html

Mit den folgenden Befehlen wird allen Webcrawlern die Indexierung der kompletten Webpräsenz verboten.

User-agent: *
Disallow: /

Weiteres Beispiel: [//de.wikipedia.org/robots.txt robots.txt der Wikipedia]

Metainformationen


Webcrawler können auch durch Meta-Elemente im HTML-Quelltext einer Webseite am Indexieren gehindert werden.[http://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.2 Robots and the META element.] W3C Recommendation Auch Meta-Elemente sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite weder in den Index der Suchmaschine aufnehmen, noch den Hyperlinks der Seite folgen, ist das Meta-Element folgendermaßen zu notieren:



In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:


Siehe auch


* .htaccess
* Nofollow

* Sitemaps

Literatur


* Ian Peacock: Showing Robots the Door, What is Robots Exclusion Protocol? In: Ariadne, May 1998, Issue 15, [http://www.ariadne.ac.uk/issue15/robots/ Webversion].

Weblinks


* [http://www.robotstxt.org/wc/robots.html The Web Robots Pages] (englisch)
* [http://de.selfhtml.org/diverses/robots.htm robots.txt – Robots kontrollieren] Erläuterungen zur Datei robots.txt bei Selfhtml
* Google.de: [http://www.google.de/intl/de/webmasters/bot.html Googlebot: Der Web-Crawler von Google], [http://www.google.de/intl/de/remove.html Wollen Sie etwas aus Googles Index entfernen?]
* Google.com: [http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40367 spezielle Googlebot Syntax-Erweiterungen] (englisch)

* [http://www.the-acap.org/ ACAP – Automated Content Access Protocol] Erweiterung/Weiterentwicklung (engl.)

Einzelnachweise


Kategorie:World Wide Web

bar:Robots Exclusion Standard
ca:Protocol d'exclusió de robots
cs:Protokol pro zakázání přístupu robotům
da:Robot Exclusion Standard
Robots exclusion standard
es:Estándar de exclusión de robots
fi:Robotin rajausstandardi
Protocole d'exclusion des robots
he:פרוטוקול אי הכללת רובוטים
id:Robots.txt
it:Protocollo di esclusione robot
ja:Robots Exclusion Standard
ko:로봇 배제 표준
nl:Robots Exclusion Protocol
pl:Robots Exclusion Protocol
pt:Protocolo de Exclusão de Robôs
ru:Стандарт исключений для роботов
simple:Robots exclusion standard
sv:Robots Exclusion Standard
tr:Robot engelleme standardı
zh:Robots.txt

weiter

Text und Bilder dieses Beitrags stammen aus dem Artikel Robots Exclusion Standard der freien Enzyklopädie Wikipedia und stehen unter der GNU Free Documentation License. Die Liste der Autoren ist in der Wikipedia unter dieser Seite verfügbar, der Original-Artikel lässt sich hier bearbeiten.