Robots.txt Dateien Hilfe
Was ist die Robots.txt?
Eine Robots Datei ist mehr oder weniger ein Regelwerk für die Suchmaschinen. Dort wird definiert welche Webseiten eine Suchmaschine besuchen darf und welche nicht.
Um die Robots.txt Datei einer Webseite an zu schauen muss man einfach im Browser die Adresse so eingeben.
http://www.domain.de/robots.txt
Die Robots Dateien sind so aufgebaut das zuerst der Crawler (die Suchmaschine) definiert wird und danach die gewünschte Anweisung kommt. In diesem Beispiel kann man es gut erkennen:
# Beispiel robots.txt
User-agent: BeispielCrawler
Disallow: /temp/ # Temporäre Dateien welche nicht lange auf dem Server sind
Disallow: /logs/ # Log Dateien welche sich immer wieder ändern
Mit dem Befehl „User-agent:“ definieren wir für welchen Crawler diese Regel gelten soll. Hier wäre es nur der Crawler „BeispielCrawler“. Wenn wir eine Anweisung für alle Crawler festlegen wollten schreiben wir bei „User-agent:“ einfach ein „*“.
Das „Disallow:“ steht dafür das die Suchmaschine auf diese Ordner nicht zugreifen darf.
Mit dem „#“ beginnen wir einen Kommentar alles was dahinter steht wird nicht mehr als Regel erkannt.
Bei den Ordnern welche man an gibt ist es wichtig davor und dahinter ein / zu machen. Denn wenn dahinter kein / vorhanden wäre würde der Crawler alle Dateien welche mit temp anfangen z.B. tempfiles.html oder /temp2/ usw. nicht besuchen.
Passt also eure Robots Dateien nach euren Wünschen an und schaut das ihr nicht die Falschen Ordner aussperrt.