Robots-Textdatei für Suchmaschinen

Robots-Textdatei für Suchmaschinen

Um bei Suchmaschinen, wie z.B. Google ein höheres Ranking zu erhalten, ist es sinnvoll in das obersten Verzeichnis der Website eine Datei mit Namen "robots.txt" zu legen.

In dieser Datei wird angegeben, welche Teile der Website durchsucht werden sollen - und welche nicht. So können bestimmte Bereiche, die die Suchmaschinen NICHT anzeigen sollen (z.B. eine interne Bildergalerie), für Besucher über eine Suchmaschine "unsichtbar" gemacht werden.

Darüberhinaus können auch Suchmaschinen abgewehrt werden, die als eine Art "Spam-Suchmaschine" unterwegs sind, und lediglich auf der Suche nach Email-Adressen sind.

Vorlagen robots.txt

1. "Leere" Robots-Datei: Die Suchmaschinen werden lediglich angewiesen ALLE Bereiche der Website zu durchsuchen.
Download (rechte Maustaste, Ziel speichern unter...):
http://www.adera-web.com/public/robots.txt

2. No-Spam-Robots-Datei: ALLE Seiten der Website können durchsucht werden - aber das Durchsuchen von sogenannten Spam-Suchmaschinen soll verhindert werden.
Download (rechte Maustaste, Ziel speichern unter...):
http://www.adera-web.com/public/no-spam-robots/robots.txt

3. Vorlage, um bestimmte Seiten von der Suche AUSZUSCHLIESSEN - und das Durchsuchen von sogenannten Spam-Suchmaschinen verhindern.
(unter "Disallow" steht, welche Seiten NICHT gefunden werden sollen - ersetze jeweils "/verzeichnis-xxx/datei-xxx.html" mit dem richtigen Verzeichnis- und HTML-Namen)
Download (rechte Maustaste, Ziel speichern unter...):
http://www.adera-web.com/public/no-robots/robots.txt

 

Parameter-Erklärung

Alle Wörter in einer robots.txt müssen klein geschrieben werden.

User-agent:
Mit User-Agent werden die Robots angesprochen.
Das Sternchen (*) bedeutet, dass alle Robots gemeint sind. Es ist ein sogenanntes Wildcard-Zeichen.

Disallow:
Disallow gibt an, welche Dateien und Verzeichnisse der Robot nicht besuchen soll. Der Slash (/) bedeutet, dass das gesamte Verzeichnis mit allen Dateien nicht besucht werden soll. Wird dieses Zeichen weggelassen, so sind alle Dateien und alle Verzeichnisse für alle Robots zugänglich.

Daraus ergibt sich, dass mit "Disallow: /" alle Dateien gesperrt werden, da jeder Pfad mit "/" beginnt.

User-agent: *
Disallow: /images/
Mit der Nennung eines Verzeichnisses, welches wiederum von einem Slash (/) abgeschlossen ist, wird allen Robots der Zugang zu dem genannten Verzeichnis (z.B. images) verwehrt.

Daraus ergibt sich, dass mit "Disallow: /images/" das komplette Verzeichnis "images" gesperrt ist, da alle Dateien und Verzeichnisse darin mit "/images/" beginnen.

User-agent: *
Disallow; /lageplan.html
Disallow: /adresse.html
Durch die Nennung von Dateinamen können auch einzelne Webseiten von der Suche ausgeschlossen werden.

Daraus ergibt sich, dass z.B. mit "Disallow: /lageplan" sowohl das ganze Verzeichnis "lageplan" als auch eine Datei namens "lageplan.html" gesperrt ist, da beide Pfade "/lageplan" enthalten.

Eine Kombination all dieser Befehle ist natürlich möglich:

User-agent: Python-urllib
User-agent: CopyRightCheck
User-agent: Telesoft
Disallow; /anfahrt.html #Die Anfahrtsseite soll nicht in den Index aufgenommen werden
Kommentare werden per Doppelkreuz (#) vor dem Text gekennzeichnet