Am 14. September 2017 haben wir eine überarbeitete Fassung unserer Datenschutzrichtlinie veröffentlicht. Wenn Sie video2brain.com weiterhin nutzen, erklären Sie sich mit diesem überarbeiteten Dokument einverstanden. Bitte lesen Sie es deshalb sorgfältig durch.

HTML-Tipps für Webentwickler: Jede Woche neu

Crawling der Suchmaschinen steuern

LinkedIn Learning kostenlos und unverbindlich testen!

Jetzt testen Alle Abonnements anzeigen
Unabhängig davon, ob es sich bei Ihrem Projekt um eine "große" Website handelt oder eine "kleine", Sie einen Webshop aufsetzen wollen oder einen privaten Blog betreuen – eines haben alle Webseiten gemeinsam: die Basis ist HTML. Profitieren Sie in dieser praktischen Tipps&Tricks-Sammlung von der jahrelangen Erfahrung der Trainerin Florence Maurice, die Ihnen unbekannte Features nahe bringt, zur Übersicht über die einzelnen Versionen verhilft oder oftmals nur mit kleinen, pfiffigen Hinweisen Ihren Alltag als Webdesigner und -programmierer erleichtert.
04:26
  Lesezeichen setzen

Transkript

Standardmäßig nehmen Suchmaschinen einzelne Seiten in ihren Index auf und folgen den Links. Ob und wie das geschehen soll, können Sie über meta-Angaben exakt steuern und dabei beispielsweise auch gezielt bestimmte Suchmaschinen-Crawler ansprechen. Über Meta-Angaben können Sie die Indizierung durch Suchmaschinen verhindern, wenn Sie beispielsweise bei einer Seite schreiben meta name="robots" content="noindex", dann wird die angegebene Seite nicht von Suchmaschinen indiziert. "Robots" richtet sich an alle Suchmaschinen, Sie können stattdessen aber zum Beispiel auch "Googlebot" schreiben, dann richtet sich das nur an den Crwaler von Google. Also wenn ich hier angebe "googlebot", dann meine ich nur den Crwaler von Google. Sie können bei Google dann auch unterschiedliche Crawaler ansprechen beispielsweise Googlebot-News oder Googlebot-Image, oder Googlebot-Video etcetera. Neben "noindex" existieren eine Reihe von weiteren möglichen Werten für Content. "Nofollow" bedeutet, dass durch diese Angabe die Links nicht verfolgt werden. Das Gegenteil erreichen Sie über "follow". "Follow" ist der Standard. "Noodp" verhindert, dass die alternative Beschreibung von Verzeichnissen wie "odp dmoz" benutzt wird. "Noarchive", weil es Suchmaschinen an kein Link auf die zwischengespeicherte gecachete Version anzuzeigen. "Nosnippet" verhindert, das ein snippet dieser Seite in Suchergebnissen angezeigt wird. Sie sehen da hinter auch angegeben. Für welche Suchmaschinen das jeweils gilt? "Noimageindex" ist die richtige Angabe, wenn die Seite nicht als refferer Seite für ein Bild angezeigt werden soll. Es wird ebenfalls von Google unterstützt. Und "nocache" ist ein Synonume zu "noarchive". Für Google gibt es noch weitere Angaben, wie "notranslate". Dann wird keine Übersetzung dieser Seite angeboten. Und mit "unavailable_after" können Sie angeben ab wann eine Seite nicht mehr untersucht und gecrawlt werden soll. Mehrere Angaben können Sie zusammenfassen, in dem sie Sie durch Komma trennen, also zum Beispiel "noindex, nofollow". Diese Steuerung über Meta-Angaben ist nur eine mögliche Steuerung. Dazu gibt es alternativen. So können Sie diese Einstellung auch über eine im Stammverzeichnis abgespeicherte robots.txt Datei vornehmen. Der Vorteil besteht dann darin, dass ich damit das ganze Verzeichnisse ausschließen lasse beispielsweise folgender Massen. Sie können einfach sagen der Googlebot-Image soll nicht berücksichtigen das Verzeichnis "personal". Die andere Alternative besteht im Einsatz eines HTTP-Headers über das sogenannte X-Robots-Tag. Da können Sie, im Gegensatz zu den Meta-Angaben, auch ausgewählte Dateientypen angeben und beispielsweise kann das dann so aussehen in einer htaccess-Datei, dass Sie sagen, alle PDF-Dokumente für die soll gelten "noindex, nofollow". Es gibt also mehrere Möglichkeiten das Crawel durch Suchmaschinen zu steuern. Sie können Meta-Angaben nutzen, Sie können eine externe robots.txt-Datei verwenden oder mit dem X-Robots-Tag arbeiten. Und außerdem haben Sie in dem Film auch gesehen, dass es Möglichkeiten gibt, gezielt bestimmte Crawele anzusprechen, also zum Beispiel nur den Googlebot, der Bilder aufnimmt.