Google etabliert das Robots Exclusion Protocol
Das Robots Exclusion Protocol (REP) oder auch robots.txt feiert 25. Geburtstag und soll in diesem Zuge zum Internet-Standard werden. Das Protokoll ermöglich Webmastern, also Webseiten-Betreibern, selbst zu entscheiden auf welche Inhalte und Seiten und vor allem in welchem Umfang Crawler zugreifen dürfen.
Was bedeutet robots.txt?
Robots.txt ist eine Datei, die bestimmt auf welche Seite Webcrawler zuerst gelenkt werden. Diese Datei wird meist im Stammverzeichnis einer Webseite positioniert. Webcrawler sind dabei suchmaschineneigene Technologien, die selbstständig arbeiten und sogenannte „Pings“ suchen, um diese im eigenen Index zu verzeichnen und so bei Suchanfragen sinngemäß auszugeben – quasi selbstdenkende Algorithmen. Pins sind die Nachrichten, also Inhalte, die ein Webmaster – im besten Fall SEO spezifiziert – ausgeben möchte.
Ziel ist das Protokoll mit einer offiziellen Gültigkeit bei der Internet Engineering Task Force (IETF) zu besetzen und so als finalen Internet-Standard zu implementieren. Dies soll Webmastern den Umgang mit Pings und Crawler vereinfachen, da eine einheitliche Sprache verwendet wird, die weniger Fehlerbehaftung zulässt.
Dabei ist robots.txt nicht auf http begrenzt, sondern kann auch bei FTP oder CoAP eingesetzt werden. Jedoch ist die Dokumentgröße für den reibungslosen Crawl entscheidend: Eine definierte maximale Dokumentengröße, soll für verkürzte Verbindungen sorgen.
Undefinierte oder nicht gestützte Regeln können für Google in Zukunft nicht mehr genutzt werden.
Google möchte den eigenen robots.txt Parser als Open Source zur Verfügung stellen. Ein in der Open-Source-Version integriertes Test-Tool ermöglicht Entwicklern die direkte Prüfung des eingebetteten und zugeordneten Dokuments.
Warum ist das robots.txt sinnvoll?
Google nutzer- und entwicklerfreundlicher gestalten und vor allem die Mitgestaltung der meist genutzten Suchmaschine der Welt ermöglichen: Das ist das Ziel von Google. Das Robots Exclusion Protocol als Standard soll Google bestmögliche Crawling-Ergebnisse liefern und so das moderne Web kontrollierter gestalten.
Quellen: onlinemarketing.de | onlinemarketing.de | ryte.com | github.com