Google bringt robots.txt als Internet-Standard

Datum: 03.07.2019 Autor: Katarina Kategorie: Google

Google bringt robots.txt als Internet-Standard

Google liebt es Geburtstage zu nutzen, um wichtige Neuigkeiten zu verkünden. So wurde zum 25. Geburtstag von Robots Exclusion Protocol (REP) oder auch robots.txt bekanntgegeben, dass Googles robots.txt zum Internet Standard werden soll.

Robots.txt ermöglicht es, einen User Agent und Regeln zu definieren, die dafür sorgen, dass der Crawler nur in dem Umfang auf die Webseite zugreift, wie der Webmaster es erlaubt. Robots.txt kann demnach für eine einzige URL, eine ganze Webseite oder nur bestimmte Elemente funktionieren. Zum 25. Geburtstag hat Google preisgegeben, dass über 500 Millionen Webseiten dieses Protokoll nutzen. Die Elemente „disallow“, „allow“ und „user agent“ werden am häufigsten genutzt. Aber auch solche Regeln wie „learn emotion“ werden verwendet.

Nun ist es soweit und das Protokoll soll als formaler Internet-Standard gelten, da die Entwickler über Jahre das Protokoll unterschiedlich interpretiert haben. Google bemerkt auch, dass Ausnahmefälle nicht abgedeckt werden. Somit ist es für die Webmaster problematisch, die Regeln im Protokoll immer richtig zu schreiben. Deshalb wurde die Nutzung der robots.txt dokumentiert und an die IETF gesendet.

Die Regeln, die im Jahr 1994 festgelegt wurden, bleiben weiterhin unverändert. Jedoch sollen undefinierte Fälle beim robots.txt Parsing und Matching vereinheitlicht dargestellt werden. Außerdem wird das Protokoll auf das moderne Web angepasst. Zu den Änderungen gehören folgende:

Auf robots.txt kann jegliches URI-basiertes Transfer-Protokoll zurückgreifen. Es ist also nicht auf http begrentzt und kann auch bei FTP oder CoAP eingesetzt werden.
Seitenbetreiber haben durch eine maximale Caching-Zeit von 24 Stunden mehr Flexibilität, um ihr Protokoll zu ändern. Crawler überladen dann die Seiten nicht mit robots.txt Anfragen. Cach Control Header können im http Kontext dafür sorgen, die Caching Zeit zu definieren.
Wenn ein zuvor zugängliches robots.txt Element nicht mehr verfügbar ist, werden Seiten, die als „disallowed“ markiert sind, für eine Zeitspanne nicht gecrawlt.

Außerdem hat Google bekannt gegeben, dass undokumentierte oder nicht unterstützte Regeln nicht mehr genutzt werden können.

Durch die Standardisierung möchte Google den Webmastern und Entwicklern mehr Kontrolle über die Informationen einräumen, die sie dem Googlebot anvertrauen möchten. Die Veränderung sollte auch langfristing bessere Crawling Ergebnisse ermöglichen.