Einheitliche Useragents

Veröffentlicht am

Wenn man sich einmal die verschiedenen Useragents von bekannten Suchmaschinenbots anguckt dann sind diese zwar fast alle gleich aufgebaut, aber man kann sie leider nicht mit einem einzigen regulären Ausdruck matchen. Wenn man zum Beispiel mit einem Skript überprüfen möchte, ob der aktuelle Useragent ein Suchmaschinenbot ist, dann wird es immer anstrengend wenn man für jeden Suchmaschinenbot einen eigenen regulären Ausdruck erstellen muss.

XML-Datei mit Useragents von Suchmaschinenbots

Meine Idee wäre jetzt, dass eine einheitliche Kennung geschaffen wird, die die Suchmaschinenbots in ihren Useragent-Strings implementieren, so dass man diese alle mit einem einzigen regulären Ausdruck matchen kann. Man könnte zum Beispiel am Anfang des Strings die Zeichenkette [bot] oder [crawler] einsetzen. Wenn das zumindest von allen großen Suchmaschinen umgesetzt werden würde, dann könnte man diese alle schon mit einem einzigen regulären Ausdruck matchen.