Unidentifizierter Crawler mit hoher Anzahl an Seitenaufrufen

Hallo zusammen!

Wenn wir uns die Seitenaufrufzahlen unseres Crawlers ansehen, scheint es einen nicht identifizierten Eintrag zu geben, der innerhalb eines Monats über 500.000 Seitenaufrufe generiert:

Gibt es eine einfache Möglichkeit herauszufinden, worum es sich dabei handeln könnte? Es scheint im Durchschnitt etwa 10.000 bis 15.000+ Treffer pro Tag zu ergeben.

Wenn Sie unser Hosting-E-Mail-Support nutzen, können wir das für Sie übernehmen.

Wir sind ein selbst gehostetes FLOSS-Projekt, also ist das wohl keine Option :slight_smile:

Ich weiß, dass ich dort weitere Filter einfügen könnte und unseren Infra-Mitarbeiter bitten könnte, sich mehr Logs anzusehen – ich habe mich einfach nur gefragt, ob das bei anderen schon einmal aufgetreten ist.

Überprüfen Sie die nginx-Protokolle (access.log) auf Anfragen mit diesem User-Agent und der jeweiligen IP-Adresse.

Ich habe mich gerade persönlich mit unserem leitenden SysAdmin getroffen und es herausgefunden. Es ist HAProxy, das alle 5 Sekunden einen Health-Check durchführt :joy:

Health-Checks sollten einen korrekten User-Agent setzen, damit dies nicht erneut passiert. Außerdem können Sie für Health-Checks die Route /srv/status verwenden.

„Ja, das sollte es – aber ich bin faul.“ – SysAdmin

Ich schaue mal, was ich tun kann. Danke!