Wenn wir uns die Seitenaufrufzahlen unseres Crawlers ansehen, scheint es einen nicht identifizierten Eintrag zu geben, der innerhalb eines Monats über 500.000 Seitenaufrufe generiert:
Gibt es eine einfache Möglichkeit herauszufinden, worum es sich dabei handeln könnte? Es scheint im Durchschnitt etwa 10.000 bis 15.000+ Treffer pro Tag zu ergeben.
Wir sind ein selbst gehostetes FLOSS-Projekt, also ist das wohl keine Option
Ich weiß, dass ich dort weitere Filter einfügen könnte und unseren Infra-Mitarbeiter bitten könnte, sich mehr Logs anzusehen – ich habe mich einfach nur gefragt, ob das bei anderen schon einmal aufgetreten ist.
Ich habe mich gerade persönlich mit unserem leitenden SysAdmin getroffen und es herausgefunden. Es ist HAProxy, das alle 5 Sekunden einen Health-Check durchführt
Health-Checks sollten einen korrekten User-Agent setzen, damit dies nicht erneut passiert. Außerdem können Sie für Health-Checks die Route /srv/status verwenden.