Wie gehen hier selbstgehostete Betreiber mit schlechten Crawlern um?

eisammy · 10. April 2025 um 16:02

Diese Diskussion lesen: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Ich frage mich, wie es für Leute ist, die Self-Hosting betreiben, praktisch nonstop mit Crawlern umzugehen, die DDoS-Angriffe durchführen, insbesondere bei Instanzen im Fediverse.

Bas · 11. April 2025 um 08:20

Ich denke, ein guter erster Schritt ist, für sich selbst zu quantifizieren, wie groß das Problem ist, indem Sie die „neue“ Seitenaufrufmetrik verwenden:

Wenn Sie etwa 60 % nicht menschlichen Datenverkehr sehen, ist das wahrscheinlich in Ordnung und Sie müssen keine Maßnahmen ergreifen.
Wenn es 95 % sind… ja, es ist vielleicht an der Zeit, mit der Untersuchung von Lösungen zu beginnen.

Jagster · 11. April 2025 um 08:57

Das Festlegen von Blockierte Crawler-Benutzeragenten ist ein Freund des Administrators. Der Müllverkehr ist bei Discourse kein so großes Problem, da die Auslastung nicht so hoch ist. Aber ich habe eine Handvoll der schlimmsten gesperrt, weil ich ihr Geschäftsmodell wirklich nicht mag. Alle schreien darüber, wie KI-Unternehmen Inhalte stehlen, was sie tatsächlich tun, aber SEO-Unternehmen sind viel schlimmer – und ihre Bots sind wirklich gierig.

Aber ich benutze auch Geo-Blocking, weil ich es kann. Es gibt mindestens ein halbes Dutzend Länder, die Quellen für Betrüger und andere böswillige Akteure sind. Aber wenn ein Forum für ein globales Publikum ist, ist das natürlich nicht möglich.

Bei meinen WordPress-Sites wird dasselbe mit Nginx mithilfe von Varnish gemacht.

Im Moment ist das Verhältnis von Menschen zu Bots in meinem Forum etwa 50/50.

Jagster · 11. April 2025 um 08:59

Übrigens, das Tag ist meiner Annahme nach nicht richtig.

RGJ · 11. April 2025 um 09:22

Ich stimme zu, das KI-Tag hat ein Plugin-Symbol, daher gehe ich davon aus, dass es nur für das KI-Plugin gedacht ist. Ich habe es entfernt.

Crawler-Inhalte werden stark gecacht, daher habe ich noch nie gesehen, dass sie in der Praxis DDoS-Angriffe durchführen konnten.

Haben Sie tatsächlich Leistungsprobleme deswegen?

Thema		Antworten	Aufrufe
Smarter handling of random crawler traffic Feature	2	3537	29. März 2018
Controlling Web Crawlers For a Site Site Management how-to	10	2469	19. Juli 2025
Too many Crawlers, is that a problem? Data & reporting	6	2534	25. Juni 2020
How to deal with sudden high “Other traffic” in site analytics? Support	8	235	28. August 2025
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4549	2. Dezember 2023

Wie gehen hier selbstgehostete Betreiber mit schlechten Crawlern um?

Verwandte Themen