Ich frage mich, wie es für Leute ist, die Self-Hosting betreiben, praktisch nonstop mit Crawlern umzugehen, die DDoS-Angriffe durchführen, insbesondere bei Instanzen im Fediverse.
Ich denke, ein guter erster Schritt ist, für sich selbst zu quantifizieren, wie groß das Problem ist, indem Sie die „neue“ Seitenaufrufmetrik verwenden:
Wenn Sie etwa 60 % nicht menschlichen Datenverkehr sehen, ist das wahrscheinlich in Ordnung und Sie müssen keine Maßnahmen ergreifen.
Wenn es 95 % sind… ja, es ist vielleicht an der Zeit, mit der Untersuchung von Lösungen zu beginnen.
Das Festlegen von Blockierte Crawler-Benutzeragenten ist ein Freund des Administrators. Der Müllverkehr ist bei Discourse kein so großes Problem, da die Auslastung nicht so hoch ist. Aber ich habe eine Handvoll der schlimmsten gesperrt, weil ich ihr Geschäftsmodell wirklich nicht mag. Alle schreien darüber, wie KI-Unternehmen Inhalte stehlen, was sie tatsächlich tun, aber SEO-Unternehmen sind viel schlimmer – und ihre Bots sind wirklich gierig.
Aber ich benutze auch Geo-Blocking, weil ich es kann. Es gibt mindestens ein halbes Dutzend Länder, die Quellen für Betrüger und andere böswillige Akteure sind. Aber wenn ein Forum für ein globales Publikum ist, ist das natürlich nicht möglich.
Bei meinen WordPress-Sites wird dasselbe mit Nginx mithilfe von Varnish gemacht.
Im Moment ist das Verhältnis von Menschen zu Bots in meinem Forum etwa 50/50.