Wie gehen hier selbstgehostete Betreiber mit schlechten Crawlern um?

Diese Diskussion lesen: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Ich frage mich, wie es für Leute ist, die Self-Hosting betreiben, praktisch nonstop mit Crawlern umzugehen, die DDoS-Angriffe durchführen, insbesondere bei Instanzen im Fediverse.

2 „Gefällt mir“

Ich denke, ein guter erster Schritt ist, für sich selbst zu quantifizieren, wie groß das Problem ist, indem Sie die „neue“ Seitenaufrufmetrik verwenden:

Wenn Sie etwa 60 % nicht menschlichen Datenverkehr sehen, ist das wahrscheinlich in Ordnung und Sie müssen keine Maßnahmen ergreifen.
Wenn es 95 % sind… ja, es ist vielleicht an der Zeit, mit der Untersuchung von Lösungen zu beginnen.

Das Festlegen von Blockierte Crawler-Benutzeragenten ist ein Freund des Administrators. Der Müllverkehr ist bei Discourse kein so großes Problem, da die Auslastung nicht so hoch ist. Aber ich habe eine Handvoll der schlimmsten gesperrt, weil ich ihr Geschäftsmodell wirklich nicht mag. Alle schreien darüber, wie KI-Unternehmen Inhalte stehlen, was sie tatsächlich tun, aber SEO-Unternehmen sind viel schlimmer – und ihre Bots sind wirklich gierig.

Aber ich benutze auch Geo-Blocking, weil ich es kann. Es gibt mindestens ein halbes Dutzend Länder, die Quellen für Betrüger und andere böswillige Akteure sind. Aber wenn ein Forum für ein globales Publikum ist, ist das natürlich nicht möglich.

Bei meinen WordPress-Sites wird dasselbe mit Nginx mithilfe von Varnish gemacht.

Im Moment ist das Verhältnis von Menschen zu Bots in meinem Forum etwa 50/50.

1 „Gefällt mir“

Übrigens, das Tag ist meiner Annahme nach nicht richtig.

Ich stimme zu, das KI-Tag hat ein Plugin-Symbol, daher gehe ich davon aus, dass es nur für das KI-Plugin gedacht ist. Ich habe es entfernt.

Crawler-Inhalte werden stark gecacht, daher habe ich noch nie gesehen, dass sie in der Praxis DDoS-Angriffe durchführen konnten.

Haben Sie tatsächlich Leistungsprobleme deswegen?

2 „Gefällt mir“