Ich frage mich, wie es für Leute ist, die Self-Hosting betreiben, praktisch nonstop mit Crawlern umzugehen, die DDoS-Angriffe durchführen, insbesondere bei Instanzen im Fediverse.
Ich denke, ein guter erster Schritt ist, für sich selbst zu quantifizieren, wie groß das Problem ist, indem Sie die „neue“ Seitenaufrufmetrik verwenden:
Wenn Sie etwa 60 % nicht menschlichen Datenverkehr sehen, ist das wahrscheinlich in Ordnung und Sie müssen keine Maßnahmen ergreifen.
Wenn es 95 % sind… ja, es ist vielleicht an der Zeit, mit der Untersuchung von Lösungen zu beginnen.
Das Festlegen von Blockierte Crawler-Benutzeragenten ist ein Freund des Administrators. Der Müllverkehr ist bei Discourse kein so großes Problem, da die Auslastung nicht so hoch ist. Aber ich habe eine Handvoll der schlimmsten gesperrt, weil ich ihr Geschäftsmodell wirklich nicht mag. Alle schreien darüber, wie KI-Unternehmen Inhalte stehlen, was sie tatsächlich tun, aber SEO-Unternehmen sind viel schlimmer – und ihre Bots sind wirklich gierig.
Aber ich benutze auch Geo-Blocking, weil ich es kann. Es gibt mindestens ein halbes Dutzend Länder, die Quellen für Betrüger und andere böswillige Akteure sind. Aber wenn ein Forum für ein globales Publikum ist, ist das natürlich nicht möglich.
Bei meinen WordPress-Sites wird dasselbe mit Nginx mithilfe von Varnish gemacht.
Im Moment ist das Verhältnis von Menschen zu Bots in meinem Forum etwa 50/50.
Ich wünschte, ich könnte sagen, ich hätte eine kostenlose Lösung oder eine, die keinen externen Dienst beinhaltet. Ich habe mein größtes Forum hinter das CDN von bunny.net gelegt. Sie haben eine großzügige kostenlose Stufe. Aber für dieses Forum zahle ich die 10 $/Monat für ihren Sicherheitsdienst. Er ermöglicht es mir, Crawler, DDoS und geografisch zu blockieren. Was CDNs angeht, sind sie wirklich billig, aber effektiv, und sie sind nicht CloudFlare. Viele Leute im Fediverse bewerten sie hoch.
Ich habe ein Diagramm ihres Shield-Dienstes. (Ich bin ein n00b, nur 1 Diagramm pro Antwort ) Im ersten gab es 484.000 Bot-Verbindungen von insgesamt 2 Millionen Verbindungen. Ich war gerade zum CDN gewechselt und hatte noch keine Filterung oder Blockierung aktiviert. Das nächste zeigt 11.000 Bots und 90.000 blockiert aufgrund von Zugriffslisten (ich blockiere China und Russland und vielleicht noch ein paar andere). Das sind also ungefähr 100.000 von Bots bei insgesamt 700.000 Anfragen in dieser Woche.
Cloudflare war schon immer nett zu mir und ich musste nie für Anti-Bot-Dienste bezahlen. Das und ihre neueren Funktionen wie Anti-KI sind großartig und halten mich als Kunden und wahrscheinlich als ihren Fan. Möchten Sie nicht, dass KI-Scraper Ihre Daten stehlen? Verwenden Sie einfach eine ihrer verwalteten Regeln (obwohl es durchaus möglich ist, dies wie ich auf meiner Website mit der normalen robotstxt zu tun)
Ob diese Start-ups die Datei tatsächlich lesen und respektieren, steht auf einem anderen Blatt, aber es ist gut, dass sie es zumindest versuchen. Keine meiner Websites hatte in der Vergangenheit Probleme mit Bots und ich bin immer noch wiederholt zufrieden mit der Möglichkeit, gängige WordPress-Exploits direkt dort zu blockieren, nachdem ich meine Protokolle gelesen habe.
Facebook (Meta) hat etwas Ähnliches getan: Wenn ich „KI-Crawler-Kontrolle“ deaktiviere, macht Meta einfach 9.000 Anfragen pro Stunde, also ist die einzige Möglichkeit, sie alle zu blockieren.
Im Fediverse habe ich diese Probleme schon seit einer Weile nicht mehr, aber ich warte auf weitere Updates zu activitypub, denn selbst wenn ich keine Probleme damit hatte, würde meine Bandbreite unnötigerweise beeinträchtigt werden.
Dies ist nicht der Ort, um die Vorzüge von CloudFlare wirklich zu diskutieren, aber mein Problem mit ihnen sind nicht nette Leute wie Sie. Mein Problem mit ihnen sind all die schlechten Leute, mit denen sie vollkommen bereit sind, Geschäfte zu machen. Jeder in der Cybersicherheitswelt, der gegen Malware und Botnetze kämpft, sieht CloudFlare oft auftauchen. Ebenso weiß jeder, der online gegen Extremisten kämpft, wie oft CloudFlare extremistische Seiten schützt, wo andere Anbieter es nicht tun würden. Es liegt nicht daran, dass sie ineffektiv oder zu teuer sind. Es ist der Mangel an Moral bei der Auswahl ihrer Kunden.