Wie gehen hier selbstgehostete Betreiber mit schlechten Crawlern um?

Diese Diskussion lesen: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Ich frage mich, wie es für Leute ist, die Self-Hosting betreiben, praktisch nonstop mit Crawlern umzugehen, die DDoS-Angriffe durchführen, insbesondere bei Instanzen im Fediverse.

2 „Gefällt mir“

Ich denke, ein guter erster Schritt ist, für sich selbst zu quantifizieren, wie groß das Problem ist, indem Sie die „neue“ Seitenaufrufmetrik verwenden:

Wenn Sie etwa 60 % nicht menschlichen Datenverkehr sehen, ist das wahrscheinlich in Ordnung und Sie müssen keine Maßnahmen ergreifen.
Wenn es 95 % sind… ja, es ist vielleicht an der Zeit, mit der Untersuchung von Lösungen zu beginnen.

Das Festlegen von Blockierte Crawler-Benutzeragenten ist ein Freund des Administrators. Der Müllverkehr ist bei Discourse kein so großes Problem, da die Auslastung nicht so hoch ist. Aber ich habe eine Handvoll der schlimmsten gesperrt, weil ich ihr Geschäftsmodell wirklich nicht mag. Alle schreien darüber, wie KI-Unternehmen Inhalte stehlen, was sie tatsächlich tun, aber SEO-Unternehmen sind viel schlimmer – und ihre Bots sind wirklich gierig.

Aber ich benutze auch Geo-Blocking, weil ich es kann. Es gibt mindestens ein halbes Dutzend Länder, die Quellen für Betrüger und andere böswillige Akteure sind. Aber wenn ein Forum für ein globales Publikum ist, ist das natürlich nicht möglich.

Bei meinen WordPress-Sites wird dasselbe mit Nginx mithilfe von Varnish gemacht.

Im Moment ist das Verhältnis von Menschen zu Bots in meinem Forum etwa 50/50.

1 „Gefällt mir“

Übrigens, das Tag ist meiner Annahme nach nicht richtig.

Ich stimme zu, das KI-Tag hat ein Plugin-Symbol, daher gehe ich davon aus, dass es nur für das KI-Plugin gedacht ist. Ich habe es entfernt.

Crawler-Inhalte werden stark gecacht, daher habe ich noch nie gesehen, dass sie in der Praxis DDoS-Angriffe durchführen konnten.

Haben Sie tatsächlich Leistungsprobleme deswegen?

5 „Gefällt mir“

Ich wünschte, ich könnte sagen, ich hätte eine kostenlose Lösung oder eine, die keinen externen Dienst beinhaltet. Ich habe mein größtes Forum hinter das CDN von bunny.net gelegt. Sie haben eine großzügige kostenlose Stufe. Aber für dieses Forum zahle ich die 10 $/Monat für ihren Sicherheitsdienst. Er ermöglicht es mir, Crawler, DDoS und geografisch zu blockieren. Was CDNs angeht, sind sie wirklich billig, aber effektiv, und sie sind nicht CloudFlare. Viele Leute im Fediverse bewerten sie hoch.

Ich habe ein Diagramm ihres Shield-Dienstes. (Ich bin ein n00b, nur 1 Diagramm pro Antwort :slight_smile: ) Im ersten gab es 484.000 Bot-Verbindungen von insgesamt 2 Millionen Verbindungen. Ich war gerade zum CDN gewechselt und hatte noch keine Filterung oder Blockierung aktiviert. Das nächste zeigt 11.000 Bots und 90.000 blockiert aufgrund von Zugriffslisten (ich blockiere China und Russland und vielleicht noch ein paar andere). Das sind also ungefähr 100.000 von Bots bei insgesamt 700.000 Anfragen in dieser Woche.

Danach:

2 „Gefällt mir“

Ich war es, aber ich habe einige Regeln aufgestellt, um damit umzugehen.

Chandler Bing: „Ja, aber ich bin so viel schneller“

Cloudflare war schon immer nett zu mir und ich musste nie für Anti-Bot-Dienste bezahlen. Das und ihre neueren Funktionen wie Anti-KI sind großartig und halten mich als Kunden und wahrscheinlich als ihren Fan. Möchten Sie nicht, dass KI-Scraper Ihre Daten stehlen? Verwenden Sie einfach eine ihrer verwalteten Regeln (obwohl es durchaus möglich ist, dies wie ich auf meiner Website mit der normalen robotstxt zu tun)

.. im Vergleich zu einer generischen verwalteten, viel besser..

Ob diese Start-ups die Datei tatsächlich lesen und respektieren, steht auf einem anderen Blatt, aber es ist gut, dass sie es zumindest versuchen. Keine meiner Websites hatte in der Vergangenheit Probleme mit Bots und ich bin immer noch wiederholt zufrieden mit der Möglichkeit, gängige WordPress-Exploits direkt dort zu blockieren, nachdem ich meine Protokolle gelesen habe.

1 „Gefällt mir“

Facebook (Meta) hat etwas Ähnliches getan: Wenn ich „KI-Crawler-Kontrolle“ deaktiviere, macht Meta einfach 9.000 Anfragen pro Stunde, also ist die einzige Möglichkeit, sie alle zu blockieren.

Im Fediverse habe ich diese Probleme schon seit einer Weile nicht mehr, aber ich warte auf weitere Updates zu activitypub, denn selbst wenn ich keine Probleme damit hatte, würde meine Bandbreite unnötigerweise beeinträchtigt werden.


Absolut richtig, ich benutze einen Lemmy-Server, der CF (Cloudflare) verwendet, und deren Administrator hat dieses Tutorial gepostet:


Dasselbe gilt für mich, meine aktuellen Regeln lauten:

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

Und basierend auf diesem Lemmy-Server oben:

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

Für mich reicht das aus.

Diese Regeln haben mir geholfen, letzten Monat einen DDoS (ich weiß nicht genau, ob es einer war) zu überstehen.

Dies ist nicht der Ort, um die Vorzüge von CloudFlare wirklich zu diskutieren, aber mein Problem mit ihnen sind nicht nette Leute wie Sie. Mein Problem mit ihnen sind all die schlechten Leute, mit denen sie vollkommen bereit sind, Geschäfte zu machen. Jeder in der Cybersicherheitswelt, der gegen Malware und Botnetze kämpft, sieht CloudFlare oft auftauchen. Ebenso weiß jeder, der online gegen Extremisten kämpft, wie oft CloudFlare extremistische Seiten schützt, wo andere Anbieter es nicht tun würden. Es liegt nicht daran, dass sie ineffektiv oder zu teuer sind. Es ist der Mangel an Moral bei der Auswahl ihrer Kunden.

2 „Gefällt mir“