Comment les hébergés en autopartage gèrent-ils les mauvais bots ?

Lecture de ce fil : Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Je me demande ce que cela implique pour les personnes qui auto-hébergent de gérer les robots d’exploration qui font pratiquement du DDoS sans arrêt, en particulier sur les instances du Fediverse.

2 « J'aime »

Je pense qu’une bonne première étape consiste à quantifier par vous-même l’ampleur du problème en utilisant la métrique « nouvelles » vues de page :

Si vous constatez environ 60 % de trafic non humain, c’est probablement acceptable et vous n’avez pas besoin d’agir.
Si c’est 95 %… oui, il est peut-être temps de commencer à rechercher des solutions.

Définir les User-agents des robots bloqués est l’ami de l’administrateur. Le trafic indésirable n’est pas un si gros problème avec Discourse car la charge n’est pas si lourde. Mais j’ai banni une poignée des pires car je déteste vraiment leur modèle économique. Tout le monde se plaint que les entreprises d’IA volent du contenu, ce qu’elles font effectivement, mais les entreprises de référencement sont bien pires — et leurs robots sont vraiment gourmands.

Mais j’utilise aussi le géo-blocage, parce que je le peux. Il y a au moins une demi-douzaine de pays qui sont des sources de fraudeurs et d’autres acteurs malveillants. Mais si un forum s’adresse à un public mondial, ce n’est pas possible, bien sûr.

Avec mes sites WordPress, la même chose est faite en utilisant Nginx avec l’aide de Varnish.

Pour le moment, le ratio humains/robots est d’environ 50/50 sur mon forum.

1 « J'aime »

Au fait, l’étiquette n’est pas correcte, je suppose.

Je suis d’accord, la balise IA a une icône de plugin, donc je suppose qu’elle est destinée uniquement au plugin IA. Je l’ai supprimée.

Le contenu des robots est fortement mis en cache, donc en pratique, je n’ai jamais vu qu’ils soient capables de faire du déni de service distribué.

Rencontrez-vous réellement des problèmes de performance à cause de cela ?

5 « J'aime »

J’aimerais pouvoir dire que j’ai une solution gratuite, ou qui n’implique aucun service externe. J’ai placé mon plus grand forum derrière le CDN de bunny.net. Ils ont un niveau gratuit généreux. Mais pour ce forum, je paie les 10 $/mois pour obtenir leur service de sécurité. Il me permet de bloquer les robots d’exploration, les attaques DDoS et géographiquement. En matière de CDN, ils sont vraiment peu coûteux mais efficaces, et ils ne sont pas CloudFlare. Beaucoup de personnes sur le fediverse leur donnent une note élevée.

J’ai un graphique de leur service Shield. (Je suis un noob, seulement 1 graphique par réponse :slight_smile: ) Dans le premier, il y avait 484K connexions de bots sur 2M de connexions au total. Je venais de passer au CDN et je n’avais activé aucun filtrage ni blocage. Le suivant montre 11K bots, et 90K bloqués en raison des listes d’accès (je bloque la Chine et la Russie et peut-être quelques autres). Donc, cela représente environ 100K de bots sur un total de 700K requêtes cette semaine-là.

Après :

2 « J'aime »

J’étais, mais j’ai mis en place des règles pour le gérer.

Chandler Bing: 'Yeah, but I'm so much faster'

Cloudflare a toujours été sympa avec moi et je n’ai jamais eu à payer pour des services anti-bots. Cela, ainsi que leurs nouveautés comme l’anti-IA, est excellent et ce qui fait que je reste client et leur partisan, je suppose. Vous ne voulez pas que des robots d’aspiration d’IA volent vos données ? Il suffit d’utiliser l’une de leurs règles gérées (étant donné qu’il est tout à fait possible d’utiliser simplement un fichier robotstxt normal comme je le fais sur mon site)

.. contre une règle gérée générique, bien mieux..

Que ces startups écoutent et respectent réellement le fichier ou non est une autre histoire, mais bravo à elles d’essayer au moins. Aucun de mes sites n’a eu de problèmes avec les robots par le passé et je suis toujours ravi de la possibilité de bloquer directement les exploits courants de WordPress après avoir lu mes journaux.

1 « J'aime »

Facebook (meta) a fait quelque chose de similaire, si je désactive le « contrôle des robots d’IA », meta effectue simplement 9K requêtes par heure, donc la seule façon est de toutes les bloquer.

Sur le fediverse, je n’ai pas eu ces problèmes depuis un certain temps, mais j’attends plus de mises à jour activitypub car même si je n’ai eu aucun problème avec cela, ma bande passante sera affectée pour rien.


Absolument correct, j’utilise un serveur lemmy qui utilise CF et leur administrateur a publié ce tutoriel


Même ici, mes règles actuelles sont :

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

Et basé sur ce serveur lemmy ci-dessus :

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

Pour moi, c’est suffisant

Ces règles m’ont aidé à traverser un DDos (je ne sais pas si c’était le cas) le mois dernier

Ce n’est pas l’endroit pour discuter des mérites de CloudFlare, mais mon problème avec eux n’est pas les braves gens comme vous. Mon problème avec eux, c’est toutes les mauvaises personnes avec qui ils sont parfaitement disposés à faire des affaires. Toute personne dans le monde de la cybersécurité qui combat les logiciels malveillants et les réseaux de robots voit CloudFlare apparaître souvent. De même, toute personne qui combat les extrémistes en ligne sait à quelle fréquence CloudFlare protégera des sites extrémistes alors que d’autres fournisseurs ne le feront pas. Ce n’est pas qu’ils sont inefficaces ou trop chers. C’est le manque de morale dans le choix de leur clientèle.

2 « J'aime »