Je me demande ce que cela implique pour les personnes qui auto-hébergent de gérer les robots d’exploration qui font pratiquement du DDoS sans arrêt, en particulier sur les instances du Fediverse.
Je pense qu’une bonne première étape consiste à quantifier par vous-même l’ampleur du problème en utilisant la métrique « nouvelles » vues de page :
Si vous constatez environ 60 % de trafic non humain, c’est probablement acceptable et vous n’avez pas besoin d’agir.
Si c’est 95 %… oui, il est peut-être temps de commencer à rechercher des solutions.
Définir les User-agents des robots bloqués est l’ami de l’administrateur. Le trafic indésirable n’est pas un si gros problème avec Discourse car la charge n’est pas si lourde. Mais j’ai banni une poignée des pires car je déteste vraiment leur modèle économique. Tout le monde se plaint que les entreprises d’IA volent du contenu, ce qu’elles font effectivement, mais les entreprises de référencement sont bien pires — et leurs robots sont vraiment gourmands.
Mais j’utilise aussi le géo-blocage, parce que je le peux. Il y a au moins une demi-douzaine de pays qui sont des sources de fraudeurs et d’autres acteurs malveillants. Mais si un forum s’adresse à un public mondial, ce n’est pas possible, bien sûr.
Avec mes sites WordPress, la même chose est faite en utilisant Nginx avec l’aide de Varnish.
Pour le moment, le ratio humains/robots est d’environ 50/50 sur mon forum.
J’aimerais pouvoir dire que j’ai une solution gratuite, ou qui n’implique aucun service externe. J’ai placé mon plus grand forum derrière le CDN de bunny.net. Ils ont un niveau gratuit généreux. Mais pour ce forum, je paie les 10 $/mois pour obtenir leur service de sécurité. Il me permet de bloquer les robots d’exploration, les attaques DDoS et géographiquement. En matière de CDN, ils sont vraiment peu coûteux mais efficaces, et ils ne sont pas CloudFlare. Beaucoup de personnes sur le fediverse leur donnent une note élevée.
J’ai un graphique de leur service Shield. (Je suis un noob, seulement 1 graphique par réponse ) Dans le premier, il y avait 484K connexions de bots sur 2M de connexions au total. Je venais de passer au CDN et je n’avais activé aucun filtrage ni blocage. Le suivant montre 11K bots, et 90K bloqués en raison des listes d’accès (je bloque la Chine et la Russie et peut-être quelques autres). Donc, cela représente environ 100K de bots sur un total de 700K requêtes cette semaine-là.
Cloudflare a toujours été sympa avec moi et je n’ai jamais eu à payer pour des services anti-bots. Cela, ainsi que leurs nouveautés comme l’anti-IA, est excellent et ce qui fait que je reste client et leur partisan, je suppose. Vous ne voulez pas que des robots d’aspiration d’IA volent vos données ? Il suffit d’utiliser l’une de leurs règles gérées (étant donné qu’il est tout à fait possible d’utiliser simplement un fichier robotstxt normal comme je le fais sur mon site)
Que ces startups écoutent et respectent réellement le fichier ou non est une autre histoire, mais bravo à elles d’essayer au moins. Aucun de mes sites n’a eu de problèmes avec les robots par le passé et je suis toujours ravi de la possibilité de bloquer directement les exploits courants de WordPress après avoir lu mes journaux.
Facebook (meta) a fait quelque chose de similaire, si je désactive le « contrôle des robots d’IA », meta effectue simplement 9K requêtes par heure, donc la seule façon est de toutes les bloquer.
Sur le fediverse, je n’ai pas eu ces problèmes depuis un certain temps, mais j’attends plus de mises à jour activitypub car même si je n’ai eu aucun problème avec cela, ma bande passante sera affectée pour rien.
Ce n’est pas l’endroit pour discuter des mérites de CloudFlare, mais mon problème avec eux n’est pas les braves gens comme vous. Mon problème avec eux, c’est toutes les mauvaises personnes avec qui ils sont parfaitement disposés à faire des affaires. Toute personne dans le monde de la cybersécurité qui combat les logiciels malveillants et les réseaux de robots voit CloudFlare apparaître souvent. De même, toute personne qui combat les extrémistes en ligne sait à quelle fréquence CloudFlare protégera des sites extrémistes alors que d’autres fournisseurs ne le feront pas. Ce n’est pas qu’ils sont inefficaces ou trop chers. C’est le manque de morale dans le choix de leur clientèle.