Je me demande ce que cela implique pour les personnes qui auto-hébergent de gérer les robots d’exploration qui font pratiquement du DDoS sans arrêt, en particulier sur les instances du Fediverse.
Je pense qu’une bonne première étape consiste à quantifier par vous-même l’ampleur du problème en utilisant la métrique « nouvelles » vues de page :
Si vous constatez environ 60 % de trafic non humain, c’est probablement acceptable et vous n’avez pas besoin d’agir.
Si c’est 95 %… oui, il est peut-être temps de commencer à rechercher des solutions.
Définir les User-agents des robots bloqués est l’ami de l’administrateur. Le trafic indésirable n’est pas un si gros problème avec Discourse car la charge n’est pas si lourde. Mais j’ai banni une poignée des pires car je déteste vraiment leur modèle économique. Tout le monde se plaint que les entreprises d’IA volent du contenu, ce qu’elles font effectivement, mais les entreprises de référencement sont bien pires — et leurs robots sont vraiment gourmands.
Mais j’utilise aussi le géo-blocage, parce que je le peux. Il y a au moins une demi-douzaine de pays qui sont des sources de fraudeurs et d’autres acteurs malveillants. Mais si un forum s’adresse à un public mondial, ce n’est pas possible, bien sûr.
Avec mes sites WordPress, la même chose est faite en utilisant Nginx avec l’aide de Varnish.
Pour le moment, le ratio humains/robots est d’environ 50/50 sur mon forum.