Comment les hébergés en autopartage gèrent-ils les mauvais bots ?

eisammy · Avril 10, 2025, 4:02

Lecture de ce fil : Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Je me demande ce que cela implique pour les personnes qui auto-hébergent de gérer les robots d’exploration qui font pratiquement du DDoS sans arrêt, en particulier sur les instances du Fediverse.

Bas · Avril 11, 2025, 8:20

Je pense qu’une bonne première étape consiste à quantifier par vous-même l’ampleur du problème en utilisant la métrique « nouvelles » vues de page :

Si vous constatez environ 60 % de trafic non humain, c’est probablement acceptable et vous n’avez pas besoin d’agir.
Si c’est 95 %… oui, il est peut-être temps de commencer à rechercher des solutions.

Jagster · Avril 11, 2025, 8:57

Définir les User-agents des robots bloqués est l’ami de l’administrateur. Le trafic indésirable n’est pas un si gros problème avec Discourse car la charge n’est pas si lourde. Mais j’ai banni une poignée des pires car je déteste vraiment leur modèle économique. Tout le monde se plaint que les entreprises d’IA volent du contenu, ce qu’elles font effectivement, mais les entreprises de référencement sont bien pires — et leurs robots sont vraiment gourmands.

Mais j’utilise aussi le géo-blocage, parce que je le peux. Il y a au moins une demi-douzaine de pays qui sont des sources de fraudeurs et d’autres acteurs malveillants. Mais si un forum s’adresse à un public mondial, ce n’est pas possible, bien sûr.

Avec mes sites WordPress, la même chose est faite en utilisant Nginx avec l’aide de Varnish.

Pour le moment, le ratio humains/robots est d’environ 50/50 sur mon forum.

Jagster · Avril 11, 2025, 8:59

Au fait, l’étiquette n’est pas correcte, je suppose.

RGJ · Avril 11, 2025, 9:22

Je suis d’accord, la balise IA a une icône de plugin, donc je suppose qu’elle est destinée uniquement au plugin IA. Je l’ai supprimée.

Le contenu des robots est fortement mis en cache, donc en pratique, je n’ai jamais vu qu’ils soient capables de faire du déni de service distribué.

Rencontrez-vous réellement des problèmes de performance à cause de cela ?

Sujet		Réponses	Vues
Smarter handling of random crawler traffic Feature	2	3538	Mars 29, 2018
Controlling Web Crawlers For a Site Site Management how-to	10	2472	Juillet 19, 2025
Too many Crawlers, is that a problem? Data & reporting	6	2534	Juin 25, 2020
How to deal with sudden high “Other traffic” in site analytics? Support	8	238	Août 28, 2025
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4550	Décembre 2, 2023

Comment les hébergés en autopartage gèrent-ils les mauvais bots&nbsp;?

Sujets connexes

Comment les hébergés en autopartage gèrent-ils les mauvais bots ?