Ce guide explique comment gérer les robots d’exploration web sur votre site Discourse.
Niveau d’utilisateur requis : Administrateur
Les robots d’exploration web peuvent avoir un impact significatif sur les performances de votre site en augmentant les pages vues et la charge du serveur.
Lorsqu’un site remarque une augmentation soudaine de ses pages vues, il est important de vérifier comment les robots d’exploration web s’y intègrent.
Vérification de l’activité des robots d’exploration
Pour voir si les robots d’exploration affectent votre site, accédez au rapport Trafic du site (/admin/reports/site_traffic) depuis votre tableau de bord d’administration. Ce rapport détaille le nombre de pages vues provenant des utilisateurs de navigateur connectés, des utilisateurs de navigateur anonymes, des robots d’exploration et d’autres sources.
Un site où les robots d’exploration fonctionnent normalement :
Un site où les robots d’exploration sont hors de contrôle :
Identification des robots d’exploration spécifiques
Accédez au rapport User Agent des Robots d’Exploration Web (/admin/reports/web_crawlers) pour trouver une liste des noms de robots d’exploration web triés par nombre de pages vues.
Lorsqu’un robot d’exploration web problématique frappe le site, le nombre de ses pages vues sera bien supérieur à celui des autres robots d’exploration web. Notez qu’il peut y avoir un certain nombre de robots d’exploration web malveillants à l’œuvre en même temps.
Blocage et limitation des robots d’exploration
C’est une bonne pratique de ne pas bloquer les robots d’exploration des principaux moteurs de recherche, tels que Google, Bing, Baidu (chinois), Yandex (russe), Naver (coréen), DuckDuckGo, Yahoo et d’autres, en fonction de votre pays.
Lorsqu’un robot d’exploration web devient incontrôlable, il y a de fortes chances que le même robot ait visité d’autres sites et que quelqu’un d’autre ait déjà demandé des informations ou créé des rapports à son sujet qui seront utiles pour déterminer s’il faut limiter ou bloquer ce robot d’exploration particulier.
Notez que certains robots d’exploration peuvent générer un grand nombre de pages vues si vous utilisez des services tiers pour surveiller ou ajouter des fonctionnalités à votre site via des scripts, etc.
Pour obtenir une liste des robots d’exploration web non fiables, vous pouvez consulter cette liste, https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Ajustement des paramètres des robots d’exploration
Dans Admin > Paramètres, il existe quelques réglages qui peuvent aider à limiter le débit de certains robots d’exploration :
-
Ralentir les robots d’exploration en utilisant :
slow down crawler user agents— par défaut, cela inclutgptbot,claudebot,anthropic-ai, etbrightbotslow down crawler rate— le nombre de secondes entre les requêtes autorisées par robot d’exploration (défaut : 60)
-
Bloquer les robots d’exploration avec :
blocked crawler user agents— par défaut, cela inclutmauibot,semrushbot,ahrefsbot,blexbot, etseo spider
-
Autoriser uniquement des robots d’exploration spécifiques avec :
allowed crawler user agents— lorsqu’il est défini, seuls les robots d’exploration listés seront autorisés à accéder au site ; tous les autres seront bloqués. Cela agit comme une liste d’autorisation stricte. Avertissement : la définition de ceci remplacerablocked crawler user agentset bloquera tous les robots d’exploration qui ne sont pas sur la liste, y compris les principaux moteurs de recherche s’ils ne sont pas inclus.
Assurez-vous de connaître le nom d’agent utilisateur exact pour les robots d’exploration que vous souhaitez contrôler. Si vous ajustez l’un des paramètres ci-dessus et que vous ne constatez pas de réduction des pages vues de cet agent, vous voudrez peut-être vérifier que vous utilisez le bon nom.
En cas de doute sur la marche à suivre, commencez toujours par l’option « ralentir » plutôt que par un blocage complet. Vérifiez au fil du temps s’il y a des améliorations. Vous pouvez procéder à un blocage complet si vous ne constatez pas de résultats appréciables.


