Ce guide explique comment gérer les robots d’exploration sur votre site Discourse.
Niveau d’utilisateur requis : Administrateur
Les robots d’exploration peuvent avoir un impact significatif sur les performances de votre site en augmentant le nombre de pages vues et la charge du serveur.
Lorsque vous constatez une augmentation du nombre de pages vues sur votre site, il est important de vérifier la part des robots d’exploration dans ces statistiques.
Vérifier l’activité des robots d’exploration
Pour savoir si les robots d’exploration affectent votre site, accédez au rapport Vues de page consolidées (/admin/reports/consolidated_page_views) depuis votre tableau de bord d’administration. Ce rapport détaille le nombre de pages vues par les utilisateurs connectés, les utilisateurs anonymes et les robots d’exploration.
Un site où les robots d’exploration fonctionnent normalement :
Un site où les robots d’exploration sont hors de contrôle :
Identifier les robots d’exploration spécifiques
Accédez au rapport User Agent des robots d’exploration web (/admin/reports/web_crawlers) pour trouver une liste des noms de robots d’exploration triés par nombre de pages vues.
Lorsqu’un robot d’exploration problématique accède au site, le nombre de ses pages vues sera beaucoup plus élevé que celui des autres robots d’exploration. Notez qu’un certain nombre de robots d’exploration malveillants peuvent être actifs en même temps.
Bloquer et limiter les robots d’exploration
Il est conseillé de ne pas bloquer les robots d’exploration des principaux moteurs de recherche, tels que Google, Bing, Baidu (chinois), Yandex (russe), Naver (coréen), DuckDuckGo, Yahoo et autres, en fonction de votre pays.
Lorsqu’un robot d’exploration est hors de contrôle, il y a de fortes chances que le même robot ait accédé à d’autres sites et que quelqu’un d’autre ait déjà demandé des informations ou créé des rapports à son sujet, ce qui sera utile pour déterminer s’il faut limiter ou bloquer ce robot d’exploration particulier.
Notez que certains robots d’exploration peuvent générer un grand nombre de pages vues si vous utilisez des services tiers pour surveiller ou ajouter des fonctionnalités à votre site via des scripts, etc.
Pour obtenir un enregistrement des robots d’exploration peu fiables, vous pouvez consulter cette liste : https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Ajuster les paramètres des robots d’exploration
Sous Admin > Paramètres, vous trouverez quelques paramètres qui peuvent aider à limiter le débit de certains robots d’exploration :
-
Ralentir les robots d’exploration en utilisant :
slow down crawler user agentsslow down crawler rate
-
Bloquer les robots d’exploration avec :
blocked crawler user agents
Assurez-vous de connaître le nom exact de l’agent utilisateur pour les robots d’exploration que vous souhaitez contrôler. Si vous ajustez l’un des paramètres ci-dessus et que vous ne constatez pas de réduction du nombre de pages vues de cet agent, vous voudrez peut-être vérifier que vous utilisez le bon nom.
En cas de doute sur la marche à suivre, commencez toujours par l’option “ralentir” plutôt que par un blocage complet. Vérifiez au fil du temps s’il y a des améliorations. Vous pouvez procéder à un blocage complet si vous ne constatez pas de résultats appréciables.


