Visiteurs Sombres

:information_source: Résumé Intègre le service Known Agents avec Discourse pour suivre les robots d’exploration et les scrapers indésirables visitant votre forum.
:hammer_and_wrench: Lien vers le dépôt \u003chttps://github.com/magicball-network/discourse-darkvisitors\u003e
:open_book: Guide d’installation Comment installer des plugins dans Discourse

:information_source: Depuis le 3 février 2026, le service Dark Visitors a été renommé Known Agents. Le plugin Discourse n’a pas été renommé.

Fonctionnalités

Known Agents est un service qui suit les agents (robots d’exploration, scrapers et autres types de bots) visitant vos sites web. Leur attention principale est portée sur l’analyse des agents IA.

Il propose deux services :

  • Génération et surveillance de robots.txt
  • Analyse des agents ; côté serveur et côté client

Le service robots.txt est gratuit. Les services d’analyse offrent un niveau gratuit. Je vous suggère de visiter leur site web pour plus d’informations.

Ce plugin Discourse se connecte à tous ces services, tous étant optionnels et configurables dans une certaine mesure.

Génération de robots.txt

Discourse fournit déjà une option pour configurer le robots.txt. Ce plugin l’étend. Lorsqu’il est activé, le plugin récupère une liste d’agents dans différentes catégories (actuellement seules les catégories IA sont prises en charge) et ceux qui sont manquants dans les agents déjà configurés, il les ajoutera. La liste sera mise à jour quotidiennement. De cette façon, lorsqu’un nouveau scrapper IA est reconnu, il sera ajouté à votre robots.txt.

Cette fonctionnalité ne fonctionne que si Discourse gère le robots.txt et que vous ne l’avez pas remplacé manuellement. Le plugin ne modifie pas le paramètre Blocked crawler user agents, il augmente les nouveaux agents manquants dans le robots.txt. Vous avez donc toujours le contrôle total de la gestion de cette liste.

Lorsque vous visitez le robots.txt de votre site, vous verrez un commentaire d’en-tête de la dernière mise à jour et le nombre d’agents renvoyés par Known Agents. Les agents non encore configurés sont ajoutés à la fin de la liste. Ils devraient se situer entre Googlebot et la directive sitemap (si configurée).

Analyse des agents

L’analyse côté serveur et côté client peuvent être activées individuellement. Elle peut être activée pour tous les visiteurs ou uniquement pour les visiteurs non authentifiés.

L’analyse côté serveur signale les visites suivies à Known Agents. Elle enverra le chemin de la requête, l’adresse distante du visiteur, l’en-tête User-Agent et quelques en-têtes de navigateur supplémentaires.

Il existe des paramètres supplémentaires pour les requêtes qui sont signalées, voir les paramètres ci-dessous. Par défaut, seules les requêtes que Discourse marque pour le suivi comme vues seront suivies. Les requêtes suivantes vers Discourse ne seront jamais signalées :

  • Requête vers la section Administration
  • Requêtes d’arrière-plan et d’API

L’analyse côté client est gérée en ajoutant un Javascript à votre page qui appelle le serveur de Known Agents dans certaines conditions :

  • Le navigateur semble être automatisé, ou un navigateur IA
  • L’utilisateur provient d’un service de chat IA

Toutes les requêtes suivies comptent pour les événements qui affectent votre plan de paiement.

Configuration

Vous devez vous inscrire auprès de Known Agents pour utiliser ce plugin. Le niveau gratuit vous donne 100 000 événements par mois. Lorsque cette limite est atteinte, vous ne verrez plus de nouveaux événements dans leur analyse, mais vous pouvez toujours envoyer de nouvelles informations et continuer à utiliser le service robots.txt.

Après vous être inscrit, vous devez créer un projet (c’est-à-dire un site à suivre). Cela vous fournira un jeton d’accès nécessaire pour la fonctionnalité robots.txt et l’analyse côté serveur.

Lorsque vous activez la fonctionnalité robots.txt, il faut un court instant avant qu’elle ne soit mise à jour. Visitez https://votre_site/robots.txt pour voir si cela fonctionne. Il devrait y avoir un commentaire en haut

# Augmenté par Dark Visitors le 2025-05-07T12:46:00+00:00 avec 28 agents

Lorsque vous activez l’analyse côté serveur, vous pouvez tester si elle fonctionne en demandant une visite test depuis les paramètres du projet de Known Agents. Cela peut prendre quelques secondes. Vous devriez voir le résultat sur la page Temps réel de Known Agents.

Paramètres

Nom Description
darkvisitors enabled Indicateur global pour activer l’ensemble du plugin
darkvisitors access token Le jeton d’accès secret nécessaire pour que le robots.txt et l’analyse côté serveur communiquent avec Known Agents. Vous le trouverez dans les paramètres de votre projet Known Agents sous settings.
darkvisitors robots txt enabled Lorsqu’il est activé, le robots.txt de Discourse sera augmenté avec des agents supplémentaires
darkvisitors robots txt agents Le type d’agents à ajouter au robots.txt.
darkvisitors robots txt path Le chemin auquel il faut refuser l’accès aux agents. Il est probablement préférable de laisser ceci à / afin que l’accès à l’ensemble du site soit refusé.
darkvisitors server analytics Active l’analyse côté serveur. Je recommande de ne l’activer que pour les utilisateurs anonymes.
darkvisitors server analytics include Requêtes supplémentaires à suivre. Vous pouvez également suivre les requêtes vers les fichiers téléchargés, ou même les requêtes 404 Not Found.
darkvisitors server analytics ignore Sous-chaînes dans les agents utilisateurs à ignorer (sensible à la casse). Si vous utilisez la surveillance de disponibilité (uptime monitoring), je suggère fortement d’inclure leur agent utilisateur identifiant dans cette liste.
darkvisitors client analytics Active l’analyse côté client. Cela vous donnera également un aperçu des utilisateurs normaux visitant votre forum alors qu’ils proviennent d’un service de chat IA.
darkvisitors client analytics project key Pour l’analyse côté client, vous devez configurer la clé de projet (publique). Vous la trouverez dans les paramètres de votre projet Known Agents dans la section JavaScript Tag, c’est le code après project_key=
5 « J'aime »

Merci pour cela, elmuerte ! Je l’ai configuré et cela fonctionne très bien.

Je vois que dans les paramètres du plugin, les types d’agents qui peuvent être sélectionnés pour exclusion via robots.txt sont :

  • AI Data Scraper [sélectionné par défaut]
  • Undocumented AI Agent [sélectionné par défaut]
  • AI Agent
  • AI Assistant
  • AI Search Crawler

Mais la liste complète des types d’agents Dark Visitors est :
(gras = supplémentaire)

Crawlers & Scrapers…

  • AI Assistant
  • AI Data Scraper
  • AI Search Crawler
  • Archiver
  • Developer Helper
  • Fetcher
  • Intelligence Gatherer
  • Scraper
  • Search Engine Crawler
  • Security Scanner
  • SEO Crawler
  • Uncategorized Agent
  • Undocumented AI Agent

AI Agents…

  • AI Agent
  • Headless Agent

Tous ces types d’agents ne sont pas nécessairement des choses que l’on voudrait bloquer, mais j’aimerais inclure quelques-uns comme Scraper, AI Data Scraper, SEO Crawler…

Ces types d’agents supplémentaires sont-ils simplement plus récents que votre plugin ? Pourraient-ils être ajoutés à la liste actuelle des choix dans settings.yml ?

Sauf que robots.txt n’est qu’une requête. Un bot la suit ou non. Le pare-feu est le seul moyen de les arrêter.

Oui, je comprends cela – mais comme Dark Visitors ne fonctionne qu’avec robots.txt, j’aimerais qu’il fonctionne aussi bien que possible.

(Je lis actuellement quelques publications où vous suggérez un blocage réel avec un proxy inverse Nginx, mais je ne suis pas sûr d’avoir besoin d’aller aussi loin pour l’instant.)

[quote=“ToddZ, post:6, topic:365158”]vous suggérez un blocage réel avec un proxy inverse Nginx, mais je ne suis pas sûr d’avoir besoin d’aller aussi loin pour le moment
[/quote]

C’est un peu extrême. Mais Dark Visitor devrait fonctionner avec la liste de bannissement de Discourse pour être utile à un certain niveau. Bien sûr, avec cela, vous n’avez pas besoin d’ajouter manuellement, par exemple, OpenAI ou autre chose qui suit le robots.txt.

J’ai contacté Dark Visitors à ce sujet le 3 mai de cette année, et leur réponse a été « Pas pour le moment ». Mais je vois que la documentation actuelle répertorie encore plus de types maintenant.

Pour le moment, les types suivants sont pris en charge par l’API Dark Visitors :

J’ai veillé à ce que le paramètre dans Discourse puisse être étendu avec des types d’agents supplémentaires en les ajoutant simplement.

Après avoir ajouté le nouveau type et enregistré le paramètre, le robots.txt devrait être mis à jour immédiatement avec tous les nouveaux agents.

1 « J'aime »

Oh mon Dieu, j’ai complètement manqué le champ « Rechercher ou créer ». Mon thème a un contraste très faible là-bas et il m’a échappé. Merci pour la clarification !