Visiteurs Sombres

:information_source: Résumé Intègre le service Dark Visitors à Discourse pour garder une trace des robots et des scrapers indésirables visitant votre forum.
:hammer_and_wrench: Lien du dépôt \u003chttps://github.com/magicball-network/discourse-darkvisitors\u003e
:open_book: Guide d’installation Comment installer des plugins dans Discourse

Fonctionnalités

Dark Visitors est un service qui garde une trace des agents (robots, scrapers et autres types de bots) visitant vos sites web. Leur attention principale est portée sur l’analyse des agents IA.

Il propose deux services :

  • Génération et surveillance de robots.txt
  • Analyse des agents ; côté serveur et côté client

Le service robots.txt est gratuit. Les services d’analyse offrent un niveau gratuit. Je vous suggère de visiter leur site web pour plus d’informations.

Ce plugin Discourse se connecte à tous ces services, tous optionnels et configurables dans une certaine mesure.

Génération de robots.txt

Discourse fournit déjà une option pour configurer le robots.txt. Ce plugin l’étend. Lorsqu’il est activé, le plugin récupère une liste d’agents dans différentes catégories (actuellement, seules les catégories IA sont prises en charge) et ceux qui sont manquants dans les agents déjà configurés, il les ajoutera. La liste sera mise à jour quotidiennement. Ainsi, lorsqu’un nouveau scraper IA est reconnu, il sera ajouté à votre robots.txt.

Cette fonctionnalité ne fonctionne que si Discourse gère le robots.txt et que vous ne l’avez pas remplacé manuellement. Le plugin ne modifie pas le paramètre Agents de robots bloqués, il augmente le robots.txt avec les nouveaux agents manquants. Vous avez donc toujours le contrôle total de la gestion de cette liste.

Lorsque vous visitez le robots.txt de votre site, vous verrez un commentaire en tête indiquant la dernière mise à jour et le nombre d’agents renvoyés par Dark Visitors. Les agents non encore configurés sont ajoutés à la fin de la liste. Ils devraient se trouver entre Googlebot et la directive sitemap (si configurée).

Analyse des agents

L’analyse côté serveur et côté client peut être activée individuellement. Elle peut être activée pour tous les visiteurs, ou uniquement pour les visiteurs non authentifiés.

L’analyse côté serveur signale les visites suivies à Dark Visitors. Elle enverra le chemin de la requête, l’adresse IP du visiteur, l’en-tête User-Agent et quelques autres en-têtes de navigateur.

Il existe des paramètres supplémentaires pour lesquels les requêtes sont signalées, voir les paramètres ci-dessous. Par défaut, seules les requêtes que Discourse marque pour le suivi des vues seront suivies. Les requêtes suivantes à Discourse ne seront jamais signalées :

  • Requêtes à la section Admin
  • Requêtes en arrière-plan et API

L’analyse côté client est gérée en ajoutant du Javascript à votre page qui contacte Dark Visitors dans certaines conditions :

  • Le navigateur semble être automatisé ou un navigateur IA
  • L’utilisateur provient d’un service de chat IA

Toutes les requêtes suivies comptent pour les événements qui affectent votre plan de paiement.

Configuration

Vous devez vous inscrire auprès de Dark Visitors afin d’utiliser ce plugin. Le niveau gratuit vous donne 1 000 000 d’événements par mois. Lorsque cette limite est atteinte, vous ne verrez plus d’événements récents dans leur analyse, mais vous pourrez toujours envoyer de nouvelles informations et continuer à utiliser le service robots.txt.

Après votre inscription, vous devez créer un projet (c’est-à-dire un site à suivre). Cela vous fournira un jeton d’accès nécessaire pour la fonctionnalité robots.txt et l’analyse côté serveur.

Lorsque vous activez la fonctionnalité robots.txt, il faut un peu de temps avant qu’elle ne soit mise à jour. Visitez https://votresite/robots.txt pour voir si cela fonctionne. Il devrait y avoir un commentaire en haut

# Augmenté par Dark Visitors le 2025-05-07T12:46:00+00:00 avec 28 agents

Lorsque vous activez l’analyse côté serveur, vous pouvez tester si cela fonctionne en demandant une visite de test depuis les paramètres du projet Dark Visitor. Cela peut prendre quelques secondes. Vous devriez voir le résultat sur la page Temps réel de Dark Visitors.

Paramètres

Nom Description
darkvisitors enabled Indicateur global pour activer l’ensemble du plugin
darkvisitors access token Le jeton d’accès secret nécessaire pour le robots.txt et l’analyse côté serveur afin de communiquer avec Dark Visitors. Vous le trouverez dans votre projet Dark Visitor sous paramètres.
darkvisitors robots txt enabled Lorsqu’il est activé, le robots.txt de Discourse sera augmenté avec des agents supplémentaires
darkvisitors robots txt agents Le type d’agents à ajouter au robots.txt.
darkvisitors robots txt path Le chemin auquel refuser l’accès aux agents. Il est probablement préférable de laisser cela à / afin que l’accès à l’ensemble du site soit refusé.
darkvisitors server analytics Active l’analyse côté serveur. Je recommande de ne l’activer que pour les utilisateurs anonymes.
darkvisitors server analytics include Requêtes supplémentaires à suivre. Vous pouvez également suivre les requêtes vers les fichiers téléchargés, ou même les requêtes 404 Not Found.
darkvisitors server analytics ignore Sous-chaînes dans les agents utilisateur à ignorer (sensible à la casse). Si vous utilisez la surveillance de disponibilité, je vous suggère fortement d’inclure leur agent utilisateur identificateur dans cette liste.
darkvisitors client analytics Active l’analyse côté client. Cela vous donnera également un aperçu des utilisateurs normaux visitant votre forum tout en venant d’un service de chat IA.
darkvisitors client analytics project key Pour l’analyse côté client, vous devez configurer la clé de projet (publique). Vous la trouverez dans les paramètres de votre projet Dark Visitors dans la section Balise JavaScript, c’est le code après project_key=
5 « J'aime »

Merci pour cela, elmuerte ! Je l’ai configuré et cela fonctionne très bien.

Je vois que dans les paramètres du plugin, les types d’agents qui peuvent être sélectionnés pour exclusion via robots.txt sont :

  • AI Data Scraper [sélectionné par défaut]
  • Undocumented AI Agent [sélectionné par défaut]
  • AI Agent
  • AI Assistant
  • AI Search Crawler

Mais la liste complète des types d’agents Dark Visitors est :
(gras = supplémentaire)

Crawlers & Scrapers…

  • AI Assistant
  • AI Data Scraper
  • AI Search Crawler
  • Archiver
  • Developer Helper
  • Fetcher
  • Intelligence Gatherer
  • Scraper
  • Search Engine Crawler
  • Security Scanner
  • SEO Crawler
  • Uncategorized Agent
  • Undocumented AI Agent

AI Agents…

  • AI Agent
  • Headless Agent

Tous ces types d’agents ne sont pas nécessairement des choses que l’on voudrait bloquer, mais j’aimerais inclure quelques-uns comme Scraper, AI Data Scraper, SEO Crawler…

Ces types d’agents supplémentaires sont-ils simplement plus récents que votre plugin ? Pourraient-ils être ajoutés à la liste actuelle des choix dans settings.yml ?

Sauf que robots.txt n’est qu’une requête. Un bot la suit ou non. Le pare-feu est le seul moyen de les arrêter.

Oui, je comprends cela – mais comme Dark Visitors ne fonctionne qu’avec robots.txt, j’aimerais qu’il fonctionne aussi bien que possible.

(Je lis actuellement quelques publications où vous suggérez un blocage réel avec un proxy inverse Nginx, mais je ne suis pas sûr d’avoir besoin d’aller aussi loin pour l’instant.)

[quote=“ToddZ, post:6, topic:365158”]vous suggérez un blocage réel avec un proxy inverse Nginx, mais je ne suis pas sûr d’avoir besoin d’aller aussi loin pour le moment
[/quote]

C’est un peu extrême. Mais Dark Visitor devrait fonctionner avec la liste de bannissement de Discourse pour être utile à un certain niveau. Bien sûr, avec cela, vous n’avez pas besoin d’ajouter manuellement, par exemple, OpenAI ou autre chose qui suit le robots.txt.

J’ai contacté Dark Visitors à ce sujet le 3 mai de cette année, et leur réponse a été « Pas pour le moment ». Mais je vois que la documentation actuelle répertorie encore plus de types maintenant.

Pour le moment, les types suivants sont pris en charge par l’API Dark Visitors :

J’ai veillé à ce que le paramètre dans Discourse puisse être étendu avec des types d’agents supplémentaires en les ajoutant simplement.

Après avoir ajouté le nouveau type et enregistré le paramètre, le robots.txt devrait être mis à jour immédiatement avec tous les nouveaux agents.

1 « J'aime »

Oh mon Dieu, j’ai complètement manqué le champ « Rechercher ou créer ». Mon thème a un contraste très faible là-bas et il m’a échappé. Merci pour la clarification !