Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

simon · Juillet 7, 2023, 5:31

OpenAI a utilisé quelques ensembles de données pour entraîner ses modèles. L’ensemble de données qui semble le plus susceptible d’inclure du contenu Discourse est une version filtrée de l’ensemble de données Common Crawl. Voir la section 2.2 de ce document pour plus de détails : https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utilise la chaîne d’agent utilisateur CCBot/2.0 lors du parcours d’un site.

Si vous souhaitez que votre site Discourse reste accessible au public, mais que vous empêchiez son contenu d’être ajouté à l’ensemble de données Common Crawl à l’avenir, vous pouvez ajouter CCBot au paramètre blocked crawler user agents de votre site Discourse. Notez qu’il pourrait y avoir un inconvénient à bloquer l’agent utilisateur Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content) :

De nombreux ensembles de données, y compris Common Crawl, pourraient être utilisés par des entreprises qui filtrent et catégorisent les URL afin de créer des listes de sites Web à cibler avec de la publicité.

L’utilisation par Discourse du paramètre blocked crawler user agents se trouve ici : discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Notez que Common Crawl respecte les règles du fichier robots.txt, il pourrait donc également être bloqué en ajoutant la règle suivante au fichier :

User-agent: CCBot
Disallow: /

Les plugins ChatGPT utilisent l’agent utilisateur ChatGPT-User lorsqu’ils effectuent des requêtes au nom des utilisateurs. Cet agent utilisateur n’est pas utilisé pour parcourir le Web afin de créer des ensembles de données d’entraînement : https://platform.openai.com/docs/plugins/bot. Cet agent utilisateur pourrait également être bloqué en l’ajoutant au paramètre blocked crawler user agents (ou en ajoutant une règle Disallow au fichier robots.txt).

Comme d’autres l’ont noté, le moyen le plus fiable d’empêcher votre site d’être utilisé pour entraîner des LLM serait d’empêcher l’accès anonyme au site en activant le paramètre de site login required. Pour renforcer davantage la sécurité du site, des mesures pourraient être prises pour augmenter la probabilité que les utilisateurs de votre site soient humains et non des bots. Une approche possible serait d’intégrer un service comme Gitcoin Passport au système d’authentification du site. Je crois qu’un plugin Gitcoin Passport open source pour Discourse sera bientôt développé.

Il peut y avoir d’autres moyens moins techniques d’augmenter la probabilité que les utilisateurs du site soient humains. Par exemple, le site pourrait être configuré sur invite only et des mesures pourraient être prises pour s’assurer que vous n’invitez que des utilisateurs dont vous avez des raisons de croire qu’ils sont humains sur le site.

Je trouve la philosophie derrière tout cela super intéressante, mais je n’approfondirai pas dans ce sujet.

Sujet		Réponses	Vues
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	8766	Février 13, 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1968	Août 23, 2025
Discourse is Agent Ready: Here’s How Blog	9	495	Mai 24, 2026
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1711	Novembre 20, 2025
Is there any AI at the core of standard Discourse? Support	15	1654	Mai 31, 2023

Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

Sujets connexes