Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

OpenAI a utilisé quelques ensembles de données pour entraîner ses modèles. L’ensemble de données qui semble le plus susceptible d’inclure du contenu Discourse est une version filtrée de l’ensemble de données Common Crawl. Voir la section 2.2 de ce document pour plus de détails : https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utilise la chaîne d’agent utilisateur CCBot/2.0 lors du parcours d’un site.

Si vous souhaitez que votre site Discourse reste accessible au public, mais que vous empêchiez son contenu d’être ajouté à l’ensemble de données Common Crawl à l’avenir, vous pouvez ajouter CCBot au paramètre blocked crawler user agents de votre site Discourse. Notez qu’il pourrait y avoir un inconvénient à bloquer l’agent utilisateur Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content) :

De nombreux ensembles de données, y compris Common Crawl, pourraient être utilisés par des entreprises qui filtrent et catégorisent les URL afin de créer des listes de sites Web à cibler avec de la publicité.

L’utilisation par Discourse du paramètre blocked crawler user agents se trouve ici : discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Notez que Common Crawl respecte les règles du fichier robots.txt, il pourrait donc également être bloqué en ajoutant la règle suivante au fichier :

User-agent: CCBot
Disallow: /

Les plugins ChatGPT utilisent l’agent utilisateur ChatGPT-User lorsqu’ils effectuent des requêtes au nom des utilisateurs. Cet agent utilisateur n’est pas utilisé pour parcourir le Web afin de créer des ensembles de données d’entraînement : https://platform.openai.com/docs/plugins/bot. Cet agent utilisateur pourrait également être bloqué en l’ajoutant au paramètre blocked crawler user agents (ou en ajoutant une règle Disallow au fichier robots.txt).

Comme d’autres l’ont noté, le moyen le plus fiable d’empêcher votre site d’être utilisé pour entraîner des LLM serait d’empêcher l’accès anonyme au site en activant le paramètre de site login required. Pour renforcer davantage la sécurité du site, des mesures pourraient être prises pour augmenter la probabilité que les utilisateurs de votre site soient humains et non des bots. Une approche possible serait d’intégrer un service comme Gitcoin Passport au système d’authentification du site. Je crois qu’un plugin Gitcoin Passport open source pour Discourse sera bientôt développé.

Il peut y avoir d’autres moyens moins techniques d’augmenter la probabilité que les utilisateurs du site soient humains. Par exemple, le site pourrait être configuré sur invite only et des mesures pourraient être prises pour s’assurer que vous n’invitez que des utilisateurs dont vous avez des raisons de croire qu’ils sont humains sur le site.

Je trouve la philosophie derrière tout cela super intéressante, mais je n’approfondirai pas dans ce sujet.

15 « J'aime »