Forums qui interdisent le contenu IA... Comment ça se passe ?

J’aimerais beaucoup entendre les expériences des responsables de forums qui n’autorisent pas les contenus générés par l’IA ou les LLM. Comment avez-vous réussi à communiquer cette consigne aux utilisateurs ? Comment détectez-vous ces contenus ? Comment abordez-vous les utilisateurs qui en publient malgré tout ?

Tous vos retours sont les bienvenus.

Note : Personnellement, je ne m’intéresse qu’à l’aspect humain des interactions en front-end sur le site. Je suppose que bloquer les robots d’indexation est une cause perdue.

Notre forum est dédié aux discussions spirituelles et religieuses. Nous bannissons tout contenu généré par l’IA.

6 « J'aime »

La plupart, voire la totalité, des textes générés par l’IA se laissent facilement détecter à la simple lecture. La technologie SynthID de Google est intéressante pour détecter les images générées par l’IA et elle prétend pouvoir détecter le texte, probablement uniquement celui écrit par Gemini, mais OpenAI prend également en charge la norme. La capacité à détecter soi-même ce type de texte est probablement une compétence acquise, mais j’apprécie les travaux menés pour répondre à la crise actuelle que nous traversons, à savoir l’incapacité de détecter les images ou les textes générés par l’IA.

À mon avis, le silence (muting) et les suspensions restent la meilleure approche, surtout si le compte est récent. Si un nouveau compte arrive sur votre site et publie instantanément un sujet généré par l’IA, je ne vois aucune raison de ne pas simplement suspendre ce compte et de le bloquer.

En ce qui concerne le dilemme du scraping : mon site est actuellement destiné à la communication interne et à la documentation au sein d’une petite entreprise, et je prévois à terme de l’utiliser comme backend pour un blog. Il n’a pas été difficile de mettre en place un leurre (honeypot) pour dissuader les robots d’indexation qui choisissent d’ignorer les fichiers robots.txt de mes domaines.

Cette seule stratégie a entraîné quelque 6 MILLIONS de requêtes en l’espace de deux semaines (environ 6 requêtes/seconde vers le domaine) :

Chaque fois qu’un robot d’IA visite ce site, il est dirigé vers un labyrinthe infini de spam grâce au projet iocaine auto-hébergé, qui utilise un jeu de données d’environ 7 000 mots inventés, du HTML bidon, des mots aléatoires et des fausses nouvelles générées par un Llama 8B.

Évidemment, il s’agit d’une tactique nucléaire du type “dégagez”, qui ne convient pas à tout le monde, mais elle a été très efficace pour moi dans mon objectif d’empêcher les LLM de récupérer mon code ou mon contenu textuel. Je me souviens avoir lu une étude de cas réalisée par Anthropic sur l’empoisonnement des LLM, mais je ne retrouve plus l’article, donc je ne le joins pas ici. Cependant, il est certain qu’ils devront bientôt bloquer mon domaine lorsqu’ils réaliseront que leur bot a envoyé environ 5 millions de requêtes vers mon domaine récemment.

4 « J'aime »

(Je remarque que nous mettons de côté la question de la charge des robots d’exploration, des robots qui récupèrent du contenu pour l’entraînement, ainsi que des conséquences sociales et économiques des développements rapides actuels. C’est une bonne chose.)

Pour ma part, sur un site de loisir à faible volume :

  • nous essayons de nous mettre d’accord et de formuler une politique écrite
  • nous traitons les problèmes au fur et à mesure qu’ils se présentent
  • les exemples les plus flagrants sont essentiellement du spam, nous les supprimons donc et bannissons les auteurs
  • sinon, nous faisons des remontrances, peut-être publiquement et peut-être en privé, et nous pouvons supprimer des messages

Une forme suggérée de guide pourrait ressembler à ceci :

  • « Assumer la responsabilité » du contenu des messages que vous publiez (c’est-à-dire lire et comprendre, et ne pas copier-coller aveuglément du contenu, peu importe sa source).
  • Tenter de répondre à vos propres questions dans la mesure du possible avant de créer de nouveaux sujets (par exemple, en recherchant dans le forum).
  • Communiquer les détails de manière concise afin que les autres utilisateurs puissent lire et comprendre pour pouvoir aider, c’est-à-dire éviter les longs murs de texte répétitifs ou hors sujet, ou des déclarations trop générales sans informations suffisantes.
  • Garder les discussions sur le sujet, éviter les discussions méta (en particulier autour de l’utilisation de l’IA, qu’il s’agisse de « meilleures pratiques » ou de « son éthique »).
  • Garder les conversations respectueuses et rappelez-vous que nous avons des utilisateurs avec des origines, des points de vue et des opinions différents.
  • Amusez-vous ! Ceci est censé être un loisir.

(Dans notre environnement de loisir, il y a un angle supplémentaire, à savoir l’utilisation des LLM au sein du loisir, ce qui couvre un spectre de possibilités et compte à la fois des enthousiastes et des détracteurs.)

3 « J'aime »