Forums qui interdisent le contenu IA... Comment ça se passe ?

one1 · Juin 19, 2026, 3:00

J’aimerais beaucoup entendre les expériences des responsables de forums qui n’autorisent pas les contenus générés par l’IA ou les LLM. Comment avez-vous réussi à communiquer cette consigne aux utilisateurs ? Comment détectez-vous ces contenus ? Comment abordez-vous les utilisateurs qui en publient malgré tout ?

Tous vos retours sont les bienvenus.

Note : Personnellement, je ne m’intéresse qu’à l’aspect humain des interactions en front-end sur le site. Je suppose que bloquer les robots d’indexation est une cause perdue.

Notre forum est dédié aux discussions spirituelles et religieuses. Nous bannissons tout contenu généré par l’IA.

darkpixlz · Juin 19, 2026, 4:43

La plupart, voire la totalité, des textes générés par l’IA se laissent facilement détecter à la simple lecture. La technologie SynthID de Google est intéressante pour détecter les images générées par l’IA et elle prétend pouvoir détecter le texte, probablement uniquement celui écrit par Gemini, mais OpenAI prend également en charge la norme. La capacité à détecter soi-même ce type de texte est probablement une compétence acquise, mais j’apprécie les travaux menés pour répondre à la crise actuelle que nous traversons, à savoir l’incapacité de détecter les images ou les textes générés par l’IA.

À mon avis, le silence (muting) et les suspensions restent la meilleure approche, surtout si le compte est récent. Si un nouveau compte arrive sur votre site et publie instantanément un sujet généré par l’IA, je ne vois aucune raison de ne pas simplement suspendre ce compte et de le bloquer.

En ce qui concerne le dilemme du scraping : mon site est actuellement destiné à la communication interne et à la documentation au sein d’une petite entreprise, et je prévois à terme de l’utiliser comme backend pour un blog. Il n’a pas été difficile de mettre en place un leurre (honeypot) pour dissuader les robots d’indexation qui choisissent d’ignorer les fichiers robots.txt de mes domaines.

Cette seule stratégie a entraîné quelque 6 MILLIONS de requêtes en l’espace de deux semaines (environ 6 requêtes/seconde vers le domaine) :

Chaque fois qu’un robot d’IA visite ce site, il est dirigé vers un labyrinthe infini de spam grâce au projet iocaine auto-hébergé, qui utilise un jeu de données d’environ 7 000 mots inventés, du HTML bidon, des mots aléatoires et des fausses nouvelles générées par un Llama 8B.

Évidemment, il s’agit d’une tactique nucléaire du type “dégagez”, qui ne convient pas à tout le monde, mais elle a été très efficace pour moi dans mon objectif d’empêcher les LLM de récupérer mon code ou mon contenu textuel. Je me souviens avoir lu une étude de cas réalisée par Anthropic sur l’empoisonnement des LLM, mais je ne retrouve plus l’article, donc je ne le joins pas ici. Cependant, il est certain qu’ils devront bientôt bloquer mon domaine lorsqu’ils réaliseront que leur bot a envoyé environ 5 millions de requêtes vers mon domaine récemment.

Ed_S · Juin 19, 2026, 8:24

(Je remarque que nous mettons de côté la question de la charge des robots d’exploration, des robots qui récupèrent du contenu pour l’entraînement, ainsi que des conséquences sociales et économiques des développements rapides actuels. C’est une bonne chose.)

Pour ma part, sur un site de loisir à faible volume :

nous essayons de nous mettre d’accord et de formuler une politique écrite
nous traitons les problèmes au fur et à mesure qu’ils se présentent
les exemples les plus flagrants sont essentiellement du spam, nous les supprimons donc et bannissons les auteurs
sinon, nous faisons des remontrances, peut-être publiquement et peut-être en privé, et nous pouvons supprimer des messages

Une forme suggérée de guide pourrait ressembler à ceci :

« Assumer la responsabilité » du contenu des messages que vous publiez (c’est-à-dire lire et comprendre, et ne pas copier-coller aveuglément du contenu, peu importe sa source).
Tenter de répondre à vos propres questions dans la mesure du possible avant de créer de nouveaux sujets (par exemple, en recherchant dans le forum).
Communiquer les détails de manière concise afin que les autres utilisateurs puissent lire et comprendre pour pouvoir aider, c’est-à-dire éviter les longs murs de texte répétitifs ou hors sujet, ou des déclarations trop générales sans informations suffisantes.
Garder les discussions sur le sujet, éviter les discussions méta (en particulier autour de l’utilisation de l’IA, qu’il s’agisse de « meilleures pratiques » ou de « son éthique »).
Garder les conversations respectueuses et rappelez-vous que nous avons des utilisateurs avec des origines, des points de vue et des opinions différents.
Amusez-vous ! Ceci est censé être un loisir.

(Dans notre environnement de loisir, il y a un angle supplémentaire, à savoir l’utilisation des LLM au sein du loisir, ce qui couvre un spectre de possibilités et compte à la fois des enthousiastes et des détracteurs.)

robbie.morrison · Juin 26, 2026, 9:18

Cet exemple ne concerne pas Discourse, mais les questions de politique et de gouvernance se chevaucheraient certainement.

Les versions anglaise et allemande de Wikipédia disposent désormais de ce que je qualifierais de politiques extrêmes de pureté vis-à-vis de l’IA. En tant qu’éditeur avec 16 ans d’expérience, j’ai été à tort accusé d’avoir ajouté du contenu généré par l’IA à un article que j’avais principalement rédigé. Et le processus visant à obtenir réparation a été éprouvant. Cela inclut le dépôt de plaintes formelles auprès du comité ArbCom de Wikipédia EN et de l’équipe Confiance et sécurité de la Fondation Wikimedia (WMF TST) — rejetées sommairement ou refusées sans motif, respectivement, jusqu’à présent.

Je ne souhaite pas relater mes expériences ici, en partie parce qu’elles sont toujours en cours. Cependant, j’encourage les lecteurs à examiner cet échange extraordinaire concernant l’article Wikipédia EN sur Fern Cave, un site d’importance culturelle pour le peuple Modoc de Californie :

https://en.wikipedia.org/wiki/User_talk:Gurkubondinn/Archives/2026#No_LLM_Mark_on_fern_caves.

L’auteur en question a dû nier avoir utilisé l’IA quatre fois. Ses connaissances autochtones ont également été dévalorisées dans le processus. L’éditeur qui fait respecter les règles conclut par une remarque qui ressemble à une préoccupation, mais qui peut tout aussi bien être interprétée comme une menace voilée de sanctions si l’auteur ne cède pas.

De telles tactiques psychologiques sont régulièrement déployées par les éditeurs chargés de faire respecter les règles, et je dispose de preuves d’autres exemples.

Si vous examinez le balisage source dans ce même échange, vous découvrirez un piège « honeypot » avec font-size: 0pt conçu pour détecter l’utilisation de l’IA par l’auteur accusé lors de la rédaction de ses réponses. Ce piège n’a pas été déclenché.

Il existe des rapports crédibles selon lesquels plusieurs éditeurs ont abandonné Wikipédia DE après avoir été « injustement attaqués » pour leur présumée utilisation d’outils d’IA.

Pour répondre à la question initiale posée dans ce sujet, je soutiens que Wikipédia EN et DE échouent lamentablement dans leur gouvernance de multiples façons dans leurs tentatives de gérer le contenu généré par l’IA. J’ai documenté trois études de cas dans mon récent rapport de 17 pages adressé à l’équipe WMF TST. Je pourrais bien rendre ce PDF public en temps voulu ?

robbie.morrison · Juin 26, 2026, 9:33

Je suis fermement en désaccord, au vu de mon expérience sur Wikipédia en anglais (détaillée ailleurs sur ce sujet). Je suggère que cette approche relève surtout de la pseudoscience mêlée à de l’orgueil. Plus significativement, une telle détection est impossible à réfuter — et en effet, les administrateurs de Wikipédia qui l’imposent, souvent en concertation, s’enferment simplement dans leurs positions face aux contestations.

L’éditeur accusé se retrouve avec un renversement de la charge de la preuve et des accusations qui ne sont tout simplement pas falsifiables — même en présence des preuves les plus convaincantes du contraire. La justice naturelle s’évapore. Ce n’est pas le genre de gouvernance communautaire qui fonctionne habituellement.

Je le sais. J’ai été soumis à ce processus de première main. C’est laid. Il doit y avoir une meilleure façon de faire.

RGJ · Juin 26, 2026, 9:39

Des lectures pertinentes, en particulier le deuxième article, m’ont ouvert les yeux lorsque je les ai lues pour la première fois. Je pense que cela s’applique aussi en partie à vous, @robbie.morrison. Certaines personnes écrivent simplement ainsi.

Et j’en suis venu à cette affirmation : Je n’écris pas comme ChatGPT. ChatGPT, de son étrangeté, de sa nature disembodied et globalement issue, écrit comme moi. Ou, plus précisément, il écrit comme des millions d’entre nous qui ont été poussés à travers un pipeline éducatif et sociétal très particulier, un pipeline délibérément conçu pour lisser l’ambiguïté et façonner nos pensées dans une forme très spécifique, très formelle et très impressionnante.

one1 · Juin 26, 2026, 9:52

Oui, les préjugés à l’encontre des locuteurs non natifs de l’anglais sont l’une de mes plus grandes préoccupations.

Ce n’est pas une communauté Discourse, mais cette lecture est intéressante : Rules Roundtable XXI.V: Plagiarism, Integrity, and Generative AI. Elle provient du subreddit AskHistorians. Pour ceux qui ne connaissent pas, il s’agit probablement de l’une des communautés les plus strictement modérées sur Reddit. Ils n’autorisent essentiellement que des réponses de niveau universitaire aux questions.

robbie.morrison · Juin 26, 2026, 10:09

Le subreddit AskHistorians conserve encore un biais « tirer d’abord », suivi d’une inversion de la charge de la preuve à l’encontre de l’accusé (mais certes avec davantage de garanties procédurales que sur Wikipédia/Wikimédia) :

Si vous ne déclarez pas avoir utilisé l’IA pour générer une réponse et que nous soupçonnons que vous utilisez l’IA de manière contraire aux règles, vous serez banni. Cependant, tous les utilisateurs bannis pour usage de l’IA reçoivent des instructions sur la manière de faire appel. Cela semble sévère, mais une partie de notre justification est d’amener les personnes concernées à nous contacter via modmail, afin de pouvoir en discuter et éviter une mise au pilori publique qui pourrait entraîner des attaques en nombre.

Peut-être s’agit-il de la seule stratégie viable pour l’instant ? Mais cela laisse loin de compte la justice naturelle.

one1 · Juin 26, 2026, 1:56

Ouais, je suppose que ce subreddit n’a rien à voir avec la « communauté ». Ils sont impitoyables sur ce qu’ils acceptent, que ce soit de l’IA ou non.

Mais accuser quelqu’un d’utiliser l’IA est semé d’embûches.

chapoi · Juin 26, 2026, 3:02

J’utilisais le tiret long depuis toujours, et maintenant je ne peux plus car les gens penseront que c’est de l’IA. Adieu le tiret long.

one1 · Juin 26, 2026, 3:47

Oui, en fait, n’importe qui exploitant Markdown pour rédiger un message bien écrit pourrait être suspect.

awesomerobot · Juin 26, 2026, 4:39

pareil ! Je surutilisais le tiret cadratin depuis des années avant que l’IA ne débarque et ne le lui pique

Canapin · Juin 26, 2026, 4:41

Je fais trop d’erreurs pour être faussement identifié·e comme une IA

Étrangement, j’ai remarqué que j’étais plus encline, comparé·e à avant, à ne pas corriger volontairement les petites erreurs que je repère dans mes propres messages (même en français, ma langue maternelle). J’ai l’impression que laisser ces petites imperfections rend ce que j’écris plus authentique et plus identitaire. On pourrait potentiellement identifier un message comme étant le mien à cause de ces erreurs ou de ces phrases écrites de manière étrange. C’est aussi moins fatigant mentalement de ne pas chercher à rendre parfait·e tout ce que j’écris (qu’entend-on par là d’ailleurs ?).

stephtara · Juillet 11, 2026, 6:01

Ma communauté n’est pas encore vraiment active, mais je tiens fermement à ce que les gens ne publient pas de contenu généré par des LLM. Pour le moment, je n’ai rien contre les robots d’indexation, et je souhaite que nous disposions d’un bot LLM ou de messages système LLM, mais je ne veux pas que les membres publient leurs productions approximantes de ChatGPT (nous avons une documentation considérable, soigneusement rédigée à la main, que nous voulons que les gens utilisent).

Ce point figurera dans les règles, et nous « modérerons » le contenu en question lorsque nous le détecterons, mais je suis intéressé par le signalement automatique et d’autres stratégies.

Pour info, il s’agit d’une communauté francophone.

eisammy · Juillet 11, 2026, 1:44

En principe, je préfère avoir peu de sujets et de publications qui sont beaucoup plus intéressants dans le flux global, même pour le SEO cela est important car l’indexation des contenus provenant de l’IA est généralement punie par les moteurs de recherche traditionnels.

De toute façon, comme Discourse est de nature publique la plupart du temps, si je consulte une autre instance où son contenu est majoritaire ou mélangé avec de la soupe IA, je partirai naturellement.

Jagster · Juillet 11, 2026, 1:59

Comme… ici

eisammy · Juillet 11, 2026, 2:06

Quel est exactement votre point ? Il y a une grande différence entre l’utilisation comme outil, comme un traducteur automatique de langues et de contenu thématique, comme c’est le cas pour mon instance, et d’autres aspects. Peut-être avez-vous été trop littéral dans la lecture de mon commentaire, non ? C’est une question sincère.

Jagster · Juillet 11, 2026, 2:10

Mon point est que vous n’êtes pas aussi catégorique que vous le prétendez. Vous acceptez les contenus générés par l’IA, car on en trouve ici. Le plus souvent dans la partie code, mais les sections d’ask.discourse.org ne font pas exception.

Je vous demande donc d’être cohérent

eisammy · Juillet 11, 2026, 2:13

Bien sûr, rien n’est absolu dans la vie, mais comme tu l’as bien dit, si le contenu d’une instance est majoritairement ou partiellement généré par une IA, je le rejetterai naturellement. Encore une fois, il semble que tu aies l’habitude de prendre les choses au pied de la lettre dans les discussions, n’est-ce pas ? Au lieu d’être ironique, essaie d’être plus clair la prochaine fois.

merefield · Juillet 11, 2026, 7:06

Je ne suis pas si certain que ce soit si simple de détecter le contenu généré par IA, surtout lorsque des invites soigneusement formulées sont utilisées pour éliminer les marqueurs et les modèles évidents.

Il est plus probable que l’ensemble du site soit signalé comme « création par bot » suite à une inspection manuelle.

Les moteurs de recherche sont très mauvais pour les repérer.

Voici un exemple parlant :

OpenAI Releases GPT-5.6 Soul, Terra and Luna Models - Geeky Gadgets.

Ce site est apparu parmi les cinq premiers résultats de recherche, mais la faute d’orthographe sur « Sol » le trahit comme étant du contenu de mauvaise qualité.

Il n’a même pas été relu par les propriétaires du site. Aucun humain ne ferait cette erreur.

Sujet		Réponses	Vues
Block Google's "Help Me Write" Feature	19	2430	Avril 8, 2024
Experiments with AI based moderation on Discourse Meta Community Building moderation , ai	11	1310	Mai 26, 2025
Are you experiencing AI based spam? Community Building ai	22	2325	Janvier 19, 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	2153	Août 23, 2025
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	5205	Juillet 16, 2023

Forums qui interdisent le contenu IA... Comment ça se passe ?

Sujets connexes