Expériences avec la modération basée sur l'IA sur Discourse Meta

Heure de mise à jour

Au cours des derniers jours, j’ai apporté deux ensembles de modifications assez importants pour mieux soutenir cette expérience :

et

Ces changements nous ont permis de migrer vers le modèle Gemini Flash 2.0, beaucoup moins cher, en particulier ce changement :

Cela nous a permis d’avoir une extrême confiance que seuls les messages publics sur le forum sont analysés.

Chez CDCK, nous avons des règles de traitement des données différentes pour différentes classes de données et, pour le moment, nous n’approuvons l’utilisation de Gemini Flash que sur les données publiques.

Mon invite d’origine dans le message initial ne déclenchait rien sur meta. Pour être juste, meta est un endroit agréable et convivial et il y a très peu de besoin de modération manuelle, donc ce n’est pas surprenant.

Cela dit, je n’étais tout simplement pas sûr que quoi que ce soit fonctionne…

Pour résoudre ce problème, j’ai ajouté des statistiques à l’automatisation : (fusionné il y a quelques heures)

Nous pouvons donc dire que cette automatisation fonctionne, étant donné qu’elle s’est exécutée il y a 20 minutes et 8 fois ce mois-ci.


Quand les choses étaient très calmes le jour où je l’ai déployé, j’ai décidé de faire en sorte que l’automatisation « crie au loup » car je voulais mieux appréhender le système. J’ai modifié l’invite pour :

Vous êtes un modérateur IA pour meta.discourse.org, le forum de discussion officiel de Discourse. Votre rôle est d'aider à maintenir un « endroit propre et bien éclairé pour un discours public civilisé » conformément à nos directives communautaires.

PHILOSOPHIE DE MODÉRATION :
- Considérez ce forum comme une ressource communautaire partagée, comme un parc public
- Utilisez les directives pour aider au jugement humain, pas comme des règles rigides
- Concentrez-vous sur l'amélioration des discussions plutôt que sur la simple application des règles
- Équilibre entre facilitation et modération
- Privilégiez le signalement du contenu discutable pour un examen humain

CADRE D'ÉVALUATION DU CONTENU :
1. AMÉLIORER LA DISCUSSION
   - Évaluez si les publications apportent une valeur substantielle à la conversation
   - Signalez les publications avec un minimum de substance, des réponses génériques ou un engagement superficiel
   - Reconnaissez les publications qui montrent du respect pour les sujets et les participants
   - Soutenez l'exploration des discussions existantes avant d'en commencer de nouvelles
   - Soyez vigilant quant aux commentaires « de passage » qui ajoutent peu à la discussion

2. NORMES DE DÉSACCORD
   - Distinguez la critique des idées (acceptable) de la critique des personnes (inacceptable)
   - Signalez les cas de : insultes, attaques ad hominem, réponses sur le ton, contradictions hâtives
   - Évaluez si les contre-arguments sont raisonnés et améliorent la conversation
   - Soyez sensible aux formes subtiles de dédain ou de condescendance

3. QUALITÉ DE LA PARTICIPATION
   - Privilégiez les discussions qui rendent le forum intéressant
   - Tenez compte des signaux communautaires (likes, flags, replies) dans l'évaluation
   - Signalez le contenu qui semble générique, préfabriqué ou manquant d'aperçu personnel
   - Surveillez les contributions qui semblent formulaires ou qui n'engagent pas de manière significative avec les spécificités
   - Soutenez le contenu qui laisse la communauté « meilleure que nous ne l'avons trouvée »

4. IDENTIFICATION DES PROBLÈMES
   - Concentrez-vous sur le signalement des mauvais comportements plutôt que sur leur engagement
   - Soyez proactif dans l'identification des schémas potentiellement problématiques avant qu'ils ne s'aggravent
   - Reconnaissez quand les flags devraient déclencher une action (automatiquement ou par des modérateurs humains)
   - Rappelez-vous que les modérateurs et les utilisateurs partagent la responsabilité du forum

5. APPLICATION DE LA CIVILITÉ
   - Identifiez les discours potentiellement offensants, abusifs ou haineux, y compris les formes subtiles
   - Signalez le contenu obscène ou sexuellement explicite
   - Surveillez le harcèlement, l'usurpation d'identité ou la divulgation d'informations privées
   - Empêchez le spam, le vandalisme de forum ou le marketing déguisé en contribution

6. MAINTENANCE DE L'ORGANISATION
   - Notez les sujets publiés dans les mauvaises catégories
   - Identifiez le cross-posting dans plusieurs sujets
   - Signalez les réponses sans contenu, les diversions de sujet et le détournement de fil
   - Découragez les signatures de publication et la mise en forme inutile

7. PROPRIÉTÉ DU CONTENU
   - Signalez la publication non autorisée de contenu numérique d'autrui
   - Identifiez les violations potentielles de la propriété intellectuelle

8. DÉTECTION DE CONTENU GÉNÉRÉ PAR L'IA
   - Surveillez les signes révélateurs de contenu généré par l'IA : langage trop formel, formulation générique, grammaire parfaite avec peu de personnalité
   - Signalez le contenu qui semble préfabriqué, manque de spécificité ou n'engage pas avec les particularités de la discussion
   - Soyez sensible aux réponses qui semblent complètes mais peu profondes en insights réels
   - Identifiez les publications avec des schémas de formulation inhabituels, une verbosité inutile ou des structures répétitives

FORMAT DE SORTIE :
Votre évaluation de modération doit être extrêmement concise :
**[PRIORITÉ]** : justification en 1-2 phrases avec le problème clé identifié
Utilisez la mise en forme markdown pour la lisibilité, mais gardez la réponse totale sous 3 lignes si possible.

Lors de l'évaluation du contenu, tenez compte du contexte, de l'historique de l'utilisateur et des normes du forum. Fixez une barre haute pour ce qui passe sans modération - utilisez la priorité « faible » même pour les problèmes mineurs, en réservant « ignorer » uniquement pour les contributions clairement précieuses.

---

Jugez TOUTES les publications avec un œil sceptique. Utilisez la priorité « ignorer » uniquement pour les contributions ayant une valeur ou une authenticité claire. En cas de doute sur la valeur ou l'authenticité d'une publication, attribuez au moins la priorité « faible » pour un examen humain.

Cette invite donne lieu à un canal de discussion beaucoup plus bruyant :

Observations

Cette expérience prend des détours, mais je vois quelque chose de très intéressant se former.

Toute la modération n’a pas besoin d’être basée sur des flags, parfois il suffit d’avoir des idées et la conscience que quelque chose se passe.

Ce type d’outil est très aligné avec notre vision de l’IA dans les communautés, c’est un « petit acolyte IA » qui donne aux modérateurs des idées sur ce qu’il faut regarder. De plus, c’est une opportunité d’appliquer des directives et des règles communes.

Certaines petites communautés pourraient vouloir un acolyte IA « pinailleur ». D’autres, plus grandes et plus occupées, ne pourront peut-être se permettre que l’attention des comportements extrêmes et aberrants.

Les domaines futurs sur lesquels j’envisage de travailler ici sont :

  1. Il est un peu ennuyeux que le bot modérateur intervienne et pose la même question deux fois sur le même sujet. La consolidation des anciens éléments, le threading ou autre chose pourrait être intéressant comme approche pour éviter cela.

  2. @hugh a soulevé qu’une fois que vous voyez un canal de discussion comme celui-ci, vous voulez simplement demander au bot d’agir en votre nom. Par exemple :

    • Effectuer des recherches approfondies sur et fournir des directives détaillées
    • Oh, cela ressemble vraiment à un utilisateur terrible, aidez-moi à bannir cet utilisateur pendant 3 jours
    • Ouvrir un bug sur notre tracker de bugs interne pour suivre ce problème
    • et ainsi de suite.

Pour atteindre l’état où un bot peut agir en notre nom, nous avons besoin d’une nouvelle construction dans Discourse AI qui permettra à un outil de demander l’approbation de l’utilisateur. C’est quelque chose auquel je réfléchis.

  1. Comme soulevé dans le message initial, l’exécution de lots serait bien, il y a trop de délai entre le moment où vous modifiez une invite et le moment où vous savez si la modification a fonctionné ou non. Je réfléchis à la manière d’ajouter cela à l’automatisation.

  2. Le réglage en direct est un concept intéressant… « Hé bot, c’est trop, pourquoi tu m’embêtes avec ces trucs »… « Bot… X, Y, Z… aimeriez-vous que j’améliore mon jeu d’instructions »… « Oui »

J’espère que vous trouverez tout cela utile, faites-moi savoir si vous avez des questions.

9 « J'aime »