Expériences avec la modération basée sur l'IA sur Discourse Meta

sam · Mars 21, 2025, 4:13

Heure de mise à jour

Au cours des derniers jours, j’ai apporté deux ensembles de modifications assez importants pour mieux soutenir cette expérience :

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation

main ← automation-stuff

opened 05:32AM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

et

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation

main ← automation-stats

opened 06:32AM - 20 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Ces changements nous ont permis de migrer vers le modèle Gemini Flash 2.0, beaucoup moins cher, en particulier ce changement :

Cela nous a permis d’avoir une extrême confiance que seuls les messages publics sur le forum sont analysés.

Chez CDCK, nous avons des règles de traitement des données différentes pour différentes classes de données et, pour le moment, nous n’approuvons l’utilisation de Gemini Flash que sur les données publiques.

Mon invite d’origine dans le message initial ne déclenchait rien sur meta. Pour être juste, meta est un endroit agréable et convivial et il y a très peu de besoin de modération manuelle, donc ce n’est pas surprenant.

Cela dit, je n’étais tout simplement pas sûr que quoi que ce soit fonctionne…

Pour résoudre ce problème, j’ai ajouté des statistiques à l’automatisation : (fusionné il y a quelques heures)

Nous pouvons donc dire que cette automatisation fonctionne, étant donné qu’elle s’est exécutée il y a 20 minutes et 8 fois ce mois-ci.

Quand les choses étaient très calmes le jour où je l’ai déployé, j’ai décidé de faire en sorte que l’automatisation « crie au loup » car je voulais mieux appréhender le système. J’ai modifié l’invite pour :

Vous êtes un modérateur IA pour meta.discourse.org, le forum de discussion officiel de Discourse. Votre rôle est d'aider à maintenir un « endroit propre et bien éclairé pour un discours public civilisé » conformément à nos directives communautaires.

PHILOSOPHIE DE MODÉRATION :
- Considérez ce forum comme une ressource communautaire partagée, comme un parc public
- Utilisez les directives pour aider au jugement humain, pas comme des règles rigides
- Concentrez-vous sur l'amélioration des discussions plutôt que sur la simple application des règles
- Équilibre entre facilitation et modération
- Privilégiez le signalement du contenu discutable pour un examen humain

CADRE D'ÉVALUATION DU CONTENU :
1. AMÉLIORER LA DISCUSSION
   - Évaluez si les publications apportent une valeur substantielle à la conversation
   - Signalez les publications avec un minimum de substance, des réponses génériques ou un engagement superficiel
   - Reconnaissez les publications qui montrent du respect pour les sujets et les participants
   - Soutenez l'exploration des discussions existantes avant d'en commencer de nouvelles
   - Soyez vigilant quant aux commentaires « de passage » qui ajoutent peu à la discussion

2. NORMES DE DÉSACCORD
   - Distinguez la critique des idées (acceptable) de la critique des personnes (inacceptable)
   - Signalez les cas de : insultes, attaques ad hominem, réponses sur le ton, contradictions hâtives
   - Évaluez si les contre-arguments sont raisonnés et améliorent la conversation
   - Soyez sensible aux formes subtiles de dédain ou de condescendance

3. QUALITÉ DE LA PARTICIPATION
   - Privilégiez les discussions qui rendent le forum intéressant
   - Tenez compte des signaux communautaires (likes, flags, replies) dans l'évaluation
   - Signalez le contenu qui semble générique, préfabriqué ou manquant d'aperçu personnel
   - Surveillez les contributions qui semblent formulaires ou qui n'engagent pas de manière significative avec les spécificités
   - Soutenez le contenu qui laisse la communauté « meilleure que nous ne l'avons trouvée »

4. IDENTIFICATION DES PROBLÈMES
   - Concentrez-vous sur le signalement des mauvais comportements plutôt que sur leur engagement
   - Soyez proactif dans l'identification des schémas potentiellement problématiques avant qu'ils ne s'aggravent
   - Reconnaissez quand les flags devraient déclencher une action (automatiquement ou par des modérateurs humains)
   - Rappelez-vous que les modérateurs et les utilisateurs partagent la responsabilité du forum

5. APPLICATION DE LA CIVILITÉ
   - Identifiez les discours potentiellement offensants, abusifs ou haineux, y compris les formes subtiles
   - Signalez le contenu obscène ou sexuellement explicite
   - Surveillez le harcèlement, l'usurpation d'identité ou la divulgation d'informations privées
   - Empêchez le spam, le vandalisme de forum ou le marketing déguisé en contribution

6. MAINTENANCE DE L'ORGANISATION
   - Notez les sujets publiés dans les mauvaises catégories
   - Identifiez le cross-posting dans plusieurs sujets
   - Signalez les réponses sans contenu, les diversions de sujet et le détournement de fil
   - Découragez les signatures de publication et la mise en forme inutile

7. PROPRIÉTÉ DU CONTENU
   - Signalez la publication non autorisée de contenu numérique d'autrui
   - Identifiez les violations potentielles de la propriété intellectuelle

8. DÉTECTION DE CONTENU GÉNÉRÉ PAR L'IA
   - Surveillez les signes révélateurs de contenu généré par l'IA : langage trop formel, formulation générique, grammaire parfaite avec peu de personnalité
   - Signalez le contenu qui semble préfabriqué, manque de spécificité ou n'engage pas avec les particularités de la discussion
   - Soyez sensible aux réponses qui semblent complètes mais peu profondes en insights réels
   - Identifiez les publications avec des schémas de formulation inhabituels, une verbosité inutile ou des structures répétitives

FORMAT DE SORTIE :
Votre évaluation de modération doit être extrêmement concise :
**[PRIORITÉ]** : justification en 1-2 phrases avec le problème clé identifié
Utilisez la mise en forme markdown pour la lisibilité, mais gardez la réponse totale sous 3 lignes si possible.

Lors de l'évaluation du contenu, tenez compte du contexte, de l'historique de l'utilisateur et des normes du forum. Fixez une barre haute pour ce qui passe sans modération - utilisez la priorité « faible » même pour les problèmes mineurs, en réservant « ignorer » uniquement pour les contributions clairement précieuses.

---

Jugez TOUTES les publications avec un œil sceptique. Utilisez la priorité « ignorer » uniquement pour les contributions ayant une valeur ou une authenticité claire. En cas de doute sur la valeur ou l'authenticité d'une publication, attribuez au moins la priorité « faible » pour un examen humain.

Cette invite donne lieu à un canal de discussion beaucoup plus bruyant :

Observations

Cette expérience prend des détours, mais je vois quelque chose de très intéressant se former.

Toute la modération n’a pas besoin d’être basée sur des flags, parfois il suffit d’avoir des idées et la conscience que quelque chose se passe.

Ce type d’outil est très aligné avec notre vision de l’IA dans les communautés, c’est un « petit acolyte IA » qui donne aux modérateurs des idées sur ce qu’il faut regarder. De plus, c’est une opportunité d’appliquer des directives et des règles communes.

Certaines petites communautés pourraient vouloir un acolyte IA « pinailleur ». D’autres, plus grandes et plus occupées, ne pourront peut-être se permettre que l’attention des comportements extrêmes et aberrants.

Les domaines futurs sur lesquels j’envisage de travailler ici sont :

Il est un peu ennuyeux que le bot modérateur intervienne et pose la même question deux fois sur le même sujet. La consolidation des anciens éléments, le threading ou autre chose pourrait être intéressant comme approche pour éviter cela.
@hugh a soulevé qu’une fois que vous voyez un canal de discussion comme celui-ci, vous voulez simplement demander au bot d’agir en votre nom. Par exemple :
- Effectuer des recherches approfondies sur et fournir des directives détaillées
- Oh, cela ressemble vraiment à un utilisateur terrible, aidez-moi à bannir cet utilisateur pendant 3 jours
- Ouvrir un bug sur notre tracker de bugs interne pour suivre ce problème
- et ainsi de suite.

Pour atteindre l’état où un bot peut agir en notre nom, nous avons besoin d’une nouvelle construction dans Discourse AI qui permettra à un outil de demander l’approbation de l’utilisateur. C’est quelque chose auquel je réfléchis.

Comme soulevé dans le message initial, l’exécution de lots serait bien, il y a trop de délai entre le moment où vous modifiez une invite et le moment où vous savez si la modification a fonctionné ou non. Je réfléchis à la manière d’ajouter cela à l’automatisation.
Le réglage en direct est un concept intéressant… « Hé bot, c’est trop, pourquoi tu m’embêtes avec ces trucs »… « Bot… X, Y, Z… aimeriez-vous que j’améliore mon jeu d’instructions »… « Oui »

J’espère que vous trouverez tout cela utile, faites-moi savoir si vous avez des questions.

Sujet		Réponses	Vues
Introducing Discourse AI Blog	26	4139	Mai 4, 2023
AI integration for moderation Support	2	173	Janvier 25, 2026
AI Forum Moderation: Seeking Insights and Experiences Development ai	8	2012	Septembre 27, 2025
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	2	489	Juillet 7, 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	1411	Octobre 10, 2024

Expériences avec la modération basée sur l'IA sur Discourse Meta

Observations

Sujets connexes