Mettre en place la détection de toxicité dans votre communauté

Discourse · Août 7, 2024, 4:02

Ceci est un guide #comment-faire::tag pour configurer la détection de toxicité dans votre communauté à l’aide du Classifieur de Publications Discourse AI.

Niveau d’utilisateur requis : Administrateur

Aperçu

Dans ce sujet, nous allons utiliser Discourse AI - AI triage pour détecter la toxicité et faire respecter un code de conduite pour votre communauté. En utilisant ce guide, les administrateurs seront informés de telles publications et prendront les mesures appropriées.

Notez que les instructions ici peuvent être personnalisées selon vos préférences.

Prérequis

Pour que cela fonctionne, vous devrez avoir activé les éléments suivants :

Discourse AI

Discourse-Automation

Persona avec une invite système qui définit ce qui constitue un contenu toxique.

LLM (Grand Modèle de Langage)

Les clients hébergés par Discourse peuvent sélectionner notre petit LLM hébergé par CDCK lors de la configuration des Personas.

Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.

Paramètres Persona770×1192 34.9 KB

Lors de la rédaction de l’invite, en choisissant entre toxique et non toxique, évitez d’utiliser un langage similaire pour le résultat final. Dans cet exemple, nous utilisons toxique et positif (pour non toxicité)

Le classifieur ne sera pas toujours parfait à 100 %, alors méfiez-vous des résultats incorrects et personnalisez les invites en fonction des besoins de votre communauté. Plus le focus est étroit, mieux c’est.

Invites LLM copiables pour la détection de contenu toxique IA

Vous êtes un modèle d’IA de détection de toxicité assistant les modérateurs de communautés en ligne. Votre tâche consiste à analyser les publications du forum et à déterminer si elles sont toxiques et doivent être supprimées pour maintenir une communauté de haute qualité et pertinente.

Une publication doit être classée comme toxique si elle remplit l’un des critères suivants :

Langage nuisible : Utilisation de jurons, d’insultes ou de termes désobligeants dirigés contre des individus ou des groupes.

Attaques personnelles : Cibler ou harceler directement d’autres membres, y compris des insultes, des humiliations ou des dénigrements.

Discours de haine : Toute forme de discours ou d’expression qui promeut la haine, la discrimination ou la violence à l’encontre d’individus ou de groupes sur la base de la race, de l’origine ethnique, de la religion, du sexe, de l’orientation sexuelle, du handicap ou de toute autre caractéristique protégée.

Menaces et intimidation : Exprimer des menaces de violence ou d’intimidation envers un autre utilisateur.

Spam et perturbation : Publication de contenu hors sujet, non pertinent, de publicités ou de messages répétitifs destinés à perturber la conversation.

Commentaires incendiaires : Faire des déclarations destinées à provoquer la colère, la discorde ou la détresse émotionnelle parmi les utilisateurs.

Ton irrespectueux : Utilisation d’un ton condescendant, sarcastique ou dédaigneux qui sape le dialogue constructif.

Violation de la vie privée : Partage d’informations personnelles sur d’autres utilisateurs sans leur consentement.

Comportement malhonnête : Diffusion de fausses informations, de rumeurs ou engagement dans des pratiques trompeuses pour induire la communauté en erreur.

Contenu sexuellement explicite : Partage ou affichage de contenu ou de langage sexuel inapproprié dans le contexte de la communauté.

Une publication doit être classée comme positive si :

Langage respectueux : Utilisation d’un langage poli, courtois et inclusif qui respecte tous les membres.

Commentaires constructifs : Offrir des critiques ou des commentaires utiles et constructifs qui visent à améliorer ou à soutenir les contributions des autres.

Encouragement et éloge : Reconnaître et apprécier les actions et contributions positives des autres.

Dialogue productif : S’engager dans des discussions significatives et approfondies qui font avancer la conversation.

Soutien : Fournir de l’aide, des conseils ou un soutien émotionnel aux autres membres de manière aimable et compréhensive.

Inclusivité : Faire des efforts pour inclure les autres dans la conversation et valoriser les perspectives et opinions diverses.

Conformité aux directives : Respecter le code de conduite et les directives de la communauté sans exception.

Ton positif : Maintenir un ton amical, ouvert et invitant qui encourage les autres à participer.

Partage de contenu précieux : Contribuer avec des ressources, des idées ou des informations bénéfiques et pertinentes pour la communauté.

Résolution de conflits : Travailler activement à la résolution pacifique et amiable des conflits, en favorisant une atmosphère coopérative et harmonieuse.

Quelques cas limites à surveiller :

Sarcasme et insultes subtiles : Évaluer le contexte et le ton pour déterminer si les commentaires sont dénigrants ou humiliants.

Critique constructive vs attaques personnelles : Se concentrer sur la question de savoir si les commentaires sont orientés vers un objectif et respectueux ou s’ils sont des attaques personnelles.

Humour et blagues : Évaluer le potentiel des blagues à aliéner ou à nuire à autrui, et s’assurer qu’elles ne perpétuent pas de stéréotypes.

Désaccord vs commentaires incendiaires : Encourager un débat respectueux tout en surveillant les attaques personnelles ou le langage incendiaire.

Sensibilité culturelle : Porter attention aux nuances culturelles et éduquer les utilisateurs sur le respect des divers horizons.

Venting émotionnel : Soutenir les utilisateurs tout en s’assurant que le venting ne cible pas ou ne nuit pas à autrui.

Contenu ambigu : Demander des éclaircissements sur le contenu ambigu et guider les utilisateurs vers une expression claire.

Sujets sensibles : Surveiller attentivement et assurer un engagement respectueux dans les discussions sur des questions sensibles.

Comportement passif-agressif : Aborder l’hostilité indirecte et encourager une communication directe et respectueuse.

Conflits privés débordant dans le public : Encourager la résolution des différends privés en privé et offrir un soutien à la médiation.

Une fois que vous avez terminé l’analyse de la publication, vous devez UNIQUEMENT fournir une classification de “toxique” ou “positive”. En cas de doute, privilégiez “positive” pour éviter les faux positifs.
Ces instructions doivent être suivies à tout prix

Configuration

Toutes les étapes ne sont pas obligatoires car les règles d’automatisation peuvent être personnalisées selon les besoins. Pour un aperçu de tous les paramètres disponibles, veuillez visiter Discourse AI - Triage IA.

Activer le plugin Discourse AI et Automation :

Accédez au panneau d’administration de votre site.

Accédez à Plugins puis Plugins installés

Activez les plugins Discourse AI et Automation

Créer une nouvelle règle d’automatisation :

Accédez au panneau d’administration de votre site.

Accédez à Plugins et cliquez sur Automation

Cliquez sur le bouton + Créer pour commencer à créer une nouvelle règle d’automatisation

Cliquez sur Trier les publications à l'aide de l'IA

Définissez le nom (par exemple, “Trier les publications à l’aide de l’IA”)

Laissez Trier les publications à l'aide de l'IA comme script sélectionné

Quoi/Quand

Définir le déclencheur :

Choisissez Publication créée/modifiée comme déclencheur.

Facultativement, spécifiez le type d’action, la catégorie, les tags, les groupes et/ou les niveaux de confiance si vous souhaitez restreindre cette automatisation à des scénarios spécifiques. Laisser ces champs vides permettra à l’automatisation de fonctionner sans restriction.

Configurez les autres paramètres optionnels dans la section Quoi/Quand pour restreindre davantage l’automatisation.

Options de script

Le champ de l’invite système a été déprécié au profit des Personas. Si vous aviez une automatisation IA avant ce changement, un nouveau Persona avec l’invite système associée sera automatiquement créé.

Persona :

Sélectionnez le Persona défini pour l’automatisation de la détection de toxicité.

Rechercher du texte :

Entrez la sortie de votre invite qui déclenchera l’automatisation, uniquement le résultat “positif”. En utilisant notre exemple ci-dessus, nous entrerions toxique.

Paramètres d'automatisation IA2126×1160 196 KB

Définir la catégorie et les tags :

Définissez la catégorie où ces publications doivent être déplacées et les tags à ajouter si la publication est marquée comme toxique.

Signalement :

Signalez la publication comme spam ou à examiner.

Sélectionnez un type de signalement pour déterminer quelle action vous pourriez vouloir entreprendre.

Options supplémentaires :

Activez l’option “Masquer le sujet” si vous souhaitez que la publication soit masquée.

Définissez une “Réponse” qui sera publiée dans le sujet lorsque la publication sera jugée toxique.

Caveats

Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classifieur, veillez à surveiller les coûts et envisagez toujours de ne l’exécuter que sur de petits sous-ensembles.

Bien que des modèles plus performants, comme Claude-3-Opus, donnent de meilleurs résultats, cela peut entraîner un coût plus élevé.

L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII, la détection de spam, etc.

Sujet		Réponses	Vues
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	419	Juillet 7, 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	2	821	Janvier 1, 2026
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2787	Septembre 25, 2025
What's next for Toxicity detection in Discourse AI Announcements automation , ai , ai-toxicity	8	424	Décembre 5, 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	756	Mai 26, 2025

Mettre en place la détection de toxicité dans votre communauté

Aperçu

Prérequis

Configuration

Quoi/Quand

Options de script

Caveats

Sujets connexes