Configuration de la détection de toxicité dans votre communauté

:bookmark: Ce guide est un tutoriel pour configurer la détection de contenu toxique dans votre communauté en utilisant le Classifieur de Messages Discourse IA.
:
:person_raising_hand: Niveau d’utilisateur requis : Administrateur

Aperçu

Dans ce sujet, nous allons utiliser Discourse AI - AI triage pour détecter la toxicité et appliquer un code de conduite à votre communauté. En utilisant ce guide, les administrateurs seront informés de ces messages et prendront les mesures appropriées.

Notez que les instructions ici peuvent être personnalisées selon vos préférences.

Prérequis

Pour que cela fonctionne, vous devez avoir les éléments suivants activés :

  • Discourse IA
  • Discourse-Automation
  • Agent avec une invite système qui définit ce qui constitue un contenu toxique.
  • LLM (Grand Modèle de Langage)
    • Les clients hébergés par Discourse peuvent sélectionner notre LLM CDCK Hosted Small lors de la configuration des Agents.
    • Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.

:warning: Lors de la rédaction de l’invite, en choisissant entre toxique et non toxique, évitez d’utiliser un langage similaire pour le résultat final. Dans cet exemple, nous utilisons toxic (toxique) et positive (positif pour la non-toxicité).

Le classifieur ne sera pas toujours performant à 100 %, soyez donc conscient des résultats incorrects et personnalisez les invites en fonction des besoins de votre communauté. Plus la focalisation est étroite, mieux c’est.

Invites LLM copiables pour la détection de contenu toxique IA Vous êtes un modèle d'IA de détection de toxicité assistant les modérateurs de communautés en ligne. Votre tâche est d'analyser les messages de forum et de déterminer s'ils sont toxiques et doivent être supprimés pour maintenir une communauté de haute qualité et thématique.

Un message doit être classé comme toxique s’il répond à l’un de ces critères :

  1. Langage Nocif : Utilisation de blasphèmes, d’insultes ou de termes désobligeants dirigés contre des individus ou des groupes.
  2. Attaques Personnelles : Cibler ou harceler directement d’autres membres, y compris les noms d’oiseaux, la honte publique ou la dévalorisation.
  3. Discours de Haine : Toute forme de discours ou d’expression qui promeut la haine, la discrimination ou la violence contre des individus ou des groupes en fonction de la race, de l’origine ethnique, de la religion, du sexe, de l’orientation sexuelle, du handicap ou de toute autre caractéristique protégée.
  4. Menaces et Intimidation : Exprimer des menaces de violence ou d’intimidation envers un autre utilisateur.
  5. Spam et Perturbation : Publier du contenu hors sujet, non pertinent, des publicités ou des messages répétitifs destinés à perturber la conversation.
  6. Commentaires Inflammatoires : Faire des déclarations visant à provoquer la colère, la discorde ou la détresse émotionnelle chez les utilisateurs.
  7. Ton Irrespectueux : Utilisation d’un ton condescendant, sarcastique ou dédaigneux qui mine le dialogue constructif.
  8. Violation de la Vie Privée : Partager des informations personnelles sur d’autres utilisateurs sans leur consentement.
  9. Comportement Malhonnête : Diffuser de fausses informations, des rumeurs ou s’engager dans des pratiques trompeuses pour induire la communauté en erreur.
  10. Contenu Sexuellement Explicite : Partager ou afficher du contenu ou un langage sexuel inapproprié dans le contexte de la communauté.

Un message doit être classé comme positif si :

  1. Langage Respectueux : Utiliser un langage poli, courtois et inclusif qui respecte tous les membres.
  2. Commentaires Constructifs : Offrir des critiques ou des commentaires utiles et constructifs qui visent à améliorer ou à soutenir les contributions des autres.
  3. Encouragement et Éloges : Reconnaître et apprécier les actions et contributions positives des autres.
  4. Dialogue Productif : S’engager dans des discussions significatives et approfondies qui font avancer la conversation.
  5. Soutien : Fournir de l’aide, des conseils ou un soutien émotionnel aux autres membres d’une manière aimable et compréhensive.
  6. Inclusivité : Faire des efforts pour inclure les autres dans la conversation et valoriser la diversité des perspectives et des opinions.
  7. Conformité aux Directives : Respecter le code de conduite et les directives de la communauté sans exception.
  8. Ton Positif : Maintenir un ton amical, ouvert et accueillant qui encourage la participation des autres.
  9. Partage de Contenu de Valeur : Contribuer avec des ressources, des idées ou des informations bénéfiques et pertinentes pour la communauté.
  10. Résolution des Conflits : Travailler activement à résoudre les conflits de manière pacifique et amiable, favorisant une atmosphère coopérative et harmonieuse.

Quelques cas limites à surveiller :

  • Sarcasme et Insultes Subtiles : Évaluer le contexte et le ton pour déterminer si les commentaires sont dénigrants ou dévalorisants.
  • Critique Constructive vs Attaques Personnelles : Se concentrer sur savoir si le feedback est orienté vers un objectif et respectueux ou s’il s’agit d’une attaque personnelle.
  • Humour et Blagues : Évaluer le potentiel des blagues à aliéner ou à nuire à autrui, et s’assurer qu’elles ne perpétuent pas les stéréotypes.
  • Désaccord vs Commentaires Inflammatoires : Encourager un débat respectueux tout en surveillant les attaques personnelles ou le langage incendiaire.
  • Sensibilité Culturelle : Prêter attention aux nuances culturelles et éduquer les utilisateurs sur le respect des origines diverses.
  • Exutoire Émotionnel : Soutenir les utilisateurs tout en s’assurant que l’exutoire ne cible ou ne nuit pas à autrui.
  • Contenu Ambigü : Demander des éclaircissements sur le contenu ambigu et guider les utilisateurs vers une expression claire.
  • Sujets Sensibles : Surveiller attentivement et assurer un engagement respectueux dans les discussions sur des sujets sensibles.
  • Comportement Passif-Agressif : Aborder l’hostilité indirecte et encourager une communication directe et respectueuse.
  • Conflits Privés Débordant dans le Public : Encourager la résolution des différends privés en privé et offrir un soutien à la médiation.

Lorsque vous avez terminé d’analyser le message, vous devez UNIQUEMENT fournir une classification de « toxic » ou « positive ». En cas de doute, utilisez par défaut « positive » pour éviter les fausses positives.

Ces instructions doivent être suivies à tout prix

Configuration

:information_source: Toutes les étapes ne sont pas obligatoires car les règles d’automatisation peuvent être personnalisées selon les besoins. Pour un aperçu de tous les paramètres disponibles, veuillez visiter Discourse AI - AI triage.

  1. Activer le plugin Discourse IA et Automation :
  • Naviguez vers le panneau d’administration de votre site.
  • Naviguez vers Plugins puis Plugins Installés
  • Activez les plugins Discourse AI et Automation
  1. Créer une Nouvelle Règle d’Automatisation :
  • Naviguez vers le panneau d’administration de votre site.
  • Naviguez vers Plugins et cliquez sur Automation
  • Cliquez sur le bouton + Create (Créer) pour commencer la création d’une nouvelle règle d’automatisation
  • Cliquez sur Triage Posts Using AI (Trier les messages en utilisant l’IA)
  • Définissez le nom (par exemple, “Trier les messages en utilisant l’IA”)
  • Laissez Triage Posts Using AI comme script sélectionné

Quoi/Quand

  1. Définir le Déclencheur (Trigger) :
  • Choisissez Post created/edited (Message créé/modifié) comme déclencheur.
  • Optionnellement, spécifiez le type d’Action, la Catégorie, les Balises, les Groupes et/ou les Niveaux de Confiance si vous souhaitez restreindre cette Automatisation à des scénarios spécifiques. Laisser ces champs vides permettra à l’Automatisation de fonctionner sans restriction.
  • Configurez les autres paramètres optionnels dans la section What/When pour restreindre davantage l’automatisation.

Options de Script

:spiral_notepad: Le champ de l’invite système a été déprécié au profit des Agents. Si vous aviez une automatisation IA avant ce changement, un nouvel Agent avec l’invite système associée sera automatiquement créé.

  1. Agent :

    Sélectionnez l’Agent défini pour l’automatisation de détection de toxicité.

  2. Rechercher du Texte :

    Entrez le résultat de votre invite qui déclenchera l’automatisation, seulement le résultat « positive ». En utilisant notre exemple ci-dessus, nous entrerions toxic.

  1. Définir la Catégorie et les Balises :

    Définissez la catégorie vers laquelle ces messages doivent être déplacés et les balises à ajouter si le message est marqué comme toxique.

  2. Signalement (Flagging) :

  • Activez l’option “Flag post” (Signaler le message) pour signaler le message.
  • Sélectionnez un type de signalement pour déterminer quelle action entreprendre. Options disponibles :
    • Add post to review queue (Ajouter le message à la file d’attente de révision) — envoie le message à la file d’attente de révision pour action du modérateur.
    • Add post to review queue and hide post (Ajouter le message à la file d’attente de révision et masquer le message) — met en file d’attente pour révision et masque immédiatement le message.
    • Add post to review queue and delete post (Ajouter le message à la file d’attente de révision et supprimer le message) — met en file d’attente pour révision et supprime le message.
    • Add post to review queue, delete post and silence user (Ajouter le message à la file d’attente de révision, supprimer le message et faire taire l’utilisateur) — met en file d’attente pour révision, supprime le message et fait taire l’auteur.
    • Flag as spam and hide post (Signaler comme spam et masquer le message) — signale le message comme spam et le masque.
    • Flag as spam, hide post and silence user (Signaler comme spam, masquer le message et faire taire l’utilisateur) — signale comme spam, masque le message et fait taire l’auteur.
  1. Options Additionnelles :
  • Activez l’option “Hide Topic” (Masquer le Sujet) si vous souhaitez que le sujet soit masqué.
  • Définissez une “Reply” (Réponse) qui sera publiée dans le sujet lorsque le message est jugé toxique, en spécifiant éventuellement un “Reply User” (Utilisateur de Réponse).
  • Utilisez l’option “Reply Agent” (Agent de Réponse) pour qu’un agent IA génère une réponse dynamique au lieu d’une réponse prédéfinie. Ceci aura la priorité sur une réponse prédéfinie si les deux sont définies.
  • Activez “Reply as Whisper” (Répondre en Murmure) pour que la réponse ne soit visible que par le personnel.
  • Activez “Notify author via PM” (Notifier l’auteur par MP) pour envoyer un message personnel à l’auteur du message lorsque son contenu est signalé. Vous pouvez éventuellement spécifier un expéditeur de MP et un message personnalisé.

Limites / Avertissements

  • Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classifieur, soyez prudent quant à la surveillance des coûts et envisagez toujours de n’exécuter cela que sur de petits sous-ensembles.
  • Bien que les modèles offrant de meilleures performances donneront de meilleurs résultats, ils peuvent entraîner des coûts plus élevés.
  • L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII, la détection de spam, etc.
8 « J'aime »