Ceci est un guide pour configurer la détection de contenu NSFW dans votre communauté en utilisant l’automatisation Discourse AI pour identifier et modérer les images et le texte inappropriés.
Niveau d’utilisateur requis : Administrateur
Configuration de la détection NSFW dans votre communauté
Détectez et modérez automatiquement le contenu NSFW (Not Safe for Work - Non sûr pour le travail) dans votre communauté Discourse grâce à l’automatisation basée sur l’IA. Ce guide vous aidera à configurer la détection automatisée pour les images et le contenu textuel inappropriés, vous permettant ainsi de maintenir les normes de la communauté avec un minimum d’intervention manuelle.
Résumé
Cette documentation couvre la configuration de l’automatisation Discourse AI Triage des publications par l’IA pour :
- Détecter les images NSFW à l’aide de modèles d’IA activés pour la vision.
- Identifier le contenu textuel et le langage inappropriés.
- Marquer automatiquement, catégoriser et modérer les publications problématiques.
- Configurer des réponses personnalisées et des actions de modération.
L’automatisation utilise des modèles de langage étendus (LLM) pour analyser le contenu des publications et prend des mesures prédéfinies lorsqu’un contenu NSFW est détecté.
Prérequis
Avant de configurer la détection NSFW, assurez-vous d’avoir activé les éléments suivants :
- Plugin Discourse AI - Le plugin de fonctionnalité IA principal.
- Plugin Discourse Automation : Requis pour créer des règles automatisées.
- Agent : Agent avec une invite système qui définit ce qui constitue un contenu NSFW. Utilisez un langage distinct pour les classifications positives et négatives afin d’éviter toute confusion.
- LLM activé pour la vision : Requis uniquement pour la détection d’images ; les LLM standard fonctionnent pour la détection de texte uniquement. Assurez-vous que « Vision enabled » (Vision activée) est activé à la fois pour le modèle LLM et pour l’Agent.
- Les clients hébergés par Discourse peuvent sélectionner notre LLM CDCK Hosted Small lors de la configuration des Agents.
- Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.
Exemples d’invites (prompts) :
Pour la détection d’images :
Vous êtes un bot spécialisé dans la classification d'images. Répondez uniquement par NSFW ou SAFE, et rien d'autre. NSFW désigne la pornographie ou le contenu gore, et SAFE désigne tout le reste. En cas de doute, répondez SAFE.
Pour la détection de texte :
Vous êtes un système avancé de modération de contenu par IA conçu pour trier les publications générées par les utilisateurs. Votre tâche consiste à détecter et à signaler tout contenu contenant un langage grossier, des termes inappropriés ou du contenu NSFW (Not Safe for Work).
Le contenu NSFW comprend le contenu sexuel explicite, la violence, les discours de haine, le langage graphique, la discrimination, les références à l'automutilation ou les activités illégales.
Répondez avec exactement un mot :
* "SAFE" : La publication est appropriée et ne contient aucun contenu grossier ou NSFW.
* "NSFW" : Si un contenu grossier, inapproprié ou NSFW est détecté.
Soyez conscient du contexte et évitez les fausses alertes.
Étapes de configuration
Activer les plugins requis
- Naviguez vers le panneau d’administration de votre site.
- Accédez à Plugins > Plugins installés.
- Activez les plugins Discourse AI et Automation.
Créer une règle d’automatisation
- Dans le panneau d’administration, naviguez vers Plugins > Automation.
- Cliquez sur + Créer pour commencer la création d’une nouvelle règle d’automatisation.
- Sélectionnez Triage des publications par l’IA.
- Définissez un nom descriptif (par exemple, “Détection de contenu NSFW”).
Configurer les déclencheurs (triggers) et les restrictions
Définir le déclencheur :
- Choisissez Publication créée/modifiée comme déclencheur pour analyser les publications nouvelles ou modifiées.
- Alternativement, choisissez Sujet bloqué pour trier les sujets qui n’ont pas reçu de réponse pendant une durée spécifiée.
- Spécifiez éventuellement le type d’Action, les Catégories, les Balises, les Groupes, les Niveaux de confiance, ou les fonctionnalités de publication pour restreindre la portée de l’automatisation.
- Laissez les champs vides pour appliquer l’automatisation à l’échelle du site.
Restrictions optionnelles (déclencheur Publication créée/modifiée) :
Configurez des paramètres supplémentaires pour limiter davantage la portée de l’automatisation :
- Première publication uniquement ou Publication originale uniquement pour cibler uniquement les nouveaux sujets.
- Premier sujet uniquement pour cibler uniquement le premier sujet d’un utilisateur.
- Fonctionnalités de publication pour restreindre aux publications contenant des images, des liens, du code ou des téléchargements — utile pour la détection NSFW basée sur l’image.
- Archétype restreint pour limiter aux sujets réguliers, sujets publics ou messages privés.
Configurer la classification par IA
Le champ d’invite système a été déprécié au profit des Agents. Si vous aviez une automatisation IA avant ce changement, un nouvel Agent avec l’invite système associée sera créé automatiquement.
Agent :
Sélectionnez l’Agent défini pour l’automatisation de détection NSFW.
Texte de recherche (Search text) :
Entrez la sortie exacte de votre invite qui déclenche les actions d’automatisation. En utilisant les exemples ci-dessus, entrez NSFW.
Options avancées :
- Max Post Tokens : Limiter le nombre de jetons (tokens) de la publication envoyés au LLM.
- Max output tokens : Définir une limite supérieure au nombre de jetons que le modèle peut générer.
- Stop Sequences : Demander au modèle d’arrêter la génération lorsqu’il rencontre des valeurs spécifiques.
Définir les actions de modération
Catégorisation et balisage :
- Définir la catégorie vers laquelle les publications signalées doivent être déplacées.
- Spécifier les balises à ajouter au contenu NSFW identifié.
Options de signalement (Flagging) :
- Activez Signaler la publication pour activer le signalement, puis choisissez un type de signalement :
- Ajouter la publication à la file d’attente de révision — envoie la publication à la file d’attente de révision pour examen manuel par un modérateur.
- Ajouter la publication à la file d’attente de révision et masquer la publication — file d’attente de révision + masque immédiatement la publication.
- Ajouter la publication à la file d’attente de révision et supprimer la publication — file d’attente de révision + supprime (soft-delete) la publication.
- Ajouter la publication à la file d’attente de révision, supprimer la publication et faire taire l’utilisateur — file d’attente de révision + suppression (soft-delete) de la publication + mise en sourdine de l’auteur.
- Signaler comme spam et masquer la publication — signale la publication comme spam (la masque automatiquement).
- **Signaler comme spam, masquer la


