Ceci est un guide pour configurer la détection de contenu NSFW dans votre communauté à l’aide de l’automatisation Discourse AI pour identifier et modérer les images et le texte inappropriés.
Niveau d’utilisateur requis : Administrateur
Configuration de la détection NSFW dans votre communauté
Détectez et modérez automatiquement le contenu NSFW (Not Safe for Work) dans votre communauté Discourse à l’aide de l’automatisation alimentée par l’IA. Ce guide vous aidera à configurer la détection automatisée pour le contenu d’images et de texte inappropriés, vous permettant de maintenir les normes de la communauté avec une intervention manuelle minimale.
Résumé
Cette documentation couvre la configuration de l’automatisation Discourse AI Post Classifier pour :
- Détecter les images NSFW à l’aide de modèles d’IA dotés de capacités de vision
- Identifier le contenu textuel et le langage inappropriés
- Marquer, catégoriser et modérer automatiquement les publications problématiques
- Configurer des réponses personnalisées et des actions de modération
L’automatisation utilise des grands modèles de langage (LLM) pour analyser le contenu des publications et prend des actions prédéfinies lorsque du matériel NSFW est détecté.
Prérequis
Avant de configurer la détection NSFW, assurez-vous que les éléments suivants sont activés :
- Plugin Discourse AI - Le plugin principal de fonctionnalité IA
- Plugin Discourse Automation : requis pour créer des règles automatisées
- Persona : Persona avec une invite système qui définit ce qui constitue un contenu NSFW. Utilisez un langage distinct pour les classifications positives et négatives afin d’éviter toute confusion.
- LLM doté de capacités de vision : requis uniquement pour la détection d’images ; les LLM standard fonctionnent pour la détection de texte uniquement.
- Les clients hébergés par Discourse peuvent sélectionner notre petit LLM hébergé par CDCK lors de la configuration des Personas.
- Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.
Exemples d’invites :
Pour la détection d’images :
Vous êtes un bot spécialisé dans la classification d'images. Répondez uniquement par NSFW ou SAFE, et rien d'autre. NSFW est de la pornographie ou du gore, et SAFE est tout le reste. En cas de doute, répondez SAFE.
Pour la détection de texte :
Vous êtes un système avancé de modération de contenu IA conçu pour trier les publications générées par les utilisateurs. Votre tâche consiste à détecter et à signaler tout contenu contenant un langage grossier, des termes inappropriés ou du contenu NSFW (Not Safe for Work).
Le contenu NSFW comprend le contenu sexuel explicite, la violence, les discours de haine, le langage graphique, la discrimination, les références à l'automutilation ou les activités illégales.
Répondez avec exactement un mot :
* "SAFE" : La publication est appropriée et ne contient pas de contenu grossier ou NSFW
* "NSFW" : Si du contenu grossier, inapproprié ou NSFW est détecté
Soyez conscient du contexte et évitez les faux positifs.
Étapes de configuration
Activer les plugins requis
- Accédez au panneau d’administration de votre site
- Allez dans Plugins > Plugins installés
- Activez les plugins Discourse AI et Automation
Créer une règle d’automatisation
- Dans le panneau d’administration, accédez à Plugins > Automation
- Cliquez sur + Créer pour commencer à créer une nouvelle règle d’automatisation
- Sélectionnez Trier les publications à l’aide de l’IA
- Définissez un nom descriptif (par exemple, “Détection de contenu NSFW”)
Configurer les déclencheurs et les restrictions
Définir le déclencheur :
- Choisissez Publication créée/modifiée comme déclencheur
- Spécifiez éventuellement le type d’action, la catégorie, les balises, les groupes ou les niveaux de confiance pour restreindre la portée de l’automatisation
- Laissez les champs vides pour appliquer l’automatisation à l’ensemble du site
Restrictions optionnelles :
Configurez des paramètres supplémentaires dans la section Quoi/Quand pour limiter davantage la portée de l’automatisation, comme cibler uniquement les premières publications des nouveaux utilisateurs.
Configurer la classification IA
Le champ de l’invite système a été déprécié au profit des Personas. Si vous aviez une automatisation IA avant ce changement, un nouveau Persona avec l’invite système associée sera automatiquement créé.
Persona :
Sélectionnez le Persona défini pour l’automatisation de la détection NSFW.
Texte de recherche :
Entrez la sortie exacte de votre invite qui déclenche les actions d’automatisation. En utilisant les exemples ci-dessus, entrez NSFW.
Définir les actions de modération
Catégorisation et balisage :
- Définissez la catégorie dans laquelle les publications signalées doivent être déplacées
- Spécifiez les balises à ajouter au contenu NSFW identifié
Options de signalement :
- Choisissez le type de signalement : spam (masquer automatiquement) ou file d’attente de révision (révision manuelle)
- Activez “Masquer le sujet” pour masquer automatiquement le contenu signalé
Réponses automatisées :
- Définissez un utilisateur de réponse pour les réponses du système
- Créez un message personnalisé expliquant pourquoi la publication a été signalée
- Utilisez éventuellement un Persona IA pour des réponses dynamiques
Mises en garde
- Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classificateur, veillez à surveiller les coûts et envisagez toujours de ne l’exécuter que sur de petits sous-ensembles.
- Bien que les modèles plus performants, tels que GPT-4o, donnent de meilleurs résultats, cela peut entraîner un coût plus élevé. Cependant, nous avons constaté une diminution des coûts au fil du temps à mesure que les LLM s’améliorent et deviennent moins chers.
Autres utilisations
L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII et la détection de spam. Nous serions ravis de savoir comment vous utilisez cette automatisation pour le bénéfice de votre communauté !


