Configurer la détection NSFW dans votre communauté

Saif · Octobre 10, 2024, 4:26

Ceci est un guide pour configurer la détection de contenu NSFW dans votre communauté à l’aide de l’automatisation Discourse AI pour identifier et modérer les images et le texte inappropriés.

Niveau d’utilisateur requis : Administrateur

Configuration de la détection NSFW dans votre communauté

Détectez et modérez automatiquement le contenu NSFW (Not Safe for Work) dans votre communauté Discourse à l’aide de l’automatisation alimentée par l’IA. Ce guide vous aidera à configurer la détection automatisée pour le contenu d’images et de texte inappropriés, vous permettant de maintenir les normes de la communauté avec une intervention manuelle minimale.

Résumé

Cette documentation couvre la configuration de l’automatisation Discourse AI Post Classifier pour :

Détecter les images NSFW à l’aide de modèles d’IA dotés de capacités de vision
Identifier le contenu textuel et le langage inappropriés
Marquer, catégoriser et modérer automatiquement les publications problématiques
Configurer des réponses personnalisées et des actions de modération

L’automatisation utilise des grands modèles de langage (LLM) pour analyser le contenu des publications et prend des actions prédéfinies lorsque du matériel NSFW est détecté.

Prérequis

Avant de configurer la détection NSFW, assurez-vous que les éléments suivants sont activés :

Plugin Discourse AI - Le plugin principal de fonctionnalité IA
Plugin Discourse Automation : requis pour créer des règles automatisées
Persona : Persona avec une invite système qui définit ce qui constitue un contenu NSFW. Utilisez un langage distinct pour les classifications positives et négatives afin d’éviter toute confusion.
LLM doté de capacités de vision : requis uniquement pour la détection d’images ; les LLM standard fonctionnent pour la détection de texte uniquement.
- Les clients hébergés par Discourse peuvent sélectionner notre petit LLM hébergé par CDCK lors de la configuration des Personas.
- Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.

Exemples d’invites :

Pour la détection d’images :

Vous êtes un bot spécialisé dans la classification d'images. Répondez uniquement par NSFW ou SAFE, et rien d'autre. NSFW est de la pornographie ou du gore, et SAFE est tout le reste. En cas de doute, répondez SAFE.

Pour la détection de texte :

Vous êtes un système avancé de modération de contenu IA conçu pour trier les publications générées par les utilisateurs. Votre tâche consiste à détecter et à signaler tout contenu contenant un langage grossier, des termes inappropriés ou du contenu NSFW (Not Safe for Work).

Le contenu NSFW comprend le contenu sexuel explicite, la violence, les discours de haine, le langage graphique, la discrimination, les références à l'automutilation ou les activités illégales.

Répondez avec exactement un mot :
* "SAFE" : La publication est appropriée et ne contient pas de contenu grossier ou NSFW
* "NSFW" : Si du contenu grossier, inapproprié ou NSFW est détecté

Soyez conscient du contexte et évitez les faux positifs.

Étapes de configuration

Activer les plugins requis

Accédez au panneau d’administration de votre site
Allez dans Plugins > Plugins installés
Activez les plugins Discourse AI et Automation

Créer une règle d’automatisation

Dans le panneau d’administration, accédez à Plugins > Automation
Cliquez sur + Créer pour commencer à créer une nouvelle règle d’automatisation
Sélectionnez Trier les publications à l’aide de l’IA
Définissez un nom descriptif (par exemple, “Détection de contenu NSFW”)

Configurer les déclencheurs et les restrictions

Définir le déclencheur :

Choisissez Publication créée/modifiée comme déclencheur
Spécifiez éventuellement le type d’action, la catégorie, les balises, les groupes ou les niveaux de confiance pour restreindre la portée de l’automatisation
Laissez les champs vides pour appliquer l’automatisation à l’ensemble du site

Restrictions optionnelles :
Configurez des paramètres supplémentaires dans la section Quoi/Quand pour limiter davantage la portée de l’automatisation, comme cibler uniquement les premières publications des nouveaux utilisateurs.

Configurer la classification IA

Le champ de l’invite système a été déprécié au profit des Personas. Si vous aviez une automatisation IA avant ce changement, un nouveau Persona avec l’invite système associée sera automatiquement créé.

Persona :
Sélectionnez le Persona défini pour l’automatisation de la détection NSFW.

Texte de recherche :
Entrez la sortie exacte de votre invite qui déclenche les actions d’automatisation. En utilisant les exemples ci-dessus, entrez NSFW.

Définir les actions de modération

Catégorisation et balisage :

Définissez la catégorie dans laquelle les publications signalées doivent être déplacées
Spécifiez les balises à ajouter au contenu NSFW identifié

Options de signalement :

Choisissez le type de signalement : spam (masquer automatiquement) ou file d’attente de révision (révision manuelle)
Activez “Masquer le sujet” pour masquer automatiquement le contenu signalé

Réponses automatisées :

Définissez un utilisateur de réponse pour les réponses du système
Créez un message personnalisé expliquant pourquoi la publication a été signalée
Utilisez éventuellement un Persona IA pour des réponses dynamiques

Mises en garde

Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classificateur, veillez à surveiller les coûts et envisagez toujours de ne l’exécuter que sur de petits sous-ensembles.
Bien que les modèles plus performants, tels que GPT-4o, donnent de meilleurs résultats, cela peut entraîner un coût plus élevé. Cependant, nous avons constaté une diminution des coûts au fil du temps à mesure que les LLM s’améliorent et deviennent moins chers.

Autres utilisations

L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII et la détection de spam. Nous serions ravis de savoir comment vous utilisez cette automatisation pour le bénéfice de votre communauté !

Sujet		Réponses	Vues
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	Juillet 7, 2023
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	857	Août 7, 2024
NSFW image blurring in chat Support chat , ai	5	513	Septembre 26, 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2465	Septembre 25, 2025
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	688	Mai 26, 2025