Configuration de la détection NSFW dans votre communauté

:bookmark: Ceci est un guide pour configurer la détection de contenu NSFW dans votre communauté en utilisant l’automatisation Discourse AI pour identifier et modérer les images et textes inappropriés.

:person_raising_hand: Niveau d’utilisateur requis : Administrateur

Configuration de la détection NSFW dans votre communauté

Détectez et modérez automatiquement le contenu NSFW (Not Safe for Work) dans votre communauté Discourse grâce à l’automatisation basée sur l’IA. Ce guide vous aidera à configurer la détection automatisée pour les images et les contenus textuels inappropriés, vous permettant de maintenir les normes de la communauté avec une intervention manuelle minimale.

Sommaire

Cette documentation couvre la configuration de l’automatisation du Classificateur de Publication Discourse AI pour :

  • Détecter les images NSFW à l’aide de modèles d’IA dotés de capacités de vision.
  • Identifier les contenus textuels et le langage inappropriés.
  • Marquer, catégoriser et modérer automatiquement les publications problématiques.
  • Configurer des réponses personnalisées et des actions de modération.

L’automatisation utilise des grands modèles de langage (LLM) pour analyser le contenu des publications et prend des mesures prédéfinies lorsqu’un matériel NSFW est détecté.

Prérequis

Avant de configurer la détection NSFW, assurez-vous d’avoir activé les éléments suivants :

  • Plugin Discourse AI : Le plugin principal de fonctionnalité IA.
  • Plugin Discourse Automation : Requis pour créer des règles automatisées.
  • Agent : Agent avec une invite système qui définit ce qui constitue un contenu NSFW. Utilisez un langage distinct pour les classifications positives et négatives afin d’éviter toute confusion.
  • LLM doté de capacités de vision : Requis uniquement pour la détection d’images ; les LLM standard fonctionnent pour la détection de texte uniquement.
    • Les clients hébergés par Discourse peuvent sélectionner notre LLM CDCK Hosted Small lors de la configuration des Agents.
    • Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.

Exemples d’invites :

Pour la détection d’images :

Vous êtes un bot spécialisé dans la classification d'images. Répondez uniquement par NSFW ou SAFE, et rien d'autre. NSFW est de la pornographie ou des images sanglantes, et SAFE est tout le reste. En cas de doute, répondez SAFE.

Pour la détection de texte :

Vous êtes un système avancé de modération de contenu IA conçu pour trier les publications générées par les utilisateurs. Votre tâche consiste à détecter et à signaler tout contenu contenant un langage grossier, des termes inappropriés ou du contenu NSFW (Not Safe for Work).

Le contenu NSFW comprend le contenu sexuel explicite, la violence, les discours haineux, le langage graphique, la discrimination, les références à l'automutilation ou les activités illégales.

Répondez avec exactement un mot :
* "SAFE" : La publication est appropriée et ne contient aucun contenu grossier ou NSFW.
* "NSFW" : Si un contenu grossier, inapproprié ou NSFW est détecté.

Soyez conscient du contexte et évitez les faux positifs.

Étapes de configuration

Activer les plugins requis

  1. Naviguez vers le panneau d’administration de votre site.
  2. Allez dans Plugins > Plugins installés
  3. Activez les plugins Discourse AI et Automation.

Créer une règle d’automatisation

  1. Dans le panneau d’administration, naviguez vers Plugins > Automation.
  2. Cliquez sur + Créer pour commencer la création d’une nouvelle règle d’automatisation.
  3. Sélectionnez Trier les publications en utilisant l’IA (Triage Posts Using AI).
  4. Définissez un nom descriptif (par exemple, “Détection de contenu NSFW”).

Configurer les déclencheurs et les restrictions

Définir le déclencheur :

  • Choisissez Publication créée/modifiée comme déclencheur.
  • Spécifiez éventuellement le type d’action, la catégorie, les balises, les groupes ou les niveaux de confiance pour restreindre la portée de l’automatisation.
  • Laissez les champs vides pour appliquer l’automatisation à l’ensemble du site.

Restrictions optionnelles :
Configurez des paramètres supplémentaires dans la section Quoi/Quand pour limiter davantage la portée de l’automatisation, comme cibler uniquement les premières publications des nouveaux utilisateurs.

Configurer la classification par IA

:spiral_notepad: Le champ d’invite système a été déprécié au profit des Agents. Si vous aviez une automatisation IA avant ce changement, un nouvel Agent avec l’invite système associée sera créé automatiquement.

Agent :
Sélectionnez l’Agent défini pour l’automatisation de détection NSFW.

Texte de recherche (Search text) :
Entrez la sortie exacte de votre invite qui déclenche les actions d’automatisation. En utilisant les exemples ci-dessus, entrez NSFW.

Définir les actions de modération

Catégorisation et balisage :

  • Définissez la catégorie vers laquelle les publications signalées doivent être déplacées.
  • Spécifiez les balises à ajouter au contenu NSFW identifié.

Options de signalement (Flagging options) :

  • Choisissez le type de signalement : spam (cacher automatiquement) ou file d’attente de révision (révision manuelle).
  • Activez “Masquer le sujet” pour masquer automatiquement le contenu signalé.

Réponses automatisées :

  • Définissez un utilisateur de réponse pour les réponses système.
  • Créez un message personnalisé expliquant pourquoi la publication a été signalée.
  • Utilisez éventuellement l’Agent IA pour des réponses dynamiques.

Limites

  • Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classificateur, veillez à surveiller les coûts et envisagez toujours de l’exécuter uniquement sur de petits sous-ensembles.
  • Bien que les modèles offrant de meilleures performances, par exemple GPT-4o, donneront de meilleurs résultats, cela peut engendrer un coût plus élevé. Cependant, nous avons constaté que le coût diminue avec le temps à mesure que les LLM deviennent encore meilleurs et moins chers.

Autres utilisations

L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII (Informations d’Identification Personnelle) et la détection de spam. Nous serions ravis de savoir comment vous utilisez cette automatisation pour bénéficier à votre communauté !

8 « J'aime »

Un message a été divisé dans un nouveau sujet : LLM et retard de détection de contenu NSFW