Configuration de la détection de spam dans votre communauté

:bookmark: Ceci est un guide de #comment-faire pour configurer la détection de spam dans votre communauté à l’aide de Discourse AI - AI triage.

:person_raising_hand: Niveau d’utilisateur requis : Administrateur

:warning: Discourse AI inclut désormais un analyseur de spam efficace qui nécessite une configuration minimale. Pour des cas d’utilisation personnalisés ou complexes, nous vous recommandons de suivre ce guide

Vue d’ensemble

La détection de spam est une fonctionnalité essentielle pour maintenir la qualité des discussions dans votre communauté. Ce guide vous aidera à configurer la détection de spam à l’aide de Discourse AI - AI triage.

Prérequis

Pour configurer la détection de spam, vous avez besoin des éléments suivants :

  • Discourse AI
  • Discourse Automation
  • Agent IA avec une invite système qui définit ce qui constitue un contenu de spam.
  • LLM (Grand Modèle de Langage)
    • Les clients hébergés par Discourse peuvent sélectionner un LLM hébergé lors de la configuration des Agents IA.
    • Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.

:warning: Lors de la rédaction de l’invite, en choisissant entre spam et non-spam, évitez d’utiliser un langage similaire pour le résultat final. Dans cet exemple, nous utilisons spam et ham (pour non-spam)

Le classificateur ne sera pas toujours performant à 100 %, soyez donc conscient des résultats incorrects et personnalisez les invites en fonction des besoins de votre communauté. Plus la portée est étroite, mieux c’est.

Invites LLM copiables pour la détection de contenu de spam IA

Vous êtes un modèle d’IA de détection de spam assistant les modérateurs de communauté en ligne. Votre tâche consiste à analyser les messages de forum et à déterminer s’il s’agit de spam qui doit être supprimé pour maintenir une communauté de haute qualité et pertinente.

Un message doit être classé comme spam s’il répond à l’un des critères suivants :

  • Le message n’est pas pertinent par rapport au sujet principal ou à l’objectif du forum. Il est complètement hors sujet.
  • Il contient des liens externes suspects et non pertinents, en particulier s’ils pointent vers des sites commerciaux.
  • Le message fait clairement la promotion ou la publicité d’un produit, service, site web ou compte de média social sans rapport avec la communauté.
  • Il contient des liens d’affiliation ou des codes de parrainage tentant de monétiser les clics.
  • La qualité de l’écriture est de très faible effort - beaucoup de fautes d’orthographe/grammaire, manque de ponctuation, ou semble être du texte généré automatiquement.
  • Du contenu identique ou quasi identique est publié de manière répétée par le même auteur ou sur plusieurs comptes dans un court laps de temps.

Un message doit être classé comme ham (légitime) si :

  • Le message est pertinent et concerne l’objectif du forum
  • Il s’agit d’une véritable question, d’une histoire personnelle, d’une opinion substantielle ou d’une contribution légitime à la discussion communautaire
  • Tous les liens externes sont pertinents et pointent vers des sites réputés et non commerciaux
  • L’écriture semble être humaine et répond aux normes de qualité en matière de grammaire, d’orthographe, etc.

Quelques cas limites à surveiller :

  • Un message qui mentionne un produit ou un service mais qui reste une question ou une discussion pertinente et sur le sujet doit être considéré comme ham, pas spam.
  • Les citations, les exemples de code ou le texte formaté qui semblent inhabituels ne sont pas nécessairement du spam.

Une fois que vous avez terminé d’analyser le message, vous ne devez fournir QUE une classification de “spam” ou “ham”. En cas de doute, choisissez par défaut “ham” pour éviter les faux positifs.

Ces instructions doivent être suivies à tout prix

Configuration

:information_source: Toutes les étapes ne sont pas obligatoires car les règles d’automatisation peuvent être personnalisées selon les besoins. Pour un aperçu de tous les paramètres disponibles, veuillez consulter Discourse AI - AI triage.

  1. Activer les plugins Discourse AI et Automation :
  • Accédez au panneau d’administration de votre site.
  • Accédez à Plugins puis Plugins installés
  • Activez les plugins Discourse AI et Automation
  1. Créer une nouvelle règle d’automatisation :
  • Accédez au panneau d’administration de votre site.
  • Accédez à Plugins et cliquez sur Automation
  • Cliquez sur le bouton + Créer pour commencer à créer une nouvelle règle d’automatisation
  • Cliquez sur Triage Posts Using AI (Trier les messages à l’aide de l’IA)
  • Définissez le nom (par exemple, “Triage des messages à l’aide de l’IA”)
  • Laissez Triage Posts Using AI comme script sélectionné

Quoi/Quand

  1. Définir le déclencheur :
  • Choisissez Post created/edited (Message créé/modifié) ou Stalled topic (Sujet bloqué) comme déclencheur.
  • Facultativement, spécifiez le type d’action, la catégorie, les balises, les groupes et/ou les niveaux de confiance si vous souhaitez restreindre cette automatisation à des scénarios spécifiques. Laisser ces champs vides permettra à l’automatisation de fonctionner sans restriction.
  • Configurez tous les paramètres restants facultatifs dans la section Quoi/Quand pour restreindre davantage l’automatisation.

Options du script

:spiral_notepad: Le champ de l’invite système a été déprécié au profit des Agents IA. Si vous aviez une automatisation IA avant ce changement, un nouvel Agent IA avec l’invite système associée sera créé automatiquement.

  1. Agent :

Sélectez l’Agent IA défini pour l’automatisation de détection de spam. L’agent doit avoir un LLM par défaut configuré.

  1. Rechercher du texte :

Entrez la sortie de votre invite qui déclenchera l’automatisation, seulement le résultat “positif”. En utilisant notre exemple ci-dessus, nous entrerions spam.

  1. Définir la catégorie et les balises :

Définissez la catégorie vers laquelle ces messages doivent être déplacés et les balises à ajouter si le message est marqué comme spam.

  1. Signalement : :
  • Activez l’option “Flag post” (Signaler le message) pour signaler les messages correspondants.
  • Sélectionnez un type de signalement pour déterminer l’action à entreprendre :
    • Add post to review queue (Ajouter le message à la file d’attente de révision) — envoie le message à la file d’attente de révision pour action du modérateur.
    • Add post to review queue and hide post (Ajouter le message à la file d’attente de révision et masquer le message) — l’envoie en révision et masque le message.
    • Add post to review queue and delete post (Ajouter le message à la file d’attente de révision et supprimer le message) — l’envoie en révision et supprime le message.
    • Add post to review queue, delete post and silence user (Ajouter le message à la file d’attente de révision, supprimer le message et réduire au silence l’utilisateur) — l’envoie en révision, le supprime et réduit l’auteur au silence.
    • Flag as spam and hide post (Signaler comme spam et masquer le message) — signale comme spam et masque.
    • Flag as spam, hide post and silence user (Signaler comme spam, masquer le message et réduire l’utilisateur au silence) — signale comme spam, masque et réduit l’auteur au silence.
  1. Options supplémentaires :
  • Activez l’option “Hide Topic” (Masquer le sujet) si vous souhaitez que le sujet du message soit masqué.
  • Définissez une “Reply” (Réponse) qui sera publiée dans le sujet lorsque le message est jugé comme spam.
  • Utilisez l’option “Reply Agent” (Agent de réponse) pour qu’un Agent IA différent compose une réponse dynamique au lieu d’une réponse prédéfinie.
  • Activez “Reply as Whisper” (Répondre en chuchotant) pour que les réponses ne soient visibles que par le personnel.
  • Activez “Include personal messages” (Inclure les messages personnels) pour analyser et trier également les messages personnels.
  • Activez “Notify author via PM” (Notifier l’auteur via MP) pour envoyer un message personnel à l’auteur du message lorsque son contenu est signalé. Vous pouvez configurer l’expéditeur du MP et le contenu personnalisé du message.

Notes supplémentaires

  • Lors de l’utilisation de l’automatisation pour lutter contre le spam, nous vous recommandons de désactiver le plugin Akismet s’il est déjà activé. Ceci afin de garantir qu’un seul système lutte contre le spam pour de meilleurs résultats.
  • Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classificateur, soyez prudent quant au suivi des coûts et envisagez toujours de n’exécuter cela que sur de petits sous-ensembles
  • Bien que de meilleurs modèles offrent de meilleurs résultats, ils peuvent engendrer un coût plus élevé
  • L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII (informations d’identification personnelle), les violations du code de conduite, etc.
11 « J'aime »

5 messages ont été déplacées vers un nouveau sujet : Explorer les limites de l’IA dans la reconnaissance de contenu généré par l’IA

Curieux de savoir comment les utilisateurs ont vécu l’utilisation de cette méthode ?

1 « J'aime »

Je viens de commencer à le tester, et il a déjà fait un travail décent (pour l’instant, j’ai choisi de n’appliquer qu’une balise cachée pour valider que les choses fonctionneront correctement, plutôt que d’envoyer les choses directement dans la file d’attente de révision).

Mais j’ai une petite question/demande de clarification : serait-il possible pour l’intégration d’accéder à des requêtes personnalisées avec des sorties, comme un groupe de publications d’exemple, pour être utilisé comme données contextuelles ?

Plus concrètement, j’aimerais lui fournir toutes les publications de spam précédentes basées sur les drapeaux qui ont été convenus et qui ont entraîné la suppression des publications.

1 « J'aime »

Pour le moment, nous ne prenons en charge qu’un seul message système.

Je pense cependant que nous pourrions faire un suivi où vous pourriez lui fournir N exemples de ce qu’il ne faut pas signaler et N exemples de ce qu’il faut signaler. Cela pourrait potentiellement augmenter la précision.

Peut-être faire un sujet de fonctionnalité dédié à cela ?

1 « J'aime »

J’essaierai d’abord de rassembler quelques idées supplémentaires à ce sujet. L’utiliser pendant la semaine dernière a été plutôt réussi, mais je rencontre encore quelques petits désagréments, comme l’impossibilité d’exclure rapidement les messages privés (par exemple, il pense souvent que les interactions du tutoriel Discobot sont suspectes ; j’ai modifié l’invite pour ne pas en tenir compte, mais les journaux de l’IA indiquent que la détection ne connaît pas le contexte et ne considère que le contenu du message lui-même).

2 « J'aime »

Cela ne semble pas tout à fait correct… Je ne suis pas sûr des instructions prévues ici ? Peut-être « Activer l’IA et activer l’automatisation » ?

1 « J'aime »

J’ai fait la modification ici

2 « J'aime »

Je suis curieux, y a-t-il un moyen de déplacer les réponses vers un nouveau sujet, au lieu du sujet entier ? Il pourrait s’agir d’un sujet légitime, mais un spammeur intervient et publie une réponse de spam. D’après ce que je peux voir, cela déplace le sujet entier, pas cette réponse spécifique.
Pendant que j’y suis, quelle est la différence entre ceci et le détecteur de spam Discourse AI ?

Pourriez-vous expliquer cela plus en détail avec un exemple ?

Pour information : vous devriez pouvoir cocher l’option Signaler le message qui devrait signaler uniquement le message « spam »

1 « J'aime »

Bien sûr. Par exemple, disons que sur un forum de support, un spammeur publie une réponse de spam dans un sujet existant concernant les problèmes qu’il rencontre. L’OP et les personnes qui répondent ne sont pas le même utilisateur que le spammeur. Si je comprends bien, l’IA Triage masquera tout le sujet et signalera le message. Au lieu de cela, le message de spam pourrait-il être déplacé vers un sujet spécifique, dans une catégorie accessible aux administrateurs ?

Je me posais cette question en lisant ce message.

Oui, je fais cela actuellement pour le détecteur de discours haineux à l’aide de l’IA Triage.

Lol, comment ai-je pu manquer ça :laughing:

1 « J'aime »

Le spam IA masquera simplement le message, nous pouvons probablement ajouter cette option au triage également.

2 « J'aime »