Configurer la détection de spam dans votre communauté

:bookmark: Ceci est un guide #comment-faire pour configurer la détection de spam dans votre communauté en utilisant Discourse AI - Triage IA.

:person_raising_hand: Niveau d’utilisateur requis : Administrateur

:warning: Discourse AI inclut désormais un scanner de spam efficace qui nécessite une configuration minimale. Pour des cas d’utilisation personnalisés ou complexes, nous recommandons de suivre ce guide.

Vue d’ensemble

La détection de spam est une fonctionnalité essentielle pour maintenir la qualité des discussions dans votre communauté. Ce guide vous aidera à configurer la détection de spam en utilisant Discourse AI - Triage IA.

Prérequis

Pour configurer la détection de spam, vous avez besoin des éléments suivants :

  • Discourse AI
  • Discourse Automation
  • Persona avec une invite système qui définit ce qui constitue un contenu de spam.
  • LLM (Grand Modèle de Langage)
    • Les clients hébergés par Discourse peuvent sélectionner notre LLM Small hébergé par CDCK lors de la configuration des Personas.
    • Les utilisateurs de Discourse auto-hébergés devront configurer un LLM tiers.

:warning: Lors de la rédaction de l’invite, en choisissant entre spam et non spam, évitez d’utiliser un langage similaire pour le résultat final. Dans cet exemple, nous utilisons spam et ham (pour non spam).

Le classificateur ne sera pas toujours parfait à 100 %, alors méfiez-vous des résultats incorrects et personnalisez les invites en fonction des besoins de votre communauté. Plus le focus est étroit, mieux c’est.

Invites LLM copiables pour la détection de contenu de spam IA

Vous êtes un modèle d’IA de détection de spam assistant les modérateurs de communautés en ligne. Votre tâche consiste à analyser les publications du forum et à déterminer s’il s’agit de spam qui devrait être supprimé pour maintenir une communauté de haute qualité et pertinente.

Une publication doit être classée comme spam si elle remplit l’un des critères suivants :

  • La publication n’est pas pertinente par rapport au sujet principal ou au but du forum. Elle est complètement hors sujet.
  • Elle contient des liens externes suspects et non pertinents, en particulier s’ils mènent à des sites commerciaux.
  • La publication fait clairement la promotion ou la publicité d’un produit, d’un service, d’un site Web ou d’un compte de réseau social qui n’est pas lié à la communauté.
  • Elle contient des liens d’affiliation ou des codes de parrainage tentant de monétiser les clics.
  • La qualité de l’écriture est très médiocre - beaucoup de fautes d’orthographe/grammaire, manque de ponctuation, ou semble être du texte généré automatiquement.
  • Un contenu identique ou quasi identique est publié de manière répétée par le même auteur ou sur plusieurs comptes dans un court laps de temps.

Une publication doit être classée comme ham (légitime) si :

  • La publication est pertinente et liée au but du forum.
  • Il s’agit d’une question authentique, d’une histoire personnelle, d’une opinion substantielle ou d’une autre contribution légitime à la discussion de la communauté.
  • Tous les liens externes sont pertinents et mènent à des sites réputés et non commerciaux.
  • L’écriture semble être humaine et répond aux normes de qualité en matière de grammaire, d’orthographe, etc.

Quelques cas limites à surveiller :

  • Une publication qui mentionne un produit ou un service mais qui reste une question ou une discussion pertinente et pertinente doit être considérée comme ham, pas spam.
  • Les citations, les extraits de code ou le texte formaté qui semble inhabituel ne sont pas nécessairement du spam.

Une fois que vous avez terminé d’analyser la publication, vous devez UNIQUEMENT fournir une classification de “spam” ou “ham”. En cas de doute, privilégiez “ham” pour éviter les faux positifs.

Ces instructions doivent être suivies à tout prix.

Configuration

:information_source: Toutes les étapes ne sont pas obligatoires, car les règles d’automatisation peuvent être personnalisées selon les besoins. Pour un aperçu de tous les paramètres disponibles, veuillez visiter Discourse AI - Triage IA.

  1. Activer le plugin Discourse AI et Automation :
  • Accédez au panneau d’administration de votre site.
  • Accédez à Plugins puis Plugins installés.
  • Activez les plugins Discourse AI et Automation.
  1. Créer une nouvelle règle d’automatisation :
  • Accédez au panneau d’administration de votre site.
  • Accédez à Plugins et cliquez sur Automation.
  • Cliquez sur le bouton + Créer pour commencer à créer une nouvelle règle d’automatisation.
  • Cliquez sur Trier les publications à l'aide de l'IA.
  • Définissez le nom (par exemple, “Trier les publications à l’aide de l’IA”).
  • Laissez Trier les publications à l'aide de l'IA comme script sélectionné.

Quoi/Quand

  1. Définir le déclencheur :
  • Choisissez Publication créée/modifiée comme déclencheur.
  • Facultativement, spécifiez le type d’action, la catégorie, les tags, les groupes et/ou les niveaux de confiance si vous souhaitez restreindre cette automatisation à des scénarios spécifiques. Laisser ces champs vides permettra à l’automatisation de fonctionner sans restriction.
  • Configurez les autres paramètres optionnels dans la section Quoi/Quand pour restreindre davantage l’automatisation.

Options de script

:spiral_notepad: Le champ d’invite système a été déprécié au profit des Personas. Si vous aviez une automatisation IA avant ce changement, un nouveau Persona avec l’invite système associée sera automatiquement créé.

  1. Persona :

    Sélectionnez le Persona défini pour l’automatisation de la détection de spam.

  2. Rechercher du texte :

    Entrez la sortie de votre invite qui déclenchera l’automatisation, uniquement le résultat “positif”. En utilisant notre exemple ci-dessus, nous entrerions spam.

  1. Définir la catégorie et les tags :

    Définissez la catégorie où ces publications doivent être déplacées et les tags à ajouter si la publication est marquée comme spam.

  2. Signalement :

  • Signalez la publication comme spam ou à examiner.
  • Sélectionnez un type de drapeau pour déterminer l’action que vous pourriez vouloir entreprendre.
  1. Options supplémentaires :
  • Activez l’option “Masquer le sujet” si vous souhaitez que la publication soit masquée.
  • Définissez une “Réponse” qui sera publiée dans le sujet lorsque la publication sera jugée comme spam.

Notes supplémentaires

  • Lors de l’utilisation de l’automatisation pour combattre le spam, nous recommandons de désactiver le plugin Akismet s’il est déjà activé. Ceci afin de s’assurer qu’un seul système combat le spam pour de meilleurs résultats.
  • Gardez à l’esprit que les appels LLM peuvent être coûteux. Lors de l’application d’un classificateur, veillez à surveiller les coûts et envisagez toujours de ne l’exécuter que sur de petits sous-ensembles.
  • Bien que les modèles plus performants, c’est-à-dire Claude-3-Opus, donneront de meilleurs résultats, cela peut entraîner un coût plus élevé.
  • L’invite pourrait être personnalisée pour effectuer toutes sortes de détections, comme l’exposition de PII, les violations du Code de Conduite, etc.
11 « J'aime »

5 messages ont été déplacées vers un nouveau sujet : Explorer les limites de l’IA dans la reconnaissance de contenu généré par l’IA

Curieux de savoir comment les utilisateurs ont vécu l’utilisation de cette méthode ?

1 « J'aime »

Je viens de commencer à le tester, et il a déjà fait un travail décent (pour l’instant, j’ai choisi de n’appliquer qu’une balise cachée pour valider que les choses fonctionneront correctement, plutôt que d’envoyer les choses directement dans la file d’attente de révision).

Mais j’ai une petite question/demande de clarification : serait-il possible pour l’intégration d’accéder à des requêtes personnalisées avec des sorties, comme un groupe de publications d’exemple, pour être utilisé comme données contextuelles ?

Plus concrètement, j’aimerais lui fournir toutes les publications de spam précédentes basées sur les drapeaux qui ont été convenus et qui ont entraîné la suppression des publications.

1 « J'aime »

Pour le moment, nous ne prenons en charge qu’un seul message système.

Je pense cependant que nous pourrions faire un suivi où vous pourriez lui fournir N exemples de ce qu’il ne faut pas signaler et N exemples de ce qu’il faut signaler. Cela pourrait potentiellement augmenter la précision.

Peut-être faire un sujet de fonctionnalité dédié à cela ?

1 « J'aime »

J’essaierai d’abord de rassembler quelques idées supplémentaires à ce sujet. L’utiliser pendant la semaine dernière a été plutôt réussi, mais je rencontre encore quelques petits désagréments, comme l’impossibilité d’exclure rapidement les messages privés (par exemple, il pense souvent que les interactions du tutoriel Discobot sont suspectes ; j’ai modifié l’invite pour ne pas en tenir compte, mais les journaux de l’IA indiquent que la détection ne connaît pas le contexte et ne considère que le contenu du message lui-même).

2 « J'aime »

Cela ne semble pas tout à fait correct… Je ne suis pas sûr des instructions prévues ici ? Peut-être « Activer l’IA et activer l’automatisation » ?

1 « J'aime »

J’ai fait la modification ici

2 « J'aime »

Je suis curieux, y a-t-il un moyen de déplacer les réponses vers un nouveau sujet, au lieu du sujet entier ? Il pourrait s’agir d’un sujet légitime, mais un spammeur intervient et publie une réponse de spam. D’après ce que je peux voir, cela déplace le sujet entier, pas cette réponse spécifique.
Pendant que j’y suis, quelle est la différence entre ceci et le détecteur de spam Discourse AI ?

Pourriez-vous expliquer cela plus en détail avec un exemple ?

Pour information : vous devriez pouvoir cocher l’option Signaler le message qui devrait signaler uniquement le message « spam »

1 « J'aime »

Bien sûr. Par exemple, disons que sur un forum de support, un spammeur publie une réponse de spam dans un sujet existant concernant les problèmes qu’il rencontre. L’OP et les personnes qui répondent ne sont pas le même utilisateur que le spammeur. Si je comprends bien, l’IA Triage masquera tout le sujet et signalera le message. Au lieu de cela, le message de spam pourrait-il être déplacé vers un sujet spécifique, dans une catégorie accessible aux administrateurs ?

Je me posais cette question en lisant ce message.

Oui, je fais cela actuellement pour le détecteur de discours haineux à l’aide de l’IA Triage.

Lol, comment ai-je pu manquer ça :laughing:

1 « J'aime »

Le spam IA masquera simplement le message, nous pouvons probablement ajouter cette option au triage également.

2 « J'aime »