Ce sujet couvre la configuration de la fonctionnalité de toxicité du plugin Discourse AI.
Niveau d’utilisateur requis : Administrateur
Les modules de toxicité peuvent classifier automatiquement le score de toxicité de chaque nouveau message et de chaque message de chat dans votre instance Discourse. Vous pouvez également activer le signalement automatique du contenu qui dépasse un seuil.
Les classifications sont stockées dans la base de données, vous pouvez donc activer le plugin et utiliser Data Explorer pour obtenir des rapports sur la classification du nouveau contenu dans Discourse immédiatement. Nous expédierons bientôt des requêtes Data Explorer par défaut avec le plugin pour faciliter cela.
Paramètres
ai_toxicity_enabled : Active ou désactive le module.
ai_toxicity_inference_service_api_endpoint : URL où l’API du module de toxicité est exécutée. Si vous utilisez l’hébergement CDCK, cela est géré automatiquement pour vous. Si vous auto-hébergez, consultez le guide d’auto-hébergement.
ai_toxicity_inference_service_api_key : Clé API pour l’API de toxicité configurée ci-dessus. Si vous utilisez l’hébergement CDCK, cela est géré automatiquement pour vous. Si vous auto-hébergez, consultez le guide d’auto-hébergement.
ai_toxicity_inference_service_api_model : ai_toxicity_inference_service_api_model : Nous proposons trois modèles différents :
original,unbiasedetmultilingual.unbiasedest recommandé par rapport àoriginalcar il essaiera de ne pas reporter les biais introduits par le matériel d’entraînement dans la classification. Pour les communautés multilingues, le dernier modèle prend en charge l’italien, le français, le russe, le portugais, l’espagnol et le turc.ai_toxicity_flag_automatically : Signaler automatiquement les messages/messages de chat lorsque la classification d’une catégorie spécifique dépasse le seuil configuré. Les catégories disponibles sont
toxicity,severe_toxicity,obscene,identity_attack,insult,threatetsexual_explicit. Il existe un paramètreai_toxicity_flag_threshold_${category}pour chacun d’eux.ai_toxicity_groups_bypass : Les utilisateurs de ces groupes ne verront pas leurs messages classifiés par le module de toxicité. Par défaut, cela inclut les utilisateurs du personnel.
Ressources supplémentaires
Je suis en train d’ajuster cela, est-ce que je suppose correctement qu’un seuil plus élevé est plus strict et un seuil plus bas est plus souple ?
Je dirais que plus le seuil est élevé, plus il est clément. Un seuil plus bas serait plus susceptible de signaler un message comme toxique puisqu’il faudrait moins pour déclencher un signalement, donc un seuil plus élevé nécessiterait plus pour déclencher un signalement.
Seuil bas = facile à franchir
Seuil élevé = plus difficile à franchir
Je veux avoir un mécanisme pour intercepter les tentatives d’activités commerciales sur notre site - pas de toxicité en soi, mais très dommageable pour notre communauté.
Ceci est proche, mais pas tout à fait ce que nous recherchons.
Avez-vous considéré cette dimension ?
Ceci est couvert par la Règle d’automatisation du classificateur de publications Discourse AI. Tenez-moi au courant de son déroulement.
Quelqu’un peut-il m’aider à le configurer avec l’API Perspective de Google ? J’aurais mis une annonce sur le marché, mais je pense qu’ici c’est plus approprié.
Je sais que cela remonte à un an, mais s’il vous plaît, faites-moi savoir comment cette implémentation s’est déroulée ! J’y suis personnellement investi ^^ Cela dit, corrigez-moi si je me trompe @Discourse, mais les attributs que vous mentionnez sur cette page SONT les métriques atomiques de Perspective, telles qu’implémentées via Detoxify, donc ajouter Perspective est un peu un point discutable, n’est-ce pas ?
- ai_toxicity_flag_automatically : Marquez automatiquement les publications/messages de chat lorsque la classification d’une catégorie spécifique dépasse le seuil configuré. Les catégories disponibles sont
toxicity,severe_toxicity,obscene,identity_attack,insult,threatetsexual_explicit. Il existe un paramètreai_toxicity_flag_threshold_${category}pour chacune d’elles.
Quoi qu’il en soit, Detoxify peut être implémenté par la communauté Kaggle. C’est un excellent endroit pour trouver quelqu’un pour l’implémenter car c’est précisément ce que fait Kaggle ![]()
Nous avons intégré les modèles GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. pour gérer la classification automatique de la toxicité et effectuer un signalement automatique lorsque le seuil configurable est dépassé.
Ce que nous avons constaté, c’est que si cela fonctionne très bien si vous avez une tolérance zéro pour la toxicité typique sur vos instances, comme c’est le cas pour les instances plus orientées “marque”, pour d’autres instances Discourse plus orientées communauté, les modèles de toxicité étaient trop stricts, générant trop de signalements dans les instances plus tolérantes.
Pour cette raison, notre plan actuel est de Déprécier la toxicité et de déplacer cette fonctionnalité vers notre plugin AI Triage, où nous fournissons une invite personnalisable aux administrateurs pour adapter leur détection automatique de toxicité aux niveaux autorisés dans leur instance.
Nous prévoyons également d’offrir à nos clients un LLM de modération hébergé, dans le genre de https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, qui a très bien fonctionné lors de nos évaluations internes par rapport au même ensemble de données utilisé dans la compétition Kaggle originale de Jigsaw qui a donné naissance à Detoxify.