Discourse AI - Toxicité

Nous avons intégré les modèles GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. pour gérer la classification automatique de la toxicité et effectuer un signalement automatique lorsque le seuil configurable est dépassé.

Ce que nous avons constaté, c’est que si cela fonctionne très bien si vous avez une tolérance zéro pour la toxicité typique sur vos instances, comme c’est le cas pour les instances plus orientées “marque”, pour d’autres instances Discourse plus orientées communauté, les modèles de toxicité étaient trop stricts, générant trop de signalements dans les instances plus tolérantes.

Pour cette raison, notre plan actuel est de Déprécier la toxicité et de déplacer cette fonctionnalité vers notre plugin AI Triage, où nous fournissons une invite personnalisable aux administrateurs pour adapter leur détection automatique de toxicité aux niveaux autorisés dans leur instance.

Nous prévoyons également d’offrir à nos clients un LLM de modération hébergé, dans le genre de https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, qui a très bien fonctionné lors de nos évaluations internes par rapport au même ensemble de données utilisé dans la compétition Kaggle originale de Jigsaw qui a donné naissance à Detoxify.

4 « J'aime »