Discourse AI - Toxicité

Discourse · Avril 24, 2023, 7:39

Ce sujet couvre la configuration de la fonctionnalité de toxicité du plugin Discourse AI.

Niveau d’utilisateur requis : Administrateur

Les modules de toxicité peuvent classifier automatiquement le score de toxicité de chaque nouveau message et de chaque message de chat dans votre instance Discourse. Vous pouvez également activer le signalement automatique du contenu qui dépasse un seuil.

Les classifications sont stockées dans la base de données, vous pouvez donc activer le plugin et utiliser Data Explorer pour obtenir des rapports sur la classification du nouveau contenu dans Discourse immédiatement. Nous expédierons bientôt des requêtes Data Explorer par défaut avec le plugin pour faciliter cela.

Paramètres

ai_toxicity_enabled : Active ou désactive le module.

ai_toxicity_inference_service_api_endpoint : URL où l’API du module de toxicité est exécutée. Si vous utilisez l’hébergement CDCK, cela est géré automatiquement pour vous. Si vous auto-hébergez, consultez le guide d’auto-hébergement.

ai_toxicity_inference_service_api_key : Clé API pour l’API de toxicité configurée ci-dessus. Si vous utilisez l’hébergement CDCK, cela est géré automatiquement pour vous. Si vous auto-hébergez, consultez le guide d’auto-hébergement.

ai_toxicity_inference_service_api_model : ai_toxicity_inference_service_api_model : Nous proposons trois modèles différents : original, unbiased et multilingual. unbiased est recommandé par rapport à original car il essaiera de ne pas reporter les biais introduits par le matériel d’entraînement dans la classification. Pour les communautés multilingues, le dernier modèle prend en charge l’italien, le français, le russe, le portugais, l’espagnol et le turc.

ai_toxicity_flag_automatically : Signaler automatiquement les messages/messages de chat lorsque la classification d’une catégorie spécifique dépasse le seuil configuré. Les catégories disponibles sont toxicity, severe_toxicity, obscene, identity_attack, insult, threat et sexual_explicit. Il existe un paramètre ai_toxicity_flag_threshold_${category} pour chacun d’eux.

ai_toxicity_groups_bypass : Les utilisateurs de ces groupes ne verront pas leurs messages classifiés par le module de toxicité. Par défaut, cela inclut les utilisateurs du personnel.

Ressources supplémentaires

Discourse AI

Install plugins on a self-hosted site

Hifihedgehog · Septembre 11, 2023, 11:18

Je suis en train d’ajuster cela, est-ce que je suppose correctement qu’un seuil plus élevé est plus strict et un seuil plus bas est plus souple ?

JimPas · Septembre 12, 2023, 5:08

Je dirais que plus le seuil est élevé, plus il est clément. Un seuil plus bas serait plus susceptible de signaler un message comme toxique puisqu’il faudrait moins pour déclencher un signalement, donc un seuil plus élevé nécessiterait plus pour déclencher un signalement.
Seuil bas = facile à franchir
Seuil élevé = plus difficile à franchir

nathank · Novembre 23, 2023, 7:45

Je veux avoir un mécanisme pour intercepter les tentatives d’activités commerciales sur notre site - pas de toxicité en soi, mais très dommageable pour notre communauté.

Ceci est proche, mais pas tout à fait ce que nous recherchons.

Avez-vous considéré cette dimension ?

Falco · Novembre 23, 2023, 12:00

Ceci est couvert par la Règle d’automatisation du classificateur de publications Discourse AI. Tenez-moi au courant de son déroulement.

Mr.X_Mr.X · Avril 17, 2024, 2:09

Quelqu’un peut-il m’aider à le configurer avec l’API Perspective de Google ? J’aurais mis une annonce sur le marché, mais je pense qu’ici c’est plus approprié.

Samantha_Venia_Logan · Août 26, 2024, 5:46

Je sais que cela remonte à un an, mais s’il vous plaît, faites-moi savoir comment cette implémentation s’est déroulée ! J’y suis personnellement investi ^^ Cela dit, corrigez-moi si je me trompe @Discourse, mais les attributs que vous mentionnez sur cette page SONT les métriques atomiques de Perspective, telles qu’implémentées via Detoxify, donc ajouter Perspective est un peu un point discutable, n’est-ce pas ?

ai_toxicity_flag_automatically : Marquez automatiquement les publications/messages de chat lorsque la classification d’une catégorie spécifique dépasse le seuil configuré. Les catégories disponibles sont toxicity, severe_toxicity, obscene, identity_attack, insult, threat et sexual_explicit. Il existe un paramètre ai_toxicity_flag_threshold_${category} pour chacune d’elles.

Quoi qu’il en soit, Detoxify peut être implémenté par la communauté Kaggle. C’est un excellent endroit pour trouver quelqu’un pour l’implémenter car c’est précisément ce que fait Kaggle

Falco · Août 26, 2024, 7:21

Nous avons intégré les modèles GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. pour gérer la classification automatique de la toxicité et effectuer un signalement automatique lorsque le seuil configurable est dépassé.

Ce que nous avons constaté, c’est que si cela fonctionne très bien si vous avez une tolérance zéro pour la toxicité typique sur vos instances, comme c’est le cas pour les instances plus orientées “marque”, pour d’autres instances Discourse plus orientées communauté, les modèles de toxicité étaient trop stricts, générant trop de signalements dans les instances plus tolérantes.

Pour cette raison, notre plan actuel est de Déprécier la toxicité et de déplacer cette fonctionnalité vers notre plugin AI Triage, où nous fournissons une invite personnalisable aux administrateurs pour adapter leur détection automatique de toxicité aux niveaux autorisés dans leur instance.

Nous prévoyons également d’offrir à nos clients un LLM de modération hébergé, dans le genre de https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, qui a très bien fonctionné lors de nos évaluations internes par rapport au même ensemble de données utilisé dans la compétition Kaggle originale de Jigsaw qui a donné naissance à Detoxify.

Sujet		Réponses	Vues
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	855	Août 7, 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	Juillet 7, 2023
Discourse Google Perspective API Plugin official , perspective-api	2	20972	Août 10, 2024
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	708	Octobre 10, 2024
AI flagging too sensitive Support ai , ai-toxicity	2	577	Mars 31, 2024

Discourse AI - Toxicité

Paramètres

Ressources supplémentaires

Sujets connexes