Discourse AI - Toxicity

Falco · 26. August 2024 um 19:21

Wir haben die Modelle von GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. integriert, um die automatische Klassifizierung von Toxizität in Beiträgen zu handhaben und bei Überschreitung eines konfigurierbaren Schwellenwerts automatisch zu markieren.

Wir stellten fest, dass dies zwar gut funktioniert, wenn Sie keinerlei Toleranz für typische Toxizität auf Ihren Instanzen haben, wie es bei Instanzen im Besitz von Marken der Fall ist. Für andere, stärker gemeinschaftsorientierte Discourse-Instanzen waren die Toxizitätsmodelle zu streng und erzeugten zu viele Markierungen in nachgiebigeren Instanzen.

Aus diesem Grund ist unser aktueller Plan, Toxizität abzuschaffen und diese Funktion in unser AI Triage-Plugin zu verlagern, wo wir Administratoren eine anpassbare Eingabeaufforderung geben, um ihre automatische Toxizitätserkennung an die zulässigen Werte auf ihrer Instanz anzupassen.

Wir planen außerdem, unseren Kunden ein gehostetes Moderations-LLM anzubieten, ähnlich wie https://ai.google.dev/gemma/docs/shieldgemma oder [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, das bei unseren internen Bewertungen gegen denselben Datensatz, der in der ursprünglichen Jigsaw Kaggle-Wettbewerb verwendet wurde, der Detoxify hervorbrachte, sehr gut abgeschnitten hat.

Thema		Antworten	Aufrufe
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	1020	7. August 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	445	7. Juli 2023
Discourse Google Perspective API Plugin perspective-api	8	21203	12. Januar 2026
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	1085	2. März 2026
AI flagging too sensitive Support ai , ai-toxicity	2	605	31. März 2024

Discourse AI - Toxicity

Verwandte Themen