Wir haben die Modelle von GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. integriert, um die automatische Klassifizierung von Toxizität in Beiträgen zu handhaben und bei Überschreitung eines konfigurierbaren Schwellenwerts automatisch zu markieren.
Wir stellten fest, dass dies zwar gut funktioniert, wenn Sie keinerlei Toleranz für typische Toxizität auf Ihren Instanzen haben, wie es bei Instanzen im Besitz von Marken der Fall ist. Für andere, stärker gemeinschaftsorientierte Discourse-Instanzen waren die Toxizitätsmodelle zu streng und erzeugten zu viele Markierungen in nachgiebigeren Instanzen.
Aus diesem Grund ist unser aktueller Plan, Toxizität abzuschaffen und diese Funktion in unser AI Triage-Plugin zu verlagern, wo wir Administratoren eine anpassbare Eingabeaufforderung geben, um ihre automatische Toxizitätserkennung an die zulässigen Werte auf ihrer Instanz anzupassen.
Wir planen außerdem, unseren Kunden ein gehostetes Moderations-LLM anzubieten, ähnlich wie https://ai.google.dev/gemma/docs/shieldgemma oder [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, das bei unseren internen Bewertungen gegen denselben Datensatz, der in der ursprünglichen Jigsaw Kaggle-Wettbewerb verwendet wurde, der Detoxify hervorbrachte, sehr gut abgeschnitten hat.