Abbiamo integrato i modelli GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. per gestire la classificazione automatica della tossicità e per eseguire il flagging automatico quando supera una soglia configurabile.
Abbiamo scoperto che, sebbene funzioni benissimo se si ha tolleranza zero per la tossicità tipica sulle proprie istanze, come quelle di proprietà di un “brand”, per altre istanze Discourse più orientate alla community, i modelli di tossicità erano troppo severi, generando troppi flag in istanze più permissive.
Per questo motivo, il nostro piano attuale è quello di deprecare la tossicità e spostare questa funzionalità nel nostro plugin AI Triage, dove forniamo un prompt personalizzabile agli amministratori per adattare il loro rilevamento automatico della tossicità ai livelli consentiti nella loro istanza.
Abbiamo anche in programma di offrire ai nostri clienti un LLM di moderazione ospitato, simile a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, che ha ottenuto ottimi risultati nelle nostre valutazioni interne rispetto allo stesso dataset utilizzato nella competizione originale di Jigsaw Kaggle che ha dato origine a Detoxify.