Discourse AI - Tossicità

Falco · 26 Agosto 2024, 7:21pm

Abbiamo integrato i modelli GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. per gestire la classificazione automatica della tossicità e per eseguire il flagging automatico quando supera una soglia configurabile.

Abbiamo scoperto che, sebbene funzioni benissimo se si ha tolleranza zero per la tossicità tipica sulle proprie istanze, come quelle di proprietà di un “brand”, per altre istanze Discourse più orientate alla community, i modelli di tossicità erano troppo severi, generando troppi flag in istanze più permissive.

Per questo motivo, il nostro piano attuale è quello di deprecare la tossicità e spostare questa funzionalità nel nostro plugin AI Triage, dove forniamo un prompt personalizzabile agli amministratori per adattare il loro rilevamento automatico della tossicità ai livelli consentiti nella loro istanza.

Abbiamo anche in programma di offrire ai nostri clienti un LLM di moderazione ospitato, simile a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, che ha ottenuto ottimi risultati nelle nostre valutazioni interne rispetto allo stesso dataset utilizzato nella competizione originale di Jigsaw Kaggle che ha dato origine a Detoxify.

Argomento		Risposte	Visualizzazioni
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	857	Agosto 7, 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	Luglio 7, 2023
Discourse Google Perspective API Plugin official , perspective-api	2	20976	Agosto 10, 2024
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	721	Ottobre 10, 2024
AI flagging too sensitive Support ai , ai-toxicity	2	578	Marzo 31, 2024

Discourse AI - Tossicità

Argomenti correlati