Discourse AI - Toxidade

Falco · Agosto 26, 2024, 7:21pm

Integramos os modelos GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para lidar com a classificação automática de toxicidade e realizar o sinalização automática quando acima de um limite configurável.

O que descobrimos é que, embora funcione muito bem se você tiver tolerância zero para toxicidade típica em suas instâncias, como são as instâncias mais “de marca”, para outras instâncias do Discourse mais orientadas à comunidade, os modelos de toxicidade eram muito rigorosos, gerando muitas sinalizações em instâncias mais flexíveis.

Por causa disso, nosso plano atual é Descontinuar a Toxicidade e mover este recurso para nosso plugin AI Triage, onde fornecemos um prompt personalizável para os administradores adaptarem sua detecção automática de toxicidade aos níveis permitidos em sua instância.

Também planejamos oferecer aos nossos clientes um LLM de moderação hospedado, como https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que teve um desempenho muito bom em nossas avaliações internas contra o mesmo conjunto de dados usado na competição original Jigsaw Kaggle que gerou o Detoxify.

Tópico		Respostas	Visualizações
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	868	7 de Agosto de 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	407	7 de Julho de 2023
Discourse Google Perspective API Plugin official , perspective-api	2	20983	10 de Agosto de 2024
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	733	10 de Outubro de 2024
AI flagging too sensitive Support ai , ai-toxicity	2	579	31 de Março de 2024

Discourse AI - Toxidade

Tópicos relacionados