Discourse AI - Toxidade

Integramos os modelos GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para lidar com a classificação automática de toxicidade e realizar o sinalização automática quando acima de um limite configurável.

O que descobrimos é que, embora funcione muito bem se você tiver tolerância zero para toxicidade típica em suas instâncias, como são as instâncias mais “de marca”, para outras instâncias do Discourse mais orientadas à comunidade, os modelos de toxicidade eram muito rigorosos, gerando muitas sinalizações em instâncias mais flexíveis.

Por causa disso, nosso plano atual é Descontinuar a Toxicidade e mover este recurso para nosso plugin AI Triage, onde fornecemos um prompt personalizável para os administradores adaptarem sua detecção automática de toxicidade aos níveis permitidos em sua instância.

Também planejamos oferecer aos nossos clientes um LLM de moderação hospedado, como https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que teve um desempenho muito bom em nossas avaliações internas contra o mesmo conjunto de dados usado na competição original Jigsaw Kaggle que gerou o Detoxify.

4 curtidas