Discourse AI - Toxicidad

Falco · 26 Agosto, 2024 19:21

Integramos los modelos de GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para manejar la clasificación automática de toxicidad y realizar marcaciones automáticas cuando se supera un umbral configurable.

Lo que descubrimos es que, si bien funciona muy bien si tienes cero tolerancia a la toxicidad típica en tus instancias, como lo son las instancias más propiedad de “marcas”, para otras instancias de Discourse más orientadas a la comunidad, los modelos de toxicidad eran demasiado estrictos, generando demasiadas marcaciones en instancias más permisivas.

Debido a eso, nuestro plan actual es descontinuar la toxicidad y mover esta función a nuestro plugin AI Triage, donde ofrecemos un prompt personalizable para que los administradores adapten su detección automática de toxicidad a los niveles permitidos en su instancia.

También planeamos ofrecer a nuestros clientes un LLM de moderación alojado, similar a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que tuvo un muy buen desempeño en nuestras evaluaciones internas contra el mismo conjunto de datos utilizado en la competencia original de Jigsaw Kaggle que dio origen a Detoxify.

Tema		Respuestas	Vistas
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	1020	7 Agosto 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	445	7 Julio 2023
Discourse Google Perspective API Plugin perspective-api	8	21203	12 Enero 2026
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	1085	2 Marzo 2026
AI flagging too sensitive Support ai , ai-toxicity	2	605	31 Marzo 2024

Discourse AI - Toxicidad

Temas relacionados