Discourse AI - Toxicidad

Integramos los modelos de GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para manejar la clasificación automática de toxicidad y realizar marcaciones automáticas cuando se supera un umbral configurable.

Lo que descubrimos es que, si bien funciona muy bien si tienes cero tolerancia a la toxicidad típica en tus instancias, como lo son las instancias más propiedad de “marcas”, para otras instancias de Discourse más orientadas a la comunidad, los modelos de toxicidad eran demasiado estrictos, generando demasiadas marcaciones en instancias más permisivas.

Debido a eso, nuestro plan actual es descontinuar la toxicidad y mover esta función a nuestro plugin AI Triage, donde ofrecemos un prompt personalizable para que los administradores adapten su detección automática de toxicidad a los niveles permitidos en su instancia.

También planeamos ofrecer a nuestros clientes un LLM de moderación alojado, similar a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que tuvo un muy buen desempeño en nuestras evaluaciones internas contra el mismo conjunto de datos utilizado en la competencia original de Jigsaw Kaggle que dio origen a Detoxify.

4 Me gusta