Discourse AI - Toxicidad

Discourse · 24 Abril, 2023 19:39

Este tema cubre la configuración de la función de toxicidad del plugin Discourse AI.

Nivel de usuario requerido: Administrador

Los módulos de toxicidad pueden clasificar automáticamente la puntuación de toxicidad de cada nueva publicación y mensaje de chat en tu instancia de Discourse. También puedes habilitar el marcado automático de contenido que supere un umbral.

Las clasificaciones se almacenan en la base de datos, por lo que puedes habilitar el plugin y usar Data Explorer para obtener informes de la clasificación que ocurre para contenido nuevo en Discourse de inmediato. Pronto enviaremos algunas consultas predeterminadas de Data Explorer con el plugin para facilitar esto.

Configuración

ai_toxicity_enabled: Habilita o deshabilita el módulo

ai_toxicity_inference_service_api_endpoint: URL donde se está ejecutando la API para el módulo de toxicidad. Si estás utilizando el hosting de CDCK, esto se maneja automáticamente. Si lo estás autoalojando, consulta la guía de autoalojamiento.

ai_toxicity_inference_service_api_key: Clave API para la API de toxicidad configurada anteriormente. Si estás utilizando el hosting de CDCK, esto se maneja automáticamente. Si lo estás autoalojando, consulta la guía de autoalojamiento.

ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Ofrecemos tres modelos diferentes: original, unbiased y multilingual. Se recomienda unbiased sobre original porque intentará no arrastrar los sesgos introducidos por el material de entrenamiento a la clasificación. Para comunidades multilingües, el último modelo admite italiano, francés, ruso, portugués, español y turco.

ai_toxicity_flag_automatically: Marca automáticamente las publicaciones/mensajes de chat cuando la clasificación para una categoría específica supera el umbral configurado. Las categorías disponibles son toxicity, severe_toxicity, obscene, identity_attack, insult, threat y sexual_explicit. Hay una configuración ai_toxicity_flag_threshold_${category} para cada una.

ai_toxicity_groups_bypass: Los usuarios de esos grupos no tendrán sus publicaciones clasificadas por el módulo de toxicidad. Por defecto incluye a los usuarios del personal.

Recursos adicionales

Discourse AI

Install plugins on a self-hosted site

Hifihedgehog · 11 Septiembre, 2023 23:18

Ajustando esto ahora mismo, ¿asumo correctamente que un umbral más alto es más estricto y uno más bajo más indulgente?

JimPas · 12 Septiembre, 2023 05:08

Diría que cuanto mayor sea el umbral, más indulgente será. Un umbral más bajo sería más propenso a marcar una publicación como tóxica, ya que se necesitaría menos para activar una señal, por lo tanto, un umbral más alto requeriría más para activar una señal.
Umbral bajo = fácil de cruzar
Umbral alto = más difícil de cruzar

nathank · 23 Noviembre, 2023 07:45

Quiero tener un mecanismo para detectar intentos de actividad comercial en nuestro sitio, no toxicidad per se, sino algo muy perjudicial para nuestra comunidad.

Esto está cerca, pero no es exactamente lo que nos interesa.

¿Has considerado esta dimensión?

Falco · 23 Noviembre, 2023 12:00

Eso está cubierto por la Regla de automatización del clasificador de publicaciones de IA de Discourse. Hazme saber cómo va.

Mr.X_Mr.X · 17 Abril, 2024 02:09

¿Alguien puede ayudarme a configurarlo con la API de Google Perspective? Pondría un anuncio en el mercado, pero creo que aquí es más apropiado.

Samantha_Venia_Logan · 26 Agosto, 2024 05:46

Sé que esto fue hace un año, ¡pero por favor házmelo saber cómo fue esta implementación! Estoy personalmente interesado en ella ^^ Dicho esto, corrígeme si me equivoco @Discourse, pero los atributos que mencionas en esta página SON las métricas atómicas de Perspective, tal como se implementan a través de Detoxify, por lo que agregar Perspective es un poco redundante, ¿verdad?

ai_toxicity_flag_automatically: Marca automáticamente las publicaciones/mensajes de chat cuando la clasificación para una categoría específica supera el umbral configurado. Las categorías disponibles son toxicity, severe_toxicity, obscene, identity_attack, insult, threat y sexual_explicit. Hay una configuración ai_toxicity_flag_threshold_${category} para cada una.

De todos modos, Detoxify puede ser implementado por la comunidad de Kaggle. Ese es un gran lugar para encontrar a alguien que lo implemente porque eso es precisamente lo que hace Kaggle

Falco · 26 Agosto, 2024 19:21

Integramos los modelos de GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para manejar la clasificación automática de toxicidad y realizar marcaciones automáticas cuando se supera un umbral configurable.

Lo que descubrimos es que, si bien funciona muy bien si tienes cero tolerancia a la toxicidad típica en tus instancias, como lo son las instancias más propiedad de “marcas”, para otras instancias de Discourse más orientadas a la comunidad, los modelos de toxicidad eran demasiado estrictos, generando demasiadas marcaciones en instancias más permisivas.

Debido a eso, nuestro plan actual es descontinuar la toxicidad y mover esta función a nuestro plugin AI Triage, donde ofrecemos un prompt personalizable para que los administradores adapten su detección automática de toxicidad a los niveles permitidos en su instancia.

También planeamos ofrecer a nuestros clientes un LLM de moderación alojado, similar a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que tuvo un muy buen desempeño en nuestras evaluaciones internas contra el mismo conjunto de datos utilizado en la competencia original de Jigsaw Kaggle que dio origen a Detoxify.

Tema		Respuestas	Vistas
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	855	7 Agosto 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	7 Julio 2023
Discourse Google Perspective API Plugin official , perspective-api	2	20972	10 Agosto 2024
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	708	10 Octubre 2024
AI flagging too sensitive Support ai , ai-toxicity	2	577	31 Marzo 2024

Discourse AI - Toxicidad

Configuración

Recursos adicionales

Temas relacionados