Este tema cubre la configuración de la función de toxicidad del plugin Discourse AI.
Nivel de usuario requerido: Administrador
Los módulos de toxicidad pueden clasificar automáticamente la puntuación de toxicidad de cada nueva publicación y mensaje de chat en tu instancia de Discourse. También puedes habilitar el marcado automático de contenido que supere un umbral.
Las clasificaciones se almacenan en la base de datos, por lo que puedes habilitar el plugin y usar Data Explorer para obtener informes de la clasificación que ocurre para contenido nuevo en Discourse de inmediato. Pronto enviaremos algunas consultas predeterminadas de Data Explorer con el plugin para facilitar esto.
Configuración
ai_toxicity_enabled: Habilita o deshabilita el módulo
ai_toxicity_inference_service_api_endpoint: URL donde se está ejecutando la API para el módulo de toxicidad. Si estás utilizando el hosting de CDCK, esto se maneja automáticamente. Si lo estás autoalojando, consulta la guía de autoalojamiento.
ai_toxicity_inference_service_api_key: Clave API para la API de toxicidad configurada anteriormente. Si estás utilizando el hosting de CDCK, esto se maneja automáticamente. Si lo estás autoalojando, consulta la guía de autoalojamiento.
ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Ofrecemos tres modelos diferentes:
original,unbiasedymultilingual. Se recomiendaunbiasedsobreoriginalporque intentará no arrastrar los sesgos introducidos por el material de entrenamiento a la clasificación. Para comunidades multilingües, el último modelo admite italiano, francés, ruso, portugués, español y turco.ai_toxicity_flag_automatically: Marca automáticamente las publicaciones/mensajes de chat cuando la clasificación para una categoría específica supera el umbral configurado. Las categorías disponibles son
toxicity,severe_toxicity,obscene,identity_attack,insult,threatysexual_explicit. Hay una configuraciónai_toxicity_flag_threshold_${category}para cada una.ai_toxicity_groups_bypass: Los usuarios de esos grupos no tendrán sus publicaciones clasificadas por el módulo de toxicidad. Por defecto incluye a los usuarios del personal.
Recursos adicionales
Ajustando esto ahora mismo, ¿asumo correctamente que un umbral más alto es más estricto y uno más bajo más indulgente?
Diría que cuanto mayor sea el umbral, más indulgente será. Un umbral más bajo sería más propenso a marcar una publicación como tóxica, ya que se necesitaría menos para activar una señal, por lo tanto, un umbral más alto requeriría más para activar una señal.
Umbral bajo = fácil de cruzar
Umbral alto = más difícil de cruzar
Quiero tener un mecanismo para detectar intentos de actividad comercial en nuestro sitio, no toxicidad per se, sino algo muy perjudicial para nuestra comunidad.
Esto está cerca, pero no es exactamente lo que nos interesa.
¿Has considerado esta dimensión?
Eso está cubierto por la Regla de automatización del clasificador de publicaciones de IA de Discourse. Hazme saber cómo va.
¿Alguien puede ayudarme a configurarlo con la API de Google Perspective? Pondría un anuncio en el mercado, pero creo que aquí es más apropiado.
Sé que esto fue hace un año, ¡pero por favor házmelo saber cómo fue esta implementación! Estoy personalmente interesado en ella ^^ Dicho esto, corrígeme si me equivoco @Discourse, pero los atributos que mencionas en esta página SON las métricas atómicas de Perspective, tal como se implementan a través de Detoxify, por lo que agregar Perspective es un poco redundante, ¿verdad?
- ai_toxicity_flag_automatically: Marca automáticamente las publicaciones/mensajes de chat cuando la clasificación para una categoría específica supera el umbral configurado. Las categorías disponibles son
toxicity,severe_toxicity,obscene,identity_attack,insult,threatysexual_explicit. Hay una configuraciónai_toxicity_flag_threshold_${category}para cada una.
De todos modos, Detoxify puede ser implementado por la comunidad de Kaggle. Ese es un gran lugar para encontrar a alguien que lo implemente porque eso es precisamente lo que hace Kaggle ![]()
Integramos los modelos de GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para manejar la clasificación automática de toxicidad y realizar marcaciones automáticas cuando se supera un umbral configurable.
Lo que descubrimos es que, si bien funciona muy bien si tienes cero tolerancia a la toxicidad típica en tus instancias, como lo son las instancias más propiedad de “marcas”, para otras instancias de Discourse más orientadas a la comunidad, los modelos de toxicidad eran demasiado estrictos, generando demasiadas marcaciones en instancias más permisivas.
Debido a eso, nuestro plan actual es descontinuar la toxicidad y mover esta función a nuestro plugin AI Triage, donde ofrecemos un prompt personalizable para que los administradores adapten su detección automática de toxicidad a los niveles permitidos en su instancia.
También planeamos ofrecer a nuestros clientes un LLM de moderación alojado, similar a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que tuvo un muy buen desempeño en nuestras evaluaciones internas contra el mismo conjunto de datos utilizado en la competencia original de Jigsaw Kaggle que dio origen a Detoxify.