Esta función ahora forma parte de Discourse AI. Este plugin está obsoleto.
|||
-|-|-|
| Resumen | Disorder ayuda a los moderadores a marcar automáticamente el contenido potencialmente tóxico en tu foro de Discourse.
| Enlace al Repositorio | https://github.com/xfalcox/disorder
| Guía de Instalación | Cómo instalar plugins en Discourse
Si estás utilizando nuestro servicio oficial de alojamiento, ponte en contacto con nuestro soporte para registrar tu interés en este plugin.
Toxicidad
Como dijo @hawk en Dealing with Toxicity in Online Communities, gestionar la toxicidad en tu comunidad es fundamental.
Si bien Discourse viene listo para usar con muchas herramientas diferentes para ayudar a gestionar la toxicidad en tu comunidad, siempre estamos investigando formas de mejorarla aún más. En particular, he estado investigando sobre posibles aplicaciones de Machine Learning e IA en foros en línea. Que ahora es un plugin experimental, disponible para todas las comunidades.
El plugin
Disorder aprovecha la Inteligencia Artificial y el Machine Learning para ayudarte a moderar tu comunidad, facilitando que tu equipo de moderación esté al tanto del contenido potencialmente problemático e incluso dando un empujón opcional a tus usuarios para que revisen las publicaciones tóxicas antes de publicarlas.
Esta es una primera incursión en el uso de modelos de ML autoalojados en Discourse, y aunque es un modelo simple, establece un patrón que puede reutilizarse para aplicar modelos más complejos en el futuro.
Características
Marcado en segundo plano
Este es el modo de operación principal de Disorder, ya que es completamente transparente para tus usuarios, que no serán conscientes de ningún cambio.
Cada vez que se crea una nueva publicación (o mensaje de chat usando Discourse Chat), se pondrá en una cola de clasificación de forma asíncrona. En caso de que la clasificación supere un umbral configurable, la publicación/mensaje de chat se marcará para que tu equipo de moderación sea advertido y pueda tomar la decisión final sobre la marca.
Intervención en nuevas publicaciones
Si crees que la prevención es la mejor medicina, puede que te interese esta opción más activa.
Puedes habilitar una clasificación síncrona de cualquier publicación nueva que, si supera un umbral configurable de toxicidad, desencadenará una intervención en el flujo de nuevas publicaciones, pidiendo al usuario que revise y enmiende el mensaje que pueda estar fuera de los límites establecidos por las reglas de tu comunidad.
Esto solo ocurrirá una vez, y después de cerrar la ventana modal, el usuario podrá publicar normalmente.
¿Cómo funciona?
Este plugin integra los modelos de código abierto de Detoxify, utilizando un modelo de llamada a API remota para permitir a los administradores escalar adecuadamente la tasa de inferencia a las necesidades de cada comunidad.
Proporcionamos una imagen simple que proporciona una API HTTP delgada que Discourse llamará para realizar la clasificación de contenido, la cual puede ejecutarse tanto en el mismo servidor donde ejecutas Discourse, como en un servidor diferente.
El plugin de Discourse escucha los eventos de nuevas publicaciones / nuevos mensajes de chat, y pone en cola un trabajo de clasificación en la cola de fondo. Los resultados se almacenan en la base de datos para que puedas extraer informes, y marcamos el contenido utilizando un usuario bot separado para que podamos rastrear la precisión de sus marcas a lo largo del tiempo.
Opciones
Primero, el plugin funciona directamente, por lo que no es necesario cambiar ninguna configuración de inmediato. Sin embargo, si deseas cambiar el comportamiento del plugin, hay algunas opciones que puedes usar.
Proporcionamos 3 modelos de clasificación diferentes que puedes elegir en las opciones del plugin:
-
unbiased (predeterminado): Un modelo que intenta reducir el sesgo involuntario del modelo en la clasificación de toxicidad.
-
multilingual: Un modelo que puede clasificar italiano, francés, ruso, portugués, español y turco.
-
original: El modelo más simple.
También puedes ajustar si el plugin:
- marcará automáticamente
- habilitará la intervención síncrona en publicaciones tóxicas con advertencia (experimental)
- habilitará la intervención síncrona en publicaciones tóxicas (no recomendado)
Todo lo anterior solo ocurre cuando el comentario se clasifica por encima de los umbrales para cada tipo de clasificación:
- toxicidad
- toxicidad_severa
- ataque_identidad
- insulto
- amenaza
- sexual_explícito
Puedes ajustar cada uno de los umbrales de clasificación para acciones automáticas.
Servicio de Clasificación
El plugin viene preconfigurado y funciona directamente. Para ello, se pone en contacto con un servicio administrado por Discourse (CDCK) para clasificar el contenido del usuario. Ese servicio de API de clasificador es de código abierto, y puedes ejecutar tu propia copia del servicio si es necesario.



