Configurando detección de toxicidad en tu comunidad

Discourse · 7 Agosto, 2024 16:02

Esta es una guía de #cómo::tag para configurar la detección de toxicidad en tu comunidad utilizando el Clasificador de Publicaciones de Discourse AI.
Nivel de usuario requerido: Administrador

Descripción general

En este tema, utilizaremos Discourse AI - AI triage para detectar toxicidad y hacer cumplir un código de conducta para tu comunidad. Usando esta guía, los administradores estarán al tanto de dichas publicaciones y tomarán medidas en consecuencia.

Ten en cuenta que las instrucciones aquí se pueden personalizar a tu gusto.

Prerrequisitos

Para que esto funcione, necesitarás lo siguiente habilitado:

Discourse AI
Discourse-Automation
Persona con un prompt del sistema que defina qué constituye contenido tóxico.
LLM (Modelo de Lenguaje Grande)
- Los clientes alojados en Discourse pueden seleccionar nuestro LLM Pequeño Alojado por CDCK al configurar Personas.
- Los usuarios de Discourse autoalojados necesitarán configurar un LLM de terceros.

Al redactar el prompt, al elegir entre tóxico y no tóxico, evita tener un lenguaje similar para el resultado final. En este ejemplo, usamos tóxico y positivo (para no toxicidad).

El clasificador no siempre funcionará al 100% a la perfección, así que ten cuidado con los resultados incorrectos y personaliza los prompts según las necesidades de tu comunidad. Cuanto más estrecho sea el enfoque, mejor.

Prompts de LLM copiables para la detección de contenido tóxico IA

Eres un modelo de IA de detección de toxicidad que ayuda a los moderadores de comunidades en línea. Tu tarea es analizar las publicaciones del foro y determinar si son tóxicas y deben eliminarse para mantener una comunidad de alta calidad y centrada en el tema.

Una publicación debe clasificarse como tóxica si cumple alguno de los siguientes criterios:

Lenguaje Dañino: Uso de groserías, insultos o términos despectivos dirigidos a individuos o grupos.
Ataques Personales: Dirigirse o acosar directamente a otros miembros, incluyendo insultos, avergonzar o menospreciar.
Discurso de Odio: Cualquier forma de discurso o expresión que promueva el odio, la discriminación o la violencia contra individuos o grupos basada en raza, etnia, religión, género, orientación sexual, discapacidad o cualquier otra característica protegida.
Amenazas e Intimidación: Expresar amenazas de violencia o intimidación hacia otro usuario.
Spam y Disrupción: Publicar contenido fuera de tema, irrelevante, publicidad o mensajes repetitivos destinados a interrumpir la conversación.
Comentarios Inflamatorios: Hacer declaraciones destinadas a provocar ira, discordia o angustia emocional entre los usuarios.
Tono Irrespetuoso: Uso de un tono condescendiente, sarcástico o despectivo que socava el diálogo constructivo.
Violación de la Privacidad: Compartir información personal de otros usuarios sin su consentimiento.
Comportamiento Deshonesto: Difundir información falsa, rumores o participar en prácticas engañosas para confundir a la comunidad.
Contenido Sexualmente Explícito: Compartir o mostrar contenido o lenguaje sexual que sea inapropiado para el contexto de la comunidad.

Una publicación debe clasificarse como positiva si:

Lenguaje Respetuoso: Usar un lenguaje educado, cortés e inclusivo que respete a todos los miembros.
Retroalimentación Constructiva: Ofrecer críticas o retroalimentación útil y constructiva que tenga como objetivo mejorar o apoyar las contribuciones de otros.
Aliento y Elogio: Reconocer y apreciar las acciones y contribuciones positivas de otros.
Diálogo Productivo: Participar en discusiones significativas y profundas que impulsen la conversación hacia adelante.
Apoyo: Brindar asistencia, consejos o apoyo emocional a otros miembros de manera amable y comprensiva.
Inclusividad: Hacer esfuerzos para incluir a otros en la conversación y valorar diversas perspectivas y opiniones.
Cumplimiento de las Directrices: Cumplir con el código de conducta y las directrices de la comunidad sin excepción.
Tono Positivo: Mantener un tono amigable, abierto y acogedor que anime a otros a participar.
Compartir Contenido Valioso: Contribuir con recursos, ideas o información que sean beneficiosos y relevantes para la comunidad.
Resolución de Conflictos: Trabajar activamente para resolver conflictos de manera pacífica y amigable, fomentando una atmósfera cooperativa y armoniosa.

Algunos casos extremos a tener en cuenta:

Sarcasmo e Insultos Sutiles: Evaluar el contexto y el tono para determinar si los comentarios son socavadores o menospreciadores.
Crítica Constructiva vs. Ataques Personales: Centrarse en si la retroalimentación está orientada a objetivos y es respetuosa o si es un ataque personal.
Humor y Bromas: Evaluar el potencial de las bromas para alienar o dañar a otros, y asegurarse de que no perpetúen estereotipos.
Desacuerdo vs. Comentarios Inflamatorios: Fomentar el debate respetuoso mientras se monitorean los ataques personales o el lenguaje inflamatorio.
Sensibilidad Cultural: Prestar atención a los matices culturales y educar a los usuarios sobre el respeto a los diversos orígenes.
Desahogo Emocional: Apoyar a los usuarios asegurándose de que el desahogo no se dirija o dañe a otros.
Contenido Ambiguo: Buscar aclaraciones sobre contenido ambiguo y guiar a los usuarios en la expresión clara.
Temas Sensibles: Monitorear de cerca y asegurar una participación respetuosa en discusiones sobre temas sensibles.
Comportamiento Pasivo-Agresivo: Abordar la hostilidad indirecta y fomentar la comunicación directa y respetuosa.
Conflictos Privados que Salen a la Luz Pública: Fomentar la resolución de disputas privadas en privado y ofrecer apoyo de mediación.

Cuando hayas terminado de analizar la publicación, DEBES proporcionar ÚNICAMENTE una clasificación de “tóxico” o “positivo”. Si no estás seguro, elige “positivo” para evitar falsos positivos.
Estas instrucciones deben seguirse a toda costa.

Configuración

No todos los pasos son obligatorios, ya que las reglas de automatización se pueden personalizar según sea necesario. Para obtener un resumen de todas las configuraciones disponibles, visita Discourse AI - Triage de IA.

Habilitar el plugin Discourse AI y Automation:
- Navega al panel de administración de tu sitio.
- Navega a Plugins y luego a Plugins Instalados.
- Habilita los plugins Discourse AI y Automation.
Crear una Nueva Regla de Automatización:
- Navega al panel de administración de tu sitio.
- Navega a Plugins y haz clic en Automation.
- Haz clic en el botón + Crear para comenzar a crear una nueva regla de Automatización.
- Haz clic en Triage Posts Using AI (Clasificar Publicaciones Usando IA).
- Establece el nombre (por ejemplo, “Clasificar Publicaciones Usando IA”).
- Deja Triage Posts Using AI como el script seleccionado.

Qué/Cuándo

Establecer el Disparador:
- Elige Post created/edited (Publicación creada/editada) como disparador.
- Opcionalmente, especifica el tipo de Acción, Categoría, Etiquetas, Grupos y/o Niveles de Confianza si deseas restringir esta Automatización a escenarios específicos. Dejar estos campos en blanco permitirá que la Automatización opere sin restricciones.
- Configura cualquiera de las configuraciones opcionales restantes en la sección Qué/Cuándo para restringir aún más la automatización.

Opciones del Script

El campo del prompt del sistema ha sido obsoleto en favor de las Personas. Si tenías una automatización de IA antes de este cambio, se creará automáticamente una nueva Persona con el prompt del sistema asociado.

Persona:
Selecciona la Persona definida para la automatización de detección de toxicidad.
Buscar Texto:
Introduce la salida de tu prompt que activará la automatización, solo el resultado “positivo”. Usando nuestro ejemplo anterior, ingresaríamos tóxico.

Establecer Categoría y Etiquetas:
Define la categoría a la que se deben mover estas publicaciones y las etiquetas que se agregarán si la publicación se marca como tóxica.
Marcar:
- Marca la publicación como spam o para revisión.
- Selecciona un tipo de marca para determinar qué acción podrías querer tomar.
Opciones Adicionales:
- Habilita la opción “Ocultar Tema” si deseas que la publicación se oculte.
- Establece una “Respuesta” que se publicará en el tema cuando la publicación se considere tóxica.

Advertencias

Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutarlo solo en subconjuntos pequeños.
Si bien los modelos con mejor rendimiento, es decir, Claude-3-Opus, producirán mejores resultados, esto puede tener un costo mayor.
El prompt podría personalizarse para realizar todo tipo de detección, como exposición de PII, detección de spam, etc.

Tema		Respuestas	Vistas
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	7 Julio 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	705	10 Octubre 2024
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	22	2422	25 Septiembre 2025
What's next for Toxicity detection in Discourse AI Announcements ai-toxicity , automation , ai	8	406	5 Diciembre 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	680	26 Mayo 2025