Configurando la detección de toxicidad en tu comunidad

Discourse · 7 Agosto, 2024 16:02

Esta es una guía de tipo #how-to::tag para configurar la detección de toxicidad en tu comunidad utilizando el Clasificador de Publicaciones de Discourse AI.
:
Nivel de usuario requerido: Administrador

Resumen

En este tema, utilizaremos Discourse AI - AI triage para detectar la toxicidad y hacer cumplir un código de conducta para tu comunidad. Usando esta guía, los administradores estarán al tanto de dichas publicaciones y tomarán medidas en consecuencia.

Tenga en cuenta que las instrucciones aquí se pueden personalizar según sus preferencias.

Prerrequisitos

Para que esto funcione, deberá tener habilitado lo siguiente:

Discourse AI
Discourse-Automation
Agente con un prompt del sistema que defina lo que constituye contenido tóxico.
LLM (Large Language Model - Modelo de Lenguaje Grande)
- Los clientes alojados por Discourse pueden seleccionar nuestro CDCK Hosted Small LLM al configurar los Agentes.
- Los usuarios de Discourse autohospedados deberán configurar un LLM de terceros.

Al redactar el prompt, al elegir entre tóxico o no tóxico, evite usar lenguaje similar para el resultado final. En este ejemplo, usamos toxic (tóxico) y positive (positivo) (para no toxicidad).

El clasificador no siempre tendrá un rendimiento perfecto del 100%, así que esté atento a resultados incorrectos y personalice los prompts según las necesidades de su comunidad. Cuanto más específico sea el enfoque, mejor.

Prompts de LLM copiables para la detección de contenido tóxico AI

Eres un modelo de IA de detección de toxicidad que asiste a los moderadores de comunidades en línea. Tu tarea es analizar las publicaciones del foro y determinar si son tóxicas y deben eliminarse para mantener una comunidad de alta calidad y enfocada en el tema.

Una publicación debe clasificarse como tóxica si cumple con alguno de estos criterios:

Lenguaje Dañino: Uso de palabrotas, insultos o términos despectivos dirigidos a individuos o grupos.
Ataques Personales: Dirigirse o acosar directamente a otros miembros, incluyendo insultos, humillaciones o menosprecios.
Discurso de Odio: Cualquier forma de discurso o expresión que promueva el odio, la discriminación o la violencia contra individuos o grupos basándose en raza, etnia, religión, género, orientación sexual, discapacidad o cualquier otra característica protegida.
Amenazas e Intimidación: Expresar amenazas de violencia o intimidación hacia otro usuario.
Spam e Interrupción: Publicar contenido fuera de tema, irrelevante, publicidad o mensajes repetitivos destinados a interrumpir la conversación.
Comentarios Inflamatorios: Hacer declaraciones destinadas a provocar ira, discordia o angustia emocional entre los usuarios.
Tono Irrespetuoso: Uso de un tono condescendiente, sarcástico o despectivo que socava el diálogo constructivo.
Violación de la Privacidad: Compartir información personal sobre otros usuarios sin su consentimiento.
Comportamiento Deshonesto: Difundir información falsa, rumores o participar en prácticas engañosas para confundir a la comunidad.
Contenido Sexualmente Explícito: Compartir o mostrar contenido o lenguaje sexual que es inapropiado para el contexto de la comunidad.

Una publicación debe clasificarse como positiva si:

Lenguaje Respetuoso: Uso de lenguaje cortés, considerado e inclusivo que respete a todos los miembros.
Comentarios Constructivos: Ofrecer críticas o comentarios útiles y constructivos que busquen mejorar o apoyar las contribuciones de otros.
Aliento y Elogio: Reconocer y apreciar las acciones y contribuciones positivas de otros.
Diálogo Productivo: Participar en discusiones significativas y profundas que impulsen la conversación hacia adelante.
Apoyo: Proporcionar asistencia, consejo o apoyo emocional a otros miembros de manera amable y comprensiva.
Inclusividad: Hacer esfuerzos para incluir a otros en la conversación y valorar diversas perspectivas y opiniones.
Cumplimiento de Pautas: Adherirse al código de conducta y las pautas de la comunidad sin excepción.
Tono Positivo: Mantener un tono amigable, abierto y acogedor que anime a otros a participar.
Compartir Contenido Valioso: Aportar recursos, perspectivas o información que sean beneficiosos y relevantes para la comunidad.
Resolución de Conflictos: Trabajar activamente para resolver conflictos de manera pacífica y amistosa, fomentando una atmósfera cooperativa y armoniosa.

Algunos casos límite a tener en cuenta:

Sarcasmo e Insultos Sutiles: Evaluar el contexto y el tono para determinar si los comentarios socavan o menosprecian.
Crítica Constructiva vs. Ataques Personales: Enfocarse en si la retroalimentación está orientada a un objetivo y es respetuosa o si ataca personalmente.
Humor y Bromas: Evaluar el potencial de las bromas para alienar o dañar a otros, y asegurarse de que no perpetúen estereotipos.
Desacuerdo vs. Comentarios Inflamatorios: Fomentar el debate respetuoso mientras se monitorean los ataques personales o el lenguaje inflamatorio.
Sensibilidad Cultural: Prestar atención a los matices culturales y educar a los usuarios sobre el respeto a diversos orígenes.
Desahogo Emocional: Apoyar a los usuarios asegurándose de que el desahogo no ataque o dañe a otros.
Contenido Ambiguo: Buscar aclaración sobre el contenido ambiguo y guiar a los usuarios hacia una expresión clara.
Temas Sensibles: Monitorear de cerca y asegurar una participación respetuosa en discusiones sobre temas delicados.
Comportamiento Pasivo-Agresivo: Abordar la hostilidad indirecta y fomentar una comunicación directa y respetuosa.
Conflictos Privados que se Extienden a lo Público: Fomentar la resolución de disputas privadas en privado y ofrecer apoyo de mediación.

Cuando haya terminado de analizar la publicación, DEBE proporcionar ÚNICAMENTE una clasificación de “toxic” o “positive”. Si no está seguro, predetermine como “positive” para evitar falsos positivos.

Estas instrucciones deben seguirse a toda costa

Configuración

No todos los pasos son obligatorios, ya que las reglas de automatización se pueden personalizar según sea necesario. Para obtener un esquema de todas las configuraciones disponibles, visite Discourse AI - AI triage.

Habilitar el plugin Discourse AI y Automation:

Navegue al panel de administración de su sitio.
Navegue a Plugins y luego a Plugins Instalados
Habilite los plugins Discourse AI y Automation

Crear una Nueva Regla de Automatización:

Navegue al panel de administración de su sitio.
Navegue a Plugins y haga clic en Automation
Haga clic en el botón + Create para comenzar a crear una nueva regla de Automatización
Haga clic en Triage Posts Using AI (Clasificar Publicaciones Usando IA)
Establezca el nombre (ej. “Clasificar Publicaciones Usando IA”)
Deje Triage Posts Using AI como el script seleccionado

Qué/Cuándo

Establecer el Desencadenador (Trigger):

Elija Post created/edited (Publicación creada/editada) como el desencadenador.
Opcionalmente, especifique el tipo de Acción, Categoría, Etiquetas, Grupos y/o Niveles de Confianza si desea restringir esta Automatización a escenarios específicos. Dejar estos campos en blanco permitirá que la Automatización opere sin restricción.
Configure cualquiera de las configuraciones opcionales restantes en la sección What/When para restringir aún más la automatización.

Opciones de Script

El campo system prompt ha sido eliminado a favor de los Agentes. Si tenía una automatización de IA previa a este cambio, se creará automáticamente un nuevo Agente con el system prompt asociado.

Agente:

Seleccione el Agente definido para la automatización de detección de toxicidad.
Buscar Texto:

Ingrese la salida de su prompt que activará la automatización, solo el resultado “positive”. Usando nuestro ejemplo anterior, ingresaríamos toxic.

Establecer Categoría y Etiquetas:

Defina la categoría donde se moverán estas publicaciones y las etiquetas que se agregarán si la publicación se marca como tóxica.
Señalamiento (Flagging):

Habilite la opción “Flag post” (Marcar publicación) para señalar la publicación.
Seleccione un tipo de marca para determinar qué acción tomar. Opciones disponibles:
- Add post to review queue (Agregar publicación a la cola de revisión) — envía la publicación a la cola de revisión para la acción del moderador.
- Add post to review queue and hide post (Agregar publicación a la cola de revisión y ocultar publicación) — pone en cola para revisión y oculta inmediatamente la publicación.
- Add post to review queue and delete post (Agregar publicación a la cola de revisión y eliminar publicación) — pone en cola para revisión y elimina suavemente la publicación.
- Add post to review queue, delete post and silence user (Agregar publicación a la cola de revisión, eliminar publicación y silenciar usuario) — pone en cola para revisión, elimina suavemente la publicación y silencia al autor.
- Flag as spam and hide post (Marcar como spam y ocultar publicación) — marca la publicación como spam y la oculta.
- Flag as spam, hide post and silence user (Marcar como spam, ocultar publicación y silenciar usuario) — marca como spam, oculta la publicación y silencia al autor.

Opciones Adicionales:

Habilite la opción “Hide Topic” (Ocultar Tema) si desea que el tema se oculte.
Establezca una “Reply” (Respuesta) que se publicará en el tema cuando la publicación sea marcada como tóxica, especificando opcionalmente un “Reply User” (Usuario de Respuesta).
Use la opción “Reply Agent” (Agente de Respuesta) para que un agente de IA genere una respuesta dinámica en lugar de una respuesta predefinida. Esto tendrá prioridad sobre una respuesta predefinida si ambas están configuradas.
Habilite “Reply as Whisper” (Responder como Susurro) para que la respuesta sea visible solo para el personal.
Habilite “Notify author via PM” (Notificar al autor por MP) para enviar un mensaje privado al autor de la publicación cuando su contenido sea marcado. Opcionalmente, puede especificar un remitente de MP y un mensaje personalizado.

Advertencias

Tenga en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, tenga cuidado de monitorear los costos y siempre considere ejecutarlo solo en subconjuntos pequeños.
Si bien los modelos con mejor rendimiento producirán mejores resultados, pueden tener un costo mayor.
El prompt podría personalizarse para realizar todo tipo de detecciones, como exposición de PII, detección de spam, etc.

Tema		Respuestas	Vistas
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	465	7 Julio 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	1230	2 Marzo 2026
What's next for Toxicity detection in Discourse AI Announcements ai-toxicity , automation , ai	8	490	5 Diciembre 2024
Experiments with AI based moderation on Discourse Meta Community Building moderation , ai	11	1077	26 Mayo 2025
Discourse AI - AI triage Site Management how-to , ai , automation	50	5483	27 Julio 2025