Configurando la detección NSFW en tu comunidad

:bookmark: Esta es una guía para configurar la detección de contenido NSFW en tu comunidad utilizando la automatización de Discourse AI para identificar y moderar imágenes y texto inapropiados.

:person_raising_hand: Nivel de usuario requerido: Administrador

Configuración de la detección NSFW en tu comunidad

Detecta y modera automáticamente el contenido NSFW (No Apto para el Trabajo) en tu comunidad de Discourse utilizando automatización impulsada por IA. Esta guía te ayudará a configurar la detección automatizada tanto para imágenes como para contenido de texto inapropiados, lo que te permitirá mantener los estándares de la comunidad con una mínima intervención manual.

Resumen

Esta documentación cubre la configuración de la automatización de Discourse AI Clasificar publicaciones con IA para:

  • Detectar imágenes NSFW utilizando modelos de IA con capacidad de visión
  • Identificar lenguaje y contenido de texto inapropiados
  • Marcar, categorizar y moderar automáticamente las publicaciones problemáticas
  • Configurar respuestas personalizadas y acciones de moderación

La automatización utiliza modelos de lenguaje grande (LLM) para analizar el contenido de las publicaciones y ejecuta acciones predefinidas cuando se detecta material NSFW.

Requisitos previos

Antes de configurar la detección NSFW, asegúrate de tener habilitado lo siguiente:

  • Plugin Discourse AI: El plugin principal de funcionalidad de IA
  • Plugin Discourse Automation: Requerido para crear reglas automatizadas
  • Agente: Agente con un prompt del sistema que defina qué constituye contenido NSFW. Utiliza un lenguaje distinto para clasificaciones positivas y negativas para evitar confusiones.
  • LLM con capacidad de visión: Requerido solo para la detección de imágenes; los LLM estándar funcionan para la detección solo de texto. Asegúrate de que “Vision enabled” (Visión habilitada) esté activado tanto para el modelo LLM como para el Agente.
    • Los clientes alojados por Discourse pueden seleccionar nuestro LLM pequeño alojado por CDCK al configurar Agentes.
    • Los usuarios de Discourse autoalojados deberán configurar un LLM de terceros.

Ejemplos de prompts:

Para detección de imágenes:

Eres un bot especializado en clasificación de imágenes. Responde solo con NSFW o SAFE, y nada más. NSFW es pornografía o gore, y SAFE es todo lo demás. En caso de duda, responde SAFE.

Para detección de texto:

Eres un sistema avanzado de moderación de contenido de IA diseñado para clasificar publicaciones generadas por usuarios. Tu tarea es detectar y marcar cualquier contenido que incluya lenguaje inapropiado, términos inapropiados o contenido NSFW (No Apto para el Trabajo).

El contenido NSFW incluye contenido sexual explícito, violencia, discurso de odio, lenguaje gráfico, discriminación, referencias a autolesiones o actividad ilegal.

Responde con exactamente una palabra:
* "SAFE" (SEGURO): La publicación es apropiada y no contiene contenido inapropiado o NSFW
* "NSFW" (NO SEGURO PARA EL TRABAJO): Si se detecta contenido inapropiado, malo o NSFW

Sé consciente del contexto y evita falsos positivos.

Pasos de configuración

Habilitar plugins requeridos

  1. Navega al panel de administración de tu sitio
  2. Ve a Plugins > Plugins instalados
  3. Habilita ambos plugins, Discourse AI y Automation

Crear regla de automatización

  1. En el panel de administración, navega a Plugins > Automation
  2. Haz clic en + Crear para comenzar a crear una nueva regla de automatización
  3. Selecciona Clasificar publicaciones usando IA
  4. Establece un nombre descriptivo (ejemplo: “Detección de Contenido NSFW”)

Configurar disparadores (triggers) y restricciones

Establecer el disparador:

  • Elige Publicación creada/editada como disparador para escanear publicaciones nuevas o editadas
  • Alternativamente, elige Tema estancado para clasificar temas que no han recibido respuestas durante un tiempo especificado
  • Opcionalmente, especifica el tipo de Acción, Categorías, Etiquetas, Grupos, Niveles de Confianza o Características de la publicación para restringir el alcance de la automatización
  • Deja los campos en blanco para aplicar la automatización en todo el sitio

Restricciones opcionales (Disparador Publicación creada/editada):
Configura ajustes adicionales para limitar aún más el alcance de la automatización:

  • Solo primera publicación o Solo publicación original para apuntar solo a temas nuevos
  • Solo primer tema para apuntar solo al primer tema de un usuario
  • Características de la publicación para restringir a publicaciones con imágenes, enlaces, código o subidas — útil para la detección NSFW basada en imágenes
  • Arquetipo restringido para limitar a temas regulares, temas públicos o mensajes personales

Configurar clasificación de IA

:spiral_notepad: El campo system prompt ha sido obsoleto en favor de los Agentes. Si tenías una automatización de IA anterior a este cambio, se creará automáticamente un nuevo Agente con el system prompt asociado.

Agente:
Selecciona el Agente definido para la automatización de detección NSFW.

Texto de búsqueda:
Introduce la salida exacta de tu prompt que activa las acciones de automatización. Usando los ejemplos anteriores, introduce NSFW.

Opciones avanzadas:

  • Tokens máximos de publicación: Limita cuántos tokens de la publicación se envían al LLM
  • Tokens máximos de salida: Establece un límite superior para la cantidad de tokens que el modelo puede generar
  • Secuencias de parada: Indica al modelo que detenga la generación cuando encuentre valores específicos

Establecer acciones de moderación

Categorización y etiquetado:

  • Define la categoría a la que deben moverse las publicaciones marcadas
  • Especifica etiquetas que se añadirán al contenido NSFW identificado

Opciones de marcado (Flagging):

  • Habilita Marcar publicación para activar el marcado, luego elige un tipo de marca:
    • Añadir publicación a la cola de revisión — envía la publicación a la cola de revisión para revisión manual del moderador
    • Añadir publicación a la cola de revisión y ocultar publicación — cola de revisión + oculta inmediatamente la publicación
    • Añadir publicación a la cola de revisión y eliminar publicación — cola de revisión + elimina suavemente la publicación
    • Añadir publicación a la cola de revisión, eliminar publicación y silenciar usuario — cola de revisión + elimina suavemente la publicación + silencia al autor
    • Marcar como spam y ocultar publicación — marca la publicación como spam (la oculta automáticamente)
    • Marcar como spam, ocultar publicación y silenciar usuario — marca como spam + silencia al autor
  • Habilita Ocultar tema para ocultar automáticamente todo el tema

Respuestas automatizadas:

  • Establece un Usuario de respuesta y una Respuesta (respuesta rápida) para publicar un mensaje fijo explicando por qué se marcó la publicación
  • Selecciona un Agente de respuesta para usar un agente de IA separado para generar respuestas dinámicas (esto tiene prioridad sobre una respuesta rápida)
  • Habilita Responder como susurro para que la respuesta solo sea visible para el personal

Notificaciones al autor:

  • Habilita Notificar al autor por MP para enviar un mensaje personal al autor de la publicación cuando su contenido sea marcado
  • Establece un usuario Remitente de MP (por defecto es el sistema) y opcionalmente proporciona un Contenido de MP personalizado

Otras opciones:

  • Habilita Incluir mensajes personales para también escanear y clasificar mensajes personales

Advertencias

  • Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutar esto solo en subconjuntos pequeños.
  • Si bien los modelos con mejor rendimiento, es decir, GPT-4o, producirán mejores resultados, esto puede tener un costo mayor. Sin embargo, hemos visto que el costo disminuye con el tiempo a medida que los LLM mejoran y se vuelven más baratos.

Otros usos

El prompt podría personalizarse para realizar todo tipo de detecciones, como la exposición de PII y la detección de spam. ¡Nos encantaría saber cómo estás poniendo a trabajar esta automatización para beneficiar a tu Comunidad!

8 Me gusta

Una publicación fue dividida en un nuevo tema: Retraso en la detección de contenido LLM y NSFW