Configurando la detección NSFW en tu comunidad

:bookmark: Esta es una guía para configurar la detección de contenido NSFW en tu comunidad utilizando la automatización de Discourse AI para identificar y moderar imágenes y texto inapropiados.

:person_raising_hand: Nivel de usuario requerido: Administrador

Configuración de la detección NSFW en tu comunidad

Detecta y modera automáticamente el contenido NSFW (No Apto para el Trabajo) en tu comunidad de Discourse utilizando automatización impulsada por IA. Esta guía te ayudará a configurar la detección automatizada tanto para imágenes inapropiadas como para contenido de texto, permitiéndote mantener los estándares de la comunidad con una intervención manual mínima.

Resumen

Esta documentación cubre la configuración de la automatización del Clasificador de Publicaciones de Discourse AI para:

  • Detectar imágenes NSFW utilizando modelos de IA con capacidad de visión
  • Identificar contenido y lenguaje textual inapropiado
  • Marcar, categorizar y moderar automáticamente las publicaciones problemáticas
  • Configurar respuestas y acciones de moderación personalizadas

La automatización utiliza modelos de lenguaje grandes (LLM) para analizar el contenido de la publicación y toma acciones predefinidas cuando se detecta material NSFW.

Prerrequisitos

Antes de configurar la detección NSFW, asegúrate de tener habilitado lo siguiente:

  • Plugin Discourse AI: El plugin principal de funcionalidad de IA
  • Plugin Discourse Automation: Requerido para crear reglas automatizadas
  • Agente: Agente con un prompt del sistema que defina qué constituye contenido NSFW. Usa un lenguaje distinto para clasificaciones positivas y negativas para evitar confusiones.
  • LLM con capacidad de visión: Requerido solo para la detección de imágenes; los LLM estándar funcionan para la detección de solo texto.
    • Los clientes alojados en Discourse pueden seleccionar nuestro LLM Pequeño Alojado por CDCK al configurar Agentes.
    • Los usuarios de Discourse autohospedados deberán configurar un LLM de terceros.

Ejemplos de prompts:

Para la detección de imágenes:

Eres un bot especializado en clasificación de imágenes. Responde solo con NSFW o SAFE, y nada más. NSFW es pornografía o gore, y SAFE es todo lo demás. En caso de duda, responde SAFE.

Para la detección de texto:

Eres un sistema avanzado de moderación de contenido de IA diseñado para clasificar las publicaciones generadas por los usuarios. Tu tarea es detectar y marcar cualquier contenido que incluya lenguaje inapropiado, términos inapropiados o contenido NSFW (No Apto para el Trabajo).

El contenido NSFW incluye contenido sexual explícito, violencia, discurso de odio, lenguaje gráfico, discriminación, referencias a autolesiones o actividad ilegal.

Responde con exactamente una palabra:
* "SAFE": La publicación es apropiada y no contiene contenido inapropiado o NSFW
* "NSFW": Si se detecta contenido inapropiado o NSFW

Sé consciente del contexto y evita falsos positivos.

Pasos de configuración

Habilitar plugins requeridos

  1. Navega al panel de administración de tu sitio
  2. Ve a Plugins > Plugins Instalados
  3. Habilita tanto los plugins Discourse AI como Automation

Crear regla de automatización

  1. En el panel de administración, navega a Plugins > Automation
  2. Haz clic en + Crear para comenzar a crear una nueva regla de automatización
  3. Selecciona Clasificar Publicaciones Usando IA
  4. Asigna un nombre descriptivo (ej: “Detección de Contenido NSFW”)

Configurar desencadenadores y restricciones

Establecer el desencadenador:

  • Elige Publicación creada/editada como desencadenador
  • Opcionalmente especifica el tipo de Acción, Categoría, Etiquetas, Grupos o Niveles de Confianza para restringir el alcance de la automatización
  • Deja los campos en blanco para aplicar la automatización en todo el sitio

Restricciones opcionales:
Configura ajustes adicionales en la sección Qué/Cuándo para limitar aún más el alcance de la automatización, como apuntar solo a las primeras publicaciones de usuarios nuevos.

Configurar clasificación de IA

:spiral_notepad: El campo de prompt del sistema ha sido desaprobado a favor de los Agentes. Si tenías una automatización de IA anterior a este cambio, se creará automáticamente un nuevo Agente con el prompt del sistema asociado.

Agente:
Selecciona el Agente definido para la automatización de detección NSFW.

Texto de búsqueda:
Introduce la salida exacta de tu prompt que activa las acciones de automatización. Usando los ejemplos anteriores, introduce NSFW.

Establecer acciones de moderación

Categorización y etiquetado:

  • Define la categoría a la que se moverán las publicaciones marcadas
  • Especifica etiquetas que se añadirán al contenido NSFW identificado

Opciones de marcado (Flagging):

  • Elige el tipo de marca: spam (ocultar automáticamente) o cola de revisión (revisión manual)
  • Habilita “Ocultar Tema” para ocultar automáticamente el contenido marcado

Respuestas automatizadas:

  • Establece un usuario para las respuestas del sistema
  • Crea un mensaje personalizado explicando por qué se marcó la publicación
  • Opcionalmente usa el Agente de IA para respuestas dinámicas

Advertencias

  • Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutarlo solo en subconjuntos pequeños.
  • Si bien los modelos con mejor rendimiento, es decir, GPT-4o, producirán mejores resultados, esto puede tener un costo mayor. Sin embargo, hemos visto que el costo disminuye con el tiempo a medida que los LLM se vuelven aún mejores y más baratos.

Otros usos

El prompt podría personalizarse para realizar todo tipo de detecciones, como la exposición de PII y la detección de spam. ¡Nos encantaría saber cómo estás utilizando esta automatización para beneficiar a tu Comunidad!

8 Me gusta

Una publicación fue dividida en un nuevo tema: Retraso en la detección de contenido LLM y NSFW