Esta es una guía para configurar la detección de contenido NSFW en tu comunidad utilizando la automatización de Discourse AI para identificar y moderar imágenes y texto inapropiados.
Nivel de usuario requerido: Administrador
Configuración de la detección NSFW en tu comunidad
Detecta y modera automáticamente contenido NSFW (No Seguro Para el Trabajo) en tu comunidad de Discourse utilizando automatización impulsada por IA. Esta guía te ayudará a configurar la detección automatizada tanto para imágenes inapropiadas como para contenido de texto, permitiéndote mantener los estándares de la comunidad con una intervención manual mínima.
Resumen
Esta documentación cubre la configuración de la automatización del Clasificador de Publicaciones de Discourse AI para:
- Detectar imágenes NSFW utilizando modelos de IA con capacidad de visión.
- Identificar contenido de texto y lenguaje inapropiado.
- Marcar, categorizar y moderar automáticamente publicaciones problemáticas.
- Configurar respuestas personalizadas y acciones de moderación.
La automatización utiliza modelos de lenguaje grandes (LLM) para analizar el contenido de las publicaciones y toma acciones predefinidas cuando se detecta material NSFW.
Prerrequisitos
Antes de configurar la detección NSFW, asegúrate de tener habilitado lo siguiente:
- Plugin Discourse AI: El plugin principal de funcionalidad de IA.
- Plugin Discourse Automation: Requerido para crear reglas automatizadas.
- Persona: Persona con un prompt del sistema que define qué constituye contenido NSFW. Utiliza un lenguaje distinto para clasificaciones positivas y negativas para evitar confusiones.
- LLM con capacidad de visión: Requerido solo para la detección de imágenes; los LLM estándar funcionan para la detección de solo texto.
- Los clientes alojados en Discourse pueden seleccionar nuestro LLM Pequeño Alojado por CDCK al configurar Personas.
- Los usuarios de Discourse autoalojados necesitarán configurar un LLM de terceros.
Prompts de ejemplo:
Para detección de imágenes:
Eres un bot especializado en clasificación de imágenes. Responde solo con NSFW o SEGURO, y nada más. NSFW es pornografía o gore, y SEGURO es todo lo demás. En caso de duda, responde con SEGURO.
Para detección de texto:
Eres un sistema avanzado de moderación de contenido de IA diseñado para clasificar publicaciones generadas por usuarios. Tu tarea es detectar y marcar cualquier contenido que incluya lenguaje inapropiado, términos inapropiados o contenido NSFW (No Seguro Para el Trabajo).
El contenido NSFW incluye contenido sexual explícito, violencia, discurso de odio, lenguaje gráfico, discriminación, referencias a autolesiones o actividad ilegal.
Responde con exactamente una palabra:
* "SEGURO": La publicación es apropiada y no contiene contenido inapropiado o NSFW.
* "NSFW": Si se detecta contenido inapropiado, malo o NSFW.
Sé consciente del contexto y evita falsos positivos.
Pasos de configuración
Habilitar plugins requeridos
- Navega al panel de administración de tu sitio.
- Ve a Plugins > Plugins Instalados.
- Habilita los plugins Discourse AI y Automation.
Crear regla de automatización
- En el panel de administración, navega a Plugins > Automation.
- Haz clic en + Crear para comenzar a crear una nueva regla de automatización.
- Selecciona Clasificar Publicaciones Usando IA.
- Establece un nombre descriptivo (por ejemplo, “Detección de Contenido NSFW”).
Configurar disparadores y restricciones
Establecer el disparador:
- Elige Publicación creada/editada como disparador.
- Opcionalmente, especifica el tipo de Acción, Categoría, Etiquetas, Grupos o Niveles de Confianza para restringir el alcance de la automatización.
- Deja los campos en blanco para aplicar la automatización en todo el sitio.
Restricciones opcionales:
Configura ajustes adicionales en la sección Qué/Cuándo para limitar aún más el alcance de la automatización, como dirigirse solo a las primeras publicaciones de usuarios nuevos.
Configurar clasificación de IA
El campo del prompt del sistema ha sido obsoleto en favor de las Personas. Si tenías una automatización de IA antes de este cambio, se creará automáticamente una nueva Persona con el prompt del sistema asociado.
Persona:
Selecciona la Persona definida para la automatización de detección NSFW.
Texto de búsqueda:
Introduce la salida exacta de tu prompt que activa las acciones de automatización. Usando los ejemplos anteriores, introduce NSFW.
Establecer acciones de moderación
Categorización y etiquetado:
- Define la categoría a la que se deben mover las publicaciones marcadas.
- Especifica las etiquetas que se añadirán al contenido NSFW identificado.
Opciones de marcado:
- Elige el tipo de marca: spam (ocultar automáticamente) o cola de revisión (revisión manual).
- Habilita “Ocultar Tema” para ocultar automáticamente el contenido marcado.
Respuestas automatizadas:
- Establece un usuario de respuesta para las respuestas del sistema.
- Crea un mensaje personalizado explicando por qué la publicación fue marcada.
- Opcionalmente, utiliza Persona de IA para respuestas dinámicas.
Advertencias
- Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutar esto solo en subconjuntos pequeños.
- Si bien los modelos de mejor rendimiento, como GPT-4o, producirán mejores resultados, esto puede tener un costo mayor. Sin embargo, hemos visto que el costo disminuye con el tiempo a medida que los LLM mejoran y se vuelven más baratos.
Otros usos
El prompt podría personalizarse para realizar todo tipo de detección, como exposición de PII y detección de spam. ¡Nos encantaría saber cómo estás utilizando esta automatización para beneficiar a tu Comunidad!


