Configurar detección NSFW en tu comunidad

Saif · 10 Octubre, 2024 04:26

Esta es una guía para configurar la detección de contenido NSFW en tu comunidad utilizando la automatización de Discourse AI para identificar y moderar imágenes y texto inapropiados.

Nivel de usuario requerido: Administrador

Configuración de la detección NSFW en tu comunidad

Detecta y modera automáticamente contenido NSFW (No Seguro Para el Trabajo) en tu comunidad de Discourse utilizando automatización impulsada por IA. Esta guía te ayudará a configurar la detección automatizada tanto para imágenes inapropiadas como para contenido de texto, permitiéndote mantener los estándares de la comunidad con una intervención manual mínima.

Resumen

Esta documentación cubre la configuración de la automatización del Clasificador de Publicaciones de Discourse AI para:

Detectar imágenes NSFW utilizando modelos de IA con capacidad de visión.
Identificar contenido de texto y lenguaje inapropiado.
Marcar, categorizar y moderar automáticamente publicaciones problemáticas.
Configurar respuestas personalizadas y acciones de moderación.

La automatización utiliza modelos de lenguaje grandes (LLM) para analizar el contenido de las publicaciones y toma acciones predefinidas cuando se detecta material NSFW.

Prerrequisitos

Antes de configurar la detección NSFW, asegúrate de tener habilitado lo siguiente:

Plugin Discourse AI: El plugin principal de funcionalidad de IA.
Plugin Discourse Automation: Requerido para crear reglas automatizadas.
Persona: Persona con un prompt del sistema que define qué constituye contenido NSFW. Utiliza un lenguaje distinto para clasificaciones positivas y negativas para evitar confusiones.
LLM con capacidad de visión: Requerido solo para la detección de imágenes; los LLM estándar funcionan para la detección de solo texto.
- Los clientes alojados en Discourse pueden seleccionar nuestro LLM Pequeño Alojado por CDCK al configurar Personas.
- Los usuarios de Discourse autoalojados necesitarán configurar un LLM de terceros.

Prompts de ejemplo:

Para detección de imágenes:

Eres un bot especializado en clasificación de imágenes. Responde solo con NSFW o SEGURO, y nada más. NSFW es pornografía o gore, y SEGURO es todo lo demás. En caso de duda, responde con SEGURO.

Para detección de texto:

Eres un sistema avanzado de moderación de contenido de IA diseñado para clasificar publicaciones generadas por usuarios. Tu tarea es detectar y marcar cualquier contenido que incluya lenguaje inapropiado, términos inapropiados o contenido NSFW (No Seguro Para el Trabajo).

El contenido NSFW incluye contenido sexual explícito, violencia, discurso de odio, lenguaje gráfico, discriminación, referencias a autolesiones o actividad ilegal.

Responde con exactamente una palabra:
* "SEGURO": La publicación es apropiada y no contiene contenido inapropiado o NSFW.
* "NSFW": Si se detecta contenido inapropiado, malo o NSFW.

Sé consciente del contexto y evita falsos positivos.

Pasos de configuración

Habilitar plugins requeridos

Navega al panel de administración de tu sitio.
Ve a Plugins > Plugins Instalados.
Habilita los plugins Discourse AI y Automation.

Crear regla de automatización

En el panel de administración, navega a Plugins > Automation.
Haz clic en + Crear para comenzar a crear una nueva regla de automatización.
Selecciona Clasificar Publicaciones Usando IA.
Establece un nombre descriptivo (por ejemplo, “Detección de Contenido NSFW”).

Configurar disparadores y restricciones

Establecer el disparador:

Elige Publicación creada/editada como disparador.
Opcionalmente, especifica el tipo de Acción, Categoría, Etiquetas, Grupos o Niveles de Confianza para restringir el alcance de la automatización.
Deja los campos en blanco para aplicar la automatización en todo el sitio.

Restricciones opcionales:
Configura ajustes adicionales en la sección Qué/Cuándo para limitar aún más el alcance de la automatización, como dirigirse solo a las primeras publicaciones de usuarios nuevos.

Configurar clasificación de IA

El campo del prompt del sistema ha sido obsoleto en favor de las Personas. Si tenías una automatización de IA antes de este cambio, se creará automáticamente una nueva Persona con el prompt del sistema asociado.

Persona:
Selecciona la Persona definida para la automatización de detección NSFW.

Texto de búsqueda:
Introduce la salida exacta de tu prompt que activa las acciones de automatización. Usando los ejemplos anteriores, introduce NSFW.

Establecer acciones de moderación

Categorización y etiquetado:

Define la categoría a la que se deben mover las publicaciones marcadas.
Especifica las etiquetas que se añadirán al contenido NSFW identificado.

Opciones de marcado:

Elige el tipo de marca: spam (ocultar automáticamente) o cola de revisión (revisión manual).
Habilita “Ocultar Tema” para ocultar automáticamente el contenido marcado.

Respuestas automatizadas:

Establece un usuario de respuesta para las respuestas del sistema.
Crea un mensaje personalizado explicando por qué la publicación fue marcada.
Opcionalmente, utiliza Persona de IA para respuestas dinámicas.

Advertencias

Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutar esto solo en subconjuntos pequeños.
Si bien los modelos de mejor rendimiento, como GPT-4o, producirán mejores resultados, esto puede tener un costo mayor. Sin embargo, hemos visto que el costo disminuye con el tiempo a medida que los LLM mejoran y se vuelven más baratos.

Otros usos

El prompt podría personalizarse para realizar todo tipo de detección, como exposición de PII y detección de spam. ¡Nos encantaría saber cómo estás utilizando esta automatización para beneficiar a tu Comunidad!

Tema		Respuestas	Vistas
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	7 Julio 2023
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	853	7 Agosto 2024
NSFW image blurring in chat Support chat , ai	5	512	26 Septiembre 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2427	25 Septiembre 2025
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	681	26 Mayo 2025