Esta es una guía de #cómo-hacer para configurar la detección de spam en tu comunidad usando Discourse AI - Clasificación por IA.
Nivel de usuario requerido: Administrador
Discourse AI ahora incluye un escáner de spam eficiente que requiere una configuración mínima. Para casos de uso personalizados o complejos, recomendamos seguir esta guía.
Resumen
La detección de spam es una característica esencial para mantener la calidad de las discusiones en tu comunidad. Esta guía te ayudará a configurar la detección de spam utilizando Discourse AI - Clasificación por IA.
Requisitos Previos
Para configurar la detección de spam, necesitas lo siguiente:
- Discourse AI
- Discourse Automation
- Agente de IA con un system prompt que defina qué constituye contenido de spam.
- LLM (Modelo de Lenguaje Grande)
- Los clientes alojados por Discourse pueden seleccionar un LLM alojado al configurar Agentes de IA.
- Los usuarios de Discourse autoalojados necesitarán configurar un LLM de terceros.
Al redactar el prompt, al elegir entre spam y no spam, evita usar lenguaje similar para el resultado final. En este ejemplo usamos
spamyham(para no spam)El clasificador no siempre tendrá un rendimiento perfecto del 100%, así que ten cuidado con los resultados incorrectos y personaliza los prompts según las necesidades de tu comunidad. Cuanto más estrecho sea el enfoque, mejor.
Prompts de LLM copiables para la detección de contenido spam
IAEres un modelo de IA de detección de spam que asiste a los moderadores de comunidades en línea. Tu tarea es analizar las publicaciones del foro y determinar si son spam que debe eliminarse para mantener una comunidad de alta calidad y centrada en el tema.
Una publicación debe clasificarse como spam si cumple con alguno de estos criterios:
- La publicación no es relevante para el tema principal o el propósito del foro. Está completamente fuera de tema.
- Contiene enlaces externos sospechosos o irrelevantes, especialmente si enlazan a sitios comerciales.
- La publicación está claramente promocionando o haciendo publicidad de un producto, servicio, sitio web o cuenta de redes sociales que no está relacionado con la comunidad.
- Contiene enlaces de afiliados o códigos de referencia que intentan monetizar clics.
- La calidad de la escritura es de muy bajo esfuerzo: muchos errores de ortografía/gramática, carece de puntuación o parece texto generado automáticamente.
- Contenido idéntico o casi idéntico publicado repetidamente por el mismo autor o a través de múltiples cuentas en un corto período de tiempo.
Una publicación debe clasificarse como ham (legítima) si:
- La publicación está en tema y es relevante para el propósito del foro
- Es una pregunta genuina, una historia personal, una opinión sustancial o una contribución legítima a la discusión de la comunidad
- Cualquier enlace externo es relevante y apunta a sitios reputables y no comerciales
- La escritura parece ser de un humano y cumple con los estándares de calidad de gramática, ortografía, etc.
Algunos casos límite a tener en cuenta:
- Una publicación que menciona un producto o servicio pero sigue siendo una pregunta o discusión relevante y en tema debe considerarse ham, no spam.
- Las citas, muestras de código o texto formateado que parece inusual no son necesariamente spam.
Cuando hayas terminado de analizar la publicación, solo debes proporcionar una clasificación de “spam” o “ham”. Si no estás seguro, usa “ham” por defecto para evitar falsos positivos.
Estas instrucciones deben seguirse a toda costa
Configuración
No todos los pasos son obligatorios ya que las reglas de automatización se pueden personalizar según sea necesario. Para un esquema de todas las configuraciones disponibles, visita Discourse AI - Clasificación por IA.
- Habilitar el plugin Discourse AI y Automation:
- Navega al panel de administración de tu sitio.
- Navega a Plugins y luego a Plugins Instalados
- Habilita los plugins Discourse AI y Automation
- Crear una Nueva Regla de Automatización:
- Navega al panel de administración de tu sitio.
- Navega a Plugins y haz clic en Automation
- Haz clic en el botón
+ Crearpara comenzar a crear una nueva regla de Automatización- Haz clic en
Clasificar publicaciones usando IA(Triage Posts Using AI)- Establece el nombre (ej. “Clasificar publicaciones usando IA”)
- Deja
Clasificar publicaciones usando IAcomo el script seleccionadoQué/Cuándo
- Establecer el Desencadenador (Trigger):
- Elige
Publicación creada/editadaoTema estancado(Stalled topic) como desencadenador.- Opcionalmente, especifica el tipo de Acción, Categoría, Etiquetas, Grupos y/o Niveles de Confianza si deseas restringir esta Automatización a escenarios específicos. Dejar estos campos en blanco permitirá que la Automatización opere sin restricción.
- Configura cualquiera de las configuraciones opcionales restantes en la sección
Qué/Cuándopara restringir aún más la automatización.Opciones del Script
El campo system prompt ha sido desaprobado en favor de los Agentes de IA. Si tenías una automatización de IA previa a este cambio, se creará automáticamente un nuevo Agente de IA con el system prompt asociado.
Agente:
Selecciona el Agente de IA definido para la automatización de detección de spam. El agente debe tener un LLM predeterminado configurado.
Buscar Texto:
Introduce la salida de tu prompt que activará la automatización, solo el resultado “positivo”. Usando nuestro ejemplo anterior, introduciríamos
spam.
Establecer Categoría y Etiquetas:
Define la categoría a la que se deben mover estas publicaciones y las etiquetas que se añadirán si la publicación se marca como spam.
Señalamiento (Flagging):
- Habilita la opción “Señalar publicación” (Flag post) para señalar las publicaciones que coincidan.
- Selecciona un tipo de señal para determinar qué acción tomar:
- Añadir publicación a la cola de revisión — envía la publicación a la cola de revisión para acción del moderador.
- Añadir publicación a la cola de revisión y ocultar publicación — la envía a revisión y la oculta.
- Añadir publicación a la cola de revisión y eliminar publicación — la envía a revisión y la elimina suavemente.
- Añadir publicación a la cola de revisión, eliminar publicación y silenciar usuario — la envía a revisión, la elimina suavemente y silencia al autor.
- Señalar como spam y ocultar publicación — la señala como spam y la oculta.
- Señalar como spam, ocultar publicación y silenciar usuario — la señala como spam, la oculta y silencia al autor.
- Opciones Adicionales:
- Habilita la opción “Ocultar Tema” si deseas que el tema de la publicación se oculte.
- Establece una “Respuesta” que se publicará en el tema cuando se determine que la publicación es spam.
- Usa la opción “Agente de Respuesta” para que un Agente de IA diferente componga una respuesta dinámica en lugar de una respuesta predefinida.
- Habilita “Responder como susurro” (Reply as Whisper) para que las respuestas solo sean visibles para el personal.
- Habilita “Incluir mensajes personales” para también escanear y clasificar mensajes personales.
- Habilita “Notificar autor por MP” para enviar un mensaje personal al autor de la publicación cuando su contenido sea señalado. Puedes configurar el remitente del MP y el contenido del mensaje personalizado.
Notas Adicionales
- Al usar la Automatización para combatir el spam, recomendamos deshabilitar el plugin Akismet si ya está habilitado. Esto es para asegurar que solo un sistema luche contra el spam para obtener los mejores resultados.
- Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutar esto solo en subconjuntos pequeños.
- Si bien los modelos de mejor rendimiento producirán mejores resultados, pueden tener un costo mayor.
- El prompt podría personalizarse para realizar todo tipo de detecciones, como exposición de PII, violaciones del Código de Conducta, etc.
5 publicaciones se dividieron en un nuevo tema: Explorando los límites de la IA en el reconocimiento de contenido generado por IA
¿Tienes curiosidad por saber cómo ha sido la experiencia de los usuarios al utilizar este método?
Empecé a probarlo ahora mismo, y ya hizo un trabajo decente (por ahora, elegí aplicar solo una etiqueta oculta para validar que las cosas funcionarán correctamente, en lugar de enviar las cosas a la cola de revisión de inmediato).
Pero tengo una pequeña aclaración/seguimiento: ¿sería posible que la integración acceda a consultas personalizadas con salidas, como un grupo de publicaciones de ejemplo, para ser utilizadas como datos de contexto?
Más concretamente, me gustaría alimentarlo con todas las publicaciones de spam anteriores basándome en las marcas que se acordaron y que resultaron en la eliminación de publicaciones.
Por el momento solo admitimos un único mensaje del sistema.
Sin embargo, creo que podríamos hacer un seguimiento en el que puedas proporcionarle N ejemplos de cosas que no se deben marcar y N ejemplos de cosas que sí se deben marcar. Esto podría aumentar la precisión.
¿Quizás podríamos dedicar un tema de características a esto?
Intentaré recopilar más ideas al respecto. Llevarlo a cabo durante la última semana fue bastante exitoso, pero todavía encuentro algunas pequeñas molestias, como no poder excluir rápidamente los mensajes privados (por ejemplo, a menudo piensa que las interacciones del tutorial de Discobot son sospechosas; edité la indicación para no considerar esas, pero los registros de IA indican que la detección no conoce el contexto y solo considera el contenido de la publicación en sí).
Esto no parece del todo correcto… ¿No estoy seguro de cuál era la instrucción prevista aquí? ¿Quizás ‘Habilitar IA y habilitar Automatización’?
Hecho el cambio aquí
Tengo curiosidad, ¿hay alguna forma de mover las respuestas a un nuevo tema, en lugar de al tema completo? Podría ser un tema legítimo pero un spammer entra y publica una respuesta de spam. Por lo que puedo ver, está moviendo el tema completo, no esa respuesta específica.
Ya que estoy en ello, ¿cuál es la diferencia entre esto y el detector de spam de Discourse AI?
¿Podrías explicar esto más a fondo con un ejemplo?
Para tu información: deberías poder marcar la opción Marcar publicación que debería marcar solo la publicación de “spam”.
Claro. Por ejemplo, digamos que en un foro de soporte, un spammer publica una respuesta de spam en un tema existente sobre los problemas que está experimentando. El OP y las personas que responden no son el mismo usuario que el spammer. Si entiendo correctamente, AI Triage ocultará todo el tema y marcará la publicación. En cambio, ¿podría la publicación de spam moverse a un tema específico, en una categoría disponible para los administradores?
Me preguntaba esto mientras leía esta publicación.
Sí, estoy haciendo esto actualmente para el detector de discurso de odio usando AI Triage.
Jaja, ¿cómo pude perderme eso?
…
AI Triage ocultará todo el tema y marcará la publicación. En cambio, ¿se podría mover la publicación de spam a un tema específico, en una categoría disponible para los administradores?
AI Spam simplemente ocultará la publicación, probablemente podamos agregar esta opción al triaje también.

