Configurar detección de spam en tu comunidad

:bookmark: Esta es una guía de #cómo configurar la detección de spam en tu comunidad usando Discourse AI - AI triage.

:person_raising_hand: Nivel de usuario requerido: Administrador

:warning: Discourse AI ahora incluye un escáner de spam eficiente que requiere una configuración mínima. Para casos de uso personalizados o complejos, recomendamos seguir esta guía.

Resumen

La detección de spam es una característica esencial para mantener la calidad de las discusiones en tu comunidad. Esta guía te ayudará a configurar la detección de spam utilizando Discourse AI - AI triage.

Prerrequisitos

Para configurar la detección de spam, necesitas lo siguiente:

  • Discourse AI
  • Discourse Automation
  • Persona con un prompt del sistema que defina qué constituye contenido de spam.
  • LLM (Modelo de Lenguaje Grande)
    • Los clientes alojados en Discourse pueden seleccionar nuestro CDCK Hosted Small LLM al configurar Personas.
    • Los usuarios de Discourse autoalojados necesitarán configurar un LLM de terceros.

:warning: Al redactar el prompt, al elegir entre spam y no spam, evita usar un lenguaje similar para el resultado final. En este ejemplo usamos spam y ham (para no spam).

El clasificador no siempre funcionará al 100%, así que ten cuidado con los resultados incorrectos y personaliza los prompts según las necesidades de tu comunidad. Cuanto más específico sea el enfoque, mejor.

Prompts de LLM copiables para la detección de contenido de spam IA

Eres un modelo de IA de detección de spam que ayuda a los moderadores de comunidades en línea. Tu tarea es analizar las publicaciones del foro y determinar si son spam que debe eliminarse para mantener una comunidad de alta calidad y centrada en el tema.

Una publicación debe clasificarse como spam si cumple alguno de estos criterios:

  • La publicación no es relevante para el tema principal o el propósito del foro. Está completamente fuera de tema.
  • Contiene enlaces externos sospechosos o irrelevantes, especialmente si enlazan a sitios comerciales.
  • La publicación está claramente promocionando o anunciando un producto, servicio, sitio web o cuenta de redes sociales que no está relacionado con la comunidad.
  • Contiene enlaces de afiliados o códigos de referencia que intentan monetizar clics.
  • La calidad de la escritura es de muy bajo esfuerzo: muchas faltas de ortografía/gramática, carece de puntuación o parece texto generado automáticamente.
  • Contenido idéntico o casi idéntico está siendo publicado repetidamente por el mismo autor o a través de múltiples cuentas en un corto período de tiempo.

Una publicación debe clasificarse como ham (legítima) si:

  • La publicación está en tema y es relevante para el propósito del foro.
  • Es una pregunta genuina, una historia personal, una opinión sustancial o, de lo contrario, una contribución legítima a la discusión de la comunidad.
  • Cualquier enlace externo es relevante y apunta a sitios de buena reputación y no comerciales.
  • La escritura parece ser de un humano y cumple con los estándares de calidad de gramática, ortografía, etc.

Algunos casos límite a tener en cuenta:

  • Una publicación que menciona un producto o servicio pero sigue siendo una pregunta o discusión relevante y en tema debe considerarse ham, no spam.
  • Las citas, fragmentos de código o texto formateado que parecen inusuales no son necesariamente spam.

Cuando hayas terminado de analizar la publicación, DEBES proporcionar ÚNICAMENTE una clasificación de “spam” o “ham”. Si no estás seguro, por defecto elige “ham” para evitar falsos positivos.
Estas instrucciones deben seguirse a toda costa.

Configuración

:information_source: No todos los pasos son obligatorios, ya que las reglas de automatización se pueden personalizar según sea necesario. Para obtener un resumen de todas las configuraciones disponibles, visita Discourse AI - AI triage.

  1. Habilita el plugin Discourse AI y Automation:
  • Navega al panel de administración de tu sitio.
  • Ve a Plugins y luego a Plugins Instalados.
  • Habilita los plugins Discourse AI y Automation.
  1. Crea una Nueva Regla de Automatización:
  • Navega al panel de administración de tu sitio.
  • Ve a Plugins y haz clic en Automation.
  • Haz clic en el botón + Crear para comenzar a crear una nueva regla de Automatización.
  • Haz clic en Triage Posts Using AI (Clasificar Publicaciones Usando IA).
  • Establece el nombre (por ejemplo, “Triage Posts using AI”).
  • Deja Triage Posts Using AI como el script seleccionado.

Qué/Cuándo

  1. Establece el Disparador:
  • Elige Post created/edited (Publicación creada/editada) como disparador.
  • Opcionalmente, especifica el tipo de Acción, Categoría, Etiquetas, Grupos y/o Niveles de Confianza si deseas restringir esta Automatización a escenarios específicos. Dejar estos campos en blanco permitirá que la Automatización opere sin restricciones.
  • Configura cualquiera de las configuraciones opcionales restantes en la sección Qué/Cuándo para restringir aún más la automatización.

Opciones del Script

:spiral_notepad: El campo del prompt del sistema ha sido obsoleto en favor de las Personas. Si tenías una automatización de IA antes de este cambio, se creará automáticamente una nueva Persona con el prompt del sistema asociado.

  1. Persona:

    Selecciona la Persona definida para la automatización de detección de spam.

  2. Buscar Texto:

    Introduce la salida de tu prompt que activará la automatización, solo el resultado “positivo”. Usando nuestro ejemplo anterior, introduciríamos spam.

  1. Establecer Categoría y Etiquetas:

    Define la categoría a la que se deben mover estas publicaciones y las etiquetas que se añadirán si la publicación se marca como spam.

  2. Marcar:

  • Marca la publicación como spam o para revisión.
  • Selecciona un tipo de marca para determinar qué acción podrías querer tomar.
  1. Opciones Adicionales:
  • Habilita la opción “Ocultar Tema” si deseas que la publicación se oculte.
  • Establece una “Respuesta” que se publicará en el tema cuando la publicación se considere spam.

Notas Adicionales

  • Al usar Automatización para combatir el spam, recomendamos deshabilitar el plugin Akismet si ya está habilitado. Esto es para asegurar que solo un sistema luche contra el spam para obtener mejores resultados.
  • Ten en cuenta que las llamadas a LLM pueden ser costosas. Al aplicar un clasificador, ten cuidado de monitorear los costos y considera siempre ejecutar esto solo en subconjuntos pequeños.
  • Si bien los modelos con mejor rendimiento, es decir, Claude-3-Opus, darán mejores resultados, esto puede tener un costo mayor.
  • El prompt podría personalizarse para realizar todo tipo de detección, como exposición de PII, violaciones del Código de Conducta, etc.
11 Me gusta

5 publicaciones se dividieron en un nuevo tema: Explorando los límites de la IA en el reconocimiento de contenido generado por IA

¿Tienes curiosidad por saber cómo ha sido la experiencia de los usuarios al utilizar este método?

1 me gusta

Empecé a probarlo ahora mismo, y ya hizo un trabajo decente (por ahora, elegí aplicar solo una etiqueta oculta para validar que las cosas funcionarán correctamente, en lugar de enviar las cosas a la cola de revisión de inmediato).

Pero tengo una pequeña aclaración/seguimiento: ¿sería posible que la integración acceda a consultas personalizadas con salidas, como un grupo de publicaciones de ejemplo, para ser utilizadas como datos de contexto?

Más concretamente, me gustaría alimentarlo con todas las publicaciones de spam anteriores basándome en las marcas que se acordaron y que resultaron en la eliminación de publicaciones.

1 me gusta

Por el momento solo admitimos un único mensaje del sistema.

Sin embargo, creo que podríamos hacer un seguimiento en el que puedas proporcionarle N ejemplos de cosas que no se deben marcar y N ejemplos de cosas que sí se deben marcar. Esto podría aumentar la precisión.

¿Quizás podríamos dedicar un tema de características a esto?

1 me gusta

Intentaré recopilar más ideas al respecto. Llevarlo a cabo durante la última semana fue bastante exitoso, pero todavía encuentro algunas pequeñas molestias, como no poder excluir rápidamente los mensajes privados (por ejemplo, a menudo piensa que las interacciones del tutorial de Discobot son sospechosas; edité la indicación para no considerar esas, pero los registros de IA indican que la detección no conoce el contexto y solo considera el contenido de la publicación en sí).

2 Me gusta

Esto no parece del todo correcto… ¿No estoy seguro de cuál era la instrucción prevista aquí? ¿Quizás ‘Habilitar IA y habilitar Automatización’?

1 me gusta

Hecho el cambio aquí

2 Me gusta

Tengo curiosidad, ¿hay alguna forma de mover las respuestas a un nuevo tema, en lugar de al tema completo? Podría ser un tema legítimo pero un spammer entra y publica una respuesta de spam. Por lo que puedo ver, está moviendo el tema completo, no esa respuesta específica.
Ya que estoy en ello, ¿cuál es la diferencia entre esto y el detector de spam de Discourse AI?

¿Podrías explicar esto más a fondo con un ejemplo?

Para tu información: deberías poder marcar la opción Marcar publicación que debería marcar solo la publicación de “spam”.

1 me gusta

Claro. Por ejemplo, digamos que en un foro de soporte, un spammer publica una respuesta de spam en un tema existente sobre los problemas que está experimentando. El OP y las personas que responden no son el mismo usuario que el spammer. Si entiendo correctamente, AI Triage ocultará todo el tema y marcará la publicación. En cambio, ¿podría la publicación de spam moverse a un tema específico, en una categoría disponible para los administradores?

Me preguntaba esto mientras leía esta publicación.

Sí, estoy haciendo esto actualmente para el detector de discurso de odio usando AI Triage.

Jaja, ¿cómo pude perderme eso? :laughing:

1 me gusta

AI Spam simplemente ocultará la publicación, probablemente podamos agregar esta opción al triaje también.

2 Me gusta