Discourse AI - Detección de spam

Y este es un ejemplo de los mismos spammers siendo atrapados aquí: https://meta.discourse.org/t/full-list-of-quickbooks-desktop-support-contact-numbers-a-complete-call-center-in-the-usa/380776 (ya está oculto).

Estos tipos definitivamente están trabajando duro.

1 me gusta

Gran trabajo en esta función. :raising_hands: Así es exactamente como me gusta ver el uso de la IA.

Pregunta rápida: cuando un nuevo usuario TL0 envía una respuesta o un tema, ¿hay un retraso mientras se escanea el contenido?

Veo un pequeño retraso en el probador integrado (captura de pantalla a continuación), pero cuando publico desde una cuenta de prueba, no hay una pausa similar. ¿El escaneo en vivo es asíncrono después de la publicación, y la publicación se oculta solo si infringe una regla? (contexto: estoy usando la API de OpenAI ChatGPT 5).

Por lo que vale, IA > Spam y Estadísticas se incrementan según lo esperado con la cuenta de prueba, por lo que la publicación SÍ se está escaneando; simplemente no introduce el mismo retraso que el botón Test.

image

Gracias.

Ok, esto funciona bastante bien, pero ¿qué sucede cuando marca docenas de temas/usuarios? No veo una forma de prohibir/eliminar en masa a estos usuarios/publicaciones.

Gracias por el hilo detallado. Tenemos habilitada la detección de spam de Discourse AI en nuestra instancia, y una de las cosas que estamos viendo es la acción de silenciar automáticamente por defecto cuando se marca la primera publicación realizada por una cuenta.

Entiendo que esto es para silenciar a los spammers de un solo disparo; sin embargo, esto está causando problemas en los que aprobar/aceptar una marca significa que el usuario permanecerá silenciado en casos en los que queremos aprobar la marca pero no silenciar al usuario. Sería bueno tener:

  1. un botón de “aceptar y mantener silenciado”, y
  2. un botón separado de “aceptar y levantar el silencio”.
2 Me gusta

Este es un tema complicado, no queremos paralizar a la gente con opciones aquí, pero entiendo totalmente que a escala esto puede ser un problema.

Déjame consultar con el equipo de experiencia empresarial (enterprise xp), tal vez haya una pequeña personalización que podamos hacer para tu foro.

1 me gusta

Publiqué un tema de prueba de spam en mi entorno de desarrollo local, pero no entró automáticamente en la cola de moderación.

El resultado de la detección de IA es, de hecho, una publicación de spam.

Y también cumple con otras condiciones para entrar en la cola de moderación.

  1. Nivel de confianza del usuario:

    • Escanea publicaciones de usuarios con un nivel de confianza de 1 o inferior.

    • Excluye publicaciones de usuarios con niveles de confianza más altos.

  2. Tipo de publicación:

    • Publicaciones públicas (excluyendo mensajes privados).

    • Incluye publicaciones de respuesta y publicaciones de temas iniciales, según otros umbrales.

  3. Edición de publicaciones:

    • Escanea publicaciones con ediciones significativas (por ejemplo, cambios de más de 10 caracteres).

    • Impone un retraso de 10 minutos entre escaneos de la misma publicación.

  4. Frecuencia de publicaciones:

    • Prioriza los casos en los que los usuarios nuevos han publicado un total de menos de 4 publicaciones en temas públicos.

    • Excluye las publicaciones de usuarios que superan este umbral.

Sin embargo, el resultado final es que no entró en la cola de moderación.

¿Qué debo revisar para encontrar el problema?

Hola @singi2016cn.

¿Quieres decir que verificaste esto con la herramienta de prueba?

Puede acceder a esa herramienta siguiendo estas instrucciones:

  1. Inicie sesión en una cuenta de su foro que tenga privilegios de administrador.
  2. Navegue a esta página en su foro: /admin/plugins/discourse-ai/ai-spam
  3. Haga clic en el botón “Probar…” en esa página.
    Se abrirá el cuadro de diálogo “Probar detección de spam”.
  4. Introduzca la URL o el ID de la publicación de spam que desea probar en el campo “URL o ID de la publicación” del cuadro de diálogo.
  5. Haga clic en el botón “Ejecutar prueba”.
2 Me gusta

Sí, la herramienta de prueba devolvió claramente que era Spam, pero cuando publiqué el mismo contenido, no entró en la cola de moderación.

¿Quién publicó esto? ¿Usaste un nuevo usuario que creaste para probar o usaste, por ejemplo, una cuenta con permisos de moderador?

Usuario normal, nivel de confianza trust_level_1, no es administrador ni moderador.

Aquí está el conjunto de instrucciones personalizadas que estoy utilizando para la detección de spam. Es más detallado que la versión estándar, por lo que utilizará más tokens. ¿Qué están utilizando otros para los conjuntos de instrucciones personalizadas para la detección de spam?

Conjunto de Instrucciones Conciso para Detección de Spam

Usted es un sistema de detección de spam que revisa publicaciones de foros.

Su tarea es determinar si una publicación tiene como objetivo principal promocionar, engañar, manipular clasificaciones de búsqueda, distribuir enlaces maliciosos o interrumpir la discusión, en lugar de participar genuinamente en la comunidad.

Evalúe:

  • Contenido de la publicación
  • Tipo de publicación (RESPUESTA o NUEVO TEMA)
  • Contexto del hilo (para respuestas)
  • Información del sitio

Clasifique como spam si la publicación:

  • Promociona productos, servicios o sitios externos sin participación significativa
  • Contiene enlaces sospechosos, no relacionados o múltiples enlaces promocionales
  • Utiliza relleno de palabras clave estilo SEO o patrones repetitivos
  • Parece automatizada, basada en plantillas o generada por bots
  • Es irrelevante para el tema del foro
  • Para publicaciones de RESPUESTA: ignora el hilo e inyecta contenido no relacionado

Los indicadores fuertes de spam incluyen:

  • Enlaces de afiliados/referidos
  • Lenguaje de “Comprar ahora”, descuentos u ofertas
  • Información de contacto no relacionada con la discusión
  • Elogio genérico + enlace
  • Estructura de copiar y pegar
  • Texto sin sentido o generado por IA

NO clasifique como spam solo porque:

  • El usuario es nuevo
  • El inglés es imperfecto
  • La publicación es corta
  • El tono es entusiasta
  • Se menciona un producto o proveedor relevante en contexto

Las señales legítimas incluyen:

  • Referencias específicas al hilo
  • Discusión técnica relevante para el tema
  • Preguntas genuinas
  • Experiencia personal relacionada con el tema del foro

Regla de Decisión

Si la intención principal parece promocional, maliciosa o disruptiva → spam = verdadero.
Si la publicación participa significativamente en la discusión → spam = falso.

Cuando haya incertidumbre pero haya varias señales de alerta, priorice la seguridad de la comunidad.


Formato de Salida

Devuelva solo JSON válido:

{“spam”: true o false, “reason”: “Explicación breve (1–2 frases).”}

No incluya comentarios adicionales.

1 me gusta

Debería haber un informe en la página Admin->Plugin->AI->SPAM que muestre los detalles del cuadro de resumen. El cuadro de resumen muestra el número de publicaciones escaneadas, el spam detectado y los falsos positivos y negativos.

  • ¿Existe el informe detallado en algún lugar que no he encontrado?
  • ¿Existe una consulta de Data Explorer que proporcione el detalle de nivel inferior?

Gracias de antemano.

Esta te da todos los detalles

SELECT * FROM ai_spam_logs ORDER BY 1 DESC LIMIT 50
2 Me gusta