Bot de spam de IA diz que não é spam, mas log de varredura diz que é spam

Ativei o gerenciamento de spam do Discourse AI em nosso fórum. Configurei o Claude Sonnet 4 com uma chave de API e selecionei a persona de detector de spam.

Fiz uma postagem de teste que é claramente spam. Nada sutil sobre isso.

Ela não foi bloqueada e foi postada imediatamente.

Quando dei a URL da postagem para o bot de spam usando o recurso de teste, o resultado diz Não é spam, mas no log de varredura diz: SPAM - Este é um anúncio promocional claro…

Minha expectativa seria que o resultado fosse SPAM, correspondendo à declaração de SPAM no log de varredura. E que isso, então, colocaria a postagem na fila para revisão por administradores e moderadores, por exemplo.

Alguém poderia compartilhar o que estou perdendo? Não sou um especialista – então estou aberto a qualquer orientação!

Obrigado!

Qual é o nível de confiança do usuário que postou? O AI Spam pulará postagens de usuários TL2+.

4 curtidas

Obrigado pela sua resposta!

O usuário que usei para postar é Novo usuário de nível de confiança

Alguma ideia de por que a postagem foi aprovada?

Agradeço sua ajuda!

Isso corrigirá tanto o teste quanto a postagem não serem sinalizados:

O prompt do sistema do Persona do detector de spam estava confundindo os modelos Claude. A alteração torna as instruções do formato de resposta esperado mais explícitas.

4 curtidas

Ah, fantástico! O recurso de teste está funcionando como esperado.

Gostaria de saber se você poderia ajudar a entender por que o recurso de Spam de IA ainda não está bloqueando a postagem de um spam que foi publicado imediatamente? Enviei a postagem para o teste de Spam de IA e ele a está sinalizando como spam - mas ela foi publicada.

Será que estou perdendo alguma peça de conexão? Muito obrigado pela sua ajuda com isso!

1 curtida

Você é um administrador ou um TL sênior? Se sim, talvez você devesse tentar usar um usuário de teste de TL baixo.

1 curtida

Nós pulamos uma postagem quando:

  • O nível de confiança do autor é maior que TL1.
  • A postagem pertence a um tópico de mensagem privada.
  • O autor é um bot.
  • O autor é da equipe (moderador/administrador).
  • O autor já fez mais de 3 postagens em tópicos regulares (não privados).
  • A postagem já foi escaneada 3 ou mais vezes.

Se o teste estiver funcionando, tenho certeza de que deve ser por um dos motivos acima.

1 curtida

Ahhh sim! Obrigado por suas respostas pacientes e úteis!

Postei com meu usuário administrador em vez do meu usuário de nível de confiança 0. :woman_facepalming:

Está funcionando! Adoro a forma como o usuário discourse_ai_spam aparece como o usuário que sinalizou e deslistou a postagem.

Obrigado novamente por sua ajuda rápida e generosa com isso!

3 curtidas