Ativei o gerenciamento de spam do Discourse AI em nosso fórum. Configurei o Claude Sonnet 4 com uma chave de API e selecionei a persona de detector de spam.
Fiz uma postagem de teste que é claramente spam. Nada sutil sobre isso.
Ela não foi bloqueada e foi postada imediatamente.
Quando dei a URL da postagem para o bot de spam usando o recurso de teste, o resultado diz Não é spam, mas no log de varredura diz: SPAM - Este é um anúncio promocional claro…
Minha expectativa seria que o resultado fosse SPAM, correspondendo à declaração de SPAM no log de varredura. E que isso, então, colocaria a postagem na fila para revisão por administradores e moderadores, por exemplo.
Alguém poderia compartilhar o que estou perdendo? Não sou um especialista – então estou aberto a qualquer orientação!
Isso corrigirá tanto o teste quanto a postagem não serem sinalizados:
O prompt do sistema do Persona do detector de spam estava confundindo os modelos Claude. A alteração torna as instruções do formato de resposta esperado mais explícitas.
Ah, fantástico! O recurso de teste está funcionando como esperado.
Gostaria de saber se você poderia ajudar a entender por que o recurso de Spam de IA ainda não está bloqueando a postagem de um spam que foi publicado imediatamente? Enviei a postagem para o teste de Spam de IA e ele a está sinalizando como spam - mas ela foi publicada.
Será que estou perdendo alguma peça de conexão? Muito obrigado pela sua ajuda com isso!