AI spam bot zegt dat het geen spam is, maar scanlogboek zegt dat het spam is

I’ve enabled the Discourse AI spam handling on our forum. I’ve set up Claude Sonnet 4 with an API key and selected the Spam detector persona.

I did a test post that is clearly spam. Nothing subtle about it.

It was not blocked and was posted immediately.

When I gave the post URL to the spam bot using the test feature, the result says Not spam, but in the Scan log it says: SPAM - This is a clear promotional advertisement…

My expectation would be that the result would be SPAM, matching the Scan log declaration of SPAM. And that this would then queue up the post for review by admins and moderators, for example.

Might anyone be able to share what I’m missing? I’m no expert – so am open to any guidance!

Thank you!

Wat is het vertrouwensniveau van de gebruiker die heeft gepost? De AI Spam zal berichten van TL2+ gebruikers overslaan.

4 likes

Bedankt voor uw reactie!

De gebruiker die ik gebruikte om te posten is Nieuwe gebruiker met vertrouwensniveau

Enige ideeën waarom het bericht erdoorheen kwam?

Ik waardeer uw hulp!

This will fix both the test and the post not getting flagged:

The Spam detector Persona system prompt was confusing Claude models. The change makes the expected response format instructions more explicit.

4 likes

Ah, fantastic! The test feature is working as expected.

I am wondering if you might be able to help with why the AI Spam feature is still not blocking a spammy post from being immediately posted? I sent the post to the AI Spam test and it is flagging it as spam - but it was posted.

Am I missing a connecting piece perhaps? Thank you so much for your help with this!

1 like

Bent u een beheerder of een hogere TL? Zo ja, dan zou u misschien een testgebruiker met een lagere TL proberen te gebruiken.

1 like

We slaan een bericht over wanneer:

  • Het vertrouwensniveau van de auteur hoger is dan TL1.
  • Het bericht behoort tot een privéberichtonderwerp.
  • De auteur een bot is.
  • De auteur personeel is (moderator/beheerder).
  • De auteur al meer dan 3 berichten heeft geplaatst in reguliere (niet-PM) onderwerpen.
  • Het bericht al 3 of meer keren is gescand.

Als de test werkt, ben ik ervan overtuigd dat het door een van de bovenstaande redenen komt.

1 like

Ahhh yes! Thank you for your patient and helpful replies!

I posted with my admin user instead of my trust level 0 user. :woman_facepalming:

It’s working! I love the way the discourse_ai_spam user shows up as the user who flagged and unlisted the post.

Thank you again for your quick and generous help with this!

3 likes