בוט ספאם של AI טוען שהוא לא ספאם, אך יומן הסריקה מצביע על כך שהוא כן ספאם

I’ve enabled the Discourse AI spam handling on our forum. I’ve set up Claude Sonnet 4 with an API key and selected the Spam detector persona.

I did a test post that is clearly spam. Nothing subtle about it.

It was not blocked and was posted immediately.

When I gave the post URL to the spam bot using the test feature, the result says Not spam, but in the Scan log it says: SPAM - This is a clear promotional advertisement…

My expectation would be that the result would be SPAM, matching the Scan log declaration of SPAM. And that this would then queue up the post for review by admins and moderators, for example.

Might anyone be able to share what I’m missing? I’m no expert – so am open to any guidance!

Thank you!

מהי רמת האמון של המשתמש שפרסם? ה-AI Spam ידלג על פוסטים ממשתמשי TL2 ומעלה.

4 לייקים

תודה על תשובתך!

המשתמש שבאמצעותו פרסמתי הוא משתמש חדש ברמת אמון

יש לך מחשבות מדוע הפוסט עבר?

אני מעריך את עזרתך!

This will fix both the test and the post not getting flagged:

The Spam detector Persona system prompt was confusing Claude models. The change makes the expected response format instructions more explicit.

4 לייקים

Ah, fantastic! The test feature is working as expected.

I am wondering if you might be able to help with why the AI Spam feature is still not blocking a spammy post from being immediately posted? I sent the post to the AI Spam test and it is flagging it as spam - but it was posted.

Am I missing a connecting piece perhaps? Thank you so much for your help with this!

לייק 1

האם אתה מנהל מערכת, או TL בכיר יותר? אם כן, אז אולי תנסה להשתמש במשתמש בדיקה של TL נמוך יותר.

לייק 1

אנו מדלגים על פוסט כאשר:

  • רמת האמון של הכותב גבוהה מ-TL1.
  • הפוסט שייך לנושא של הודעה פרטית.
  • הכותב הוא בוט.
  • הכותב הוא צוות (מנהל/אדמין).
  • הכותב כבר כתב יותר מ-3 פוסטים בנושאים רגילים (לא הודעות פרטיות).
  • הפוסט כבר נסרק 3 פעמים או יותר.

אם הבדיקה עובדת, אני בטוח שזה חייב להיות בגלל אחת מהסיבות הנ"ל.

לייק 1

Ahhh yes! Thank you for your patient and helpful replies!

I posted with my admin user instead of my trust level 0 user. :woman_facepalming:

It’s working! I love the way the discourse_ai_spam user shows up as the user who flagged and unlisted the post.

Thank you again for your quick and generous help with this!

3 לייקים