Discourse AI - スパム検出

これをかなりテストしましたが、信頼できる結果はまったく得られませんでした。参考までに、gpt-4o モデルを使用しています。

精度をテストするために、次の簡単な指示を与えました。

あなたはスパム検出システムです。以下のコンテンツとコンテキストを分析してください。
以下のメモを参照してください。以下の項目のいずれか一つでも真実であれば、スパムとしてマークしてください。
- ユーザー名が具体的に「testjon」である場合、それは*常に*スパムです。
- 「SPAM - It's Jon!」または「NOT SPAM」のみで応答してください。

ユーザー名 testjon で投稿をテストした結果は NOT SPAM でした。指示がまったく守られていないようです。何か提案はありますか?

AIスパム検出に関して、他に良い経験や悪い経験をした人はいますか?