Спам-бот на базе ИИ утверждает, что не является спамом, но лог сканирования указывает на обратное

Я включил обработку спама с помощью Discourse AI на нашем форуме. Настроил Claude Sonnet 4 с API-ключом и выбрал роль «Детектор спама».

Я опубликовал тестовое сообщение, которое явно является спамом — ничего скрытого в нём нет.

Однако оно не было заблокировано и было опубликовано сразу же.

Когда я передал ссылку на это сообщение спам-боту через функцию тестирования, результат показал «Не спам», хотя в логе сканирования указано: СПАМ — это явная рекламная реклама…

Я ожидал, что результат будет «СПАМ», как и указано в логе сканирования. И что тогда это сообщение будет поставлено в очередь на проверку администраторами и модераторами, например.

Может ли кто-нибудь подсказать, что я упускаю? Я не эксперт, поэтому открыт к любым рекомендациям!

Спасибо!

Каков уровень доверия пользователя, опубликовавшего сообщение? AI-спам пропускает сообщения от пользователей с уровнем доверия 2 и выше.

Что касается теста, в коде теста есть ошибка, и там должно быть написано «спам». Я займусь исправлением.

4 лайка

Спасибо за ваш ответ!

Пользователь, от имени которого я публиковал, имеет уровень доверия «новый пользователь».

Есть ли какие-то мысли о том, почему пост всё же был опубликован?

Благодарю за помощь!

Это исправит как тест, так и проблему с тем, что пост не помечается:

Системный промпт для детектора спама Persona путал модели Claude. Внесённое изменение делает инструкции по ожидаемому формату ответа более явными.

4 лайка

Ах, отлично! Функция тестирования работает как положено.

Подскажите, пожалуйста, почему функция AI Spam до сих пор не блокирует спам-сообщения сразу после их публикации? Я отправил сообщение на тестирование функции AI Spam, и оно было помечено как спам, но всё равно было опубликовано.

Возможно, я упустил какой-то связующий элемент? Большое спасибо за вашу помощь!

1 лайк

Вы администратор или имеете более высокий уровень TL? Если да, то, возможно, стоит попробовать использовать тестового пользователя с низким уровнем TL.

1 лайк

Мы пропускаем пост, если:

  • Уровень доверия автора выше TL1.
  • Пост относится к теме личных сообщений.
  • Автор — бот.
  • Автор является сотрудником (модератором/администратором).
  • Автор уже опубликовал более 3 постов в обычных (не личных) темах.
  • Пост уже был просканирован 3 или более раз.

Если тест работает, я уверен, что это связано с одним из вышеперечисленных условий.

1 лайк

Ах да! Спасибо за ваши терпеливые и полезные ответы!

Я опубликовал сообщение от имени администратора, а не от пользователя с уровнем доверия 0. :woman_facepalming:

Всё работает! Мне нравится, что пользователь discourse_ai_spam отображается как тот, кто пометил сообщение как спам и снял его с публикации.

Ещё раз спасибо за вашу быструю и щедрую помощь в этом вопросе!

3 лайка