Спам-бот на базе ИИ утверждает, что не является спамом, но лог сканирования указывает на обратное

J-Ha_Hasegawa · 20.Август.2025 00:20:48

Я включил обработку спама с помощью Discourse AI на нашем форуме. Настроил Claude Sonnet 4 с API-ключом и выбрал роль «Детектор спама».

Я опубликовал тестовое сообщение, которое явно является спамом — ничего скрытого в нём нет.

Однако оно не было заблокировано и было опубликовано сразу же.

Когда я передал ссылку на это сообщение спам-боту через функцию тестирования, результат показал «Не спам», хотя в логе сканирования указано: СПАМ — это явная рекламная реклама…

Я ожидал, что результат будет «СПАМ», как и указано в логе сканирования. И что тогда это сообщение будет поставлено в очередь на проверку администраторами и модераторами, например.

Может ли кто-нибудь подсказать, что я упускаю? Я не эксперт, поэтому открыт к любым рекомендациям!

Спасибо!

Roman · 20.Август.2025 00:34:56

Каков уровень доверия пользователя, опубликовавшего сообщение? AI-спам пропускает сообщения от пользователей с уровнем доверия 2 и выше.

Что касается теста, в коде теста есть ошибка, и там должно быть написано «спам». Я займусь исправлением.

J-Ha_Hasegawa · 20.Август.2025 00:48:28

Спасибо за ваш ответ!

Пользователь, от имени которого я публиковал, имеет уровень доверия «новый пользователь».

Есть ли какие-то мысли о том, почему пост всё же был опубликован?

Благодарю за помощь!

Roman · 20.Август.2025 17:09:31

Это исправит как тест, так и проблему с тем, что пост не помечается:

github.com/discourse/discourse

FIX: Default prompts have to be explicit about the expected format. (#34442)

main ← explicit_json_prompt

merged 04:56PM - 20 Aug 25 UTC

romanrizzi

+50 -52

Wrapping the expected response with `<output>` tags confuses models, especially …those from the Claude family, which don't have schema support and rely on prefilling. Relying on prefilling means they only know the response must start with `{`, and how the JSON looks is only hinted at in the system prompt.

Системный промпт для детектора спама Persona путал модели Claude. Внесённое изменение делает инструкции по ожидаемому формату ответа более явными.

J-Ha_Hasegawa · 22.Август.2025 01:33:12

Ах, отлично! Функция тестирования работает как положено.

Подскажите, пожалуйста, почему функция AI Spam до сих пор не блокирует спам-сообщения сразу после их публикации? Я отправил сообщение на тестирование функции AI Spam, и оно было помечено как спам, но всё равно было опубликовано.

Возможно, я упустил какой-то связующий элемент? Большое спасибо за вашу помощь!

Jagster · 22.Август.2025 05:05:02

Вы администратор или имеете более высокий уровень TL? Если да, то, возможно, стоит попробовать использовать тестового пользователя с низким уровнем TL.

Roman · 22.Август.2025 13:25:40

Мы пропускаем пост, если:

Уровень доверия автора выше TL1.
Пост относится к теме личных сообщений.
Автор — бот.
Автор является сотрудником (модератором/администратором).
Автор уже опубликовал более 3 постов в обычных (не личных) темах.
Пост уже был просканирован 3 или более раз.

Если тест работает, я уверен, что это связано с одним из вышеперечисленных условий.

J-Ha_Hasegawa · 22.Август.2025 15:29:46

Ах да! Спасибо за ваши терпеливые и полезные ответы!

Я опубликовал сообщение от имени администратора, а не от пользователя с уровнем доверия 0.

Всё работает! Мне нравится, что пользователь discourse_ai_spam отображается как тот, кто пометил сообщение как спам и снял его с публикации.

Ещё раз спасибо за вашу быструю и щедрую помощь в этом вопросе!

Тема		Ответов	Просм.
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	30	4641	10.03.2026
AI powered Spam detection Announcements ai , spam	11	1146	11.01.2025
Are you experiencing AI based spam? Community Building ai	22	2276	19.01.2025
Discourse AI spam detection "Scan log" is frequently truncated Bug ai	1	153	18.12.2025
Setting up spam detection in your community Site Management moderation , automation , how-to , ai	10	2078	30.01.2025

Спам-бот на базе ИИ утверждает, что не является спамом, но лог сканирования указывает на обратное

Связанные темы