Разочарования от детектора спама на базе ИИ

,

Я пытаюсь настроить детектор спам-сообщений на основе ИИ для своего экземпляра Discourse, но у меня возникло несколько вопросов:

Системный промпт для персонажа детектора спам-сообщений нельзя редактировать. Я могу создать нового персонажа, но нет поля, чтобы указать Discourse, что он будет использоваться как детектор спам-сообщений?

Я хочу использовать Qwen3 в качестве LLM для этой задачи. Предустановки для Qwen3 нет, поэтому я планирую создать свою собственную. Однако токенизатора Qwen3Tokenizer тоже нет. Что делает токенизатор в данном случае? Подойдёт ли QwenTokenizer для Qwen3?

Или есть более простой вариант: настроить службу, похожую на веб-хук, чтобы Discourse обращался к ней при создании новых тем или сообщений?

Привет! Отвечаю на ваш вопрос:

Из документации:

Спасибо, но я знаю, что такое токенизатор. Я не понимаю, для чего его использует Discourse и что произойдет, если я выберу неправильный токенизатор? В любом случае, для вызова LLM мне токенизатор не нужен.

Попробуйте перейти по ссылке https://<your-site>/admin/plugins/discourse-ai/ai-spam — там вы сможете:

  • выбрать своего персонажа
  • добавить собственные инструкции и протестировать их на посте

Да, вы можете это сделать, а затем запустить «Тест».

Насколько я понимаю, эта инструкция добавляется к системному промпту, а не заменяет его, из-за чего промпт становится ещё длиннее и содержит смешанные языки…

Но прохождение теста не означает, что проблем нет. (К сведению: я ещё не полностью настроил LLM; я попробовал бесплатный сервис Gemini, но получил ошибку 429, поэтому сейчас пытаюсь разобраться, как интегрировать llama.cpp в Discourse.)

Я только что выполнил быструю настройку, и всё работает нормально: при выборе пользовательского персонажа для спама.

Пожалуйста, сообщите ещё раз, если у вас не получится сделать это через /discourse-ai/ai-spam.

Спасибо, то есть метка «спам-детектор» влияет только на фильтрацию списков персонажей?
Я настрою тестовую среду и попробую.

Кажется, всё работает, спасибо!

Я проверил исходный код. Если я не ошибся, токенизатор используется для двух вещей: подсчёта токенов для статистики и оценки стоимости, а также для усечения постов до установленного лимита. Так что использование неправильного токенизатора не сильно повлияет на меня.