Я пытаюсь настроить детектор спам-сообщений на основе ИИ для своего экземпляра Discourse, но у меня возникло несколько вопросов:
Системный промпт для персонажа детектора спам-сообщений нельзя редактировать. Я могу создать нового персонажа, но нет поля, чтобы указать Discourse, что он будет использоваться как детектор спам-сообщений?
Я хочу использовать Qwen3 в качестве LLM для этой задачи. Предустановки для Qwen3 нет, поэтому я планирую создать свою собственную. Однако токенизатора Qwen3Tokenizer тоже нет. Что делает токенизатор в данном случае? Подойдёт ли QwenTokenizer для Qwen3?
Или есть более простой вариант: настроить службу, похожую на веб-хук, чтобы Discourse обращался к ней при создании новых тем или сообщений?
Спасибо, но я знаю, что такое токенизатор. Я не понимаю, для чего его использует Discourse и что произойдет, если я выберу неправильный токенизатор? В любом случае, для вызова LLM мне токенизатор не нужен.
Насколько я понимаю, эта инструкция добавляется к системному промпту, а не заменяет его, из-за чего промпт становится ещё длиннее и содержит смешанные языки…
Но прохождение теста не означает, что проблем нет. (К сведению: я ещё не полностью настроил LLM; я попробовал бесплатный сервис Gemini, но получил ошибку 429, поэтому сейчас пытаюсь разобраться, как интегрировать llama.cpp в Discourse.)
Я проверил исходный код. Если я не ошибся, токенизатор используется для двух вещей: подсчёта токенов для статистики и оценки стоимости, а также для усечения постов до установленного лимита. Так что использование неправильного токенизатора не сильно повлияет на меня.