Как использовать модели ИИ с пользовательскими токенизаторами

RBoy · 13.Декабрь.2025 22:41:28

Я пытаюсь использовать модель groq moonshotai/kimi-k2-instruct. Согласно документации на moonshotai/Kimi-K2-Instruct · Hugging Face, эта модель несовместима с токенизаторами OpenAI или Gemini и, похоже, использует собственный кастомный токенизатор.

Возможно ли настроить Discourse для использования кастомного токенизатора для этой модели? Если да, то как? Я не вижу никаких опций в разделе LLM-моделей для использования кастомного токенизатора.

Эта модель, похоже, значительно превосходит GPT-5, поэтому я очень заинтересован в её использовании с Discourse BOT, чтобы оценить её эффективность. (Превосходит GPT-5 в рассуждениях; многоязычный MMLU: 89%; HLE многоязычный: 85%)

Falco · 14.Декабрь.2025 00:02:19

TL;DR: выберите ближайший токенизатор и установите максимальный контекст на несколько тысяч меньше, чтобы разница не влияла на вас.

RBoy · 14.Декабрь.2025 12:08:49

Спасибо. Итак, я решил привлечь к помощи ChatGPT, Gemini и Grok, чтобы помочь мне выбрать подходящий токенизатор — тот, который был бы наиболее близок к токенизатору Kimi Instruct (TikToken/BPE) и обеспечил бы максимально точные результаты работы модели.

Должен сказать, что современные модели ИИ во многом отражают человеческое общество. Все они проанализировали, какой токенизатор лучше всего подходит, представили свои выводы, не сошлись в некоторых фактах и выразили собственные мнения о том, какой из них лучший — все они двигались в одном направлении, но консенсуса не было, очень похоже на человеческую проектную команду — это просто смешно!!!

Кстати, Gemini рекомендовал Qwen (из-за связи с китайскими основателями), Grok — Llama3 (исходя из его сходства с cl100k_base и общей эффективности), а ChatGPT предложил либо Qwen, либо Llama3 —

sam · 02.Март.2026 04:10:15

Также стоит отметить, что большинство современных код-агентов даже не утруждают себя использованием точного токенизатора, как это делает Discourse. Они просто оценивают примерно 4 символа на токен.

cl100k будет вполне достаточно для подавляющего большинства случаев использования в LLM с немного отличающимися токенизаторами.

Тема		Ответов	Просм.
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	253	19.03.2025
Frustrations on AI spam detector Support spam , ai	9	137	21.12.2025
Configuring OpenRouter language models Integrations ai	0	1027	10.12.2024
How to implement Mistral with Embeddings Support related-topics , ai	6	227	11.05.2025
Inquiry About AI Plugin Options Support ai	7	133	24.11.2025

Как использовать модели ИИ с пользовательскими токенизаторами

Связанные темы