Как использовать модели ИИ с пользовательскими токенизаторами

Я пытаюсь использовать модель groq moonshotai/kimi-k2-instruct. Согласно документации на moonshotai/Kimi-K2-Instruct · Hugging Face, эта модель несовместима с токенизаторами OpenAI или Gemini и, похоже, использует собственный кастомный токенизатор.

Возможно ли настроить Discourse для использования кастомного токенизатора для этой модели? Если да, то как? Я не вижу никаких опций в разделе LLM-моделей для использования кастомного токенизатора.

Эта модель, похоже, значительно превосходит GPT-5, поэтому я очень заинтересован в её использовании с Discourse BOT, чтобы оценить её эффективность. (Превосходит GPT-5 в рассуждениях; многоязычный MMLU: 89%; HLE многоязычный: 85%)

TL;DR: выберите ближайший токенизатор и установите максимальный контекст на несколько тысяч меньше, чтобы разница не влияла на вас.

Спасибо. Итак, я решил привлечь к помощи ChatGPT, Gemini и Grok, чтобы помочь мне выбрать подходящий токенизатор — тот, который был бы наиболее близок к токенизатору Kimi Instruct (TikToken/BPE) и обеспечил бы максимально точные результаты работы модели.

Должен сказать, что современные модели ИИ во многом отражают человеческое общество. Все они проанализировали, какой токенизатор лучше всего подходит, представили свои выводы, не сошлись в некоторых фактах и выразили собственные мнения о том, какой из них лучший — все они двигались в одном направлении, но консенсуса не было, очень похоже на человеческую проектную команду — это просто смешно!!! :rofl:

Кстати, Gemini рекомендовал Qwen (из-за связи с китайскими основателями), Grok — Llama3 (исходя из его сходства с cl100k_base и общей эффективности), а ChatGPT предложил либо Qwen, либо Llama3 — :joy:

Также стоит отметить, что большинство современных код-агентов даже не утруждают себя использованием точного токенизатора, как это делает Discourse. Они просто оценивают примерно 4 символа на токен.

cl100k будет вполне достаточно для подавляющего большинства случаев использования в LLM с немного отличающимися токенизаторами.