如何将AI模型与自定义分词器一起使用

RBoy · 2025 年12 月 13 日 22:41

我正尝试使用 groq 的 moonshotai/kimi-k2-instruct 模型。根据 moonshotai/Kimi-K2-Instruct · Hugging Face 上的文档，该模型与 OpenAI 或 Gemini 分词器不兼容，并且它似乎使用了自己的自定义分词器。

是否可以在 Discourse 中配置使用自定义分词器来支持此模型？如果是，该如何操作？我在 LLM 模型下没有看到任何关于使用自定义分词器的选项。

该模型似乎远优于 GPT-5，所以我非常有兴趣将其与 Discourse BOT 一起使用，看看它能有多有效。（推理能力胜过 GPT-5；多语言 MMLU：89%；HLE 多语言：85%）

Falco · 2025 年12 月 14 日 00:02

TL;DR 选择最接近的分词器，并将最大上下文设置为少几千个，以确保差异不会影响到您。

RBoy · 2025 年12 月 14 日 12:08

谢谢。所以我决定聘请 ChatGPT、Gemini 和 Grok 来帮助我决定使用哪个分词器；哪个分词器最接近 Kimi Instruct TikToken/BPE 分词器，以从模型中生成最准确的输出。

我必须说，现代人工智能模型相当能代表人类社会。它们都推断出哪个分词器最合适，并提出了它们的发现，它们在一些事实上存在分歧，并且它们对哪个是最好的都有自己的看法——有点朝着同一个方向发展，但没有达成共识，非常像一个人类项目团队——太搞笑了！！！

顺便说一下，Gemini 推荐了 Qwen（基于其与中国创始人的关系），Grok 推荐了 Llama3（基于其与 cl100k_base 的相似性以及整体效率），而 ChatGPT 则表示 Qwen 或 Llama3 都可以——

sam · 2026 年3 月 2 日 04:10

还值得注意的是……如今大多数编码代理甚至懒得使用像 Discourse 那样准确的分词器。它们只是估计每 4 个字母为一个 token。

对于具有略微不同分词器的 llm（大型语言模型）的大多数用例来说，cl100k 将绰绰有余。

话题		回复	浏览量
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	233	2025 年3 月 19 日
Frustrations on AI spam detector Support spam , ai	9	115	2025 年12 月 21 日
Configuring OpenRouter language models Integrations ai	0	908	2024 年12 月 10 日
How to implement Mistral with Embeddings Support related-topics , ai	6	207	2025 年5 月 11 日
Inquiry About AI Plugin Options Support ai	7	104	2025 年11 月 24 日