如何将AI模型与自定义分词器一起使用

谢谢。所以我决定聘请 ChatGPT、Gemini 和 Grok 来帮助我决定使用哪个分词器;哪个分词器最接近 Kimi Instruct TikToken/BPE 分词器,以从模型中生成最准确的输出。

我必须说,现代人工智能模型相当能代表人类社会。它们都推断出哪个分词器最合适,并提出了它们的发现,它们在一些事实上存在分歧,并且它们对哪个是最好的都有自己的看法——有点朝着同一个方向发展,但没有达成共识,非常像一个人类项目团队——太搞笑了!!!:rofl:

顺便说一下,Gemini 推荐了 Qwen(基于其与中国创始人的关系),Grok 推荐了 Llama3(基于其与 cl100k_base 的相似性以及整体效率),而 ChatGPT 则表示 Qwen 或 Llama3 都可以——:joy: