还值得注意的是……如今大多数编码代理甚至懒得使用像 Discourse 那样准确的分词器。它们只是估计每 4 个字母为一个 token。
对于具有略微不同分词器的 llm(大型语言模型)的大多数用例来说,cl100k 将绰绰有余。