Es ist auch erwähnenswert, dass die meisten Coding-Agenten heutzutage sich nicht einmal die Mühe machen, einen genauen Tokenizer wie Discourse zu verwenden. Sie schätzen einfach mit 4 Buchstaben pro Token.
cl100k wird für die überwiegende Mehrheit der Anwendungsfälle bei LLMs mit leicht unterschiedlichen Tokenizern völlig ausreichend sein.