Il est également à noter que la majorité des agents de codage de nos jours ne prennent même pas la peine d’utiliser un tokenizer précis comme Discourse. Ils estiment simplement à 4 lettres par jeton.
cl100k sera tout à fait suffisant pour la grande majorité des cas d’utilisation sur les LLM avec des tokenizers légèrement différents.