Também vale a pena notar… a maioria dos agentes de codificação hoje em dia nem sequer se preocupa com um tokenizador preciso como o Discourse. Eles apenas estimam em 4 letras por token.
O cl100k será mais do que suficiente para a grande maioria dos casos de uso em LLMs com tokenizadores ligeiramente diferentes.