También vale la pena señalar… la mayoría de los agentes de codificación hoy en día ni siquiera se molestan con un tokenizador preciso como lo hace Discourse. Simplemente estiman 4 letras por token.
cl100k será más que suficiente para la gran mayoría de los casos de uso en modelos de lenguaje grande (llms) con tokenizadores ligeramente diferentes.