Cómo usar modelos de IA con tokenizadores personalizados

También vale la pena señalar… la mayoría de los agentes de codificación hoy en día ni siquiera se molestan con un tokenizador preciso como lo hace Discourse. Simplemente estiman 4 letras por token.

cl100k será más que suficiente para la gran mayoría de los casos de uso en modelos de lenguaje grande (llms) con tokenizadores ligeramente diferentes.

3 Me gusta