Cómo usar modelos de IA con tokenizadores personalizados

RBoy · 13 Diciembre, 2025 22:41

Estoy intentando usar el modelo groq moonshotai/kimi-k2-instruct. Según la documentación en moonshotai/Kimi-K2-Instruct · Hugging Face, este modelo no es compatible con los tokenizadores de OpenAI o Gemini y parece usar su propio tokenizador personalizado.

¿Es posible configurar Discourse para usar un tokenizador personalizado para este modelo? Si es así, ¿cómo? No veo ninguna opción bajo el modelo LLM para usar un tokenizador personalizado.

Este modelo parece ser muy superior a GPT-5, por lo que estoy muy interesado en usarlo con el BOT de Discourse para ver qué tan efectivo puede ser. (Supera a GPT-5 en razonamiento; MMLU multilingüe: 89%; HLE multilingüe: 85%)

Falco · 14 Diciembre, 2025 00:02

TL;DR elige el tokenizador más cercano y establece el contexto máximo en unos miles menos para permitir que la diferencia no te afecte.

RBoy · 14 Diciembre, 2025 12:08

Gracias. Así que decidí contratar los servicios de ChatGPT, Gemini y Grok para que me ayudaran a decidir qué tokenizador usar; cuál sería la coincidencia más cercana al tokenizador Kimi Instruct TikToken/BPE para generar la salida más precisa del modelo.

Debo decir que los modelos de IA modernos son bastante representativos de la sociedad humana. Todos razonaron sobre qué tokenizador sería el más adecuado y presentaron sus hallazgos, discreparon en algunos de los hechos y cada uno tenía sus propias ideas sobre cuál es el mejor, más o menos en la misma dirección pero no realmente un consenso, muy parecido a un equipo de proyecto humano, ¡¡¡hilarante!!!

Por cierto, Gemini recomendó Qwen (por la relación entre los fundadores chinos), Grok recomendó Llama3 (basado en su similitud con cl100k_base y la eficiencia general) mientras que ChatGPT dijo que Qwen o Llama3 -

sam · 2 Marzo, 2026 04:10

También vale la pena señalar… la mayoría de los agentes de codificación hoy en día ni siquiera se molestan con un tokenizador preciso como lo hace Discourse. Simplemente estiman 4 letras por token.

cl100k será más que suficiente para la gran mayoría de los casos de uso en modelos de lenguaje grande (llms) con tokenizadores ligeramente diferentes.

Tema		Respuestas	Vistas
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	233	19 Marzo 2025
Frustrations on AI spam detector Support spam , ai	9	115	21 Diciembre 2025
Configuring OpenRouter language models Integrations ai	0	906	10 Diciembre 2024
How to implement Mistral with Embeddings Support related-topics , ai	6	206	11 Mayo 2025
Inquiry About AI Plugin Options Support ai	7	104	24 Noviembre 2025

Cómo usar modelos de IA con tokenizadores personalizados

Temas relacionados