Como usar modelos de IA com tokenizadores customizados

RBoy · Dezembro 14, 2025, 12:08pm

Obrigado. Então decidi contratar os serviços do ChatGPT, Gemini e Grok para me ajudar a decidir qual tokenizador usar; qual seria a correspondência mais próxima do tokenizador Kimi Instruct TikToken/BPE para gerar a saída mais precisa do modelo.

Devo dizer que os modelos de IA modernos são bastante representativos da sociedade humana. Todos eles raciocinaram sobre qual tokenizador seria o mais adequado e apresentaram suas descobertas, discordaram sobre alguns fatos e cada um tinha suas próprias opiniões sobre qual é o melhor - meio que seguindo a mesma direção, mas não um consenso, muito parecido com uma equipe de projeto humana - hilário!!!

A propósito, o Gemini recomendou o Qwen (pela relação entre os fundadores chineses), o Grok recomendou o Llama3 (com base em sua semelhança com o cl100k_base e eficiência geral), enquanto o ChatGPT disse Qwen ou Llama3 -

Tópico		Respostas	Visualizações
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	233	19 de Março de 2025
Frustrations on AI spam detector Support spam , ai	9	117	21 de Dezembro de 2025
Configuring OpenRouter language models Integrations ai	0	939	10 de Dezembro de 2024
How to implement Mistral with Embeddings Support related-topics , ai	6	208	11 de Maio de 2025
Inquiry About AI Plugin Options Support ai	7	107	24 de Novembro de 2025

Como usar modelos de IA com tokenizadores customizados

Tópicos relacionados