Comment utiliser les modèles d'IA avec des tokenizers personnalisés

RBoy · Décembre 14, 2025, 12:08

Merci. J’ai donc décidé de faire appel aux services de ChatGPT, Gemini et Grok pour m’aider à décider quel tokenizer utiliser ; lequel serait le plus proche du tokenizer Kimi Instruct TikToken/BPE pour générer le résultat le plus précis à partir du modèle.

Je dois dire que les modèles d’IA modernes sont assez représentatifs de la société humaine. Ils ont tous raisonné sur le tokenizer le mieux adapté et ont présenté leurs conclusions, ils n’étaient pas d’accord sur certains faits et chacun avait ses propres idées sur celui qui était le meilleur - allant dans la même direction mais sans vraiment de consensus, un peu comme une équipe de projet humaine - hilarant !!!

D’ailleurs, Gemini a recommandé Qwen (en raison de la relation entre les fondateurs chinois), Grok a recommandé Llama3 (basé sur sa similarité avec cl100k_base et son efficacité globale) tandis que ChatGPT a dit soit Qwen soit Llama3 -

Sujet		Réponses	Vues
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	233	Mars 19, 2025
Frustrations on AI spam detector Support spam , ai	9	117	Décembre 21, 2025
Configuring OpenRouter language models Integrations ai	0	939	Décembre 10, 2024
How to implement Mistral with Embeddings Support related-topics , ai	6	208	Mai 11, 2025
Inquiry About AI Plugin Options Support ai	7	107	Novembre 24, 2025

Comment utiliser les modèles d'IA avec des tokenizers personnalisés

Sujets connexes