Comment utiliser les modèles d'IA avec des tokenizers personnalisés

J’essaie d’utiliser le modèle moonshotai/kimi-k2-instruct de Groq. Selon la documentation sur moonshotai/Kimi-K2-Instruct · Hugging Face, ce modèle n’est pas compatible avec les tokeniseurs OpenAI ou Gemini et semble utiliser son propre tokeniseur personnalisé.

Est-il possible de configurer Discourse pour utiliser un tokeniseur personnalisé pour ce modèle, si oui, comment ? Je ne vois aucune option sous le modèle LLM pour utiliser un tokeniseur personnalisé.

Ce modèle semble être bien supérieur à GPT-5, je suis donc très intéressé à l’utiliser avec le BOT Discourse pour voir son efficacité. (Il surpasse GPT-5 en raisonnement ; MMLU multilingue : 89 % ; HLE multilingue : 85 %)

TL;DR choisissez le tokenizer le plus proche et définissez le contexte maximum à quelques milliers de moins pour que la différence ne vous affecte pas.

Merci. J’ai donc décidé de faire appel aux services de ChatGPT, Gemini et Grok pour m’aider à décider quel tokenizer utiliser ; lequel serait le plus proche du tokenizer Kimi Instruct TikToken/BPE pour générer le résultat le plus précis à partir du modèle.

Je dois dire que les modèles d’IA modernes sont assez représentatifs de la société humaine. Ils ont tous raisonné sur le tokenizer le mieux adapté et ont présenté leurs conclusions, ils n’étaient pas d’accord sur certains faits et chacun avait ses propres idées sur celui qui était le meilleur - allant dans la même direction mais sans vraiment de consensus, un peu comme une équipe de projet humaine - hilarant !!! :rofl:

D’ailleurs, Gemini a recommandé Qwen (en raison de la relation entre les fondateurs chinois), Grok a recommandé Llama3 (basé sur sa similarité avec cl100k_base et son efficacité globale) tandis que ChatGPT a dit soit Qwen soit Llama3 - :joy: