Come usare i modelli AI con tokenizer personalizzati

Sto cercando di utilizzare il modello groq moonshotai/kimi-k2-instruct. Secondo la documentazione su moonshotai/Kimi-K2-Instruct · Hugging Face, questo modello non è compatibile con i tokenizer OpenAI o Gemini e sembra utilizzare un proprio tokenizer personalizzato.

È possibile configurare Discourse per utilizzare un tokenizer personalizzato per questo modello, se sì, come? Non vedo opzioni sotto il modello LLM per l’utilizzo di un tokenizer personalizzato.

Questo modello sembra essere di gran lunga superiore a GPT-5, quindi sono molto interessato a usarlo con il BOT di Discourse per vedere quanto possa essere efficace. (Supera GPT-5 nel ragionamento; MMLU multilingue: 89%; HLE multilingue: 85%)

TL;DR scegli il tokenizer più vicino e imposta il contesto massimo a qualche migliaio in meno per evitare che la differenza ti influenzi.

Grazie. Quindi ho deciso di avvalermi dei servizi di ChatGPT, Gemini e Grok per aiutarmi a decidere quale tokenizer utilizzare; quale sarebbe la corrispondenza più vicina al tokenizer Kimi Instruct TikToken/BPE per generare l’output più accurato dal modello.

Devo dire che i moderni modelli di intelligenza artificiale sono piuttosto rappresentativi della società umana. Hanno tutti ragionato su quale tokenizer sarebbe più adatto e hanno presentato le loro scoperte, erano in disaccordo su alcuni fatti e ognuno aveva le proprie idee su quale fosse il migliore - in qualche modo diretti nella stessa direzione ma non proprio un consenso, molto simile a un team di progetto umano - esilarante!!! :rofl:

A proposito, Gemini ha raccomandato Qwen (per la relazione tra i fondatori cinesi), Grok ha raccomandato Llama3 (in base alla sua somiglianza con cl100k_base e all’efficienza generale) mentre ChatGPT ha detto o Qwen o Llama3 - :joy: