Come usare i modelli AI con tokenizer personalizzati

RBoy · 13 Dicembre 2025, 10:41pm

Sto cercando di utilizzare il modello groq moonshotai/kimi-k2-instruct. Secondo la documentazione su moonshotai/Kimi-K2-Instruct · Hugging Face, questo modello non è compatibile con i tokenizer OpenAI o Gemini e sembra utilizzare un proprio tokenizer personalizzato.

È possibile configurare Discourse per utilizzare un tokenizer personalizzato per questo modello, se sì, come? Non vedo opzioni sotto il modello LLM per l’utilizzo di un tokenizer personalizzato.

Questo modello sembra essere di gran lunga superiore a GPT-5, quindi sono molto interessato a usarlo con il BOT di Discourse per vedere quanto possa essere efficace. (Supera GPT-5 nel ragionamento; MMLU multilingue: 89%; HLE multilingue: 85%)

Falco · 14 Dicembre 2025, 12:02am

TL;DR scegli il tokenizer più vicino e imposta il contesto massimo a qualche migliaio in meno per evitare che la differenza ti influenzi.

RBoy · 14 Dicembre 2025, 12:08pm

Grazie. Quindi ho deciso di avvalermi dei servizi di ChatGPT, Gemini e Grok per aiutarmi a decidere quale tokenizer utilizzare; quale sarebbe la corrispondenza più vicina al tokenizer Kimi Instruct TikToken/BPE per generare l’output più accurato dal modello.

Devo dire che i moderni modelli di intelligenza artificiale sono piuttosto rappresentativi della società umana. Hanno tutti ragionato su quale tokenizer sarebbe più adatto e hanno presentato le loro scoperte, erano in disaccordo su alcuni fatti e ognuno aveva le proprie idee su quale fosse il migliore - in qualche modo diretti nella stessa direzione ma non proprio un consenso, molto simile a un team di progetto umano - esilarante!!!

A proposito, Gemini ha raccomandato Qwen (per la relazione tra i fondatori cinesi), Grok ha raccomandato Llama3 (in base alla sua somiglianza con cl100k_base e all’efficienza generale) mentre ChatGPT ha detto o Qwen o Llama3 -

sam · 2 Marzo 2026, 4:10am

Vale anche la pena notare che la maggior parte degli agenti di codifica al giorno d’oggi non si preoccupa nemmeno di un tokenizzatore accurato come fa Discourse. Stimano semplicemente 4 lettere per token.

cl100k andrà benissimo per la stragrande maggioranza dei casi d’uso su modelli linguistici di grandi dimensioni con tokenizzatori leggermente diversi.

Argomento		Risposte	Visualizzazioni
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	233	Marzo 19, 2025
Frustrations on AI spam detector Support spam , ai	9	115	Dicembre 21, 2025
Configuring OpenRouter language models Integrations ai	0	908	Dicembre 10, 2024
How to implement Mistral with Embeddings Support related-topics , ai	6	206	Maggio 11, 2025
Inquiry About AI Plugin Options Support ai	7	104	Novembre 24, 2025

Come usare i modelli AI con tokenizer personalizzati

Argomenti correlati