Wie man AI-Modelle mit benutzerdefinierten Tokenizern verwendet

Ich versuche, das Modell groq moonshotai/kimi-k2-instruct zu verwenden. Laut der Dokumentation auf moonshotai/Kimi-K2-Instruct · Hugging Face ist dieses Modell nicht mit OpenAI- oder Gemini-Tokenizern kompatibel und scheint einen eigenen benutzerdefinierten Tokenizer zu verwenden.

Ist es möglich, Discourse so zu konfigurieren, dass es einen benutzerdefinierten Tokenizer für dieses Modell verwendet? Wenn ja, wie? Ich sehe keine Optionen unter dem LLM-Modell, um einen benutzerdefinierten Tokenizer zu verwenden.

Dieses Modell scheint GPT-5 weit überlegen zu sein, daher bin ich sehr daran interessiert, es mit dem Discourse BOT zu verwenden, um zu sehen, wie effektiv es sein kann. (Schlägt GPT-5 bei der Schlussfolgerung; mehrsprachiges MMLU: 89 %; mehrsprachiges HLE: 85 %)

TL;DR wählen Sie den nächstgelegenen Tokenizer und setzen Sie den maximalen Kontext auf einige Tausend weniger, damit der Unterschied Sie nicht beeinträchtigt.

Danke. Ich habe mich also entschieden, die Dienste von ChatGPT, Gemini und Grok in Anspruch zu nehmen, um mir bei der Entscheidung zu helfen, welchen Tokenizer ich verwenden soll; welcher dem Kimi Instruct TikToken/BPE Tokenizer am nächsten kommt, um die genaueste Ausgabe aus dem Modell zu generieren.

Ich muss sagen, moderne KI-Modelle sind ein ziemlich guter Spiegel der menschlichen Gesellschaft. Sie alle haben darüber nachgedacht, welcher Tokenizer am besten geeignet wäre, und ihre Ergebnisse präsentiert. Sie waren sich bei einigen Fakten uneinig und jeder hatte seine eigenen Gedanken darüber, welcher der beste ist – sie steuern alle in die gleiche Richtung, aber es gibt keinen wirklichen Konsens, ganz wie bei einem menschlichen Projektteam – urkomisch!!! :rofl:

Übrigens empfahl Gemini Qwen (wegen der Beziehung zu den chinesischen Gründern), Grok empfahl Llama3 (basierend auf seiner Ähnlichkeit mit cl100k_base und der Gesamteffizienz), während ChatGPT entweder Qwen oder Llama3 sagte – :joy: