Wie man AI-Modelle mit benutzerdefinierten Tokenizern verwendet

RBoy · 13. Dezember 2025 um 22:41

Ich versuche, das Modell groq moonshotai/kimi-k2-instruct zu verwenden. Laut der Dokumentation auf moonshotai/Kimi-K2-Instruct · Hugging Face ist dieses Modell nicht mit OpenAI- oder Gemini-Tokenizern kompatibel und scheint einen eigenen benutzerdefinierten Tokenizer zu verwenden.

Ist es möglich, Discourse so zu konfigurieren, dass es einen benutzerdefinierten Tokenizer für dieses Modell verwendet? Wenn ja, wie? Ich sehe keine Optionen unter dem LLM-Modell, um einen benutzerdefinierten Tokenizer zu verwenden.

Dieses Modell scheint GPT-5 weit überlegen zu sein, daher bin ich sehr daran interessiert, es mit dem Discourse BOT zu verwenden, um zu sehen, wie effektiv es sein kann. (Schlägt GPT-5 bei der Schlussfolgerung; mehrsprachiges MMLU: 89 %; mehrsprachiges HLE: 85 %)

Falco · 14. Dezember 2025 um 00:02

TL;DR wählen Sie den nächstgelegenen Tokenizer und setzen Sie den maximalen Kontext auf einige Tausend weniger, damit der Unterschied Sie nicht beeinträchtigt.

RBoy · 14. Dezember 2025 um 12:08

Danke. Ich habe mich also entschieden, die Dienste von ChatGPT, Gemini und Grok in Anspruch zu nehmen, um mir bei der Entscheidung zu helfen, welchen Tokenizer ich verwenden soll; welcher dem Kimi Instruct TikToken/BPE Tokenizer am nächsten kommt, um die genaueste Ausgabe aus dem Modell zu generieren.

Ich muss sagen, moderne KI-Modelle sind ein ziemlich guter Spiegel der menschlichen Gesellschaft. Sie alle haben darüber nachgedacht, welcher Tokenizer am besten geeignet wäre, und ihre Ergebnisse präsentiert. Sie waren sich bei einigen Fakten uneinig und jeder hatte seine eigenen Gedanken darüber, welcher der beste ist – sie steuern alle in die gleiche Richtung, aber es gibt keinen wirklichen Konsens, ganz wie bei einem menschlichen Projektteam – urkomisch!!!

Übrigens empfahl Gemini Qwen (wegen der Beziehung zu den chinesischen Gründern), Grok empfahl Llama3 (basierend auf seiner Ähnlichkeit mit cl100k_base und der Gesamteffizienz), während ChatGPT entweder Qwen oder Llama3 sagte –

sam · 2. März 2026 um 04:10

Es ist auch erwähnenswert, dass die meisten Coding-Agenten heutzutage sich nicht einmal die Mühe machen, einen genauen Tokenizer wie Discourse zu verwenden. Sie schätzen einfach mit 4 Buchstaben pro Token.

cl100k wird für die überwiegende Mehrheit der Anwendungsfälle bei LLMs mit leicht unterschiedlichen Tokenizern völlig ausreichend sein.

Thema		Antworten	Aufrufe
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	233	19. März 2025
Frustrations on AI spam detector Support spam , ai	9	115	21. Dezember 2025
Configuring OpenRouter language models Integrations ai	0	908	10. Dezember 2024
How to implement Mistral with Embeddings Support related-topics , ai	6	206	11. Mai 2025
Inquiry About AI Plugin Options Support ai	7	104	24. November 2025

Wie man AI-Modelle mit benutzerdefinierten Tokenizern verwendet

Verwandte Themen