Wie man AI-Modelle mit benutzerdefinierten Tokenizern verwendet

Danke. Ich habe mich also entschieden, die Dienste von ChatGPT, Gemini und Grok in Anspruch zu nehmen, um mir bei der Entscheidung zu helfen, welchen Tokenizer ich verwenden soll; welcher dem Kimi Instruct TikToken/BPE Tokenizer am nächsten kommt, um die genaueste Ausgabe aus dem Modell zu generieren.

Ich muss sagen, moderne KI-Modelle sind ein ziemlich guter Spiegel der menschlichen Gesellschaft. Sie alle haben darüber nachgedacht, welcher Tokenizer am besten geeignet wäre, und ihre Ergebnisse präsentiert. Sie waren sich bei einigen Fakten uneinig und jeder hatte seine eigenen Gedanken darüber, welcher der beste ist – sie steuern alle in die gleiche Richtung, aber es gibt keinen wirklichen Konsens, ganz wie bei einem menschlichen Projektteam – urkomisch!!! :rofl:

Übrigens empfahl Gemini Qwen (wegen der Beziehung zu den chinesischen Gründern), Grok empfahl Llama3 (basierend auf seiner Ähnlichkeit mit cl100k_base und der Gesamteffizienz), während ChatGPT entweder Qwen oder Llama3 sagte – :joy: