Wie man AI-Modelle mit benutzerdefinierten Tokenizern verwendet

Es ist auch erwähnenswert, dass die meisten Coding-Agenten heutzutage sich nicht einmal die Mühe machen, einen genauen Tokenizer wie Discourse zu verwenden. Sie schätzen einfach mit 4 Buchstaben pro Token.

cl100k wird für die überwiegende Mehrheit der Anwendungsfälle bei LLMs mit leicht unterschiedlichen Tokenizern völlig ausreichend sein.

3 „Gefällt mir“