ومن الجدير بالذكر أيضًا… أن غالبية وكلاء البرمجة في هذه الأيام لا يكلفون أنفسهم عناء استخدام مُرمّز (tokenizer) دقيق مثلما يفعل ديسكورس. إنهم يقدّرون ببساطة 4 أحرف لكل رمز.
سيكون cl100k جيدًا بما فيه الكفاية لغالبية حالات الاستخدام على النماذج اللغوية الكبيرة (LLMs) ذات المرمّزات المختلفة قليلاً.