كيفية استخدام نماذج الذكاء الاصطناعي مع مُرمّزات مخصصة

أحاول استخدام نموذج groq moonshotai/kimi-k2-instruct. وفقًا للوثائق الموجودة على https://huggingface.co/moonshotai/Kimi-K2-Instruct، هذا النموذج غير متوافق مع مُرمِّزات (tokenizers) OpenAI أو Gemini ويبدو أنه يستخدم مُرمِّزًا مخصصًا به.

هل من الممكن تهيئة Discourse لاستخدام مُرمِّز مخصص لهذا النموذج، وإذا كان الأمر كذلك، فكيف؟ لا أرى أي خيارات ضمن نموذج LLM لاستخدام مُرمِّز مخصص.

يبدو أن هذا النموذج يتفوق بكثير على GPT-5، لذا أنا مهتم جدًا باستخدامه مع روبوت Discourse لمعرفة مدى فعاليته. (يتفوق على GPT-5 في الاستدلال؛ MMLU متعدد اللغات: 89٪؛ HLE متعدد اللغات: 85٪)

TL;DR اختر أقرب مُرمّز (tokenizer) واضبط السياق الأقصى (maximum context) على أقل بضعة آلاف للسماح للفارق بعدم التأثير عليك.

شكرًا لك. لذلك قررت الاستعانة بخدمات ChatGPT و Gemini و Grok لمساعدتي في تحديد أداة الترميز (tokenizer) التي يجب استخدامها؛ أيها الأقرب إلى أداة الترميز Kimi Instruct TikToken/BPE لتوليد المخرجات الأكثر دقة من النموذج.

يجب أن أقول إن نماذج الذكاء الاصطناعي الحديثة تمثل المجتمع البشري إلى حد ما. لقد استنتجوا جميعًا أداة الترميز الأنسب وقدموا نتائجهم، واختلفوا في بعض الحقائق وكان لكل منهم آراؤه الخاصة حول الأفضل - يتجهون تقريبًا في نفس الاتجاه ولكن ليس هناك إجماع حقيقي، تمامًا مثل فريق مشروع بشري - مضحك للغاية!!! :rofl:

بالمناسبة، أوصى Gemini بـ Qwen (بسبب العلاقة بين المؤسسين الصينيين)، وأوصى Grok بـ Llama3 (بناءً على تشابهه مع cl100k_base والكفاءة العامة)، بينما قال ChatGPT إما Qwen أو Llama3 - :joy: