أنا أستخدم vLLM أيضًا. أود أيضًا أن أوصي بنموذج openchat v3.5 0106، وهو نموذج بمعامل 7 مليار أداء جيد جدًا.
أنا في الواقع أقوم بتشغيله بتقنية 4bit quantized لكي يعمل بشكل أسرع.
أنا أستخدم vLLM أيضًا. أود أيضًا أن أوصي بنموذج openchat v3.5 0106، وهو نموذج بمعامل 7 مليار أداء جيد جدًا.
أنا في الواقع أقوم بتشغيله بتقنية 4bit quantized لكي يعمل بشكل أسرع.