Я тоже использую vLLM. Также рекомендую модель openchat v3.5 0106 — это 7-миллиардная модель с 7 миллиардами параметров, которая показывает отличные результаты.
Я запускаю её в квантованном виде с точностью 4 бита, чтобы она работала быстрее.
Я тоже использую vLLM. Также рекомендую модель openchat v3.5 0106 — это 7-миллиардная модель с 7 миллиардами параметров, которая показывает отличные результаты.
Я запускаю её в квантованном виде с точностью 4 бита, чтобы она работала быстрее.