私もvLLMを使用しています。また、非常にパフォーマンスの高い7Bパラメータモデルであるopenchat v3.5 0106モデルもお勧めします。
実際、私はそれを4ビット量子化で実行しており、より高速に動作するようにしています。