Yo también uso vLLM. También recomendaría el modelo openchat v3.5 0106, que es un modelo de 7B parámetros que funciona muy bien.
De hecho, lo estoy ejecutando en 4 bits cuantizados para que funcione más rápido.
Yo también uso vLLM. También recomendaría el modelo openchat v3.5 0106, que es un modelo de 7B parámetros que funciona muy bien.
De hecho, lo estoy ejecutando en 4 bits cuantizados para que funcione más rápido.