Eu também estou usando o vLLM. Eu também recomendaria o modelo openchat v3.5 0106, que é um modelo de 7 bilhões de parâmetros que tem um desempenho muito bom.
Na verdade, estou executando-o com quantização de 4 bits para que ele rode mais rápido.
Eu também estou usando o vLLM. Eu também recomendaria o modelo openchat v3.5 0106, que é um modelo de 7 bilhões de parâmetros que tem um desempenho muito bom.
Na verdade, estou executando-o com quantização de 4 bits para que ele rode mais rápido.