Autoalojamiento de un LLM de código abierto para DiscourseAI

Yo también uso vLLM. También recomendaría el modelo openchat v3.5 0106, que es un modelo de 7B parámetros que funciona muy bien.

De hecho, lo estoy ejecutando en 4 bits cuantizados para que funcione más rápido.