Autohosting di un OpenSource LLM per DiscourseAI

Anch’io sto usando vLLM. Consiglierei anche il modello openchat v3.5 0106, che è un modello da 7 miliardi di parametri che offre prestazioni molto elevate.

In realtà lo sto eseguendo con quantizzazione a 4 bit in modo che funzioni più velocemente.