Anch’io sto usando vLLM. Consiglierei anche il modello openchat v3.5 0106, che è un modello da 7 miliardi di parametri che offre prestazioni molto elevate.
In realtà lo sto eseguendo con quantizzazione a 4 bit in modo che funzioni più velocemente.
Anch’io sto usando vLLM. Consiglierei anche il modello openchat v3.5 0106, che è un modello da 7 miliardi di parametri che offre prestazioni molto elevate.
In realtà lo sto eseguendo con quantizzazione a 4 bit in modo che funzioni più velocemente.