J’utilise également vLLM. Je recommanderais également le modèle openchat v3.5 0106, qui est un modèle de 7 milliards de paramètres et qui fonctionne très bien.
Je l’exécute en fait en 4 bits quantifiés pour qu’il s’exécute plus rapidement.
J’utilise également vLLM. Je recommanderais également le modèle openchat v3.5 0106, qui est un modèle de 7 milliards de paramètres et qui fonctionne très bien.
Je l’exécute en fait en 4 bits quantifiés pour qu’il s’exécute plus rapidement.