Ich benutze auch vLLM. Ich würde auch das OpenChat v3.5 0106-Modell empfehlen, ein Modell mit 7 Milliarden Parametern, das sehr gut funktioniert.
Ich lasse es tatsächlich in 4-Bit quantisiert laufen, damit es schneller läuft.
Ich benutze auch vLLM. Ich würde auch das OpenChat v3.5 0106-Modell empfehlen, ein Modell mit 7 Milliarden Parametern, das sehr gut funktioniert.
Ich lasse es tatsächlich in 4-Bit quantisiert laufen, damit es schneller läuft.