Selbst-Hosting eines Open-Source LLM für DiscourseAI

Ich benutze auch vLLM. Ich würde auch das OpenChat v3.5 0106-Modell empfehlen, ein Modell mit 7 Milliarden Parametern, das sehr gut funktioniert.

Ich lasse es tatsächlich in 4-Bit quantisiert laufen, damit es schneller läuft.