为DiscourseAI自我托管一款开源的LLM

我也在使用 vLLM。我还会推荐 openchat v3.5 0106 模型,这是一个 7B 参数模型,性能非常好。

我实际上是以 4 位量化方式运行它的,这样可以运行得更快。