是否有成本基准、标杆或估算公式可以帮助我了解使用基于云的 LLM 启用 Discourse AI 的一次性(批量嵌入)和持续性(嵌入和搜索)成本?
对于自托管 LLM,需要什么样的典型服务器配置/成本?
是否有成本基准、标杆或估算公式可以帮助我了解使用基于云的 LLM 启用 Discourse AI 的一次性(批量嵌入)和持续性(嵌入和搜索)成本?
对于自托管 LLM,需要什么样的典型服务器配置/成本?
我认为你需要一块 GPU 如果你想自托管的话,有 GPU 会更好。可以看看 Ollama 之类的。
另请参阅:
相关主题和 AI 搜索不使用 LLM。
批量嵌入是每个主题一个请求,所以大多数网站都可以使用类似 Gemini 免费套餐的东西来完成。
搜索是每次搜索一个请求,很可能可以包含在免费套餐中。
由于这只是一个嵌入模型,您应该能够使用 GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models 在一台拥有 2 vCPU / 4GB RAM 的基础服务器上轻松自托管 https://huggingface.co/Qwen/Qwen3-Embedding-0.6B。
当然,在带 GPU 的服务器上会更快,但没有 GPU 的服务器也能正常运行。