oppman
(Craig)
1
一名实习生使用连接到 Discourse AI 插件的 API 端点,在 DigitalOcean 上使用 OpenAI 部署了我们的 Discourse 站点。该站点运行良好。实习生建议他们研究 HuggingFace TGI。我正在尝试为实习生提供指导,看看他们是否在 HuggingFace 方面走对了方向。我认为他们建议自托管 HuggingFace TGI 以降低成本。但是,当我查看托管的 GPU 成本时,它似乎很昂贵。
我可以让实习生提出具体服务和成本,但我试图提供战略指导。另一种选择是让实习生继续测试 OpenAI、Anthropic、Gemini。
关于我应该分配给实习生的任务,有什么建议吗?
基本思路是在 Discourse 的生产部署中实现 Discourse AI,然后要求客户(资助社区的人)支付一些额外的服务费来维护 AI 并推广新功能。
至于实习生任务,我也可以让他们研究 Hugging Face 推理 API。它比使用 OpenAI API 便宜吗?
有人在使用 Google Cloud、AWS、Azure 的特定服务来托管 TGI 吗?
例如,对于 AWS,他们应该查看 g4dn.xlarge 还是 g5.xlarge?
对于 GCP,T4 GPU 是推荐的路径吗?
关于他们如何计算成本,有什么建议吗?
1 个赞
Falco
(Falco)
2
对于单个实例,很难在 API 定价方面做得更好,因为使用 API 定价时,您按调用次数付费,而运行 TGI 时,您按服务器运行的小时数付费。
假设您在 g6.xlarge 上运行 Llama 3.1 8B;这大约需要 600 美元/月。这可以为您提供约 4.5 亿个 Anthropic Claude 3.5 Haiku 的 token。
当您需要隐私或规模时,运行自己的 LLM 才是有意义的。
5 个赞
oppman
(Craig)
3
感谢您的回复。对于 g6.xlarge 上的 Llama 3.1 8B 来说,每月 600 美元是合理的成本,但正如您慷慨指出的那样,API 成本会更便宜。因此,我们可能会选择 OpenAI 和其他 API 成本。隐私方面的顾虑是什么?
为了使用 HuggingFace TGI 进行实验,是否有比每月 600 美元更便宜的测试选项?例如,实习生在不工作时可以关闭 GPU 实例吗?我正在试图弄清楚该推荐什么给他们。我对 GPU 容器的成本有些困惑,我不想把成本推荐的负担推给实习生。如果他们在购买容器时犯了错误,他们可能会感到难过。
我想做的是为他们购买资源,然后指示他们在我为他们购买的资源中测试 HuggingFace TGI。然后,他们可以就任何性能或结果优化差异进行汇报。
2 个赞