HuggingFace TGI 与 OpenAI API 终端成本对比

对于单个实例,很难在 API 定价方面做得更好,因为使用 API 定价时,您按调用次数付费,而运行 TGI 时,您按服务器运行的小时数付费。

假设您在 g6.xlarge 上运行 Llama 3.1 8B;这大约需要 600 美元/月。这可以为您提供约 4.5 亿个 Anthropic Claude 3.5 Haiku 的 token。

当您需要隐私或规模时,运行自己的 LLM 才是有意义的。

5 个赞