对于单个实例,很难在 API 定价方面做得更好,因为使用 API 定价时,您按调用次数付费,而运行 TGI 时,您按服务器运行的小时数付费。
假设您在 g6.xlarge 上运行 Llama 3.1 8B;这大约需要 600 美元/月。这可以为您提供约 4.5 亿个 Anthropic Claude 3.5 Haiku 的 token。
当您需要隐私或规模时,运行自己的 LLM 才是有意义的。
对于单个实例,很难在 API 定价方面做得更好,因为使用 API 定价时,您按调用次数付费,而运行 TGI 时,您按服务器运行的小时数付费。
假设您在 g6.xlarge 上运行 Llama 3.1 8B;这大约需要 600 美元/月。这可以为您提供约 4.5 亿个 Anthropic Claude 3.5 Haiku 的 token。
当您需要隐私或规模时,运行自己的 LLM 才是有意义的。