HuggingFace TGI 対 OpenAI API Endpoint コスト

インターンが、Discourse AI プラグインに接続された API エンドポイントを使用して、OpenAI を介して DigitalOcean に Discourse サイトをデプロイしました。サイトは正常に動作しています。インターンは HuggingFace TGI を検討することを提案しました。HuggingFace に関して、インターンが正しい方向に向かっているかどうかを確認するために、戦略的なガイダンスを提供したいと考えています。彼らはコスト削減のためにセルフホスト型の HuggingFace TGI を提案していると思われます。しかし、ホスティングの GPU コストを見ると、高価に思えます。

インターンに具体的なサービスとコストを提案するように依頼することもできますが、戦略的なガイダンスを提供したいと考えています。代替案として、インターンは OpenAI、Anthropic、Gemini のテストを続けることができます。

インターンにどのようなタスクを割り当てるべきか、アドバイスはありますか?

基本的な考え方は、Discourse の本番環境に Discourse AI を実装し、その後、顧客(コミュニティに資金を提供している人)に AI の維持と新機能のプロモーションのために追加のサービス料金を支払うように依頼することです。

インターンのタスク割り当てに関しては、Hugging Face Inference API を調べることもできます。これは OpenAI API を使用するよりも安いですか?

TGI をホストするために、Google Cloud、AWS、Azure の特定のサービスを使用している人はいますか?

例えば、AWS では g4dn.xlarge または g5.xlarge を検討すべきでしょうか?

GCP では、T4 GPU が推奨されるパスですか?

コストの計算方法について、何かアドバイスはありますか?

「いいね!」 1

APIの価格設定は、API呼び出しごとに料金が発生するのに対し、TGIを実行する場合はサーバー稼働時間ごとに料金が発生するため、単一のインスタンスではAPI価格を上回るのは難しいでしょう。

例えば、g6.xlargeでLlama 3.1 8Bを実行する場合、月額約600ドルかかります。これは、Anthropic Claude 3.5 Haikuの約4億5000万トークンに相当します。

独自のLLMを実行することが理にかなうのは、プライバシーまたはスケーラビリティが必要な場合です。

「いいね!」 5

ご回答ありがとうございます。g6.xlarge で Llama 3.1 8B を月額 600 ドルで利用できれば妥当なコストですが、ご親切にも指摘されたように、API コストの方が安くなるでしょう。したがって、OpenAI やその他の API コストを利用することになりそうです。プライバシーに関する懸念は何でしょうか?

HuggingFace TGI での実験目的で、テストに月額 600 ドルよりも安価なものはありますか?例えば、インターンは仕事をしていないときに GPU インスタンスをオフにできますか?GPU 対応コンテナのコストについて少し混乱しており、インターンにコストの推奨を負担させたくありません。コンテナの購入で間違いを犯すと、彼らは気分を悪くするかもしれません。

彼らにリソースを購入し、私が購入したリソースで HuggingFace TGI をテストするように指示したいと考えています。その後、パフォーマンスや結果の最適化の違いについて報告してもらうことができます。

「いいね!」 2