クラウドベースのLLMを使用してDiscourse AIを有効にするための、一時的な(一括埋め込み)および継続的な(埋め込みと検索)コストを理解するのに役立つコストベンチマーク、定規、または概算式はありますか?
セルフホスト型LLMの場合、必要となる典型的なサーバー構成/コストはいくらですか?
クラウドベースのLLMを使用してDiscourse AIを有効にするための、一時的な(一括埋め込み)および継続的な(埋め込みと検索)コストを理解するのに役立つコストベンチマーク、定規、または概算式はありますか?
セルフホスト型LLMの場合、必要となる典型的なサーバー構成/コストはいくらですか?
セルフホストする場合、GPUが必要だと思います、GPUがあった方が良いと思います。Ollamaのようなものをチェックしてみてください。
こちらも参照してください:
関連トピックとAI検索はLLMを使用していません。
一括埋め込みはトピックごとに1リクエストなので、ほとんどのサイトはGeminiの無料ティアのようなもので対応できるはずです。
検索は検索ごとに1リクエストなので、無料ティアに収まる可能性が高いです。
これは単なる埋め込みモデルなので、GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models を使用して、Qwen/Qwen3-Embedding-0.6B · Hugging Face を基本的な2 vCPU / 4GB RAMで簡単にセルフホストできるはずです。
もちろんGPU搭載サーバーの方が高速ですが、GPUなしでも問題なく動作します。