関連トピックとAI検索はLLMを使用していません。
一括埋め込みはトピックごとに1リクエストなので、ほとんどのサイトはGeminiの無料ティアのようなもので対応できるはずです。
検索は検索ごとに1リクエストなので、無料ティアに収まる可能性が高いです。
これは単なる埋め込みモデルなので、GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models を使用して、Qwen/Qwen3-Embedding-0.6B · Hugging Face を基本的な2 vCPU / 4GB RAMで簡単にセルフホストできるはずです。
もちろんGPU搭載サーバーの方が高速ですが、GPUなしでも問題なく動作します。