Estimation du coût d'activation de Discourse AI pour le contenu et la recherche associés

Existe-t-il une référence de coût, une mesure ou une formule d’estimation qui m’aiderait à comprendre le coût unique (intégration de masse) et le coût récurrent (intégration et recherche) de l’activation de Discourse AI à l’aide d’un LLM basé sur le cloud ?

Pour un LLM auto-hébergé, quelle serait une configuration/un coût de serveur typique requis ?

Je crois que vous auriez besoin d’un GPU il est préférable d’avoir un GPU si vous souhaitez auto-héberger. Regardez des choses comme Ollama.

Voir aussi :

Les sujets connexes et la recherche IA n’utilisent pas de LLM.

C’est une requête par sujet pour l’intégration de masse, donc la plupart des sites devraient pouvoir le faire en utilisant quelque chose comme le niveau gratuit de Gemini.

La recherche est une requête par recherche, et qui peut très probablement s’intégrer dans le niveau gratuit.

Comme il ne s’agit que d’un modèle d’intégration, vous devriez être en mesure d’auto-héberger Qwen/Qwen3-Embedding-0.6B · Hugging Face en utilisant GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models sur un serveur basique de 2 vCPU / 4 Go de RAM sans problème.

C’est plus rapide sur un serveur avec GPU, bien sûr, mais cela fonctionne très bien sur un serveur sans.

1 « J'aime »