Estimando o custo de habilitar o Discourse AI para conteúdo e pesquisa relacionados

Existe algum benchmark de custo, régua ou fórmula de estimativa que me ajude a entender o custo único (incorporação em massa) e contínuo (incorporação e pesquisa) de habilitar o Discourse AI usando um LLM baseado em nuvem?

Para LLM auto-hospedado, qual seria uma configuração/custo típico de servidor necessário?

Acredito que você precisaria de uma GPU é melhor com uma GPU se você quiser auto-hospedar. Dê uma olhada em coisas como Ollama.

Veja também:

Tópicos relacionados e pesquisa de IA não usam um LLM.

É uma solicitação por tópico para embeddings em massa, então a maioria dos sites poderá fazer isso usando algo como o Gemini Free tier.

A pesquisa é uma solicitação por pesquisa, e que muito provavelmente pode se encaixar no nível gratuito.

Como este é apenas um modelo de embeddings, você poderá auto-hospedar Qwen/Qwen3-Embedding-0.6B · Hugging Face usando GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models em um básico de 2 vCPU / 4GB de RAM facilmente.

É mais rápido em um servidor com GPU, é claro, mas funciona muito bem em um sem ela.

1 curtida