Para usar certos recursos do Discourse AI, os usuários são obrigados a usar um provedor de Modelo de Linguagem Grande (LLM). Consulte cada recurso de IA para determinar quais LLMs são compatíveis.
Se o custo for uma preocupação significativa, o Discourse AI tem várias ferramentas integradas para ajudar a gerenciar os gastos:
- Painel de Uso de IA — acompanhe o consumo de tokens por recurso, modelo e usuário com custos estimados
- Cotas de Uso — defina limites por modelo e por grupo para tokens ou contagens de solicitações dentro de janelas de tempo configuráveis (horária, diária, semanal)
- Alocações de Crédito — defina orçamentos gerais de crédito por modelo com limites suaves e rígidos
- Orçamentos do Lado do Fornecedor — defina limites de uso diretamente do fornecedor como uma salvaguarda adicional
- Restrições de Grupo — permita que apenas usuários e grupos selecionados acessem os recursos de IA
Existem vários fatores variáveis a serem considerados ao calcular os custos de uso de LLMs
Uma visão simplificada seria…
Importante entender o que são tokens e como contá-los
- Modelo e Preços do LLM → Identificar o modelo LLM específico que você planeja usar e encontrar seus detalhes de preços mais recentes para tokens de entrada e saída
- Tokens de Entrada → O comprimento médio de seus prompts de entrada em tokens
- Tokens de Saída → As respostas do modelo em tokens
Agora vamos analisar o exemplo de uso do Bot de IA aqui mesmo no Meta
Muitas simplificações foram feitas durante este cálculo, como uso de tokens, usuários usando o Bot de IA e número médio de solicitações. Esses números devem ser considerados apenas como diretrizes gerais. Especialmente porque fazemos muitas experimentações com o Bot de IA
-
Use o Painel de Uso de IA integrado em
/admin/plugins/discourse-ai/ai-usagepara revisar seu uso real de tokens de solicitação/resposta, detalhado por recurso, modelo e usuário -
Em média, os tokens de resposta foram 3 a 5 vezes maiores que os tokens de solicitação [1]
-
Assuma que um token de solicitação de usuário médio seja 85, equivalente a <1 parágrafo [2]
-
Assuma que um token de resposta médio seja 85 x 4 = 340 tokens, o equivalente a 3 parágrafos
-
Usando o GPT-5.4 mini da OpenAI, o custo para tokens de entrada seria de US$ 0,75 / 1M tokens = US$ 0,00000075 / token x 85 tokens = US$ 0,000064 para entrada
-
Para tokens de saída, seria de US$ 4,50 / 1M tokens = US$ 0,0000045 / token x 340 tokens = US$ 0,00153 para saída
-
Custo total por solicitação é US$ 0,000064 + US$ 0,00153 = US$ 0,0016
-
Durante fevereiro de 2024, cerca de 600 usuários estavam usando o Bot de IA, fazendo uma média de 10 solicitações naquele mês. Agora, suponha que esses números sejam consistentes com sua comunidade
-
Isso significaria que, para fevereiro, o custo do Bot de IA seria de US$ 0,0016 x 600 usuários x 10 solicitações = US$ 9,56
-
Avançando rapidamente para um custo anual de execução do Bot de IA, seriam US$ 9,56 x 12 = US$ 115 para o ano para executar o GPT-5.4 mini como seu LLM de escolha
Para custos ainda mais baixos, considere modelos de orçamento como GPT-5.4 nano (US$ 0,20/US$ 1,25 por 1M tokens), Gemini 2.5 Flash (US$ 0,075/US$ 0,30 por 1M tokens) ou Claude Haiku 4.5 — que podem reduzir os custos em mais 75–95% em comparação com o exemplo acima. Sempre verifique os preços mais recentes do seu provedor, pois os custos continuam a cair.
Uma estimativa observando a comunidade da OpenAI e nossa própria resposta à proporção de tokens de solicitação ↩︎
Ao observar o uso médio de tokens de solicitação do usuário, encontrei números tão baixos quanto 20 a >100. Eu queria encapsular que havia mais solicitações próximas a 100 e a suposição é que essas solicitações podem estar mais próximas de frases totalmente formadas e se referem a prompts bem pensados com muitas perguntas feitas ao bot ↩︎