Estimando custos de uso de LLMs para IA de Discurso

:information_source: Para usar certos recursos do Discourse AI, os usuários são obrigados a usar um provedor de Modelo de Linguagem Grande (LLM). Consulte cada recurso de IA para determinar quais LLMs são compatíveis.

:dollar: Se o custo for uma preocupação significativa, o Discourse AI tem várias ferramentas integradas para ajudar a gerenciar os gastos:

  • Painel de Uso de IA — acompanhe o consumo de tokens por recurso, modelo e usuário com custos estimados
  • Cotas de Uso — defina limites por modelo e por grupo para tokens ou contagens de solicitações dentro de janelas de tempo configuráveis (horária, diária, semanal)
  • Alocações de Crédito — defina orçamentos gerais de crédito por modelo com limites suaves e rígidos
  • Orçamentos do Lado do Fornecedordefina limites de uso diretamente do fornecedor como uma salvaguarda adicional
  • Restrições de Grupo — permita que apenas usuários e grupos selecionados acessem os recursos de IA

Existem vários fatores variáveis a serem considerados ao calcular os custos de uso de LLMs
Uma visão simplificada seria…

:information_source: Importante entender o que são tokens e como contá-los

  • Modelo e Preços do LLM → Identificar o modelo LLM específico que você planeja usar e encontrar seus detalhes de preços mais recentes para tokens de entrada e saída
  • Tokens de Entrada → O comprimento médio de seus prompts de entrada em tokens
  • Tokens de Saída → As respostas do modelo em tokens

Agora vamos analisar o exemplo de uso do Bot de IA aqui mesmo no Meta

:warning: Muitas simplificações foram feitas durante este cálculo, como uso de tokens, usuários usando o Bot de IA e número médio de solicitações. Esses números devem ser considerados apenas como diretrizes gerais. Especialmente porque fazemos muitas experimentações com o Bot de IA

  1. Use o Painel de Uso de IA integrado em /admin/plugins/discourse-ai/ai-usage para revisar seu uso real de tokens de solicitação/resposta, detalhado por recurso, modelo e usuário

  2. Em média, os tokens de resposta foram 3 a 5 vezes maiores que os tokens de solicitação [1]

  3. Assuma que um token de solicitação de usuário médio seja 85, equivalente a <1 parágrafo [2]

  4. Assuma que um token de resposta médio seja 85 x 4 = 340 tokens, o equivalente a 3 parágrafos

  5. Usando o GPT-5.4 mini da OpenAI, o custo para tokens de entrada seria de US$ 0,75 / 1M tokens = US$ 0,00000075 / token x 85 tokens = US$ 0,000064 para entrada

  6. Para tokens de saída, seria de US$ 4,50 / 1M tokens = US$ 0,0000045 / token x 340 tokens = US$ 0,00153 para saída

  7. Custo total por solicitação é US$ 0,000064 + US$ 0,00153 = US$ 0,0016

  8. Durante fevereiro de 2024, cerca de 600 usuários estavam usando o Bot de IA, fazendo uma média de 10 solicitações naquele mês. Agora, suponha que esses números sejam consistentes com sua comunidade

  9. Isso significaria que, para fevereiro, o custo do Bot de IA seria de US$ 0,0016 x 600 usuários x 10 solicitações = US$ 9,56

  10. Avançando rapidamente para um custo anual de execução do Bot de IA, seriam US$ 9,56 x 12 = US$ 115 para o ano para executar o GPT-5.4 mini como seu LLM de escolha

Para custos ainda mais baixos, considere modelos de orçamento como GPT-5.4 nano (US$ 0,20/US$ 1,25 por 1M tokens), Gemini 2.5 Flash (US$ 0,075/US$ 0,30 por 1M tokens) ou Claude Haiku 4.5 — que podem reduzir os custos em mais 75–95% em comparação com o exemplo acima. Sempre verifique os preços mais recentes do seu provedor, pois os custos continuam a cair.


  1. Uma estimativa observando a comunidade da OpenAI e nossa própria resposta à proporção de tokens de solicitação ↩︎

  2. Ao observar o uso médio de tokens de solicitação do usuário, encontrei números tão baixos quanto 20 a >100. Eu queria encapsular que havia mais solicitações próximas a 100 e a suposição é que essas solicitações podem estar mais próximas de frases totalmente formadas e se referem a prompts bem pensados com muitas perguntas feitas ao bot ↩︎

9 curtidas

Compartilhamos recentemente o seguinte com um cliente que estava perguntando sobre o uso de pesquisa de IA no Meta e quanto isso nos custou

No mês passado, fizemos 1104 pesquisas no Meta

  • Preços do GPT-4o-mini, que custariam US$ 0,25
  • Usar haiku custaria US$ 0,53
  • Gemini Flash custaria US$ 0,06

Temos que prestar atenção aos request tokens, que foram cerca de 85868, e aos response tokens, que foram cerca de 408417 do LLM

3 curtidas

Custo estimado para um mês de legendas de imagem no Meta

  • 1019 chamadas
  • 55M tokens de solicitação
  • 34K tokens de resposta

O que custaria, dependendo do LLM:

  • Claude Haiku 3: R$ 13,86
  • GPT-4o Mini: R$ 8,31
  • Gemini 1.5 Flash 8B: R$ 2,07
5 curtidas