Estimando custos de uso de LLMs para Discourse AI

:information_source: Para usar determinados recursos do Discourse AI, os usuários precisam usar um provedor de Modelo de Linguagem Grande (LLM). Consulte cada recurso de IA para determinar quais LLMs são compatíveis.

:dollar: Se o custo for uma preocupação significativa, uma maneira de combatê-lo é definir limites de uso diretamente com o fornecedor e usar um orçamento mensal. Outra opção é permitir que apenas usuários e grupos selecionados acessem os recursos de IA.

Existem vários fatores variáveis a serem considerados ao calcular os custos de uso de LLMs.
Uma visão simplificada seria…

:information_source: É importante entender o que são tokens e como contá-los.

  • Modelo LLM e preços → Identificar o modelo LLM específico que você planeja usar e encontrar os detalhes de preços mais recentes para tokens de entrada e saída.
  • Tokens de entrada → O comprimento médio de seus prompts de entrada em tokens.
  • Token de saída → As respostas do modelo em tokens.

Agora, vamos analisar o exemplo de uso do AI Bot aqui no Meta.

:warning: Muitas simplificações foram feitas durante este cálculo, como uso de tokens, usuários utilizando o AI Bot e número médio de solicitações. Esses números devem ser considerados apenas como diretrizes gerais. Especialmente porque fazemos muita experimentação com o AI Bot.

  1. Usando o Data Explorer para entender os tokens médios de solicitação/resposta e todos os outros dados aqui.

  2. Em média, os tokens de resposta foram de 3 a 5 vezes maiores que os tokens de solicitação [1]

  3. Assuma um token médio de solicitação do usuário de 85, equivalente a menos de 1 parágrafo ^[Quantas palavras são 85 tokens? Ao observar o uso médio de tokens de solicitação do usuário, encontrei números tão baixos quanto 20 a mais de 100. Eu queria encapsular que houve mais solicitações próximas a 100 e a suposição é que essas solicitações podem ser mais próximas de frases completas e se referem a prompts bem pensados com muitas perguntas feitas ao bot.

  4. Assuma um token médio de resposta de 85 x 4 = 340 tokens, o equivalente a 3 parágrafos.

  5. Usando GPT-4 Turbo da OpenAI, o custo para tokens de entrada seria de US$ 10 / 1 milhão de tokens = US$ 0,00001 / token x 85 tokens = US$ 0,00085 para entrada.

  6. Para tokens de saída, seria de US$ 30,00 / 1 milhão de tokens = US$ 0,00003 / token x 340 tokens = US$ 0,0102 para saída.

  7. Custo total por solicitação é de US$ 0,00085 + US$ 0,0102 = US$ 0,01105.

  8. Em fevereiro de 2024, cerca de 600 usuários estavam utilizando o AI Bot, fazendo uma média de 10 solicitações naquele mês. Agora, assuma que esses números são consistentes com sua comunidade.

  9. Isso significaria que, para fevereiro, o custo do AI Bot seria de US$ 0,01105 x 600 usuários x 10 solicitações = US$ 66.

  10. Avançando para o custo anual de execução do AI Bot, seriam US$ 66 x 12 = US$ 792 por ano para executar o GPT-4 Turbo como seu LLM de escolha.

Agora, com o GPT-4o, você pode reduzir esse custo final pela metade!


  1. Uma estimativa olhando para a comunidade OpenAI e nossa própria resposta à proporção de tokens de solicitação ↩︎

9 curtidas

Compartilhamos recentemente o seguinte com um cliente que estava perguntando sobre o uso de pesquisa de IA no Meta e quanto isso nos custou

No mês passado, fizemos 1104 pesquisas no Meta

  • Preços do GPT-4o-mini, que custariam US$ 0,25
  • Usar haiku custaria US$ 0,53
  • Gemini Flash custaria US$ 0,06

Temos que prestar atenção aos request tokens, que foram cerca de 85868, e aos response tokens, que foram cerca de 408417 do LLM

3 curtidas

Custo estimado para um mês de legendas de imagem no Meta

  • 1019 chamadas
  • 55M tokens de solicitação
  • 34K tokens de resposta

O que custaria, dependendo do LLM:

  • Claude Haiku 3: R$ 13,86
  • GPT-4o Mini: R$ 8,31
  • Gemini 1.5 Flash 8B: R$ 2,07
5 curtidas