Fiz alguns cálculos e cheguei à conclusão de que, sem a capacidade de limitar a entrada e saída de tokens mensais ou diários de um usuário, você pode rapidamente se meter em problemas. Atualmente, a única maneira de limitar a interação de um usuário com um bot de IA é permitir bots de IA apenas em Mensagens Privadas (desabilitando o chat para cada persona) e definir um limite de Mensagens Privadas diárias permitidas — mas, claro, isso é irrealista. Aqui está um exemplo de um detalhamento de custo do “pior cenário” que justifica a necessidade desse recurso, usando a abordagem que a OpenAI adota para seus membros do ChatGPT:
GPT-4o mini com 32k de contexto (P.S. o comprimento do contexto é definido usando a configuração “Número de tokens para o prompt” na página de configurações do LLM)
Custo atual: $0,15 1M entrada / $0,60 1M saída
Vamos dizer que o usuário insere 32k e gera 16k todos os dias por 30 dias (um ciclo de faturamento para uma assinatura típica):
Custo de entrada mensal = 960.000 tokens = ~$0,14
Custo de saída mensal = 480.000 tokens = ~$0,28
Ok, então isso na verdade não é ruim, certo? Menos de meio dólar. No entanto, esse é um uso na verdade bem baixo, especialmente porque o GPT-4o mini pode gerar até 16,4k tokens em um único disparo (embora, sim, você possa projetar o prompt e as configurações do LLM para evitar isso). Você pode começar a multiplicar esses custos pelo quanto você acha que seus usuários usariam o bot de IA. A pior parte é que este é um modelo incrivelmente barato; os custos são exponencialmente mais altos para Claude 3.5 Sonnet ($3 1M entrada / $15 1M saída) e GPT-4o ($5 1M entrada / $15 1M saída) — e nem vamos falar sobre o GPT-4 Turbo lol. Aqui está o mesmo detalhamento para o Claude 3.5 Sonnet:
Claude 3.5 Sonnet com 32k de contexto
Custo de entrada mensal = ~$2,88
Custo de saída mensal = ~$7,20
Total = ~$10,08
Mas, novamente; este é um uso baixo. Assim, fica claro o quão caro pode ser ter o uso irrestrito de LLM em bots de IA. Se você multiplicar isso por 2, precisaria cobrar uma assinatura de $25 para ter um lucro de pouco menos de $5 ![]()
Aqui está o que proponho formalmente:
- Uma configuração que permita uma quantidade específica de entrada e saída de tokens para um grupo específico de usuários por mês ou dia para bots de IA.
- Esse uso de tokens NÃO incluiria o prompt do sistema para as personas.
- Os limites de tokens podem ser por LLM, por persona ou universais/gerais.
- Alternativamente ao ponto 1, um limite inteiro simples para usar bots de IA em DMs e PMs poderia ser usado. Exemplo: limite de 100 DMs para qualquer persona por dia.
- Uma configuração que permita uma quantidade específica de saída de tokens para um grupo específico de usuários por mês ou dia para o assistente de IA.
- A entrada de tokens pode não ser contada, pois seria impraticável esperar que o usuário adivinhe quantos tokens um tópico longo tem quando, por exemplo, está gerando um resumo.
- Também pode ser prudente colocar um limite inteiro rígido no comprimento (em palavras para que TikToken não precise ser usado aqui) para prompts personalizados para que os usuários não tentem contornar seus limites mensais/diários usando o Composer como um chatbot ilimitado

- Um contador de tokens no perfil do usuário e talvez até mesmo em suas PMs e DMs. Seria legal se houvesse um pequeno texto ao lado de cada mensagem do usuário e da IA exibindo o número de tokens que ela é (não queremos necessariamente permitir que todos tenham o recurso de depuração, e isso só funciona em PMs de qualquer maneira)
- Um contador de tokens separado para o assistente de IA (para ajudar a manter esses dois recursos separados) que compartilha uma contagem entre explicar, revisar, prompt personalizado, etc…
Nota lateral: Não estou criticando este recurso nem os desenvolvedores de forma alguma e peço desculpas se alguma parte disso soar assim. Honestamente, o plugin Discourse AI é uma das minhas tecnologias favoritas de todos os tempos. Na verdade, ele me permite construir o negócio dos meus sonhos como pesquisador e educador de IA sem ter que contratar engenheiros extras e pagar por infraestrutura adicional — posso configurar tudo sozinho
. Eu meramente acho que este recurso é a última peça do quebra-cabeça não apenas para mim, mas para inúmeros outros usuários do Discourse que desejam permitir que seus usuários desfrutem desta maravilhosa tecnologia com moderação.