Defendendo a implementação de uma limitação rígida no uso de IA por grupos de usuários para bots de IA e Assistentes de IA

MachineScholar · Julho 24, 2024, 10:43am

Fiz alguns cálculos e cheguei à conclusão de que, sem a capacidade de limitar a entrada e saída de tokens mensais ou diários de um usuário, você pode rapidamente se meter em problemas. Atualmente, a única maneira de limitar a interação de um usuário com um bot de IA é permitir bots de IA apenas em Mensagens Privadas (desabilitando o chat para cada persona) e definir um limite de Mensagens Privadas diárias permitidas — mas, claro, isso é irrealista. Aqui está um exemplo de um detalhamento de custo do “pior cenário” que justifica a necessidade desse recurso, usando a abordagem que a OpenAI adota para seus membros do ChatGPT:

GPT-4o mini com 32k de contexto (P.S. o comprimento do contexto é definido usando a configuração “Número de tokens para o prompt” na página de configurações do LLM)
Custo atual: $0,15 1M entrada / $0,60 1M saída

Vamos dizer que o usuário insere 32k e gera 16k todos os dias por 30 dias (um ciclo de faturamento para uma assinatura típica):
Custo de entrada mensal = 960.000 tokens = ~$0,14
Custo de saída mensal = 480.000 tokens = ~$0,28

Ok, então isso na verdade não é ruim, certo? Menos de meio dólar. No entanto, esse é um uso na verdade bem baixo, especialmente porque o GPT-4o mini pode gerar até 16,4k tokens em um único disparo (embora, sim, você possa projetar o prompt e as configurações do LLM para evitar isso). Você pode começar a multiplicar esses custos pelo quanto você acha que seus usuários usariam o bot de IA. A pior parte é que este é um modelo incrivelmente barato; os custos são exponencialmente mais altos para Claude 3.5 Sonnet ($3 1M entrada / $15 1M saída) e GPT-4o ($5 1M entrada / $15 1M saída) — e nem vamos falar sobre o GPT-4 Turbo lol. Aqui está o mesmo detalhamento para o Claude 3.5 Sonnet:

Claude 3.5 Sonnet com 32k de contexto
Custo de entrada mensal = ~$2,88
Custo de saída mensal = ~$7,20
Total = ~$10,08

Mas, novamente; este é um uso baixo. Assim, fica claro o quão caro pode ser ter o uso irrestrito de LLM em bots de IA. Se você multiplicar isso por 2, precisaria cobrar uma assinatura de $25 para ter um lucro de pouco menos de $5

Aqui está o que proponho formalmente:

Uma configuração que permita uma quantidade específica de entrada e saída de tokens para um grupo específico de usuários por mês ou dia para bots de IA.

Esse uso de tokens NÃO incluiria o prompt do sistema para as personas.
Os limites de tokens podem ser por LLM, por persona ou universais/gerais.

Alternativamente ao ponto 1, um limite inteiro simples para usar bots de IA em DMs e PMs poderia ser usado. Exemplo: limite de 100 DMs para qualquer persona por dia.
Uma configuração que permita uma quantidade específica de saída de tokens para um grupo específico de usuários por mês ou dia para o assistente de IA.

A entrada de tokens pode não ser contada, pois seria impraticável esperar que o usuário adivinhe quantos tokens um tópico longo tem quando, por exemplo, está gerando um resumo.
Também pode ser prudente colocar um limite inteiro rígido no comprimento (em palavras para que TikToken não precise ser usado aqui) para prompts personalizados para que os usuários não tentem contornar seus limites mensais/diários usando o Composer como um chatbot ilimitado

Um contador de tokens no perfil do usuário e talvez até mesmo em suas PMs e DMs. Seria legal se houvesse um pequeno texto ao lado de cada mensagem do usuário e da IA exibindo o número de tokens que ela é (não queremos necessariamente permitir que todos tenham o recurso de depuração, e isso só funciona em PMs de qualquer maneira)

Um contador de tokens separado para o assistente de IA (para ajudar a manter esses dois recursos separados) que compartilha uma contagem entre explicar, revisar, prompt personalizado, etc…

Nota lateral: Não estou criticando este recurso nem os desenvolvedores de forma alguma e peço desculpas se alguma parte disso soar assim. Honestamente, o plugin Discourse AI é uma das minhas tecnologias favoritas de todos os tempos. Na verdade, ele me permite construir o negócio dos meus sonhos como pesquisador e educador de IA sem ter que contratar engenheiros extras e pagar por infraestrutura adicional — posso configurar tudo sozinho . Eu meramente acho que este recurso é a última peça do quebra-cabeça não apenas para mim, mas para inúmeros outros usuários do Discourse que desejam permitir que seus usuários desfrutem desta maravilhosa tecnologia com moderação.

merefield · Julho 24, 2024, 12:56pm

Isso foi implementado no Discourse Chatbot como um sistema de cota semanal em março de 2023 e, desde então, foi expandido para que você possa definir cotas para três coleções diferentes de Grupos de usuários. Por exemplo, membros pagantes recebem uma cota maior.

Usuários que excedem sua cota semanal recebem uma mensagem educada (que não lhe custa nada).

Além disso, os administradores podem ser alertados quando uma cota é excedida.

Eu lhe enviei uma mensagem privada sobre isso em resposta a uma de suas postagens anteriores sobre este tópico, mas você não respondeu Talvez você esteja hospedado e não tenha acesso ao meu plugin?

Sinceramente, com o advento do GPT 4o-mini, os custos para conversas decentes com bots despencaram.

A propósito, o Discourse Chatbot agora é usado por pelo menos uma empresa para suporte ao cliente de linha de frente, então você pode ter certeza de que ele é estável e eficaz.

MachineScholar · Julho 25, 2024, 2:55pm

Desculpas pela falta de resposta! Lembro-me de ter lido agora, mas não tenho ideia de por que não respondi . E eu estou em um droplet, então esse não é o problema.

Não tenho dúvidas sobre sua estabilidade e qualidade; na verdade, gosto bastante do plugin e respeito você e o esforço que você coloca nele. No entanto, um chatbot é apenas uma necessidade parcial para o meu empreendimento comercial. O AI Helper é uma necessidade central, assim como a capacidade de alternar imediatamente entre os modelos. Em um futuro próximo, implementarei meu próprio modelo ajustado e configurarei manualmente meus LLMs, e isso é de missão crítica.

Estou explicando tudo isso apenas para que você não pense que tenho algo contra o seu trabalho! Pelo contrário, o problema é do meu lado; estou tentando fazer algo bastante específico.

merefield · Julho 25, 2024, 2:58pm

Sim, respeito totalmente o escopo da solicitação ser mais amplo

Apenas oferecendo uma solução parcial (embora significativa).

sam · Janeiro 13, 2025, 2:50am

Espera-se que isso seja lançado esta semana:

github.com/discourse/discourse-ai

FEATURE: llm quotas

main ← quotas2

opened 06:20AM - 02 Jan 25 UTC

SamSaffron

+1684 -152

Adds a comprehensive quota management system for LLM models that allows: - Se…tting per-group token and usage limits with configurable durations - Tracking and enforcing token/usage limits across user groups - Quota reset periods (hourly, daily, weekly, or custom) - Admin UI for managing quotas with real-time updates - Full test coverage for quota models and controllers This system provides granular control over LLM API usage by allowing admins to define limits on both total tokens and number of requests per group. Supports multiple concurrent quotas per model and automatically handles quota resets. ![image](https://github.com/user-attachments/assets/76375c76-889d-438b-b464-e65c7f7a41ed) ![image](https://github.com/user-attachments/assets/21752366-2b33-4fb7-8b3f-faee74c45413) ![image](https://github.com/user-attachments/assets/c7248930-0aa7-434e-805e-56adb7cbfb2f)

MachineScholar · Janeiro 13, 2025, 8:04am

Isso é INCRÍVEL!

Nos detalhes abaixo, isso implica que os tokens e solicitações totais são compartilhados entre todos os usuários do grupo, ou que cada usuário do grupo pode utilizar os valores definidos individualmente?

Este sistema fornece controle granular sobre o uso da API LLM, permitindo que os administradores definam limites para tokens totais e número de solicitações por grupo.

sam · Janeiro 13, 2025, 8:15am

Ah, preciso esclarecer isso na interface do usuário… todos os limites são por usuário e nunca compartilhados entre membros do grupo. Um limite de cota de grupo compartilhado é um conceito interessante, mas não tenho certeza se faz sentido na prática? Você consegue pensar em alguma situação em que isso seria útil?

Por enquanto, minha implementação é:

Escolher a cota mais “flexível” que o usuário tem, dependendo dos grupos dos quais o usuário é membro
Aplicar por usuário.

(isso permite imunidade aos administradores, mesmo que o TL2 tenha uma cota rigorosa)

MachineScholar · Janeiro 13, 2025, 8:27am

Eu estava perguntando porque realmente não faria sentido na prática . Minha opinião é que sua implementação aqui é a mais ideal. Minha comunidade e eu realmente apreciamos o trabalho que está sendo feito aqui

sam · Janeiro 13, 2025, 8:29am

O único argumento para “cota absoluta” é:

Quero que Tl1 possa jogar com IA, mas… como salvaguarda, limite meus gastos em N$ por dia. Tl1 tem um número desconhecido de membros.

Mas acho que se é isso que as pessoas querem, elas poderiam colocar as cotas absolutas diretamente nos painéis da Anthropic / Open AI etc…

Não sou contra adicionar cotas absolutas mais tarde, mas provavelmente vou pular nesta iteração.

BrianC · Janeiro 14, 2025, 4:50am

@sam Esta é uma atualização fantástica Os limites de tokens serão vinculados às assinaturas? Seria incrível se pudéssemos controlar o uso e permitir que modelos mais caros fossem usados mediante o pagamento de uma taxa.

sam · Janeiro 14, 2025, 5:00am

Sim, isso pode funcionar com o sistema, você pode configurar cotas diferentes para diferentes grupos de usuários.

sam · Janeiro 21, 2025, 6:10am

Isso agora está implementado e documentado:

sam · Janeiro 26, 2025, 9:00pm

Este tópico foi fechado automaticamente após 5 dias. Novas respostas não são mais permitidas.

Tópico		Respostas	Visualizações
Limit the number of AI tokens a user can use in a day? Feature completed , ai	12	456	3 de Abril de 2025
Balancing Costs and Functionality in AI-Powered Forums Feature ai , ai-bot	4	693	21 de Janeiro de 2025
Configuring LLM Usage Quotas in Discourse AI Site Management official , how-to , ai	4	332	21 de Janeiro de 2025
LLM Quotas for Discourse AI Announcements ai	0	139	21 de Janeiro de 2025
Discourse AI - AI usage Site Management how-to , ai	0	364	23 de Janeiro de 2025

Defendendo a implementação de uma limitação rígida no uso de IA por grupos de usuários para bots de IA e Assistentes de IA

Tópicos relacionados