Defendendo a implementação de uma limitação rígida no uso de IA por grupos de usuários para bots de IA e Assistentes de IA

Fiz alguns cálculos e cheguei à conclusão de que, sem a capacidade de limitar a entrada e saída de tokens mensais ou diários de um usuário, você pode rapidamente se meter em problemas. Atualmente, a única maneira de limitar a interação de um usuário com um bot de IA é permitir bots de IA apenas em Mensagens Privadas (desabilitando o chat para cada persona) e definir um limite de Mensagens Privadas diárias permitidas — mas, claro, isso é irrealista. Aqui está um exemplo de um detalhamento de custo do “pior cenário” que justifica a necessidade desse recurso, usando a abordagem que a OpenAI adota para seus membros do ChatGPT:

GPT-4o mini com 32k de contexto (P.S. o comprimento do contexto é definido usando a configuração “Número de tokens para o prompt” na página de configurações do LLM)
Custo atual: $0,15 1M entrada / $0,60 1M saída

Vamos dizer que o usuário insere 32k e gera 16k todos os dias por 30 dias (um ciclo de faturamento para uma assinatura típica):
Custo de entrada mensal = 960.000 tokens = ~$0,14
Custo de saída mensal = 480.000 tokens = ~$0,28

Ok, então isso na verdade não é ruim, certo? Menos de meio dólar. No entanto, esse é um uso na verdade bem baixo, especialmente porque o GPT-4o mini pode gerar até 16,4k tokens em um único disparo (embora, sim, você possa projetar o prompt e as configurações do LLM para evitar isso). Você pode começar a multiplicar esses custos pelo quanto você acha que seus usuários usariam o bot de IA. A pior parte é que este é um modelo incrivelmente barato; os custos são exponencialmente mais altos para Claude 3.5 Sonnet ($3 1M entrada / $15 1M saída) e GPT-4o ($5 1M entrada / $15 1M saída) — e nem vamos falar sobre o GPT-4 Turbo lol. Aqui está o mesmo detalhamento para o Claude 3.5 Sonnet:

Claude 3.5 Sonnet com 32k de contexto
Custo de entrada mensal = ~$2,88
Custo de saída mensal = ~$7,20
Total = ~$10,08

Mas, novamente; este é um uso baixo. Assim, fica claro o quão caro pode ser ter o uso irrestrito de LLM em bots de IA. Se você multiplicar isso por 2, precisaria cobrar uma assinatura de $25 para ter um lucro de pouco menos de $5 :grimacing:

:bullseye: Aqui está o que proponho formalmente:

  1. Uma configuração que permita uma quantidade específica de entrada e saída de tokens para um grupo específico de usuários por mês ou dia para bots de IA.
  • Esse uso de tokens NÃO incluiria o prompt do sistema para as personas.
  • Os limites de tokens podem ser por LLM, por persona ou universais/gerais.
  1. Alternativamente ao ponto 1, um limite inteiro simples para usar bots de IA em DMs e PMs poderia ser usado. Exemplo: limite de 100 DMs para qualquer persona por dia.
  2. Uma configuração que permita uma quantidade específica de saída de tokens para um grupo específico de usuários por mês ou dia para o assistente de IA.
  • A entrada de tokens pode não ser contada, pois seria impraticável esperar que o usuário adivinhe quantos tokens um tópico longo tem quando, por exemplo, está gerando um resumo.
  • Também pode ser prudente colocar um limite inteiro rígido no comprimento (em palavras para que TikToken não precise ser usado aqui) para prompts personalizados para que os usuários não tentem contornar seus limites mensais/diários usando o Composer como um chatbot ilimitado :smiling_face_with_sunglasses:
  1. Um contador de tokens no perfil do usuário e talvez até mesmo em suas PMs e DMs. Seria legal se houvesse um pequeno texto ao lado de cada mensagem do usuário e da IA exibindo o número de tokens que ela é (não queremos necessariamente permitir que todos tenham o recurso de depuração, e isso só funciona em PMs de qualquer maneira)
  • Um contador de tokens separado para o assistente de IA (para ajudar a manter esses dois recursos separados) que compartilha uma contagem entre explicar, revisar, prompt personalizado, etc…

Nota lateral: Não estou criticando este recurso nem os desenvolvedores de forma alguma e peço desculpas se alguma parte disso soar assim. Honestamente, o plugin Discourse AI é uma das minhas tecnologias favoritas de todos os tempos. Na verdade, ele me permite construir o negócio dos meus sonhos como pesquisador e educador de IA sem ter que contratar engenheiros extras e pagar por infraestrutura adicional — posso configurar tudo sozinho :heart:. Eu meramente acho que este recurso é a última peça do quebra-cabeça não apenas para mim, mas para inúmeros outros usuários do Discourse que desejam permitir que seus usuários desfrutem desta maravilhosa tecnologia com moderação.

1 curtida

Isso foi implementado no Discourse Chatbot como um sistema de cota semanal em março de 2023 e, desde então, foi expandido para que você possa definir cotas para três coleções diferentes de Grupos de usuários. Por exemplo, membros pagantes recebem uma cota maior.

Usuários que excedem sua cota semanal recebem uma mensagem educada (que não lhe custa nada).

Além disso, os administradores podem ser alertados quando uma cota é excedida.

Eu lhe enviei uma mensagem privada sobre isso em resposta a uma de suas postagens anteriores sobre este tópico, mas você não respondeu :thinking: Talvez você esteja hospedado e não tenha acesso ao meu plugin?

Sinceramente, com o advento do GPT 4o-mini, os custos para conversas decentes com bots despencaram.

A propósito, o Discourse Chatbot agora é usado por pelo menos uma empresa para suporte ao cliente de linha de frente, então você pode ter certeza de que ele é estável e eficaz.

2 curtidas

Desculpas pela falta de resposta! Lembro-me de ter lido agora, mas não tenho ideia de por que não respondi :face_with_spiral_eyes:. E eu estou em um droplet, então esse não é o problema.

Não tenho dúvidas sobre sua estabilidade e qualidade; na verdade, gosto bastante do plugin e respeito você e o esforço que você coloca nele. No entanto, um chatbot é apenas uma necessidade parcial para o meu empreendimento comercial. O AI Helper é uma necessidade central, assim como a capacidade de alternar imediatamente entre os modelos. Em um futuro próximo, implementarei meu próprio modelo ajustado e configurarei manualmente meus LLMs, e isso é de missão crítica.

Estou explicando tudo isso apenas para que você não pense que tenho algo contra o seu trabalho! :grin: Pelo contrário, o problema é do meu lado; estou tentando fazer algo bastante específico.

1 curtida

Sim, respeito totalmente o escopo da solicitação ser mais amplo :+1:

Apenas oferecendo uma solução parcial (embora significativa).

1 curtida

Espera-se que isso seja lançado esta semana:

6 curtidas

Isso é INCRÍVEL!

Nos detalhes abaixo, isso implica que os tokens e solicitações totais são compartilhados entre todos os usuários do grupo, ou que cada usuário do grupo pode utilizar os valores definidos individualmente?

Este sistema fornece controle granular sobre o uso da API LLM, permitindo que os administradores definam limites para tokens totais e número de solicitações por grupo.

Ah, preciso esclarecer isso na interface do usuário… todos os limites são por usuário e nunca compartilhados entre membros do grupo. Um limite de cota de grupo compartilhado é um conceito interessante, mas não tenho certeza se faz sentido na prática? Você consegue pensar em alguma situação em que isso seria útil?

Por enquanto, minha implementação é:

  • Escolher a cota mais “flexível” que o usuário tem, dependendo dos grupos dos quais o usuário é membro
  • Aplicar por usuário.

(isso permite imunidade aos administradores, mesmo que o TL2 tenha uma cota rigorosa)

Eu estava perguntando porque realmente não faria sentido na prática :grinning_face_with_smiling_eyes:. Minha opinião é que sua implementação aqui é a mais ideal. Minha comunidade e eu realmente apreciamos o trabalho que está sendo feito aqui :heart:

1 curtida

O único argumento para “cota absoluta” é:

Quero que Tl1 possa jogar com IA, mas… como salvaguarda, limite meus gastos em N$ por dia. Tl1 tem um número desconhecido de membros.

Mas acho que se é isso que as pessoas querem, elas poderiam colocar as cotas absolutas diretamente nos painéis da Anthropic / Open AI etc…

Não sou contra adicionar cotas absolutas mais tarde, mas provavelmente vou pular nesta iteração.

2 curtidas

@sam Esta é uma atualização fantástica :partying_face: Os limites de tokens serão vinculados às assinaturas? Seria incrível se pudéssemos controlar o uso e permitir que modelos mais caros fossem usados mediante o pagamento de uma taxa.

Sim, isso pode funcionar com o sistema, você pode configurar cotas diferentes para diferentes grupos de usuários.

2 curtidas

Isso agora está implementado e documentado:

2 curtidas

Este tópico foi fechado automaticamente após 5 dias. Novas respostas não são mais permitidas.