Arguments en faveur d'une fonctionnalité de limite stricte de l'utilisation de l'IA pour les groupes d'utilisateurs, bots IA et AI Helper

MachineScholar · Juillet 24, 2024, 10:43

J’ai fait quelques calculs et je suis arrivé à la conclusion que sans la possibilité de limiter l’entrée et la sortie de jetons mensuelles ou quotidiennes d’un utilisateur, on peut rapidement se retrouver dans de beaux draps. Actuellement, la seule façon de limiter l’interaction d’un utilisateur avec un bot IA est d’autoriser les bots IA uniquement en MP (désactivant le chat pour chaque persona) et de définir une limite de MP quotidiens autorisés — mais c’est bien sûr irréaliste. Voici un exemple de ventilation des coûts du « pire scénario » qui justifie le besoin de cette fonctionnalité, en utilisant l’approche qu’OpenAI utilise pour ses membres chatGPT :

GPT-4o mini avec 32k de contexte (P.S. la longueur du contexte est définie à l’aide du paramètre « Nombre de jetons pour l’invite » sur la page des paramètres des LLM)
Coût actuel : 0,15 1M entrée / 0,60 1M sortie

Supposons que l’utilisateur saisisse 32k et produise 16k chaque jour pendant 30 jours (un cycle de facturation pour un abonnement typique) :
Coût des entrées mensuelles = 960 000 jetons = ~0,14 $

Coût des sorties mensuelles = 480 000 jetons = ~0,28 $

D’accord, ce n’est pas si mal, n’est-ce pas ? Moins d’un demi-dollar. Cependant, c’est en fait une utilisation plutôt faible, d’autant plus que GPT-4o mini peut générer jusqu’à 16,4k jetons en une seule fois (bien qu’il soit vrai que vous pouvez concevoir l’invite et les paramètres du LLM pour l’éviter). Vous pouvez commencer à multiplier ces coûts par autant que vous pensez que vos utilisateurs utiliseraient le bot IA. Le pire, c’est qu’il s’agit d’un modèle incroyablement bon marché ; les coûts sont exponentiellement plus élevés pour Claude 3.5 Sonnet (3 1M entrée / 15 1M sortie) et GPT-4o (5 1M entrée / 15 1M sortie) — et ne parlons même pas de GPT-4 Turbo lol. Voici la même ventilation pour Claude 3.5 Sonnet :

Claude 3.5 Sonnet avec 32k de contexte
Coût des entrées mensuelles = ~2,88 $

Coût des sorties mensuelles = ~7,20 $

Total = ~10,08 $

Mais encore une fois : c’est une faible utilisation. Il devient donc clair à quel point une utilisation non contrainte des LLM dans les bots IA peut être coûteuse. Si vous multipliez cela par 2, vous devrez alors facturer un abonnement de 25 pour réaliser un profit d'un peu moins de 5

Voici ce que je propose formellement :

Un paramètre qui permet une quantité spécifique d’entrées et de sorties de jetons pour un groupe d’utilisateurs spécifié chaque mois ou jour pour les bots IA.

Cette utilisation de jetons n’inclurait PAS l’invite système pour les personas.
Les limites de jetons peuvent être par LLM, par persona ou universelles/globales.

Alternativement au point 1, une simple limite entière pour l’utilisation des bots IA dans les DM et les MP pourrait être utilisée. Exemple : limite de 100 DM à n’importe quel persona par jour.
Un paramètre qui permet une quantité spécifique de sorties de jetons pour un groupe d’utilisateurs spécifié chaque mois ou jour pour l’assistant IA.

Les entrées de jetons peuvent ne pas être comptées car il serait peu pratique d’attendre de l’utilisateur qu’il devine combien de jetons un long sujet représente lorsqu’il génère, par exemple, un résumé.
Il pourrait également être judicieux de fixer une limite entière stricte à la longueur (en mots afin de ne pas avoir à utiliser TikToken ici) pour les invites personnalisées afin que les utilisateurs n’essaient pas de contourner leurs limites mensuelles/quotidiennes en utilisant le Compositeur comme un chatbot illimité

Un compteur de jetons dans le profil de l’utilisateur et peut-être même dans ses MP et DM. Ce serait bien s’il y avait un petit texte à côté de chaque message utilisateur et IA affichant le nombre de jetons qu’il représente (nous ne voulons pas nécessairement autoriser tout le monde à utiliser la fonctionnalité de débogage, et cela ne fonctionne de toute façon qu’en MP)

Un compteur de jetons séparé pour l’assistant IA (pour aider à séparer ces deux fonctionnalités) qui partage un décompte entre expliquer, relire, invite personnalisée, etc…

Note annexe : Je ne critique absolument pas cette fonctionnalité ni les développeurs d’aucune manière et je m’excuse si une partie de cela transparaît ainsi. Honnêtement, le plugin Discourse AI est l’une de mes technologies préférées de tous les temps. En fait, il me permet de construire l’entreprise de mes rêves en tant que chercheur et éducateur en IA sans avoir à embaucher d’ingénieurs supplémentaires et à payer pour une infrastructure supplémentaire — je peux tout mettre en place moi-même . Je pense simplement que cette fonctionnalité est la dernière pièce du puzzle non seulement pour moi, mais pour de nombreux autres utilisateurs de Discourse qui veulent permettre à leurs utilisateurs de profiter de cette merveilleuse technologie avec raison.

merefield · Juillet 24, 2024, 12:56

Ceci a été implémenté dans Discourse Chatbot sous forme de système de quota hebdomadaire en mars 2023 et a depuis été étendu afin que vous puissiez définir des quotas pour trois collections différentes de groupes d’utilisateurs. Par exemple, les membres payants bénéficient d’un quota plus élevé.

Les utilisateurs qui dépassent leur quota hebdomadaire reçoivent un message poli (qui ne vous coûte rien).

De plus, les administrateurs peuvent être alertés lorsqu’un quota est dépassé.

Je vous ai contacté à ce sujet en réponse à l’un de vos messages précédents sur ce sujet, mais vous n’avez pas répondu Peut-être êtes-vous hébergé et n’avez-vous pas accès à mon plugin ?

Franchement, avec l’avènement de GPT 4o-mini, les coûts des conversations de bot décentes ont chuté.

Soit dit en passant, Discourse Chatbot est maintenant utilisé par au moins une entreprise pour le support client de première ligne, vous pouvez donc être sûr qu’il est stable et efficace.

MachineScholar · Juillet 25, 2024, 2:55

Mes excuses pour le manque de réponse ! Je me souviens l’avoir lu maintenant, mais je n’ai aucune idée pourquoi je n’ai pas répondu . Et je suis sur une “droplet” donc ce n’est pas le problème.

Je n’ai aucun doute sur sa stabilité et sa qualité ; en fait, j’aime beaucoup le plugin et je vous respecte ainsi que l’effort que vous y avez consacré. Cependant, un chatbot ne répond qu’à un besoin partiel pour mon entreprise. L’AI Helper est une nécessité fondamentale, tout comme la capacité de changer immédiatement de modèle. Dans un avenir proche, je déploierai mon propre modèle affiné (“fine-tuned”) et je configurerai manuellement mes LLM, et c’est une mission critique.

J’explique tout cela pour que vous ne pensiez pas que j’ai quelque chose contre votre travail ! Au contraire, le problème vient de mon côté ; j’essaie de faire quelque chose d’assez spécifique (“niche”).

merefield · Juillet 25, 2024, 2:58

Oui, je respecte pleinement la portée de la demande qui est plus large

Je ne propose qu’une solution partielle (bien que significative).

sam · Janvier 13, 2025, 2:50

Ceci devrait être livré cette semaine :

github.com/discourse/discourse-ai

FEATURE: llm quotas

main ← quotas2

opened 06:20AM - 02 Jan 25 UTC

SamSaffron

+1684 -152

Adds a comprehensive quota management system for LLM models that allows: - Se…tting per-group token and usage limits with configurable durations - Tracking and enforcing token/usage limits across user groups - Quota reset periods (hourly, daily, weekly, or custom) - Admin UI for managing quotas with real-time updates - Full test coverage for quota models and controllers This system provides granular control over LLM API usage by allowing admins to define limits on both total tokens and number of requests per group. Supports multiple concurrent quotas per model and automatically handles quota resets. ![image](https://github.com/user-attachments/assets/76375c76-889d-438b-b464-e65c7f7a41ed) ![image](https://github.com/user-attachments/assets/21752366-2b33-4fb7-8b3f-faee74c45413) ![image](https://github.com/user-attachments/assets/c7248930-0aa7-434e-805e-56adb7cbfb2f)

MachineScholar · Janvier 13, 2025, 8:04

C’est GÉNIAL !

Dans les détails ci-dessous, cela implique-t-il que les jetons et les requêtes totaux sont partagés entre tous les utilisateurs du groupe, ou plutôt que chaque utilisateur du groupe peut utiliser individuellement les montants définis ?

Ce système offre un contrôle granulaire sur l’utilisation de l’API LLM en permettant aux administrateurs de définir des limites sur le nombre total de jetons et le nombre de requêtes par groupe.

sam · Janvier 13, 2025, 8:15

Oh, je dois clarifier cela dans l’interface utilisateur… toutes les limites sont par utilisateur et ne sont jamais partagées entre les membres d’un groupe. Une limite de quota de groupe partagé est un concept intéressant, mais je ne suis pas sûr que cela ait un sens en pratique ? Pouvez-vous penser à un moment où cela serait utile ?

Pour l’instant, mon implémentation est :

Choisir le quota le plus “souple” que l’utilisateur a, en fonction des groupes dont il est membre
Appliquer par utilisateur.

(cela permet aux administrateurs d’être immunisés même si TL2 a un quota strict)

MachineScholar · Janvier 13, 2025, 8:27

Je demandais parce que cela n’aurait effectivement aucun sens en pratique . Mon avis est que votre implémentation ici est la plus idéale. Ma communauté et moi apprécions sincèrement le travail accompli ici

sam · Janvier 13, 2025, 8:29

Le seul argument en faveur d’un « quota absolu » est :

Je veux que Tl1 puisse jouer avec l’IA mais… en guise de protection, limitez mes dépenses à N$ par jour. Tl1 a un nombre inconnu de membres.

Mais je suppose que si c’est ce que les gens recherchent, ils pourraient mettre les quotas absolus directement dans les tableaux de bord d’Anthropic / Open AI, etc.

Je ne suis pas contre l’ajout de quotas absolus plus tard, mais je vais probablement l’omettre pour cette itération.

BrianC · Janvier 14, 2025, 4:50

@sam C’est une mise à jour fantastique Les limites de jetons seront-elles liées aux abonnements ? Ce serait génial si nous pouvions contrôler l’utilisation et permettre l’utilisation de modèles plus coûteux moyennant des frais.

sam · Janvier 14, 2025, 5:00

Oui, cela peut fonctionner avec le système, vous pouvez définir différentes quotas pour différents groupes d’utilisateurs.

sam · Janvier 21, 2025, 6:10

Ceci est maintenant implémenté et documenté :

sam · Janvier 26, 2025, 9:00

Ce sujet a été automatiquement fermé après 5 jours. Les nouvelles réponses ne sont plus autorisées.

Sujet		Réponses	Vues
Limit the number of AI tokens a user can use in a day? Feature completed , ai	12	456	Avril 3, 2025
Balancing Costs and Functionality in AI-Powered Forums Feature ai , ai-bot	4	693	Janvier 21, 2025
Configuring LLM Usage Quotas in Discourse AI Site Management official , how-to , ai	4	332	Janvier 21, 2025
LLM Quotas for Discourse AI Announcements ai	0	139	Janvier 21, 2025
Discourse AI - AI usage Site Management how-to , ai	0	364	Janvier 23, 2025

Arguments en faveur d'une fonctionnalité de limite stricte de l'utilisation de l'IA pour les groupes d'utilisateurs, bots IA et AI Helper

Sujets connexes