Arguments en faveur d'une fonctionnalité de limite stricte de l'utilisation de l'IA pour les groupes d'utilisateurs, bots IA et AI Helper

J’ai fait quelques calculs et je suis arrivé à la conclusion que sans la possibilité de limiter l’entrée et la sortie de jetons mensuelles ou quotidiennes d’un utilisateur, on peut rapidement se retrouver dans de beaux draps. Actuellement, la seule façon de limiter l’interaction d’un utilisateur avec un bot IA est d’autoriser les bots IA uniquement en MP (désactivant le chat pour chaque persona) et de définir une limite de MP quotidiens autorisés — mais c’est bien sûr irréaliste. Voici un exemple de ventilation des coûts du « pire scénario » qui justifie le besoin de cette fonctionnalité, en utilisant l’approche qu’OpenAI utilise pour ses membres chatGPT :

GPT-4o mini avec 32k de contexte (P.S. la longueur du contexte est définie à l’aide du paramètre « Nombre de jetons pour l’invite » sur la page des paramètres des LLM)
Coût actuel : 0,15  1M entrée / 0,60  1M sortie

Supposons que l’utilisateur saisisse 32k et produise 16k chaque jour pendant 30 jours (un cycle de facturation pour un abonnement typique) :
Coût des entrées mensuelles = 960 000 jetons = ~0,14 $

Coût des sorties mensuelles = 480 000 jetons = ~0,28 $

D’accord, ce n’est pas si mal, n’est-ce pas ? Moins d’un demi-dollar. Cependant, c’est en fait une utilisation plutôt faible, d’autant plus que GPT-4o mini peut générer jusqu’à 16,4k jetons en une seule fois (bien qu’il soit vrai que vous pouvez concevoir l’invite et les paramètres du LLM pour l’éviter). Vous pouvez commencer à multiplier ces coûts par autant que vous pensez que vos utilisateurs utiliseraient le bot IA. Le pire, c’est qu’il s’agit d’un modèle incroyablement bon marché ; les coûts sont exponentiellement plus élevés pour Claude 3.5 Sonnet (3  1M entrée / 15  1M sortie) et GPT-4o (5  1M entrée / 15  1M sortie) — et ne parlons même pas de GPT-4 Turbo lol. Voici la même ventilation pour Claude 3.5 Sonnet :

Claude 3.5 Sonnet avec 32k de contexte
Coût des entrées mensuelles = ~2,88 $

Coût des sorties mensuelles = ~7,20 $

Total = ~10,08 $

Mais encore une fois : c’est une faible utilisation. Il devient donc clair à quel point une utilisation non contrainte des LLM dans les bots IA peut être coûteuse. Si vous multipliez cela par 2, vous devrez alors facturer un abonnement de 25  pour réaliser un profit d'un peu moins de 5  :grimacing:

:bullseye: Voici ce que je propose formellement :

  1. Un paramètre qui permet une quantité spécifique d’entrées et de sorties de jetons pour un groupe d’utilisateurs spécifié chaque mois ou jour pour les bots IA.
  • Cette utilisation de jetons n’inclurait PAS l’invite système pour les personas.
  • Les limites de jetons peuvent être par LLM, par persona ou universelles/globales.
  1. Alternativement au point 1, une simple limite entière pour l’utilisation des bots IA dans les DM et les MP pourrait être utilisée. Exemple : limite de 100 DM à n’importe quel persona par jour.
  2. Un paramètre qui permet une quantité spécifique de sorties de jetons pour un groupe d’utilisateurs spécifié chaque mois ou jour pour l’assistant IA.
  • Les entrées de jetons peuvent ne pas être comptées car il serait peu pratique d’attendre de l’utilisateur qu’il devine combien de jetons un long sujet représente lorsqu’il génère, par exemple, un résumé.
  • Il pourrait également être judicieux de fixer une limite entière stricte à la longueur (en mots afin de ne pas avoir à utiliser TikToken ici) pour les invites personnalisées afin que les utilisateurs n’essaient pas de contourner leurs limites mensuelles/quotidiennes en utilisant le Compositeur comme un chatbot illimité :smiling_face_with_sunglasses:
  1. Un compteur de jetons dans le profil de l’utilisateur et peut-être même dans ses MP et DM. Ce serait bien s’il y avait un petit texte à côté de chaque message utilisateur et IA affichant le nombre de jetons qu’il représente (nous ne voulons pas nécessairement autoriser tout le monde à utiliser la fonctionnalité de débogage, et cela ne fonctionne de toute façon qu’en MP)
  • Un compteur de jetons séparé pour l’assistant IA (pour aider à séparer ces deux fonctionnalités) qui partage un décompte entre expliquer, relire, invite personnalisée, etc…

Note annexe : Je ne critique absolument pas cette fonctionnalité ni les développeurs d’aucune manière et je m’excuse si une partie de cela transparaît ainsi. Honnêtement, le plugin Discourse AI est l’une de mes technologies préférées de tous les temps. En fait, il me permet de construire l’entreprise de mes rêves en tant que chercheur et éducateur en IA sans avoir à embaucher d’ingénieurs supplémentaires et à payer pour une infrastructure supplémentaire — je peux tout mettre en place moi-même :heart:. Je pense simplement que cette fonctionnalité est la dernière pièce du puzzle non seulement pour moi, mais pour de nombreux autres utilisateurs de Discourse qui veulent permettre à leurs utilisateurs de profiter de cette merveilleuse technologie avec raison.

1 « J'aime »

Ceci a été implémenté dans Discourse Chatbot sous forme de système de quota hebdomadaire en mars 2023 et a depuis été étendu afin que vous puissiez définir des quotas pour trois collections différentes de groupes d’utilisateurs. Par exemple, les membres payants bénéficient d’un quota plus élevé.

Les utilisateurs qui dépassent leur quota hebdomadaire reçoivent un message poli (qui ne vous coûte rien).

De plus, les administrateurs peuvent être alertés lorsqu’un quota est dépassé.

Je vous ai contacté à ce sujet en réponse à l’un de vos messages précédents sur ce sujet, mais vous n’avez pas répondu :thinking: Peut-être êtes-vous hébergé et n’avez-vous pas accès à mon plugin ?

Franchement, avec l’avènement de GPT 4o-mini, les coûts des conversations de bot décentes ont chuté.

Soit dit en passant, Discourse Chatbot est maintenant utilisé par au moins une entreprise pour le support client de première ligne, vous pouvez donc être sûr qu’il est stable et efficace.

2 « J'aime »

Mes excuses pour le manque de réponse ! Je me souviens l’avoir lu maintenant, mais je n’ai aucune idée pourquoi je n’ai pas répondu :face_with_spiral_eyes:. Et je suis sur une “droplet” donc ce n’est pas le problème.

Je n’ai aucun doute sur sa stabilité et sa qualité ; en fait, j’aime beaucoup le plugin et je vous respecte ainsi que l’effort que vous y avez consacré. Cependant, un chatbot ne répond qu’à un besoin partiel pour mon entreprise. L’AI Helper est une nécessité fondamentale, tout comme la capacité de changer immédiatement de modèle. Dans un avenir proche, je déploierai mon propre modèle affiné (“fine-tuned”) et je configurerai manuellement mes LLM, et c’est une mission critique.

J’explique tout cela pour que vous ne pensiez pas que j’ai quelque chose contre votre travail ! :grin: Au contraire, le problème vient de mon côté ; j’essaie de faire quelque chose d’assez spécifique (“niche”).

1 « J'aime »

Oui, je respecte pleinement la portée de la demande qui est plus large :+1:

Je ne propose qu’une solution partielle (bien que significative).

1 « J'aime »

Ceci devrait être livré cette semaine :

6 « J'aime »

C’est GÉNIAL !

Dans les détails ci-dessous, cela implique-t-il que les jetons et les requêtes totaux sont partagés entre tous les utilisateurs du groupe, ou plutôt que chaque utilisateur du groupe peut utiliser individuellement les montants définis ?

Ce système offre un contrôle granulaire sur l’utilisation de l’API LLM en permettant aux administrateurs de définir des limites sur le nombre total de jetons et le nombre de requêtes par groupe.

Oh, je dois clarifier cela dans l’interface utilisateur… toutes les limites sont par utilisateur et ne sont jamais partagées entre les membres d’un groupe. Une limite de quota de groupe partagé est un concept intéressant, mais je ne suis pas sûr que cela ait un sens en pratique ? Pouvez-vous penser à un moment où cela serait utile ?

Pour l’instant, mon implémentation est :

  • Choisir le quota le plus “souple” que l’utilisateur a, en fonction des groupes dont il est membre
  • Appliquer par utilisateur.

(cela permet aux administrateurs d’être immunisés même si TL2 a un quota strict)

Je demandais parce que cela n’aurait effectivement aucun sens en pratique :grinning_face_with_smiling_eyes:. Mon avis est que votre implémentation ici est la plus idéale. Ma communauté et moi apprécions sincèrement le travail accompli ici :heart:

1 « J'aime »

Le seul argument en faveur d’un « quota absolu » est :

Je veux que Tl1 puisse jouer avec l’IA mais… en guise de protection, limitez mes dépenses à N$ par jour. Tl1 a un nombre inconnu de membres.

Mais je suppose que si c’est ce que les gens recherchent, ils pourraient mettre les quotas absolus directement dans les tableaux de bord d’Anthropic / Open AI, etc.

Je ne suis pas contre l’ajout de quotas absolus plus tard, mais je vais probablement l’omettre pour cette itération.

2 « J'aime »

@sam C’est une mise à jour fantastique :partying_face: Les limites de jetons seront-elles liées aux abonnements ? Ce serait génial si nous pouvions contrôler l’utilisation et permettre l’utilisation de modèles plus coûteux moyennant des frais.

Oui, cela peut fonctionner avec le système, vous pouvez définir différentes quotas pour différents groupes d’utilisateurs.

2 « J'aime »

Ceci est maintenant implémenté et documenté :

2 « J'aime »

Ce sujet a été automatiquement fermé après 5 jours. Les nouvelles réponses ne sont plus autorisées.