J’utilise Discourse AI et je l’ai connecté à une API LLM externe, ainsi qu’à certaines extensions (qui entraînent des coûts supplémentaires).
Pour cette raison, j’aimerais le configurer pour qu’il n’utilise pas ces extensions, et qu’il s’appuie uniquement sur le LLM lui-même comme assistant de forum — pour des choses comme la recherche interne, la synthèse ou d’autres fonctionnalités qui fonctionnent purement au sein du forum.
La raison principale est de réduire le coût des modules complémentaires payants (par exemple, la recherche web externe), je cherche donc des conseils sur la façon de configurer les choses de cette manière.
Merci
Modification :
J’ai reçu une réponse du fournisseur indiquant que cette requête avait été facturée pour la recherche web parce que l’IA citait des sources comme la BBC et Reuters, entre autres, ce qui déclenchait automatiquement le mode de preuve/recherche du modèle.
Donc, cela signifie que ce n’est pas lié aux paramètres de Discourse, et qu’il n’y a aucun moyen de désactiver ce comportement du côté du fournisseur ?
Y a-t-il une solution de contournement pour cela ?
Le fournisseur a suggéré de passer à un modèle avec moins de « réflexion », et d’éviter les modèles flash ou instinct, mais cela signifie également une capacité de raisonnement et de calcul réduite.
Ce message a été traduit du thaïlandais à l’aide d’un outil de traduction, veuillez donc m’excuser d’avance si quelque chose n’est pas clair ou légèrement incorrect.
qu’entendez-vous par extensions ? je suppose pour la recherche web ?
j’ai 2 sites auto-hébergés exécutant toutes mes fonctionnalités Discourse AI avec Gemini sur Google Cloud, et j’utilise l’API Google Custom Search Engine pour le chercheur web (100 requêtes gratuites/jour). j’utilise Gemini 2.5 flash lite pour autant que possible, comme le résumé et les gists, 2.5 flash pour la traduction, et les différents autres modèles Gemini pour des tâches plus spécifiques et de réflexion (Gemini flash image, par exemple).
Ah, j’ai compris — merci pour la clarification ! Oui, je pensais aux « extensions » dans le sens de la recherche web ou des fonctionnalités d’IA supplémentaires.
Pour ma configuration, j’utilise l’API MiMo de Xiaomi, qui me donne 1000 requêtes par mois. Toute utilisation d’extensions supplémentaires est facturée en supplément en fonction de l’utilisation, et malheureusement, je ne peux pas désactiver cela. Le fournisseur a mentionné que cela dépend de la longueur et de la complexité de l’invite (prompt) — par exemple, si moi ou mes utilisateurs saisissons quelque chose comme « recherche les dernières nouvelles concernant… », qu’elles existent ou non sur mon forum, le modèle effectuera une recherche web en parallèle. Je n’ai vraiment aucun contrôle sur ces coûts supplémentaires.
Je n’ai rempli aucune clé API de Google Custom Search Engine — je laisse simplement ce champ vide et utilise les paramètres par défaut pour Forum Helper.
Je me demandais s’il existait une manière intelligente de gérer cela ? Si j’essaie de limiter les crédits au niveau du fournisseur, cela finit par restreindre tous les modèles que j’utilise.
Aussi, veuillez m’excuser si mon anglais est un peu difficile à suivre — j’utilise un traducteur pour communiquer
Merci pour vos conseils sur l’utilisation de la langue.
Résumé du problème que je rencontre (expliqué simplement)
J’utilise Discourse AI sur un site auto-hébergé.
Le LLM utilisé est l’API MiMo de Xiaomi, qui offre un quota de 1000 requêtes par mois.
Le problème est que l’utilisation de certaines extensions (comme la recherche web) entraîne des frais supplémentaires basés sur l’utilisation et ne peuvent pas être désactivées côté fournisseur.
Le fournisseur explique que :
Les frais dépendent de la longueur et de la nature du prompt.
Par exemple, si moi ou un utilisateur tapons « Rechercher les dernières nouvelles sur… », que l’information soit présente ou non dans mon forum, le modèle peut automatiquement effectuer une recherche sur le web en parallèle.
Ceci me pose problème car :
Il est difficile de contrôler les coûts puisque ce sont les utilisateurs qui saisissent eux-mêmes les prompts.
Je n’ai pas renseigné de clé API Google Custom Search Engine.
J’ai laissé ce champ vide et j’utilise la valeur par défaut de Forum Helper.
Si j’essaie de limiter le crédit côté fournisseur :
Cela limiterait tous les modèles que j’utilise.
Il n’est pas possible de limiter uniquement un modèle ou une fonctionnalité spécifique.
Voici un exemple de journal que j’ai pu examiner :
Generation details
Model: MiMo-V2-Flash
Model ID: xiaomi/mimo-v2-flash
Provider: Xiaomi
First token latency: 12.77 seconds
Throughput: 1.5 tokens/second
Finish reason: stop
Data policy: No data training | Policy
Tokens:
- Prompt: 38065
- Completion: 20
Web search:
- Results: 5
Costs:
- Subtotal: 0
- Web search cost: 0.02
- Final cost: 0.02
Creator: hidden
Generation ID: hidden
Si vous parlez de l’utilisation d’un LLM local, je n’ai pas l’intention d’augmenter les dépenses. Sur le serveur, cela nécessite beaucoup de traitement pour plus de 20 utilisateurs simultanés, donc ce plan n’est pas mis en œuvre. Je souhaite me concentrer sur l’utilisation d’API externes, comme groq, openrouter, qui sont plus économiques, et essayer de contrôler les dépenses dans ce domaine.
J’ai déjà trouvé la réponse. D’après mes tests et observations, la recherche web était déclenchée sur chaque modèle que j’utilisais (ou du moins chaque modèle que j’ai essayé), même après avoir changé de modèle. Cela semble être un problème du côté du fournisseur.
Le problème est que la recherche web devient un coût caché indésirable que je ne peux pas contrôler correctement ou désactiver complètement, même lorsqu’elle n’est pas nécessaire.
J’ai déjà vidé mon compte, annulé le service auprès de ce fournisseur et je suis maintenant à la recherche d’un autre fournisseur.