L'IA dépasse aléatoirement et de manière imprévisible les seuils de tokens des LLM

Confondez-vous les jetons de requête avec les jetons de réponse ?

Le code 413 indique que votre requête était trop volumineuse, et non la réponse demandée.

Pour résoudre ce problème, vous devez ajuster la configuration du Context window de l’LLM. Cependant, je vous avertis que 8 000 jetons est bien trop faible de nos jours. Cela fonctionnera pour certaines fonctionnalités, mais ce n’est pas vraiment ce que nous utilisons couramment aujourd’hui, alors que les LLM gèrent des fenêtres de contexte allant jusqu’à 1 million de jetons. Je peux exécuter une fenêtre de contexte de 256 000 jetons sur mon PC de bureau en utilisant un modèle bien supérieur à celui que vous utilisez.