Clarification sur la configuration de l'intégration de l'API Gemini

RBoy · Octobre 15, 2025, 12:40

@Falco 2 clarifications concernant les embeddings :

Que signifie « Sequence length » dans la configuration des embeddings ? Est-ce lié à la « limite de tokens d’entrée » telle que décrite ici : https://ai.google.com/gemini-api/docs/embeddings#model-versions
Comment limiter le débit de l’API d’embeddings ? J’ai dû réinitialiser le modèle d’embeddings en raison de la dépréciation de l’ancien modèle de Gemini, de sorte qu’il essaie maintenant de générer de nouveaux vecteurs pour l’ensemble du forum (si j’ai bien compris votre autre publication). Le problème est qu’il le fait beaucoup trop rapidement et qu’il reçoit des rejets de requêtes 429 « trop de requêtes » de la part de Gemini. Existe-t-il un moyen de le limiter ? Je respecte les limites RPD/TPM, mais le tableau de bord Gemini indique que le forum contacte l’API beaucoup trop de fois. J’apprécierais tout conseil que vous pourriez avoir à ce sujet (tout fonctionnait bien jusqu’à ce que je doive créer un nouveau modèle d’embeddings en raison de la dépréciation de l’ancien modèle de Gemini).

Le tout dans les limites de débit :

mais reçoit beaucoup d’erreurs 429 (trop de requêtes) :

Falco · Octobre 15, 2025, 3:36

Oui, c’est 2048 pour ce modèle spécifique, mais vous pouvez le configurer à une valeur inférieure par mesure de prudence, car l’API Gemini n’a pas de paramètre de troncature automatique.

Paramètre de site caché nommé ai_embeddings_backfill_batch_size. Essayez de le définir sur 50 si votre fournisseur d’API ne peut pas gérer nos valeurs par défaut.

RBoy · Octobre 16, 2025, 2:36

Merci. Il était réglé sur 50 et j’obtiens toujours des milliers d’erreurs. Je vais essayer de le baisser à 20 et voir ce que ça donne.
Peut-être envisager d’ajouter ai_embeddings_backfill_batch_size à l’écran UX de configuration des embeddings, car cela pourrait affecter de nombreux utilisateurs qui utilisent les plans de base Gemini pour de petits sites (et potentiellement d’autres fournisseurs).

RBoy · Octobre 16, 2025, 3:05

Soit dit en passant, il semble que ce soit la taille du lot, c’est-à-dire le nombre de requêtes dans un seul appel. Peut-être que le problème est le nombre de requêtes effectuées par minute (et non par lot). Existe-t-il un moyen de limiter le nombre de requêtes de remplissage effectuées par minute ou par heure ?

J’ai également trouvé ceci si cela peut aider d’autres utilisateurs : le nouvel embedding gemini rencontre des problèmes avec les limites définies à 0 si elles sont dépassées. Il existe une solution temporaire consistant à utiliser plutôt l’embedding de texte ou peut-être simplement attendre un peu et voir si cela se résout. Cela dit, je pense toujours que c’est une bonne idée pour discourse d’ajouter une option pour limiter le nombre d’appels API par minute pour les remplissages afin d’éviter ce problème en premier lieu.

PS : C’est SUPER COOL de voir que Google utilise également discourse - je me demande quelle IA ils utilisent pour alimenter la recherche de leur forum

tobiaseigen · Novembre 15, 2025, 3:06

Ce sujet a été automatiquement fermé 30 jours après la dernière réponse. De nouvelles réponses ne sont plus autorisées.

Sujet		Réponses	Vues
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	489	Février 29, 2024
Gemini Embeddings Issue After Discourse Update to 3.6.0 Beta 2 Support ai	4	77	Octobre 14, 2025
Gemini embedding setting not passing output_dimensionality? Support embedding , ai	4	111	Novembre 7, 2025
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	10	870	Mars 15, 2024
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	87	Novembre 3, 2025

Clarification sur la configuration de l'intégration de l'API Gemini

Sujets connexes