Clarification sur la configuration de l'intégration de l'API Gemini

@Falco 2 clarifications concernant les embeddings :

  1. Que signifie « Sequence length » dans la configuration des embeddings ? Est-ce lié à la « limite de tokens d’entrée » telle que décrite ici : https://ai.google.com/gemini-api/docs/embeddings#model-versions
  2. Comment limiter le débit de l’API d’embeddings ? J’ai dû réinitialiser le modèle d’embeddings en raison de la dépréciation de l’ancien modèle de Gemini, de sorte qu’il essaie maintenant de générer de nouveaux vecteurs pour l’ensemble du forum (si j’ai bien compris votre autre publication). Le problème est qu’il le fait beaucoup trop rapidement et qu’il reçoit des rejets de requêtes 429 « trop de requêtes » de la part de Gemini. Existe-t-il un moyen de le limiter ? Je respecte les limites RPD/TPM, mais le tableau de bord Gemini indique que le forum contacte l’API beaucoup trop de fois. J’apprécierais tout conseil que vous pourriez avoir à ce sujet (tout fonctionnait bien jusqu’à ce que je doive créer un nouveau modèle d’embeddings en raison de la dépréciation de l’ancien modèle de Gemini).

Le tout dans les limites de débit :

mais reçoit beaucoup d’erreurs 429 (trop de requêtes) :

Oui, c’est 2048 pour ce modèle spécifique, mais vous pouvez le configurer à une valeur inférieure par mesure de prudence, car l’API Gemini n’a pas de paramètre de troncature automatique.

Paramètre de site caché nommé ai_embeddings_backfill_batch_size. Essayez de le définir sur 50 si votre fournisseur d’API ne peut pas gérer nos valeurs par défaut.

2 « J'aime »

Merci. Il était réglé sur 50 et j’obtiens toujours des milliers d’erreurs. Je vais essayer de le baisser à 20 et voir ce que ça donne.
Peut-être envisager d’ajouter ai_embeddings_backfill_batch_size à l’écran UX de configuration des embeddings, car cela pourrait affecter de nombreux utilisateurs qui utilisent les plans de base Gemini pour de petits sites (et potentiellement d’autres fournisseurs).

2 « J'aime »

Soit dit en passant, il semble que ce soit la taille du lot, c’est-à-dire le nombre de requêtes dans un seul appel. Peut-être que le problème est le nombre de requêtes effectuées par minute (et non par lot). Existe-t-il un moyen de limiter le nombre de requêtes de remplissage effectuées par minute ou par heure ?

J’ai également trouvé ceci si cela peut aider d’autres utilisateurs : le nouvel embedding gemini rencontre des problèmes avec les limites définies à 0 si elles sont dépassées. Il existe une solution temporaire consistant à utiliser plutôt l’embedding de texte ou peut-être simplement attendre un peu et voir si cela se résout. Cela dit, je pense toujours que c’est une bonne idée pour discourse d’ajouter une option pour limiter le nombre d’appels API par minute pour les remplissages afin d’éviter ce problème en premier lieu.

PS : C’est SUPER COOL de voir que Google utilise également discourse - je me demande quelle IA ils utilisent pour alimenter la recherche de leur forum :wink: :sun:

3 « J'aime »

Ce sujet a été automatiquement fermé 30 jours après la dernière réponse. De nouvelles réponses ne sont plus autorisées.