Chiarimento sulla configurazione di embedding dell'API Gemini

RBoy · 15 Ottobre 2025, 12:40am

@Falco 2 chiarimenti riguardo agli embedding:

A cosa si riferisce la Sequence length nella configurazione degli embedding? È correlata al Input token limit come descritto qui: https://ai.google.dev/gemini-api/docs/embeddings#model-versions
Come si limita la frequenza dell’API di embedding? Ho dovuto reimpostare il modello di embedding a causa della deprecazione del vecchio modello da Gemini, quindi ora sta cercando di generare nuovi vettori per l’intero forum (se ho capito correttamente il tuo altro post). Il problema è che lo sta facendo troppo velocemente e sta raggiungendo 429 troppi rifiuti di richieste da Gemini. C’è un modo per limitarlo? Rientro nei limiti RPD/TPM, ma la dashboard di Gemini mostra che discourse sta raggiungendo l’API troppe volte. Apprezzerei qualsiasi consiglio tu possa avere qui (tutto funzionava bene finché non ho dovuto creare un nuovo modello di embedding a causa della deprecazione del vecchio modello di Gemini).

Tutto ben entro i limiti di frequenza:

ma ricevo molti errori 429 (troppe richieste):

Falco · 15 Ottobre 2025, 3:36pm

Sì, è 2048 per quel modello specifico, ma puoi configurarlo su un valore inferiore per precauzione poiché l’API Gemini non dispone di un parametro di troncamento automatico.

Impostazione del sito nascosta denominata ai_embeddings_backfill_batch_size. Prova a impostarla su 50 se il tuo provider API non è in grado di gestire i nostri valori predefiniti.

RBoy · 16 Ottobre 2025, 2:36am

Tx. Era impostato su 50, ma continuo a ricevere migliaia di errori. Proverò ad abbassarlo a 20 e vedrò come va.
Forse considera di aggiungere ai_embeddings_backfill_batch_size alla schermata UX di configurazione dell’embedding, poiché ciò potrebbe influire su molti utenti che utilizzano piani Gemini basic per piccoli siti (e possibilmente altri provider).

RBoy · 16 Ottobre 2025, 3:05am

A proposito, questo sembra essere il batch size, ovvero quante richieste in una singola chiamata. Forse il problema è il numero di richieste effettuate al minuto (non per batch). Esiste un modo per limitare quante richieste di backfill vengono inviate al minuto o all’ora?

Ho anche trovato questo, se può essere utile ad altri utenti: la nuova embedding di gemini ha problemi con i limiti impostati a 0 se superati. C’è una soluzione temporanea utilizzando invece le text embedding o forse basta aspettare un po’ e vedere se si risolve. Detto questo, penso ancora che sia una buona idea per discourse aggiungere un’opzione per limitare il numero di chiamate API al minuto per i backfill per evitare questo problema in primo luogo.

P.S.: È FANTASTICO vedere che anche Google utilizza discourse - mi chiedo quale IA utilizzino per alimentare la ricerca del loro forum

tobiaseigen · 15 Novembre 2025, 3:06am

Questo argomento è stato chiuso automaticamente 30 giorni dopo l’ultima risposta. Non sono più consentite nuove risposte.

Argomento		Risposte	Visualizzazioni
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	519	Febbraio 29, 2024
Gemini Embeddings Issue After Discourse Update to 3.6.0 Beta 2 Support ai	4	149	Ottobre 14, 2025
Gemini embedding setting not passing output_dimensionality? Support embedding , ai	4	252	Novembre 7, 2025
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	10	893	Marzo 15, 2024
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	126	Novembre 3, 2025

Chiarimento sulla configurazione di embedding dell'API Gemini

Argomenti correlati