Come si limita la frequenza dell’API di embedding? Ho dovuto reimpostare il modello di embedding a causa della deprecazione del vecchio modello da Gemini, quindi ora sta cercando di generare nuovi vettori per l’intero forum (se ho capito correttamente il tuo altro post). Il problema è che lo sta facendo troppo velocemente e sta raggiungendo 429 troppi rifiuti di richieste da Gemini. C’è un modo per limitarlo? Rientro nei limiti RPD/TPM, ma la dashboard di Gemini mostra che discourse sta raggiungendo l’API troppe volte. Apprezzerei qualsiasi consiglio tu possa avere qui (tutto funzionava bene finché non ho dovuto creare un nuovo modello di embedding a causa della deprecazione del vecchio modello di Gemini).
Sì, è 2048 per quel modello specifico, ma puoi configurarlo su un valore inferiore per precauzione poiché l’API Gemini non dispone di un parametro di troncamento automatico.
Impostazione del sito nascosta denominata ai_embeddings_backfill_batch_size. Prova a impostarla su 50 se il tuo provider API non è in grado di gestire i nostri valori predefiniti.
Tx. Era impostato su 50, ma continuo a ricevere migliaia di errori. Proverò ad abbassarlo a 20 e vedrò come va.
Forse considera di aggiungere ai_embeddings_backfill_batch_size alla schermata UX di configurazione dell’embedding, poiché ciò potrebbe influire su molti utenti che utilizzano piani Gemini basic per piccoli siti (e possibilmente altri provider).
A proposito, questo sembra essere il batch size, ovvero quante richieste in una singola chiamata. Forse il problema è il numero di richieste effettuate al minuto (non per batch). Esiste un modo per limitare quante richieste di backfill vengono inviate al minuto o all’ora?
Ho anche trovato questo, se può essere utile ad altri utenti: la nuova embedding di gemini ha problemi con i limiti impostati a 0 se superati. C’è una soluzione temporanea utilizzando invece le text embedding o forse basta aspettare un po’ e vedere se si risolve. Detto questo, penso ancora che sia una buona idea per discourse aggiungere un’opzione per limitare il numero di chiamate API al minuto per i backfill per evitare questo problema in primo luogo.
P.S.: È FANTASTICO vedere che anche Google utilizza discourse - mi chiedo quale IA utilizzino per alimentare la ricerca del loro forum