Esclarecimento de Configuração de Embedding da API Gemini

RBoy · Outubro 15, 2025, 12:40am

@Falco 2 esclarecimentos sobre embeddings:

O que Sequence length se refere na configuração de embedding? Está relacionado ao Input token limit conforme descrito aqui: https://ai.google.dev/gemini-api/docs/embeddings#model-versions
Como limitar a taxa da API de embedding? Tive que redefinir o modelo de embedding devido à descontinuação do modelo antigo do Gemini, então agora ele está tentando gerar novos vetores para todo o fórum (se entendi corretamente sua outra postagem). O problema é que ele está fazendo isso rápido demais e está atingindo rejeições de 429 muitas solicitações do Gemini. Existe alguma maneira de limitar a taxa? Estou dentro dos limites de RPD/TPM, mas o painel do Gemini está mostrando que o discourse está atingindo a API muitas vezes. Agradeceria qualquer conselho que você possa ter aqui (tudo estava funcionando bem até que tive que criar um novo modelo de embedding devido à descontinuação do modelo antigo do Gemini).

Tudo dentro dos limites de taxa:

mas recebendo muitos erros 429 (muitas solicitações):

Falco · Outubro 15, 2025, 3:36pm

Sim, é 2048 para esse modelo específico, mas você pode configurá-lo para um valor menor para errar por excesso de cautela, já que a API Gemini não possui um parâmetro de truncamento automático.

Configuração oculta do site chamada ai_embeddings_backfill_batch_size. Tente defini-la como 50 se seu provedor de API não puder lidar com nossos padrões.

RBoy · Outubro 16, 2025, 2:36am

Tx. Estava definido para 50, ainda recebendo milhares de erros. Vou tentar diminuir para 20 e ver como vai.
Talvez considere adicionar o ai_embeddings_backfill_batch_size na tela de configuração de UX de embeddings, pois isso pode afetar muitos usuários que usam planos básicos do Gemini para sites pequenos (e possivelmente outros provedores).

RBoy · Outubro 16, 2025, 3:05am

Falando nisso, este parece ser o tamanho do lote, quantas solicitações em uma única chamada. Talvez o problema seja o número de solicitações feitas por minuto (não por lote). Existe alguma maneira de limitar quantas solicitações de preenchimento retroativo são enviadas por minuto ou por hora?

Também encontrei isso se ajudar outros usuários, o novo embedding do gemini está tendo problemas com limites definidos como 0 se excedidos. Há uma solução temporária usando text embedding em vez disso ou talvez apenas esperar um pouco e ver se resolve. Dito isso, ainda acho que é uma boa ideia para o discourse adicionar uma opção para limitar o número de chamadas de API por minuto para preenchimentos retroativos para evitar esse problema em primeiro lugar.

PS: SUPER LEGAL ver o google também usando discourse - me pergunto qual IA eles usam para alimentar a pesquisa do fórum deles

tobiaseigen · Novembro 15, 2025, 3:06am

Este tópico foi automaticamente fechado 30 dias após a última resposta. Novas respostas não são mais permitidas.

Tópico		Respostas	Visualizações
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	489	29 de Fevereiro de 2024
Gemini Embeddings Issue After Discourse Update to 3.6.0 Beta 2 Support ai	4	77	14 de Outubro de 2025
Gemini embedding setting not passing output_dimensionality? Support embedding , ai	4	111	7 de Novembro de 2025
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	10	870	15 de Março de 2024
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	87	3 de Novembro de 2025

Esclarecimento de Configuração de Embedding da API Gemini

Tópicos relacionados