Como limitar a taxa da API de embedding? Tive que redefinir o modelo de embedding devido à descontinuação do modelo antigo do Gemini, então agora ele está tentando gerar novos vetores para todo o fórum (se entendi corretamente sua outra postagem). O problema é que ele está fazendo isso rápido demais e está atingindo rejeições de 429 muitas solicitações do Gemini. Existe alguma maneira de limitar a taxa? Estou dentro dos limites de RPD/TPM, mas o painel do Gemini está mostrando que o discourse está atingindo a API muitas vezes. Agradeceria qualquer conselho que você possa ter aqui (tudo estava funcionando bem até que tive que criar um novo modelo de embedding devido à descontinuação do modelo antigo do Gemini).
Sim, é 2048 para esse modelo específico, mas você pode configurá-lo para um valor menor para errar por excesso de cautela, já que a API Gemini não possui um parâmetro de truncamento automático.
Configuração oculta do site chamada ai_embeddings_backfill_batch_size. Tente defini-la como 50 se seu provedor de API não puder lidar com nossos padrões.
Tx. Estava definido para 50, ainda recebendo milhares de erros. Vou tentar diminuir para 20 e ver como vai.
Talvez considere adicionar o ai_embeddings_backfill_batch_size na tela de configuração de UX de embeddings, pois isso pode afetar muitos usuários que usam planos básicos do Gemini para sites pequenos (e possivelmente outros provedores).
Falando nisso, este parece ser o tamanho do lote, quantas solicitações em uma única chamada. Talvez o problema seja o número de solicitações feitas por minuto (não por lote). Existe alguma maneira de limitar quantas solicitações de preenchimento retroativo são enviadas por minuto ou por hora?
Também encontrei isso se ajudar outros usuários, o novo embedding do gemini está tendo problemas com limites definidos como 0 se excedidos. Há uma solução temporária usando text embedding em vez disso ou talvez apenas esperar um pouco e ver se resolve. Dito isso, ainda acho que é uma boa ideia para o discourse adicionar uma opção para limitar o número de chamadas de API por minuto para preenchimentos retroativos para evitar esse problema em primeiro lugar.
PS: SUPER LEGAL ver o google também usando discourse - me pergunto qual IA eles usam para alimentar a pesquisa do fórum deles