Aclaración de configuración de incrustación de la API de Gemini

RBoy · 15 Octubre, 2025 00:40

@Falco 2 aclaraciones sobre los embeddings:

¿A qué se refiere la Sequence length en la configuración de embeddings? ¿Está relacionada con el Input token limit como se describe aquí: https://ai.google.dev/gemini-api/docs/embeddings#model-versions
¿Cómo se limita la tasa de la API de embeddings? He tenido que restablecer el modelo de embeddings debido a la depreciación del modelo antiguo de Gemini, por lo que ahora está intentando generar nuevos vectores para todo el foro (si entendí correctamente tu otra publicación). El problema es que lo está haciendo demasiado rápido y está recibiendo demasiados rechazos de solicitud 429 de Gemini. ¿Hay alguna forma de limitarlo? Estoy dentro de los límites de RPD/TPM, pero el panel de Gemini muestra que el discurso está llamando a la API demasiadas veces. Agradecería cualquier consejo que puedas tener aquí (todo funcionaba bien hasta que tuve que crear un nuevo modelo de embeddings debido a la depreciación del modelo antiguo de Gemini).

Todo dentro de los límites de tasa:

pero recibiendo muchos errores 429 (demasiadas solicitudes):

Falco · 15 Octubre, 2025 15:36

Sí, es 2048 para ese modelo específico, pero puedes configurarlo a un valor más bajo para estar seguro, ya que la API de Gemini carece de un parámetro de truncamiento automático.

Ajuste del sitio oculto llamado ai_embeddings_backfill_batch_size. Intenta configurarlo en 50 si tu proveedor de API no puede manejar nuestros valores predeterminados.

RBoy · 16 Octubre, 2025 02:36

Tx. Estaba configurado en 50, pero todavía obtengo miles de errores. Voy a intentar bajarlo a 20 y ver qué pasa.
Quizás considere agregar el ai_embeddings_backfill_batch_size a la pantalla de configuración de incrustaciones de UX, ya que esto puede afectar a muchos usuarios que utilizan planes básicos de Gemini para sitios pequeños (y posiblemente a otros proveedores).

RBoy · 16 Octubre, 2025 03:05

Por cierto, este parece ser el tamaño del lote, cuántas solicitudes en una sola llamada. Quizás el problema sea el número de solicitudes que se realizan por minuto (no por lote). ¿Hay alguna forma de limitar cuántas solicitudes de relleno se envían por minuto o por hora?

También encontré esto si ayuda a otros usuarios: la nueva incrustación de gemini tiene problemas con los límites establecidos en 0 si se superan. Hay una solución temporal para usar la incrustación de texto en su lugar o tal vez solo esperar un poco y ver si se resuelve. Dicho esto, todavía creo que es una buena idea que discourse agregue una opción para limitar el número de llamadas a la API por minuto para los rellenos para evitar este problema en primer lugar.

PD: SÚPER GENIAL ver que Google también usa discourse. Me pregunto qué IA usan para potenciar la búsqueda de sus foros

tobiaseigen · 15 Noviembre, 2025 03:06

Este tema se cerró automáticamente 30 días después de la última respuesta. Ya no se permiten nuevas respuestas.

Tema		Respuestas	Vistas
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	519	29 Febrero 2024
Gemini Embeddings Issue After Discourse Update to 3.6.0 Beta 2 Support ai	4	150	14 Octubre 2025
Gemini embedding setting not passing output_dimensionality? Support embedding , ai	4	252	7 Noviembre 2025
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	10	893	15 Marzo 2024
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	126	3 Noviembre 2025

Aclaración de configuración de incrustación de la API de Gemini

Temas relacionados