Aclaración de configuración de incrustación de la API de Gemini

@Falco 2 aclaraciones sobre los embeddings:

  1. ¿A qué se refiere la Sequence length en la configuración de embeddings? ¿Está relacionada con el Input token limit como se describe aquí: https://ai.google.dev/gemini-api/docs/embeddings#model-versions
  2. ¿Cómo se limita la tasa de la API de embeddings? He tenido que restablecer el modelo de embeddings debido a la depreciación del modelo antiguo de Gemini, por lo que ahora está intentando generar nuevos vectores para todo el foro (si entendí correctamente tu otra publicación). El problema es que lo está haciendo demasiado rápido y está recibiendo demasiados rechazos de solicitud 429 de Gemini. ¿Hay alguna forma de limitarlo? Estoy dentro de los límites de RPD/TPM, pero el panel de Gemini muestra que el discurso está llamando a la API demasiadas veces. Agradecería cualquier consejo que puedas tener aquí (todo funcionaba bien hasta que tuve que crear un nuevo modelo de embeddings debido a la depreciación del modelo antiguo de Gemini).

Todo dentro de los límites de tasa:

pero recibiendo muchos errores 429 (demasiadas solicitudes):

Sí, es 2048 para ese modelo específico, pero puedes configurarlo a un valor más bajo para estar seguro, ya que la API de Gemini carece de un parámetro de truncamiento automático.

Ajuste del sitio oculto llamado ai_embeddings_backfill_batch_size. Intenta configurarlo en 50 si tu proveedor de API no puede manejar nuestros valores predeterminados.

2 Me gusta

Tx. Estaba configurado en 50, pero todavía obtengo miles de errores. Voy a intentar bajarlo a 20 y ver qué pasa.
Quizás considere agregar el ai_embeddings_backfill_batch_size a la pantalla de configuración de incrustaciones de UX, ya que esto puede afectar a muchos usuarios que utilizan planes básicos de Gemini para sitios pequeños (y posiblemente a otros proveedores).

2 Me gusta

Por cierto, este parece ser el tamaño del lote, cuántas solicitudes en una sola llamada. Quizás el problema sea el número de solicitudes que se realizan por minuto (no por lote). ¿Hay alguna forma de limitar cuántas solicitudes de relleno se envían por minuto o por hora?

También encontré esto si ayuda a otros usuarios: la nueva incrustación de gemini tiene problemas con los límites establecidos en 0 si se superan. Hay una solución temporal para usar la incrustación de texto en su lugar o tal vez solo esperar un poco y ver si se resuelve. Dicho esto, todavía creo que es una buena idea que discourse agregue una opción para limitar el número de llamadas a la API por minuto para los rellenos para evitar este problema en primer lugar.

PD: SÚPER GENIAL ver que Google también usa discourse. Me pregunto qué IA usan para potenciar la búsqueda de sus foros :wink: :sun:

3 Me gusta

Este tema se cerró automáticamente 30 días después de la última respuesta. Ya no se permiten nuevas respuestas.