Gemini API 嵌入配置说明

@Falco 2 关于嵌入的澄清:

  1. Sequence length 在嵌入配置中指的是什么?它是否与此处描述的 Input token limit 相关:https://ai.google.dev/gemini-api/docs/embeddings#model-versions
  2. 如何限制嵌入 API 的速率?由于 Gemini 弃用了旧模型,我不得不重置嵌入模型,因此现在它正在尝试为整个论坛生成新的向量(如果我正确理解了您之前的帖子)。问题是它速度太快了,导致 Gemini 出现 429 错误(请求过多)。有没有办法限制它的速度?我仍在 RPD/TPM 限制之内,但 Gemini 仪表板显示 discourse 调用 API 的次数过多。如果您能提供任何建议,我将不胜感激(在 Gemini 旧模型被弃用后,我不得不创建一个新的嵌入模型,在此之前一切都运行正常)。

所有都在速率限制之内:

但收到了很多 429(请求过多)错误:

是的,对于该特定模型,它是 2048,但您可以将其配置为较低的值以谨慎行事,因为 Gemini API 缺少自动截断参数。

隐藏的站点设置,名为 ai_embeddings_backfill_batch_size。如果您的 API 提供商无法处理我们的默认设置,请尝试将其设置为 50。

2 个赞

谢谢。它设置为 50,但仍然收到数千个错误。我将尝试将其降低到 20,看看效果如何。
也许可以考虑在嵌入配置用户体验屏幕中添加 ai_embeddings_backfill_batch_size,因为这可能会影响许多使用 Gemini 基础版套餐的小型网站(以及可能其他提供商)的用户。

2 个赞

顺便说一句,这似乎是批处理大小,即单次调用中的请求数。也许问题在于每分钟(而不是每批)发出的请求数量。是否有办法限制每分钟或每小时发出的回填请求数量?

另外,如果这对其他用户有帮助,我发现新的 Gemini 嵌入在超出限制时设置为 0 会出现问题。有一个临时的解决方法是改用文本嵌入,或者也许可以稍等片刻看看问题是否会解决。话虽如此,我仍然认为 Discourse 添加一个选项来限制回填的 API 调用次数(每分钟)是一个好主意,以避免一开始就出现此问题。

附注:很高兴看到 Google 也使用 Discourse - 想知道他们用什么 AI 来驱动他们的论坛搜索 :wink: :sun:

3 个赞

此主题在上次回复后 30 天自动关闭。不再允许回复。