RBoy
(RBoy)
1
@Falco 埋め込みに関する2つの明確化について:
- 埋め込み構成の「シーケンス長」とは何を指しますか?これは、こちらの「入力トークン制限」に関連していますか? https://ai.google.dev/gemini-api/docs/embeddings#model-versions
- 埋め込みAPIのレートを制限するにはどうすればよいですか?Geminiの古いモデルが非推奨になったため、埋め込みモデルをリセットする必要がありました。そのため、現在、フォーラム全体で新しいベクトルを生成しようとしています(他の投稿を正しく理解していれば)。問題は、それが非常に速く行われ、Geminiから429(リクエストが多すぎます)のエラーが多発していることです。スロットリングする方法はありますか?RPD/TPM制限内ですが、Geminiダッシュボードでは、ディスコースがAPIに何度もヒットしていることが示されています。何かアドバイスがあれば幸いです(Geminiの古いモデルが非推奨になったため、新しい埋め込みモデルを作成する必要があったまではすべて正常に機能していました)。
すべてレート制限内で収まっています:
しかし、多くの429(リクエストが多すぎます)エラーが発生しています:
Falco
(Falco)
2
はい、その特定のモデルでは 2048 ですが、Gemini API には自動切り捨てパラメータがないため、安全策としてより低い値に設定することもできます。
ai_embeddings_backfill_batch_size という名前の非表示サイト設定があります。APIプロバイダーがデフォルトを処理できない場合は、50に設定してみてください。
「いいね!」 2
RBoy
(RBoy)
3
Tx. 50に設定しましたが、まだ数千件のエラーが発生しています。20に下げて様子を見てみます。
ai_embeddings_backfill_batch_size を埋め込み設定のUX画面に追加することも検討してください。これは、小規模サイトでGeminiベーシックプランを使用している多くのユーザー(およびおそらく他のプロバイダー)に影響を与える可能性があります。
「いいね!」 2
RBoy
(RBoy)
4
ちなみに、これはバッチサイズ、つまり1回の呼び出しあたりのリクエスト数であるようです。問題は、バッチあたりではなく、1分あたりに行われるリクエスト数かもしれません。バックフィルリクエストを1分あたりまたは1時間あたりの送信数を制限する方法はありますか?
また、他のユーザーの参考になるかもしれませんが、新しいGemini埋め込みは、上限が0に設定されている場合に超過すると問題が発生しています。一時的な回避策としてテキスト埋め込みを使用するか、しばらく待って解決するかどうかを確認してください。とはいえ、この問題を回避するために、DiscourseがバックフィルのAPI呼び出し数を1分あたりに制限するオプションを追加することは依然として良い考えだと思います。
追伸:GoogleもDiscourseを使用しているのを見るのは素晴らしいです。フォーラム検索を強化するためにどのAIを使用しているのか気になります

「いいね!」 3
tobiaseigen
(Tobias Eigen)
クローズされました:
5
このトピックは、最後の返信から30日後に自動的にクローズされました。新しい返信は許可されていません。