Wie kann man die Rate der Embedding-API begrenzen? Ich musste das Embedding-Modell zurücksetzen, da das alte Modell von Gemini veraltet ist, und jetzt versucht es, neue Vektoren für das gesamte Forum zu generieren (wenn ich Ihren anderen Beitrag richtig verstanden habe). Das Problem ist, dass es viel zu schnell geschieht und es aufgrund der zu vielen Anfragen zu 429-Ablehnungen von Gemini kommt. Gibt es eine Möglichkeit, dies zu drosseln? Ich liege innerhalb der RPD/TPM-Limits, aber das Gemini-Dashboard zeigt, dass Discourse die API viel zu oft aufruft. Ich wäre dankbar für jeden Rat, den Sie haben (alles funktionierte einwandfrei, bis ich ein neues Embedding-Modell erstellen musste, da das alte Gemini-Modell veraltet war).
Ja, es ist 2048 für dieses spezielle Modell, aber Sie können es auf einen niedrigeren Wert konfigurieren, um auf der sicheren Seite zu sein, da die Gemini API keinen automatischen Trunkierungs-Parameter hat.
Versteckte Website-Einstellung namens ai_embeddings_backfill_batch_size. Versuchen Sie, sie auf 50 zu setzen, wenn Ihr API-Anbieter unsere Standardwerte nicht verarbeiten kann.
Tx. Es war auf 50 eingestellt, aber ich bekomme immer noch Tausende von Fehlern. Ich werde versuchen, es auf 20 zu reduzieren und sehen, wie es läuft.
Vielleicht sollten Sie die ai_embeddings_backfill_batch_size zum UX-Bildschirm der Embedding-Konfiguration hinzufügen, da dies viele Benutzer betreffen könnte, die Gemini-Basispakete für kleine Websites (und möglicherweise andere Anbieter) verwenden.
Nebenbei bemerkt, scheint dies die Batch-Größe zu sein, also die Anzahl der Anfragen in einem einzigen Aufruf. Vielleicht liegt das Problem darin, wie viele Anfragen pro Minute (nicht pro Batch) gestellt werden. Gibt es eine Möglichkeit, die Anzahl der Backfill-Anfragen pro Minute oder pro Stunde zu drosseln?
Außerdem habe ich Folgendes gefunden, falls es anderen Benutzern hilft: Die neue Gemini-Einbettung hat Probleme mit Grenzwerten, die auf 0 gesetzt sind, wenn diese überschritten werden. Es gibt eine temporäre Lösung, indem stattdessen Text-Einbettungen verwendet werden, oder man wartet einfach eine Weile und sieht, ob sich das Problem löst. Nichtsdestotrotz denke ich immer noch, dass es eine gute Idee für Discourse wäre, eine Option hinzuzufügen, um die Anzahl der API-Aufrufe pro Minute für Backfills zu begrenzen, um dieses Problem von vornherein zu vermeiden.
PS: Es ist SUPER COOL zu sehen, dass Google auch Discourse verwendet – ich frage mich, welche KI sie für die Forensuche verwenden