Gemini API Einbettungskonfiguration Klärung

RBoy · 15. Oktober 2025 um 00:40

@Falco 2 Klärung bezüglich Embeddings:

Was bezieht sich Sequence length in der Embedding-Konfiguration? Hat das etwas mit dem Input token limit zu tun, wie hier beschrieben: https://ai.google.dev/gemini-api/docs/embeddings#model-versions
Wie kann man die Rate der Embedding-API begrenzen? Ich musste das Embedding-Modell zurücksetzen, da das alte Modell von Gemini veraltet ist, und jetzt versucht es, neue Vektoren für das gesamte Forum zu generieren (wenn ich Ihren anderen Beitrag richtig verstanden habe). Das Problem ist, dass es viel zu schnell geschieht und es aufgrund der zu vielen Anfragen zu 429-Ablehnungen von Gemini kommt. Gibt es eine Möglichkeit, dies zu drosseln? Ich liege innerhalb der RPD/TPM-Limits, aber das Gemini-Dashboard zeigt, dass Discourse die API viel zu oft aufruft. Ich wäre dankbar für jeden Rat, den Sie haben (alles funktionierte einwandfrei, bis ich ein neues Embedding-Modell erstellen musste, da das alte Gemini-Modell veraltet war).

Alles innerhalb der Ratenlimits:

erhalte aber viele 429 (zu viele Anfragen)-Fehler:

Falco · 15. Oktober 2025 um 15:36

Ja, es ist 2048 für dieses spezielle Modell, aber Sie können es auf einen niedrigeren Wert konfigurieren, um auf der sicheren Seite zu sein, da die Gemini API keinen automatischen Trunkierungs-Parameter hat.

Versteckte Website-Einstellung namens ai_embeddings_backfill_batch_size. Versuchen Sie, sie auf 50 zu setzen, wenn Ihr API-Anbieter unsere Standardwerte nicht verarbeiten kann.

RBoy · 16. Oktober 2025 um 02:36

Tx. Es war auf 50 eingestellt, aber ich bekomme immer noch Tausende von Fehlern. Ich werde versuchen, es auf 20 zu reduzieren und sehen, wie es läuft.
Vielleicht sollten Sie die ai_embeddings_backfill_batch_size zum UX-Bildschirm der Embedding-Konfiguration hinzufügen, da dies viele Benutzer betreffen könnte, die Gemini-Basispakete für kleine Websites (und möglicherweise andere Anbieter) verwenden.

RBoy · 16. Oktober 2025 um 03:05

Nebenbei bemerkt, scheint dies die Batch-Größe zu sein, also die Anzahl der Anfragen in einem einzigen Aufruf. Vielleicht liegt das Problem darin, wie viele Anfragen pro Minute (nicht pro Batch) gestellt werden. Gibt es eine Möglichkeit, die Anzahl der Backfill-Anfragen pro Minute oder pro Stunde zu drosseln?

Außerdem habe ich Folgendes gefunden, falls es anderen Benutzern hilft: Die neue Gemini-Einbettung hat Probleme mit Grenzwerten, die auf 0 gesetzt sind, wenn diese überschritten werden. Es gibt eine temporäre Lösung, indem stattdessen Text-Einbettungen verwendet werden, oder man wartet einfach eine Weile und sieht, ob sich das Problem löst. Nichtsdestotrotz denke ich immer noch, dass es eine gute Idee für Discourse wäre, eine Option hinzuzufügen, um die Anzahl der API-Aufrufe pro Minute für Backfills zu begrenzen, um dieses Problem von vornherein zu vermeiden.

PS: Es ist SUPER COOL zu sehen, dass Google auch Discourse verwendet – ich frage mich, welche KI sie für die Forensuche verwenden

tobiaseigen · 15. November 2025 um 03:06

Dieses Thema wurde 30 Tage nach der letzten Antwort automatisch geschlossen. Neue Antworten sind nicht mehr gestattet.

Thema		Antworten	Aufrufe
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	519	29. Februar 2024
Gemini Embeddings Issue After Discourse Update to 3.6.0 Beta 2 Support ai	4	149	14. Oktober 2025
Gemini embedding setting not passing output_dimensionality? Support embedding , ai	4	252	7. November 2025
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	10	893	15. März 2024
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	126	3. November 2025

Gemini API Einbettungskonfiguration Klärung

Verwandte Themen