Verwechseln Sie Request-Tokens mit Response-Tokens?
413 bedeutet, dass Ihre Anfrage zu groß war, nicht die angeforderte Antwort.
Um das zu behandeln, sollten Sie die LLM-Konfiguration für das Kontextfenster anpassen. Ich würde jedoch warnen, dass 8k Tokens heutzutage viel zu klein sind. Es wird für einige Funktionen funktionieren, aber es ist nicht genau das, was wir heutzutage viel nutzen, wenn LLMs Kontextfenster von 1 Million Tokens verarbeiten können. Ich kann auf meinem Desktop-PC ein Kontextfenster von 256k mit einem Modell ausführen, das viel besser ist als das, das Sie verwenden.