Stai confondendo i token di richiesta con i token di risposta?
Il codice 413 indica che la tua richiesta era troppo grande, non la risposta richiesta.
Per gestire questo problema, devi modificare la configurazione del Context window dell’LLM, ma ti avverto che 8k token sono decisamente troppo pochi al giorno d’oggi. Funzionerà per alcune funzionalità, ma non è esattamente qualcosa che si utilizza molto oggi, dato che gli LLM gestiscono finestre di contesto lunghe fino a 1 milione di token. Posso eseguire una finestra di contesto da 256k sul mio PC desktop utilizzando un modello molto migliore di quello che stai usando.