Você está confundindo tokens de solicitação com tokens de resposta?
413 significa que sua solicitação era grande demais, não a resposta solicitada.
Para lidar com isso, você precisa ajustar a configuração do Context window do LLM, mas eu alertaria que 8k tokens é muito pequeno hoje em dia. Funcionará para alguns recursos, mas não é exatamente algo que exercitemos muito atualmente, já que os LLMs estão lidando com janelas de contexto de 1 milhão de tokens. Posso executar uma janela de contexto de 256k no meu PC desktop usando um modelo muito melhor do que o que você está usando.