¿Estás confundiendo los tokens de solicitud con los tokens de respuesta?
El código 413 indica que tu solicitud era demasiado grande, no la respuesta solicitada.
Para solucionarlo, debes ajustar la configuración del LLM llamada Context window. Sin embargo, te advertiría que 8k tokens es demasiado pequeño en la actualidad. Funcionará para algunas funciones, pero no es algo que se utilice mucho hoy en día, cuando los LLM manejan contextos de hasta 1 millón de tokens. Puedo ejecutar un contexto de 256k en mi PC de escritorio usando un modelo mucho mejor que el que estás utilizando.