Вы не перепутали ли токены запроса с токенами ответа?
Ошибка 413 означает, что ваш запрос был слишком большим, а не запрошенный вами ответ.
Чтобы решить эту проблему, нужно настроить параметр Context window в конфигурации LLM. Однако предупрежу, что 8 тыс. токенов сегодня — это слишком мало. Этого хватит для некоторых функций, но в наше время, когда LLM работают с контекстными окнами размером до 1 млн токенов, этого явно недостаточно. Я могу запустить контекстное окно размером 256 тыс. токенов на своём настольном ПК, используя модель, которая значительно лучше той, что вы используете.