Предупреждение о встраивании: `input must have less than 8192 tokens` с Discourse AI

Есть ли какой-либо инструмент для разделения входного текста на фрагменты? Или какая API для встраивания поддерживает более 8192 токенов?
Я использую Qwen/Qwen3-Embedding-0.6B

Сообщение (15 копий)

OpenAI Embeddings завершилась с ошибкой: статус 413, тело: {"code":20042,"message":"входные данные должны содержать менее 8192 токенов","data":null}

Стек вызовов

/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:218:in `block in dispatch'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:217:in `map'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:217:in `dispatch'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:129:in `warn'
/var/www/discourse/plugins/discourse-ai/lib/inference/open_ai_embeddings.rb:34:in `perform!'
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector.rb:45:in `block (2 levels) in gen_bulk_reprensentations'
/var/www/discourse/lib/scheduler/thread_pool.rb:118:in `block (2 levels) in wrap_block'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rails_multisite-7.0.0/lib/rails_multisite/connection_management/null_instance.rb:49:in `with_connection'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rails_multisite-7.0.0/lib/rails_multisite/connection_management.rb:17:in `with_connection'
/var/www/discourse/lib/scheduler/thread_pool.rb:118:in `block in wrap_block'
/var/www/discourse/lib/scheduler/thread_pool.rb:163:in `thread_loop'
/var/www/discourse/lib/scheduler/thread_pool.rb:174:in `block in spawn_thread'

Если вы самостоятельно размещаете ту же модель, она может обрабатывать до 32 тысяч токенов. Именно такую модель мы используем на нашем хостинге в настоящее время.

Если это невозможно, вам необходимо настроить модель встраивания для ограничения входных данных до максимального значения, разрешённого вашим провайдером. Таким образом, наш AI Bot RAG будет разбивать загруженные файлы на фрагменты, а раздел «Связанные темы» / «Поиск» будет использовать только первые 8192 токена в каждой теме.

Как настроить модель встраивания? В Discourse или у провайдера моделей?

Я уверен, что Qwen/Qwen3-Embedding-0.6B поддерживает до 32 тысяч токенов, и я настроил длину последовательности 32k.

Но при этом всё ещё возникает множество ошибок при встраивании:

Это так, если ваш провайдер API это разрешает.

Если ваш провайдер API ограничивает это до 8192, вам придётся следовать их правилам.

Хорошо, я спрашиваю у поставщика API