Предупреждение о встраивании: `input must have less than 8192 tokens` с Discourse AI

whitewaterdeu · 01.Ноябрь.2025 01:53:41

Есть ли какой-либо инструмент для разделения входного текста на фрагменты? Или какая API для встраивания поддерживает более 8192 токенов?
Я использую Qwen/Qwen3-Embedding-0.6B

Сообщение (15 копий)

OpenAI Embeddings завершилась с ошибкой: статус 413, тело: {"code":20042,"message":"входные данные должны содержать менее 8192 токенов","data":null}

Стек вызовов

/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:218:in `block in dispatch'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:217:in `map'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:217:in `dispatch'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-8.0.3/lib/active_support/broadcast_logger.rb:129:in `warn'
/var/www/discourse/plugins/discourse-ai/lib/inference/open_ai_embeddings.rb:34:in `perform!'
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector.rb:45:in `block (2 levels) in gen_bulk_reprensentations'
/var/www/discourse/lib/scheduler/thread_pool.rb:118:in `block (2 levels) in wrap_block'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rails_multisite-7.0.0/lib/rails_multisite/connection_management/null_instance.rb:49:in `with_connection'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rails_multisite-7.0.0/lib/rails_multisite/connection_management.rb:17:in `with_connection'
/var/www/discourse/lib/scheduler/thread_pool.rb:118:in `block in wrap_block'
/var/www/discourse/lib/scheduler/thread_pool.rb:163:in `thread_loop'
/var/www/discourse/lib/scheduler/thread_pool.rb:174:in `block in spawn_thread'

Falco · 01.Ноябрь.2025 03:39:58

Если вы самостоятельно размещаете ту же модель, она может обрабатывать до 32 тысяч токенов. Именно такую модель мы используем на нашем хостинге в настоящее время.

Если это невозможно, вам необходимо настроить модель встраивания для ограничения входных данных до максимального значения, разрешённого вашим провайдером. Таким образом, наш AI Bot RAG будет разбивать загруженные файлы на фрагменты, а раздел «Связанные темы» / «Поиск» будет использовать только первые 8192 токена в каждой теме.

whitewaterdeu · 02.Ноябрь.2025 02:56:04

Как настроить модель встраивания? В Discourse или у провайдера моделей?

whitewaterdeu · 02.Ноябрь.2025 12:44:50

Я уверен, что Qwen/Qwen3-Embedding-0.6B поддерживает до 32 тысяч токенов, и я настроил длину последовательности 32k.

Но при этом всё ещё возникает множество ошибок при встраивании:

Falco · 02.Ноябрь.2025 17:08:39

Это так, если ваш провайдер API это разрешает.

Если ваш провайдер API ограничивает это до 8192, вам придётся следовать их правилам.

whitewaterdeu · 03.Ноябрь.2025 08:10:48

Хорошо, я спрашиваю у поставщика API

Тема		Ответов	Просм.
Embedding of post is not being properly truncated in discourse-ai plugin Bug ai	4	439	17.08.2023
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	9	936	15.03.2024
AI exceeds LLM token thresholds randomly and unpredictably Support ai	3	127	06.05.2026
Adding Semantic Search feature for our self-hosted discourse site Support ai , ai-search	9	301	19.03.2025
Gemini API Embedding Configuration Clarification Support ai	3	389	16.10.2025