Что-то не так с эмбеддингами (связанные темы становятся слишком дорогими)

Don · 04.Декабрь.2024 11:40:26

Привет

Я использую text-embedding-3-large как модель для векторных вложений, и с ней что-то не так. Я имею в виду, что мне пришлось дважды пополнить счёт OpenAI с 30 ноября, что безумие, ведь этого должно хватать на месяцы… Не изменилось ли что-то в связанных темах? Возможно, система постоянно догоняет темы, которые уже были обработаны, или я не знаю.

Она генерирует около 24 миллионов входных токенов в день.

До 30 ноября это было примерно 60–220 тысяч.

Falco · 04.Декабрь.2024 15:40:08

Пожалуйста, предоставьте значения всех настроек эмбеддингов:

ai_embeddings_enabled
ai_embeddings_discourse_service_api_endpoint
ai_embeddings_discourse_service_api_endpoint_srv
ai_embeddings_discourse_service_api_key
ai_embeddings_model
ai_embeddings_per_post_enabled
ai_embeddings_generate_for_pms
ai_embeddings_semantic_related_topics_enabled
ai_embeddings_semantic_related_topics
ai_embeddings_semantic_related_include_closed_topics
ai_embeddings_backfill_batch_size
ai_embeddings_semantic_search_enabled
ai_embeddings_semantic_search_hyde_model
ai_embeddings_semantic_search_hyde_model_allowed_seeded_models
ai_embeddings_semantic_quick_search_enabled

Don · 04.Декабрь.2024 15:51:01

ai_embeddings_enabled: true
ai_embeddings_discourse_service_api_endpoint: ""
ai_embeddings_discourse_service_api_endpoint_srv: ""
ai_embeddings_discourse_service_api_key: ""
ai_embeddings_model: text-embedding-3-large
ai_embeddings_per_post_enabled: false
ai_embeddings_generate_for_pms: false
ai_embeddings_semantic_related_topics_enabled: true
ai_embeddings_semantic_related_topics: 5
ai_embeddings_semantic_related_include_closed_topics: true
ai_embeddings_backfill_batch_size: 250
ai_embeddings_semantic_search_enabled: true
ai_embeddings_semantic_search_hyde_model: Gemini 1.5 Flash
ai_embeddings_semantic_search_hyde_model_allowed_seeded_models: ""
ai_embeddings_semantic_quick_search_enabled: false

Falco · 04.Декабрь.2024 15:55:17

Сколько у вас эмбеддингов?

SELECT COUNT(*) FROM ai_topic_embeddings WHERE model_id = 7;

Сколько у вас тем?

SELECT COUNT(*) FROM topics WHERE deleted_at IS NULL AND archetype = 'regular';

Don · 04.Декабрь.2024 16:14:52

Сколько у вас эмбеддингов?
5964

Сколько у вас тем?
5563

Jagster · 04.Декабрь.2024 16:22:03

Я проверил свой счёт. Взрыв произошёл 27.11. До этого расход составлял менее 100 тысяч токенов в день, но затем он вырос до 7 миллионов и продолжает расти каждый день. Вчера он был уже около 20 миллионов.

Редакция: В октябре стоимость вложений (embeddings) составляла 46 центов. Сейчас, в декабре, за почти четыре дня — почти 6 долларов.

Да. Я отключил вложения (embeddings).

Falco · 04.Декабрь.2024 18:57:10

24M в день — это весь ваш форум, это выглядит как ошибка. Если только вы не получаете обновления во всех этих темах каждый день, то это точно баг.

Falco · 04.Декабрь.2024 19:44:14

Одно из возможных объяснений связано с тем, что ранее мы пропускали вызов API для генерации эмбеддингов, если дайджест тем не менялся, но в функции gen_bulk_reprensentations это поведение было нарушено @Roman.

@Don, подскажите, сколько запросов на генерацию эмбеддингов вы делаете в день?

Jagster · 04.Декабрь.2024 20:05:09

Я не Дон, но количество моих API-запросов выросло с 80–100 до 3825.

Don · 04.Декабрь.2024 20:15:47

Обычно это около 150–200 запросов в день

но в конце ноября количество увеличилось.

Roman · 04.Декабрь.2024 20:51:53

Приношу извинения, это была ошибка в новом коде, который мы добавили для ускорения заполнения пропущенных эмбеддингов. Проблема должна быть исправлена в:

Пожалуйста, дайте знать, если всё не вернётся в норму.

Falco · 04.Декабрь.2024 20:59:31

Учитывая лимит в 250 запросов в час, у нас есть жёсткое ограничение в 6000 запросов в день. Эти цифры всё ещё в пределах лимита.

Однако, если они срабатывают только при нашем «обновлении случайной выборки» тем, это должно быть ограничено 10% от этого значения, то есть в худшем случае — 600 запросов.

@Roman, не применяется ли этот лимит каким-то образом? Или проблема где-то ещё?

github.com/discourse/discourse-ai

app/jobs/scheduled/embeddings_backfill.rb

main


      
          
          # Then, we'll try to backfill embeddings for topics that have outdated
          # embeddings, be it model or strategy version
          relation = topics.where(<<~SQL).limit(limit - rebaked)
              #{table_name}.model_version < #{vector_def.version}
              OR
              #{table_name}.strategy_version < #{vector_def.strategy_version}

Roman · 04.Декабрь.2024 21:09:56

Да, я думаю, что исправленная мной ошибка выявила другую, которую скрывала проверка дайджеста.

Я думаю, ошибка здесь:

github.com/discourse/discourse-ai

app/jobs/scheduled/embeddings_backfill.rb

main


      
              .where("#{table_name}.updated_at < ?", 6.hours.ago)
              .where("#{table_name}.updated_at < topics.updated_at")
              .limit((limit - rebaked) / 10)
          
          populate_topic_embeddings(vector, relation, force: true)
          
          next unless SiteSetting.ai_embeddings_per_post_enabled
          
          # Now for posts
          table_name = DiscourseAi::Embeddings::Schema::POSTS_TABLE
          posts_batch_size = 1000
          
          posts =
            Post
              .joins(
                "LEFT JOIN #{table_name} ON #{table_name}.post_id = posts.id AND #{table_name}.model_id = #{vector_def.id}",
              )
              .where(deleted_at: nil)
              .where(post_type: Post.types[:regular])
          
          # First, we'll try to backfill embeddings for posts that have none

На прошлой неделе я заменил find_each на find_in_batches (первый использует батчи внутренне), и поскольку оба метода полагаются на limit для указания размера батча, исходный лимит limit - rebaked игнорируется. Вместо этого следует использовать pluck + each_slice.

Don · 04.Декабрь.2024 23:37:41

Спасибо за исправление

Я обновил свой сайт, но похоже, что в /logs возникла проблема. Не уверен, связана ли она с этим…

Сообщение

Исключение в задаче: ERROR: некорректный синтаксис входных данных для типа halfvec: "[NULL]"
LINE 2: ...1, 1, 'e358a54a79f71861a4ebd17ecebbad6932fc1f9a', '[NULL]', ...
                                                             ^


Трассировка стека

/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rack-mini-profiler-3.3.1/lib/patches/db/pg.rb:110:in `exec'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rack-mini-profiler-3.3.1/lib/patches/db/pg.rb:110:in `async_exec'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_sql-1.6.0/lib/mini_sql/postgres/connection.rb:217:in `run'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_sql-1.6.0/lib/mini_sql/active_record_postgres/connection.rb:38:in `block in run'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_sql-1.6.0/lib/mini_sql/active_record_postgres/connection.rb:34:in `block in with_lock'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/activesupport-7.2.2/lib/active_support/concurrency/null_lock.rb:9:in `synchronize'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_sql-1.6.0/lib/mini_sql/active_record_postgres/connection.rb:34:in `with_lock'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_sql-1.6.0/lib/mini_sql/active_record_postgres/connection.rb:38:in `run'
/var/www/discourse/lib/mini_sql_multisite_connection.rb:109:in `run'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_sql-1.6.0/lib/mini_sql/postgres/connection.rb:196:in `exec'
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:423:in `save_to_db'
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:86:in `block in gen_bulk_reprensentations'
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:86:in `each'
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:86:in `gen_bulk_reprensentations'
/var/www/discourse/plugins/discourse-ai/app/jobs/scheduled/embeddings_backfill.rb:131:in `block in populate_topic_embeddings'
/var/www/discourse/plugins/discourse-ai/app/jobs/scheduled/embeddings_backfill.rb:130:in `each'
/var/www/discourse/plugins/discourse-ai/app/jobs/scheduled/embeddings_backfill.rb:130:in `each_slice'
/var/www/discourse/plugins/discourse-ai/app/jobs/scheduled/embeddings_backfill.rb:130:in `populate_topic_embeddings'
/var/www/discourse/plugins/discourse-ai/app/jobs/scheduled/embeddings_backfill.rb:36:in `execute'
/var/www/discourse/app/jobs/base.rb:308:in `block (2 levels) in perform'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rails_multisite-6.1.0/lib/rails_multisite/connection_management/null_instance.rb:49:in `with_connection'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/rails_multisite-6.1.0/lib/rails_multisite/connection_management.rb:21:in `with_connection'
/var/www/discourse/app/jobs/base.rb:295:in `block in perform'
/var/www/discourse/app/jobs/base.rb:291:in `each'
/var/www/discourse/app/jobs/base.rb:291:in `perform'
/var/www/discourse/app/jobs/base.rb:362:in `perform'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_scheduler-0.17.0/lib/mini_scheduler/manager.rb:137:in `process_queue'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_scheduler-0.17.0/lib/mini_scheduler/manager.rb:77:in `worker_loop'
/var/www/discourse/vendor/bundle/ruby/3.3.0/gems/mini_scheduler-0.17.0/lib/mini_scheduler/manager.rb:63:in `block (2 levels) in ensure_worker_threads'

Roman · 04.Декабрь.2024 23:51:11

На первый взгляд, это не кажется связанным. Похоже, что генерация векторного представления не удалась, и система пытается вставить NULL. Неужели OpenAI возвращает ошибку? Возможно, это связано с лимитами?

Пожалуйста, выполните это из консоли:

DiscourseAi::Embeddings::VectorRepresentations::Base
          .find_representation(SiteSetting.ai_embeddings_model)
          .new(DiscourseAi::Embeddings::Strategies::Truncation.new)
          .vector_from("this is a test")
          .present?

Если возникнет ошибка Net::HTTPBadResponse, она должна быть записана в ваши логи.

Don · 05.Декабрь.2024 00:02:56

В консоли я получил: truet?, а в /logs ничего нет.

Возможно, это задержка со стороны OpenAI, так как я пополнял счёт час назад, и этот процесс, вероятно, не происходит мгновенно…

Roman · 05.Декабрь.2024 01:00:09

Это означает, что он может генерировать эмбеддинги. Сохраняются ли эти ошибки? Если да, то вы должны видеть их каждые пять минут.

Я провел несколько тестов на локальном экземпляре против нашего самохостингового сервиса эмбеддингов и подтвердил, что заполнение работает при следующих условиях:

Эмбеддинги отсутствуют.
Дигест устарел, а updated_at эмбеддингов старше 6 часов.
Дигест не устарел, но updated_at эмбеддингов старше 6 часов (в этом случае обновление не происходит).

Don · 05.Декабрь.2024 06:21:13

Нет, я больше не вижу этих ошибок в /logs, теперь всё работает. Спасибо

Falco · 05.Декабрь.2024 19:12:04

Мы объединили ещё одно исправление 5 часов назад, пожалуйста, обновитесь снова.

После этого сообщите, пожалуйста, как обстоят дела с производительностью.

cc @Jagster.

Jagster · 05.Декабрь.2024 19:16:12

Я ничего не знаю о лимитах, но количество запросов к API и прочее вернулось в норму после предыдущего исправления. Так что спасибо, ребята, за быструю реакцию.

Тема		Ответов	Просм.
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	12	600	29.02.2024
OpenAI embedding related topics stops working Support ai , related-topics	3	485	10.03.2024
Ai:embeddings:backfill - Handling OpenAI's 400 Error for Excessive Tokens in Embeddings Bug ai	9	936	15.03.2024
Problem with the new Discourse AI "related / similar topics"-function Support ai , related-topics	5	1002	21.08.2023
Embedding error with 3.6.0 beta 2 Bug ai	4	324	12.11.2025

Что-то не так с эмбеддингами (связанные темы становятся слишком дорогими)

Связанные темы