Различия в задержке поиска между семантическим поиском на базе ИИ и поиском по ключевым словам

craigrow · 07.Февраль.2024 16:52:48

Есть ли какие-либо данные о задержке для семантического поиска и семантически связанных тем по сравнению с поиском по ключевым словам и предложенными темами?

Заранее спасибо.

Falco · 07.Февраль.2024 17:17:35

Не могли бы вы уточнить, что вы имеете в виду под задержкой?

Что касается связанных тем, то поскольку все эмбеддинги предварительно рассчитаны, дополнительных затрат времени выполнения нет. Напротив, SQL-запрос для поиска связанных тем выполняется быстрее, чем наш старый запрос на предложение тем, а мы также кэшируем связанные темы для ещё более высокой производительности.

Что касается поиска на основе ИИ, то наш текущий подход HyDE^[1] к нему влечёт за собой серьёзные задержки, поэтому он выполняется асинхронно: пользователю сначала показывается стандартный поиск, а затем предлагается дополнить его результатами ИИ, когда они будут готовы. Здесь, в Meta, результаты поиска с использованием ИИ готовы в среднем через 4 секунды после появления обычных результатов поиска.

GPT-4: HyDE означает Hypothetical Document Embeddings (эмбеддинги гипотетических документов) — техника, используемая в семантическом поиске для нахождения документов на основе сходства их содержания. Этот подход позволяет получать более точные и контекстно релевантные результаты поиска, оценивая концептуальное сходство между документами, а не полагаясь исключительно на совпадение ключевых слов. Это техника обучения без учителя, которая сочетает возможности GPT-3 по пониманию языка с контрастными текстовыми энкодерами, улучшая способность ИИ понимать и обрабатывать естественный язык более тонко и эффективно. ↩︎

craigrow · 08.Февраль.2024 19:41:36

Вот именно то, что я искал. Спасибо, Фалько.

Проводилось ли какое-либо исследование по способам снижения этой задержки для семантического поиска?

Falco · 08.Февраль.2024 20:07:41

Первая версия AI Search имела значительно меньшую задержку, но и гораздо худшие результаты.

Что касается следующей версии, у нас есть несколько планов по снижению задержки:

Использование эмбеддингов на уровне постов вместо эмбеддингов на уровне тем
Применение модели повторного ранжирования для сортировки результатов поиска
Сделание HyDE опциональным

Мы считаем, что это позволит нам получить более качественные результаты поиска, а также ускорить процесс. В сочетании с новым оборудованием, которое мы предлагаем всем нашим хостинговым клиентам без дополнительной платы и способным выполнять вывод эмбеддингов всего за 2 мс, мы только начинаем осваивать то, что здесь возможно.

craigrow · 20.Февраль.2024 23:21:58

Круто. Спасибо за разъяснения, Фалько.

Ещё несколько вопросов, так как мы рассматриваем возможность включения этой функции для наших сообществ.

Похоже, что при переключении тумблера для отображения результатов семантического поиска пользователю показывается смесь результатов из API семантического поиска и API поиска по ключевым словам. Верно ли это? Если да, то как ранжируются эти два набора результатов относительно друг друга?
Касательно этого, можете ли вы прокомментировать, как работает сортировка по: словам с результатами семантического поиска. Я заметил, например, что статья, у которой есть иконка звезды в одном варианте сортировки, её нет в другом.

Falco · 21.Февраль.2024 00:23:18

Да, именно так.

Используя технику, называемую «реципрокное слияние рангов» (reciprocal rank fusion). В будущем мы можем перейти к использованию переупорядочивающей модели (re-ranker).

Семантический поиск несовместим с опциями сортировки, так как у нас нет вычисления порога расстояния. Он должен отключаться или блокироваться каждый раз, когда порядок сортировки не соответствует релевантности.

craigrow · 21.Февраль.2024 17:39:49

Круто, спасибо, Фалько. Судя по тому, что мы видим, API семантического поиска возвращает результаты семантического поиска только клиенту. Следовательно, рекуррентное слияние рангов (Reciprocal Rank Fusion) выполняется на стороне клиента. Так ли это? Также есть ли у нас возможность самостоятельно заменить этот алгоритм переупорядочивания, если мы захотим поэкспериментировать с другими вариантами?

Falco · 21.Февраль.2024 18:07:17

Да, именно так,

Технически, поскольку всё работает на стороне клиента, вы можете переопределить это.

Тем не менее, в долгосрочной перспективе я вижу, что мы будем всё больше полагаться на модели повторного ранжирования, которые по очевидным причинам будут работать на стороне сервера.

craigrow · 21.Февраль.2024 22:45:38

Понял. Спасибо!

Тема		Ответов	Просм.
Is it possible to make the default search Semantic search on the site? How much do these calls cost? Feature ai , ai-search	6	1419	08.09.2023
Support for Vanilla Embedding Search Feature ai , ai-search	2	139	28.06.2025
Getting a lot of no results for semantic search Support ai , ai-search	20	600	13.03.2025
Semantic Search API Support ai	6	265	17.12.2024
Is header semantic search still experimental? Support ai , ai-search	9	195	14.10.2024

Различия в задержке поиска между семантическим поиском на базе ИИ и поиском по ключевым словам

Связанные темы