AIセマンティック検索とキーワード検索の検索レイテンシの違い

セマンティック検索とセマンティック関連トピックとキーワード検索および推奨トピックのレイテンシに関するデータはありますか?

よろしくお願いします。

ここでいうレイテンシとは、具体的にどのような意味でしょうか?

関連トピックについては、すべての埋め込みが事前に計算されているため、実行時の追加コストはかかりません。むしろ、関連トピックを見つけるためのSQLクエリは、古い推奨トピックのクエリよりも高速であり、関連トピックをキャッシュすることでさらにパフォーマンスが向上します。

AI検索については、現在のHyDE[1]アプローチは深刻なレイテンシを伴うため、非同期で実行され、ユーザーにはまず標準検索が表示され、AIの結果が準備できたときにそれを拡張するオプションが提供されます。Metaでは、AI検索結果は通常の結果が表示されてから平均して4秒後に準備されます。


  1. GPT-4: HyDEはHypothetical Document Embeddingsの略で、セマンティック検索においてコンテンツの類似性に基づいてドキュメントを見つけるために使用される技術です。このアプローチは、キーワードの一致のみに依存するのではなく、ドキュメント間の概念的な類似性を評価することで、より正確で文脈的に関連性の高い検索結果を可能にします。GPT-3の言語理解能力と対照的テキストエンコーダーを組み合わせたゼロショット学習技術であり、AIが自然言語データをより微妙かつ効果的に理解・処理する能力を向上させます。 ↩︎

「いいね!」 3

まさに探していたものです。ファルコさん、ありがとうございます。

セマンティック検索のレイテンシを削減する方法について、何か調査はありましたか?

AI Searchの最初のバージョンは、レイテンシははるかに良好でしたが、結果ははるかに悪かったです。

次のバージョンについては、レイテンシを削減するためのいくつかの計画があります。

  • トピックレベルの埋め込みではなく、投稿レベルの埋め込みを使用する
  • 再ランキングモデルを使用して検索結果を並べ替える
  • HyDEをオプションにする

これにより、検索結果が改善され、プロセスも高速化されると考えています。また、ホストされているすべての顧客に無料で提供される新しいハードウェアと組み合わせることで、埋め込み推論をわずか2ミリ秒で実行できるようになり、ここで何が可能になるかの始まりにすぎません。

「いいね!」 2

承知しました。Falcoさん、洞察をありがとうございます。
コミュニティでこれを有効にするにあたり、さらにいくつか質問があります。

  1. セマンティック検索結果を表示するスイッチをオンにすると、セマンティック検索APIの結果とキーワード検索APIの結果が混在して表示されるようですが、これは正しいですか?もしそうであれば、それらの2つの結果セットはどのようにランク付けされますか?
  2. 関連して、セマンティック結果での「並べ替え」についてコメントしていただけますか?たとえば、ある記事が一方の並べ替えでは星アイコンが付いているのに、もう一方では付いていないことに気づきました。



「いいね!」 1

はい、その通りです。

「 reciprocal rank fusion 」と呼ばれる手法を使用しています。将来的には再ランク付け機能に切り替える可能性があります。

セマンティック検索は、距離のカットオフ計算がないため、並べ替えオプションとは互換性がありません。関連性以外の並べ替え順序が指定されている場合は、無効にする/ブロックするように設定されています。

「いいね!」 1

承知しました、ファルコさん。確認したところ、セマンティック検索APIはクライアントにセマンティック検索結果のみを提供しています。したがって、おそらくランク融合はクライアント側で行われているということでしょうか?それは正しいですか?また、もし私たちが異なるオプションを試したい場合、その再ランク付けアルゴリズムを自分で変更するオプションはありますか?

「いいね!」 1

はい、その通りです。

技術的には、すべてクライアントベースなので、上書きすることができます。

とはいえ、長期的には、再ランキングモデルへの依存度が高まると予想されます。これらは、明白な理由からすべてサーバーサイドになります。

了解しました。ありがとうございます!

「いいね!」 1