全文语义搜索是否仅支持英文?

全文语义搜索……只能搜索英文吗?是否需要一些 Rails 的魔法来让它更容易使用?

如果将嵌入模型切换到多语言模型,我就可以工作。我还没有测试过,但理论上应该可行。

我只是开始感到奇怪,因为在大多数情况下,它什么也提供不了,即使有搜索结果,也完全不相关。

您正在使用哪种模型进行嵌入?
您是否已为所有主题生成了嵌入?
您正在使用哪种模型进行 HyDE 搜索?

  • text-embedding-ada-002
  • 据我所知是的
  • gpt-3.5-turbo

我做了一些测试——抱歉,不是很一致,但感觉就像兔子被汽车大灯照住一样。

它肯定也能处理芬兰语。我认为人工智能和少数语言存在更根本的问题。还有用户。

首先,OpenAI 没有足够的材料来处理芬兰语,但我确信这种情况适用于所有没有足够材料供人工智能窃取使用的语言来学习。这意味着语义搜索比其他问题要困难得多,而当使用英语或主要语言以外的语言时,这些问题对 Chat GPT 来说确实很难。

看起来 GPT-4 比 GPT-3.5-turbo 更准确。但当 3.5 击中时,10 次中有 8 次只是噪音,即使 Discourse 仅使用标签也能提供那 2 个正确的,GPT-4 的成功率大约是 50%。是的,这些是粗略的统计数据。

创建一个有用的语义搜索实际上相当困难。至少对我来说是这样,因为我对应该得到什么有期望。所以这不仅仅是真正的语义搜索的问题,而是或多或少地使用不准确的搜索语句在由该语句生成的搜索词列表上进行搜索。是的,我知道——这也是一种语义搜索。

我非常薄弱的一点是语义组件按预期工作,但问题来自于人工智能本身的局限性和用户过高的期望。而英语以外的语言本身并不是问题。

但是……

语义全文搜索非常慢。如果我将技术问题归咎于我的 VPS——内存不足、魔法生物等——我是对的吗?因为在这里它很快。

其次……我们能否在某个时候提供 AI 命中作为默认选项,而不是由 Discourse 生成的选项?

只是为了让事情和话题保持一致:我大错特错了。这与 3.5 和 4 无关。原因是移动设备上的语义搜索行为。它会在输入三个字符后开始搜索,然后结果就非常错误。当我记得没错的话,当打开高级过滤器或点击搜索按钮时,AI 会进行新的搜索并更新结果——然后“命中率”就更接近正确了。