Discourse 需要更好的搜索功能

一种可能的方法 @Falco 是采用与我们当前方法相反的方法

为每个主题尝试提取/创建大约 20 个关键词,并将它们叠加在现有关键词之上

我想知道这是否有帮助

3 个赞

我们的相关性搜索不考虑浏览量或 PageRank。为了增加复杂性,所有时间的浏览量可能会非常高,从而扭曲结果,因此我们可能需要按年浏览量或其他方式来纠正。

但是……通过 PageRank / 考虑浏览量 / 点赞数,我们有可能提出一个更好的相关性算法。

这很复杂,一家万亿美元的公司就是建立在这些理念上的,而另一家万亿美元的公司也无法轻易赶上。

10 个赞

好了,我修好了……在 #1 了。

我过去和 @tgxworld@JammyDodger 讨论过这个问题,我们在这里给自己挖了个大坑。

简单的解决方法是:

遍历每一个 Plugin 主题,并在末尾添加“Plugin”。

Discourse 广告插件
Discourse 聊天插件
等等……

标题匹配“获胜”,例如:

  • Plugin 分类中的“Advertising”会输给 random 分类中的“Discourse Advertising Plugin question”。

我们可以通过附加分类和标签来“膨胀”我们的标题索引——我认为谷歌就是这么做的。

所以,而不是索引:

第一优先级“Discourse Advertising”
第二优先级“plugin”
第三优先级“content”

我们可以索引:

第一优先级“Discourse Advertising - plugin tag1 tag2”

当然,解决方法是搜索:

#plugin chat

对比


顺便说一句……顺便把所有官方插件都修好吧,我只需要几分钟。

4 个赞

如何考虑链接到该主题的数量?

2 个赞

是的,那是 PageRank,我提到了它

但有很多权衡,精确标题匹配是否应该输给高 PageRank?

2 个赞

不。我经常需要查找确切的标题,但我比较特别。当我查找“你为什么不做搜索”链接时,我主要寻找我知道存在的东西(对许多人来说,这比标准安装要难一些,好几个月我一直很困惑,“straightforward”不再能找到为自托管网站配置直接投递的入站电子邮件(使用 Mail-Receiver),但最近它被重命名了,所以“mail receiver”可以正常工作)。

啊。我现在看到你这么说了。

对于我实际搜索但不知道我在寻找什么的东西,最近的通常效果最好。

供参考,在我自己的(主要是我自己用的)网站上,主题和帖子相对较少,我认为搜索效果相当不错!

4 个赞

这才是正确的方法,在将过多精力浪费在内部搜索之前,有很多搜索工具可以进行测试。我不知道有哪个网站的内部搜索不会收到这种抱怨。即使是 Reddit,作为最大的网站之一,也因其搜索功能而受到批评。

1 个赞

通过关联用户在搜索和阅读过程中的行为(可能还通过查询,例如谷歌地图所做的那样),Discourse 可以在内部生成关于查询预期结果的知识。

我还想知道人工智能是否可以帮助将对话引导至期望的结果。这样的对话可以从一个按钮开始,上面写着:“我对结果不满意”。然后人工智能的角色将是提出问题,其答案要么缩小结果的范围,要么对其进行适当的优先排序。

一个 typesense 插件听起来很棒。

好话题!论坛搜索确实是一件很棘手的事情,而使用谷歌搜索的解决方案出现的频率对我来说有点太高了。

我同意这一点。您不希望旧话题主导搜索结果。
从我自己的搜索期望来看,我希望最好的结果是既近期又活跃的帖子,并且在标题和类别方面都匹配得很好。即使在那之后,我仍然希望近期性产生显著影响,因为我经常搜索我模糊记得的东西。

不幸的是,这也是事实。就个人而言,我甚至不确定链接在多大程度上真正有助于相关性(尽管它们可能是一个因素),因为在我活跃的论坛中,但那些不是某种支持或技术论坛,链接相对较少。
因此,我倾向于认为近期性和活跃度,即在不太遥远的过去内的浏览量、点赞/反应数、回复数更重要(但不确定这是否也已纳入当前搜索实现中)。

3 个赞

我认为值得研究一下 Reddit 用于其“热门”分数的算法:

math - Reddit 的排名算法(例如)来自哪里? - Stack Overflow

那东西大概是这样的

image

1 个赞

:sob: :sob: :sob: :sob:

5 个赞

同意。FWIW,subscriptions #plugin 的效果更好。

是的。别让我思考

OP 中的查询与一年前相比,得出了相同的主题,顺序也相同(除了这个主题本身污染了搜索结果……)

我想知道,这最终有没有取得任何成果?

4 个赞

我开始过度依赖谷歌,因为在这里找不到东西,而且我也不喜欢这样。:cry: 话虽如此,我相信团队迟早会找到改进搜索的方法。

6 个赞

我们从这个实验中学到了很多,但它花费了大量时间,我们已经转向了其他优先事项。

6 个赞

实验的当前状态如何?应该继续进行,还是需要从头开始?

我在这方面经验不多,无法通过代码识别重大变更,因此一个简单的总结就足够我理解了 :slight_smile:

集中搜索应该能让 Discourse 在博客和提供更多在线服务的类似网站上获得更多曝光。

这是我们的初始用例;我认为提供一个入口,可以直接在搜索栏中讨论博客文章,会很有价值。

该实验已停用,但它可能会再次出现,我们当然仍在努力改进搜索功能

1 个赞

很高兴知道,谢谢!

我明白,跨越多个应用程序(维基、博客、文档、论坛)提供简化的搜索是实现新技术和我们正在经历的根本性变革的全部潜力的强制性要求。

我们确实在 algolia 插件中支持 algolia,因此您可以依赖它。

1 个赞