当我输入三个字符的搜索词 POS 时,在语言学界,这会被理解为“词性”。Discourse 会将三个字母作为前缀,并返回各种不恰当的主题。如果我在这里搜索 POS,我会得到包含单词 post、posts、position、possible 等的主题和回复,或者搜索 BOX,结果会包含 boxes。如果我在 LLVM 社区中搜索 PUBLICATIONS,我会得到大量包含单词 public 的帖子,其中包含示例 C/C++ 源代码。这种前缀或词元级别的搜索非常令人沮丧,并且阻碍了相关材料的发现。
如果这是一个功能——正如它被归入该类别所暗示的那样——那么它是一个糟糕的功能,而且变得毫无用处。
为什么#feature不合适?
查看类别描述
它不仅关乎现有功能,也关乎改进。
也许吧。然而,作为一名从事文本检索系统几十年的从业者,这个“功能”应该被视为一个错误。目前,搜索功能对于任何非最简单的搜索来说都几乎没有用处。
您可以通过搜索 \" pos \" 来删除所有帖子和位置结果。
https://meta.discourse.org/search?q=%22%20pos%20%22
2 个赞
好的,它奏效了,但为什么它不是用户可访问的功能?至少在“高级”搜索页面上,用户可以启用或禁用词干提取——将非词干提取设为默认值会减少混淆——由他们选择,而不是必须记住晦涩的语法。而且“publication”产生的结果与“publication”不同——包括出版物——但也许我们应该对词干提取到 public 不会发生感到满意。
1 个赞