不同语言的Discourse分词器是什么?

你好,我之前在使用中文版的 Discourse。我发现很多词语的分词效果不够理想。

在一个句子中,包含许多词语,我们需要将它们正确分割,以支持关键词搜索和其他重要功能。

不过我必须说,我认为 Discourse 的中文分词器效果还不够好。

这是“旧版”分词器吗?我们能否替换为新的分词器?


如果你能阅读中文,以下是我的发现:

https://meta.discoursecn.org/t/topic/2414

我们使用了 GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

该项目基于 GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears 构建了支持 Ruby 使用该功能的 gem。

您是否注意到任何需要解决的具体问题?