你好,我之前在使用中文版的 Discourse。我发现很多词语的分词效果不够理想。
在一个句子中,包含许多词语,我们需要将它们正确分割,以支持关键词搜索和其他重要功能。
不过我必须说,我认为 Discourse 的中文分词器效果还不够好。
这是“旧版”分词器吗?我们能否替换为新的分词器?
如果你能阅读中文,以下是我的发现:
你好,我之前在使用中文版的 Discourse。我发现很多词语的分词效果不够理想。
在一个句子中,包含许多词语,我们需要将它们正确分割,以支持关键词搜索和其他重要功能。
不过我必须说,我认为 Discourse 的中文分词器效果还不够好。
这是“旧版”分词器吗?我们能否替换为新的分词器?
如果你能阅读中文,以下是我的发现:
我们使用了 GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub
该项目基于 GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub
@fantasticfears 构建了支持 Ruby 使用该功能的 gem。
您是否注意到任何需要解决的具体问题?