こんにちは、私は中国語で Discourse を使用していました。そして、多くの単語が適切にトークン化されていないことに気づきました。
文には多くの単語が含まれており、キーワード検索や他の重要な機能をサポートするために、それらを適切に分離する必要があります。
ただし、Discourse の中国語用トークナイザーは十分ではないと私は考えています。
それは「古い」トークナイザーでしょうか?新しいものに置き換えることはできますか?
もし中国語がお読みいただけるなら、私の発見はこちらです:
こんにちは、私は中国語で Discourse を使用していました。そして、多くの単語が適切にトークン化されていないことに気づきました。
文には多くの単語が含まれており、キーワード検索や他の重要な機能をサポートするために、それらを適切に分離する必要があります。
ただし、Discourse の中国語用トークナイザーは十分ではないと私は考えています。
それは「古い」トークナイザーでしょうか?新しいものに置き換えることはできますか?
もし中国語がお読みいただけるなら、私の発見はこちらです:
GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub を使用しています。
これは GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub に基づいています。
@fantasticfears が、Ruby がこれをサポートできるようにする gem を構築しました。
対応を希望する具体的な問題に気づいていますか?