Welcher Wort-Tokenizer wird in Discourse für verschiedene Sprachen verwendet?

Hallo, ich habe Discourse auf Chinesisch verwendet und festgestellt, dass viele Wörter nicht gut tokenisiert werden.

In einem Satz gibt es viele Wörter, die wir gut trennen müssen, um die Stichwortsuche und andere wichtige Funktionen zu unterstützen.

Ich muss jedoch sagen, dass ich der Meinung bin, dass der chinesische Tokenizer von Discourse nicht gut genug funktioniert.

Ist das ein „alter

Wir verwenden GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub, das auf GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub basiert.

@fantasticfears hat das Gem entwickelt, das Ruby die Unterstützung dafür ermöglicht.

Gibt es spezifische Probleme, die Sie angesprochen sehen möchten?