¿Cuál es el tokenizador de palabras para diferentes idiomas en Discourse?

Hola, estaba usando Discourse en chino. Y noté que muchas palabras no se tokenizan correctamente.

En una oración hay muchas palabras y necesitamos separarlas bien para apoyar la búsqueda por palabras clave y otras funciones importantes.

Aunque debo decir que creo que el tokenizador de palabras chinas de Discourse no funciona lo suficientemente bien.

¿Es un tokenizador “antiguo”? ¿Podemos reemplazarlo con otros más nuevos?


Si puedes leer chino, aquí están mis hallazgos:

https://meta.discoursecn.org/t/topic/2414

Utilizamos GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

El cual se basa en GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears construyó la gema que permite a Ruby tener soporte para esto.

¿Estás notando algún problema específico que te gustaría que abordemos?