Qual é o tokenizador de palavras para diferentes idiomas no Discourse?

Olá, eu estava usando o Discourse em chinês. E percebi que muitas palavras não estão sendo tokenizadas corretamente.

Em uma frase, temos muitas palavras e precisamos separá-las adequadamente para dar suporte à pesquisa por palavras-chave e outras funções importantes.

Dito isso, acredito que o tokenizador de palavras em chinês do Discourse não funciona de forma satisfatória.

Será que é um tokenizador “antigo”? Podemos substituí-lo por novos?


Se você consegue ler em chinês, aqui estão minhas descobertas:

https://meta.discoursecn.org/t/topic/2414

Usamos GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

Que é baseado em GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears construiu o gem que permite que o Ruby tenha suporte para isso.

Você está percebendo algum problema específico que gostaria que fosse resolvido?