Quel est le tokenizer de mots pour différentes langues dans Discourse ?

Bonjour, j’utilisais Discourse en chinois et j’ai constaté que de nombreux mots n’étaient pas bien segmentés.

Dans une phrase, nous avons de nombreux mots, et il est nécessaire de les séparer correctement pour prendre en charge la recherche par mot-clé et d’autres fonctions importantes.

Je dois dire que je pense que le segmenteur de mots chinois de Discourse n’est pas assez performant.

S’agit-il d’un segmenteur « ancien » ? Peut-on le remplacer par de nouveaux ?


Si vous pouvez lire le chinois, voici mes constats :

https://meta.discoursecn.org/t/topic/2414

Nous utilisons GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

Qui est basé sur GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears a créé le gem qui permet à Ruby de prendre en charge cela.

Remarquez-vous des problèmes spécifiques que vous souhaiteriez voir résolus ?