Qual è il tokenizzatore di parole per le diverse lingue in Discourse?

Ciao, stavo usando Discourse in cinese e ho notato che molte parole non vengono tokenizzate correttamente.

In una frase ci sono molte parole e dobbiamo separarle bene per supportare la ricerca per parole chiave e altre funzioni importanti.

Detto questo, credo che il tokenizzatore cinese di Discourse non sia abbastanza efficace.

È un tokenizzatore “vecchio”? Possiamo sostituirlo con nuovi?


Se puoi leggere il cinese, ecco le mie osservazioni:

https://meta.discoursecn.org/t/topic/2414

Utilizziamo GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

che si basa su GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears ha creato il gem che consente a Ruby di supportarlo.

Hai notato problemi specifici che vorresti venissero risolti?