Olá, eu estava usando o Discourse em chinês. E percebi que muitas palavras não estão sendo tokenizadas corretamente.
Em uma frase, temos muitas palavras e precisamos separá-las adequadamente para dar suporte à pesquisa por palavras-chave e outras funções importantes.
Dito isso, acredito que o tokenizador de palavras em chinês do Discourse não funciona de forma satisfatória.
Será que é um tokenizador “antigo”? Podemos substituí-lo por novos?
Se você consegue ler em chinês, aqui estão minhas descobertas: