Hola, estaba usando Discourse en chino. Y noté que muchas palabras no se tokenizan correctamente.
En una oración hay muchas palabras y necesitamos separarlas bien para apoyar la búsqueda por palabras clave y otras funciones importantes.
Aunque debo decir que creo que el tokenizador de palabras chinas de Discourse no funciona lo suficientemente bien.
¿Es un tokenizador “antiguo”? ¿Podemos reemplazarlo con otros más nuevos?
Si puedes leer chino, aquí están mis hallazgos: