Ciao, stavo usando Discourse in cinese e ho notato che molte parole non vengono tokenizzate correttamente.
In una frase ci sono molte parole e dobbiamo separarle bene per supportare la ricerca per parole chiave e altre funzioni importanti.
Detto questo, credo che il tokenizzatore cinese di Discourse non sia abbastanza efficace.
È un tokenizzatore “vecchio”? Possiamo sostituirlo con nuovi?
Se puoi leggere il cinese, ecco le mie osservazioni: