Quel est le tokenizer de mots pour différentes langues dans Discourse ?

xiasummer · Mai 27, 2020, 12:53

Bonjour, j’utilisais Discourse en chinois et j’ai constaté que de nombreux mots n’étaient pas bien segmentés.

Dans une phrase, nous avons de nombreux mots, et il est nécessaire de les séparer correctement pour prendre en charge la recherche par mot-clé et d’autres fonctions importantes.

Je dois dire que je pense que le segmenteur de mots chinois de Discourse n’est pas assez performant.

S’agit-il d’un segmenteur « ancien » ? Peut-on le remplacer par de nouveaux ?

Si vous pouvez lire le chinois, voici mes constats :

https://meta.discoursecn.org/t/topic/2414

sam · Mai 27, 2020, 1:07

Nous utilisons GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

Qui est basé sur GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears a créé le gem qui permet à Ruby de prendre en charge cela.

Remarquez-vous des problèmes spécifiques que vous souhaiteriez voir résolus ?

Sujet		Réponses	Vues
Chinese search doesn't work to some words Support	15	1750	Octobre 31, 2021
Korean words can't be searched Support	36	1699	Novembre 22, 2020
Search a term in Japanese Support	26	2283	Février 2, 2022
Searching Chinese terms in middle of sentence Feature	24	3548	Décembre 4, 2025
Thai language support for searching Bug	4	1220	Août 11, 2020

Quel est le tokenizer de mots pour différentes langues dans Discourse ?

Sujets connexes