Confirmation that your site locale is in Japanese or that search tokenize chinese japanese korean is enabled
Yes, I have confirmed that both settings are set correctly.
An incredible thing happened. After changing the ‘min search term length’ from the default value of 2 to 1, we are now able to search for katakana. I don’t know why, but is this setting relevant?
The term テスト is converted to テ ス ト after going through CppjiebaRb and this trips the min_search_length protector we have.
@sam This is tricky to fix because we need a proper tokenizer for Japanese to resolve search issues like this for good. We can do tweaks here and there but it is going to be a game of wack a mole.
Je n’utilise plus Ruby de nos jours et j’ignore les exigences de Discourse, mais il semble y avoir une gem pour “mecab”.
Je suis arrivé à ce sujet parce que j’ai constaté que la recherche de certains mots ne fonctionne pas sur mon instance publique hébergée. J’ai :
longueur minimale du terme de recherche : 1
tokenisation de recherche chinois japonais coréen : activée
locale par défaut : japonais
Si ma mémoire est bonne, j’ai initialisé le site avec la locale anglaise et l’ai changée en japonais plus tard.
Les mots dont la recherche a échoué sont “北側”, “真上”, “一般”. Ces mots se trouvent dans ce sujet. De nombreux mots fonctionnent, mais ceux-ci non. Je ne vois aucun schéma quant au fonctionnement ou non d’un mot.
Existe-t-il un moyen de vérifier l’index de recherche généré sur l’instance hébergée ? Je peux lire le Ruby et le japonais, donc s’il existe un moyen de voir comment Discourse génère l’index de recherche pour le CJK, je pourrais peut-être aider.
CppjiebaRb, ou cppjieba, mentionné par @tgxworld semble être pour le chinois. Est-il utilisé pour la locale japonaise ?
Mecab n’est malheureusement pas une option, il est sous licence GPL et nous préférons n’accepter que les licences MIT et BSD pour les dépendances.
Nous avons une PR qui ajoutera TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア qui a une licence compatible. Pouvez-vous tester la segmentation et nous faire savoir comment elle fonctionne, il y a un formulaire sur le site web que vous pouvez utiliser pour tester.