Rechercher un terme en japonais

SSS · Juillet 13, 2020, 5:50

Merci pour votre réponse.

Un paragraphe d’exemple ici en katakana
通報テスト 9, 通報テスト 11, 通報テスト 8… etc.
Un terme de recherche que vous avez et qui ne fonctionne pas
テスト
Le terme “テスト” ne fonctionne pas.

2 テスト1152×347 9.95 KB

Mais “通報” ou “通報テスト” semblent fonctionner correctement.

通報1206×345 19.3 KB

1 通報テスト1151×334 18.8 KB
Confirmation que la localisation de votre site est en japonais ou que search tokenize chinese japanese korean est activé
Oui, j’ai confirmé que les deux paramètres sont correctement configurés.

setting11207×400 17.4 KB

setting21207×400 8.72 KB

SSS · Juillet 15, 2020, 1:08

Une chose incroyable s’est produite. Après avoir modifié la « longueur minimale du terme de recherche » de la valeur par défaut de 2 à 1, nous pouvons maintenant rechercher des katakana. Je ne sais pas pourquoi, mais ce paramètre est-il pertinent ?

tgxworld · Août 24, 2020, 9:01

Je peux reproduire ce problème, qui est principalement dû à une combinaison de

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)

et

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          min_length = @opts[:min_search_term_length] || SiteSetting.min_search_term_length
          terms = (@term || '').split(/\s(?=(?:[^"]|"[^"]*")*$)/).reject { |t| t.length < min_length }

Le terme テスト est converti en テスト après avoir passé par CppjiebaRb, ce qui déclenche le protecteur min_search_length que nous avons mis en place.

@sam C’est délicat à corriger car nous avons besoin d’un véritable tokenizeur pour le japonais pour résoudre définitivement des problèmes de recherche comme celui-ci. Nous pouvons apporter des ajustements ici et là, mais cela ressemblera à un jeu de marteau-piqueur.

sam · Septembre 28, 2020, 7:14

Je ne pense pas qu’il existe un segmenteur japonais approprié que nous puissions utiliser.

Je pense que la meilleure chose à faire ici est simplement de réduire ces valeurs par défaut à 1.

github.com/discourse/discourse

config/site_settings.yml

580383dff


      
          min_search_term_length:
            client: true
            default: 3
            locale_default:
              zh_CN: 2
              zh_TW: 2
              ko: 2
              ja: 2

Autrement, nous empêchons les gens de rechercher « maison » en japonais, ce qui semble raisonnable (家) … alors que nous autorisons les recherches de « maison » en anglais.

yashi · Février 2, 2022, 10:13

Je n’utilise plus Ruby de nos jours et j’ignore les exigences de Discourse, mais il semble y avoir une gem pour “mecab”.

Je suis arrivé à ce sujet parce que j’ai constaté que la recherche de certains mots ne fonctionne pas sur mon instance publique hébergée. J’ai :

longueur minimale du terme de recherche : 1
tokenisation de recherche chinois japonais coréen : activée
locale par défaut : japonais

Si ma mémoire est bonne, j’ai initialisé le site avec la locale anglaise et l’ai changée en japonais plus tard.

Les mots dont la recherche a échoué sont “北側”, “真上”, “一般”. Ces mots se trouvent dans ce sujet. De nombreux mots fonctionnent, mais ceux-ci non. Je ne vois aucun schéma quant au fonctionnement ou non d’un mot.

Existe-t-il un moyen de vérifier l’index de recherche généré sur l’instance hébergée ? Je peux lire le Ruby et le japonais, donc s’il existe un moyen de voir comment Discourse génère l’index de recherche pour le CJK, je pourrais peut-être aider.

CppjiebaRb, ou cppjieba, mentionné par @tgxworld semble être pour le chinois. Est-il utilisé pour la locale japonaise ?

sam · Février 2, 2022, 10:21

Mecab n’est malheureusement pas une option, il est sous licence GPL et nous préférons n’accepter que les licences MIT et BSD pour les dépendances.

Nous avons une PR qui ajoutera TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア qui a une licence compatible. Pouvez-vous tester la segmentation et nous faire savoir comment elle fonctionne, il y a un formulaire sur le site web que vous pouvez utiliser pour tester.

yashi · Février 2, 2022, 10:58

J’ai essayé tiny_segmenter de Rubygems et au moins il génère les mots que j’ai listés dans le commentaire précédent.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)

bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Une recherche rapide sur TinySegmenter m’a appris que le modèle qu’il utilise n’est pas aussi bon. Il existe un générateur de modèles pour cela.

Je ne l’ai pas encore essayé cependant.

Sujet		Réponses	Vues
Korean words can't be searched Support	34	1768	Mai 27, 2018
Chinese search doesn't work to some words Support	14	1772	Décembre 14, 2018
Thai language support for searching Bug	4	1233	Août 11, 2020
What's the word tokenizer for different languages in discourse? Support	1	636	Mai 27, 2020
Optimizing Discourse search for CJK languages Site Management how-to , localization	0	3300	Mai 13, 2015

Rechercher un terme en japonais

Sujets connexes