Suche nach einem Begriff auf Japanisch

SSS · 13. Juli 2020 um 05:50

Vielen Dank für Ihre Antwort.

Ein Beispielsatz hier in Katakana
通報テスト 9, 通報テスト 11, 通報テスト 8… usw.
Ein Suchbegriff, der bei Ihnen nicht funktioniert
テスト
„テスト

SSS · 15. Juli 2020 um 01:08

Ein unglaubliches Ereignis ist eingetreten. Nachdem wir die „minimale Suchbegriffslänge

tgxworld · 24. August 2020 um 09:01

Ich kann das reproduzieren, und es liegt hauptsächlich an einer Kombination aus

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)

und

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          min_length = @opts[:min_search_term_length] || SiteSetting.min_search_term_length
          terms = (@term || '').split(/\s(?=(?:[^"]|"[^"]*")*$)/).reject { |t| t.length < min_length }

Der Begriff テスト wird nach dem Durchlaufen von CppjiebaRb in テスト umgewandelt, was unseren Schutzmechanismus min_search_length auslöst.

@Sam Das ist schwierig zu beheben, da wir einen ordentlichen Tokenizer für Japanisch benötigen, um Suchprobleme wie dieses endgültig zu lösen. Wir können hier und da Anpassungen vornehmen, aber es wird ein Spiel von „Wackel-Maulwurf“ werden.

sam · 28. September 2020 um 07:14

Ich glaube nicht, dass es einen geeigneten japanischen Segmentierer gibt, den wir verwenden können.

Ich denke, das Beste, was wir hier tun können, ist, diese Standardwerte einfach auf 1 herabzusetzen.

github.com/discourse/discourse

config/site_settings.yml

580383dff


      
          min_search_term_length:
            client: true
            default: 3
            locale_default:
              zh_CN: 2
              zh_TW: 2
              ko: 2
              ja: 2

Andernfalls würden wir es Menschen verbieten, nach „Haus

yashi · 2. Februar 2022 um 10:13

Ich benutze Ruby heutzutage nicht mehr und kenne auch nicht die Anforderungen von Discourse, aber es scheint ein Gem für „MeCab“ zu geben.

Ich bin auf dieses Thema gestoßen, weil ich festgestellt habe, dass die Suche nach einigen Wörtern auf meiner gehosteten öffentlichen Instanz nicht funktioniert. Ich habe

min search term length: 1
search tokenize chinese japanese korean: enabled
default locale: Japanese

Soweit ich mich erinnere, habe ich die Website mit englischer Locale initialisiert und die Einstellung später auf Japanisch geändert.

Die Wörter, bei denen die Suche fehlschlug, sind „北側“, „真上“, „一般“. Diese Wörter befinden sich in diesem Thema. Viele Wörter funktionieren, aber diese nicht. Ich sehe kein Muster, ob ein Wort funktioniert oder nicht.

Gibt es eine Möglichkeit, den generierten Suchindex auf der gehosteten Instanz zu überprüfen? Ich kann sowohl Ruby als auch Japanisch lesen. Wenn es also eine Möglichkeit gibt zu sehen, wie Discourse den Suchindex für CJK generiert, könnte ich vielleicht helfen.

CppjiebaRb oder cppjieba, das von @tgxworld erwähnt wurde, scheint für Chinesisch zu sein. Wird es für die japanische Locale verwendet?

sam · 2. Februar 2022 um 10:21

Mecab ist leider keine Option, es ist GPL und wir bevorzugen es, nur MIT- und BSD-Lizenzen bei Abhängigkeiten zu verwenden.

Wir haben einen PR, der TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア hinzufügt, das eine kompatible Lizenz hat. Können Sie das Segmentieren ausprobieren und uns mitteilen, wie gut es funktioniert? Es gibt ein Formular auf der Website, das Sie zum Testen verwenden können.

yashi · 2. Februar 2022 um 10:58

Ich habe tiny_segmenter von Rubygems ausprobiert und es generiert zumindest die Wörter, die ich im vorherigen Kommentar aufgelistet habe.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)

bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Eine schnelle Suche nach TinySegmenter hat mir gesagt, dass das verwendete Modell nicht so gut ist. Es gibt einen Modellgenerator dafür.

Ich habe es aber noch nicht ausprobiert.

Thema		Antworten	Aufrufe
Korean words can't be searched Support	34	1768	27. Mai 2018
Chinese search doesn't work to some words Support	14	1772	14. Dezember 2018
Thai language support for searching Bug	4	1233	11. August 2020
What's the word tokenizer for different languages in discourse? Support	1	636	27. Mai 2020
Optimizing Discourse search for CJK languages Site Management how-to , localization	0	3300	13. Mai 2015

Suche nach einem Begriff auf Japanisch

Verwandte Themen