Confirmation that your site locale is in Japanese or that search tokenize chinese japanese korean is enabled
Yes, I have confirmed that both settings are set correctly.
An incredible thing happened. After changing the ‘min search term length’ from the default value of 2 to 1, we are now able to search for katakana. I don’t know why, but is this setting relevant?
The term テスト is converted to テ ス ト after going through CppjiebaRb and this trips the min_search_length protector we have.
@sam This is tricky to fix because we need a proper tokenizer for Japanese to resolve search issues like this for good. We can do tweaks here and there but it is going to be a game of wack a mole.
Ich benutze Ruby heutzutage nicht mehr und kenne auch nicht die Anforderungen von Discourse, aber es scheint ein Gem für „MeCab“ zu geben.
Ich bin auf dieses Thema gestoßen, weil ich festgestellt habe, dass die Suche nach einigen Wörtern auf meiner gehosteten öffentlichen Instanz nicht funktioniert. Ich habe
min search term length: 1
search tokenize chinese japanese korean: enabled
default locale: Japanese
Soweit ich mich erinnere, habe ich die Website mit englischer Locale initialisiert und die Einstellung später auf Japanisch geändert.
Die Wörter, bei denen die Suche fehlschlug, sind „北側“, „真上“, „一般“. Diese Wörter befinden sich in diesem Thema. Viele Wörter funktionieren, aber diese nicht. Ich sehe kein Muster, ob ein Wort funktioniert oder nicht.
Gibt es eine Möglichkeit, den generierten Suchindex auf der gehosteten Instanz zu überprüfen? Ich kann sowohl Ruby als auch Japanisch lesen. Wenn es also eine Möglichkeit gibt zu sehen, wie Discourse den Suchindex für CJK generiert, könnte ich vielleicht helfen.
CppjiebaRb oder cppjieba, das von @tgxworld erwähnt wurde, scheint für Chinesisch zu sein. Wird es für die japanische Locale verwendet?
Mecab ist leider keine Option, es ist GPL und wir bevorzugen es, nur MIT- und BSD-Lizenzen bei Abhängigkeiten zu verwenden.
Wir haben einen PR, der TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア hinzufügt, das eine kompatible Lizenz hat. Können Sie das Segmentieren ausprobieren und uns mitteilen, wie gut es funktioniert? Es gibt ein Formular auf der Website, das Sie zum Testen verwenden können.