Confirmation that your site locale is in Japanese or that search tokenize chinese japanese korean is enabled
Yes, I have confirmed that both settings are set correctly.
An incredible thing happened. After changing the ‘min search term length’ from the default value of 2 to 1, we are now able to search for katakana. I don’t know why, but is this setting relevant?
The term テスト is converted to テ ス ト after going through CppjiebaRb and this trips the min_search_length protector we have.
@sam This is tricky to fix because we need a proper tokenizer for Japanese to resolve search issues like this for good. We can do tweaks here and there but it is going to be a game of wack a mole.
Non uso Ruby di questi tempi né conosco i requisiti di Discourse, ma sembra esserci una gemma per “MeCab”.
Sono arrivato a questo argomento perché ho scoperto che la ricerca di alcune parole non funziona sulla mia istanza pubblica ospitata. Ho
lunghezza minima del termine di ricerca: 1
ricerca tokenizzata cinese giapponese coreano: abilitata
locale predefinito: giapponese
Se non ricordo male, ho inizializzato il sito con la locale inglese e poi ho cambiato l’impostazione in giapponese.
Le parole che ho trovato non ricercabili sono “北側”, “真上”, “一般”. Queste parole sono in questo argomento. Molte parole funzionano, ma queste no. Non vedo uno schema sul fatto che una parola funzioni o meno.
C’è un modo per controllare l’indice di ricerca generato sull’istanza ospitata? Posso leggere sia Ruby che giapponese, quindi se c’è un modo per vedere come Discourse genera l’indice di ricerca per CJK, potrei essere d’aiuto.
CppjiebaRb, o cppjieba, menzionato da @tgxworld sembra essere per il cinese. Viene utilizzato per la locale giapponese?
Mecab non è un’opzione, purtroppo, è GPL e preferiamo accettare solo licenze MIT e BSD nelle dipendenze.
Abbiamo una PR che aggiungerà TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア che ha una licenza compatibile. Potresti provare la segmentazione e farci sapere come funziona? C’è un modulo sul sito web che puoi usare per testare.