Confirmation that your site locale is in Japanese or that search tokenize chinese japanese korean is enabled
Yes, I have confirmed that both settings are set correctly.
An incredible thing happened. After changing the ‘min search term length’ from the default value of 2 to 1, we are now able to search for katakana. I don’t know why, but is this setting relevant?
The term テスト is converted to テ ス ト after going through CppjiebaRb and this trips the min_search_length protector we have.
@sam This is tricky to fix because we need a proper tokenizer for Japanese to resolve search issues like this for good. We can do tweaks here and there but it is going to be a game of wack a mole.
Se bem me lembro, inicializei o site com a localidade em inglês e depois mudei a configuração para japonês.
As palavras que descobri que falharam na busca são “北側”, “真上”, “一般”. Essas palavras estão em este tópico. Muitas palavras funcionam, mas essas não. Não vejo nenhum padrão se uma palavra funciona ou não.
Existe alguma maneira de verificar o índice de busca gerado na instância hospedada? Posso ler Ruby e japonês, então se houver uma maneira de ver como o Discourse gera o índice de busca para CJK, talvez eu possa ajudar.
CppjiebaRb, ou cppjieba, mencionado por @tgxworld parece ser para chinês. É usado para a localidade japonesa?
O Mecab não é uma opção, infelizmente, ele é GPL e preferimos apenas adotar licenças MIT e BSD em dependências.
Temos um PR que adicionará TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア, que tem uma licença compatível. Você pode testar a segmentação e nos informar como funciona? Há um formulário no site que você pode usar para testar.