Search a term in Japanese

SSS · 13.Июль.2020 05:50:36

Спасибо за ваш ответ.

Пример абзаца здесь на катакане
通報テスト 9, 通報テスト 11, 通報テスト 8… и т.д.
Пример поискового запроса, который у вас не работает
テスト
Поиск по «テスト» не работает.

2 テスト1152×347 9.95 KB

Однако поиск по «通報» или «通報テスト», похоже, работает корректно.

通報1206×345 19.3 KB

1 通報テスト1151×334 18.8 KB
Подтверждение того, что локаль вашего сайта — японская или что включена опция search tokenize chinese japanese korean
Да, я подтвердил, что оба параметра настроены правильно.

setting11207×400 17.4 KB

setting21207×400 8.72 KB

SSS · 15.Июль.2020 01:08:25

Произошло нечто удивительное. После изменения параметра «минимальная длина поискового запроса» со стандартного значения 2 на 1 теперь можно искать по катакане. Не знаю, почему это сработало, но имеет ли эта настройка к этому отношение?

tgxworld · 24.Август.2020 09:01:13

Я могу воспроизвести эту проблему, и она в основном обусловлена сочетанием

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)

и

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          min_length = @opts[:min_search_term_length] || SiteSetting.min_search_term_length
          terms = (@term || '').split(/\s(?=(?:[^"]|"[^"]*")*$)/).reject { |t| t.length < min_length }

Термин テスト преобразуется в テスト после обработки через CppjiebaRb, что вызывает срабатывание нашего ограничителя min_search_length.

@sam Исправить это непросто, поскольку для окончательного решения подобных проблем с поиском по-японски нам нужен корректный токенизатор. Мы можем вносить точечные правки, но это превратится в бесконечную борьбу с последствиями.

sam · 28.Сентябрь.2020 07:14:51

Я не думаю, что существует подходящий японский сегментатор, который мы могли бы использовать.

Думаю, лучшее решение здесь — просто снизить эти значения по умолчанию до 1.

github.com/discourse/discourse

config/site_settings.yml

580383dff


      
          min_search_term_length:
            client: true
            default: 3
            locale_default:
              zh_CN: 2
              zh_TW: 2
              ko: 2
              ja: 2

Иначе мы будем запрещать людям искать слово «дом» на японском (家), что кажется нелогичным, раз мы разрешаем искать его на английском.

yashi · 02.Февраль.2022 10:13:13

В наши дни я не использую Ruby и не знаю требований Discourse, но, похоже, существует gem для «mecab».

Я обратился к этой теме, потому что обнаружил, что поиск некоторых слов не работает на моем публичном хостинге. У меня установлены следующие параметры:

минимальная длина поискового термина: 1
токенизация поиска для китайского, японского и корейского языков: включена
локаль по умолчанию: японская

Насколько я помню, я инициализировал сайт с английской локалью, а позже изменил настройку на японскую.

Слова, которые не удалось найти при поиске: «北側», «真上», «一般». Эти слова содержатся в этой теме. Многие слова работают, но эти — нет. Я не вижу никакой закономерности в том, почему одно слово ищется, а другое — нет.

Есть ли способ проверить сгенерированный поисковый индекс на хостинге? Я владею как Ruby, так и японским языком, поэтому, если существует способ увидеть, как Discourse генерирует поисковый индекс для CJK-языков, я могу быть полезен.

CppjiebaRb или cppjieba, упомянутые @tgxworld, судя по всему, предназначены для китайского языка. Используются ли они для японской локали?

sam · 02.Февраль.2022 10:21:26

K сожалению, MeCab не подходит, так как он распространяется под лицензией GPL, а мы предпочитаем использовать только зависимости с лицензиями MIT и BSD.

У нас есть pull-запрос, который добавит TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア — у него совместимая лицензия. Пожалуйста, попробуйте сегментацию и сообщите, насколько хорошо она работает. На сайте есть форма, которую можно использовать для тестирования.

yashi · 02.Февраль.2022 10:58:57

Я попробовал tiny_segmenter из Rubygems, и, по крайней мере, он генерирует слова, которые я перечислил в предыдущем комментарии.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)

bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Краткий поиск информации о TinySegmenter показал, что используемая им модель не очень качественная. Для неё есть генератор моделей.

Однако я его ещё не пробовал.

Тема		Ответов	Просм.
Korean words can't be searched Support	34	1772	27.05.2018
Chinese search doesn't work to some words Support	14	1772	14.12.2018
Thai language support for searching Bug	4	1233	11.08.2020
What's the word tokenizer for different languages in discourse? Support	1	636	27.05.2020
Optimizing Discourse search for CJK languages Site Management how-to , localization	0	3302	13.05.2015

Search a term in Japanese

Связанные темы