Фрагменты поиска на китайском языке отображаются некорректно

haroldfy · 11.Ноябрь.2020 21:39:43

Когда я пытаюсь выполнить поиск по-китайски на своём форуме, результаты поиска возвращают разорванные предложения: отсутствует пунктуация, между словами появляются неожиданные пробелы, а некоторые слова исчезают.

Например, я попытался найти 管理员, исходное предложение было таким:

管理人员可见的分类。只有管理员和版主才能阅览主题

Однако в результатах поиска я вижу следующее.

Как видно, отсутствует 可见的, также нет точки 。, из-за чего предложение разорвано. Кроме того, пропущены 只有, и, 才能. Между словами появляются неожиданные пробелы.

Может кто-нибудь помочь решить эту проблему? Спасибо.

tgxworld · 03.Декабрь.2020 02:12:10

Похоже, что эти отсутствующие символы считаются стоп-словами в китайском языке

(byebug) data = CppjiebaRb.segment(search_data, mode: mode)
["管理人员", "可见", "的", "分类", "。", "只有", "管理员", "和", "版主", "才能", "阅览", "主题"]
(byebug) CppjiebaRb.filter_stop_word(data)
["管理人员", "分类", "管理员", "版主", "阅览", "主题"]

sam · 03.Декабрь.2020 05:07:19

Подождите, так баг в том, что «summary» в результате выглядит странно? А не в том, что есть какая-то функциональная проблема с поиском?

tgxworld · 04.Декабрь.2020 00:51:35

Да, поиск всё ещё работает, просто отображаемый фрагмент не совсем идеален. Для китайского языка поиск обрабатывается немного иначе. Вместо того чтобы игнорировать стоп-слова непосредственно в поисковом запросе, мы полностью исключаем их из поисковых данных.

haroldfy · 06.Декабрь.2020 18:58:22

Спасибо за внимание к этому вопросу.

Это не стоп-слово в китайском языке, это прилагательное, означающее «видимый».

Возможно ли исправить эту проблему (включая все результаты поиска)? Или есть какое-то обходное решение?

Спасибо.

sam · 06.Декабрь.2020 20:16:35

Стоп-слова — это слова, которые встречаются очень часто и снижают эффективность поиска.

Например, в английском языке слово «and» является стоп-словом.

Это можно исправить, но на это потребуется несколько месяцев. Тем временем, если нужно срочно внести исправление, обратитесь в Marketplace.

Отмечаем как pr-welcome.

tgxworld · 08.Декабрь.2020 01:22:07

Стоп-слова определяются с использованием GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub. В связи с недавними изменениями в отображении фрагментов поиска, мы должны просто удалить следующую строку, так как она искажает фактические данные поиска.

github.com/discourse/discourse

lib/search.rb

1cf057fb1


      
          # For Japanese we should investigate using kakasi
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)
          
            # TODO: we still want to tokenize here but the current stopword list is too wide
            # in cppjieba leading to words such as volume to be skipped. PG already has an English
            # stopword list so use that vs relying on cppjieba
            if ts_config != 'english'
              data = CppjiebaRb.filter_stop_word(data)
            else
              data = data.filter { |s| s.present? }
            end
          
            data = data.join(' ')
          
          else
            data.squish!
          end

В любом случае, наша поддержка поиска для китайского языка оставляет желать лучшего, но есть расширения для PostgreSQL, которые мы могли бы рассмотреть, чтобы обеспечить корректную поддержку языков, не имеющих нативной поддержки. Возможно, https://pgroonga.github.io/?

haroldfy · 09.Декабрь.2020 01:21:44

Спасибо! Давайте попробуем и посмотрим, как всё пойдёт.

yiksanchan · 18.Декабрь.2020 07:08:37

@tgxworld Не уверен, что правильно понял: PGroonga не поддерживает китайский и японский языки. На https://pgroonga.github.io/ сказано:

PostgreSQL поддерживает полнотекстовый поиск только для языков, использующих только буквы латинского алфавита и цифры. Это означает, что PostgreSQL не поддерживает полнотекстовый поиск для японского, китайского и других подобных языков. Установив PGroonga в ваш PostgreSQL, вы сможете использовать сверхбыструю функцию полнотекстового поиска для всех языков!

yiksanchan · 18.Декабрь.2020 07:21:11

@tgxworld Я создал PR по вашему предложению FIX: keep chinese stopwords on search by t0t07 · Pull Request #11530 · discourse/discourse · GitHub

riking · 18.Декабрь.2020 20:06:47

Смысл как раз противоположный. Обычный PostgreSQL не поддерживает китайский и японский языки. PGroonga добавляет поддержку этих языков.

yiksanchan · 18.Декабрь.2020 20:14:08

Кстати, @riking, просто для подтверждения: сейчас Discourse реализует полнотекстовый поиск с использованием встроенных функций PostgreSQL, как в discourse/lib/search.rb at 1cf057fb1c4e168ce441ddde918636725abeb668 · discourse/discourse · GitHub

Это верно?

tgxworld · 21.Декабрь.2020 01:25:58

Извините, что не был более конкретен ранее. Если мы действительно хотим исправить это сейчас, нам нужно убедиться, что мы не удаляем стоп-слова для китайского языка в данных поиска, при этом сохраняя удаление стоп-слов, когда они используются в качестве поискового запроса.

yiksanchan · 21.Декабрь.2020 01:37:50

@tgxworld Я не понимаю разницы между данными поиска и поисковым запросом. Не могли бы вы предоставить больше подробностей? Спасибо.

sam · 21.Декабрь.2020 01:46:15

Если мы добавим стоп-слова в индекс, это увеличит его размер и ухудшит производительность поиска.

tgxworld · 21.Декабрь.2020 03:01:35

github.com/discourse/discourse

app/models/post_search_data.rb

d2a046218


      
          #  search_data     :tsvector
          #  raw_data        :text

В таблице PostSearchData хранятся два столбца: #search_data используется при запросах по поисковым терминам, а #raw_data — при отображении поискового фрагмента. Исправление должно заключаться в том, чтобы стоп-слова китайского языка не удалялись из #raw_data, но при этом удалялись из #search_data.

th21 · 06.Май.2021 05:02:09

Есть ли какие-то новости по этой ошибке?

sam · 20.Май.2021 05:50:01

Я думал, что внес некоторые изменения здесь:

github.com/discourse/discourse

lib/search.rb

626b8465b


      
          def self.segment_cjk?
            ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) ||
              SiteSetting.search_tokenize_chinese_japanese_korean
          end

Ваша локаль установлена как zh_TW, zh_CN или ja? Если нет, то включена ли настройка search_tokenize_chinese_japanese_korean?

У нас есть обходной путь здесь:

github.com/discourse/discourse

lib/search/grouped_search_results.rb

626b8465b


      
          if post.post_search_data.version > SearchIndexer::MIN_POST_REINDEX_VERSION && !Search.segment_cjk?
            if SiteSetting.use_pg_headlines_for_excerpt
              scrubbed_headline = post.headline.gsub(SCRUB_HEADLINE_REGEXP, '\1')
              prefix_omission = scrubbed_headline.start_with?(post.leading_raw_data) ? '' : OMISSION
              postfix_omission = scrubbed_headline.end_with?(post.trailing_raw_data) ? '' : OMISSION
              return "#{prefix_omission}#{post.headline}#{postfix_omission}"
            else
              opts[:cooked] = post.post_search_data.raw_data
              opts[:scrub] = false
            end
          else
            opts[:cooked] = post.cooked
          end
          
          GroupedSearchResults.blurb_for(**opts)

Тема		Ответов	Просм.
Chinese searching is broken Bug	3	1036	12.10.2016
Searching Chinese terms in middle of sentence Feature	23	3595	08.10.2016
Chinese search doesn't work to some words Support	14	1772	14.12.2018
What's the word tokenizer for different languages in discourse? Support	1	636	27.05.2020
Korean words can't be searched Support	34	1768	27.05.2018

Фрагменты поиска на китайском языке отображаются некорректно

Связанные темы