مقتطفات البحث الصينية تبدو معطلة

haroldfy · 11 نوفمبر 2020، 9:39م

عند محاولة البحث عن محتوى صيني في منتداي، أرى أن نتائج البحث تُرجع جملًا مقطعة، مع غياب علامات الترقيم، ومسافات بيضاء غير متوقعة بين الكلمات، بالإضافة إلى اختفاء بعض الكلمات.

على سبيل المثال، جربت البحث عن 管理员، وكانت الجملة الأصلية هي:

管理人员可见的分类。只有管理员和版主才能阅览主题

لكن ما ظهر في نتائج البحث يبدو كالتالي:

كما ترون، كلمة 可见的 مفقودة، وعلامة النقطة 。 مفقودة أيضًا، مما يجعل الجملة غير مكتملة. ثم اختفت أيضًا الكلمات 只有 و و و 才能. كما توجد مسافات بيضاء غير متوقعة بينها.

هل يمكن لأحد مساعدتي في حل هذه المشكلة؟ شكرًا لكم

tgxworld · 3 ديسمبر 2020، 2:12ص

يبدو أن تلك الأحرف المفقودة تُعتبر كلمات توقف في اللغة الصينية

(byebug) data = CppjiebaRb.segment(search_data, mode: mode)
["管理人员", "可见", "的", "分类", "。", "只有", "管理员", "和", "版主", "才能", "阅览", "主题"]
(byebug) CppjiebaRb.filter_stop_word(data)
["管理人员", "分类", "管理员", "版主", "阅览", "主题"]

sam · 3 ديسمبر 2020، 5:07ص

انتظر، هل الخطأ هنا هو أن “الملخص” في النتيجة يبدو غريبًا؟ وليس أن هناك مشكلة وظيفية فعلية في البحث؟

tgxworld · 4 ديسمبر 2020، 12:51ص

نعم، البحث لا يزال يعمل، لكن مقتطفات العرض ليست مثالية. بالنسبة للغة الصينية، يتم التعامل مع البحث بطريقة مختلفة بعض الشيء. فبدلاً من تجاهل كلمات التوقف أثناء استعلام البحث نفسه، نقوم باستبعادها تمامًا من بيانات البحث.

haroldfy · 6 ديسمبر 2020، 6:58م

شكرًا لك على التحقق من هذا.

هذا ليس كلمة توقف في اللغة الصينية، بل هو صفة تعني “مرئي”.

هل من الممكن إصلاح هذه المشكلة؟ (بما في ذلك جميع العناصر في نتائج البحث) أم أن هناك أي حل بديل متاح؟

شكرًا لك.

sam · 6 ديسمبر 2020، 8:16م

كلمات التوقف هي كلمات شائعة جدًا وتؤثر سلبًا على أداء البحث

على سبيل المثال، كلمة “And” في اللغة الإنجليزية تُعد من كلمات التوقف

يمكن حل هذه المشكلة، وسيستغرق الأمر بضعة أشهر للوصول إلى الحل. وفي غضون ذلك، إذا كنت بحاجة إلى إصلاح سريع، يمكنك الرجوع إلى Marketplace

تمت الإشارة إليها بـ pr-welcome

tgxworld · 8 ديسمبر 2020، 1:22ص

يتم تحديد كلمات التوقف باستخدام GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub. مع التغييرات الأخيرة في طريقة عرض مقتطفات البحث، يجب علينا ببساطة إزالة السطر التالي لأنه يتعارض مع بيانات البحث الفعلية.

github.com/discourse/discourse

lib/search.rb

1cf057fb1


      
          # For Japanese we should investigate using kakasi
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)
          
            # TODO: we still want to tokenize here but the current stopword list is too wide
            # in cppjieba leading to words such as volume to be skipped. PG already has an English
            # stopword list so use that vs relying on cppjieba
            if ts_config != 'english'
              data = CppjiebaRb.filter_stop_word(data)
            else
              data = data.filter { |s| s.present? }
            end
          
            data = data.join(' ')
          
          else
            data.squish!
          end

على أي حال، دعم البحث للغة الصينية لدينا ليس ممتازًا، ولكن هناك إضافات لـ PostgreSQL قد نرغب في النظر فيها لتمكيننا من دعم اللغات التي لا تتوفر لها دعم أصلي بشكل صحيح. ربما https://pgroonga.github.io/؟

haroldfy · 9 ديسمبر 2020، 1:21ص

شكرًا! دعني أجرب هذا وأرى كيف تسير الأمور.

yiksanchan · 18 ديسمبر 2020، 7:08ص

@tgxworld لست متأكداً من فهمي الصحيح، فـ PGroonga لا يدعم اللغتين الصينية واليابانية. في https://pgroonga.github.io/،

يدعم PostgreSQL البحث النصي الكامل للغات التي تستخدم الأحرف الأبجدية والأرقام فقط. وهذا يعني أن PostgreSQL لا يدعم البحث النصي الكامل للغات مثل اليابانية والصينية وما إلى ذلك. يمكنك استخدام ميزة البحث النصي الكامل فائقة السرعة لجميع اللغات من خلال تثبيت PGroonga في PostgreSQL!

yiksanchan · 18 ديسمبر 2020، 7:21ص

@tgxworld لقد قمت بإنشاء طلب سحب (PR) بناءً على اقتراحك FIX: keep chinese stopwords on search by t0t07 · Pull Request #11530 · discourse/discourse · GitHub

riking · 18 ديسمبر 2020، 8:06م

المعنى هو عكس ذلك تمامًا. لا يدعم PostgreSQL العادي اللغتين الصينية واليابانية. أما PGroonga فيضيف دعمًا لتلك اللغات.

yiksanchan · 18 ديسمبر 2020، 8:14م

بالمناسبة @riking، للتأكيد فقط، هل يستخدم discourse حاليًا بحث النص الكامل عبر دوال PostgreSQL المدمجة كما هو موضح في discourse/lib/search.rb at 1cf057fb1c4e168ce441ddde918636725abeb668 · discourse/discourse · GitHub

هل هذا صحيح؟

tgxworld · 21 ديسمبر 2020، 1:25ص

عذراً لعدم توضيحي أكثر في وقت سابق. إذا أردنا حقاً إصلاح هذا الأمر الآن، فيجب أن نضمن عدم إزالة كلمات التوقف الصينية من بيانات البحث، مع التأكد في الوقت نفسه من إزالة كلمات التوقف عند استخدامها كاستعلام بحث.

yiksanchan · 21 ديسمبر 2020، 1:37ص

@tgxworld لا أفهم الفرق بين بيانات البحث واستعلام البحث. هل يمكنك تقديم المزيد من التفاصيل؟ شكراً

sam · 21 ديسمبر 2020، 1:46ص

إذا أضفنا كلمات التوقف إلى الفهرس، فإن ذلك يؤدي إلى تضخمه ويؤثر سلبًا على أداء البحث

tgxworld · 21 ديسمبر 2020، 3:01ص

github.com/discourse/discourse

app/models/post_search_data.rb

d2a046218


      
          #  search_data     :tsvector
          #  raw_data        :text

يوجد عمودان نقوم بتخزينهما في جدول PostSearchData، حيث يُستخدم #search_data عند الاستعلام مقابل مصطلحات البحث. أما #raw_data فهو ما نستخدمه عند عرض مقتطف البحث. يجب أن يتمثل الإصلاح هنا في عدم إزالة كلمات التوقف الصينية من #raw_data بينما تُزال من #search_data.

th21 · 6 مايو 2021، 5:02ص

هل هناك أي تقدم في إصلاح هذه الأخطاء؟

sam · 20 مايو 2021، 5:50ص

ظننت أنني قمت ببعض التغييرات هنا:

github.com/discourse/discourse

lib/search.rb

626b8465b


      
          def self.segment_cjk?
            ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) ||
              SiteSetting.search_tokenize_chinese_japanese_korean
          end

هل لغة موقعك مضبوطة على zh_TW أو zh_CN أو ja؟ إذا لم تكن كذلك، فهل تم تعيين search_tokenize_chinese_japanese_korean إلى true؟

لدينا تجاوز هنا:

github.com/discourse/discourse

lib/search/grouped_search_results.rb

626b8465b


      
          if post.post_search_data.version > SearchIndexer::MIN_POST_REINDEX_VERSION && !Search.segment_cjk?
            if SiteSetting.use_pg_headlines_for_excerpt
              scrubbed_headline = post.headline.gsub(SCRUB_HEADLINE_REGEXP, '\1')
              prefix_omission = scrubbed_headline.start_with?(post.leading_raw_data) ? '' : OMISSION
              postfix_omission = scrubbed_headline.end_with?(post.trailing_raw_data) ? '' : OMISSION
              return "#{prefix_omission}#{post.headline}#{postfix_omission}"
            else
              opts[:cooked] = post.post_search_data.raw_data
              opts[:scrub] = false
            end
          else
            opts[:cooked] = post.cooked
          end
          
          GroupedSearchResults.blurb_for(**opts)

الموضوع		الردود	مرات العرض
Chinese searching is broken Bug	4	1020	12 أكتوبر 2016
Searching Chinese terms in middle of sentence Feature	24	3548	4 ديسمبر 2025
Chinese search doesn't work to some words Support	15	1750	31 أكتوبر 2021
What's the word tokenizer for different languages in discourse? Support	1	633	27 مايو 2020
Korean words can't be searched Support	36	1699	22 نوفمبر 2020

مقتطفات البحث الصينية تبدو معطلة

الموضوعات ذات الصلة