تحسين حساب عدد الكلمات للمشاركات الصينية واليابانية والكورية، أو استخدام عدد الأحرف

Lhc_fl · 24 أغسطس 2025، 3:10م

يبدو أن عمود word_count في Post و Topic يتم حسابه مباشرة باستخدام عدد المسافات، وهو أمر غير مناسب تمامًا للغات مثل الصينية واليابانية والكورية التي لا تستخدم المسافات.

هذه ليست مشكلة كبيرة لأن word_count نادرًا ما يتم استخدامه، ولكني واجهت مشكلة في AI summary backfill minimum word count. سيتم استبعاد المشاركات الصينية الطويلة، ولكن سيتم تلخيص المشاركات القصيرة المختلطة باللغة الصينية والإنجليزية (مع الكثير من المسافات).

أعتقد أنه يجب علينا استخدام مقسم كلمات يدعم لغات متعددة، أو ببساطة استخدام عدد الأحرف في شيء مثل AI summary backfill minimum word count.

Lhc_fl · 24 أغسطس 2025، 3:10م

على سبيل المثال، إذا قمت بفحص عدد الكلمات في هذه المشاركة في مستكشف البيانات، ستجد أنها كلمة واحدة فقط

Lhc_fl · 24 أغسطس 2025، 3:14م

على سبيل المثال، إذا قمت بفحص عدد الكلمات في هذا المنشور في مستكشف البيانات، فستجد أنه واحد فقط

(translation: for example, if you check the word count of this post in the Data Explorer, you will find that there is only one)

هذا خطأ واضح وقد يكون أثر على حساب وقت قراءة المستخدم، بما أن read_time_word_count يعتمد على عدد الكلمات.

sam · 24 أغسطس 2025، 11:37م

حسنًا، إذا كنا أذكياء بشأن خط الأنابيب الخاص بنا، فيمكننا استخدام cppjieba.

github.com/discourse/discourse

lib/search.rb

a8ed5b19f


      
          segments = CppjiebaRb.segment(match_data.to_s, mode: :mix)
          
          segments = CppjiebaRb.filter_stop_word(segments) if ts_config != "english"
          
          segments = segments.filter { |s| s.present? }
          segmented_data << segments.join(" ")

سيتطلب ذلك أن يتولى update_index! هذا الأمر:

github.com/discourse/discourse

app/services/search_indexer.rb

a8ed5b19f


      
          def self.update_index(table:, id:, a_weight: nil, b_weight: nil, c_weight: nil, d_weight: nil)

عدد الأحرف هو على الأرجح أبسط شيء، نظرًا لأن قراءة كلمة bla أسرع بكثير من قراءة supercalifragilisticexpialidocious.

أتساءل عما إذا كان يمكنك تقديم طلب سحب (PR) يغير ذلك بحيث نعتمد على عدد الأحرف، ثم يمكننا قسمة عدد الأحرف على 4 على سبيل المثال للغة الإنجليزية و 2 للصينية؟ (عبر بعض الإعدادات)

@lindsey هذا موضوع مثير للاهتمام بالنسبة لك.

pangbo · 25 أغسطس 2025، 11:24ص

بالنسبة للغة الصينية، يعد عدد الأحرف هو الطريقة الأكثر شيوعًا لقياس طول النص. من حيث التنفيذ، يمكننا استخدام تعبير عادي لتصفية الأحرف الصينية ثم عدها مباشرة. هذا النهج فعال بما فيه الكفاية ويتماشى مع عادات الاستخدام الصينية. على الرغم من أن تسميته word_count بدلاً من char_count قد تبدو مربكة بعض الشيء، ربما يمكننا توضيح هذه النقطة في وصف الإعدادات ذات الصلة.

الموضوع		الردود	مرات العرض
How does the "read time word count" be handled on CJK characters? Support	0	34	23 أغسطس 2024
What does posts.word_count column mean in the database? Support	5	1308	11 يناير 2016
Don't allow super long words if there is a word length maximum Support	4	2344	27 مايو 2016
Chinese search excerpts appear broken Bug pr-welcome	17	1891	20 مايو 2021
Average character count stats for user Feature	6	799	23 أبريل 2018

تحسين حساب عدد الكلمات للمشاركات الصينية واليابانية والكورية، أو استخدام عدد الأحرف

الموضوعات ذات الصلة