تحسين حساب عدد الكلمات للمشاركات الصينية واليابانية والكورية، أو استخدام عدد الأحرف

يبدو أن عمود word_count في Post و Topic يتم حسابه مباشرة باستخدام عدد المسافات، وهو أمر غير مناسب تمامًا للغات مثل الصينية واليابانية والكورية التي لا تستخدم المسافات.

هذه ليست مشكلة كبيرة لأن word_count نادرًا ما يتم استخدامه، ولكني واجهت مشكلة في AI summary backfill minimum word count. سيتم استبعاد المشاركات الصينية الطويلة، ولكن سيتم تلخيص المشاركات القصيرة المختلطة باللغة الصينية والإنجليزية (مع الكثير من المسافات).

أعتقد أنه يجب علينا استخدام مقسم كلمات يدعم لغات متعددة، أو ببساطة استخدام عدد الأحرف في شيء مثل AI summary backfill minimum word count.

إعجابَين (2)

على سبيل المثال، إذا قمت بفحص عدد الكلمات في هذه المشاركة في مستكشف البيانات، ستجد أنها كلمة واحدة فقط

على سبيل المثال، إذا قمت بفحص عدد الكلمات في هذا المنشور في مستكشف البيانات، فستجد أنه واحد فقط

(translation: for example, if you check the word count of this post in the Data Explorer, you will find that there is only one)

هذا خطأ واضح وقد يكون أثر على حساب وقت قراءة المستخدم، بما أن read_time_word_count يعتمد على عدد الكلمات.

حسنًا، إذا كنا أذكياء بشأن خط الأنابيب الخاص بنا، فيمكننا استخدام cppjieba.

سيتطلب ذلك أن يتولى update_index! هذا الأمر:


عدد الأحرف هو على الأرجح أبسط شيء، نظرًا لأن قراءة كلمة bla أسرع بكثير من قراءة supercalifragilisticexpialidocious.

أتساءل عما إذا كان يمكنك تقديم طلب سحب (PR) يغير ذلك بحيث نعتمد على عدد الأحرف، ثم يمكننا قسمة عدد الأحرف على 4 على سبيل المثال للغة الإنجليزية و 2 للصينية؟ (عبر بعض الإعدادات)

@lindsey هذا موضوع مثير للاهتمام بالنسبة لك.

إعجاب واحد (1)

بالنسبة للغة الصينية، يعد عدد الأحرف هو الطريقة الأكثر شيوعًا لقياس طول النص. من حيث التنفيذ، يمكننا استخدام تعبير عادي لتصفية الأحرف الصينية ثم عدها مباشرة. هذا النهج فعال بما فيه الكفاية ويتماشى مع عادات الاستخدام الصينية. على الرغم من أن تسميته word_count بدلاً من char_count قد تبدو مربكة بعض الشيء، ربما يمكننا توضيح هذه النقطة في وصف الإعدادات ذات الصلة.

إعجاب واحد (1)