يبدو أن عمود word_count في Post و Topic يتم حسابه مباشرة باستخدام عدد المسافات، وهو أمر غير مناسب تمامًا للغات مثل الصينية واليابانية والكورية التي لا تستخدم المسافات.
هذه ليست مشكلة كبيرة لأن word_count نادرًا ما يتم استخدامه، ولكني واجهت مشكلة في AI summary backfill minimum word count. سيتم استبعاد المشاركات الصينية الطويلة، ولكن سيتم تلخيص المشاركات القصيرة المختلطة باللغة الصينية والإنجليزية (مع الكثير من المسافات).
أعتقد أنه يجب علينا استخدام مقسم كلمات يدعم لغات متعددة، أو ببساطة استخدام عدد الأحرف في شيء مثل AI summary backfill minimum word count.
حسنًا، إذا كنا أذكياء بشأن خط الأنابيب الخاص بنا، فيمكننا استخدام cppjieba.
سيتطلب ذلك أن يتولى update_index! هذا الأمر:
عدد الأحرف هو على الأرجح أبسط شيء، نظرًا لأن قراءة كلمة bla أسرع بكثير من قراءة supercalifragilisticexpialidocious.
أتساءل عما إذا كان يمكنك تقديم طلب سحب (PR) يغير ذلك بحيث نعتمد على عدد الأحرف، ثم يمكننا قسمة عدد الأحرف على 4 على سبيل المثال للغة الإنجليزية و 2 للصينية؟ (عبر بعض الإعدادات)
بالنسبة للغة الصينية، يعد عدد الأحرف هو الطريقة الأكثر شيوعًا لقياس طول النص. من حيث التنفيذ، يمكننا استخدام تعبير عادي لتصفية الأحرف الصينية ثم عدها مباشرة. هذا النهج فعال بما فيه الكفاية ويتماشى مع عادات الاستخدام الصينية. على الرغم من أن تسميته word_count بدلاً من char_count قد تبدو مربكة بعض الشيء، ربما يمكننا توضيح هذه النقطة في وصف الإعدادات ذات الصلة.