ما هو المميز للكلمات (word tokenizer) للغات المختلفة في discourse؟

مرحباً، كنت أستخدم Discourse باللغة الصينية ووجدت أن العديد من الكلمات لا يتم تقسيمها بشكل جيد.

في جملة ما، لدينا العديد من الكلمات، ويحتاج الأمر إلى فصلها بشكل صحيح لدعم البحث بالكلمات المفتاحية والوظائف المهمة الأخرى.

مع ذلك، يجب أن أقول إنني أعتقد أن أداة تقسيم الكلمات الصينية في Discourse لا تعمل بشكل كافٍ.

هل هذه أداة تقسيم “قديمة”؟ هل يمكننا استبدالها بأدوات أحدث؟


إذا كنت تستطيع قراءة الكلمات الصينية، فإليك ملاحظاتي:

https://meta.discoursecn.org/t/topic/2414

نستخدم GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

وهو مبني على GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

قام @fantasticfears ببناء الـ gem الذي يمكّن Ruby من دعم هذه الميزة.

هل لاحظت أي مشكلات محددة تود معالجتها؟