עמודת word_count של Post ו-Topic מחושבת ישירות באמצעות מספר הרווחים, דבר שאינו מתאים כלל לשפות כמו סינית, יפנית וקוריאנית שאינן משתמשות ברווחים.
זו אינה בעיה גדולה מכיוון ש-word_count משמשת לעתים רחוקות, אך נתקלתי בבעיה ב-AI summary backfill minimum word count. פוסטים סיניים ארוכים מסוננים החוצה, אך פוסטים קצרים המשלבים סינית ואנגלית (עם הרבה רווחים) מסוכמים.
אני חושב שעלינו להשתמש במחלק מילים התומך במספר שפות, או פשוט להשתמש בספירת תווים במשהו כמו AI summary backfill minimum word count.
Hmm, if we are smart about our pipeline we could use cppjieba.
It would require that update_index! would take care of this:
char count is probably the simplest thing though, given that reading the word bla is far faster than reading supercalifragilisticexpialidocious
I wonder if you can make some PR that changes so we lean on char count, then we can divide char count by 4 say for English and 2 for Chinese? (via some setting)
עבור סינית, ספירת תווים היא השיטה הנפוצה ביותר למדידת אורך טקסט. מבחינת יישום, נוכל להשתמש בביטוי רגולרי כדי לסנן תווים סיניים ואז לספור אותם ישירות. גישה זו יעילה מספיק ומתאימה להרגלי השימוש הסיניים. למרות שקריאתה word_count במקום char_count עשויה להיראות מעט מבלבלת, אולי נוכל להבהיר נקודה זו בתיאור של ההגדרות הרלוונטיות.