De word_count-kolom van Post en Topic lijkt direct te worden berekend met het aantal spaties, wat volkomen ongepast is voor talen zoals Chinees, Japans en Koreaans die geen spaties gebruiken.
Dit is geen groot probleem omdat word_count zelden wordt gebruikt, maar ik ondervond problemen bij AI summary backfill minimum word count. Lange Chinese berichten worden eruit gefilterd, maar korte berichten met gemengd Chinees en Engels (met veel spaties) worden samengevat.
Ik denk dat we een woordsegmenteerder moeten gebruiken die meerdere talen ondersteunt, of simpelweg het aantal tekens moeten gebruiken in iets als AI summary backfill minimum word count.
Hmm, if we are smart about our pipeline we could use cppjieba.
It would require that update_index! would take care of this:
char count is probably the simplest thing though, given that reading the word bla is far faster than reading supercalifragilisticexpialidocious
I wonder if you can make some PR that changes so we lean on char count, then we can divide char count by 4 say for English and 2 for Chinese? (via some setting)
Voor Chinees is het aantal tekens de meestgebruikte methode om tekstlengte te meten. Wat de implementatie betreft, zouden we een reguliere expressie kunnen gebruiken om Chinese tekens te filteren en ze vervolgens direct te tellen. Deze aanpak is efficiënt genoeg en sluit aan bij de Chinese gebruiksgewoonten. Hoewel het misschien een beetje verwarrend lijkt om het word_count te noemen in plaats van char_count, zouden we dit punt kunnen verduidelijken in de beschrijving van de relevante instellingen.