Verbeter woord_aantal berekening voor CJK berichten, of gebruik teken_aantal

De word_count-kolom van Post en Topic lijkt direct te worden berekend met het aantal spaties, wat volkomen ongepast is voor talen zoals Chinees, Japans en Koreaans die geen spaties gebruiken.

Dit is geen groot probleem omdat word_count zelden wordt gebruikt, maar ik ondervond problemen bij AI summary backfill minimum word count. Lange Chinese berichten worden eruit gefilterd, maar korte berichten met gemengd Chinees en Engels (met veel spaties) worden samengevat.

Ik denk dat we een woordsegmenteerder moeten gebruiken die meerdere talen ondersteunt, of simpelweg het aantal tekens moeten gebruiken in iets als AI summary backfill minimum word count.

2 likes

Om een voorbeeld te geven, als je het aantal woorden in dit bericht zou controleren in de gegevensverkenner, zou je ontdekken dat er slechts één is

举个例子如果在数据资源管理器里检查这个帖子的单词数量会发现仅仅只有一个

(translation: for example, if you check the word count of this post in the Data Explorer, you will find that there is only one)

This is clearly wrong and may have been affecting the user’s reading time calculation, since read_time_word_count depends on word count.

Hmm, if we are smart about our pipeline we could use cppjieba.

It would require that update_index! would take care of this:


char count is probably the simplest thing though, given that reading the word bla is far faster than reading supercalifragilisticexpialidocious

I wonder if you can make some PR that changes so we lean on char count, then we can divide char count by 4 say for English and 2 for Chinese? (via some setting)

@lindsey this is an interesting topic for you.

1 like

Voor Chinees is het aantal tekens de meestgebruikte methode om tekstlengte te meten. Wat de implementatie betreft, zouden we een reguliere expressie kunnen gebruiken om Chinese tekens te filteren en ze vervolgens direct te tellen. Deze aanpak is efficiënt genoeg en sluit aan bij de Chinese gebruiksgewoonten. Hoewel het misschien een beetje verwarrend lijkt om het word_count te noemen in plaats van char_count, zouden we dit punt kunnen verduidelijken in de beschrijving van de relevante instellingen.

1 like