Améliorer le calcul du nombre de mots pour les publications CJK, ou utiliser le nombre de caractères

La colonne word_count de Post et Topic semble être calculée directement en utilisant le nombre d’espaces, ce qui est totalement inapproprié pour des langues comme le chinois, le japonais et le coréen qui n’utilisent pas d’espaces.

Ce n’est pas un gros problème car word_count est rarement utilisé, mais j’ai rencontré des difficultés dans AI summary backfill minimum word count. Les longs articles en chinois seront filtrés, mais les articles courts contenant un mélange de chinois et d’anglais (avec beaucoup d’espaces) seront résumés.

Je pense que nous devrions utiliser un segmentateur de mots qui prend en charge plusieurs langues, ou simplement utiliser le nombre de caractères dans quelque chose comme AI summary backfill minimum word count.

2 « J'aime »

Par exemple, si vous vérifiez le nombre de mots de ce message dans l’explorateur de données, vous constaterez qu’il n’y en a qu’un seul.

Par exemple, si vous vérifiez le nombre de mots de ce message dans l’Explorateur de données, vous constaterez qu’il n’y en a qu’un seul.

Ceci est clairement erroné et a pu affecter le calcul du temps de lecture de l’utilisateur, puisque read_time_word_count dépend du nombre de mots.

Hmm, si nous sommes intelligents quant à notre pipeline, nous pourrions utiliser cppjieba.

Cela nécessiterait que update_index! s’occupe de cela :


Le nombre de caractères est probablement la chose la plus simple, étant donné que lire le mot bla est beaucoup plus rapide que de lire supercalifragilisticexpialidocious.

Je me demande si vous pouvez faire une PR qui change pour que nous nous basions sur le nombre de caractères, puis nous pouvons diviser le nombre de caractères par 4, disons pour l’anglais et par 2 pour le chinois ? (via un paramètre)

@lindsey c’est un sujet intéressant pour vous.

1 « J'aime »

Pour le chinois, le nombre de caractères est la méthode la plus couramment utilisée pour mesurer la longueur du texte. En termes d’implémentation, nous pourrions utiliser une expression régulière pour filtrer les caractères chinois, puis les compter directement. Cette approche est suffisamment efficace et correspond aux habitudes d’utilisation chinoises. Bien que la nommer word_count au lieu de char_count puisse sembler un peu déroutant, nous pourrions peut-être clarifier ce point dans la description des paramètres pertinents.

1 « J'aime »