La colonne word_count de Post et Topic semble être calculée directement en utilisant le nombre d’espaces, ce qui est totalement inapproprié pour des langues comme le chinois, le japonais et le coréen qui n’utilisent pas d’espaces.
Ce n’est pas un gros problème car word_count est rarement utilisé, mais j’ai rencontré des difficultés dans AI summary backfill minimum word count. Les longs articles en chinois seront filtrés, mais les articles courts contenant un mélange de chinois et d’anglais (avec beaucoup d’espaces) seront résumés.
Je pense que nous devrions utiliser un segmentateur de mots qui prend en charge plusieurs langues, ou simplement utiliser le nombre de caractères dans quelque chose comme AI summary backfill minimum word count.
Hmm, si nous sommes intelligents quant à notre pipeline, nous pourrions utiliser cppjieba.
Cela nécessiterait que update_index! s’occupe de cela :
Le nombre de caractères est probablement la chose la plus simple, étant donné que lire le mot bla est beaucoup plus rapide que de lire supercalifragilisticexpialidocious.
Je me demande si vous pouvez faire une PR qui change pour que nous nous basions sur le nombre de caractères, puis nous pouvons diviser le nombre de caractères par 4, disons pour l’anglais et par 2 pour le chinois ? (via un paramètre)
Pour le chinois, le nombre de caractères est la méthode la plus couramment utilisée pour mesurer la longueur du texte. En termes d’implémentation, nous pourrions utiliser une expression régulière pour filtrer les caractères chinois, puis les compter directement. Cette approche est suffisamment efficace et correspond aux habitudes d’utilisation chinoises. Bien que la nommer word_count au lieu de char_count puisse sembler un peu déroutant, nous pourrions peut-être clarifier ce point dans la description des paramètres pertinents.