Hmm, si nous sommes intelligents quant à notre pipeline, nous pourrions utiliser cppjieba.
Cela nécessiterait que update_index! s’occupe de cela :
Le nombre de caractères est probablement la chose la plus simple, étant donné que lire le mot bla est beaucoup plus rapide que de lire supercalifragilisticexpialidocious.
Je me demande si vous pouvez faire une PR qui change pour que nous nous basions sur le nombre de caractères, puis nous pouvons diviser le nombre de caractères par 4, disons pour l’anglais et par 2 pour le chinois ? (via un paramètre)
@lindsey c’est un sujet intéressant pour vous.