Улучшить подсчет word_count для постов на CJK языках или использовать подсчет символов

Хм, если мы будем умны в отношении нашего пайплайна, мы могли бы использовать cppjieba.

Для этого потребовалось бы, чтобы метод update_index! занимался этим:


Подсчёт символов, вероятно, самое простое решение, учитывая, что чтение слова bla происходит гораздо быстрее, чем чтение supercalifragilisticexpialidocious.

Интересно, можно ли создать PR, который изменит логику так, чтобы мы опирались на подсчёт символов? Тогда мы могли бы делить количество символов на 4, скажем, для английского языка, и на 2 для китайского (через какое-то настройку).

@lindsey, это интересная тема для тебя.

1 лайк