Hmm, se formos inteligentes sobre nosso pipeline, poderíamos usar cppjieba.
Isso exigiria que update_index! cuidasse disso:
A contagem de caracteres é provavelmente a coisa mais simples, dado que ler a palavra bla é muito mais rápido do que ler supercalifragilisticexpialidocious.
Eu me pergunto se você pode fazer um PR que mude para que confiemos na contagem de caracteres, então podemos dividir a contagem de caracteres por 4, digamos, para inglês e 2 para chinês? (através de alguma configuração)
@lindsey este é um tópico interessante para você.