A coluna word_count de Post e Topic parece ser calculada diretamente usando o número de espaços, o que é completamente inadequado para idiomas como chinês, japonês e coreano que não usam espaços.
Este não é um grande problema porque word_count é raramente usado, mas encontrei problemas em AI summary backfill minimum word count. Posts longos em chinês serão filtrados, mas posts curtos com uma mistura de chinês e inglês (com muitos espaços) serão resumidos.
Eu acho que deveríamos usar um segmentador de palavras que suporte múltiplos idiomas, ou simplesmente usar a contagem de caracteres em algo como AI summary backfill minimum word count.
Hmm, se formos inteligentes sobre nosso pipeline, poderíamos usar cppjieba.
Isso exigiria que update_index! cuidasse disso:
A contagem de caracteres é provavelmente a coisa mais simples, dado que ler a palavra bla é muito mais rápido do que ler supercalifragilisticexpialidocious.
Eu me pergunto se você pode fazer um PR que mude para que confiemos na contagem de caracteres, então podemos dividir a contagem de caracteres por 4, digamos, para inglês e 2 para chinês? (através de alguma configuração)
Para o chinês, a contagem de caracteres é o método mais comumente usado para medir o comprimento do texto. Em termos de implementação, poderíamos usar uma expressão regular para filtrar caracteres chineses e, em seguida, contá-los diretamente. Essa abordagem é eficiente o suficiente e está alinhada com os hábitos de uso chineses. Embora chamá-lo de word_count em vez de char_count possa parecer um pouco confuso, talvez possamos esclarecer esse ponto na descrição das configurações relevantes.