Melhorar cálculo de contagem de palavras para posts CJK, ou usar contagem de caracteres

A coluna word_count de Post e Topic parece ser calculada diretamente usando o número de espaços, o que é completamente inadequado para idiomas como chinês, japonês e coreano que não usam espaços.

Este não é um grande problema porque word_count é raramente usado, mas encontrei problemas em AI summary backfill minimum word count. Posts longos em chinês serão filtrados, mas posts curtos com uma mistura de chinês e inglês (com muitos espaços) serão resumidos.

Eu acho que deveríamos usar um segmentador de palavras que suporte múltiplos idiomas, ou simplesmente usar a contagem de caracteres em algo como AI summary backfill minimum word count.

2 curtidas

Por exemplo, se você verificar a contagem de palavras desta postagem no Explorador de Dados, descobrirá que há apenas uma.

Por exemplo, se você verificar a contagem de palavras desta postagem no Explorador de Dados, descobrirá que há apenas uma

Isso está claramente errado e pode ter afetado o cálculo do tempo de leitura do usuário, já que read_time_word_count depende da contagem de palavras.

Hmm, se formos inteligentes sobre nosso pipeline, poderíamos usar cppjieba.

Isso exigiria que update_index! cuidasse disso:


A contagem de caracteres é provavelmente a coisa mais simples, dado que ler a palavra bla é muito mais rápido do que ler supercalifragilisticexpialidocious.

Eu me pergunto se você pode fazer um PR que mude para que confiemos na contagem de caracteres, então podemos dividir a contagem de caracteres por 4, digamos, para inglês e 2 para chinês? (através de alguma configuração)

@lindsey este é um tópico interessante para você.

1 curtida

Para o chinês, a contagem de caracteres é o método mais comumente usado para medir o comprimento do texto. Em termos de implementação, poderíamos usar uma expressão regular para filtrar caracteres chineses e, em seguida, contá-los diretamente. Essa abordagem é eficiente o suficiente e está alinhada com os hábitos de uso chineses. Embora chamá-lo de word_count em vez de char_count possa parecer um pouco confuso, talvez possamos esclarecer esse ponto na descrição das configurações relevantes.

1 curtida