Melhorar cálculo de contagem de palavras para posts CJK, ou usar contagem de caracteres

Lhc_fl · Agosto 24, 2025, 3:10pm

A coluna word_count de Post e Topic parece ser calculada diretamente usando o número de espaços, o que é completamente inadequado para idiomas como chinês, japonês e coreano que não usam espaços.

Este não é um grande problema porque word_count é raramente usado, mas encontrei problemas em AI summary backfill minimum word count. Posts longos em chinês serão filtrados, mas posts curtos com uma mistura de chinês e inglês (com muitos espaços) serão resumidos.

Eu acho que deveríamos usar um segmentador de palavras que suporte múltiplos idiomas, ou simplesmente usar a contagem de caracteres em algo como AI summary backfill minimum word count.

Lhc_fl · Agosto 24, 2025, 3:10pm

Por exemplo, se você verificar a contagem de palavras desta postagem no Explorador de Dados, descobrirá que há apenas uma.

Lhc_fl · Agosto 24, 2025, 3:14pm

Por exemplo, se você verificar a contagem de palavras desta postagem no Explorador de Dados, descobrirá que há apenas uma

Isso está claramente errado e pode ter afetado o cálculo do tempo de leitura do usuário, já que read_time_word_count depende da contagem de palavras.

sam · Agosto 24, 2025, 11:37pm

Hmm, se formos inteligentes sobre nosso pipeline, poderíamos usar cppjieba.

github.com/discourse/discourse

lib/search.rb

a8ed5b19f


      
          segments = CppjiebaRb.segment(match_data.to_s, mode: :mix)
          
          segments = CppjiebaRb.filter_stop_word(segments) if ts_config != "english"
          
          segments = segments.filter { |s| s.present? }
          segmented_data << segments.join(" ")

Isso exigiria que update_index! cuidasse disso:

github.com/discourse/discourse

app/services/search_indexer.rb

a8ed5b19f


      
          def self.update_index(table:, id:, a_weight: nil, b_weight: nil, c_weight: nil, d_weight: nil)

A contagem de caracteres é provavelmente a coisa mais simples, dado que ler a palavra bla é muito mais rápido do que ler supercalifragilisticexpialidocious.

Eu me pergunto se você pode fazer um PR que mude para que confiemos na contagem de caracteres, então podemos dividir a contagem de caracteres por 4, digamos, para inglês e 2 para chinês? (através de alguma configuração)

@lindsey este é um tópico interessante para você.

pangbo · Agosto 25, 2025, 11:24am

Para o chinês, a contagem de caracteres é o método mais comumente usado para medir o comprimento do texto. Em termos de implementação, poderíamos usar uma expressão regular para filtrar caracteres chineses e, em seguida, contá-los diretamente. Essa abordagem é eficiente o suficiente e está alinhada com os hábitos de uso chineses. Embora chamá-lo de word_count em vez de char_count possa parecer um pouco confuso, talvez possamos esclarecer esse ponto na descrição das configurações relevantes.

Tópico		Respostas	Visualizações
How does the "read time word count" be handled on CJK characters? Support	0	23	23 de Agosto de 2024
What does posts.word_count column mean in the database? Support	6	1285	11 de Janeiro de 2016
Don't allow super long words if there is a word length maximum Support	6	2319	24 de Janeiro de 2019
Chinese search excerpts appear broken Bug pr-welcome	17	1797	20 de Maio de 2021
Average character count stats for user Feature	6	770	23 de Abril de 2018

Melhorar cálculo de contagem de palavras para posts CJK, ou usar contagem de caracteres

Tópicos relacionados