Mejorar el cálculo de `word_count` para publicaciones CJK, o usar `char_count`

sam · 24 Agosto, 2025 23:37

Hmm, si somos inteligentes con nuestro pipeline podríamos usar cppjieba.

lib/search.rb

a8ed5b19f


      
          segments = CppjiebaRb.segment(match_data.to_s, mode: :mix)
          
          segments = CppjiebaRb.filter_stop_word(segments) if ts_config != "english"
          
          segments = segments.filter { |s| s.present? }
          segmented_data << segments.join(" ")

Requeriría que update_index! se encargara de esto:

github.com/discourse/discourse

app/services/search_indexer.rb

a8ed5b19f


      
          def self.update_index(table:, id:, a_weight: nil, b_weight: nil, c_weight: nil, d_weight: nil)

El recuento de caracteres es probablemente lo más sencillo, dado que leer la palabra bla es mucho más rápido que leer supercalifragilisticexpialidocious.

Me pregunto si puedes hacer alguna PR que cambie para que nos basemos en el recuento de caracteres, ¿entonces podemos dividir el recuento de caracteres por 4, digamos, para inglés y 2 para chino? (a través de alguna configuración)

@lindsey este es un tema interesante para ti.

Tema		Respuestas	Vistas
How does the "read time word count" be handled on CJK characters? Support	0	29	23 Agosto 2024
What does posts.word_count column mean in the database? Support	5	1307	11 Enero 2016
Don't allow super long words if there is a word length maximum Support	4	2342	27 Mayo 2016
Chinese search excerpts appear broken Bug pr-welcome	17	1878	20 Mayo 2021
Average character count stats for user Feature	6	787	23 Abril 2018

Mejorar el cálculo de `word_count` para publicaciones CJK, o usar `char_count`

Temas relacionados