Mejorar el cálculo de `word_count` para publicaciones CJK, o usar `char_count`

Lhc_fl · 24 Agosto, 2025 15:10

La columna word_count de Post y Topic parece calcularse directamente utilizando el número de espacios, lo cual es completamente inapropiado para idiomas como el chino, japonés y coreano que no usan espacios.

Esto no es un gran problema porque word_count rara vez se usa, pero encontré problemas en AI summary backfill minimum word count. Las publicaciones largas en chino serán filtradas, pero las publicaciones cortas con una mezcla de chino e inglés (con muchos espacios) serán resumidas.

Creo que deberíamos usar un segmentador de palabras que admita varios idiomas, o simplemente usar el recuento de caracteres en algo como AI summary backfill minimum word count.

Lhc_fl · 24 Agosto, 2025 15:10

Por ejemplo, si se comprueba el número de palabras de esta publicación en el Explorador de datos, se encontrará que solo hay una.

Lhc_fl · 24 Agosto, 2025 15:14

Por ejemplo, si revisas el recuento de palabras de esta publicación en el Explorador de Datos, encontrarás que solo hay una.

Esto está claramente mal y puede haber afectado el cálculo del tiempo de lectura del usuario, ya que read_time_word_count depende del recuento de palabras.

sam · 24 Agosto, 2025 23:37

Hmm, si somos inteligentes con nuestro pipeline podríamos usar cppjieba.

github.com/discourse/discourse

lib/search.rb

a8ed5b19f


      
          segments = CppjiebaRb.segment(match_data.to_s, mode: :mix)
          
          segments = CppjiebaRb.filter_stop_word(segments) if ts_config != "english"
          
          segments = segments.filter { |s| s.present? }
          segmented_data << segments.join(" ")

Requeriría que update_index! se encargara de esto:

github.com/discourse/discourse

app/services/search_indexer.rb

a8ed5b19f


      
          def self.update_index(table:, id:, a_weight: nil, b_weight: nil, c_weight: nil, d_weight: nil)

El recuento de caracteres es probablemente lo más sencillo, dado que leer la palabra bla es mucho más rápido que leer supercalifragilisticexpialidocious.

Me pregunto si puedes hacer alguna PR que cambie para que nos basemos en el recuento de caracteres, ¿entonces podemos dividir el recuento de caracteres por 4, digamos, para inglés y 2 para chino? (a través de alguna configuración)

@lindsey este es un tema interesante para ti.

pangbo · 25 Agosto, 2025 11:24

Para el chino, el recuento de caracteres es el método más comúnmente utilizado para medir la longitud del texto. En términos de implementación, podríamos usar una expresión regular para filtrar los caracteres chinos y luego contarlos directamente. Este enfoque es lo suficientemente eficiente y se alinea con los hábitos de uso chinos. Aunque llamarlo word_count en lugar de char_count podría parecer un poco confuso, quizás podríamos aclarar este punto en la descripción de la configuración relevante.

Tema		Respuestas	Vistas
How does the "read time word count" be handled on CJK characters? Support	0	34	23 Agosto 2024
What does posts.word_count column mean in the database? Support	5	1308	11 Enero 2016
Don't allow super long words if there is a word length maximum Support	4	2344	27 Mayo 2016
Chinese search excerpts appear broken Bug pr-welcome	17	1891	20 Mayo 2021
Average character count stats for user Feature	6	799	23 Abril 2018

Mejorar el cálculo de `word_count` para publicaciones CJK, o usar `char_count`

Temas relacionados