Улучшить подсчет word_count для постов на CJK языках или использовать подсчет символов

Lhc_fl · 24.Август.2025 15:10:01

Колонка word_count в таблицах Post и Topic, по-видимому, рассчитывается напрямую на основе количества пробелов, что совершенно неприемлемо для языков, таких как китайский, японский и корейский, где пробелы не используются.

Это не является большой проблемой, поскольку word_count используется редко, но я столкнулся с трудностями в функции AI summary backfill minimum word count. Длинные посты на китайском языке будут отфильтровываться, тогда как короткие посты со смешанным китайским и английским языком (с множеством пробелов) будут суммироваться.

Я считаю, что нам следует использовать сегментатор слов, поддерживающий несколько языков, или просто использовать подсчет символов в таких функциях, как AI summary backfill minimum word count.

Lhc_fl · 24.Август.2025 15:10:35

Например, если проверить количество слов в этом сообщении в диспетчере данных, окажется, что там всего одно слово.

Lhc_fl · 24.Август.2025 15:14:46

Например, если проверить количество слов в этом посте в Data Explorer, окажется, что там всего одно слово.

Это явно неверно и могло влиять на расчёт времени чтения пользователя, так как read_time_word_count зависит от количества слов.

sam · 24.Август.2025 23:37:52

Хм, если мы будем умны в отношении нашего пайплайна, мы могли бы использовать cppjieba.

github.com/discourse/discourse

lib/search.rb

a8ed5b19f


      
          segments = CppjiebaRb.segment(match_data.to_s, mode: :mix)
          
          segments = CppjiebaRb.filter_stop_word(segments) if ts_config != "english"
          
          segments = segments.filter { |s| s.present? }
          segmented_data << segments.join(" ")

Для этого потребовалось бы, чтобы метод update_index! занимался этим:

github.com/discourse/discourse

app/services/search_indexer.rb

a8ed5b19f


      
          def self.update_index(table:, id:, a_weight: nil, b_weight: nil, c_weight: nil, d_weight: nil)

Подсчёт символов, вероятно, самое простое решение, учитывая, что чтение слова bla происходит гораздо быстрее, чем чтение supercalifragilisticexpialidocious.

Интересно, можно ли создать PR, который изменит логику так, чтобы мы опирались на подсчёт символов? Тогда мы могли бы делить количество символов на 4, скажем, для английского языка, и на 2 для китайского (через какое-то настройку).

@lindsey, это интересная тема для тебя.

pangbo · 25.Август.2025 11:24:46

Для китайского языка подсчёт количества иероглифов является наиболее распространённым методом измерения длины текста. С точки зрения реализации мы можем использовать регулярное выражение для фильтрации китайских иероглифов, а затем подсчитать их количество. Такой подход достаточно эффективен и соответствует привычкам использования китайского языка. Хотя название word_count вместо char_count может показаться немного запутанным, возможно, мы могли бы прояснить этот момент в описании соответствующих настроек.

Тема		Ответов	Просм.
How does the "read time word count" be handled on CJK characters? Support	0	34	23.08.2024
What does posts.word_count column mean in the database? Support	5	1308	11.01.2016
Don't allow super long words if there is a word length maximum Support	4	2344	27.05.2016
Chinese search excerpts appear broken Bug pr-welcome	17	1887	20.05.2021
Average character count stats for user Feature	6	798	23.04.2018

Улучшить подсчет word_count для постов на CJK языках или использовать подсчет символов

Связанные темы