CJK投稿の単語数カウントを改善するか、文字数を使用する

Lhc_fl · 2025 年 8 月 24 日午後 3:10

Post および Topic の word_count 列は、スペースの数を直接使用して計算されているようですが、これはスペースを使用しない中国語、日本語、韓国語のような言語には全く適していません。

word_count はほとんど使用されないため、大きな問題ではありませんが、AI summary backfill minimum word count で問題が発生しました。長い中国語の投稿は除外されますが、スペースの多い中国語と英語が混在する短い投稿は要約されてしまいます。

多言語をサポートする単語セグメンターを使用するか、単に AI summary backfill minimum word count のようなもので文字数を使用することを検討すべきだと思います。

Lhc_fl · 2025 年 8 月 24 日午後 3:10

例えば、データエクスプローラーでこの投稿の単語数をチェックすると、1つしかないことがわかります

Lhc_fl · 2025 年 8 月 24 日午後 3:14

例えば、データエクスプローラーでこの投稿の単語数をチェックすると、1つしかないことがわかります。

これは明らかに間違っており、read_time_word_count は単語数に依存するため、ユーザーの読書時間計算に影響を与えていた可能性があります。

sam · 2025 年 8 月 24 日午後 11:37

もしパイプラインについて賢く考えれば、cppjieba を使うことができます。

github.com/discourse/discourse

lib/search.rb

a8ed5b19f


      
          segments = CppjiebaRb.segment(match_data.to_s, mode: :mix)
          
          segments = CppjiebaRb.filter_stop_word(segments) if ts_config != "english"
          
          segments = segments.filter { |s| s.present? }
          segmented_data << segments.join(" ")

これには、update_index! がこれを処理する必要があります。

github.com/discourse/discourse

app/services/search_indexer.rb

a8ed5b19f


      
          def self.update_index(table:, id:, a_weight: nil, b_weight: nil, c_weight: nil, d_weight: nil)

文字数の方がおそらく最も簡単な方法でしょう。単語「bla」を読むのは、「supercalifragilisticexpialidocious」を読むよりもはるかに速いためです。

文字数に依存するように変更するプルリクエストを作成できるかどうか疑問に思っています。たとえば、英語の場合は文字数を 4 で割り、中国語の場合は 2 で割ることができますか？（何らかの設定を介して）

@lindsey これはあなたにとって興味深いトピックです。

pangbo · 2025 年 8 月 25 日午前 11:24

中国語の場合、文字数はテキストの長さを測定する最も一般的な方法です。実装としては、正規表現を使用して中国語の文字をフィルタリングし、直接カウントすることができます。このアプローチは十分に効率的であり、中国語の慣習にも合致しています。char_countではなくword_countと命名すると少し紛らわしいかもしれませんが、関連する設定の説明でこの点を明確にすることができます。

トピック		返信	表示
How does the "read time word count" be handled on CJK characters? Support	0	23	2024 年 8 月 23 日
What does posts.word_count column mean in the database? Support	6	1285	2016 年 1 月 11 日
Don't allow super long words if there is a word length maximum Support	6	2319	2019 年 1 月 24 日
Chinese search excerpts appear broken Bug pr-welcome	17	1798	2021 年 5 月 20 日
Average character count stats for user Feature	6	770	2018 年 4 月 23 日

CJK投稿の単語数カウントを改善するか、文字数を使用する

関連トピック