CJK投稿の単語数カウントを改善するか、文字数を使用する

Post および Topicword_count 列は、スペースの数を直接使用して計算されているようですが、これはスペースを使用しない中国語、日本語、韓国語のような言語には全く適していません。

word_count はほとんど使用されないため、大きな問題ではありませんが、AI summary backfill minimum word count で問題が発生しました。長い中国語の投稿は除外されますが、スペースの多い中国語と英語が混在する短い投稿は要約されてしまいます。

多言語をサポートする単語セグメンターを使用するか、単に AI summary backfill minimum word count のようなもので文字数を使用することを検討すべきだと思います。

「いいね!」 2

例えば、データエクスプローラーでこの投稿の単語数をチェックすると、1つしかないことがわかります

例えば、データエクスプローラーでこの投稿の単語数をチェックすると、1つしかないことがわかります。

これは明らかに間違っており、read_time_word_count は単語数に依存するため、ユーザーの読書時間計算に影響を与えていた可能性があります。

もしパイプラインについて賢く考えれば、cppjieba を使うことができます。

これには、update_index! がこれを処理する必要があります。


文字数の方がおそらく最も簡単な方法でしょう。単語「bla」を読むのは、「supercalifragilisticexpialidocious」を読むよりもはるかに速いためです。

文字数に依存するように変更するプルリクエストを作成できるかどうか疑問に思っています。たとえば、英語の場合は文字数を 4 で割り、中国語の場合は 2 で割ることができますか?(何らかの設定を介して)

@lindsey これはあなたにとって興味深いトピックです。

「いいね!」 1

中国語の場合、文字数はテキストの長さを測定する最も一般的な方法です。実装としては、正規表現を使用して中国語の文字をフィルタリングし、直接カウントすることができます。このアプローチは十分に効率的であり、中国語の慣習にも合致しています。char_countではなくword_countと命名すると少し紛らわしいかもしれませんが、関連する設定の説明でこの点を明確にすることができます。

「いいね!」 1