スクリーンを消磁してください、Discourse Rewind 2025が到着しました 💾

単語の使用状況はどのように計算されますか?ユーザーから見られる情報によると、以下が含まれているようです。

  • ユーザーが作成したトピックでなくても、各投稿のトピックとカテゴリのタイトル。数人のユーザーの上位5語に「shenanigans」、「Dice」、「Mongerer」が入っています。これらは、投稿が大量にあるカテゴリやスレッドですが、スレッドの内容や他の場所でその単語がそれほど使われているわけではありません。
  • 絵文字のタイトル - ユーザーがすべての投稿に:musical_keyboard:を追加します。「Musical」と「Keyboard」が上位5語に入っていました。
「いいね!」 2

検索データを使用してユーザーの投稿を見つけ、そのデータにはタイトルとカテゴリが追加されます…そして絵文字は :musical_keyboard: (そのマークダウン参照) から「musical」と「keyboard」に処理される可能性があります。

これらの問題を避けるためには、追加の処理を行うか、投稿データに対して別のソースを使用する必要があると思います…カテゴリのケースは、人々が同じカテゴリで多くの短い投稿(または画像のみの投稿)を行うサイトで発生する可能性が高くなります。なぜなら、その場合、カテゴリが他の投稿コンテンツと比較して非常に頻繁に表示されるからです。

「いいね!」 1

はい、これらの単語頻度の結果には何か非常に問題があります。「useful」は私にとって上位5つの珍しい単語の1つです。しかし、私はこの単語を一度も使っていないようです。検索してみましたが、「results」がたくさん表示され、その上位3つにはその単語すら含まれていません。また、discobotのサイドバーには次のように記載されています。

検索で「@Ed_S useful」に直接一致する結果はないようです。

何か過度に積極的なステミングやファジーマッチングが行われているのでしょうか?

「いいね!」 1