Discourse、検索をもっと良くする必要がある

@Falco への可能なアプローチは、現在のものとは逆のアプローチかもしれません。

各トピックについて、20個程度のキーワードを抽出し/作成し、既存のキーワードの上に重ねていくというものです。

それが役に立つかどうか疑問です。

「いいね!」 3

私たちの関連性検索では、表示回数やページランクは考慮されていません。さらに複雑なことに、全期間の表示回数は非常に高くskewing stuffになる可能性があるため、それを修正するには年ごとの表示回数などが必要になるでしょう。

しかし…ページランクや表示回数/いいね数を考慮することで、はるかに優れた関連性アルゴリズムを考案できる可能性があります。

これは複雑な問題であり、数兆ドル規模の企業がこれらのアイデアに基づいて構築され、別の数兆ドル規模の企業が容易に追いつけない状況です。

「いいね!」 10

これで修正しました…#1になりました。

過去に@tgxworldと@JammyDodgerとこの問題について話し合いましたが、私たちはここで非常にまずい状況を作り出してしまいました。

簡単な回避策は、

すべての#pluginトピックを調べて、末尾に「Plugin」を追加することです。

Discourse Advertising Plugin
Discourse Chat Plugin
など…

タイトルが「勝ち」になるように、例えば

  • #pluginカテゴリの「Advertising」は、ランダムカテゴリの「Discourse Advertising Plugin question」に負けます。

カテゴリとタグを追加することで、タイトルのインデックスを「肥大化」させることができます。これはGoogleが実際に行っていることだと思います。

インデックス作成の代わりに:

第一優先「Discourse Advertising」
第二「plugin」
第三優先「content」

インデックス作成:

第一優先「Discourse Advertising - plugin tag1 tag2」

もちろん、回避策は次のように検索することです。

Plugin chat」…


参考までに…公式プラグインもすべて修正しておきましょう。数分しかかかりません。

「いいね!」 4

トピックへのリンク数を考慮に入れるのはどうでしょうか?

「いいね!」 2

はい、それがページランクです。私が言及したことです。

しかし、多くのトレードオフがあります。正確なタイトルの一致は、高いページランクよりも劣るべきでしょうか?

「いいね!」 2

いいえ。正確なタイトルを探すことが多いのですが、私はかなり特別です。「なぜ検索しなかったのですか」というリンクを探している場合、私はほとんどの場合、存在するものを探しています(多くの人にとって標準的なインストールから一歩離れたものです。数ヶ月間、「straightforward」ではもはや「Configure direct-delivery incoming email for self-hosted sites with Mail-Receiver」が見つからず、途方に暮れていましたが、最近リネームされたので「mail receiver」で機能するようになりました)。

ああ。今、あなたがそう言ったのがわかりました。

私が実際に探しているもので、探しているものが何かわからない場合、最も新しいものが一番良い結果をもたらします。

参考までに、私自身の(主に自分だけのための)サイトでは、比較的トピックや投稿が少ないため、検索はかなりうまく機能していると思います!

「いいね!」 4

これが正しい方法です。内部のものに過度の労力を費やす前に、テストすべき検索ツールはたくさんあります。内部検索を備えていて、この不満がないサイトを知りません。世界最大級のサイトの 1 つである Reddit でさえ、検索について批判されています。

「いいね!」 1

ユーザーの検索や閲覧中の行動(あるいは、例えばGoogleマップが行っているような問い合わせ)を相関させることで、Discourseはクエリの予測される結果に関する知識を内部的に生成できる可能性があります。

また、AIが会話を望ましい結果へと誘導するのに役立つかどうか疑問に思っています。そのような対話は、「結果に満足していません」と書かれたボタンから始めることができます。AIの役割は、結果の範囲を絞り込むか、適切に優先順位を付けるかのいずれかである質問をすることになります。

Typesenseプラグインは素晴らしいですね。

良いトピックですね!フォーラムの検索は本当に難しいもので、私の好みからするとGoogleを使うという解決策が少し頻繁に出てくる傾向があります。

同感です。古いトピックが検索結果を支配してほしくないですよね。
私自身の検索の期待から判断すると、最近のアクティブなスレッドで、タイトルとカテゴリが一致するものが最良の結果になると思います。さらに、最近のものが顕著な影響を与えることを好みます。なぜなら、私はしばしば漠然と覚えているものを検索することが多いからです。

残念ながら、これも真実です。個人的には、リンクがどれだけ関連性に貢献するか(要因にはなるでしょうが)さえ定かではありません。なぜなら、私が参加しているフォーラムでは、サポートや技術フォーラムのようなものではない場合、リンクは比較的まれだからです。
そのため、最近性やアクティビティ、つまり過去それほど遠くない期間でのビュー数、いいね/リアクション数、返信数をより重要視する傾向があります(これが現在の検索実装にも考慮されているかどうかはわかりませんが)。

「いいね!」 3

Redditが「hot」スコアに使用しているアルゴリズムを調べてみる価値があると思います。

math - Redditのランキングの数学的アルゴリズムはどこから来るのか、例として? - Stack Overflow

それは次のようなものです。

image

「いいね!」 1

:sob: :sob: :sob: :sob:

「いいね!」 5

同意します。参考までに、subscriptions #plugin の方が良いです。

はい。考えるな!

OPのクエリは、1年前と同じトピックが同じ順序で表示されます(このトピック自体が検索結果を汚染しているという例外を除いて…)

これは何らかの成果を上げましたか?

「いいね!」 4

Googleに頼りすぎるのは好きではありません。しかし、チームは遅かれ早かれ検索を改善する方法を見つけると確信しています。

「いいね!」 6

実験から多くのことを学びましたが、多くの時間を費やしていたため、他の優先事項に移行しました。

「いいね!」 6

実験の現在の状況を教えていただけますか?継続すべきでしょうか、それとも最初からやり直す必要がありますか?

コードを見て変更点を特定する経験があまりないので、簡単な要約で理解できれば十分です :slight_smile:

検索を中央集権化することで、Discourse はブログや同様のオンラインサービスが多いウェブサイトでより多くの露出を得られるはずです。

それが私たちの最初のユースケースです。検索バーでブログ記事について直接議論するためのフロントドアを提供できれば、価値が加わると思います。

「いいね!」 1

実験は廃止されましたが、再び表示される可能性があり、検索の改善には間違いなく関心があります

「いいね!」 1

それは知っておくと便利ですね、ありがとう!

新しいテクノロジーと私たちが経験している根本的な変化の可能性を最大限に引き出すためには、複数のアプリ(ウィキ、ブログ、ドキュメント、フォーラム)を横断するシンプルな検索を提供することが不可欠であると理解しています。

アルゴリアプラグインでアルゴリアに対応していますので、それを活用できます。

「いいね!」 1