過去の話題を発見:湖をストローで飲む

TL;DR: トピックの最後に(最新のものだけでなく)ランダムなトピックのセレクションを追加するプラグインや設定はありますか?これにより、ログインしていない場合でも、クローラーが古いトピックをすべて発見できるようになります。

古いフォーラムを現在のフォーラムにマージした結果、興味深い「サーフェス可能性」/発見可能性の問題が発生しました。

カテゴリビューや最新ビューでは、最新のトピックしか表示されません。湖の表面のようです。ビューには限られた数の投稿しか含まれず、無限スクロールでは「深く」行くのが困難です。

複数のカテゴリがあると「わら」(範囲)が広がりますが、たとえば50のカテゴリがあり、100まで深く見ても、それはまだ5000トピックの深さにすぎません。

アクセス可能なのはトピックの1〜2%だけで、残りは表面下に隠されています。

sitemaps.xmlが役立つかと思いましたが、デフォルト設定ではごくわずかなトピックしか公開されません。

コンテンツの大部分は、クローラーから事実上ブロックされています。

トピックの最後に(最新のものだけでなく)ランダムなトピックのセレクションを追加するプラグインや設定はありますか?これにより、ログインしていない場合でも、クローラーが古いトピックをすべて発見できるようになります。

「いいね!」 1

クローラーはサイトマップを使用すべきです。ランダムにスクレイピングするのではなく。

「いいね!」 2

古いトピックを更新することを検討しましたか?プラグインなどを作成せずに、古いトピックを再浮上させる簡単な方法のように思えます。

カテゴリ設定でこれらの設定を見つけることができます。

これは、古いトピックを元に戻し、最新の情報で「更新」したり「クローズ」したりできるため、ここメタではうまく機能します。コンテンツをキュレーションする良い方法でもあります。これは2020年の更新された例です。

「いいね!」 1

システムの「バンプ」が良いかどうかは好みの問題です。あるいは、人間ではなくボットのために行われているのかどうか。

ここでは、トピックが「バンプ」されると非常にイライラします。閉鎖する必要がないのに、古いトピックを見なければならない理由がわかりません。

「いいね!」 1

待って…何だって?どうしてそう思うのですか?

生成されたサイトマップを確認したところ、sitemap_1.xml には半月分の投稿しか含まれていませんでした。sitemap_recent.xml にはさらに少ないです。

sitemap_2.xmlなどは確認しましたか?

だからこそ、名前に「recent」という言葉が入っているのです。

それが問題です。sitemap_1.xml以外のサイトマップページはなく、そのページには設定で指定された最大10kのURLよりも少ないURLしか含まれていません。

わかっています。そのファイルを参照しているのではないかと人が思う場合に備えて、言及しておきます。

何らかの方法でサイトマップの生成を再トリガーできるかどうか見てみましょう。

そして、それらの不足しているトピックはすべて公開されていますか?フォーラムについて投稿またはプライベートメッセージで教えていただけますか?

ほとんどのトピックは公開されています。

sitemap_1 には最大 10,000 件の URL が含まれており(約 1 時間前に生成)、他のサイトマップページはありません。次のスケジュールされた生成が行われるまで 15 分待って、他のサイトマップが表示されるか確認します。

Sidekiq でサイトマップの再生成ジョブが実行されたことは確認できましたが、なぜ sitemap_1.xml のみが生成され、他のページが生成されないのかは不明です。

Jobs::RegenerateSitemaps 48 minutes ago OK 257ms in 11 minutes default

11 分後にスケジュールされている再生成ジョブで問題が解決しない場合は、フォーラムへのリンクをプライベートメッセージでお送りできます。また、URL 数を 50,000 件に増やしたので、それ以上のページが生成されなくても、その 1 ページだけでも URL 数が 5 倍になります。

編集:アップデートです。ジョブが実行され、新しくより大きな 50,000 件の URL を含むサイトマップが作成されましたが、今回も 1 ページのみでした。

編集 2:少し落ち着いたので報告します。追加のサイトマップページが最新のジョブで生成されました。以前のジョブで生成されなかった理由は不明です。

はい、しかし、バンピングは構造化されておらず、またしても薄い藁にすぎません。たとえ50のカテゴリで1日100件の投稿をバンピングしたとしても(それはフォーラムを役に立たないものにするでしょう。なぜなら、それはすべての最近のコンテンツを押し出すことになるからです)、それでもトピックの2%にしかなりません。

各スレッドの下部にある「おすすめトピック」のようなものを実装してみることはできますが、探索に傾けるために異なるアルゴリズムを使用します。

あなたは1つのことを回避しています。もし、以下の場合のみ、ブーストは役立ちます。

  • 役立つボットがその瞬間にスクレイピングしている
  • 役立つボットがそのようなリンクをたどる

ほとんどの場合、それは起こりません。得られるのは迷惑なユーザーだけです — それらのブーストが非JSバージョンでのみ発生しない限り。

しかし、1つの質問があります。サイトマップが壊れている可能性があるから、またはサイトマップを信頼していないから、これらすべてを行いたいのですか?

AI関連のトピックは、古いトピックを発見するのに最適な方法です。

「いいね!」 2

サイトマップがクローラーの問題を解決すると考えています。このスレッドでは、閲覧性や発見可能性を高める方法について別のトピックを開始しました: Easy ways to navigate and browse large categories? - #2 by Jagster

検索可能性とある程度の重複がありますが、少し異なります。

修正されたサイトマップの影響はすぐに現れました。

編集:AIによるキャプションが恐ろしいほど優れていることを付け加えておきます。グラフをうまく解釈してくれるとは予想していませんでした!

「いいね!」 1