検索エンジンが非正規ページをインデックス登録できなくなりました

noindex に関する Google ドキュメントからの追加情報です。


Crawl Budget Management For Large Sites | Google Search Central  |  Documentation  |  Google for Developers を参照してください。


How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers を参照してください。

How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers を参照してください。

「いいね!」 3

このコマンドは機能しないようです。今日、テストのために小規模なDiscourseサイトをアップデートし、コマンドを実行しましたが、依然としてnoindexヘッダーが表示されます。


編集:その設定がどのように機能するのかわかりませんが、少なくともブラウザコンソール(管理者として)からフロントエンドを見ると、SiteSettingsには表示されません。

var d = Discourse.SiteSettings;
document.body.innerHTML = `<pre>${JSON.stringify(d, null, 4)}</pre>`;

この設定はnoindexではなく、robots.txt用のように思われます。ほとんどのDiscourseサイトでは、これはすでにtrueになっているのではないでしょうか?

「いいね!」 2

おお、すみません、正しくは SiteSetting.allow_indexing_non_canonical_urls です。OPで修正しました。

「いいね!」 3

この変更に続く問題を分析し続け、以下に従ってロールバックを決定しました。

その背後にある目標は、Google が正規化されていないトピックリンクをスキャンすることによって費やされるクロールバジェットを制限することでした。

この変更が適用されて以来、変更を不要にする 2 つの修正を展開しました。

  1. トピック RSS フィードはフォローされなくなり、RSS フィード内のリンクはフォローされなくなりました。例: https://meta.discourse.org/t/search-engines-now-blocked-from-indexing-non-canonical-pages/218985.rss
  2. ポスト RSS フィードには正規リンクが含まれるようになりました。例: https://meta.discourse.org/posts.rss

これら 2 つの変更を組み合わせることで、クローラーは Discourse サイト上の大量の正規化されていないリンクを発見しなくなります。
これにより検索予算が解放され、サイト設定はもはや要件ではなくなります。サイトオペレーターは引き続き自由に実験できますが、デフォルトでは無効になっています。

「いいね!」 13