検索エンジンが非正規ページをインデックス登録できなくなりました

rrit · 2022 年 3 月 4 日午後 5:02

noindex に関する Google ドキュメントからの追加情報です。

Crawl Budget Management For Large Sites | Google Search Central | Documentation | Google for Developers を参照してください。

重複コンテンツを統合する。 重複コンテンツを削除して、クロールをユニークな URL ではなくユニークなコンテンツに集中させます。

インデックス登録されたくない URL のクロールをブロックする。 ユーザーにとって重要であっても、検索結果に表示させたくないページがあります。たとえば、リンクされたページの情報と重複する無限スクロールページや、同じページの並べ替えが異なるバージョンなどです。最初の箇条書きで説明されているようにそれらを統合できない場合は、robots.txt または URL パラメータツール（URL パラメータによって到達する重複コンテンツの場合）を使用して、これらの重要でない（検索にとって）ページをブロックします。

noindex は使用しないでください。 Google はリクエストを送信しますが、noindex タグが表示されるとページを削除するため、クロール時間が無駄になります。一時的に他のページにクロール予算を割り当てるために robots.txt を使用しないでください。 robots.txt は、Google にまったくクロールしてほしくないページやリソースをブロックするために使用します。Google は、Google がすでにサイトのサービング制限に達している場合を除き、この新しく利用可能になったクロール予算を他のページにシフトしません。

How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers を参照してください。

j127 · 2022 年 3 月 8 日午後 7:06

このコマンドは機能しないようです。今日、テストのために小規模なDiscourseサイトをアップデートし、コマンドを実行しましたが、依然としてnoindexヘッダーが表示されます。

編集：その設定がどのように機能するのかわかりませんが、少なくともブラウザコンソール（管理者として）からフロントエンドを見ると、SiteSettingsには表示されません。

var d = Discourse.SiteSettings;
document.body.innerHTML = `<pre>${JSON.stringify(d, null, 4)}</pre>`;

この設定はnoindexではなく、robots.txt用のように思われます。ほとんどのDiscourseサイトでは、これはすでにtrueになっているのではないでしょうか？

Falco · 2022 年 3 月 8 日午後 7:27

おお、すみません、正しくは SiteSetting.allow_indexing_non_canonical_urls です。OPで修正しました。

sam · 2022 年 3 月 15 日午後 10:33

この変更に続く問題を分析し続け、以下に従ってロールバックを決定しました。

github.com/discourse/discourse

FEATURE: enable canonical url indexing

main ← enable_indexing_canonical

opened 10:30PM - 15 Mar 22 UTC

SamSaffron

+1 -1

We rolled out a change to disable canonical indexing. The goal behind it was to… limit crawl budget by Google being spent scanning non canonical topic links. Since this change was applied we rolled out 2 fixes that made the change no longer needed. 1. Topic RSS feeds are no longer followed, links in the RSS feeds are not followed. 2. Post RSS feeds now contain canonical links. Combined these two changes mean crawlers no longer discover a large amount on non-canonical links on Discourse sites.

その背後にある目標は、Google が正規化されていないトピックリンクをスキャンすることによって費やされるクロールバジェットを制限することでした。

この変更が適用されて以来、変更を不要にする 2 つの修正を展開しました。

トピック RSS フィードはフォローされなくなり、RSS フィード内のリンクはフォローされなくなりました。例: https://meta.discourse.org/t/search-engines-now-blocked-from-indexing-non-canonical-pages/218985.rss
ポスト RSS フィードには正規リンクが含まれるようになりました。例: https://meta.discourse.org/posts.rss

これら 2 つの変更を組み合わせることで、クローラーは Discourse サイト上の大量の正規化されていないリンクを発見しなくなります。
これにより検索予算が解放され、サイト設定はもはや要件ではなくなります。サイトオペレーターは引き続き自由に実験できますが、デフォルトでは無効になっています。

トピック		返信	表示
Removing the /2, /3, /4, etc links for each reply within a topic URL Development seo	33	4457	2024 年 10 月 13 日
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5788	2024 年 6 月 1 日
Adding Canonical Redirects for SEO Optimization Support	23	7510	2015 年 10 月 1 日
Sitelinks in Google disappearing Community Building	26	1609	2023 年 1 月 27 日
Google Search Indexing and Discourse Data & reporting	9	3877	2020 年 6 月 9 日

検索エンジンが非正規ページをインデックス登録できなくなりました

関連トピック