robots.txt の一般的なルールが Googlebot に認識されない

amotl · 2022 年 3 月 1 日午後 2:07

Discourseチーム様

まず最初に、Discourseの考案と維持における皆様の精神と忍耐に敬意を表します。私たちとコミュニティメンバーにとって、常に喜んで利用させていただいております。

本日確認いたしましたいくつかの些細な観察結果をまとめました。皆様のお役に立てれば幸いです。一方で、私たちの側での誤解があれば、それについても喜んでお話を伺いたいと思います。

敬具
Andreas.

はじめに

https://community.crate.io/にあるホストされているDiscourseインスタンスの`robots.txt`定義ファイル[^1]の動作を調査中に、Googlebotが意図したとおりに設定を尊重しない可能性があることを発見しました。

評価

Meta^[1]のrobots.txtで、私のプロフィールURL https://meta.discourse.org/u/amotl/ を例に検証してみましょう。

この無料のrobots.txtバリデーターの結果を比較することで、違いはすぐにわかります。

– Googlebotで評価

– MSNBotで評価

調査

この件に関して、すでに回答を見つけたと考えています。

考察

したがって、Googlebotは現在、User-agent: *セクション^[2]内のルールを完全に無視し、User-agent: Googlebotセクション^[3]内のルールのみを尊重している可能性があると考えています。

https://meta.discourse.org/robots.txt ↩︎

robots.txt、User-agent: *セクション

User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tag
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /c/*.rss

↩︎

robots.txt、User-agent: Googlebotセクション

User-agent: Googlebot
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /*?api_key*
Disallow: /*?*api_key*

↩︎

Jagster · 2022 年 3 月 1 日午後 2:13

もし私が正しく理解していれば、答えはそれほど簡単ではありません。単一のユーザーがGmailを使用してリンクを送信した場合、Googlebotはrobots.txtを尊重しません。リンクがどこかに共有された場合（バックリンク）も同様で、Googlebotには通常の日常的なリンクのように見えます。

繰り返しますが、robots.txtは単なるリクエストです。

別の方法がありますが、それはより…かなり多くのボットが自分自身をGooglebotとして識別しており、実際のところはIPアドレスからしか見つけられません。

rrit · 2022 年 3 月 1 日午後 3:43

これは正しい実装であり、意図的なものです。

そのため、Googlebot はインデックス登録されるべきではないページに対して、追加の httpヘッダー X-Robots-Tag: noindex を受け取ります。以下を参照してください。

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

committed 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

ご自身のドメインでは、Google Search Console の「URL を検査」機能を使用できます。
→ URL を検査

その後、インデックス登録したいユーザープロファイル URL を追加してみてください。例: https://www.example.com/u/jacob

amotl · 2022 年 3 月 1 日午後 3:50

Ayke様

確認しました。

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

迅速なご回答とご説明、そして該当するパッチへの参照をいただき、誠にありがとうございます。

敬具
Andreas

sam · 2022 年 3 月 2 日午後 10:11

これを#supportに移動しました。ここで、喜ばしく書かれたバグレポートをありがとうございます。

Googleを満足させるためにルールを微調整するには、多大な時間を費やしました。x-robots-tag noindexは一貫してサポートされているわけではありませんが、業界標準です。クロールを禁止するだけでは、何らかの理由で、特定の条件下でページがGoogleインデックスに登録されてしまう可能性があり、クロールが禁止されていたため、それらを削除する簡単な方法がなくなり、一種の鶏と卵の問題でした。

amotl · 2022 年 3 月 3 日午前 8:45

サム様

この件について詳細を共有していただき、誠にありがとうございます。相変わらず、Discourseのあらゆる細部に注いでいる素晴らしさには驚かされます。

正直に申し上げて、今までこのことを知りませんでした。重ねて感謝いたします！

素晴らしいです。ありがとうございます。これが広く受け入れられている標準になった場合、将来的に無料の robots.txt バリデーターの一部もそれを認識するようになるでしょうか？

Google Search Console の URL 検査 のように、今日すでに robots.txt を読み取ることに加えて、対応する追加ヘッダーチェックを実装しているバリデーターをご存知ですか？それは、私たちが遭遇したのと同じ混乱を回避するのに役立つでしょう。

敬具
アンドレアス

トピック		返信	表示
Pages listed in the robots.txt are crawled and indexed by Google Support	18	3402	2019 年 7 月 30 日
Excluding user profiles in robots.txt (or allow edit of file) Feature	4	2552	2014 年 5 月 24 日
Google changed how they process robots.txt in Discourse? Support	20	1808	2020 年 12 月 22 日
Malformed robots.txt causing issues with indexing Support	7	1918	2019 年 9 月 14 日
Indexing User Profiles Support	2	98	2025 年 9 月 4 日

robots.txt の一般的なルールが Googlebot に認識されない

はじめに

評価

調査

考察

関連トピック