robots.txt の一般的なルールが Googlebot に認識されない

Discourseチーム様

まず最初に、Discourseの考案と維持における皆様の精神と忍耐に敬意を表します。私たちとコミュニティメンバーにとって、常に喜んで利用させていただいております。

本日確認いたしましたいくつかの些細な観察結果をまとめました。皆様のお役に立てれば幸いです。一方で、私たちの側での誤解があれば、それについても喜んでお話を伺いたいと思います。

敬具
Andreas.


はじめに

https://community.crate.io/にあるホストされているDiscourseインスタンスの`robots.txt`定義ファイル[^1]の動作を調査中に、Googlebotが意図したとおりに設定を尊重しない可能性があることを発見しました。

評価

Meta[1]robots.txtで、私のプロフィールURL https://meta.discourse.org/u/amotl/ を例に検証してみましょう。

この無料のrobots.txtバリデーターの結果を比較することで、違いはすぐにわかります。


Googlebotで評価


MSNBotで評価

調査

この件に関して、すでに回答を見つけたと考えています。

考察

したがって、Googlebotは現在、User-agent: *セクション[2]内のルールを完全に無視し、User-agent: Googlebotセクション[3]内のルールのみを尊重している可能性があると考えています。


  1. https://meta.discourse.org/robots.txt ↩︎

  2. robots.txtUser-agent: *セクション

    User-agent: *
    Disallow: /admin/
    Disallow: /auth/
    Disallow: /assets/browser-update*.js
    Disallow: /email/
    Disallow: /session
    Disallow: /user-api-key
    Disallow: /*?api_key*
    Disallow: /*?*api_key*
    Disallow: /badges
    Disallow: /u
    Disallow: /my
    Disallow: /search
    Disallow: /tag
    Disallow: /g
    Disallow: /t/*/*.rss
    Disallow: /c/*.rss
    
    ↩︎
  3. robots.txtUser-agent: Googlebotセクション

    User-agent: Googlebot
    Disallow: /auth/
    Disallow: /assets/browser-update*.js
    Disallow: /email/
    Disallow: /session
    Disallow: /*?api_key*
    Disallow: /*?*api_key*
    
    ↩︎
「いいね!」 4

もし私が正しく理解していれば、答えはそれほど簡単ではありません。単一のユーザーがGmailを使用してリンクを送信した場合、Googlebotはrobots.txtを尊重しません。リンクがどこかに共有された場合(バックリンク)も同様で、Googlebotには通常の日常的なリンクのように見えます。

繰り返しますが、robots.txtは単なるリクエストです。

別の方法がありますが、それはより…かなり多くのボットが自分自身をGooglebotとして識別しており、実際のところはIPアドレスからしか見つけられません。

「いいね!」 3

これは正しい実装であり、意図的なものです。

そのため、Googlebot はインデックス登録されるべきではないページに対して、追加の httpヘッダー X-Robots-Tag: noindex を受け取ります。以下を参照してください。


ご自身のドメインでは、Google Search Console の「URL を検査」機能を使用できます。
URL を検査

その後、インデックス登録したいユーザープロファイル URL を追加してみてください。例: https://www.example.com/u/jacob

「いいね!」 4

Ayke様

確認しました。

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

迅速なご回答とご説明、そして該当するパッチへの参照をいただき、誠にありがとうございます。

敬具
Andreas

「いいね!」 2

これを#supportに移動しました。ここで、喜ばしく書かれたバグレポートをありがとうございます。

Googleを満足させるためにルールを微調整するには、多大な時間を費やしました。x-robots-tag noindexは一貫してサポートされているわけではありませんが、業界標準です。クロールを禁止するだけでは、何らかの理由で、特定の条件下でページがGoogleインデックスに登録されてしまう可能性があり、クロールが禁止されていたため、それらを削除する簡単な方法がなくなり、一種の鶏と卵の問題でした。

「いいね!」 4

サム様

この件について詳細を共有していただき、誠にありがとうございます。相変わらず、Discourseのあらゆる細部に注いでいる素晴らしさには驚かされます。

正直に申し上げて、今までこのことを知りませんでした。重ねて感謝いたします!

image

素晴らしいです。ありがとうございます。これが広く受け入れられている標準になった場合、将来的に無料の robots.txt バリデーターの一部もそれを認識するようになるでしょうか?

Google Search Console の URL 検査 のように、今日すでに robots.txt を読み取ることに加えて、対応する追加ヘッダーチェックを実装しているバリデーターをご存知ですか?それは、私たちが遭遇したのと同じ混乱を回避するのに役立つでしょう。

敬具
アンドレアス

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.