Google は Discourse での robots.txt の処理方法を変更しましたか？

jackjjw · 2020 年 5 月 11 日午後 3:37

数週間前から、私の掲示板を当サイトからリンクさせており、その URL を Google に提出しました。'no index’の警告が出ましたが、それはプロフィールページに対するもので、問題ありません。

しかし、まだ Google に何も表示されていません。掲示板側で何か対応が必要でしょうか、それとも Google がクロールするのを待つだけの問題でしょうか？

satonotdead · 2020 年 5 月 11 日午後 4:30

もしかしたら、https://search.google.com/search-console/ を試してみるのはどうでしょうか？

jackjjw · 2020 年 5 月 12 日午前 7:00

投稿ページが robots.txt によってブロックされていると表示されているようですが、私がそのような設定を行った覚えはありません。Discourse 側で開くために変更すべき設定はありますか？ありがとうございます。

sam · 2020 年 5 月 12 日午前 7:11

サイト設定に「allow index in robots txt」という項目があります。検索して確認し、有効になっているか確認してください（デフォルトでは有効になっています）。

jackjjw · 2020 年 5 月 12 日午前 7:13

サム、ありがとう。その設定はチェックされていますが、これで正しいでしょうか？

すみません、混乱させてしまいました。ブロックされた URL は RSS フィードの対応版のようです。

おそらく、Google が更新するかサイトをクロールするのを待つしかないのでしょう。

sam · 2020 年 5 月 12 日午前 7:22

はい、これが繰り返し発生し、サポートの原因となっています。

Googlebot は少し厄介です。robots.txt で特定のものをインデックスしたくないと伝えることはできません。Googlebot を納得させるための修正に取り組んでいますが、展開までには時間がかかります。

robots.txt で Googlebot に「ねえ、サイトのすべての .rss ページをインデックスしないでください」と伝えます
Googlebot がサイト内のどこかにある .rss ファイルへのリンクを見つけます
Googlebot は、サイト運営者に対して、サイト内に .rss ファイルが存在するが、インデックスが許可されていないためそのリンクの扱いがわからないと苦情を言います。場合によっては、このコンテンツを検索結果に含めてしまうこともあります。
サイト運営者がメタで苦情を言います

ここでの一般的な解決策は、Googlebot にサイトのすべてのページをクロールさせ、HTTP ヘッダー内の正規化リンクとインデックスヒントを使用して、成功の穴へと導くことです。

@jomaxro と一緒にこの件に取り組んでおり、すでに良い進捗を上げています。

(fyi @codinghorror)

jackjjw · 2020 年 5 月 12 日午前 7:29

サム、アップデートありがとう。すべて納得できるし、あなたの気持ちもよくわかるよ。私はSEOの専門家じゃないけど、以前はもっと大きなサイトを運営していて、SEOチームとも一緒に働いたことがあって、フォーラムではいつもすごく大変だったんだ！

jomaxro · 2020 年 5 月 12 日午後 4:59

明確にしておきますが、これはディスカッションフォーラムであることとは無関係です。これは、Google が robots.txt を扱う「興味深い」方法に関連しています。詳細は Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers をご覧ください。

robots.txt でブロックされたページでも、他のサイトからリンクされている場合はインデックスに登録されることがあります
Google は robots.txt によってブロックされたコンテンツをクロールしたりインデックスに登録したりしませんが、ウェブ上の他の場所からリンクされている場合、その URL を発見してインデックスに登録する可能性があります。その結果、URL アドレス、およびリンクのアンカーテキストなど、他の公開情報も Google 検索結果に表示されることがあります。URL を Google 検索結果から完全に排除するには、サーバー上のファイルをパスワード保護するか、noindex メタタグまたはレスポンスヘッダーを使用する（またはページを完全に削除する）必要があります。

長年、Discourse サイトのデフォルトの robots.txt ファイルには、インデックス登録を望まないページを含めていました。これは以前は問題なく機能していました。しかし、過去の不明な時点から、これだけでは不十分となり、Google は robots.txt で禁止されていても、他の場所からリンクされたページをインデックスに登録するようになりました。

そのため、今年初め、特定のページに noindex ヘッダーを含めるテストを開始しました。これは非常に効果的でしたが、robots.txt とヘッダーの間に競合が生じるという新たな問題が発生しました。詳細は Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers をご覧ください。

重要！noindex ディレクティブが有効になるには、ページが robots.txt ファイルでブロックされていてはなりません。ページが robots.txt でブロックされている場合、クローラーは noindex ディレクティブを確認できず、他のページからリンクされている場合など、検索結果に表示される可能性があります。

これが現在の状況です。現在、特定のページを robots.txt から削除するテストを行っています。これらの変更は Google のドキュメントに基づいて行っているため、Googlebot には問題ないと確信していますが、他の主要なクローラーに対しても問題を引き起こさないか確認する必要があります。

codinghorror · 2020 年 5 月 13 日午前 7:04

強調のために引用します。ここで Google の動作が変更されたので、私たちが変更したわけではありません。適応には少し時間がかかります。

jackjjw · 2020 年 6 月 25 日午後 1:28

こんにちは、ジェフさん。すべて理解できましたし、納得もしています。ただ、自分の設定でスレッドページがGoogleから隠れてしまった可能性はないか、念のため確認したかっただけです。メインのホームページやカテゴリはGoogleに表示されているのですが、スレッドページは一切表示されていません。もう数ヶ月経っています。私のサイトはこちらです：https://community.jackwallington.com/

codinghorror · 2020 年 6 月 25 日午後 5:20

当社は、最近の Google の行動変容に対応するために、すべての調整を完了したと考えています。@jomaxro さんに確認していただけると幸いです。Discourse の最新バージョンをご利用ください。

jomaxro · 2020 年 6 月 25 日午後 5:27

確信はありませんので、確認が必要です。テスト中に robots.txt の手動変更をいくつか行ったと思います（Meta でのみ）。

jomaxro · 2020 年 6 月 25 日午後 5:32

discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub を見ると、変更はローカル（Meta のみ）のようです。それを修正します。現在もいくつかの長時間実行中のテストが進行中ですが、ここについてはかなり確信があります。

jomaxro · 2020 年 6 月 25 日午後 7:15

FIX: Remove paths from robots.txt in favor of noindex header · discourse/discourse@b52143f · GitHub に従い、必要な変更を加えました

jackjjw · 2020 年 6 月 25 日午後 7:31

投稿ページにどこかでno indexが設定されているのでしょうか？Googleはこれを無視すると述べていますが。

jomaxro · 2020 年 6 月 25 日午後 7:40

プラグインをインストールして追加したものでない限り、そのようなヘッダーが追加される方法是想い浮かびません。Google は noindex ヘッダーを無視しません。他のサイトがあなたのページを指している場合、Google は robots.txt を無視します。Google はクロール時にはそれを尊重するため、上記のコミットでは、以前に追加された noindex ヘッダーに代わって robots.txt のエントリを削除しています。

ご自身で Google が何を認識しているかを確認できるよう、Google Search Console への登録をお勧めします。もしかすると、トピックが表示されない別の問題があるかもしれません。

jackjjw · 2020 年 6 月 25 日午後 7:54

ジョシュア、ありがとう。Google サーチコンソールは正常で、すべてのスレッドがリストされていると表示されています。検索するとスレッドページが表示されないのは非常に奇妙ですが、ホームページやカテゴリページは表示されます。

sam · 2020 年 12 月 22 日午前 5:17

これは元に戻し、Googlebot に対してこの条件を明示的に設定します。

Googlebot は非常に賢いクローラーですが、他の多くのクローラーはそれほど賢くありません。

jomaxro · 2020 年 12 月 22 日午前 5:22

まあ、いいでしょう。なお、後にコミットされたものも元に戻す必要があります。

sam · 2020 年 12 月 22 日午前 6:01

この PR で対応しました：

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

master ← crawl-less

merged 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Google は特別なルールを維持し、それほど高度ではない各種ボットに対する保護を強化した状態でリリースされます。デフォルトの robots.txt は以下のようになります：

# robots.txt ファイルの使用方法については、http://www.robotstxt.org/robotstxt.html を参照してください
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

トピック		返信	表示
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3355	2019 年 7 月 30 日
Google notification to remove "noindex" statements from robots.txt Support	8	2480	2019 年 7 月 30 日
Google complaining – Indexed, though blocked by robots.txt Support	24	2584	2023 年 9 月 28 日
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	253	2024 年 12 月 18 日
Generic rules in "robots.txt" not picked up by Googlebot Support	6	1028	2022 年 4 月 2 日

Google は Discourse での robots.txt の処理方法を変更しましたか？

関連トピック