robots.txt の不備によりインデックス作成に問題が発生

みなさん、こんにちは

DiscourseフォーラムがGoogleによってインデックスされていないことに気づきました(約1年前はインデックスされていた記憶があります)。現在、修正を試みています。正しく設定されている必要がある構成項目は何でしょうか?

私がこれまでに実施した対応は以下の通りです:

  1. 「robots.txtでインデックスを許可」が**チェック済み**であることを確認しました

  2. 以下のドメインを「rel nofollow除外ドメイン」に追加しました:

    • grakn.ai(メインサイトドメイン)
    • discuss.grakn.ai(Discourseフォーラムドメイン)
  3. 「ユーザーコンテンツにrel nofollowを追加」が**チェック外**であることを確認しました

  4. Googlebotを「ホワイトリスト対象のクローラーユーザーエージェント」に追加しました

他に設定すべき構成項目はありますか?

Google検索コンソールによると、discuss.grakn.aiはrobots.txtによってブロックされているため、まだクロールされていないと表示されています。スクリーンショットを以下に示します。

ご協力いただき、ありがとうございます!!

管理者 → 設定 → robots.txt を有効化

当フォーラムの robots.txt ファイルは以下の通りです:https://discuss.grakn.ai/robots.txt

Google ウェブマスターツールにログインして確認してください:https://www.google.com/webmasters/tools/robots-testing-tool

デフォルト設定のままなら問題なく動作します。インストール時にこれらの設定を変更されましたか?

robots.txt ファイルの中央に以下のテキストが含まれているため、クローラーに問題が生じる可能性があります:

User-agent: *
Disallow: /
Noindex: /

しかし、Google はページをインデックスしています:

Googlebot が Google 固有のルールを確認しており、Webmaster Tools がワイルドカードについて警告を出している可能性があります。

(どのような設定がその robots.txt の出力結果になるのかは確信がありません。)

はい。

  1. アクセス:https://discuss.grakn.ai/admin/customize/robots

  2. 削除:

    User-agent: *
    Disallow: /
    Noindex: /

  3. Google ウェブマスターツールへ移動:https://www.google.com/webmasters/tools/robots-testing-tool

認証済みのプロパティを選択し、robots.txt を再度 Google に送信してください。

これでうまくいくはずです。

ついに、以下のブロックを削除することで問題が解決しました。

User-agent: *
Disallow: /
Noindex: /

@j127 さん、@tohaitrieu さん、本当にありがとうございます!!!

Google Search Console によると、discuss.grakn.ai がインデックス登録のキューに追加されていることが確認できました。

ありがとうございました!

どのようにしてこの状態になったのか、よくわかりません。クロールに関連するデフォルトのサイト設定を変更しましたか?

私も、なぜ上記のような状態になってしまったのかがよくわかりません、@codinghorror さん。過去 1 年間、このサイトの管理者を務めていますが、上記の件に関連する変更は行っておりません。長い間アップグレードを行っていなかったことを覚えており、上記の問題が発生する直前にアップグレードを行った記憶はありますが、それが原因かどうかはわかりません。