Google Search Consoleで直面しているディスコース構造の誤りやサイト管理の不備

最初のヒステリー(過去約半年間、Googleが自分のウェブサイトに全く注意を払っておらず、それに気づきもしなかったことに気づいた人が陥る可能性があります!)が収まった後、
ここでは、Discourseのコードに関連する原因、つまりGoogleや私(私の知る限り)ではなく、Discourseチームによって修正可能なものだけをリストアップしようと思います。

「動画のインデックス作成レポート」をクリックすると:

「拡張機能 > 動画」リンクをクリックすると:

どうか助けてください。

問題に気づいたのは最近のことです(これはすべて省略可能です)::

数ヶ月間ユーザーを失い続けた後、本日、私のサイトがGoogleによってブロック/禁止されていることが判明しました!!!

さらに以前、この問題にどのように気づいたか(これもすべて省略可能です):

質問する前に、このメタトピックのほとんどすべてを読みました。

2024年8月に、私のウェブサイトへのトラフィックが最大95%減少したことに気づきました。しかし、投稿が足りなかったのかもしれないと思い、無視しました。

しかし本日、Googleで自分のサイトのみに検索を制限して、どのような用語を検索しても:「***site:BathindaHelper.com jobs in bathinda***」、結果はゼロでした(私のサイトから表示される唯一の結果は、この結果を私のサイトから表示するためにGoogle広告を作成するようにという提案であり、私のサイトが実際にインデックス登録されていることを示しています):


そして最後に、Google Analytics(Googleイベントに改名されたかもしれません)も確認しましたが、2024年6月17日からGoogleが私のサイトにトラフィックを referral しなくなっていることが明確に示されています。

強制ログインを使用するか、TL0以上のトピックの表示を停止したときにサイトを作成しましたか?Googleは、サイトが世界に公開されている場合にのみ、サイトを使用できます。または、Googleのユーザーエージェントをブロックしました。

これは、DNSの問題があったのと同じフォーラムですか?

「いいね!」 2

Site does not appear in google searches - #2 by Bathinda の件で質問されていますか? opへの返信は以下の通りだと思います。

「いいね!」 1

「force」という言葉を誤って使用しました。(Google検索に私のサイトBathindaHelper.comからの検索結果を生成させるように「強制」していた、という意味でした)

  • 異常な/強制的な方法でサイトを作成したわけではありません。
  • TL0+または関連するものについて、意図的にいじったことはありません。
  • 過去30分間、(その他1〜2個の小さな問題とともに)私のrobots.txtファイルが原因であることがわかりましたが、(まだ)どのように修正すればよいかわかりません。
  • DNSの問題があったかどうかは覚えていません(かなり昔のことですか?)。私のサイトは正常に動作していますが、私/管理者がブラウザをハードリフレッシュすると、時々開くのに約30〜50秒かかりますが、その後は正常に動作します。

返信ありがとうございます。

編集:
robotsファイルを「選択解除」しました。

しかし、Google Search Consoleが現在すべて正常であると報告しているかどうかはわかりません。

ええ、完全に注文を逃しました。そして今、何が起こりうるかのデモンストレーションがあります。

  • 古いトピックに返信した
  • オフトピック
  • ユーザーがトピックを読んでいない :joy:

はい、私のミスです。

「いいね!」 2

これらの設定を確認してください。

  • 許可されたクローラーユーザーエージェント
  • ブロックされたクローラーユーザーエージェント

しかし、私の知る限り、Discourse にはほとんどのサイトが持つようなプレーンな robots.txt はなく、奇妙な Ruby のもので処理されており、管理者が調整できる設定はあまり多くありません。それらの 2 つの設定と、ボットの速度を落とすこと以外は。

それは私と私の素早い指でした :man_facepalming:

「いいね!」 1

インデックス作成が停止する前、または停止した後にそれを無効にしましたか?

robots.txt で、このサイトがウェブ検索エンジンによってインデックス作成されることを許可するように指定してください。

検索エンジンがサイトをインデックス作成することを許可しないのであれば、それらがインデックス作成しないことに驚きはありません。

「いいね!」 3

確認して報告します。

このトピックを開いた後(現在から約30分前)に無効にしました。この問題は3ヶ月前から存在していました。しかし、この「選択解除」が「Googleインデックス作成」の不具合を修正できたかどうかは、私自身では確認できていません。

robots.txtでサイトを無効/ブロックしない場合、すべてのサイトが許可されるのでしょうか?それとも、robots.txtでサイトを有効にしない場合、すべてのサイトがインデックス作成からブロックされるということでしょうか?

それを完全に忘れていました。選択する必要があります。それを使用しない場合は、robots.txt を手動で確認および編集して、ボットが意図したとおりに誘導されていることを確認する必要があります。

しかし、Google を停止させる可能性のあるものが見つかるかどうかを確認することはできます。

「いいね!」 1

承知いたしました。
つまり、すべてのDiscourseユーザーは(通常)「Robots.txt」ファイルを指定/提供する必要があるということですね。
そして、明日、このファイルについて(どのように、そして何を含めるべきか)詳細なトピックを読むことにします。

次に、説明するには大きすぎない場合、Discourse管理パネルでいくつかの設定を調整し、同時にGoogleが私のサイトに自由にアクセス(そしてインデックス作成)できるようになったかどうか、またはまだ「アクセス拒否 - 403」エラーが発生しているかどうかをリアルタイムで確認できる簡単な方法を教えていただけますか?!

編集:自分でGoogleで類似のリソースを今すぐ/後で見つけようと思います。

いや、そうではありません。通常、管理者は手動でのいじくり回しを避けるためにrobots.txtを有効にしておくということです :wink: しかし、確かに、ブロックされたボットのリストなどは管理者が変更したいものです。

「いいね!」 2

blocked_crawler_user_agents の設定を確認していただけますか?

「いいね!」 1
  1. この設定は以下のようになっています(何も変更していません)

  2. 昨日、実験としてこれらの2つのドメイン google と google.com をここに記述しました。これが「Blocked Crawler User Agents」よりも優先されるのかどうか、またはこれで問題が解決したのかどうかはわかりません(Googleは私のクロール/インデックスリクエストをキューに入れ、最大2〜3日かかる可能性があると言っているため)

  3. そして、私の「Robots.txt」はこちらで見ることができます。

もし3つすべてに矛盾する設定がある場合、どれが優先されるか教えてください。

Googleはクロールに「Googlebot」およびそのバリエーションを使用するため、影響はないはずです。

「いいね!」 3

まさにそれが主な効果でした!!

この設定を使用して、主な大きな問題を解決するのを手伝ってくれた皆さん、本当にありがとうございます。

しかし、この非常にメタなトピックの最初の投稿で説明した、Googleインデックス作成に影響する他の多くの(小さな)問題については、トピックを開いたままにしておきたいと思います。

また、blocked Crawler User Agents でサイトの Crawler-1 をブロックし、同時に Allowed Crawler User Agents で同じものを許可した場合、どうなるか誰かに教えていただけると幸いです。
また、Allowed... で許可したが、robots.txt でブロックした場合はどうなりますか。どちらが優先されますか。

compatible は削除 しなければなりません。これは googlebot を含むほぼすべてのものをブロックします。このため:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

また、Facebook でトピックを共有する場合、Facebook をブロックすることもあまり良い考えではありません。

ブロックリストで使用するものはすべて、その単語がユーザーエージェント文字列に含まれるすべてのボットをブロックします。したがって、注意してください。

「いいね!」 3

Google Search Console でトピック(ホームページ以外)をクロール/インデックスしようとすると、エラーが発生しているのはそのためかもしれません。

しかし、なぜ(「互換性」がブロックされていた場合でも)ホームページのみが Google Search Console で利用可能になるのでしょうか?以下に示します。

「互換性」を削除したばかりなので、また報告します。

ついに!!! メイン/ホームページおよび個々のトピックの「禁止」エラーを克服できたようです。これは、貴社からの支援が90%、私自身の実験が10%でした。本当にありがとうございます。

「互換性」を「ブロックされたクローラー」リストから削除した後、別の設定の下に注意書きを見つけました。これは、私が無視してしまったのですが、基本的にユーザーに「何をしているか確信がない限り、『許可されたクローラーユーザーエージェント』に値を入力しないように」と求めていました。まさにこれでした!大文字で書かれた警告を無視したことで、Googleにサイトを無視され、何ヶ月もの間、多くの問題が発生しました。


Google Search Consoleでアクセス禁止-403エラーが発生した方へ:

  • 主に2つのことで問題が解決しました。1つは「互換性」を「ブロックされたクローラーリスト」から削除したこと、そして
  • 「許可されたクローラーユーザーエージェント」の設定を空(デフォルトのまま)にしたことです。

このトピックは、他のGoogle検索の問題(ただし、これほど重要ではないかもしれませんが)のために引き続き公開されます。

「いいね!」 1