Discourseをクロールする際のGooglebotの表示

networkaaron · 2021 年 12 月 20 日午後 8:05

TL:DR、DiscourseのクロールをGooglebotで半人間的に再現することは可能です。始め方は以下の通りです…

Googlebotと一体になる

シークレットウィンドウを開く（常に新規から始める）
DevToolsを開く
DevToolsでNetwork Conditionsを開く
「ブラウザのデフォルトを使用」のチェックを外す
セレクトメニューでGooglebot Smartphoneを選択する
次に https://meta.discourse.org にアクセスする（見た目が大きく異なりますが、Googlebotやボットは気にしないので問題ありません）
表示 > 開発者 > ソースを表示に移動する
コピーして、ある.htmlファイルに貼り付ける

これで、Googlebotがクロールしキャッシュしたものを確認するためのファイルが作成されました。

Googlebotの仕事は終わりです。次に、キャッシュされたファイルをブラウザでレンダリングする時間です。

Chromeと一体になる

ターミナルを開き、npx http-server を実行する
ファイルに移動する
Chrome DevToolsを開く
Elementsパネルで、<html>... を右クリックし、「OuterHTMLをコピー」を選択する
これがインデックスされるコンテンツであり、キャッシュされるものではなく、インデックスされるものです。

要約すると、GooglebotがHTMLを取得し、Chromeがそれをレンダリングします。レンダリングされたHTMLが重要です。貴重なコンテンツとリンクが表示されていることを確認してください。

david · 2021 年 12 月 20 日午後 8:35

「Chromeと一体になる」の下にある手順の目的は何ですか？

最初のリストのステップ7の代わりに「OuterHTMLをコピー」の手順を実行できませんか？

j127 · 2021 年 12 月 22 日午前 1:50

curlでも取得できると思います。

curl -s https://meta.discourse.org/ > page.html

（これには"crawler"クラスが含まれます。）

次に、ブラウザでpage.htmlファイルを開きます。

または、エディタでコードを検査するには次のようにします。

curl -s https://meta.discourse.org/ | vim -

networkaaron · 2022 年 1 月 13 日午後 2:22

キャッシュされたHTMLはChrome（ヘッドレス）でレンダリングされます。レンダリング時に、JavaScriptを介して補足的なコピーやリンクがDOMに挿入される場合があります。Googleは、レンダリングされた情報をインデックス作成のために考慮します。

これが、GooglebotがJavaScriptを多用するアプリケーションからコンテンツを取得する方法です。Googleにアクセスし、JavaScriptでのみコンテンツをレンダリングするものを検索して、3つの点アイコンをクリックし、キャッシュ済みボタンをクリックし、ソースを表示をクリックし、それをコピーしてChromeでレンダリングすると、DOMに表示されるコンテンツを確認できます。

注意：Chromeでレンダリングする前に、相対パス（CSSおよびJSリソース）を絶対パスに更新してください^^

networkaaron · 2022 年 1 月 13 日午後 2:39

curl を使うと、より簡単になりますね！

Googlebot ユーザーエージェント文字列を含めるようにしてください。例: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)。サーバーは Googlebot に異なる HTML を送信する場合があります。

j127 · 2022 年 1 月 13 日午後 9:13

同じ出力だと思いますが、ユーザーエージェントを追加しても害はありません。Chromeについてはよくわかりませんが、Firefoxではネットワークタブのリクエストを右クリックして「curlとしてコピー」を選択すると、ブラウザのリクエストを模倣する完全なヘッダーセットを取得できます。

トピック		返信	表示
Googlebot is getting non-javascript version of the site Development	16	1655	2024 年 3 月 9 日
How public Discourse sites are indexed by search engines like Google Site Management reference	0	12858	2013 年 2 月 6 日
Disable or bypass feature detect for Googlebot (while serving JS app to crawlers) Support unsupported-install	7	3435	2022 年 6 月 14 日
Can we have a conversation about SEO? Development	2	864	2022 年 4 月 4 日
No content on homepage for Googlebot Bug	6	1930	2016 年 3 月 16 日

Discourseをクロールする際のGooglebotの表示

関連トピック