kirupa さん、こんにちは。
参考までに申し上げますと、Google が同じドメイン内の 2 つのサイト(例えば、あなたの例にある kirupa.com のような類似コンテンツを持つサイト)をインデックスする場合、通常「ペナルティ」と呼ばれるもの(厳密にはペナルティではなく、「正規化(canonical selection)」に近い処理)が発生します。これは Google のアルゴリズムがページの一つを正規ページ(canonical)として選択し、検索結果でそのページを上位表示させるというものです(Google は正規と判断されないページをインデックスから除外することさえあります)。
Google は明確に、「重複コンテンツによるペナルティは主に神話である」と述べています。実際の問題は「正規化」と「選択」に関するものです。
サイト内にほぼ同一のコンテンツを持つ複数のページがある場合、Google に対して希望する URL を示すいくつかの方法があります(これを「正規化」と呼びます)。正規化に関する詳細情報(参照 1)
例えば、新しいサイトを立ち上げても古いサイトを公開し続ける場合、link canonical タグを使用して、Google に新しいサイトを canonical site として伝えることができます。そうすれば Google は新しいサイトを優先します。
より良い解決策は、検索エンジンにこれらの URL をクロールさせつつ、rel="canonical" リンク要素、URL パラメータ処理ツール、または 301 リダイレクトを使用して重複としてマークすることです。重複コンテンツにより自サイトのクロールが多すぎる場合、Search Console で クロールレート設定 を調整することもできます(参照 1)。
例:
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
kirupa さん、あなたはまた以下のように尋ねられました。
Google は各トピックをインデックス可能な「ページ」として扱っていますか?その理由を伺うのは、当フォーラムのトピックの大部分が Google のデータベースに登録されていないためです。
Google と無限スクロールに関する素晴らしい(やや古めですが)議論については、公式の Google Webmaster Central ブログ(参照 2)をお勧めします。
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
kirupa さん、実用的な確認方法として、GSC(Google Search Console)を使用して、Google がページをどのように表示しているかの「スクリーンショット」を確認する方法があります。これは GSC の「モバイルフレンドリーチェック」機能などで簡単に可能です。Discourse で非常に長い投稿の場合、そのページが Google によってどの程度インデックス(読み取り・登録)されているかを確認できます。無限スクロールと Google のインデックス処理については多くの意見がありますが、GSC を使ってご自身のページを確認し、実際に確認することができます。
Google の Martin Splitt 氏によると(参照 3)、2020 年 4 月 14 日の発言では:
Splitt 氏は、新しいコンテンツを無限スクロール(「遅延読み込み」とも呼ばれる)に依存するニュースサイトの例を挙げました。
つまり、この場合のウェブページ(ホームページ)は、訪問者が画面の一番下までスクロールするまで、追加のコンテンツを読み込みません。
Splitt 氏はそれがなぜ問題なのかを説明しています:「Googlebot が行わないことは何でしょうか?それはスクロールすることです。」
Googlebot が行うのは、ページにアクセスし、すぐに表示される部分をクロールすることです。
Splitt 氏の説明によると、Googlebot はページをスクロールしてから読み込まれるコンテンツをクロールできません。
前述の通り、kirupa さん、GSC のツールを使ってご自身のページを確認し、Google がどのようにページを把握(およびインデックス)しているかをスナップショットで確認できます。
2020 年 4 月の Google の Splitt 氏によると:「Googlebot はスクロールしません。」(要約)
「Google 検索のインデックスと Discourse」というトピックについては、すべてのサイト所有者が GSC を使って、Googlebot が特定のページをどのようにインデックスするかを簡単に確認できます。
私の推奨事項(少しでもお役に立てれば幸いです)は、Googlebot がページをどのようにインデックスしているかについて疑問がある場合は、GSC(Google Search Console)を使ってご自身のページを確認することです。
参照:
-
How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers
-
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
-
Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems