Google Search インデックス作成と Discourse

こんにちは、皆さん!

Google クローラーが Discourse フォーラムのインデックス作成に問題がないという様々な投稿を読みました。私の質問は少し異なります。Google は各トピックをインデックス対象の「ページ」として扱っているのでしょうか?私がこの質問をした理由は、当フォーラムのトピックの多くが Google のデータベースに含まれていないためです。これは Google サーチコンソールのデータを確認することで確認できます。

登録されているのは約 1.7 万件のみで、当フォーラムには数十万(もしかすると数百万?)ものトピックが存在します。robots.txt のエラーは、本来インデックスすべきでないページに関するものです。これは、クローラーが古いトピックをすべて適切に自動的に巡回していないように見えます。

古いトピックをより迅速にインデックスさせるために、設定を変更する必要があるのでしょうか?ファーストビューに表示されるアイテムについては、Google によるインデックス作成や検索結果は非常に良好です。問題はファーストビューより下にあるトピックにのみ影響しています。

よろしくお願いいたします、
Kirupa

「いいね!」 2

実験のため、GoogleBot のユーザーエージェント文字列を使用して、クローラー表示でMetaにアクセスしました。その後、最新リストの666ページまで進みました。これは、2017年半ばに最後に更新されたトピックで、ほぼ3年前のものです。

リストにあるトピックの一つに、Ionicアプリ内でのDiscourseの深い統合があります。ログインしていない状態でGoogle検索を行い、「integration discourse ionic」と検索すると、これが最初の結果として表示されました!!

Metaは3万件以下のトピックを持つ「小規模」なインスタンスですが、すべて適切にインデックスされているようです。これは古いドメインであり、Discourseに関するあらゆる検索で#1の結果となっているため、GoogleBotからの「評判」が十分にあります。そのため、必要なすべての内容をクロールするのに十分な時間、当社のドメイン上で動作しています。

あなたのフォーラムは、古いソフトウェアからDiscourseへ移行しましたか?

「いいね!」 5

インデックス作成を急ぐ必要がある場合は、サイトマッププラグインを試してみてください。

標準的なクロールでもすべてが検出されますが、サイトマップを使用すれば、より早くインデックスに反映される可能性があります。

もし試される場合は、その結果を共有してください。

また、Google に 100% 含まれていない、あなたのフォーラムにある素晴らしい独自コンテンツの例を 5 つ挙げていただけますか?

「いいね!」 6

おそらくGoogleは、トピックのアクセス数(カウンターがある場合)や、そのトピックへのアクティブな遷移があるリンクも参照しています。Googleは、ユーザーにとって「興味がない」と判断する特定のページを訪問しない場合があります。ここに一つの裏技があり、通常は以下のように確認されます。これはSEOの手法です。他のリソースからリンクを貼り、そのリンクをクリックしてください。必要なのはわずか数回の遷移だけです。これだけでGoogleの関心を引くのに十分です。人々が訪れる場所には、Googleも訪れます。

大規模なGoogleのサイトでは、ページが存在するだけでは不十分です。より多くのシグナルが必要です。アクティビティ、クリック率、ビュー数などがそれにあたります。

「いいね!」 1

@Falco - はい、フォーラムは vBulletin から移行しましたが、それは 2014 年の終わり頃のことです。旧フォーラムへの公開リンクはすべて削除しましたので、重複コンテンツが検索インデックスに悪影響を及ぼすリスクはありません。

@sam - はい、いくつか例を挙げます:

これらの投稿のすべては、過去 3 年間にわたって Twitter や公開 Facebook ページで何度か紹介したものであり、永久に埋もれて隠されたものではありません。

サイトマッププラグインについては、試してみます。見つかったデータがあれば投稿します。ご協力いただきありがとうございます :slight_smile:

では、
Kirupa

「いいね!」 1

これは「js using generators animate example」で検索した私の3番目の結果です。

今日はこの例を投稿したのは悪手だったかもしれません。数時間前にテストとして手動でインデックス登録を申請したからです。これは、この検索語で7時間前に私のフォーラム管理者の一人が確認した結果です:

おっしゃる通り、現在トップクラスの検索結果の一つになっています。手動インデックス登録が関係しているのかもしれません。

追記: ちょうどサイトマッププラグインを設定し、Google にサイトマップを提出してインデックス登録を申請しました!

「いいね!」 1

kirupa さん、こんにちは。

参考までに申し上げますと、Google が同じドメイン内の 2 つのサイト(例えば、あなたの例にある kirupa.com のような類似コンテンツを持つサイト)をインデックスする場合、通常「ペナルティ」と呼ばれるもの(厳密にはペナルティではなく、「正規化(canonical selection)」に近い処理)が発生します。これは Google のアルゴリズムがページの一つを正規ページ(canonical)として選択し、検索結果でそのページを上位表示させるというものです(Google は正規と判断されないページをインデックスから除外することさえあります)。

Google は明確に、「重複コンテンツによるペナルティは主に神話である」と述べています。実際の問題は「正規化」と「選択」に関するものです。

サイト内にほぼ同一のコンテンツを持つ複数のページがある場合、Google に対して希望する URL を示すいくつかの方法があります(これを「正規化」と呼びます)。正規化に関する詳細情報(参照 1)

例えば、新しいサイトを立ち上げても古いサイトを公開し続ける場合、link canonical タグを使用して、Google に新しいサイトを canonical site として伝えることができます。そうすれば Google は新しいサイトを優先します。

より良い解決策は、検索エンジンにこれらの URL をクロールさせつつ、rel="canonical" リンク要素、URL パラメータ処理ツール、または 301 リダイレクトを使用して重複としてマークすることです。重複コンテンツにより自サイトのクロールが多すぎる場合、Search Console で クロールレート設定 を調整することもできます(参照 1)。

例:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

kirupa さん、あなたはまた以下のように尋ねられました。

Google は各トピックをインデックス可能な「ページ」として扱っていますか?その理由を伺うのは、当フォーラムのトピックの大部分が Google のデータベースに登録されていないためです。

Google と無限スクロールに関する素晴らしい(やや古めですが)議論については、公式の Google Webmaster Central ブログ(参照 2)をお勧めします。

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

kirupa さん、実用的な確認方法として、GSC(Google Search Console)を使用して、Google がページをどのように表示しているかの「スクリーンショット」を確認する方法があります。これは GSC の「モバイルフレンドリーチェック」機能などで簡単に可能です。Discourse で非常に長い投稿の場合、そのページが Google によってどの程度インデックス(読み取り・登録)されているかを確認できます。無限スクロールと Google のインデックス処理については多くの意見がありますが、GSC を使ってご自身のページを確認し、実際に確認することができます。

Google の Martin Splitt 氏によると(参照 3)、2020 年 4 月 14 日の発言では:

Splitt 氏は、新しいコンテンツを無限スクロール(「遅延読み込み」とも呼ばれる)に依存するニュースサイトの例を挙げました。

つまり、この場合のウェブページ(ホームページ)は、訪問者が画面の一番下までスクロールするまで、追加のコンテンツを読み込みません。

Splitt 氏はそれがなぜ問題なのかを説明しています:「Googlebot が行わないことは何でしょうか?それはスクロールすることです。」

Googlebot が行うのは、ページにアクセスし、すぐに表示される部分をクロールすることです。

Splitt 氏の説明によると、Googlebot はページをスクロールしてから読み込まれるコンテンツをクロールできません。

前述の通り、kirupa さん、GSC のツールを使ってご自身のページを確認し、Google がどのようにページを把握(およびインデックス)しているかをスナップショットで確認できます。

2020 年 4 月の Google の Splitt 氏によると:「Googlebot はスクロールしません。」(要約)

「Google 検索のインデックスと Discourse」というトピックについては、すべてのサイト所有者が GSC を使って、Googlebot が特定のページをどのようにインデックスするかを簡単に確認できます。

私の推奨事項(少しでもお役に立てれば幸いです)は、Googlebot がページをどのようにインデックスしているかについて疑問がある場合は、GSC(Google Search Console)を使ってご自身のページを確認することです。

参照:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems

「いいね!」 5

@neounix さん、とても素晴らしいご返信をありがとうございます!すぐにご提案いただいた内容を一つずつ確認・実行いたします :slight_smile:

古いフォーラム (kirupaForum) を非表示から戻し、新しいアクティブなフォーラムに正規のメタタグを設定するのは良いアイデアですね。今週中に試してみます。

その間、Google サーチコンソールに約 30 万件のエントリを含むサイトマップを提出しました。

「いいね!」 2

@kirupa さん、

どういたしまして。

参考までに。

Discourse フォーラムは、トピックに対してすでに正規(canonical)タグを追加しています。

以下は、あなたのフォーラムからのリンクと、上記の例の1つを示すソースコードです。

Screen Shot 2020-06-09 at 1.48.45 PM

ご覧の通り、あなたの Discourse ページにはすでに正規タグが含まれています。

1 つの「裏技」(非公式ですが可能)は、同じタグを「旧フォーラム」に追加して(新しいフォーラムを指すようにする)か、少なくとも旧フォーラムに正規タグが含まれないようにすることです。

ただし、正直に言うと、旧フォーラムのデータベースで Discourse フォーラムの正しいトピック ID を取得するには、ある程度の作業が必要です(他の理由でこれを行ったことがあり、両方のフォーラムでこの情報を使用しているため、可能であることを自分自身の経験から知っています)。

Discourse には post_custom_fields データベーステーブルがあり、旧フォーラム(トピック ID と投稿 ID)からのマッピングが含まれています。必要であれば、Discourse からそのデータをダンプして、旧フォーラムに追加することも可能です。

その後、必要に応じて(推奨はしませんが)、SEO やアプローチ方法に応じて、旧フォーラムに新しい Discourse フォーラムを指す正規タグを簡単に作成できます。

一部の人は、旧フォーラムのページを 301 リダイレクトすることを好みます。これはすべてあなた次第で、どのように管理するかによります!ただし、301 リダイレクトを行う場合は、Discourse のトピック(および投稿)ID と旧フォーラムのトピックおよび投稿 ID の間のマッピングも必要になる点に注意してください。

この簡潔なフォローアップが @kirupa さんの役に立つことを願っています。

良い一日を、楽しんでください!

「いいね!」 2