Google アナリティクスを使用した疑わしいボットトラフィックの調査
このガイドでは、Google アナリティクス 4 (GA4) を使用して、疑わしいボット活動を特定し調査するための手順を段階的に説明します。
1. GA4 のデフォルトのボットフィルタリングの理解
GA4 はデフォルトで、既知のボットやクローラーからのトラフィックを自動的に除外します。[1] このフィルタリングは、Google の調査結果と IAB の「International Spiders & Bots List」に基づいています。
このガイドの手順は、このリストに含まれていない、より高度なボットや未知のボットを特定するためのものです。
2. 異常なパターンを持つトラフィックを分析する
ボットは、通常のユーザーのパターンから大きく逸脱したトラフィックを生成することがよくあります。
手順:
-
リアルタイムレポートを確認する:
- レポート > リアルタイムページ に移動します。「過去 30 分間のアクティブユーザー数」に急激で説明のつかないスパイクがないか確認してください。これは、ボットの増加の最初の兆候である可能性があります。
サイトがスパム攻撃を受けていると思われる場合は、Immediate actions you can take during a spam attack のガイドを参照してください。 -
地理的な場所を調査する:
-
レポート > 人口統計 > ユーザー > ユーザー属性 > 人口統計の詳細 に移動します。
-
デフォルトで表示されるグラフは「人口統計の詳細:国」です。ターゲットとしていない国、事業拠点がない国、または通常はトラフィックがほとんど来ていない国からのユーザー数が多いか確認してください。単一の予期しない場所からの急激な増加は、大きな警告信号です。
-
-
リファラスパムを特定するためにトラフィックソースを分析する:
-
レポート > 獲得 > トラフィック獲得 に移動します。
-
レポートはデフォルトで「セッションのデフォルトチャネルグループ」になっています。主要ディメンションの横にあるドロップダウン矢印をクリックし、セッションソース / ミディアム を選択します。不審または意味不明なリファラソース(例:
"free-traffic-seo.com,""buttons-for-your-website.com")をスキャンしてください。これらはリファラスパムの典型的な兆候です[2]。
-
3. ユーザー行動指標を精査する
行動指標は、人間とボットを区別するための GA4 の最も強力なツールである可能性があります。
手順:
-
エンゲージメント時間の低さを確認する:
- レポート > エンゲージメント > ページと画面 に移動します。
GA4 では、エンゲージメント率 は、10 秒以上持続したセッション、コンバージョンイベントが発生したセッション、または少なくとも 2 回のページビューがあったセッションの割合です。これは、以前の「直帰率」の測定よりもセッションを多角的に捉えた指標です。-
平均エンゲージメント時間 指標は、サイトがユーザーのフォアグラウンドに表示されていた時間を示します。ボットは通常、ページに非常に短い時間しか滞在しません。「平均エンゲージメント時間」でテーブルを昇順にソートし、多くのビューがあるにもかかわらず異常にエンゲージメント時間が短いページを見つけます。
-
「ビュー数」が高いが「エンゲージメント率」が非常に低いページを探してください。これは、ユーザーがページに到達してすぐに離脱していることを示しており、一般的なボットの行動です。
「エンゲージメント率」の列が表示されない場合は、追加する必要があります。右上隅のペンアイコン(レポートのカスタマイズ)をクリックし、「指標」を選択して「エンゲージメント率」をレポートに追加します。変更を保存することを忘れないでください。 -
ランディングページを確認する:
-
レポート > エンゲージメント > ランディングページ に移動します。
-
左側のナビゲーションで、レポート > エンゲージメント > ランディングページ に移動します。新規ユーザー の数が非常に多いが、平均エンゲージメント時間 が極端に短いページを探してください。このパターンは、サイトの特定の入り口を自動トラフィックがヒットし、すぐに離脱していることを示唆しています。
-
4. Google アナリティクスでわからないこと 
- IP アドレス: Google サーチコンソールと同様に、Google アナリティクスはユーザーの IP アドレスを報告しません。この情報はサーバーログでのみ確認できます。サーバーログの分析は、悪意のある IP をブロックする上で不可欠です。
結論
Google アナリティクスは不審なトラフィックパターンの特定に役立ちますが、Discourse フォーラムで不要なクローラーを遅くしたりブロックしたりするには、管理 > 設定 > セキュリティ 下にあるクローラー設定を調整する必要があります。
Discourse はデフォルトで、いくつかの攻撃的なクローラー(mauibot, semrushbot, ahrefsbot, blexbot, seo spider)を Blocked crawler user agents 設定を通じて既にブロックしています。完全にブロックしたい追加のボットがある場合は、そのユーザーエージェントをこのリストに追加してください。
攻撃的ではないがリソースを消費するボットについては、Slow down crawler user agents に追加して、完全にブロックすることなくクローリング速度を低下させることができます。デフォルトでは、一般的な AI ボット(gptbot, claudebot, anthropic-ai, brightbot)が既にレート制限されています。遅延のレートは、Slow down crawler rate サイト設定で管理できます。これは許可されるリクエスト間の秒数を制御します(デフォルト:60 秒)。
厳格なホワイトリストとして機能する Allowed crawler user agents 設定もあります。このリストにユーザーエージェントを追加すると、他のすべてのクローラーがブロックされます。特定のクローラーのセットにのみサイトを制限したい場合にのみ使用してください。
これらの設定を調整する際は非常に注意してください。例えば、設定の誤設定により、正当な検索エンジンからのすべてのトラフィックを誤ってブロックしてしまったサイト所有者もいます。
最後に、これらの対策が万能ではないことを忘れないでください。クローラーは常に進化しており、従順であるとは限りません。ユーザーエージェント文字列を変更したり、複数の IP アドレスにリクエストを分散させたりして、これらの制限を回避する可能性があります。したがって、これらの設定は強力な第一線の防御を提供しますが、新しいまたは異常なパターンがないか、アナリティクスとサーバーログの監視を継続する必要があります。