匿名ユーザーからのページビューが爆発的に増加しましたが、Google Analyticsではトラフィックの増加が見られません。増加はどこから来ているのかを調べる方法は？

zhenniwu · 2020 年 12 月 21 日午前 6:43

過去 2 週間で、匿名ユーザーからのページビュー（PV）が急増しました。しかし、Google Analytics（GA）では異なる状況が示されています。ご覧の通り、GA ではむしろわずかな減少が見られました。成長が見られるのは喜ばしいのですが、この急増した匿名ユーザーの PV がどこから来ているのか、さらに詳しく知りたいです。

匿名ユーザーのリファリングサイトを確認する方法はありますか？

以前、以下の投稿を見つけました：https://meta.discourse.org/t/is-the-info-top-referred-topics-top-traffic-sources-stored-in-a-table-in-the-database/73301/9。これは正しい手順でしょうか？

neounix · 2020 年 12 月 21 日午前 7:26

zhenniwu さん、こんにちは

これは「成長」ではありません。あなたのサイトにはおそらく、robots.txt のルールを無視する悪意のあるボットがアクセスし、すでに Google によって「悪意のあるボット」としてフラグが立てられているため、そのトラフィックは統計から除外されています。

ボットの検出とブロックに多くの時間と労力を投資する意思がない限り、これに対してあなたができることはほとんどありません。しかし、それは（ほとんどの人にとって）時間の無駄になることがほとんどです。

これは単に「私たちが知るネット上の日常」であり、大部分は気にする必要のないことです。

zhenniwu · 2020 年 12 月 21 日午後 11:08

@neounix ご指摘いただき、本当にありがとうございます！私たちの疑念が裏付けられました。Discourse の更新を控えており、それによって悪意のあるボットのレート制限がかかることを期待しています。匿名ユーザーからのページビュー（PV）の監視は引き続き行います。

ところで、それがボットかどうかを確認する方法はご存知でしょうか？ご支援いただき、心から感謝申し上げます！

neounix · 2020 年 12 月 22 日午前 2:05

こんにちは @zhenniwu さん

行動を観察して異常だと気づいた時点で、すでにそれがボットであることを確認したことになります。

クライアントのユーザーエージェント（UA）文字列が何らかの形で「私はボットです」と宣言している場合、ボットを検出するのは簡単です。しかし、「悪意のあるボット」は UA 文字列でボットであることを明かさないため、ボットや類似の活動は、その行動に基づいて検出する必要があります。

必要であれば、これを自動化するコードを書くこともできます。ただし、ボットにはヒット率（あなたが目撃している通り）だけでなく、多様な行動特性があるため、すべてのボットクラスを検出するのは簡単ではありません。

検出ソリューションの構築を始める前に、「ボットを検出することで何を達成しようとしているのか？」と自問する必要があります。

なぜそれを気にする必要があるのでしょうか、@zhenniwu さん？

余談ですが、Research Gate の編集者がこのテーマについて書いた 2017 年 7 月の記事をご紹介します。お楽しみください！

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

codinghorror · 2020 年 12 月 22 日午前 5:52

これはGoogle向けに実施したrobotsの変更と同じものだと思いますか、@sam？

sam · 2020 年 12 月 22 日午前 5:53

確かにその可能性はありますが、確実なことは実際のトラフィックを確認してみないとわかりません。

neounix · 2020 年 12 月 22 日午前 7:15

ボットの绝大多数は robots.txt を尊重しません。

実際、多くの不正なボットは、管理者がボットに訪問させたくない場所の情報を得るために robots.txt を読み、その領域から情報を取得しようとしています。

つまり、robots.txt はネット上のボットの 99.9%（大きな割合を任意に選んでください）の行動を制御するには効果的ではなく、サイトの「機密」領域に関する情報を露呈させてしまう可能性もあります。

codinghorror · 2020 年 12 月 22 日午後 7:10

これは、7 年にわたる当社のホスティング事業の実績から見て事実ではありません。確かに悪意のあるボットが存在することは間違いありませんが、それらは極めて稀です。

zhenniwu · 2020 年 12 月 22 日午後 7:25

なるほど、つまりこの爆発は不正なボットによるものではないのかもしれませんね。

@codinghorror @sam 様、分析やデバッグのために当社のデータを提供いたします。必要なものがございましたらお知らせください。すぐに送付いたします。あらかじめありがとうございます！

neounix · 2020 年 12 月 23 日午前 1:07

こんにちは、Jeff さん！

それではあなたはラッキーですね！私が説明した問題の一部を示す ResearchGate の論文「Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness」を添付しました。

また、参考までに、robots.txt を無視し、当社のサイトをクロールする「短い」部分的な User Agent 文字列のリスト（更新済み）を以下に示します：

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

上記のリストは一部のみであり、長期間更新されていないため、「完璧」ではなく、かなり「錆び付いた」状態です…

20 年以上にわたる当社の直接的な経験、多数のボット検出および可視化コードの作成（およびこのトピックに関する多数の論文、動画、プレゼンテーションの発表）から、robots.txt を尊重するボットはごく少数であり、その中でも指示に従うのは Google、Bing（Microsoft）などの大手企業のみであることが分かっています。

最も攻撃的なボットは、User Agent 文字列を偽装し、「非ボット」の User Agent 文字列として表示するようにしています。

さらに、最も問題となるのは中国、ロシア、韓国のボットです。当社のレガシーフォーラムには、ハニーポット技術や他の行動パターンに基づいてこれらの悪意のあるボットを検出するプラグインコードがあります。添付の論文ではその結果の一部をご覧いただけます。そこにはサイバースペース上のボットを色鮮やかに描いた図が含まれています。

例えば、当社の経験と直接のサイバーセキュリティ可視化研究から、Discourse の標準搭載（OOTB）robots.txt に記載されているすべてのボット（DotBot、semrushbot、ahrefsbot など）は robots.txt を尊重していません（ahrefsbot については非常に大きな問題があり、別のプレゼンテーションで強調されています。図を参照）：

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

遠い過去、私たちはこれらのボット（上記のものだけでなくさらに多数）を robots.txt に記載していました（現在も同様です）が、上記のリストに含まれるボットが robots.txt の指示に従うのは「ほぼゼロ」であることが分かりました。

あなたのホスティングサイトが異なる経験を持っているのであれば、それは非常に幸運です！

私たちは広範なテストを行い、多くの可視化コードを作成しており、査読付き研究から、ほとんどのボットは robots.txt を尊重せず、尊重するのは「大手テック企業」のボットのみであることを事実として知っています。

以下の私たちが執筆した論文はすべてのボットを列挙しているわけではありませんが、この分野でいかに広範なテストとコード作成（Unity ゲームエンジンおよび LAMP プラットフォーム上で）を行ってきたかを示す例となっています：

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

また、ResearchGate からダウンロードする必要がないよう、この論文も添付しました。

お楽しみください！

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

追伸：時間があれば、2021 年にレガシーな LAMP のボット検出コードを Rails に移植する予定です！

こちらも参照してください：

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

（以下にも添付）

anomalies_cyberspace_v01.pdf (3.3 MB)

プレゼンテーションからのグラフィック例。通常ユーザーの UA 文字列（ボット文字列ではない）を使用して、ブラジルの IP アドレス（中国ではない）からサイトを抽出している、200 以上の中国の Baidu ボットが一般ユーザーとして偽装している様子を示しています。

chewxy · 2020 年 12 月 23 日午前 1:49

変更点が気になります。コミットや CL はありますか？

codinghorror · 2020 年 12 月 23 日午前 2:59

その通りです。もしこれが事実なら、私たちの顧客は絶対に大騒ぎすることになります。なぜなら、彼らはページビューごとに課金されているからです。不正なボットによる過剰なページビューは、彼らにお金を費やさせ、ホスティングプラットフォームからの離脱を招きます。そのため、例えば Bing に対しては非常に厳しくスロットリングを適用しました。もし興味があれば検索してみてください。

したがって、これまでの 7 年以上のホスティング経験から、不正なウェブクローラーやボットは確かに存在するものの、重大な問題にはならないことが示されています。

（私が共同設立したトップ 100 のウェブ資産である Stack Overflow についても、同じことが言えます。）

neounix · 2020 年 12 月 23 日午前 4:11

こんにちは、ジェフさん！

素晴らしい会話ですね！

先日、ニューヨークに本社を置く大手技術系広告ネットワークのCFOと会議をしていましたが、彼ら（および彼らの広告主）はボットトラフィック（悪意のあるものも含め）を最も懸念する事項の一つと考えており、正当なユーザートラフィックとボットトラフィックを分類することに多額の費用を費やしていると話していました。

つまり、ジェフさんのウェブサイトがウォール街やその広告主が常に戦っているような問題に直面していないのであれば、それは非常に幸運なことだと言えます。

正直に言うと、私が過去20年間にわたってサイバーセキュリティと不正防止に関わってきた多くの企業は、あなたが述べたのとは正反対の経験をしています。

よくやりましたね、ジェフさん！

neounix · 2020 年 12 月 23 日午前 5:31

余談ですが、この情報も興味深いかと思います。記事自体は「古く」（5 年前のもの）なりますが、2015 年以降もこの問題は「改善」されていません：

上記の CSOonline（2015 年）からの抜粋：

「良質なボット」は今年、トラフィックの 36% を占め、昨年の 21% から増加しました。「悪質なボット」は今年、トラフィックの 23% を占め、昨年の 24% からわずかに減少しましたが、Essaid が繰り返し述べているように、これはトラフィック量が減少したからではなく、「良質なボット」の数が劇的に増加したためです。人間のトラフィックはわずか 41% で、昨年の 55% から減少しました。

同社は「悪質なボット」を、「robots.txt」ファイルを尊重せず、訪問するサイトに価値を提供しないボットと定義しています。

2015 年は 5 年前と少し古くなっていますので、2020 年により近い参照資料を見つけて再度投稿します。

サイバーセキュリティの顧客との私の経験では、2020 年の「悪質なボット」のトラフィック数は、上記の 2015 年の CSO 報告書よりもはるかに高いです。したがって、「悪質なボット」の問題に直面していない人は、非常に幸運だと言えます！過去 10 年間で私たちは「悪質なボットの検出と分類」について多くを記述してきましたが、ボットプログラマーがより「巧妙」になり（）、UA 文字列（およびボットのタイミングや動作）を変更して、正当な人間のトラフィックのように見せるのが上手になったため、これは頭痛の種となっています（CloudFlare が登場するずっと前からです）。

Jeff 氏から、Discourse サイトはこの「悪質なボット」のトラフィックに対して基本的に免疫があり、他の人々が苦労している問題を緩和するために複雑なボット検出コードを必要としないという話を聞いて、本当に嬉しく思います。

すべての Discourse ホスティングは CloudFlare の背後にあるのでしょうか？CloudFlare はこの種の脅威から保護するように設計されています。

codinghorror · 2020 年 12 月 23 日午前 5:53

前述の通り、おっしゃるような「無差別に広範な不正ボットが1秒間に数百万ページを収集している」という状況が事実であれば、私たちは文字通り事業を継続できなくなっていたはずです。ですから、これはある種の奇跡と言えるかもしれません。あなたが真実だと信じていることと、私がStack Overflow（2008年〜2012年）およびDiscourse（2012年〜現在）で経験してきた実際の事業状況との間に、どのように矛盾が生じているのかは私にもわかりません。

一方、広告ネットワークとボットに関する話は全く別です。ユーザーを装って広告をクリックするボットは、ボット作成者にとって「無料」のお金を生み出す手段だからです。

おそらくその違いは、私たちの顧客のほとんどが広告に依存していないことにあるのでしょう。Stack Overflowにおいても、ディスプレイ広告は事業のほんの一部でした。この重要な違いを、この問題について考える際に心に留めておくことをお勧めします。

neounix · 2020 年 12 月 23 日午前 6:31

こんにちは、Jeff さん、

ご参考までにお伝えしますが、インターネット上でボットトラフィックが人間によるトラフィックを上回っているという事実は、一般的な知識であり、私の個人的な意見ではありません。

また、ボットトラフィックの大部分を占めるボットが robots.txt を尊重していないことも、一般的な知識であり、私の個人的な意見ではありません。一部の推計では少なくとも半数以上とされていますが、私の経験からは「サイトやテーマによって異なる」と言えます。

あなたが設立・構築した企業での経験が異なること、そしてそのことを喜んでおられることは、心から嬉しく思います。

一方で、インターネット上の事実として、2020 年のボットトラフィックは全トラフィックの約 55〜60% を占めており、そのうち約半分は robots.txt を尊重しないボットによるものです。一部の調査では「悪意のあるボット」の割合を全トラフィックの 35% 程度と推定するものもあれば、調査によってより高い数値を提示するものもあります。これは私が作り上げた話ではなく、十分に文書化された事実です。

もし、Discourse でのホスティング経験や以前の経験以外に、「悪意のあるボットトラフィック」が極めて微小であるという研究論文や統計データをお持ちであれば、ぜひ読ませていただきたいです。個人的には、あなたがここで述べているように「悪意のあるボット」のトラフィックがそれほど微小であるとする研究論文や参照記事を見たことがありません。

もし私の意見に同意いただけないことでご不快に思われたのであれば、お詫び申し上げます。私は根拠となる資料を提供しており、インターネットトラフィックに関する事実にお openness があれば、さらに多くの資料（私の意見ではなく）を提供することもできます。

それ以外の場合は、このトピックへの投稿は控えます。あなたを不快にさせたくないからですあなたが強い意見をお持ちのトピックについて、私が管理者権限を持たないフォーラムで議論を続けるつもりはありません

良い休日を！

codinghorror · 2020 年 12 月 23 日午前 6:40

広告収入を巡ってボットや偽クリックと死闘を繰り広げている広告ネットワークにとってはそうかもしれません。しかし、Stack Overflow や Discourse においては、これはほとんど問題になりません。

仮説に基づく議論を楽しむのであれば、どうぞご自由に。一日中、心ゆくまで理論を練り続けてください。その理論的な思考があなたの人生に大きな喜びと幸せをもたらすことを願っています！その間も、私たちはビジネスを運営しなければならないので、実際の事業で収集した実際のデータに基づいて意思決定することを好みます。私はその点で少しおかしいのかもしれません。それが煩わしかったり、困惑させたりするようでしたら申し訳ありません。

残りの一日を素晴らしいものにお過ごしください！

Sailsman63 · 2020 年 12 月 23 日午前 7:13

ふむ…何か見落としているのかもしれませんが、あなたが上記でリンクした研究は、ウェブ全体の一般的な傾向を示しているようには見えません。

どうやら、この研究は特定のサイトへのトラフィックを可視化することに焦点を当てており、それによって「疑わしい」トラフィックの特定と定量化を比較的簡単な視覚的な作業にしているようです。それ自体は興味深いのですが、どのサイトが対象となったのか、あるいはどのような種類のサイトだったのかを示す手がかりはありません。提示された事例がウェブ全体を代表しているかどうかを評価するのは困難です。

補足：ボットトラフィックが一般的に膨大であること、あるいは「悪意のある」ボットが多数存在することについては疑問を呈しているのではありません。ただし、（検索可能な）統計データは、あなたがスクリーンショットに示した検索結果とはやや乖離があるように見えます。

より有用なのは、どのような種類のサイトが、どのようなタイプのボットから集中的に標的にされるかについての統計的分析でしょう。（例えば、Facebook や同様のプラットフォームは、これらのボットの特定のセグメントから不釣り合いに多くの関心を集めていると予想されます。別のセグメントは、おそらく広告の多いサイトをほぼ独占的に狙っているはずです。）

neounix · 2020 年 12 月 23 日午前 7:21

こんにちは、Jeff さん。

もし私が「インターネット上のネットワーク運用について何も知らない、おかしな理論家」として描かれることを望むなら、それも仕方がありません。しかし、私を知る人なら誰でも知っている通り、事実はそれからほど遠いものです

元のスレッド投稿者にはスパイクが発生しました。それはほぼ間違いなくボットが原因でした。これには私たちも同意できると思います

Jeff さん、素晴らしい一日と素晴らしい休暇を！

それから、Ruby on Rails を紹介してくださったことにも感謝します。あなたと Discourse がいなければ、私は毎日（Discourse 以外で）Ruby コードを書くことはなかったでしょう。それは 2020 年に私に起きた最高の技術的な出来事でした！Ruby が大好きです。

もう一度、Jeff さん、ありがとうございます！

neounix · 2020 年 12 月 23 日午前 7:41

@Sailsman63 さん、こんにちは

私は複数の分野で補足的な参考文献を提供しましたし、すべての運用シナリオにおけるインターネットトラフィックの詳細な調査や報告を投稿した、あるいは投稿したと主張したこともありません。

私の考えでは、インターネット上で少なくとも60分間の調査を行い、合理的な調査・分析スキルを持つエンジニアであれば、(1) インターネット上のネットワークトラフィックのうち何パーセントがボットに起因するかを示す運用報告（理論ではなく）を多数見つけ、(2) そのトラフィックのうちどれだけが robots.txt を尊重しない「悪意のあるボット」によるものかを定量化した複数の参考文献を見つけることができます。

これは「理論」でも「私の考え」でもありません。これは確立された事実であり、関心を持って調べれば誰でも確認できるものです。また、運用の観点から見ても、ログファイルを分析し、ウェブサイトのトラフィック行動を処理する際に毎日同じことが観察されます。例えば、通常の人間ユーザーが決して行かない「ハニーポット」を設定し、ボットだけがそこに行くようにするなどの方法です。

私は多くのウェブサイトに「ハニーリンク」を設置し、過去に多くのボットを捕まえてきました。したがって、これは私が「突然思いついて」作り上げたものではなく、LOL です。ネット上の他の人々も同様に行っています（これは一般的なサイバーセキュリティ技術です）。私だけではありません、約束します

良い一日を！

トピック		返信	表示
Anonymous views suddenly very high Data & reporting	48	1325	2025 年 12 月 10 日
How can I figure out why I have a big jump in anonymous pageviews Data & reporting	10	1276	2022 年 3 月 9 日
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4642	2023 年 12 月 2 日
Traffic Dashboard Stats Feature feedback	31	9062	2016 年 5 月 16 日
View IP address of guests / anonymous visitors? Data & reporting	13	1449	2022 年 1 月 13 日

匿名ユーザーからのページビューが爆発的に増加しましたが、Google Analyticsではトラフィックの増加が見られません。増加はどこから来ているのかを調べる方法は？

関連トピック