agemo
(agemo)
2023 年 1 月 15 日午後 12:43
1
匿名ビュー数については、Googleアナリティクスデータと意味のある形で一致しないため、常にどう考えればよいかわかりません。
過去4日間ほど、匿名ビューが異常に大幅に増加し続けているため、これが顕著になりました。
3/3.1へのアップグレードと偶然かもしれませんが、少し後から始まったので関連性があるのでしょうか。
また、ログイン統計が大幅に減少したように見えることも懸念されます。
一般的に、Googleアナリティクスとダッシュボードの数字が一致しないため、ログイン統計を把握するのは難しいですが、ダッシュボードのみを見ると、奇妙な新しい傾向が見られます。
Googleアナリティクスとダッシュボードの統計の不一致について、簡単な例を挙げます。Googleアナリティクスで1日のユニーク訪問者が500件表示されていても、Discourseダッシュボードでは2000件のログイン、50000件の匿名ビュー、5000件のクローラーが表示されます。
全体として、これらの統計はどうなっているのでしょうか?
データはどのように扱い、Discourseフォーラムの管理という観点から何を示唆するのでしょうか?
匿名ビューは、不要なファームトラフィックの兆候であり、リソースの無駄なのでしょうか?
このようなトラフィックは、適切なオプションを選択すればGoogleアナリティクスからフィルタリングされます。Discourse側ではなく、何らかの低レベルのDDOS型トラフィックである可能性を示唆しており、リソースを無駄にしているだけでなく、正規のログインにも影響を与える可能性がありますか?
これまでのところ、ログインに関する問題の報告はありません。
全体として、ダッシュボードの数字をどのように解釈すればよいのでしょうか?
洞察やヒントがあれば、どんなことでも感謝します。
「いいね!」 4
@agemoさん 、こんにちは!
私もここ数ヶ月、同様の現象を確認しています。この件について何か分かりましたか?
agemo
(agemo)
2024 年 7 月 10 日午後 1:35
3
おそらくボット、あるいはAIスクレイピングボットでしょう。
管理画面のウェブクローラーレポートが非常に役立ちました。それらの存在に気づかせてくれた(以前は全く気づいていませんでした)おかげで、様々なクローラーを禁止することができました。これにより匿名ビューが減少しました。クローラーは匿名ビューからもアクセスしてくると思いますが、その方法は不明です。
レポートにはクローラーの名前(ユーザーエージェント)も記載されており、各クローラーについて検索して価値があるかどうかを確認できます。
このトピックも参考になるかもしれません。
「いいね!」 3
それはあり得ますね。システムがボットとユーザーをどのように識別するかによると思いますが、私もどうやってかは分かりません。
より多くのテキストが公開されたときにクローラーのスパイクが見られましたが、数日前には匿名ビューのランダムなスパイクもありました。
現在、匿名ページビューを「おそらく人間」と「おそらくボット」に分割する新しい指標が導入されました。これにより、後者をクローラー(実際にはそうである可能性が高いが、そう識別されていない)として捉えることができます。
このレポートは標準レポートの一部であり、/admin/reports/consolidated_page_views_browser_detection で見つけることができます。
また、ボットによる増加を防ぐために、トピックビュー指標にもこれを適用する作業が進行中です。
「いいね!」 3
この新しいグラフは役立ちます。「おそらくボット」のカテゴリが「その他のページビュー」としてラベル付けされているようです。
きちんと自己紹介をしない、ずる賢い新しいボットについて、それらを遅くしたり、ソースを特定したりする方法はありますか?
ウェブクローラーのユーザーエージェントレポートを確認できますが、そこに表示されない場合は、他に何を調査すればよいかわかりません。
「いいね!」 1
Jagster
(Jakke Lehtonen)
2024 年 7 月 12 日午前 6:58
7
Architect:
それらを遅くする方法はありますか?
いいえ。ボットのコーダーが、ユーザーエージェント、デバイス、システムなどの一部に常に同じテキストがある場合、それらを完全にブロックできますが、リバースプロキシが必要です。 robots.txt は、礼儀正しいボットのためのガイドラインにすぎません。
Architect:
他に何を調査すべきかわかりません
Discourse のログは、大まかな全体像を把握するのに役立つ程度です。このような詳細なデータは、Nginx のログから掘り下げる必要があります。つまり、コンソールへようこそ
WordPress はボットによって簡単にダウンしますが、Discourse の状況はそれよりも単に迷惑なだけです。コンテンツの盗難は今日の標準であり、長い間そうでした。
「いいね!」 2
リバースプロキシは良い第一歩のように思えますが、Cloudflareはそれに適していますか?
セキュリティのためにCloudflareのネームサーバーを使用することを勧めてくれた地元のウェブ開発者の友人がいます。
公開されたコンテンツが「盗まれる」ことについてはあまり心配していません。テキストが公開されている場合、人々はそれを記録する権利がありますが、それを自分の作品として販売しようとしない限り問題にはなりません。
「いいね!」 1
Jagster
(Jakke Lehtonen)
2024 年 7 月 12 日午後 4:10
9
NginxかVarnishを提案します。しかし、Cloudflareも使えるかもしれません。私はそれを知りませんし、使ったこともありません。
「いいね!」 2
昨日8月17日に、ボットによる「その他のページビュー」が152件と異常に急増しました。普段は1日あたり15〜20件程度しかない、ほとんどアクティブでないサイトにとっては非常にランダムな数字です。
Jagster
(Jakke Lehtonen)
2024 年 8 月 18 日午前 7:35
11
全く普通です。私の場合、最悪のユーザーエージェントとジオブロッキングを組み合わせてブロックすることで最良の結果が得られました(私のフォーラムはグローバルではないので、簡単にできます)。
フィンランド以外の国からのIPアドレスの地理的禁止を意味しますか?ローカル中心のサイトには良いアイデアのように思えます。
Jagster
(Jakke Lehtonen)
2024 年 8 月 18 日午前 10:39
13
はい。現在、ロシア、シンガポール、中国からのトラフィックが多くあります。以前はインド、パキスタン、エジプト、イラン、イラクでした。そして、フィンランド(Finish)はできないと思います ロシアなら可能かもしれませんが…いや。
最大の3つはアメリカ、フランス、オランダで、ドイツも成長しています。しかし、それはデータセンターによるもので、だからこそそれらを禁止できないのです。
しかし、Discourseであれば、それらは主に迷惑なだけです。WordPress(そして他のLAMPスタックも同様だと思います)では、それらは非常に大きな負荷を生み出し、状況はDDoSに近づき始めます。
そして、そのほとんどは、古いWordPressの問題を使ってDiscourseをダウンさせようとする、愚かなスクリプトキディによるものです。
しかし、最近ではSEOとAIボットが本当の疑問符になり始めています。
しかし、ローカルフォーラムを持っている人にとっては、ジオバンニングは賢明な選択です。
「いいね!」 1
agemo
(agemo)
2025 年 6 月 21 日午後 9:36
14
これは問題のあるペースで進行している可能性があります。
AIが有効なボットトラフィックと思われるものを見てきました。それは、ディスコースサービスが苦情を言い始めるほどのDDOSレベルの混乱に近づいていました。
それほど強力なセットアップではありませんが、予想される通常の需要にはある程度の余裕があります。
今回は、大量の匿名 トラフィックとその他 として現れました。
これは、サーバーCPU、負荷、およびディスクI/O統計の増加と完全に一致しました。
ここの ユーザーとして、AIの熱狂的な採用を非難したことで多くの非難と(一時的な)禁止を受けました。それは今や多くの方法で(失業など)裏目に出ており、そして今度は、OPの連続である可能性があり、AIが有効な最新のウェブボットトラフィックがその存在を知らせているだけで、ああ、そうです。
当時、私の見解では、顧客/エンドユーザーを軽減するためのすべての戦略を考える時期でもありましたが、単にサブパートナーとして軍拡競争に参加するのではなく、マスクスタイルの論理は、勝てないなら参加しろ、ということですが、この場合は言うは易く、正しい選択ではなく、規制の呼びかけはナイーブです。
身を引く?
今となっては手遅れかもしれません。
AIトラフィックはより人間らしくなる可能性があります。技術的にはそれがどのように機能するかはわかりませんが(どうやってここにたどり着いたかは知っています)、おそらく人間のようなトラフィックとしてより簡単に通過し、Googleの観点からは望ましいように見える、より検出不可能なトラフィックを提示しますが、ああ、これはより大きな新しい問題かもしれません。
何も無料ではありません。どれだけの人が(再び)これに目をくらまされ、人間のレベルの注意を払わず、身を引くオプションを選択しなかったのかわかりません。
現時点では、そのトラフィックは依然として非常に特定の地域から来ており、ASNブロックでさえ外科的に熱を取り除くのに十分です。
いつまで?
ryan_olsen
(ryan olsen)
2025 年 6 月 21 日午後 10:48
15
これはかなり普通です。私は多くのサイトを運営しており、CloudFlareは通常、実際のトラフィックの10倍から30倍を表示します。アナリティクスをトリガーしない場合、それらはボットまたは検索エンジンのクローラーです。ほとんどのボットは、アナリティクスに使用されるJavaScriptを実行しないためです。
「いいね!」 1
agemo
(agemo)
2025 年 6 月 21 日午後 10:51
17
これらはGoogleアナリティクスに表示されていました。たしか、それが違いでした。
ryan_olsen
(ryan olsen)
2025 年 6 月 21 日午後 10:53
18
本当に心配な場合は、CloudFlareを導入し、問題のある国からのアクセスをファイアウォールでブロックしてください。IPアドレスが既にDNSに登録されている場合は、新しいIPアドレスを取得してください。これは攻撃を受けている場合の話です。
「いいね!」 1
agemo
(agemo)
2025 年 6 月 21 日午後 11:01
19
確かに、サーバーはすでにCF DNSにありましたが、古いセットアップのアドバイスからまだ機能しないと思っていたため、プロキシされていませんでした。オレンジ色の雲への恐怖は根強いですね。
しかし、波の1つで試してみたところ、しばらく監視した後、比較的簡単にトラフィック量を緩和できました。それ以外にも、かなりの量のトラフィックが削除されたようです。
IPアドレスを変更する唯一の方法は、新しいサーバーに移動することですか?
ryan_olsen
(ryan olsen)
2025 年 6 月 21 日午後 11:08
20
ホスティングサービスによります。DigitalOcean のようなサービスでは、ダッシュボードで新しい静的 IP アドレスを割り当てることができますが、一部のサービスでは。彼らに尋ねる必要があるかもしれません。私はそれをオフにしません。オレンジ色のクラウドをオフにした場合、その IP は侵害されたと見なします。オンにしたことでトラフィックが失われた場合、SSL 設定が正しくない可能性が高いです。またはキャッシュが正しくありません。SSL がまだ適切に設定されていない場合、Cloudflare へのライブ切り替えは難しい場合があります。DNS からキャッシュされていない IP アドレスを取得してテストするのが難しいためです。
「いいね!」 1