セルフホストしてる皆さん、悪質クローラーにどう対処してますか？

eisammy · 2025 年 4 月 10 日午後 4:02

このスレッドを読んでいます: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

特にFediverse内のインスタンスで、セルフホストしている人々が、事実上DDoS攻撃をノンストップで行うクローラーにどう対処しているのか気になります。

Bas · 2025 年 4 月 11 日午前 8:20

まず、この問題の大きさを「新しい」ページビューメトリックを使用して自分で定量化することをお勧めします。

人間以外のトラフィックが60%程度見られる場合は、おそらく問題なく、対応する必要はありません。
95%の場合は…そうですね、解決策の調査を開始する時期かもしれません。

Jagster · 2025 年 4 月 11 日午前 8:57

Blocked crawler user agents を設定することは、管理者にとって非常に役立ちます。Discourse では、トラフィックの負荷がそれほど重くないため、不要なトラフィックはそれほど大きな問題ではありません。しかし、私は最悪のクローラーをいくつか禁止しました。彼らのビジネスモデルが本当に気に入らないからです。AI企業がコンテンツを盗んでいると皆が騒いでいますが、それは実際に行われていますが、SEO企業はさらに悪質です。そして、彼らのボットは本当に貪欲です。

しかし、私はジオブロッキングも利用しています。なぜなら、できるからです。少なくとも半ダースの国からは、不正行為者やその他の悪意のあるアクターがいます。しかし、フォーラムがグローバルなオーディエンスを対象としている場合、もちろんそれは不可能です。

WordPress サイトでは、Varnish の助けを借りて Nginx を使用して同じことを行っています。

現時点では、私のフォーラムでは人間とボットの比率は 50/50 のようなものです。

Jagster · 2025 年 4 月 11 日午前 8:59

ちなみに、タグは正しくないと思います。

RGJ · 2025 年 4 月 11 日午前 9:22

はい、同意します。AIタグにはプラグインアイコンが付いているので、AI プラグイン専用だと思われます。削除しました。

クローラーのコンテンツは大量にキャッシュされるため、実際にはDDoS攻撃ができるほどパフォーマンスに影響が出たことはありません。

これによって実際にパフォーマンスの問題が発生していますか？

paco · 2026 年 3 月 20 日午前 3:41

無料の解決策や外部サービスを使わない方法があればいいのですが、私は自分の最大のフォーラムをbunny.netのCDNの背後に置いています。彼らは寛大な無料枠を提供しています。しかし、そのフォーラムについては、セキュリティサービスを利用するために月額10ドルを支払っています。これにより、クローラー、DDoS、および地理的なブロックが可能になります。CDNとしては、非常に安価でありながら効果的であり、CloudFlareではありません。Fediverseの多くの人が彼らを高く評価しています。

彼らのShieldサービスのグラフがあります。（私は初心者なので、返信ごとにグラフは1つだけです）最初のグラフでは、合計200万接続のうち48万4千がボット接続でした。私はCDNに移行したばかりで、フィルタリングやブロッキングを設定していませんでした。次のグラフでは、ボットが1万1千で、アクセスリストにより9万がブロックされています（私は中国とロシア、そしておそらく他の数カ所をブロックしています）。したがって、その週の合計70万リクエストのうち、ボットからのものは約10万でした。

その後：

eisammy · 2026 年 3 月 21 日午前 9:03

しかし、私はそれに対処するためのいくつかのルールを作成しました。

チャンドラー・ビング：「ええ、でも私はもっと速い」

darkpixlz · 2026 年 3 月 21 日午前 9:20

Cloudflare は私にとって常に親切で、アンチボットサービスにお金を払ったことは一度もありません。それと、アンチAIのような新しい機能は素晴らしく、私が顧客であり続け、彼らの信奉者である理由だと思います。AIスクレイパーにデータを盗まれたくないですか？彼らの管理ルールを使うだけです（私のサイトで行っているように、通常の robotstxt だけで完全に可能なことですが）。

..一般的な管理されているものと比較して、ずっと良いです..

これらのスタートアップが実際にファイルを尊重し、注意を払っているかどうかは別の話ですが、少なくとも試みていることは称賛に値します。私のサイトはいずれも過去にボットに関する問題はなく、ログを読んで、一般的な WordPress の悪用を直接ブロックできる機能には今でも繰り返し満足しています。

eisammy · 2026 年 3 月 21 日午前 9:54

Facebook (meta) も同様のことを行っており、「AIクロール制御」を無効にすると、meta は 1 時間あたり 9K リクエストを送信するため、すべてブロックするしかありません。

Fediverse ではしばらくこれらの問題はありませんが、activitypub のさらなるアップデートを待っています。なぜなら、問題がなくても帯域幅が無駄になるからです。

まったくその通りです。私は CF を使用している lemmy サーバーを利用しており、その管理者がこのチュートリアルを投稿しました。

私も同じです。現在のルールは次のとおりです。

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

そして、上記の lemmy サーバーに基づいて：

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

私にとってはこれで十分です

これらのルールは、先月 DDoS (DDos だったかどうかは不明) を乗り切るのに役立ちました。

paco · 2026 年 3 月 21 日午後 2:02

CloudFlareの長所をここで議論する場ではありませんが、私と彼らの問題は、あなたのような良い人々ではありません。私の問題は、彼らが喜んで取引するすべての悪質な人々です。マルウェアやボットネットと戦うサイバーセキュリティの世界の誰もが、CloudFlareが頻繁に登場することを目にします。同様に、オンラインの過激派と戦う誰もが、他のプロバイダーが拒否する場所で、CloudFlareがいかに頻繁に過激派サイトを保護しているかを知っています。彼らが効果がないとか、高すぎるとかいうわけではありません。彼らが顧客を選ぶ際の道徳性の欠如です。

トピック		返信	表示
Smarter handling of random crawler traffic Feature	1	3563	2018 年 3 月 29 日
Controlling Web Crawlers For a Site Site Management how-to	10	2614	2025 年 7 月 19 日
Too many Crawlers, is that a problem? Data & reporting	6	2560	2020 年 6 月 25 日
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4750	2023 年 12 月 2 日
How to deal with sudden high “Other traffic” in site analytics? Support	7	376	2025 年 8 月 28 日

セルフホストしてる皆さん、悪質クローラーにどう対処してますか？

関連トピック