このスレッドを読んでいます: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News
特にFediverse内のインスタンスで、セルフホストしている人々が、事実上DDoS攻撃をノンストップで行うクローラーにどう対処しているのか気になります。
このスレッドを読んでいます: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News
特にFediverse内のインスタンスで、セルフホストしている人々が、事実上DDoS攻撃をノンストップで行うクローラーにどう対処しているのか気になります。
まず、この問題の大きさを「新しい」ページビューメトリックを使用して自分で定量化することをお勧めします。
人間以外のトラフィックが60%程度見られる場合は、おそらく問題なく、対応する必要はありません。
95%の場合は…そうですね、解決策の調査を開始する時期かもしれません。
Blocked crawler user agents を設定することは、管理者にとって非常に役立ちます。Discourse では、トラフィックの負荷がそれほど重くないため、不要なトラフィックはそれほど大きな問題ではありません。しかし、私は最悪のクローラーをいくつか禁止しました。彼らのビジネスモデルが本当に気に入らないからです。AI企業がコンテンツを盗んでいると皆が騒いでいますが、それは実際に行われていますが、SEO企業はさらに悪質です。そして、彼らのボットは本当に貪欲です。
しかし、私はジオブロッキングも利用しています。なぜなら、できるからです。少なくとも半ダースの国からは、不正行為者やその他の悪意のあるアクターがいます。しかし、フォーラムがグローバルなオーディエンスを対象としている場合、もちろんそれは不可能です。
WordPress サイトでは、Varnish の助けを借りて Nginx を使用して同じことを行っています。
現時点では、私のフォーラムでは人間とボットの比率は 50/50 のようなものです。
ちなみに、タグは正しくないと思います。
はい、同意します。AIタグにはプラグインアイコンが付いているので、AI プラグイン専用だと思われます。削除しました。
クローラーのコンテンツは大量にキャッシュされるため、実際にはDDoS攻撃ができるほどパフォーマンスに影響が出たことはありません。
これによって実際にパフォーマンスの問題が発生していますか?