セルフホストしてる皆さん、悪質クローラーにどう対処してますか?

このスレッドを読んでいます: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

特にFediverse内のインスタンスで、セルフホストしている人々が、事実上DDoS攻撃をノンストップで行うクローラーにどう対処しているのか気になります。

「いいね!」 2

まず、この問題の大きさを「新しい」ページビューメトリックを使用して自分で定量化することをお勧めします。

人間以外のトラフィックが60%程度見られる場合は、おそらく問題なく、対応する必要はありません。
95%の場合は…そうですね、解決策の調査を開始する時期かもしれません。

Blocked crawler user agents を設定することは、管理者にとって非常に役立ちます。Discourse では、トラフィックの負荷がそれほど重くないため、不要なトラフィックはそれほど大きな問題ではありません。しかし、私は最悪のクローラーをいくつか禁止しました。彼らのビジネスモデルが本当に気に入らないからです。AI企業がコンテンツを盗んでいると皆が騒いでいますが、それは実際に行われていますが、SEO企業はさらに悪質です。そして、彼らのボットは本当に貪欲です。

しかし、私はジオブロッキングも利用しています。なぜなら、できるからです。少なくとも半ダースの国からは、不正行為者やその他の悪意のあるアクターがいます。しかし、フォーラムがグローバルなオーディエンスを対象としている場合、もちろんそれは不可能です。

WordPress サイトでは、Varnish の助けを借りて Nginx を使用して同じことを行っています。

現時点では、私のフォーラムでは人間とボットの比率は 50/50 のようなものです。

「いいね!」 1

ちなみに、タグは正しくないと思います。

はい、同意します。AIタグにはプラグインアイコンが付いているので、AI プラグイン専用だと思われます。削除しました。

クローラーのコンテンツは大量にキャッシュされるため、実際にはDDoS攻撃ができるほどパフォーマンスに影響が出たことはありません。

これによって実際にパフォーマンスの問題が発生していますか?

「いいね!」 2