Интересно, каково это для людей, использующих самохостинг, — сталкиваться с тем, что краулеры фактически постоянно проводят DDoS-атаки, особенно на инстансах внутри Федиверса.
Я думаю, что хорошим первым шагом будет оценить для себя масштаб этой проблемы с помощью нового показателя просмотров страниц:
Если вы видите, что доля нечеловеческого трафика составляет около 60%, это, вероятно, нормально, и предпринимать никаких действий не нужно.
Если же она достигает 95%… да, возможно, пришло время начать искать решения.
Настройка «Заблокированные пользовательские агенты поисковых роботов» — лучший друг администратора. Мусорный трафик не является такой уж большой проблемой для Discourse, поскольку нагрузка не слишком высока. Однако я заблокировал несколько самых худших, потому что мне крайне не нравится их бизнес-модель. Все жалуются на то, что компании, занимающиеся искусственным интеллектом, крадут контент, и это действительно так, но SEO-компании гораздо хуже — и их боты действительно алчные.
Но я также использую гео-блокировку, потому что могу. Есть как минимум полдюжины стран, откуда исходят мошенники и другие злоумышленники. Однако, если форум предназначен для глобальной аудитории, это, разумеется, невозможно.
На моих сайтах WordPress то же самое реализуется с помощью Nginx и Varnish.
В данный момент соотношение людей и ботов в моем форуме составляет примерно 50/50.
Жаль, что я не могу предложить решение, которое было бы бесплатным или не требовало бы использования сторонних сервисов. Я подключил свой крупнейший форум к CDN от bunny.net. У них есть щедрый бесплатный тариф. Однако для этого форума я плачу 10 долларов в месяц за их сервис безопасности. Он позволяет блокировать краулеров, DDoS-атаки и ограничивать доступ по географическому признаку. Среди CDN они действительно недорогие, но эффективные, и это не CloudFlare. Многие пользователи фидиверса высоко их оценивают.
У меня есть график из их сервиса Shield. (Я новичок, поэтому в одном ответе могу показать только один график ) На первом графике видно 484 тысячи подключений ботов из общего числа в 2 миллиона. Я только что перешёл на CDN и ещё не настроил фильтрацию или блокировку. На следующем графике показано 11 тысяч ботов и 90 тысяч заблокированных запросов из-за списков доступа (я блокирую Китай, Россию и, возможно, ещё пару стран). Таким образом, за неделю было около 100 тысяч запросов от ботов из общего числа в 700 тысяч запросов.
Cloudflare всегда относился ко мне хорошо, и мне никогда не приходилось платить за услуги защиты от ботов. Плюс их новые функции, такие как защита от ИИ, отличны и именно они удерживают меня как клиента и, скажем так, пропагандиста их сервиса. Не хотите, чтобы ИИ-скрейперы крали ваши данные? Просто используйте одно из их управляемых правил (ведь это вполне возможно реализовать, используя обычный robots.txt, как я делаю на своём сайте).
Другое дело, слушают ли эти стартапы этот файл и уважают ли его, но хотя бы они пытаются, и это заслуживает похвалы. На моих сайтах никогда не было проблем с ботами, и я по-прежнему доволен возможностью блокировать распространённые уязвимости WordPress прямо там, после анализа своих логов.
Facebook (Meta) уже делал нечто подобное: если отключить «контроль ИИ-краулеров», Meta просто отправляет 9 тысяч запросов в час, поэтому единственный выход — заблокировать их всех.
В федивёрсе у меня уже какое-то время нет этой проблемы, но я жду дополнительных обновлений activitypub, потому что даже если у меня не было проблем с этим, моя пропускная способность всё равно будет затрачена впустую.
Это не место для обсуждения достоинств CloudFlare, но моя проблема с ними не в таких хороших людях, как вы. Моя проблема с ними — во всех плохих людях, с которыми они готовы вести бизнес. Любой в мире кибербезопасности, кто борется с вредоносным ПО и ботнетами, часто сталкивается с CloudFlare. Точно так же любой, кто борется с экстремистами в интернете, знает, как часто CloudFlare защищает экстремистские сайты, когда другие провайдеры отказываются это делать. Дело не в том, что они неэффективны или слишком дороги. Дело в отсутствии моральных принципов при выборе клиентов.