Как те, кто использует самохостинг здесь, справляются с плохими краулерами?

Читая эту ветку: Разработчики говорят, что AI-краулеры доминируют в трафике, вынуждая блокировать целые страны | Hacker News

Интересно, каково это для людей, использующих самохостинг, — сталкиваться с тем, что краулеры фактически постоянно проводят DDoS-атаки, особенно на инстансах внутри Федиверса.

2 лайка

Я думаю, что хорошим первым шагом будет оценить для себя масштаб этой проблемы с помощью нового показателя просмотров страниц:

Если вы видите, что доля нечеловеческого трафика составляет около 60%, это, вероятно, нормально, и предпринимать никаких действий не нужно.
Если же она достигает 95%… да, возможно, пришло время начать искать решения.

Настройка «Заблокированные пользовательские агенты поисковых роботов» — лучший друг администратора. Мусорный трафик не является такой уж большой проблемой для Discourse, поскольку нагрузка не слишком высока. Однако я заблокировал несколько самых худших, потому что мне крайне не нравится их бизнес-модель. Все жалуются на то, что компании, занимающиеся искусственным интеллектом, крадут контент, и это действительно так, но SEO-компании гораздо хуже — и их боты действительно алчные.

Но я также использую гео-блокировку, потому что могу. Есть как минимум полдюжины стран, откуда исходят мошенники и другие злоумышленники. Однако, если форум предназначен для глобальной аудитории, это, разумеется, невозможно.

На моих сайтах WordPress то же самое реализуется с помощью Nginx и Varnish.

В данный момент соотношение людей и ботов в моем форуме составляет примерно 50/50.

1 лайк

Кстати, я полагаю, тег указан неверно.

Согласен, у тега AI есть иконка плагина, поэтому я предполагаю, что он предназначен только для плагина AI. Я его удалил.

Контент от краулеров сильно кэшируется, поэтому на практике я никогда не видел, чтобы они могли совершить DDoS-атаку.

У вас действительно возникают проблемы с производительностью из-за этого?

5 лайков

Жаль, что я не могу предложить решение, которое было бы бесплатным или не требовало бы использования сторонних сервисов. Я подключил свой крупнейший форум к CDN от bunny.net. У них есть щедрый бесплатный тариф. Однако для этого форума я плачу 10 долларов в месяц за их сервис безопасности. Он позволяет блокировать краулеров, DDoS-атаки и ограничивать доступ по географическому признаку. Среди CDN они действительно недорогие, но эффективные, и это не CloudFlare. Многие пользователи фидиверса высоко их оценивают.

У меня есть график из их сервиса Shield. (Я новичок, поэтому в одном ответе могу показать только один график :slight_smile:) На первом графике видно 484 тысячи подключений ботов из общего числа в 2 миллиона. Я только что перешёл на CDN и ещё не настроил фильтрацию или блокировку. На следующем графике показано 11 тысяч ботов и 90 тысяч заблокированных запросов из-за списков доступа (я блокирую Китай, Россию и, возможно, ещё пару стран). Таким образом, за неделю было около 100 тысяч запросов от ботов из общего числа в 700 тысяч запросов.

После:

2 лайка

Я был, но я установил несколько правил, чтобы с этим справиться.

Чендлер Бинг: «Да, но я намного быстрее»

Cloudflare всегда относился ко мне хорошо, и мне никогда не приходилось платить за услуги защиты от ботов. Плюс их новые функции, такие как защита от ИИ, отличны и именно они удерживают меня как клиента и, скажем так, пропагандиста их сервиса. Не хотите, чтобы ИИ-скрейперы крали ваши данные? Просто используйте одно из их управляемых правил (ведь это вполне возможно реализовать, используя обычный robots.txt, как я делаю на своём сайте).

.. по сравнению с универсальным управляемым правилом — намного лучше..

Другое дело, слушают ли эти стартапы этот файл и уважают ли его, но хотя бы они пытаются, и это заслуживает похвалы. На моих сайтах никогда не было проблем с ботами, и я по-прежнему доволен возможностью блокировать распространённые уязвимости WordPress прямо там, после анализа своих логов.

1 лайк

Facebook (Meta) уже делал нечто подобное: если отключить «контроль ИИ-краулеров», Meta просто отправляет 9 тысяч запросов в час, поэтому единственный выход — заблокировать их всех.

В федивёрсе у меня уже какое-то время нет этой проблемы, но я жду дополнительных обновлений activitypub, потому что даже если у меня не было проблем с этим, моя пропускная способность всё равно будет затрачена впустую.


Абсолютно верно, я использую сервер Lemmy, который работает через Cloudflare, и их администратор опубликовал этот учебник:


У меня то же самое, мои текущие правила:

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

И основываясь на вышеупомянутом сервере Lemmy:

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

Для меня этого достаточно.

Эти правила помогли мне пережить DDoS-атаку (не уверен, что это именно она была) в прошлом месяце.

Это не место для обсуждения достоинств CloudFlare, но моя проблема с ними не в таких хороших людях, как вы. Моя проблема с ними — во всех плохих людях, с которыми они готовы вести бизнес. Любой в мире кибербезопасности, кто борется с вредоносным ПО и ботнетами, часто сталкивается с CloudFlare. Точно так же любой, кто борется с экстремистами в интернете, знает, как часто CloudFlare защищает экстремистские сайты, когда другие провайдеры отказываются это делать. Дело не в том, что они неэффективны или слишком дороги. Дело в отсутствии моральных принципов при выборе клиентов.

3 лайка