Кстати, возникает вопрос: может ли использование Cloudflare также помочь с индексацией в Google?
Вчера я заметил некоторые улучшения — позитивную динамику индексации и показов, но это могло быть просто совпадением. ![]()
Кстати, возникает вопрос: может ли использование Cloudflare также помочь с индексацией в Google?
Вчера я заметил некоторые улучшения — позитивную динамику индексации и показов, но это могло быть просто совпадением. ![]()
Заметили резкий всплеск в конце октября. Похоже, эти боты обходят функцию смягчения Block Ai Bots от Cloudflare.
Теперь Cloudflare предлагает использовать AI Labyrinth:
AI Labyrinth изменяет ваши веб-страницы, добавляя ссылки с атрибутом nofollow, содержащие сгенерированный ИИ контент, чтобы нарушить работу ботов, игнорирующих стандарты краулинга. Добавленные ссылки nofollow не меняют содержимое ваших веб-страниц и видны только ботам.
Борьба с ИИ с помощью ИИ? ![]()
Гонка вооружений с участием ИИ, да?
Это гонка вооружений, и, как в случае со спамерами, я подозреваю, что так будет всегда.
Какой вариант без Cloudflare (убежище от ядерной войны) в качестве посредника для смягчения этой проблемы, или это единственный вариант?
Кажется, что всё или ничего, а ничего = AI-трафик, который ведёт себя как DDoS! ![]()
Этот всплеск — настоящая головная боль. Наиболее эффективным решением стало полное географическое блокирование трафика из всех гео-зон, кроме той, откуда в настоящее время поступает основная масса трафика.
В этом всплеске потенциально задействовано так много ASN, что их выявление — медленный и мучительный процесс.
В долгосрочной и среднесрочной перспективе это делает ситуацию в целом совершенно нежизнеспособной.
Для меня главное — это опыт реальных пользователей: будь то участники или просто наблюдатели. Пока форум работает нормально, я не оплачиваю дополнительный трафик и хранилище не заполняется логами, этот лишний нежелательный трафик меня не беспокоит.
Конечно, возможно, что мои расходы возрастут, если мне понадобится добавить оперативную память, место на диске или процессоры, либо если мне придется платить за чрезмерный трафик. Но пока этого со мной не случалось.
Да, пользовательский опыт — это главное, суть всей этой темы. Мы существуем только благодаря «пользователям», но иногда мне кажется, что разработчики и другие забывают об этом. ![]()
Эти AI-инструменты так сильно нагружают сервер, что начинаешь получать ошибки 50x. Особенно при попытке выполнить поиск. Платформа способна выдерживать большой трафик и справляться с нагрузкой, но начинает работать нестабильно.
Интересно, с какими характеристиками сервера вы имеете дело, и стоит ли он за Cloudflare или другим WAF?
Я видел, как всплеск AI-трафика доводил до предела droplet’ы с 4 ядрами CPU, 8 ГБ ОЗУ и более 160 ГБ на диске, которые обычно легко справляются с десятками уникальных пользователей при реальном всплеске посещаемости, но начинают серьёзно страдать под нагрузкой от AI.
При запуске Discourse на базовом droplet’е, скажем, на 2 ГБ ОЗУ, платформа очень быстро начнёт давать сбои и рушиться, если не стоит защита вроде Cloudflare.
Раньше такого не случалось, если только не было горячей темы. Я видел подобное, но только постфактум, потому что не было заметной разницы в производительности — Discourse справлялся с обслуживанием без проблем.
Судя по средним данным Cloudflare, объём передаваемых данных составлял около 2 ГБ в день в течение месяца, но когда пришла эта волна, он подскочил до 14 ГБ с признаками остановки, пока правила WAF не поставили заслон этой атаке.
Усиление барьеров на входе означает, что те, кто действительно хочет попасть на сайт, всё равно попадут — таких нужно ценить. Но вся остальная органическая трафиковая масса, в общем-то, не будет беспокоить.
Как я уже сказал, жизнеспособность в среднесрочной и долгосрочной перспективе здесь представляет серьёзную проблему.
Теперь требуются ресурсы времени и/или денег. Я не знаю, как обойти это иначе, кроме как текущей стратегией, а затем остаётся только ядерный вариант — выключить всё. Я видел, как сайты закрывались и по меньшим причинам.
Открытый интернет не создавался с учётом такой игры.
Конечно, если вы обнаружите, что получаете ошибки 50x, это серьёзная проблема.
Раньше я использовал Cloudflare и снова бы прибегнул к нему, если бы возникла проблема: я считаю, что у них есть централизованное представление обо всем вредоносном трафике, и они могут быстро реагировать централизованно. Я полагаю, что у них есть специальные предложения для блокировки некорректно работающих AI-краулеров. Я не ожидаю, что локальные методы будут эффективны в этой гонке вооружений.
Так же, как я плачу небольшую плату Mailgun за обработку почты, что в идеальном мире мне, возможно, не потребовалось бы, я готов принять, что мне, возможно, придется платить небольшую плату кому-то за блокировку этого нежелательного трафика.
Сейчас тестируем режим, доступный только для авторизованных пользователей, из-за высокого уровня трафика.
Мне кажется, что кэш Cloudflare может стать проблемой: он всё равно будет отдавать закэшированный контент.
AI-боты атакуют, в том числе, множество других прямых путей, например:
...stylesheets/docker_manager_abc123.css
Контент отдаётся, как и файлы .js и т.д. Фактически, я считаю, что запросы проходят мимо «управляемого вызова», и в Reddit я читал похожие опасения.
Есть ли полезный список всех директорий и т.п., которые можно заблокировать или управлять ими с помощью правил, не сломав при этом всё?
Получается, что режим «только для авторизованных» не означает полный запрет доступа для анонимного трафика при использовании Cloudflare, но означает это при отключённом кэше. Кто-нибудь может подтвердить это?