Анонимные просмотры внезапно резко выросли

Я никогда не знаю, что думать о количестве анонимных просмотров, но они, похоже, никогда не соответствуют данным Google Analytics каким-либо значимым образом.

Последние четыре дня или около того привели это в фокус, потому что наблюдался огромный устойчивый рост анонимных просмотров, что необычно.

Это может быть совпадением после обновления до версии 3/3.1, но не может ли это быть связано, так как это началось немного позже.

Также заметив, что статистика входов значительно снизилась, это вызывает беспокойство.

В целом трудно понять, как соотносить статистику входов с просмотрами, поскольку они не соответствуют аналитическим данным, но, глядя только на панель управления, наблюдается странная новая тенденция.

Что касается расхождений между Google Analytics и статистикой панели управления, вот простой пример: вы видите 500 уникальных посещений в Google Analytics за день, но на панели управления Discourse — 2000 входов, 50 000 анонимных просмотров и 5000 краулеров.

Что вообще происходит с этими показателями?

Как нам следует относиться к этим данным и что они могут рассказать нам в плане управления форумом Discourse?

Являются ли анонимные просмотра признаком несанкционированного трафика, накрученного ботами, и пустой тратой ресурсов?

Такой трафик фильтруется в Google Analytics, если выбрать правильный параметр — возможно, на стороне Discourse этого нет, и это может указывать на какой-то низкоуровневый трафик типа DDoS по каким-то странным и надуманным причинам, снова тратя ресурсы, но возможно, влияя на реальные входы?

Пока никаких сообщений о проблемах с входами не поступало.

В целом, как нам интерпретировать цифры на панели управления!

Спасибо за любые разъяснения и советы.

Привет, @agemo!

Я тоже замечаю подобное поведение в последние пару месяцев. Удалось ли вам что-то узнать об этом?

Скорее всего, это боты, возможно, боты для сбора данных с помощью ИИ.

Мне очень помогли отчеты о веб-сканерах в панели администратора, после того как мне сообщили об их существовании (раньше я их не замечал). С их помощью я заблокировал различных сканеров, что снизило количество анонимных просмотров. Я считаю, что сканеры также заходят через анонимные просмотры. Не знаю, как именно.

В отчетах также указываются имена сканеров (user agents), чтобы можно было найти информацию о каждом из них и оценить их полезность.

Эта тема также может быть полезной:

Это возможно, тоже не знаю, как именно, но, думаю, это зависит от того, как система различает ботов и пользователей.

Я замечал всплески активности краулеров при публикации большего количества текста, а также несколько дней назад был какой-то случайный всплеск анонимных просмотров.

Теперь у нас внедрён новый показатель, который разделяет анонимные просмотры страниц на категории «вероятно, человек» и «вероятно, бот», чтобы пользователи воспринимали последних как краулеров (которыми они, скорее всего, и являются, но не идентифицируют себя как таковые).

Этот отчёт входит в стандартный набор и доступен по адресу /admin/reports/consolidated_page_views_browser_detection.

Также ведутся работы по применению этого подхода к показателям просмотров тем, чтобы предотвратить искусственное завышение данных из-за ботов.

Этот новый график полезен, похоже, что категория «вероятно, бот» помечена как «другие просмотры страниц»:

Что касается наглых новых ботов, которые не представляются должным образом, есть ли способ их замедлить или определить источник?

Можно проверить отчёты о пользовательских агентах веб-сканеров, но если они там не отображаются, неясно, что ещё можно исследовать.

Нет. Если разработчик этого бота работает так, как это часто бывает, то есть какая-то часть текста в user agent, устройстве, системе и т. д. всегда одинакова, то вы можете полностью заблокировать их, но для этого нужен обратный прокси. robots.txt — это лишь рекомендация для добросовестных ботов.

Журналы Discourse дают лишь общее представление о ситуации. Такие детальные данные нужно искать в журналах Nginx, то есть в консоли администратора :smirking_face:

WordPress легко может встать на колени из-за ботов, но с Discourse ситуация скорее просто раздражает. Кража контента сегодня — это норма, и так уже давно.

Обратный прокси-сервер кажется хорошим первым шагом. Подойдет ли для этого Cloudflare?

Я знаю местного веб-разработчика, который рекомендовал использовать DNS-серверы Cloudflare для повышения безопасности.

Меня не слишком беспокоит, что опубликованный контент могут «украсть»: когда текст публикуется публично, у людей есть право его фиксировать, пока они не пытаются продавать его как своё собственное творчество — тогда это уже становится проблемой.

Я бы посоветовал Nginx или Varnish. Но, возможно, подойдёт и Cloudflare, я его не знаю, никогда не использовал.

Вчера, 17 августа, наблюдался необычный всплеск «просмотров других страниц» от ботов — 152 случая. Это очень странно для в основном неактивного сайта, который обычно получает лишь около 15–20 таких просмотров в день.

Вполне нормально. У меня наилучшие результаты получались при блокировке самых проблемных юзер-агентов и гео-блокировке (мой форум не глобальный, поэтому я легко это делаю).

Вы имеете в виду географическую блокировку IP-адресов из других стран, кроме Финляндии? Это кажется хорошей идеей для сайтов, ориентированных на локальную аудиторию.

Да. Сейчас я получаю много трафика из России, Сингапура и Китая. Раньше это были Индия, Пакистан, Египет, Иран и Ирак. И я уверен, что они не могут финить :wink: С Россией это возможно, но… нет.

Три крупнейшие страны — США, Франция и Нидерланды, а Германия растёт. Но это связано с дата-центрами, поэтому я не могу их заблокировать.

Но опять же, в случае с Discourse они в основном просто раздражают. В WordPress (и, я бы сказал, в других LAMP-стеках) они создают такую нагрузку, что ситуация начинает напоминать DDoS-атаку.

Большинство атак исходят от глупых скрипт-кидди, которые пытаются сломать Discourse, используя устаревшие уязвимости WordPress.

Но в последнее время SEO-боты и боты ИИ стали настоящей проблемой.

Однако, если у вас локальный форум, геоблокировка — разумный шаг.

Это может принимать тревожные темпы.

Я наблюдал то, что, как я подозреваю, является трафиком от ботов с поддержкой ИИ, который приближался к уровню сбоя типа DDOS, пока сервис Discourse начал выдавать предупреждения.

Это не самая мощная конфигурация, но обычно для ожидаемого нормального спроса есть некоторый запас прочности.

На этот раз это проявилось как огромный анонимный трафик и трафик из других источников.

Это идеально совпало с резким ростом показателей нагрузки на сервер: использование процессора, общая нагрузка и операции ввода-вывода на диске.

Как пользователь здесь, я получил массу критики и множество (временных) банов за критику безудержного энтузиазма в отношении внедрения ИИ, который теперь по-настоящему возвращается, чтобы укусить нас во многих аспектах (например, потеря рабочих мест, но и теперь вот это, что может быть продолжением темы оригинального поста и представляет собой лишь новейший трафик веб-ботов на базе ИИ, заявляющий о себе, ох, боже.

Тогда моя позиция заключалась в том, что это (также) время задуматься о всех стратегиях смягчения последствий для клиента/конечного пользователя, а не просто присоединяться к гонке вооружений в качестве субпартнёра. Логика в стиле Маска «если не можешь победить, присоединяйся» в данном случае легко сказать, но это не правильный выбор, а призыв к регулированию наивен.

Отойти в сторону?

Возможно, уже слишком поздно.

Трафик от ИИ может стать более похожим на человеческий: технически я не знаю, как это работает (но я знаю, как мы сюда пришли), кроме того, что он, вероятно, легче маскируется под человеческий трафик и представляет собой менее обнаруживаемый поток, который также выглядит привлекательным с точки зрения Google, но, ох, это может стать ещё одной большой проблемой.

Ничего никогда не бывает бесплатно. Не знаю, сколько (опять же) людей так ослепило это, что они не проявили человеческой осторожности и не выбрали вариант «отойти в сторону».

Прямо сейчас этот трафик поступает из очень конкретных регионов, и даже блоки ASN достаточно для хирургического устранения проблемы.

На сколько долго?

Это вполне нормально, я управляю множеством сайтов, и CloudFlare обычно показывает трафик в 10–30 раз выше реального. Если они не вызывают аналитику, значит, это боты или поисковые краулеры, так как большинство ботов не выполняют JavaScript, используемый для аналитики.

CloudFlare — бесплатно :wink:

Это появилось в Google Analytics. Насколько я помню, это было тем, что отличалось.

Если вы действительно обеспокоены, используйте CloudFlare и настройте брандмауэр для блокировки стран-нарушителей. Если ваш IP-адрес уже был занесен в DNS, получите новый IP-адрес. Это актуально, если на вас совершается атака.

Действительно, сервер уже был подключен к DNS Cloudflare, но не проксировался, так как я всё ещё считал, что это не работает из-за старых рекомендаций по настройке. Вы знаете, что страх перед оранжевым облаком велик. :sweat_smile:

Однако я попробовал это во время одной из волн атак и относительно легко справился с объёмом трафика после некоторого наблюдения. Похоже, это также отсекло значительно больше трафика.

Единственный ли способ получить новый IP-адрес — перенести данные на новый сервер?

Зависит от вашего хостинг-провайдера. Некоторые, например DigitalOcean, позволяют просто назначить новый статический IP-адрес в панели управления, для других может потребоваться обратиться к ним за помощью. Я никогда не отключаю его. Если я выключаю оранжевое облако, я считаю, что этот IP-адрес скомпрометирован. Если после включения вы теряете трафик, скорее всего, настройки SSL указаны неверно. Или же некорректно настроено кэширование. Переход на CloudFlare «на лету» может быть сложным, если у вас еще не настроен SSL. Это связано с тем, что трудно получить некешированный IP-адрес от DNS для тестирования.