Я заметил кое-что странное с 15 по 16 февраля 2022 года в нашем самохостинговом экземпляре Discourse на DigitalOcean. Как видно на изображении ниже, количество анонимных пользователей в день резко выросло: с примерно 1 000 в день до среднего показателя в 10 000 в день. Я пытался выяснить причину этого, но безрезультатно.
Мне не удалось сопоставить этот скачок ни с просмотрами нашего контента, ни со статистикой из Google Search Console или Google Analytics. Мы также проверили логи, но ничего существенного не нашли.
Это было бы практически невозможно, если не сложно, ответить так, чтобы это касалось именно вашего сайта. Однако вы можете начать выяснять причину, посмотрев отчёт о сканировании в вашей панели управления, чтобы проверить, не вызвано ли это сканерами.
Также я отредактировал заголовок вашей темы, чтобы сделать его более описательным
Сущность, выполняющая запрос, сама идентифицирует себя как «обычного» пользователя или бота. Это система, основанная на доверии, со всеми вытекающими плюсами и минусами.
Большинство злоумышленников в экосистеме ботов не указывают, что они боты, и отправляют запросы, маскируясь под «обычных» пользователей. В таких случаях Discourse мало что может сделать.
Если вы умеете работать с командной строкой, подключитесь к своему серверу и выполните следующую команду, чтобы отследить, откуда поступает большинство запросов:
Конечно, ничего больше не требуется, кроме того, чтобы бот представлял себя как пользователь. Изменение user agent — действительно тривиальная задача, с этим справится даже ваш браузер. А Discourse знает только тех ботов, которые используют… ну, известные UA
Конечно, это могут быть и реальные пользователи, если где-то на сайте с высоким трафиком есть ссылка на вас.
Мне кажется, что загруженный там PDF-файл был где-то размещён по ссылке, и многие люди скачивают его напрямую? Этот PDF-файл был загружен злоумышленником и почему-то получает огромный трафик?
Спасибо, @pfaffman, но с PDF всё в порядке — я сам его загрузил. Я просто показал скриншот, чтобы продемонстрировать, что нет никакой корреляции с тем, что показывает статистика тысяч анонимных пользователей в Discourse.
Команда, которую вы предоставили, помогла нам отследить IP-адреса, ответственные за скачок. Пока что мы продолжим наблюдение, прежде чем решим, хотим ли мы заблокировать краулеров.
Просто для сведения: в моём случае подавляющее большинство запросов — это POST-запросы к конечной точке message-bus. Иными словами, скорее всего, это браузеры пользователей. В одном случае запросы приходят каждую минуту, в другом — гораздо чаще.
Это действительно большинство запросов на любом сайте Discourse, но они не учитываются как просмотры страниц, поэтому не отображаются на графике «Объединённые просмотры страниц» на панели управления, что делает этот вопрос немного не по теме.