Для тех, у кого есть права администратора для проверки пользовательских агентов веб-сканера:
Например, реальная ссылка; при необходимости измените URL для вашего сайта.
https://swi-prolog.discourse.group/admin/reports/web_crawlers
На нашем сайте внезапно увеличилось количество агентов Mastodon. Я подозреваю, что эти агенты принадлежат сайтам Mastodon. Поскольку я сам не использую Mastodon, мне теперь нужно выяснить, является ли это потенциальной проблемой для нашего сайта или просто фактом, который стоит иметь в виду.
Поскольку отчёт, отображаемый на веб-странице, обрезает часть необходимой информации, я скачал его.
web-crawlers-251023-084425-10.zip (4.3 КБ)
В конце обратите внимание на строки вида:
http.rb/5.1.1 (Mastodon/4.2.20; +https://acc4e.com/),1
Может ли кто-то пролить больше света на следующие вопросы?
- Связаны ли эти агенты с социальными сетями Mastodon?
- Будет ли их количество расти в будущем из-за принципов работы Mastodon? Иными словами, создаются ли они не намеренно, а как побочный эффект настройки или использования Mastodon?
- Можно ли или нужно ли отклонять их как сканеры, если они не представляют ценности для сайта на Discourse?
На данный момент это не является срочной проблемой, так как все агенты Mastodon показывают только один просмотр страницы, тогда как в верхней части списка агент Mozilla/5.0 имеет 37 279 просмотров.
Я задал вопрос боту Discourse AI об этом.
https://ask.discourse.com/t/understanding-mastodon-agents-as-web-crawlers/16732
Сообщите, пожалуйста, работает ли ссылка для других.
После дополнительных исследований и разговоров с другими администраторами нашего сайта мы приветствуем этих агентов, поскольку они используются для генерации превью ссылок. (источник)
Интересная побочная мысль, которой стоит поделиться.
До проведения исследований по этой теме я представлял веб-сканер только как программу, которая индексирует все общедоступные страницы сайта и часто посещает его по регулярному расписанию. Таким образом, сканер регулярно появлялся бы в списке агентов веб-сканера, посетивших сайт.
Как отмечено в этом блоге:
«fetcher» — специализированный тип веб-сканера, который извлекает контент от имени платформы Mastodon.
Таким образом, эти агенты Mastodon могут появляться в отчёте «Пользовательские агенты веб-сканера» только один раз.
Поэтому было бы полезно увидеть новый отчёт, показывающий только агентов типа fetcher, поскольку они обращаются к очень конкретным URL-адресам сайта, и было бы интересно узнать, что именно другие находят ценным на нашем сайте.
