Агенты пользователей веб-краулеров: число агентов Mastodon растет

Для тех, у кого есть права администратора для проверки пользовательских агентов веб-сканера:

Например, реальная ссылка; при необходимости измените URL для вашего сайта.
https://swi-prolog.discourse.group/admin/reports/web_crawlers

На нашем сайте внезапно увеличилось количество агентов Mastodon. Я подозреваю, что эти агенты принадлежат сайтам Mastodon. Поскольку я сам не использую Mastodon, мне теперь нужно выяснить, является ли это потенциальной проблемой для нашего сайта или просто фактом, который стоит иметь в виду.

Поскольку отчёт, отображаемый на веб-странице, обрезает часть необходимой информации, я скачал его.

web-crawlers-251023-084425-10.zip (4.3 КБ)

В конце обратите внимание на строки вида:

http.rb/5.1.1 (Mastodon/4.2.20; +https://acc4e.com/),1

Может ли кто-то пролить больше света на следующие вопросы?

  • Связаны ли эти агенты с социальными сетями Mastodon?
  • Будет ли их количество расти в будущем из-за принципов работы Mastodon? Иными словами, создаются ли они не намеренно, а как побочный эффект настройки или использования Mastodon?
  • Можно ли или нужно ли отклонять их как сканеры, если они не представляют ценности для сайта на Discourse?

На данный момент это не является срочной проблемой, так как все агенты Mastodon показывают только один просмотр страницы, тогда как в верхней части списка агент Mozilla/5.0 имеет 37 279 просмотров.


Я задал вопрос боту Discourse AI об этом.

https://ask.discourse.com/t/understanding-mastodon-agents-as-web-crawlers/16732

Сообщите, пожалуйста, работает ли ссылка для других.


После дополнительных исследований и разговоров с другими администраторами нашего сайта мы приветствуем этих агентов, поскольку они используются для генерации превью ссылок. (источник)


Интересная побочная мысль, которой стоит поделиться.

До проведения исследований по этой теме я представлял веб-сканер только как программу, которая индексирует все общедоступные страницы сайта и часто посещает его по регулярному расписанию. Таким образом, сканер регулярно появлялся бы в списке агентов веб-сканера, посетивших сайт.

Как отмечено в этом блоге:

«fetcher» — специализированный тип веб-сканера, который извлекает контент от имени платформы Mastodon.

Таким образом, эти агенты Mastodon могут появляться в отчёте «Пользовательские агенты веб-сканера» только один раз.

Поэтому было бы полезно увидеть новый отчёт, показывающий только агентов типа fetcher, поскольку они обращаются к очень конкретным URL-адресам сайта, и было бы интересно узнать, что именно другие находят ценным на нашем сайте.

4 лайка

Круто, это, скорее всего, означает, что что-то из вашего сообщества было переопубликовано пользователями в Mastodon. Поскольку Mastodon является федеративной сетью, сканеры предпросмотра ссылок будут иметь разных агентов. Это связано как с тем, что экземпляры работают на разных версиях Mastodon, так и с тем, что Mastodon, похоже, включает URL сообщества в строку агента.

Согласен. Также было бы полезно группировать пользовательских агентов, чтобы можно было видеть общие показатели предпросмотров ссылок Mastodon, общие показатели одноблочных предпросмотров Facebook, общие показатели одноблочных предпросмотров Discourse (из других сообществ) и так далее.

7 лайков