Agent user di Web Crawler - agenti Mastodon in crescita

Per coloro che hanno accesso admin per controllare gli User Agent del Web Crawler

ad es. link effettivo, cambia l’URL per il tuo sito secondo necessità.
https://swi-prolog.discourse.group/admin/reports/web_crawlers

il nostro sito mostra un aumento improvviso degli agenti Mastodon. Sospetto che questi agenti provengano da siti Mastodon. Dato che non uso Mastodon, devo indagare se questo è un potenziale problema per il nostro sito o solo qualcosa di cui essere consapevoli.

Poiché il report mostrato sulla pagina web taglia alcune delle informazioni necessarie, ho scaricato il report.

web-crawlers-251023-084425-10.zip (4,3 KB)

alla fine notare le righe come

http.rb/5.1.1 (Mastodon/4.2.20; +https://acc4e.com/),1

Qualcuno può fornire maggiori chiarimenti su

  • Questi agenti sono correlati ai siti del social network Mastodon?
  • Ne appariranno altri in futuro a causa del modo in cui funziona Mastodon, in altre parole, questi vengono creati non di proposito ma come effetto collaterale del modo in cui Mastodon è configurato o utilizzato?
  • Dovrebbero/possono essere rifiutati come crawler se non hanno valore per un sito Discourse?

Al momento non è un problema urgente poiché tutti gli agenti Mastodon mostrano solo una visualizzazione di pagina di 1, mentre la cima della lista per un agente Mozilla/5.0 mostra 37.279.

2 Mi Piace

Fantastico, ciò significa probabilmente che qualcosa nella tua community è stato ripubblicato dagli utenti su Mastodon. Poiché Mastodon è federato, i crawler di anteprima dei link avranno user agent diversi. Sia perché le istanze saranno su versioni diverse di Mastodon, sia perché sembra che Mastodon includa l’URL della community come parte dello user agent.

Concordo. Potrebbe anche essere interessante raggruppare gli user agent, in modo da poter vedere i totali delle anteprime dei link di Mastodon, i totali dei onebox di Facebook, i totali dei onebox di Discourse (da altre community) e così via.

5 Mi Piace