Ciao Jeff!
Allora sei fortunato! Ho allegato un articolo su ResearchGate intitolato “Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness” che mostra alcune parti del problema che ho descritto!
Inoltre, tanto per dire, ecco la nostra “breve” lista parziale di stringhe User Agent che NON rispettano robots.txt e che scansionano i nostri siti (aggiornata):
AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot
La lista sopra è solo parziale e non è stata aggiornata da molto tempo; quindi non è “perfetta” ed è piuttosto “arrugginita”… 
La nostra esperienza diretta nel corso di due decenni, inclusa la scrittura di molto codice per il rilevamento e la visualizzazione dei bot (e la pubblicazione di numerosi articoli, video e presentazioni su questo argomento), ci dice che solo una manciata di bot rispetta robots.txt e quelli che rispettano le direttive provengono da grandi aziende come Google, Bing (Microsoft), ecc.
I bot più aggressivi falsificano la propria stringa User Agent in modo da apparire come stringhe User Agent “non bot”.
Inoltre, i principali trasgressori sono bot provenienti da Cina, Russia e Corea; e abbiamo codice plugin per i nostri forum legacy che rileva questi bot malfunzionanti basandosi su tecniche honey pot e altri modelli comportamentali. Puoi vedere alcuni dei risultati nell’articolo allegato, che presenta belle immagini colorate dei bot nello cyberspazio da ammirare.
Ad esempio, dalla nostra esperienza e dalla ricerca diretta sulla visualizzazione della cybersecurity, tutti i bot elencati nel robots.txt predefinito di Discourse non rispettano robots.txt, inclusi DotBot, semrushbot e ahrefsbot (abbiamo avuto un grosso problema con ahrefsbot, evidenziato in un’altra presentazione, vedi illustrazione):
User-agent: DotBot
Disallow: /
User-agent: mauibot
Disallow: /
User-agent: semrushbot
Disallow: /
User-agent: ahrefsbot
Disallow: /
User-agent: blexbot
Disallow: /
User-agent: seo spider
Disallow: /
In un lontano passato, elencavamo questi stessi bot sopra (e molti altri!) nel file robots.txt (e continuiamo a farlo) e abbiamo scoperto che “quasi nessuno” dei bot elencati rispetta le direttive di robots.txt.
Se i tuoi siti di hosting hanno un’esperienza diversa, sei molto fortunato!
Abbiamo effettuato test estesi e scritto molto codice di visualizzazione e sappiamo per certo, grazie a ricerche sottoposte a revisione paritaria, che la maggior parte dei bot non rispetta robots.txt e solo una manciata di bot delle “principali aziende tecnologiche” lo fa.
Sebbene questo articolo che abbiamo scritto (di seguito) non elenchi tutti i bot, ti dà un esempio di quanto abbiamo testato estesamente e scritto codice (nel motore di gioco Unity e su piattaforme LAMP) in quest’area:
https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness
Abbiamo anche allegato questo articolo come riferimento, quindi non è necessario scaricarlo da ResearchGate.
Buona lettura!
Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)
PS: Intendo portare molto del mio codice legacy di rilevamento dei bot da LAMP a Rails nel 2021, se avrò tempo!
Vedi anche:
https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace
(allegato anche di seguito)
anomalies_cyberspace_v01.pdf (3.3 MB)
Esempio grafico da una presentazione, che mostra oltre 200 bot Baidu cinesi camuffati da utenti normali (usando una stringa UA utente normale, non una “stringa bot”), che estraggono un sito da indirizzi IP del Brasile (non dalla Cina).