Olá Jeff!
Então você tem sorte! Anexei um artigo do ResearchGate intitulado “Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness” mostrando partes do problema que descrevi!
Além disso, só para constar, esta é a nossa “curta” lista de strings parciais de User Agent que NÃO respeitam o robots.txt e que fazem varredura em nossos sites (atualizada):
AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot
A lista acima é apenas parcial e não foi atualizada há muito tempo; portanto, não é “perfeita” e está bastante “enferrujada”… 
Nossa experiência direta ao longo de duas décadas, incluindo a escrita de muito código de detecção e visualização de bots (e a publicação de vários artigos, vídeos e apresentações sobre este tópico), é que apenas um punhado de bots respeita o robots.txt e aqueles que respeitam as diretrizes são de grandes empresas como Google, Bing (Microsoft), etc.
Os bots mais agressivos falsificam sua string de User Agent para parecerem strings de User Agent “não bot”.
Além disso, os infratores mais agressivos são bots da China, Rússia e Coreia; e temos código de plugin para nossos fóruns legados que detectam esses bots maliciosos com base em técnicas de honey pot e outros padrões comportamentais. Você pode ver alguns dos resultados no artigo anexado, que tem imagens coloridas legais de bots no ciberespaço para apreciar.
Por exemplo, com base em nossa experiência e pesquisa direta de visualização de cibersegurança, todos os bots listados no robots.txt padrão do Discourse não respeitam o robots.txt, incluindo DotBot, semrushbot e ahrefsbot (tivemos um problema muito grande com o ahrefsbot, que é destacado em outra apresentação, veja a ilustração):
User-agent: DotBot
Disallow: /
User-agent: mauibot
Disallow: /
User-agent: semrushbot
Disallow: /
User-agent: ahrefsbot
Disallow: /
User-agent: blexbot
Disallow: /
User-agent: seo spider
Disallow: /
No passado distante, costumávamos listar esses mesmos bots acima (e muitos mais!) no robots.txt (e ainda o fazemos) e descobrimos que “quase zero” dos bots listados acima respeita as diretrizes do robots.txt.
Você tem muita sorte se seus sites de hospedagem tiverem uma experiência diferente!
Fizemos testes extensivos e escrevemos muito código de visualização e sabemos com certeza, com base em pesquisas revisadas por pares, que a maioria dos bots não respeita o robots.txt e que apenas um punhado de bots de “grandes empresas de tecnologia” o respeita.
Embora este artigo que escrevemos (abaixo) não liste todos os bots, ele lhe dá um exemplo de quão extensivamente testamos e escrevemos código (no motor de jogos Unity e em plataformas LAMP) nesta área:
https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness
Também anexei este artigo como referência, então não há necessidade de baixar do ResearchGate.
Aproveite!
Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)
PS: Pretendo portar muito do meu código legado de detecção de bots LAMP para Rails em 2021, se tiver tempo!
Veja também:
https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace
(também anexado abaixo)
anomalies_cyberspace_v01.pdf (3.3 MB)
Exemplo gráfico da apresentação, mostrando mais de 200 Bots Baidu chineses disfarçados de usuários regulares (usando uma string de UA de usuário normal, não uma “string de bot”), puxando um site de endereços IP do Brasil (não da China).