¡Hola Jeff!
¡Entonces tienes suerte! He adjuntado un artículo de ResearchGate titulado “Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness” que muestra partes del problema que describí.
Además, por si acaso, esta es nuestra “corta” lista de cadenas parciales de User Agent que NO respetan robots.txt y que rastrean nuestros sitios (actualizada):
AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot
La lista anterior es solo parcial y no se ha actualizado desde hace mucho tiempo; por lo tanto, no es “perfecta” y está bastante “oxidada”… 
Nuestra experiencia directa durante dos décadas, que incluye escribir mucho código de detección y visualización de bots (y publicar varios artículos, videos y presentaciones sobre este tema), es que solo un puñado de bots respetan robots.txt y aquellos que sí respetan las directrices provienen de grandes empresas como Google, Bing (Microsoft), etc.
Los bots más agresivos falsifican su cadena de User Agent para que parezcan cadenas de User Agent “no bot”.
Además, los infractores más agresivos son bots de China, Rusia y Corea; y tenemos código de plugin para nuestros foros heredados que detecta estos bots maliciosos basándose en técnicas de honey pot y otros patrones de comportamiento. Puedes ver algunos de los resultados en el artículo adjunto, que tiene bonitas imágenes a color de bots en el ciberespacio para disfrutar.
Por ejemplo, según nuestra experiencia e investigación directa de visualización de ciberseguridad, todos los bots listados en el robots.txt predeterminado de Discourse no respetan robots.txt, incluidos DotBot, semrushbot y ahrefsbot (tuvimos un problema muy grande con ahrefsbot, que se destaca en otra presentación, ver ilustración):
User-agent: DotBot
Disallow: /
User-agent: mauibot
Disallow: /
User-agent: semrushbot
Disallow: /
User-agent: ahrefsbot
Disallow: /
User-agent: blexbot
Disallow: /
User-agent: seo spider
Disallow: /
En un pasado lejano, solíamos listar estos mismos bots anteriores (¡y muchos más!) en robots.txt (y aún lo hacemos) y descubrimos que “casi ninguno” de los bots listados arriba respeta las directivas de robots.txt.
¡Tienes mucha suerte si tus sitios de hosting tienen una experiencia diferente!
Hemos realizado pruebas extensas y escrito mucho código de visualización, y sabemos con certeza, gracias a investigaciones revisadas por pares, que la mayoría de los bots no respetan robots.txt y que solo un puñado de bots de “grandes empresas tecnológicas” lo hacen.
Aunque este artículo que escribimos (abajo) no lista todos los bots, sí te da un ejemplo de lo extensamente que hemos probado y escrito código (en el motor de juegos Unity y en plataformas LAMP) en este ámbito:
https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness
También hemos adjuntado este artículo como referencia, así que no es necesario descargarlo de ResearchGate.
¡Disfruta!
Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)
PS: ¡Planeo portar mucho de mi código heredado de detección de bots de LAMP a Rails en 2021, si tengo tiempo!
Ver también:
https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace
(también adjunto abajo)
anomalies_cyberspace_v01.pdf (3.3 MB)
Gráfico de ejemplo de la presentación, mostrando más de 200 bots chinos de Baidu disfrazados de usuarios regulares (usando una cadena de UA de usuario normal, no una “cadena de bot”), extrayendo un sitio desde direcciones IP de Brasil (no de China).