Bonjour Jeff !
Alors vous avez de la chance ! J’ai joint un article de ResearchGate intitulé « Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness » qui illustre certains aspects du problème que j’ai décrit !
Par ailleurs, à toutes fins utiles, voici notre « courte » liste partielle de chaînes d’User Agent qui NE respectent PAS robots.txt et qui parcourent nos sites (mise à jour) :
AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot
La liste ci-dessus n’est que partielle et n’a pas été mise à jour depuis longtemps ; elle n’est donc pas « parfaite » et est plutôt « rouillée »… 
Notre expérience directe sur deux décennies, incluant l’écriture de nombreux codes de détection de bots et de visualisation (ainsi que la publication de plusieurs articles, vidéos et présentations sur ce sujet), montre que seule une poignée de bots respectent robots.txt, et ceux qui respectent les directives proviennent de grandes entreprises comme Google, Bing (Microsoft), etc.
Les bots les plus agressifs falsifient leur chaîne d’User Agent afin d’apparaître comme des chaînes d’User Agent « non bots ».
De plus, les principaux contrevenants sont des bots provenant de Chine, de Russie et de Corée ; nous disposons de code de plugin pour nos forums legacy qui détecte ces bots malveillants grâce à des techniques de pot de miel et d’autres modèles comportementaux. Vous pouvez voir certains résultats dans l’article joint, qui contient de belles images colorées de bots dans le cyberespace à apprécier.
Par exemple, selon notre expérience et nos recherches directes en visualisation de cybersécurité, tous les bots listés dans le fichier robots.txt fourni par défaut avec Discourse ne respectent pas robots.txt, y compris DotBot, semrushbot et ahrefsbot (nous avons eu un très gros problème avec ahrefsbot, mis en évidence dans une autre présentation, voir illustration) :
User-agent: DotBot
Disallow: /
User-agent: mauibot
Disallow: /
User-agent: semrushbot
Disallow: /
User-agent: ahrefsbot
Disallow: /
User-agent: blexbot
Disallow: /
User-agent: seo spider
Disallow: /
Dans un passé lointain, nous avions l’habitude de lister ces mêmes bots ci-dessus (et bien d’autres !) dans robots.txt (et nous le faisons encore), et nous avons constaté que « presque aucun » des bots listés ci-dessus ne respecte les directives de robots.txt.
Vous avez beaucoup de chance si vos sites hébergés ont une expérience différente !
Nous avons effectué des tests approfondis et écrit beaucoup de code de visualisation, et nous savons pour certain, grâce à des recherches évaluées par des pairs, que la plupart des bots ne respectent pas robots.txt et que seule une poignée de bots de « grandes entreprises technologiques » le respectent.
Bien que cet article que nous avons écrit (ci-dessous) ne liste pas tous les bots, il vous donne un exemple de l’étendue de nos tests et de notre code écrit (dans le moteur de jeu Unity et sur des plateformes LAMP) dans ce domaine :
https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness
Nous avons également joint cet article en référence, donc pas besoin de le télécharger depuis ResearchGate.
Amusez-vous bien !
Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)
PS : Je prévois de porter une grande partie de mon ancien code de détection de bots LAMP vers Rails en 2021, si j’ai le temps !
Voir aussi :
https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace
(également joint ci-dessous)
anomalies_cyberspace_v01.pdf (3.3 MB)
Exemple de graphique issu d’une présentation, montrant plus de 200 bots chinois Baidu déguisés en utilisateurs réguliers (utilisant une chaîne d’User Agent utilisateur normale, et non une « chaîne de bot »), extrayant un site depuis des adresses IP brésiliennes (et non chinoises).