こんにちは、Jeff さん!
それではあなたはラッキーですね!私が説明した問題の一部を示す ResearchGate の論文「Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness」を添付しました。
また、参考までに、robots.txt を無視し、当社のサイトをクロールする「短い」部分的な User Agent 文字列のリスト(更新済み)を以下に示します:
AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot
上記のリストは一部のみであり、長期間更新されていないため、「完璧」ではなく、かなり「錆び付いた」状態です… 
20 年以上にわたる当社の直接的な経験、多数のボット検出および可視化コードの作成(およびこのトピックに関する多数の論文、動画、プレゼンテーションの発表)から、robots.txt を尊重するボットはごく少数であり、その中でも指示に従うのは Google、Bing(Microsoft)などの大手企業のみであることが分かっています。
最も攻撃的なボットは、User Agent 文字列を偽装し、「非ボット」の User Agent 文字列として表示するようにしています。
さらに、最も問題となるのは中国、ロシア、韓国のボットです。当社のレガシーフォーラムには、ハニーポット技術や他の行動パターンに基づいてこれらの悪意のあるボットを検出するプラグインコードがあります。添付の論文ではその結果の一部をご覧いただけます。そこにはサイバースペース上のボットを色鮮やかに描いた図が含まれています。
例えば、当社の経験と直接のサイバーセキュリティ可視化研究から、Discourse の標準搭載(OOTB)robots.txt に記載されているすべてのボット(DotBot、semrushbot、ahrefsbot など)は robots.txt を尊重していません(ahrefsbot については非常に大きな問題があり、別のプレゼンテーションで強調されています。図を参照):
User-agent: DotBot
Disallow: /
User-agent: mauibot
Disallow: /
User-agent: semrushbot
Disallow: /
User-agent: ahrefsbot
Disallow: /
User-agent: blexbot
Disallow: /
User-agent: seo spider
Disallow: /
遠い過去、私たちはこれらのボット(上記のものだけでなくさらに多数)を robots.txt に記載していました(現在も同様です)が、上記のリストに含まれるボットが robots.txt の指示に従うのは「ほぼゼロ」であることが分かりました。
あなたのホスティングサイトが異なる経験を持っているのであれば、それは非常に幸運です!
私たちは広範なテストを行い、多くの可視化コードを作成しており、査読付き研究から、ほとんどのボットは robots.txt を尊重せず、尊重するのは「大手テック企業」のボットのみであることを事実として知っています。
以下の私たちが執筆した論文はすべてのボットを列挙しているわけではありませんが、この分野でいかに広範なテストとコード作成(Unity ゲームエンジンおよび LAMP プラットフォーム上で)を行ってきたかを示す例となっています:
https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness
また、ResearchGate からダウンロードする必要がないよう、この論文も添付しました。
お楽しみください!
Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)
追伸:時間があれば、2021 年にレガシーな LAMP のボット検出コードを Rails に移植する予定です!
こちらも参照してください:
https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace
(以下にも添付)
anomalies_cyberspace_v01.pdf (3.3 MB)
プレゼンテーションからのグラフィック例。通常ユーザーの UA 文字列(ボット文字列ではない)を使用して、ブラジルの IP アドレス(中国ではない)からサイトを抽出している、200 以上の中国の Baidu ボットが一般ユーザーとして偽装している様子を示しています。