مرحبًا جيف!
إذن أنت محظوظ! لقد أرفقت ورقة بحثية من موقع ResearchGate بعنوان “الفضاء السيبراني الافتراضي - تصور الأنماط والشذوذ للوعي السيبراني المعرفي” توضح أجزاء من المشكلة التي وصفتها!
أيضًا، فقط للمعلومة، إليك قائمتنا “القصيرة” الجزئية لسلاسل User Agent التي لا تحترم ملف robots.txt، والتي تقوم بزحف مواقعنا (محدثة):
AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot
القائمة أعلاه جزئية فقط ولم يتم تحديثها منذ فترة طويلة؛ لذا فهي ليست “مثالية” وهي قديمة بعض الشيء… 
تجربتنا المباشرة على مدار عقدين من الزمن، بما في ذلك كتابة الكثير من كود كشف الروبوتات وتصورها (ونشر عدد من الأوراق البحثية والفيديوهات والعروض حول هذا الموضوع)، هي أن عددًا قليلًا جدًا من الروبوتات يحترم ```robots.txt``، وأن الذين يحترمون التعليمات هم من الشركات الكبرى مثل Google وBing (Microsoft) وما إلى ذلك.
الروبوتات الأكثر عدوانية تزور سلاسل User Agent الخاصة بها لتظهر كسلاسل “غير روبوت”.
علاوة على ذلك، فإن أكثر المخالفين عدوانية هم روبوتات من الصين وروسيا وكوريا؛ ولدينا كود إضافي لمنتدياتنا القديمة يكشف هذه الروبوتات الخبيثة باستخدام تقنيات “حوض العسل” وأنماط سلوكية أخرى. يمكنك رؤية بعض النتائج في الورقة المرفقة، التي تحتوي على صور ملونة جميلة للروبوتات في الفضاء السيبراني للاستمتاع.
على سبيل المثال، بناءً على تجربتنا وأبحاثنا المباشرة في تصور الأمن السيبراني، فإن جميع الروبوتات المدرجة في ملف robots.txt الافتراضي في Discourse لا تحترم robots.txt، بما في ذلك DotBot وsemrushbot وahrefsbot (كان لدينا مشكلة كبيرة مع ahrefsbot، والتي تم تسليط الضوء عليها في عرض تقديمي آخر، انظر التوضيح):
User-agent: DotBot
Disallow: /
User-agent: mauibot
Disallow: /
User-agent: semrushbot
Disallow: /
User-agent: ahrefsbot
Disallow: /
User-agent: blexbot
Disallow: /
User-agent: seo spider
Disallow: /
في الماضي البعيد، كنا ندرج هذه الروبوتات المذكورة أعلاه (بالإضافة إلى العديد منها!) في robots.txt (وما زلنا نفعل ذلك)، ووجدنا أن “تقريبًا صفرًا” من الروبوتات المذكورة أعلاه تحترم تعليمات robots.txt.
أنت محظوظ جدًا إذا كانت مواقع الاستضافة الخاصة بك لديها تجربة مختلفة!
لقد أجرينا اختبارات واسعة وكتبنا الكثير من كود التصور، ونحن نعلم يقينًا، من خلال أبحاث تمت مراجعتها من قبل الأقران، أن معظم الروبوتات لا تحترم robots.txt، وأن عددًا قليلًا فقط من روبوتات “شركات التكنولوجيا الكبرى” هي التي تحترمها.
على الرغم من أن هذه الورقة التي كتبناها (في الأسفل) لا تسرد جميع الروبوتات، إلا أنها تعطي مثالاً على مدى اختباراتنا وكتابة الكود (في محرك ألعاب Unity ومنصات LAMP) في هذا المجال:
https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness
لقد أرفقت هذه الورقة أيضًا كمرجع، لذا لا حاجة لتحميلها من ResearchGate.
استمتع!
Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)
ملاحظة: أخطط لنقل الكثير من كود كشف الروبوتات القديم الخاص بي من LAMP إلى Rails في عام 2021، إذا كان لدي وقت!
انظر أيضًا:
https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace
(مرفق أيضًا في الأسفل)
anomalies_cyberspace_v01.pdf (3.3 MB)
مثال رسومي من العرض التقديمي، يظهر أكثر من 200 روبوت بايدو صيني متنكرًا كمستخدمين عاديين (باستخدام سلسلة مستخدم عادية، وليس “سلسلة روبوت”)، يقوم بسحب موقع من عناوين IP برازيلية (وليس من الصين).