ارتفعت مشاهدات الصفحات من المستخدمين المجهولين بشكل كبير، لكن Google Analytics لم يُظهر نموًا في حركة المرور. كيف يمكن معرفة مصدر هذه الزيادة؟

في الأسبوعين الماضيين، قفزت عدد مرات مشاهدة الصفحة (PV) من المستخدمين المجهولين بشكل كبير. ومع ذلك، تظهر بيانات Google Analytics (GA) قصة مختلفة. كما ترون، أظهرت GA حتى انخفاضًا طفيفًا. أنا أحب رؤية النمو، لكنني أود معرفة المزيد عن مصدر هذه الزيارات المفاجئة من المستخدمين المجهولين.

هل توجد طريقة لعرض المواقع التي أحالت المستخدمين المجهولين؟

وجدت منشورًا سابقًا: Is the info Top Referred Topics/ Top Traffic Sources stored in a table in the database? - #9 by simon. هل هذه هي الخطوة الصحيحة التي يجب اتخاذها؟

مرحبًا @zhenniwu

هذا ليس “نموًا”. من المرجح جدًا أن يكون موقعك قد زاره روبوت خبيث لا يتبع أي قواعد في ملف robots.txt، وقد صنّفته جوجل بالفعل كـ “روبوت خبيث”، لذا يتم تصفية حركته من إحصائياتها.

لا يمكنك فعل الكثير حيال هذا الأمر ما لم تكن مستعدًا لاستثمار وقت وجهد كبيرين في كشف الروبوتات وحظرها، وهو ما يُعد في الغالب إضاعة للوقت (لأغلب الناس).

هذا مجرد “حياة على الشبكة كما نعرفها”، ولا يستحق حتى الانتباه إليه، في الغالب.

@neounix شكرًا جزيلاً على إرشاداتك! لقد أكّدت شكوكنا. نحن على وشك الحصول على تحديث من Discourse، ونأمل أن يحدّ من معدل الطلبات من الروبوتات المخادعة. سنواصل مراقبة عدد الزيارات (PV) القادمة من المستخدمين المجهولين.

بالمناسبة، هل تعرف ما إذا كانت هناك طريقة للتأكد مما إذا كان المستخدم روبوتًا أم لا؟ شكرًا جزيلاً على مساعدتك!

مرحبًا @zhenniwu

لقد قمت بالفعل بتأكيد أنه روبوت من خلال مراقبة السلوك وإدراك أنه شذوذ.

كشف الروبوتات أمر سهل عندما يصرّح نص وكيل المستخدم (UA) الخاص بالعميل “أنا روبوت” بطريقة أو بأخرى. ومع ذلك، لا تعلن “الروبوتات المارقة” أنها روبوتات في سلاسل وكيل المستخدم الخاصة بها، وبالتالي يجب علينا اكتشاف الروبوتات والنشاط المشابه بناءً على سلوكها.

يمكنك كتابة كود لأتمتة هذه العملية إذا أردت؛ ومع ذلك، فإن اكتشاف جميع فئات الروبوتات ليس بالأمر الهين لأن هناك العديد من خصائص السلوك المختلفة للروبوتات؛ وليس فقط من خلال معدل النقرات (كما تلاحظ).

قبل البدء في بناء حل للكشف، يجب أن تسأل نفسك: “ما الذي تحاول تحقيقه من خلال اكتشافها؟”.

لماذا تهتم بذلك؟ @zhenniwu

بالمناسبة، إليك مقالة من يوليو 2017 كتبها محرر في موقع Research Gate حول هذا الموضوع بالذات. استمتع!

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

هل تعتقد أن هذا هو تغيير ملف robots الذي قمنا به لـ Google أيضًا يا @sam؟

قد يكون هذا بالتأكيد هو الحال، لكن الطريقة الوحيدة للتأكد هي رؤية حركة المرور الفعلية.

الغالبية العظمى من البوتات لا تحترم ملف robots.txt.

في الواقع، تقرأ العديد من البوتات غير الموثوقة ملف robots.txt للحصول على معلومات حول الأماكن التي لا يرغب المسؤولون في زيارة البوتات لها، ثم يحاولون الحصول على معلومات من تلك المناطق!

بمعنى آخر، لا يكون ملف robots.txt فعالاً في التحكم في سلوك 99.9% (فقط اختر نسبة مئوية كبيرة) من البوتات على الإنترنت؛ كما يمكنه أيضًا كشف معلومات حول المناطق “الحساسة” في الموقع.

هذا غير صحيح استنادًا إلى 7 سنوات من عملنا في مجال الاستضافة. أنا متأكد من وجود روبوتات خبيثة، لكنها ليست شائعة على الإطلاق.

أفهم. إذن، قد لا يكون هذا الانفجار ناتجًا عن روبوتات خارجة عن السيطرة.

@codinghorror @sam، يسعدنا توفير بياناتنا لكم لإجراء أي تحليل أو تصحيح للأخطاء. فقط أخبروني بما تحتاجونه، وسأقوم بإرساله إليكم. شكرًا مسبقًا!

مرحبًا جيف!

إذن أنت محظوظ! لقد أرفقت ورقة بحثية من موقع ResearchGate بعنوان “الفضاء السيبراني الافتراضي - تصور الأنماط والشذوذ للوعي السيبراني المعرفي” توضح أجزاء من المشكلة التي وصفتها!

أيضًا، فقط للمعلومة، إليك قائمتنا “القصيرة” الجزئية لسلاسل User Agent التي لا تحترم ملف robots.txt، والتي تقوم بزحف مواقعنا (محدثة):

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

القائمة أعلاه جزئية فقط ولم يتم تحديثها منذ فترة طويلة؛ لذا فهي ليست “مثالية” وهي قديمة بعض الشيء… :slight_smile:

تجربتنا المباشرة على مدار عقدين من الزمن، بما في ذلك كتابة الكثير من كود كشف الروبوتات وتصورها (ونشر عدد من الأوراق البحثية والفيديوهات والعروض حول هذا الموضوع)، هي أن عددًا قليلًا جدًا من الروبوتات يحترم ```robots.txt``، وأن الذين يحترمون التعليمات هم من الشركات الكبرى مثل Google وBing (Microsoft) وما إلى ذلك.

الروبوتات الأكثر عدوانية تزور سلاسل User Agent الخاصة بها لتظهر كسلاسل “غير روبوت”.

علاوة على ذلك، فإن أكثر المخالفين عدوانية هم روبوتات من الصين وروسيا وكوريا؛ ولدينا كود إضافي لمنتدياتنا القديمة يكشف هذه الروبوتات الخبيثة باستخدام تقنيات “حوض العسل” وأنماط سلوكية أخرى. يمكنك رؤية بعض النتائج في الورقة المرفقة، التي تحتوي على صور ملونة جميلة للروبوتات في الفضاء السيبراني للاستمتاع.

على سبيل المثال، بناءً على تجربتنا وأبحاثنا المباشرة في تصور الأمن السيبراني، فإن جميع الروبوتات المدرجة في ملف robots.txt الافتراضي في Discourse لا تحترم robots.txt، بما في ذلك DotBot وsemrushbot وahrefsbot (كان لدينا مشكلة كبيرة مع ahrefsbot، والتي تم تسليط الضوء عليها في عرض تقديمي آخر، انظر التوضيح):

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

في الماضي البعيد، كنا ندرج هذه الروبوتات المذكورة أعلاه (بالإضافة إلى العديد منها!) في robots.txt (وما زلنا نفعل ذلك)، ووجدنا أن “تقريبًا صفرًا” من الروبوتات المذكورة أعلاه تحترم تعليمات robots.txt.

أنت محظوظ جدًا إذا كانت مواقع الاستضافة الخاصة بك لديها تجربة مختلفة!

لقد أجرينا اختبارات واسعة وكتبنا الكثير من كود التصور، ونحن نعلم يقينًا، من خلال أبحاث تمت مراجعتها من قبل الأقران، أن معظم الروبوتات لا تحترم robots.txt، وأن عددًا قليلًا فقط من روبوتات “شركات التكنولوجيا الكبرى” هي التي تحترمها.

على الرغم من أن هذه الورقة التي كتبناها (في الأسفل) لا تسرد جميع الروبوتات، إلا أنها تعطي مثالاً على مدى اختباراتنا وكتابة الكود (في محرك ألعاب Unity ومنصات LAMP) في هذا المجال:

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

لقد أرفقت هذه الورقة أيضًا كمرجع، لذا لا حاجة لتحميلها من ResearchGate.

استمتع!

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

ملاحظة: أخطط لنقل الكثير من كود كشف الروبوتات القديم الخاص بي من LAMP إلى Rails في عام 2021، إذا كان لدي وقت!

انظر أيضًا:

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

(مرفق أيضًا في الأسفل)

anomalies_cyberspace_v01.pdf (3.3 MB)

مثال رسومي من العرض التقديمي، يظهر أكثر من 200 روبوت بايدو صيني متنكرًا كمستخدمين عاديين (باستخدام سلسلة مستخدم عادية، وليس “سلسلة روبوت”)، يقوم بسحب موقع من عناوين IP برازيلية (وليس من الصين).

مهتم بمعرفة ما هي التغييرات. هل هناك commit/CL؟

نعم، وكان عملاؤنا سيصرخون صرخة دموية لو كان هذا هو الحال، لأنهم يُحاسبون فعليًا على كل مشاهدة صفحة. إن البوتات الضالة التي تقوم بعدد مفرط من مشاهدات الصفحات هي أمر يكلفهم المال، وقد يؤدي إلى مغادرتهم لمنصة الاستضافة الخاصة بنا. لذلك قمنا بتقييد Bing بشدة، على سبيل المثال — لا تتردد في إجراء بحث إذا كنت فضوليًا.

لذا نعم، أظهرت خبرتنا في الاستضافة التي تزيد عن 7 سنوات حتى الآن أن عناكب الويب والبوتات الضالة، رغم وجودها، ليست مشكلة كبيرة.

(سأقول نفس الشيء عن Stack Overflow، وهي من بين أول 100 موقع على الويب، والتي أسستها أنا بشكل مشترك.)

مرحبًا جيف!

حوار رائع!

كنتُ مؤخرًا في مكالمة مؤتمرات مع المدير المالي لأحد أكبر شبكات الإعلانات التقنية ومقرها نيويورك، وأخبرني هو وإعلانياتهم أن حركة مرور الروبوتات (سواء كانت خارجة عن السيطرة أو غير ذلك) تُعدّ من بين مخاوفهم الرئيسية، ويصرفون مبالغ كبيرة على هذا الموضوع تحديدًا (أي التمييز بين حركة مرور المستخدمين الشرعية وحركة مرور الروبوتات).

إذًا، فإنك محظوظ جدًا إذا كانت مواقعك الإلكترونية لا تواجه نفس المشكلات التي تعاني منها وول ستريت ومعلنوها، الذين يحاربون هذه المشكلة باستمرار.

العديد من الشركات التي عملت معها في مجال الأمن السيبراني ومكافحة الاحتيال خلال العقدين الماضيين كانت لديها تجربة معاكسة تمامًا لما وصفتَ، ولأكون صريحًا.

أحسنتَ صنعًا، جيف!

بالمناسبة، قد تجد هذا موضوعًا مثيرًا للاهتمام. إنه “قديم” (منذ خمس سنوات)، لكن المشكلة لم تتحسن منذ عام 2015:

اقتباس من CSOonline أعلاه (2015):

“شكلت البوتات الجيدة” 36 في المائة من حركة المرور هذا العام، مقارنة بـ 21 في المائة العام الماضي. أما “البوتات الضارة” فكانت مسؤولة عن 23 في المائة من حركة المرور هذا العام، بانخفاض طفيف عن 24 في المائة العام الماضي - وليس لأن أحجام الحركة انخفضت، كما كرر إسياد، بل لأن عدد “البوتات الجيدة” ارتفع بشكل كبير. أما حركة المرور البشرية فكانت 41 في المائة فقط، بانخفاض عن 55 في المائة العام الماضي.

تُعرّف الشركة “البوتات الضارة” بأنها تلك التي لا تحترم ملفات “robots.txt” ولا تقدم قيمة للمواقع التي تزورها.

سأحاول العثور على بعض المراجع الأقرب إلى عام 2020 وأشاركها لاحقًا، حيث أن عام 2015 يعتبر قديمًا بعض الشيء بعد مرور خمس سنوات!

تجربتي مع عملاء الأمن السيبراني هي أن أرقام حركة مرور “البوتات الضارة” في عام 2020 أعلى بكثير مما ورد في تقرير CSO لعام 2015 أعلاه؛ لذا فإن أي شخص لا يعاني من مشكلة “البوتات الضارة” فهو محظوظ للغاية! لقد قمنا بكتابة الكثير من حلول “كشف وتصنيف البوتات الضارة” خلال العقد الماضي، وهي عملية مرهقة لأن مبرمجي البوتات أصبحوا أكثر “حيلة” :slight_smile> ويتقنون تغيير سلاسل معرف المستخدم (UA strings) لديهم (إلى جانب توقيت البوت وسلوكه) لتبدو وكأنها حركة مرور بشرية شرعية (قبل وقت طويل من وجود CloudFlare).

من الرائع حقًا سماع جيف يقول إن مواقع Discourse محصنة بشكل أساسي ضد حركة مرور “البوتات الضارة” هذه ولا تحتاج إلى كود معقد لكشف البوتات للتخفيف من المشاكل التي يعاني منها الآخرون.

هل جميع استضافات Discourse خلف CloudFlare؟ CloudFlare مصممة لحماية المواقع من هذه التهديدات.

كما قلت، لكانت أعمالنا قد توقفت تمامًا لو كان ما تصفه (بوتات خارجة عن السيطرة منتشرة على نطاق واسع تقوم بسحب ملايين الصفحات في الثانية) صحيحًا، لذا أظن أن هذا معجزة نوعًا ما! لست متأكدًا من كيفية شرح هذا التعارض بين ما تعتقد أنه صحيح، والواقع التجاري الفعلي الذي عشته في Stack Overflow (من 2008 إلى 2012) وDiscourse (من 2012 حتى اليوم).

من ناحية أخرى، فإن شبكات الإعلانات والبوتات موضوع مختلف تمامًا — لأن البوتات التي تتظاهر بأنها مستخدمين وتضغط على الإعلانات هي وسيلة لطباعة أموال “مجانية” لمبرمجي البوتات.

ربما يكون الفرق هو أن معظم عملائنا لا يعتمدون على الإعلانات؟ وحتى في Stack Overflow، كانت الإعلانات الظاهرة جزءًا صغيرًا من الأعمال. قد يكون من الجيد الاحتفاظ بهذا الفرق الحاسم في اعتبارك عندما تفكر في هذا الأمر.

مرحبًا جيف،

معلومة شائعة وليست رأيًا شخصيًا مني هي أن حركة مرور البوتات تتجاوز حركة مرور البشر على الإنترنت.

كما أنه من المعروف بشكل عام، وليس رأيًا شخصيًا، أن نسبة كبيرة من حركة مرور البوتات تأتي من بوتات لا تحترم ملف robots.txt. يقدر البعض أن هذه النسبة تصل إلى النصف على الأقل، بينما تشير تجربتي إلى أن الأمر يعتمد على الموقع والموضوع.

يسعدني أن تجربتك في الشركات التي أسستها وبنيتها مختلفة، وأنا سعيد جدًا لك.

من ناحية أخرى، فإن الواقع على الإنترنت هو أن حركة مرور البوتات في عام 2020 تشكل ما بين 55% و60% من إجمالي حركة المرور؛ ومن بين هذه الحركة، يُقدّر أن حوالي النصف يأتي من بوتات لا تحترم ملف robots.txt. تشير بعض الأبحاث إلى أن نسبة “البوتات الضارة” قد تصل إلى 35% فقط من إجمالي حركة المرور، بينما تشير أبحاث أخرى إلى نسب أعلى، وذلك اعتمادًا على مصدر البحث. لستُ أختلق هذه المعلومات، فهي موثقة جيدًا.

إذا كانت لديك أوراق بحثية أو إحصائيات خارج تجربة استضافتك في Discourse أو خارج خبرتك السابقة، تُظهر أن حركة مرور “البوتات الضارة” ضئيلة جدًا، فسأكون سعيدًا جدًا لقراءتها؛ لأنني شخصيًا لم أرَ أي ورقة بحثية أو مقالة مرجعية تذكر أن حركة مرور “البوتات الضارة” ضئيلة جدًا كما تذكر أنت هنا.

أعتذر إذا كان عدم اتفقي معك قد أساء إليك. لقد قدمت مراجع، ويمكنني تقديم المزيد منها (ليست آرائي شخصية)، إذا كنت منفتحًا على الحقائق المتعلقة بحركة مرور الإنترنت.

وإلا، فسأتوقف عن النشر في هذا الموضوع حتى لا أزعجك :slight_smile: إذ لا أريد أن أكون غير متفق معك بشأن شيء لديك رأي قوي حوله في منتدى ليس لي فيه أي صلاحيات إدارية :slight_smile:

أتمنى لك موسم أعياد سعيد!

ربما يكون الأمر كذلك بالنسبة لشبكات الإعلانات التي تخوض معركة شرسة مع الروبوتات والنقرات المزيفة من أجل أموال الإعلانات. لكن في Stack Overflow وDiscourse؟ الأمر لا يشكل مشكلة كبيرة إلى حد كبير.

إذا كنت تستمتع بالجدل حول فرضيات مبنية على نظريات، فلا تتردد في ذلك على الإطلاق. اقضِ يومك كله في التنبؤ بما يحلو لك. آمل أن يجلب لك هذا التفكير نظريًا سعادة وفرحًا كبيرين في حياتك! وفي الوقت نفسه، لدينا أعمال نديرها، لذا أفضل اتخاذ قرارات بناءً على البيانات الفعلية التي جمعناها في أعمالنا الحقيقية. أعتقد أنني مجنون قليلًا في هذا الصدد. آسف إذا وجدت ذلك مزعجًا أو محيرًا.

أتمنى لك بقية يوم رائعة!

هه… ربما أغفلت شيئًا، لكن البحث الذي أنت ربطت به أعلاه لا يبدو أنه يُظهر في الواقع الاتجاهات العامة عبر الويب.

يبدو أنه يركز على عرض حركة المرور إلى موقع بطريقة تجعل رصد وقياس… المشكوك فيه… حركة المرور تمرينًا بصريًا بسيطًا إلى حد ما، وهو أمر مثير للاهتمام بحد ذاته. ومع ذلك، لا توجد أي إشارة إلى ما هي المواقع الممثلة، ولا حتى ما هي أنواع المواقع. من الصعب تقييم ما إذا كانت الحالات المعروضة تمثل الويب ككل.

ملاحظة: أنا لا أشكك في ما إذا كانت حركة مرور البوتات ضخمة بشكل عام، ولا ما إذا كان هناك الكثير من البوتات “السيئة”… لكن الإحصائيات (القابلة للبحث عبر جوجل) تبدو وكأنها تتفاوت إلى حد ما عن نتيجة البحث التي صورتها.

ما قد يكون أكثر فائدة هو تحليل إحصائي لأنواع المواقع التي تميل إلى استهدافها بشكل عدواني من قبل نوع معين من البوتات. (أتوقع، على سبيل المثال، أن فيسبوك والمنصات المماثلة تجذب كمية غير متناسبة من الاهتمام من شريحة معينة من هذه البوتات. شريحة أخرى ربما تستهدف المواقع الغنية بالإعلانات حصريًا تقريبًا.)

مرحبًا جيف،

إذا كنت ترغب في تصويري كـ “نظري مجنون” لا يعرف شيئًا عن عمليات الشبكة على الإنترنت، فليكن الأمر كذلك؛ لكن لا شيء يمكن أن يكون أبعد عن الحقيقة، كما يعلم أي شخص يعرفني بالفعل :slight_smile:

كان لدى المنشور الأصلي ارتفاع مفاجئ. ومن المرجح جدًا أن يكون سببه برنامج آلي. أعتقد أننا نتفق على ذلك :slight_smile:

أتمنى لك يومًا رائعًا يا جيف، وعطلة رائعة!

كما أشكرك على تعريفك لي بـ Ruby on Rails. لو لم يكن من أجلك ومن أجل Discourse، لما كنت أكتب كود Ruby يوميًا (خارج Discourse)، وكان هذا أفضل أمر تقني حدث لي في عام 2020! أنا أحب Ruby حقًا.

شكرًا مرة أخرى يا جيف!

مرحبًا @Sailsman63

لقد قدمت بعض المراجع التكميلية في عدد من المجالات؛ ولم أنشر، ولا أدّعي أنني نشرت، عملًا مفصلاً أو مسحًا لجميع حركة مرور الإنترنت في كل سيناريو تشغيلي.

من وجهة نظري، أي مهندس يقضي 60 دقيقة على الأقل في البحث على الإنترنت ويمتلك مهارات بحثية وتحليلية معقولة، سيجد (1) العديد من المراجع إلى تقارير تشغيلية (وليس نظريات) حول النسبة المئوية لحركة مرور الشبكة على الإنترنت التي تُعزى إلى الروبوتات، و(2) عددًا من المراجع التي تُقيّم أيضًا كمّية حركة المرور تلك الناتجة عن “الروبوتات الضارة” التي لا تحترم ملف robots.txt.

هذا ليس “نظرية” أو “فكرتي أنا”. إنه حقيقة راسخة، وهذه الحقيقة ليست مخفية عن أي شخص يهتم بالنظر فيها؛ ومن منظور تشغيلي، نرى نفس الشيء يوميًا عند تحليل ملفات السجل ومعالجة سلوك حركة المرور على المواقع الإلكترونية، مثل إعداد فخاخ (honey pots) لا يمكن العثور عليها إلا بواسطة الروبوتات (المستخدمون البشريون العاديون لا يذهبون إليها أبدًا)، وبالتالي فإن الروبوتات فقط هي التي تذهب إليها، وهكذا.

لقد قمت بإعداد العديد من “الروابط الفخية” على مواقع الويب، وقد أمسكت بالعديد من الروبوتات في أيامي؛ لذا فإن هذا ليس شيئًا اخترعته “من العدم”، هههه :). آخرون على الإنترنت فعلوا نفس الشيء (إنها تقنية أمنية شائعة)، الأمر ليس مقصورًا عليّ، أعدك بذلك :slight_smile:

أتمنى لك يومًا سعيدًا!