إحاطة للعلم
للذين يراقبون عدد مشاهدات صفحات مواقعهم، في 02/07/2022 شهد موقعنا حوالي 4000 مشاهدة صفحة من الروبوت MegaIndex.ru. لقد كان بارزًا بالتأكيد.
إحاطة للعلم
للذين يراقبون عدد مشاهدات صفحات مواقعهم، في 02/07/2022 شهد موقعنا حوالي 4000 مشاهدة صفحة من الروبوت MegaIndex.ru. لقد كان بارزًا بالتأكيد.
شكرا على المعلومات.
لم أكن أطرح سؤالاً بل كنت أشير إلى ذلك للآخرين ليكونوا على دراية. يبدو أنه زاحف جديد لا يوزع ضرباته بمرور الوقت. ربما كانت هذه هي المرة الأولى التي يرى فيها موقعنا لذلك كان يقوم بجميع الصفحات ولكن إذا استمر في هذه الضربات الضخمة ليوم واحد فسأقوم بالتحقيق أكثر.
شكراً على التنبيه. يمكن لهذه الروبوتات / مفهرسات الويب / عناكب الويب سيئة الكتابة أن تدمر الخادم حقًا!
لاحظت ذلك أيضًا. إنه الروبوت الذي يقوم بمعظم مشاهدات الصفحة في مثيلي، وبعد ذلك مباشرة يأتي Seekport (35 ألف مشاهدة صفحة في يوم واحد) و mj12bot. أتعرض لهجمات حجب الخدمة (DOS) أحيانًا بسببهم. ساعدت ميزة مكافحة الروبوتات في Cloudflare في الحد من معظم هذه الروبوتات دون الحاجة إلى مراقبة كبيرة.
هل من الممكن إبطاء جميع الزواحف – وإضافة تأخير في الزحف لملف robots.txt؟
لا. قليل جدًا يتبعون ملف robots.txt على الإطلاق، والأقل يلتزمون بالتأخير.
هذا مؤسف. ستكون ميزة جيدة لـ Discourse.
للعلم، هل يعمل النظام الحالي (الذي يسمح لك بحظر كل زاحف ولكن فقط إضافة تأخير زحف لقائمة محدودة) عبر disallow و crawl-delay في robots.txt؟
هذه مسألة مختلفة تمامًا. على الرغم من ذلك، شخصيًا، وجدت أن crawl-delay على موقع آخر كان فعالاً.
فقط مع روبوتات القبعة البيضاء، وليس هناك الكثير منها. كل الآخرين، نسبة الجيد مقابل السيئ هي أكثر أو أقل 1:100، لا يهتمون بما لديك أو ليس لديك في robots.txt. الأفضل \u003cgrin\u003e يبدو أنه فقط لمعرفة أين لا يريد مسؤول النظام/مدير الويب إظهار الاتجاهات، وتأخذ هذه الاتجاهات على الفور.
(حقًا، \u003c grin \u003e يعمل كعلامة html
لا ينبغي لـ Discourse استخدام \u003c \u003e فقط لذلك، في رأيي)
روبوتات تحسين محركات البحث هي أسوأ سلوكًا. لكن الغالبية تخبر وكيل مستخدم مزيف صنعه أطفال البرمجة.
يمكن للمرء أن يوقف الكثير من الروبوتات تمامًا ولكن يجب القيام بذلك على مستوى الخادم، وليس على مستوى التطبيق.
هذا كله على أي حال. كانت تجربتي مختلفة وأود أن تسمح Discourse بتعيين crawl-delay دون الحاجة إلى تسمية زواحف فردية.
إنه أحد التقارير المضمنة في صفحة التقارير.
شكرا، وجدتها.
| وكيل المستخدم | مشاهدات الصفحة |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
إذًا، هذه الزيادات من MJ21bot و Nexus 5X Build، وهو روبوت Google شرعي بعد التحقق من عنوان IP الخاص به في سجلات nginx.
أي فكرة لماذا قد يقومون بمثل هذه المشاهدات للصفحات؟ يبدو أن MJ12bot شرعي أيضًا (على الأقل، هذا ما تقوله عمليات بحث Google الخاصة بي…). لاحظ أن المنتدى متصل بالإنترنت، ولكنه يتطلب تسجيل الدخول لرؤية المحتوى. سيتم فتحه للجمهور في غضون أيام قليلة.
أرى أحيانًا زيادات في عدد الزوار من برامج الزحف على منتدياتي، لكنها تستمر ليوم أو يومين فقط ثم تختفي لفترة طويلة.
أمثلة:
تحقق من عناوين IP. إنها واحدة من أكثر العناوين المزيفة استخدامًا أيضًا. بالإضافة إلى أنها عديمة الفائدة تمامًا لك، مثل جميع روبوتات تحسين محركات البحث المزعومة.
لا أعرف شيئًا عن الزواحف. أليست زواحف جوجل الرسمية مفيدة فيما يتعلق بتحسين محركات البحث؟ عذرًا إذا كنت أبدأ في الخروج عن الموضوع.
بما أنني من بدأ الموضوع، فلا أرى أن سؤالك خارج عن الموضوع. كان منشوري للإعلام، وأنت تحاول فقط فهم تفاصيل المعلومات بشكل أفضل.
بينما لست خبيرًا في تحسين محركات البحث، إذا كنت تريد أن يعثر الأشخاص على موقعك باستخدام محرك بحث، فأنت بحاجة إلى السماح لبرنامج الزحف الخاص بمحرك البحث بالزحف إلى موقعك لبناء وتحديث فهارسه.
المشكلة هي أن بعض برامج الزحف لا توجه المستخدمين إلى موقع ما، وإذا كان الأمر كذلك ولا تريد عددًا كبيرًا من الزيارات للصفحات، فستطلب منهم عدم الزحف إلى موقعك باستخدام robots.txt. ومع ذلك، فإن محركات البحث السيئة ستتجاهل robots.txt، وسيتعين على المرء بعد ذلك استخدام قواعد جدار الحماية وما شابه ذلك. تصبح المشكلة بعد ذلك مشكلة قديمة، وهي أنه إذا أراد شخص ما الوصول إلى موقع مفتوح (بدون تسجيل دخول)، فمن الصعب منعه لأنه يغير هويته في كل مرة. إذا تم اختيار تسجيل الدخول المطلوب، فإن ذلك يقلل غالبًا من عدد الأشخاص الذين سيشتركون.
فيما يتعلق بالمنشور الأصلي، لم أرَ زيادة ضخمة أخرى في عدد مشاهدات الصفحة في يوم واحد بسبب MeagIndex أو برنامج زحف آخر منذ الحالة الشاذة المبلغ عنها.
تحديث: 08/13/2022
زار الروبوت موقعنا مرة أخرى في 08/04/2022 (موقع الزاحف)
تقرير: مشاهدات الصفحة المجمعة
تقرير: وكلاء مستخدمي زاحف الويب
تقرير: أهم مصدر حركة المرور
من الواضح أن السماح لروبوت MegaIndex.ru/2.0 بفهرسة الموقع لا يبدو أنه يولد حركة مرور إلى الموقع.
ملاحظة: على حد علمي، يختلف yandex.ru عن Megaindex.ru.
لحظر الزواحف، يوجد robots.txt والذي تمت ملاحظته
https://<موقع Discourse>/admin/customize/robots
ولكن لن تحترم جميع الزواحف ملف robots.txt. ![]()
robots.txt ليس لإيقاف الروبوتات. إنها إرشادات للروبوتات ذات السلوك الجيد. يجب أن تتوقف على مستوى الخادم. أحد أكبر الأسباب التي تجعل منصة discourse الخاصة بي خلف وكيل عكسي.
في 22/12/2022، قام https://bot.seekport.com وهو بوت جديد غير معروف بالنسبة لي، بعدد كبير جدًا من مشاهدات الصفحات
يعد الارتفاع شبه المنتظم في نشاط الزواحف أمرًا معتادًا. نقسمها بأنفسنا إلى:\n* زواحف منتظمة من محركات بحث مشروعة\n* زواحف غير منتظمة من محركات بحث جديدة/مخصصة\n* زواحف مستهدفة من قبل منافسين أو أي “باحثين” آخرين قد يستخدمون بياناتك الزاحفة بفعالية لأغراضهم.\n\nبناءً على خبرتنا، لا داعي للقلق وحماية نفسك من الزحف إلا إذا كنت لا تريد استخدام معلوماتك لأي غرض أو كنت تعاني من أحمال خادم شديدة بسبب ذلك. في النهاية، إذا كان منتداك/مشروعك عامًا، فسيكون هناك دائمًا طريقة لجمع بياناتك العامة لأي غرض
\n\n\n