يشرح هذا الدليل كيفية إدارة زواحف الويب على موقع Discourse الخاص بك.
مستوى المستخدم المطلوب: مسؤول
يمكن لزواحف الويب أن تؤثر بشكل كبير على أداء موقعك من خلال زيادة عدد مشاهدات الصفحات وحمل الخادم.
عندما يلاحظ موقع ما زيادة مفاجئة في عدد مشاهدات الصفحات لديه، فمن المهم التحقق من كيفية تواجد زواحف الويب ضمن هذا المزيج.
التحقق من نشاط الزواحف
لمعرفة ما إذا كانت الزواحف تؤثر على موقعك، انتقل إلى تقرير مشاهدات الصفحات المجمعة (
/admin/reports/consolidated_page_views) من لوحة تحكم المسؤول الخاصة بك. يقسم هذا التقرير أعداد مشاهدات الصفحات من المستخدمين المسجلين، والمستخدمين المجهولين، والزواحف.موقع تعمل فيه الزواحف بشكل طبيعي:
موقع خرجت فيه الزواحف عن السيطرة:
تحديد الزواحف المحددة
انتقل إلى تقرير وكيل مستخدم زاحف الويب (
/admin/reports/web_crawlers) للعثور على قائمة بأسماء زواحف الويب مرتبة حسب عدد مشاهدات الصفحات.عندما يصل زاحف ويب إشكالي إلى الموقع، سيكون عدد مشاهدات الصفحات الخاصة به أعلى بكثير من زواحف الويب الأخرى. لاحظ أنه قد يكون هناك عدد من زواحف الويب الضارة تعمل في نفس الوقت.
حظر وتقييد الزواحف
من العادات الجيدة عدم حظر زواحف محركات البحث الرئيسية، مثل Google، و Bing، و Baidu (الصينية)، و Yandex (الروسية)، و Naver (الكورية)، و DuckDuckGo، و Yahoo وغيرها، بناءً على بلدك.
عندما يخرج زاحف ويب عن السيطرة، هناك فرصة جيدة لأن يكون نفس الزاحف قد وصل إلى مواقع أخرى وأن يكون شخص ما قد طلب بالفعل معلومات أو أنشأ تقارير عنه ستكون مفيدة لفهم ما إذا كان يجب تقييد أو حظر هذا الزاحف المحدد.
لاحظ أن بعض الزواحف قد تساهم بعدد كبير من مشاهدات الصفحات إذا كنت تستخدم خدمات طرف ثالث لمراقبة موقعك أو إضافة وظائف إليه عبر البرامج النصية، وما إلى ذلك.
للحصول على سجل بزواحف الويب غير الموثوق بها، يمكنك الرجوع إلى هذه القائمة، https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
ضبط إعدادات الزواحف
ضمن المسؤول > الإعدادات، توجد بعض الإعدادات التي يمكن أن تساعد في تحديد معدل الزواحف المحددة:
إبطاء الزواحف باستخدام:
slow down crawler user agents
slow down crawler rateحظر الزواحف باستخدام:
blocked crawler user agentsتأكد من أنك تعرف اسم وكيل المستخدم الدقيق للزواحف التي ترغب في التحكم فيها. إذا قمت بتعديل أي من الإعدادات المذكورة أعلاه ولم تلاحظ انخفاضًا في مشاهدات الصفحات لهذا الوكيل، فقد ترغب في التحقق مرة أخرى من أنك تستخدم الاسم الصحيح.
عند الشك في كيفية التصرف، ابدأ دائمًا بخيار “الإبطاء” بدلاً من الحظر الكامل. تحقق بمرور الوقت مما إذا كانت هناك تحسينات. يمكنك المتابعة بالحظر الكامل إذا لم تلاحظ نتائج ملموسة.
هل يجب أن يكون هناك نوع من إخلاء المسؤولية بأن هذا يعمل فقط مع الأشخاص الذين يتصرفون بشكل جيد؟ وحتى جوجل سيتجاوز كل هؤلاء عندما يأتي عبر روابط من Gmail.
كلاهما يتم تطبيقهما على الخادم.
ومع ذلك، إذا ادعى روبوت سيء أنه Chrome أو أي شخص آخر عن طريق تزييف الرؤوس، فلا يمكننا استخدام الرؤوس للكشف عنه…
حقيقة قاتلة: بطاقات المعاينة تُحتسب كزيارة صفحة!
الخادم الذي أديره يبدو أنه غُمر بطلبات بطاقات المعاينة من النوع http.rb/5.1.0 (Mastodon/4.0.2; + [https://mstdn.science/](https://mstdn.science/))
لا أعتقد أنه يمكن اتخاذ أي إجراء سوى إخبار ناشري ماستودون بتضمين صورة حتى لا تتم إضافة بطاقة المعاينة تلقائيًا.
لدي بالفعل أكثر من 1500 زيارة يوميًا من الزواحف.
هل يمكنني حظرهم جميعًا باستخدام Cloudflare DNS؟ أو ما هو الخيار المطلوب لحظرهم جميعًا بالقوة؟ (مثيل خاص)
أنا ببساطة لا أريدهم.
باستخدام nginx كمثيل وكيل عكسي وإيقاف وكلاء المستخدم غير المرغوب فيهم. هذا يساعد كثيرًا. حظر البلدان التي لا تحتاجها يساعد كثيرًا أيضًا.
لا يمكنني حظر الولايات المتحدة وفرنسا وألمانيا (بلدان الخوادم الافتراضية الكبيرة) ولكن بالنسبة لي، ساعدت روسيا وفيتنام وإيران والعراق وما إلى ذلك كثيرًا.
لكن Discourse مرن جدًا … هل الكلمة الصحيحة هي مرن؟ الوضع مختلف تمامًا عن WordPress حيث يمكن لروبوتات تحسين محركات البحث عديمة الفائدة، والمطرقين، والأطفال المبرمجين، والجهات الفاعلة الخبيثة أن تضع خادمًا على ركبتيه بسهولة.
أنا أستضيف على Hetzner ألمانيا، مع فتح منفذين فقط في جدار الحماية الخاص بي (80/443). و Discourse يعمل خلف NGINX proxy manager (بالتأكيد، هناك حلول أفضل، لكنني شخص كسول في البرمجة وأحب الواجهات الأمامية للويب).
الآن أنا أتبع طريقة القائمة البيضاء، مع سلسلة عشوائية كإدخال مسموح به فقط … من الآن فصاعدًا، لن تكون هناك المزيد من مشاهدات الصفحة ![]()
سؤال حول ما يجب وضعه بالضبط في “إبطاء وكلاء الزحف”.
بالنسبة لنا، فيسبوك هو المتهم الرئيسي، مع بينج في المرتبة الثالثة بفارق ضئيل.
يُظهر التقرير وكلاء الزحف التاليين كالمتصدرين الذين يستهلكون مشاهدات الصفحة:
- http://www.facebook.com/externalhit_uatext.php
- https://developers.facebook.com/docs/sharing/webmasters/crawler
- Bing Webmaster Tools - Help Documentation
ما الذي يجب وضعه بالضبط في “إبطاء وكلاء الزحف” - عناوين URL هذه بالضبط بما في ذلك “https” أو “http”؟ أم كل شيء بعد الشرطة المزدوجة؟ أم شيء آخر؟ أم أننا نعتمد على التجربة والخطأ؟
شكرا!
لإبقاء الأمور بسيطة، يجب عليك استخدام أسماء تلك الروبوتات. ولكن يمكنك استخدام أي جزء من سلسلة وكيل المستخدم، ولكن تأكد من أنها لا تؤثر على أكثر مما تريد.
إبطاء الروبوتات هو طريقة غير موثوقة للغاية، ولكن البعض يتبع هذه القاعدة. ولكن هذه تأتي من مشاركاتك وما إلى ذلك ولا تنشئ الكثير من عبء العمل. ووردبريس سيكون قصة أخرى.
ولكن هذا جزء من قائمة الروبوتات المحظورة لدي. يمكنك فهم النقطة منها.
شكرًا لك يا @Jagster - مفيد جدًا. أشعر وكأنها لعبة “ضرب الخلد” أحيانًا، لكنني فهمت فكرة استخدام جزء من سلسلة اسم الزاحف بدلاً من كلها.
إنه عمل قيد التقدم بالنسبة لي كمسؤول عن الموقع على ما أعتقد - إلى الأمام!
يمكن أن يكون هناك عدة أسباب، ولكن لدى Googlebot ميزانيته الخاصة، وعندما تكون خرائط الموقع هي الطريقة الأكثر أهمية للعثور على الروابط، فإنها لا تصل أبدًا إلى الروابط الداخلية عند استخدام الميزانية اليومية/الأسبوعية/الشهرية.
وفي المنتدى، الروابط الداخلية مهمة للمستخدمين، وليس لجوجل.
لكنني لا أعرف ما إذا كان Googlebot يرى الروابط الداخلية. يجب أن يفعل ذلك، على الرغم من ذلك.


