يشرح هذا الدليل كيفية إدارة زواحف الويب على موقع Discourse الخاص بك.
مستوى المستخدم المطلوب: مسؤول
يمكن لزواحف الويب أن تؤثر بشكل كبير على أداء موقعك من خلال زيادة عدد مشاهدات الصفحات وحمل الخادم.
عندما يلاحظ موقع ما ارتفاعًا مفاجئًا في عدد مشاهدات الصفحات، من المهم التحقق من كيفية ارتباط زواحف الويب بهذا الأمر.
التحقق من نشاط الزواحف
لمعرفة ما إذا كانت الزواحف تؤثر على موقعك، انتقل إلى تقرير زيارات الموقع (
/admin/reports/site_traffic) من لوحة الإدارة الخاصة بك. يقسم هذا التقرير أعداد مشاهدات الصفحات من متصفحات المستخدمين المسجلين، ومتصفحات المستخدمين المجهولين، والزواحف، ومصادر أخرى.موقع تعمل فيه الزواحف بشكل طبيعي:
موقع تكون فيه الزواحف خارجة عن السيطرة:
تحديد الزواحف المحددة
انتقل إلى تقرير وكيل مستخدم زاحف الويب (
/admin/reports/web_crawlers) للعثور على قائمة بأسماء زواحف الويب مرتبة حسب عدد مشاهدات الصفحة.عندما يزور زاحف ويب إشكالي الموقع، سيكون عدد مشاهداته للصفحات أعلى بكثير من زواحف الويب الأخرى. لاحظ أنه قد يكون هناك عدد من زواحف الويب الخبيثة تعمل في نفس الوقت.
حظر الزواحف وتقييدها
من الممارسات الجيدة عدم حظر زواحف محركات البحث الرئيسية، مثل Google، وBing، وBaidu (الصينية)، وYandex (الروسية)، وNaver (الكورية)، وDuckDuckGo، وYahoo وغيرهم، بناءً على بلدك.
عندما يكون زاحف ويب خارجًا عن السيطرة، هناك احتمال كبير أن يكون نفس الزاحف قد زار مواقع أخرى وقام شخص ما بالفعل بطلب معلومات عنه أو إنشاء تقارير عنه ستكون مفيدة لفهم ما إذا كان ينبغي تقييد هذا الزاحف المحدد أو حظره.
لاحظ أن بعض الزواحف قد تساهم بعدد كبير من مشاهدات الصفحات إذا كنت تستخدم خدمات تابعة لجهات خارجية لمراقبة موقعك أو إضافة وظائف إليه عبر البرامج النصية، وما إلى ذلك.
للحصول على سجل بالزواحف غير الموثوق بها، يمكنك الرجوع إلى هذه القائمة، \u003chttps://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt\u003e
تعديل إعدادات الزواحف
ضمن الإدارة > الإعدادات، هناك بعض الإعدادات التي يمكن أن تساعد في تحديد معدل الزواحف المحددة:
إبطاء الزواحف باستخدام:
slow down crawler user agents— يتضمن هذا بشكل افتراضيgptbot، وclaudebot، وanthropic-ai، وbrightbotslow down crawler rate— عدد الثواني بين الطلبات المسموح بها لكل زاحف (الافتراضي: 60)حظر الزواحف باستخدام:
blocked crawler user agents— يتضمن هذا بشكل افتراضيmauibot، وsemrushbot، وahrefsbot، وblexbot، وseo spiderالسماح فقط لزواحف محددة باستخدام:
allowed crawler user agents— عند تعيينه، سيُسمح فقط للزواحف المدرجة بالوصول إلى الموقع؛ وسيتم حظر جميع الزواحف الأخرى. يعمل هذا كقائمة سماح صارمة. تحذير: سيؤدي تعيين هذا إلى تجاوزblocked crawler user agentsوحظر جميع الزواحف غير المدرجة، بما في ذلك محركات البحث الرئيسية إذا لم يتم تضمينها.تأكد من معرفة اسم وكيل المستخدم الدقيق للزواحف التي ترغب في التحكم بها. إذا قمت بتعديل أي من الإعدادات المذكورة أعلاه ولم ترَ انخفاضًا في عدد مشاهدات ذلك الوكيل، فقد ترغب في التحقق مرة أخرى من أنك تستخدم الاسم الصحيح.
عند الشك في كيفية التصرف، ابدأ دائمًا بخيار “الإبطاء” بدلاً من الحظر الكامل. تحقق بمرور الوقت مما إذا كانت هناك تحسينات. يمكنك المتابعة إلى الحظر الكامل إذا لم تلاحظ نتائج ملموسة.
هل يجب أن يكون هناك نوع من إخلاء المسؤولية بأن هذا يعمل فقط مع الأشخاص الذين يتصرفون بشكل جيد؟ وحتى جوجل سيتجاوز كل هؤلاء عندما يأتي عبر روابط من Gmail.
كلاهما يتم تطبيقهما على الخادم.
ومع ذلك، إذا ادعى روبوت سيء أنه Chrome أو أي شخص آخر عن طريق تزييف الرؤوس، فلا يمكننا استخدام الرؤوس للكشف عنه…
حقيقة قاتلة: بطاقات المعاينة تُحتسب كزيارة صفحة!
الخادم الذي أديره يبدو أنه غُمر بطلبات بطاقات المعاينة من النوع http.rb/5.1.0 (Mastodon/4.0.2; + [https://mstdn.science/](https://mstdn.science/))
لا أعتقد أنه يمكن اتخاذ أي إجراء سوى إخبار ناشري ماستودون بتضمين صورة حتى لا تتم إضافة بطاقة المعاينة تلقائيًا.
لدي بالفعل أكثر من 1500 زيارة يوميًا من الزواحف.
هل يمكنني حظرهم جميعًا باستخدام Cloudflare DNS؟ أو ما هو الخيار المطلوب لحظرهم جميعًا بالقوة؟ (مثيل خاص)
أنا ببساطة لا أريدهم.
باستخدام nginx كمثيل وكيل عكسي وإيقاف وكلاء المستخدم غير المرغوب فيهم. هذا يساعد كثيرًا. حظر البلدان التي لا تحتاجها يساعد كثيرًا أيضًا.
لا يمكنني حظر الولايات المتحدة وفرنسا وألمانيا (بلدان الخوادم الافتراضية الكبيرة) ولكن بالنسبة لي، ساعدت روسيا وفيتنام وإيران والعراق وما إلى ذلك كثيرًا.
لكن Discourse مرن جدًا … هل الكلمة الصحيحة هي مرن؟ الوضع مختلف تمامًا عن WordPress حيث يمكن لروبوتات تحسين محركات البحث عديمة الفائدة، والمطرقين، والأطفال المبرمجين، والجهات الفاعلة الخبيثة أن تضع خادمًا على ركبتيه بسهولة.
أنا أستضيف على Hetzner ألمانيا، مع فتح منفذين فقط في جدار الحماية الخاص بي (80/443). و Discourse يعمل خلف NGINX proxy manager (بالتأكيد، هناك حلول أفضل، لكنني شخص كسول في البرمجة وأحب الواجهات الأمامية للويب).
الآن أنا أتبع طريقة القائمة البيضاء، مع سلسلة عشوائية كإدخال مسموح به فقط … من الآن فصاعدًا، لن تكون هناك المزيد من مشاهدات الصفحة ![]()
سؤال حول ما يجب وضعه بالضبط في “إبطاء وكلاء الزحف”.
بالنسبة لنا، فيسبوك هو المتهم الرئيسي، مع بينج في المرتبة الثالثة بفارق ضئيل.
يُظهر التقرير وكلاء الزحف التاليين كالمتصدرين الذين يستهلكون مشاهدات الصفحة:
- http://www.facebook.com/externalhit_uatext.php
- https://developers.facebook.com/docs/sharing/webmasters/crawler
- Bing Webmaster Tools - Help Documentation
ما الذي يجب وضعه بالضبط في “إبطاء وكلاء الزحف” - عناوين URL هذه بالضبط بما في ذلك “https” أو “http”؟ أم كل شيء بعد الشرطة المزدوجة؟ أم شيء آخر؟ أم أننا نعتمد على التجربة والخطأ؟
شكرا!
لإبقاء الأمور بسيطة، يجب عليك استخدام أسماء تلك الروبوتات. ولكن يمكنك استخدام أي جزء من سلسلة وكيل المستخدم، ولكن تأكد من أنها لا تؤثر على أكثر مما تريد.
إبطاء الروبوتات هو طريقة غير موثوقة للغاية، ولكن البعض يتبع هذه القاعدة. ولكن هذه تأتي من مشاركاتك وما إلى ذلك ولا تنشئ الكثير من عبء العمل. ووردبريس سيكون قصة أخرى.
ولكن هذا جزء من قائمة الروبوتات المحظورة لدي. يمكنك فهم النقطة منها.
شكرًا لك يا @Jagster - مفيد جدًا. أشعر وكأنها لعبة “ضرب الخلد” أحيانًا، لكنني فهمت فكرة استخدام جزء من سلسلة اسم الزاحف بدلاً من كلها.
إنه عمل قيد التقدم بالنسبة لي كمسؤول عن الموقع على ما أعتقد - إلى الأمام!
يمكن أن يكون هناك عدة أسباب، ولكن لدى Googlebot ميزانيته الخاصة، وعندما تكون خرائط الموقع هي الطريقة الأكثر أهمية للعثور على الروابط، فإنها لا تصل أبدًا إلى الروابط الداخلية عند استخدام الميزانية اليومية/الأسبوعية/الشهرية.
وفي المنتدى، الروابط الداخلية مهمة للمستخدمين، وليس لجوجل.
لكنني لا أعرف ما إذا كان Googlebot يرى الروابط الداخلية. يجب أن يفعل ذلك، على الرغم من ذلك.


