التحكم في زواحف الويب لموقع

Discourse · 9 نوفمبر 2022، 12:04م

يشرح هذا الدليل كيفية إدارة زواحف الويب على موقع Discourse الخاص بك.

مستوى المستخدم المطلوب: مسؤول

يمكن لزواحف الويب أن تؤثر بشكل كبير على أداء موقعك من خلال زيادة عدد مشاهدات الصفحات وحمل الخادم.

عندما يلاحظ موقع ما زيادة مفاجئة في عدد مشاهدات الصفحات لديه، فمن المهم التحقق من كيفية تواجد زواحف الويب ضمن هذا المزيج.

التحقق من نشاط الزواحف

لمعرفة ما إذا كانت الزواحف تؤثر على موقعك، انتقل إلى تقرير مشاهدات الصفحات المجمعة (/admin/reports/consolidated_page_views) من لوحة تحكم المسؤول الخاصة بك. يقسم هذا التقرير أعداد مشاهدات الصفحات من المستخدمين المسجلين، والمستخدمين المجهولين، والزواحف.

موقع تعمل فيه الزواحف بشكل طبيعي:

image1712×423 36.2 KB

موقع خرجت فيه الزواحف عن السيطرة:

image1745×412 37.4 KB

تحديد الزواحف المحددة

انتقل إلى تقرير وكيل مستخدم زاحف الويب (/admin/reports/web_crawlers) للعثور على قائمة بأسماء زواحف الويب مرتبة حسب عدد مشاهدات الصفحات.

عندما يصل زاحف ويب إشكالي إلى الموقع، سيكون عدد مشاهدات الصفحات الخاصة به أعلى بكثير من زواحف الويب الأخرى. لاحظ أنه قد يكون هناك عدد من زواحف الويب الضارة تعمل في نفس الوقت.

حظر وتقييد الزواحف

من العادات الجيدة عدم حظر زواحف محركات البحث الرئيسية، مثل Google، و Bing، و Baidu (الصينية)، و Yandex (الروسية)، و Naver (الكورية)، و DuckDuckGo، و Yahoo وغيرها، بناءً على بلدك.

عندما يخرج زاحف ويب عن السيطرة، هناك فرصة جيدة لأن يكون نفس الزاحف قد وصل إلى مواقع أخرى وأن يكون شخص ما قد طلب بالفعل معلومات أو أنشأ تقارير عنه ستكون مفيدة لفهم ما إذا كان يجب تقييد أو حظر هذا الزاحف المحدد.

لاحظ أن بعض الزواحف قد تساهم بعدد كبير من مشاهدات الصفحات إذا كنت تستخدم خدمات طرف ثالث لمراقبة موقعك أو إضافة وظائف إليه عبر البرامج النصية، وما إلى ذلك.

للحصول على سجل بزواحف الويب غير الموثوق بها، يمكنك الرجوع إلى هذه القائمة، https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt

ضبط إعدادات الزواحف

ضمن المسؤول > الإعدادات، توجد بعض الإعدادات التي يمكن أن تساعد في تحديد معدل الزواحف المحددة:

إبطاء الزواحف باستخدام:

slow down crawler user agents

slow down crawler rate

حظر الزواحف باستخدام:

blocked crawler user agents

تأكد من أنك تعرف اسم وكيل المستخدم الدقيق للزواحف التي ترغب في التحكم فيها. إذا قمت بتعديل أي من الإعدادات المذكورة أعلاه ولم تلاحظ انخفاضًا في مشاهدات الصفحات لهذا الوكيل، فقد ترغب في التحقق مرة أخرى من أنك تستخدم الاسم الصحيح.

عند الشك في كيفية التصرف، ابدأ دائمًا بخيار “الإبطاء” بدلاً من الحظر الكامل. تحقق بمرور الوقت مما إذا كانت هناك تحسينات. يمكنك المتابعة بالحظر الكامل إذا لم تلاحظ نتائج ملموسة.

Jagster · 9 نوفمبر 2022، 12:49م

هل يجب أن يكون هناك نوع من إخلاء المسؤولية بأن هذا يعمل فقط مع الأشخاص الذين يتصرفون بشكل جيد؟ وحتى جوجل سيتجاوز كل هؤلاء عندما يأتي عبر روابط من Gmail.

sam · 10 نوفمبر 2022، 12:55ص

كلاهما يتم تطبيقهما على الخادم.

ومع ذلك، إذا ادعى روبوت سيء أنه Chrome أو أي شخص آخر عن طريق تزييف الرؤوس، فلا يمكننا استخدام الرؤوس للكشف عنه…

spdegabrielle · 11 يوليو 2023، 8:37ص

حقيقة قاتلة: بطاقات المعاينة تُحتسب كزيارة صفحة!

الخادم الذي أديره يبدو أنه غُمر بطلبات بطاقات المعاينة من النوع http.rb/5.1.0 (Mastodon/4.0.2; + [https://mstdn.science/](https://mstdn.science/))

لا أعتقد أنه يمكن اتخاذ أي إجراء سوى إخبار ناشري ماستودون بتضمين صورة حتى لا تتم إضافة بطاقة المعاينة تلقائيًا.

terraboss · 23 أبريل 2024، 2:33م

لدي بالفعل أكثر من 1500 زيارة يوميًا من الزواحف. هل يمكنني حظرهم جميعًا باستخدام Cloudflare DNS؟ أو ما هو الخيار المطلوب لحظرهم جميعًا بالقوة؟ (مثيل خاص)
أنا ببساطة لا أريدهم.

Jagster · 23 أبريل 2024، 3:16م

باستخدام nginx كمثيل وكيل عكسي وإيقاف وكلاء المستخدم غير المرغوب فيهم. هذا يساعد كثيرًا. حظر البلدان التي لا تحتاجها يساعد كثيرًا أيضًا.

لا يمكنني حظر الولايات المتحدة وفرنسا وألمانيا (بلدان الخوادم الافتراضية الكبيرة) ولكن بالنسبة لي، ساعدت روسيا وفيتنام وإيران والعراق وما إلى ذلك كثيرًا.

لكن Discourse مرن جدًا … هل الكلمة الصحيحة هي مرن؟ الوضع مختلف تمامًا عن WordPress حيث يمكن لروبوتات تحسين محركات البحث عديمة الفائدة، والمطرقين، والأطفال المبرمجين، والجهات الفاعلة الخبيثة أن تضع خادمًا على ركبتيه بسهولة.

terraboss · 24 أبريل 2024، 5:12ص

أنا أستضيف على Hetzner ألمانيا، مع فتح منفذين فقط في جدار الحماية الخاص بي (80/443). و Discourse يعمل خلف NGINX proxy manager (بالتأكيد، هناك حلول أفضل، لكنني شخص كسول في البرمجة وأحب الواجهات الأمامية للويب).
الآن أنا أتبع طريقة القائمة البيضاء، مع سلسلة عشوائية كإدخال مسموح به فقط … من الآن فصاعدًا، لن تكون هناك المزيد من مشاهدات الصفحة

PatrickF · 14 سبتمبر 2024، 11:30ص

سؤال حول ما يجب وضعه بالضبط في “إبطاء وكلاء الزحف”.
بالنسبة لنا، فيسبوك هو المتهم الرئيسي، مع بينج في المرتبة الثالثة بفارق ضئيل.
يُظهر التقرير وكلاء الزحف التاليين كالمتصدرين الذين يستهلكون مشاهدات الصفحة:

ما الذي يجب وضعه بالضبط في “إبطاء وكلاء الزحف” - عناوين URL هذه بالضبط بما في ذلك “https” أو “http”؟ أم كل شيء بعد الشرطة المزدوجة؟ أم شيء آخر؟ أم أننا نعتمد على التجربة والخطأ؟

شكرا!

Jagster · 14 سبتمبر 2024، 12:39م

لإبقاء الأمور بسيطة، يجب عليك استخدام أسماء تلك الروبوتات. ولكن يمكنك استخدام أي جزء من سلسلة وكيل المستخدم، ولكن تأكد من أنها لا تؤثر على أكثر مما تريد.

إبطاء الروبوتات هو طريقة غير موثوقة للغاية، ولكن البعض يتبع هذه القاعدة. ولكن هذه تأتي من مشاركاتك وما إلى ذلك ولا تنشئ الكثير من عبء العمل. ووردبريس سيكون قصة أخرى.

ولكن هذا جزء من قائمة الروبوتات المحظورة لدي. يمكنك فهم النقطة منها.

PatrickF · 14 سبتمبر 2024، 12:57م

شكرًا لك يا @Jagster - مفيد جدًا. أشعر وكأنها لعبة “ضرب الخلد” أحيانًا، لكنني فهمت فكرة استخدام جزء من سلسلة اسم الزاحف بدلاً من كلها.

إنه عمل قيد التقدم بالنسبة لي كمسؤول عن الموقع على ما أعتقد - إلى الأمام!

Jagster · 19 يوليو 2025، 7:51ص

يمكن أن يكون هناك عدة أسباب، ولكن لدى Googlebot ميزانيته الخاصة، وعندما تكون خرائط الموقع هي الطريقة الأكثر أهمية للعثور على الروابط، فإنها لا تصل أبدًا إلى الروابط الداخلية عند استخدام الميزانية اليومية/الأسبوعية/الشهرية.

وفي المنتدى، الروابط الداخلية مهمة للمستخدمين، وليس لجوجل.

لكنني لا أعرف ما إذا كان Googlebot يرى الروابط الداخلية. يجب أن يفعل ذلك، على الرغم من ذلك.

الموضوع		الردود	مرات العرض
Too many Crawlers, is that a problem? Data & reporting	6	2518	25 يونيو 2020
Smarter handling of random crawler traffic Feature	2	3499	29 مارس 2018
MegaIndex bot did about 4,000 pageviews on one day Community	40	4520	2 ديسمبر 2023
Web Crawlers Data & reporting	12	1190	31 يوليو 2023
Can I ignore some user agents? Support	6	839	23 أغسطس 2022

التحكم في زواحف الويب لموقع

التحقق من نشاط الزواحف

تحديد الزواحف المحددة

حظر وتقييد الزواحف

ضبط إعدادات الزواحف

الموضوعات ذات الصلة