ماذا يمكن للزواحف رؤيته؟

PVIcpaq · 3 فبراير 2024، 7:15م

هناك عدد قليل من الزواحف على موقعنا. هل هناك أي خطر من وصولها إلى المحتوى؟
ما هو «حمل/خطر الزاحف المقبول» قبل أن أضطر إلى اتخاذ إجراءات حظر لا أملك فيها سوى القليل من الخبرة، إن وجدت؟

HAWK · 3 فبراير 2024، 7:35م

يمكنهم فقط الزحف إلى المواقع العامة، مما يعني عدم وجود خرق أمني. لكن نعم، يمكنهم الوصول إلى المحتوى العام.

Jagster · 3 فبراير 2024، 8:53م

عندما يكون الحمل مرتفعًا جدًا لدرجة أنه يؤثر سلبًا ويجب عليك شراء المزيد من وحدات المعالجة المركزية و/أو ذاكرة الوصول العشوائي. حسنًا، لا أعرف مدى سهولة حدوث ذلك في Discourse لأن الحل مختلف، ولكن من السهل جدًا وضع WordPress المستند إلى PHP تحت الضغط. لكن Discourse يقدم محتوى ثابتًا وخفيف الوزن للروبوتات، إذا كان يعرف من هم البشر ومن ليسوا كذلك. وإذا قدم الروبوت وكيل مستخدم خاطئًا بشكل كبير فماذا يمكن أن يحصل عليه… الكثير من النصوص بتنسيق JSON؟

إذا شق الروبوت طريقه عبر تسجيل الدخول وحاجز مستوى الثقة وما إلى ذلك. أتوقع أن يكون الفريق في وضع ذعر ويجب على كل يد العودة إلى العمل على الفور

HAWK · 4 فبراير 2024، 1:40ص

لاحظ أيضًا أنه يمكنك بسهولة حظر الزواحف عبر إعدادات المسؤول الخاصة بك.

PVIcpaq · 4 فبراير 2024، 2:19ص

سأكون ممتنًا جدًا لو عرفت كيف…

HAWK · 4 فبراير 2024، 2:41ص

التحكم في زواحف الويب لموقع

Jagster · 4 فبراير 2024، 3:37ص

نأمل ألا يكون هذا مجرد تعديل لملف robots.txt لأنه يعمل فقط مع الملفات التي تتصرف بشكل جيد. يوجد في الواقع حل واحد فعال ولكنه أكثر صعوبة: الوكيل العكسي.

HAWK · 4 فبراير 2024، 5:43ص

هذا النهج فعال - نحن نستخدمه بأنفسنا ونوصي به لمن يستخدمون الاستضافة لدينا.

Jagster · 4 فبراير 2024، 7:11ص

هل يجب أن أقرأ أن ديسكورس تستخدم التصفية؟

HAWK · 4 فبراير 2024، 7:31م

لست متأكدًا مما تطلبه. نحن لا نحظر أي شيء افتراضيًا ولكننا نوفر للمسؤولين الأدوات اللازمة ليكونوا انتقائيين.

Jagster · 4 فبراير 2024، 7:36م

إذًا، أنت تثق في أن الروبوتات ستقوم أ) بقراءة ملف robots.txt و ب) اتباع القواعد. حسنًا، الروبوتات سيئة السلوك لا تفعل أيًا من هذين الأمرين. ونحن نعود إلى حيث بدأنا: إذا كانت الروبوتات تمثل أي مشكلة، فإن البروكسي العكسي هو الحل الأفضل.

شكرًا. هذا ما أود معرفته.

HAWK · 4 فبراير 2024، 8:43م

آه، أفهم ما تقصده. لا، نحن لا نفترض أن جميع الروبوتات تعرف نفسها بأنها زاحفة أو تتبع القواعد - إنها بالتأكيد علم غير دقيق. كنت ببساطة أقدم نقطة تخفيف أولى لصاحب المنشور الأصلي.

نحن نعمل حاليًا على طرق لتقييد حركة المرور بشكل أكثر تحديدًا، ولكنها ليست مهمة سهلة.

anon36555649 · 4 فبراير 2024، 10:39م

لاحظت أن أعداد الزواحف أقل بكثير على الموقع المستضاف في ديسكورس مقارنة بالموقع على خادم ديجيتال أوشن، مع الإعدادات الافتراضية للمسؤول لكل منهما.

عادةً ما يكون للموقع المستضاف أقل من عشر زواحف يوميًا، بمتوسط حوالي 4. في بعض الأحيان تكون هناك زيادات مثل اليوم الأخير من شهر يناير الأخير الذي شهد 77 زاحفًا في ذلك اليوم.

الموقع على ديجيتال أوشن، مع نشاط شبه معدوم، لديه متوسط حوالي 30 زاحفًا يوميًا، لا أعرف لماذا إذا كان هذا يهم نوع الخادم أو النطاق لماذا سيكون هناك المزيد من الزواحف؟

هذه بشكل عام تبحث/تفهرس المواقع العامة + المحتوى لمحركات البحث لتتمكن من العثور عليها، وهو ما يمكن أن يكون شيئًا جيدًا للمواقع إذا كنت ترغب في الوصول إلى جمهور أوسع، حيث يمكن للناس العثور على موقعك إذا كانوا يبحثون عن شيء يتم الحديث عنه في موقع ديسكورس.

قد تكون هناك أغراض أخرى للزواحف، لا أعرف ما هي كلها. هؤلاء تم منع الوصول إليهم افتراضيًا في الإعدادات، وهو ما تعرفه بالفعل على الأرجح:

PVIcpaq · 5 فبراير 2024، 2:37ص

بصفتي شخصًا قليل الخبرة نسبيًا في مجال الكمبيوتر، كنت أتابع آراءكم الخبيرة حول الزحف (crawling) بشكل يشبه المتفرج المعاق الذي يشاهد المباراة النهائية لبطولة أمريكا المفتوحة للتنس… شكرًا لكم على تعريفي بهذا الجزء المحير من أمن المواقع.

منتدانا الذي تستضيفه منصة Discourse بكفاءة عالية هو منتدى سري للغاية. المستخدمون الذين ينضمون بالدعوة قلقون جدًا بشأن السرية، وأنا أحاول طمأنتهم قدر استطاعتي. قد لا تكون الزواحف (Crawlers) ضارة جدًا (؟! )، لكنني أود إبعادها تمامًا إن أمكن، فهي لا فائدة منها لنا حيث لا نهتم بفهرسة محتوانا أو معرفته بأي شكل من الأشكال.

أدرك الآن أن تحسين الإعدادات هو أول شيء يجب القيام به. هل من الممكن فحص إعداداتي من قبل أحد فرق الدعم في Communitech في هذا الصدد؟

شكرًا لاهتمامكم.

rahim123 · 5 فبراير 2024، 3:17ص

آه، هذا شيء جيد أن أراه، اعتقدت أنه يعتمد فقط على Redis لتقديم المحتوى الذي تم عرضه مؤخرًا بشكل أسرع. كما ذكرت، عندما كان منتدى يعمل على Drupal، كانت الروبوتات السيئة وأحيانًا حتى زواحف محركات البحث تتعثر أحيانًا. لكنني قمت بتثبيت إضافة أنشأت ذاكرة تخزين مؤقت لملفات HTML ثابتة للصفحات التي تم الوصول إليها بشكل مجهول وأنشأت تلقائيًا قواعد إعادة كتابة Nginx لها. كان Nginx يقدمها دون الحاجة إلى تشغيل كود Drupal PHP وكان سريعًا للغاية ويمكنه التعامل مع المزيد من حركة المرور المجهولة.

HAWK · 5 فبراير 2024، 4:04ص

مرحباً. من المهم جداً ملاحظة أن هذا ليس له أي تداعيات أمنية. الزواحف لديها وصول فقط إلى المواقع العامة. إذا كان لديك موقع يتطلب تسجيل دخول، فلن يتمكنوا من الوصول إليه.

توضيح آخر هو أن Communiteq ليست تابعة لنا بأي شكل من الأشكال، لذا إذا كانوا هم مضيفيك، فأنت لست مستضافاً بواسطة Discourse.

RGJ · 5 فبراير 2024، 4:47م

كنت أخطط لإرسال رد خاص ولكن قد يكون هذا مفيدًا للآخرين أيضًا لذلك أنشره هنا.

إنهم يصلون فقط إلى صفحة البداية (تسجيل الدخول) الخاصة بك ولا يمكنهم الوصول إلى المحتوى.

يمكن أن تكون كذلك. اعتمادًا على نوع الزاحف، قد يجعلون المعلومات المتاحة غير متاحة كما تريد. من الناحية الفنية، يمكن للزاحف الوصول فقط إلى المعلومات العامة، لكن الزاحف (ومحركات البحث المرتبطة به) جيد جدًا في اكتشاف المعلومات وجعلها متاحة.

لذا دعنا نلقي نظرة على وضعك.

ملف robots.txt الخاص بك يظهر

User-agent: *
Disallow: /

لذلك تم تعيينه لرفض جميع زواحف محركات البحث.

ولكن هذا وحده لا يكفي، نظرًا لأن robots.txt يعتمد على اللباقة ولا يتم احترامه من قبل الروبوتات “السيئة”. يمكن لروبوت سيء ببساطة تجاهل robots.txt. إنه مثل لافتة “ممنوع الدخول!” - لن يحترمها لص.

الأمان الرئيسي لمنتدى الخاص بك يعتمد على حقيقة أن لديك تمكين تسجيل الدخول مطلوب. هذا يكفي لإبقاء أي زاحف بعيدًا.

على الرغم من أننا حددنا بالفعل أن الزواحف لا يمكنها الدخول، فقد يكون من الجيد اتخاذ خطوة أخرى.

لديك أيضًا تمكين دعوة فقط و السماح بتسجيلات جديدة، وتم تعيين المجموعات المسموح بها للدعوة إلى TL2. هذا يعني أنه لا يمكن للأشخاص العشوائيين التسجيل، ولكن يمكن لأي مستخدم في TL2 أو أعلى دعوة مستخدمين آخرين إلى المجتمع. كشبكة أمان، قمت بتمكين يجب الموافقة على المستخدمين، وهذا جيد. الطريقة الوحيدة للوصول إلى مجتمعك هي الحصول على دعوة من شخص موثوق به بالفعل في المجتمع، ويجب على المسؤول السماح لك بالدخول.

يرجى التواصل مع support@communiteq.com أو استخدام خيار "الدعم" في لوحة التحكم الخاصة بنا إذا كانت لديك أسئلة دعم بخصوص منتدى مستضاف من قبلنا.

الموضوع		الردود	مرات العرض
How to protect myself from bots crawling my Discourse instance? Support	6	1603	17 يناير 2022
Controlling Web Crawlers For a Site Site Management how-to	10	2369	19 يوليو 2025
Smarter handling of random crawler traffic Feature	2	3499	29 مارس 2018
MegaIndex bot did about 4,000 pageviews on one day Community	40	4520	2 ديسمبر 2023
How to allow user-agent access to private discourse? Support	10	2017	25 نوفمبر 2018

ماذا يمكن للزواحف رؤيته؟

الموضوعات ذات الصلة