هناك عدد قليل من الزواحف على موقعنا. هل هناك أي خطر من وصولها إلى المحتوى؟
ما هو «حمل/خطر الزاحف المقبول» قبل أن أضطر إلى اتخاذ إجراءات حظر لا أملك فيها سوى القليل من الخبرة، إن وجدت؟
يمكنهم فقط الزحف إلى المواقع العامة، مما يعني عدم وجود خرق أمني. لكن نعم، يمكنهم الوصول إلى المحتوى العام.
عندما يكون الحمل مرتفعًا جدًا لدرجة أنه يؤثر سلبًا ويجب عليك شراء المزيد من وحدات المعالجة المركزية و/أو ذاكرة الوصول العشوائي. حسنًا، لا أعرف مدى سهولة حدوث ذلك في Discourse لأن الحل مختلف، ولكن من السهل جدًا وضع WordPress المستند إلى PHP تحت الضغط. لكن Discourse يقدم محتوى ثابتًا وخفيف الوزن للروبوتات، إذا كان يعرف من هم البشر ومن ليسوا كذلك. وإذا قدم الروبوت وكيل مستخدم خاطئًا بشكل كبير فماذا يمكن أن يحصل عليه… الكثير من النصوص بتنسيق JSON؟
إذا شق الروبوت طريقه عبر تسجيل الدخول وحاجز مستوى الثقة وما إلى ذلك. أتوقع أن يكون الفريق في وضع ذعر ويجب على كل يد العودة إلى العمل على الفور ![]()
لاحظ أيضًا أنه يمكنك بسهولة حظر الزواحف عبر إعدادات المسؤول الخاصة بك.
سأكون ممتنًا جدًا لو عرفت كيف…
نأمل ألا يكون هذا مجرد تعديل لملف robots.txt لأنه يعمل فقط مع الملفات التي تتصرف بشكل جيد. يوجد في الواقع حل واحد فعال ولكنه أكثر صعوبة: الوكيل العكسي.
هذا النهج فعال - نحن نستخدمه بأنفسنا ونوصي به لمن يستخدمون الاستضافة لدينا.
هل يجب أن أقرأ أن ديسكورس تستخدم التصفية؟
لست متأكدًا مما تطلبه. نحن لا نحظر أي شيء افتراضيًا ولكننا نوفر للمسؤولين الأدوات اللازمة ليكونوا انتقائيين.
إذًا، أنت تثق في أن الروبوتات ستقوم أ) بقراءة ملف robots.txt و ب) اتباع القواعد. حسنًا، الروبوتات سيئة السلوك لا تفعل أيًا من هذين الأمرين. ونحن نعود إلى حيث بدأنا: إذا كانت الروبوتات تمثل أي مشكلة، فإن البروكسي العكسي هو الحل الأفضل.
شكرًا. هذا ما أود معرفته.
آه، أفهم ما تقصده. لا، نحن لا نفترض أن جميع الروبوتات تعرف نفسها بأنها زاحفة أو تتبع القواعد - إنها بالتأكيد علم غير دقيق. كنت ببساطة أقدم نقطة تخفيف أولى لصاحب المنشور الأصلي.
نحن نعمل حاليًا على طرق لتقييد حركة المرور بشكل أكثر تحديدًا، ولكنها ليست مهمة سهلة.
لاحظت أن أعداد الزواحف أقل بكثير على الموقع المستضاف في ديسكورس مقارنة بالموقع على خادم ديجيتال أوشن، مع الإعدادات الافتراضية للمسؤول لكل منهما.
عادةً ما يكون للموقع المستضاف أقل من عشر زواحف يوميًا، بمتوسط حوالي 4. في بعض الأحيان تكون هناك زيادات مثل اليوم الأخير من شهر يناير الأخير الذي شهد 77 زاحفًا في ذلك اليوم.
الموقع على ديجيتال أوشن، مع نشاط شبه معدوم، لديه متوسط حوالي 30 زاحفًا يوميًا، لا أعرف لماذا إذا كان هذا يهم نوع الخادم أو النطاق لماذا سيكون هناك المزيد من الزواحف؟
هذه بشكل عام تبحث/تفهرس المواقع العامة + المحتوى لمحركات البحث لتتمكن من العثور عليها، وهو ما يمكن أن يكون شيئًا جيدًا للمواقع إذا كنت ترغب في الوصول إلى جمهور أوسع، حيث يمكن للناس العثور على موقعك إذا كانوا يبحثون عن شيء يتم الحديث عنه في موقع ديسكورس.
قد تكون هناك أغراض أخرى للزواحف، لا أعرف ما هي كلها. هؤلاء تم منع الوصول إليهم افتراضيًا في الإعدادات، وهو ما تعرفه بالفعل على الأرجح:
بصفتي شخصًا قليل الخبرة نسبيًا في مجال الكمبيوتر، كنت أتابع آراءكم الخبيرة حول الزحف (crawling) بشكل يشبه المتفرج المعاق الذي يشاهد المباراة النهائية لبطولة أمريكا المفتوحة للتنس… شكرًا لكم على تعريفي بهذا الجزء المحير من أمن المواقع.
منتدانا الذي تستضيفه منصة Discourse بكفاءة عالية هو منتدى سري للغاية. المستخدمون الذين ينضمون بالدعوة قلقون جدًا بشأن السرية، وأنا أحاول طمأنتهم قدر استطاعتي. قد لا تكون الزواحف (Crawlers) ضارة جدًا (؟! )، لكنني أود إبعادها تمامًا إن أمكن، فهي لا فائدة منها لنا حيث لا نهتم بفهرسة محتوانا أو معرفته بأي شكل من الأشكال.
أدرك الآن أن تحسين الإعدادات هو أول شيء يجب القيام به. هل من الممكن فحص إعداداتي من قبل أحد فرق الدعم في Communitech في هذا الصدد؟
شكرًا لاهتمامكم.
آه، هذا شيء جيد أن أراه، اعتقدت أنه يعتمد فقط على Redis لتقديم المحتوى الذي تم عرضه مؤخرًا بشكل أسرع. كما ذكرت، عندما كان منتدى يعمل على Drupal، كانت الروبوتات السيئة وأحيانًا حتى زواحف محركات البحث تتعثر أحيانًا. لكنني قمت بتثبيت إضافة أنشأت ذاكرة تخزين مؤقت لملفات HTML ثابتة للصفحات التي تم الوصول إليها بشكل مجهول وأنشأت تلقائيًا قواعد إعادة كتابة Nginx لها. كان Nginx يقدمها دون الحاجة إلى تشغيل كود Drupal PHP وكان سريعًا للغاية ويمكنه التعامل مع المزيد من حركة المرور المجهولة.
مرحباً. من المهم جداً ملاحظة أن هذا ليس له أي تداعيات أمنية. الزواحف لديها وصول فقط إلى المواقع العامة. إذا كان لديك موقع يتطلب تسجيل دخول، فلن يتمكنوا من الوصول إليه.
توضيح آخر هو أن Communiteq ليست تابعة لنا بأي شكل من الأشكال، لذا إذا كانوا هم مضيفيك، فأنت لست مستضافاً بواسطة Discourse. ![]()
كنت أخطط لإرسال رد خاص ولكن قد يكون هذا مفيدًا للآخرين أيضًا لذلك أنشره هنا.
إنهم يصلون فقط إلى صفحة البداية (تسجيل الدخول) الخاصة بك ولا يمكنهم الوصول إلى المحتوى.
يمكن أن تكون كذلك. اعتمادًا على نوع الزاحف، قد يجعلون المعلومات المتاحة غير متاحة كما تريد. من الناحية الفنية، يمكن للزاحف الوصول فقط إلى المعلومات العامة، لكن الزاحف (ومحركات البحث المرتبطة به) جيد جدًا في اكتشاف المعلومات وجعلها متاحة.
لذا دعنا نلقي نظرة على وضعك.
ملف robots.txt الخاص بك يظهر
User-agent: *
Disallow: /
لذلك تم تعيينه لرفض جميع زواحف محركات البحث. ![]()
ولكن هذا وحده لا يكفي، نظرًا لأن robots.txt يعتمد على اللباقة ولا يتم احترامه من قبل الروبوتات “السيئة”. يمكن لروبوت سيء ببساطة تجاهل robots.txt. إنه مثل لافتة “ممنوع الدخول!” - لن يحترمها لص.
الأمان الرئيسي لمنتدى الخاص بك يعتمد على حقيقة أن لديك تمكين تسجيل الدخول مطلوب. هذا يكفي لإبقاء أي زاحف بعيدًا. ![]()
على الرغم من أننا حددنا بالفعل أن الزواحف لا يمكنها الدخول، فقد يكون من الجيد اتخاذ خطوة أخرى.
لديك أيضًا تمكين دعوة فقط و السماح بتسجيلات جديدة، وتم تعيين المجموعات المسموح بها للدعوة إلى TL2. هذا يعني أنه لا يمكن للأشخاص العشوائيين التسجيل، ولكن يمكن لأي مستخدم في TL2 أو أعلى دعوة مستخدمين آخرين إلى المجتمع. كشبكة أمان، قمت بتمكين يجب الموافقة على المستخدمين، وهذا جيد. الطريقة الوحيدة للوصول إلى مجتمعك هي الحصول على دعوة من شخص موثوق به بالفعل في المجتمع، ويجب على المسؤول السماح لك بالدخول. ![]()
