أنا أساعد في إدارة مثيل خاص لمنصة Discourse، ولم أستطع إلا أن ألاحظ وجود بعض حركة المرور المسجلة للمستخدمين المجهولين ومحركات البحث في لوحة التحكم الخاصة بي. والآن، عند إلقاء نظرة دقيقة، أرى أن هذا كان يحدث من قبل أيضًا، لكن بكميات أقل.
لقد قمت بتفعيل خيار “تسجيل الدخول مطلوب”، وقد قمنا بإعداد نظام الدخول الموحد (SSO) لدينا للسماح فقط بتسجيل الدخول للمستخدمين الذين يستوفون شروطًا معينة. هل هناك إعداد آخر يجب أن أقوم بتفعيله؟ شكرًا لكم! : )
لا ينبغي أن يكون هناك أي شيء إضافي تحتاج إلى فعله… حركة مرور الزحف هذه على الأرجح من برامج الزحف التي تستهدف community.yoursite.com/login. إذا قمت بفحص community.example.com/admin/reports/web_crawlers، يمكنك معرفة مدى تكرار زحف برامج زحف محددة لموقعك.
هناك بضع خطوات يمكنك اتخاذها لتقليل حركة مرور الزحف…
حاول منع الوصول إلى /login من برامج الزحف في ملف robots.txt (community.example.com/admin/customize/robots)… من المرجح أن تنخفض حركة مرور الزحف (رغم أنها قد لا تختفي تمامًا لأن هناك برامج زحف لا تمتثل لملف robots.txt)
راجع الأسوأ أداءً من /admin/reports/web_crawlers وأضف عناوين المستخدم (user-agents) الخاصة بهم إلى إعداد الموقع “عناوين المستخدم المحظورة للزواحف” (blocked crawler user agents)
بالإضافة إلى ما كتبه كريس، سيتم أيضًا إرسال طلب مجهول إلى صفحة تسجيل الدخول أو الصفحة الرئيسية لموقعك في بداية كل طلب لتسجيل الدخول عبر نظام الدخول الموحد (SSO).
كما يمكن على الأرجح للمستخدمين المجهولين الوصول إلى صفحات شروط الاستخدام والخصوصية الخاصة بموقعك.
إذا كنت تستخدم خادمًا افتراضيًا خاصًا (VPS)، أو إذا كان لديك Nginx (أو حتى Apache، لكن Nginx أسهل في الاستخدام) أمام منصة Discourse، فإن حظر البوتات يصبح أسهل بكثير. واجهة المستخدم الخاصة بـ Discourse ليست سهلة الاستخدام إلى حد كبير، وذلك بسبب انتشار البوتات في الخارج. ملف robots.txt شبه عديم الفائدة لأن عددًا قليلًا جدًا من البوتات يلتزم به، وحتى محركات البحث مثل Google لا تلتزم به دائمًا.
المشكلة ليست في محاولات المتطفلين للوصول إلى منصة Discourse الخاصة بك، بل في كل ما يبحثون عنه:
مئات من مبرمجي السكربتات المبتدئين يختبرون ما إذا كان لديك WordPress ويحاولون استغلال الثغرات، معظمها ثغرات قديمة، لكنها لا تزال موجودة.
برامج الزحف لتحسين محركات البحث (SEO-scrapers) وغيرها من عناكب الويب تحاول تحليل محتواك، وغالبًا ما يكون ذلك لتحقيق أرباح مادية.
بالإضافة إلى محركات البحث بالطبع.
هذه الأنشطة لا تسبب ضررًا حقيقيًا مثل الاختراق، لكن خدمتها تكلف مالًا صافيًا.
المشكلة تكمن في أن خادمك يجب أن يستجيب لجميع هذه الطلبات. قريبًا، ستأتي الغالبية العظمى من الحمل من البوتات وليس من المستخدمين الحقيقيين. من الوضع الطبيعي أن يكون لديك ما بين 50 إلى 500 بوت مقابل كل مستخدم حقيقي.
وستدفع ثمن كل ذلك.
لا أملك جمهورًا عالميًا لأن مواقع أ، بما في ذلك منصة Discourse، موجهة بالكامل للجمهور الفنلندي. لذلك، أمتلك أداة قوية واحدة، لكنها يمكن استخدامها فقط على خادم VPS: الحظر الجغرافي.
أنا آسف جدًا لأصدقائنا في روسيا، والصين، والهند، وباكستان، وإيران، والعراق، وفيتنام، ولكن عندما قمت بحظر دولكم، انخفض حمل البوتات لدي بنسبة تقارب 90%.
القتال ضد البوتات هو معركة لا تنتهي. وأدوات منصة Discourse، عندما يكون المنتدى غير خاص، محدودة للغاية. لكن بالتأكيد، هي أفضل من لا شيء.
لا تفهموني خطأ. لا أقصد أن التطبيق يجب أن يقوم بما هو من مسؤولية الخادم. أنا فقط أقول إنه لا يمكنك الاعتماد على منصة Discourse وحدها.