كيف يتعامل المضيفون هنا مع الزواحف السيئة؟

قراءة هذا الموضوع: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

أتساءل كيف هو الحال بالنسبة للأشخاص الذين يستضيفون خدماتهم بأنفسهم للتعامل مع الزواحف التي تقوم فعليًا بهجمات DDoS بشكل مستمر، خاصة على المثيلات داخل Fediverse.

إعجابَين (2)

أعتقد أن الخطوة الأولى الجيدة هي تحديد حجم المشكلة بنفسك باستخدام مقياس “مرات مشاهدة الصفحة الجديدة”:

إذا كنت ترى نسبة 60% من الزيارات غير البشرية، فهذا على الأرجح جيد ولا تحتاج إلى اتخاذ أي إجراء.
إذا كانت 95%.. نعم، قد يكون الوقت قد حان لبدء التحقيق في الحلول.

إعداد وكلاء الزحف المحظورين هو صديق المسؤول. حركة المرور غير المرغوب فيها ليست مشكلة كبيرة مع Discourse لأن الحمل ليس ثقيلاً للغاية. لكنني حظرت عددًا قليلاً من الأسوأ لأنني أكره حقًا نموذج أعمالهم. يصرخ الجميع حول كيف تسرق شركات الذكاء الاصطناعي المحتوى، وهو ما يفعلونه بالفعل، لكن شركات تحسين محركات البحث أسوأ بكثير - وروبوتاتهم جشعة حقًا.

لكنني أستخدم أيضًا الحظر الجغرافي، لأنني أستطيع. هناك ما لا يقل عن نصف دزينة من البلدان التي هي مصادر للمقلدين وغيرهم من الجهات الفاعلة الخبيثة. ولكن إذا كان المنتدى مخصصًا لجمهور عالمي، فهذا غير ممكن بالطبع.

مع مواقع WordPress الخاصة بي، يتم القيام بنفس الشيء باستخدام Nginx بمساعدة Varnish.

في الوقت الحالي، نسبة البشر مقابل الروبوتات هي شيء من حوالي 50/50 في منتداي.

إعجاب واحد (1)

على فكرة، الوسم غير صحيح، على ما أعتقد.

أتفق، علامة الذكاء الاصطناعي لديها أيقونة إضافة، لذلك أفترض أنها مخصصة فقط لإضافة الذكاء الاصطناعي. لقد أزلتها.

يتم تخزين محتوى الزواحف مؤقتًا بشكل كبير، لذا في الواقع لم أرها أبدًا قادرة على شن هجوم DDoS.

هل تواجه بالفعل مشاكل في الأداء بسبب هذا؟

5 إعجابات

أتمنى لو كان بإمكاني القول بأن لدي حلًا مجانيًا، أو لا يتضمن خدمة خارجية. وضعت منتداني الأكبر خلف شبكة توصيل المحتوى (CDN) الخاصة بـ bunny.net. لديهم مستوى مجاني سخي. ولكن بالنسبة لذلك المنتدى، أذهب وأدفع 10 دولارات شهريًا للحصول على خدمة الأمان الخاصة بهم. تتيح لي حظر الزواحف (crawlers)، وهجمات الحرمان من الخدمة الموزعة (DDoS)، والحظر الجغرافي. كشبكات CDN، فهي رخيصة جدًا وفعالة، وليست CloudFlare. الكثير من الأشخاص على الفيدفيرس يقيمونها بدرجة عالية.

لدي رسم بياني من خدمة Shield الخاصة بهم. (أنا مبتدئ، رسم بياني واحد فقط لكل رد :slight_smile:) في الرسم الأول، كان هناك 484 ألف اتصال آلي (bot) من أصل 2 مليون اتصال إجمالي. كنت قد انتقلت للتو إلى شبكة توصيل المحتوى ولم يكن لدي أي تصفية أو حظر مفعّل. الرسم التالي يظهر 11 ألف روبوت، و 100 ألف محظورة بسبب قوائم الوصول (أنا أحظر الصين وروسيا وربما اثنين آخرين). لذا فهذا حوالي 100 ألف من الروبوتات من إجمالي 700 ألف طلب في ذلك الأسبوع.

بعد ذلك:

إعجابَين (2)

لكنني قمت بوضع بعض القواعد للتعامل مع الأمر.

Chandler Bing: 'Yeah, but I'm so much faster'

لطالما كانت Cloudflare لطيفة معي ولم أضطر أبدًا للدفع مقابل خدمات مكافحة الروبوتات. هذا بالإضافة إلى أحدث إضافاتهم مثل مكافحة الذكاء الاصطناعي أمر رائع وهو ما يجعلني عميلاً ومروجًا لهم على ما أعتقد. ألا تريد أن يسرق كاشطات الذكاء الاصطناعي بياناتك؟ ما عليك سوى استخدام إحدى قواعدهم المدارة (علمًا بأنه من الممكن تمامًا استخدام ملف robotstxt عادي كما أفعل على موقعي)

.. مقابل قاعدة مُدارة عامة، أفضل بكثير..

سواء كانت هذه الشركات الناشئة تستمع إلى الملف وتحترمه أم لا هو قصة أخرى، ولكن من الجيد أنهم يحاولون على الأقل. لم تواجه أي من مواقعي مشكلات مع الروبوتات في الماضي وما زلت سعيدًا بشكل متكرر بالقدرة على حظر الثغرات الأمنية الشائعة في ووردبريس مباشرة هناك بعد قراءة سجلاتي.

إعجاب واحد (1)

لقد فعل فيسبوك (ميتا) شيئًا كهذا، فإذا قمت بتعطيل “التحكم في زواحف الذكاء الاصطناعي” فإنه يقوم بإجراء 9 آلاف طلب في الساعة، لذا فإن الطريقة الوحيدة هي حظرها جميعًا.

على الفيدفيرس لم أواجه هذه المشاكل لفترة من الوقت، لكني أنتظر المزيد من التحديثات لـ activitypub لأنه حتى لو لم أواجه أي مشاكل معه، فإن نطاق التردد الخاص بي سيتأثر بلا داعٍ.


صحيح تمامًا، أنا أستخدم خادم lemmy يستخدم CF (Cloudflare) ونشر المسؤول هذا الدليل


نفس الشيء هنا، القواعد الحالية الخاصة بي هي:

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

وبناءً على خادم lemmy المذكور أعلاه:

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

بالنسبة لي، هذا يكفي

هذه القواعد ساعدتني في تجاوز هجوم DDos (لست متأكدًا إن كان كذلك) في الشهر الماضي

هذا ليس المكان المناسب لمناقشة مزايا CloudFlare حقًا، ولكن مشكلتي معهم ليست مع أشخاص جيدين مثلك. مشكلتي معهم هي جميع الأشخاص السيئين الذين يوافقون تمامًا على التعامل معهم. أي شخص في عالم الأمن السيبراني يكافح البرامج الضارة وروبوتات الويب يرى CloudFlare يظهر كثيرًا. وبالمثل، فإن أي شخص يحارب المتطرفين عبر الإنترنت يعرف عدد المرات التي ستحمي فيها CloudFlare المواقع المتطرفة حيث لا يفعل مقدمو الخدمة الآخرون ذلك. الأمر ليس أنهم غير فعالين أو أنهم باهظو الثمن. إنه الافتقار إلى الأخلاق في اختيار عملائهم.

3 إعجابات