لغز نقاش آخر

أتلقى تنبيهًا من AWS CloudWatch في الساعة 9:09 مساءً بالتوقيت الشرقي، بالإضافة إلى بعض الأصدقاء الذين أرسلوا لي رسالة نصية “يا رفاق، هل تعطل ديسكورس؟”

لا يمكنني الاتصال بمثيل AWS Lightsail عبر SSH، وجميع المقاييس معلقة/لا يتم الإبلاغ عنها.

في النهاية، أستسلم وأوقف/أعيد تشغيل مثيل Lightsail.
تم استعادة الخدمة.

أفحص السجلات بعد استعادة الخدمة، بحثًا عن معلومات.

أقوم بتشغيل Discourse كمثيل واحد، لذا فإن الخطأ في الساعة 9:05 بشأن اتصال شبكة Redis يحيرني.

لا يمكنني فرز ما حدث بخلاف “شيء ما” تعطل/فشل لـ “سبب ما”.

أي شخص يمكنه الشرح أو ترك بعض الأدلة محل تقدير.

شكرا لك!

ما هي مواصفات الخادم؟ يبدو أنه ينفد من الموارد؟ على الأرجح وحدة المعالجة المركزية. ربما هناك مهمة يومية تعمل في ذلك الوقت؟

إنها نسخة Lightsail تحتوي على 1 وحدة معالجة مركزية، و1 جيجابايت من ذاكرة الوصول العشوائي، و40 جيجابايت من مساحة تخزين SSD.\n\nيتم استهلاك حوالي 60% من مساحة التخزين، وعندما أقوم بعمليات تنظيف تنخفض بشكل كبير.\n\nتُظهر AWS أنني نفدت أرصدة وحدة المعالجة المركزية القابلة للزيادة، وهذا غريب فقط لأن المقاييس الأخرى لا تدعم ذلك.\n\nإنها مجتمعات صغيرة جدًا (20-30 مشاركًا نشطًا) لذلك سأكون متفاجئًا إذا كان هناك قيد حقيقي على وحدة المعالجة المركزية أو ذاكرة الوصول العشوائي.\n\nلا توجد مهمة يومية على حد علمي بخلاف أي شيء قد يجدوله Discourse افتراضيًا.

1 جيجابايت مع مساحة مبادلة هو الحد الأدنى المطلق لتشغيل ديسكورس.

منذ متى وهذه النسخة قيد التشغيل؟ ما هو حجم قاعدة البيانات؟

3 إعجابات

سأتحقق من حجم قاعدة البيانات، لا أتوقع أن يكون كبيرًا (النسخ الاحتياطي كلها حوالي 57 ميجابايت).

وقت تشغيل المثيل ليس عشر ساعات بالضبط الآن منذ أن استلزم الاسترداد إيقاف الخادم الافتراضي وإعادة تشغيله - لم أتمكن من الحصول على اتصال شل أو وحدة تحكم.

كان يعمل بشكل جيد على هذا النوع من المثيلات منذ أن قمت ببنائه (تخمين فبراير 2021).

يبدو هذا مشابهًا لما يحدث عندما تقوم AWS بنقل جهازك الافتراضي من مضيف إلى آخر وتتركه في حالة غريبة بسبب ذلك. عادةً ما يحل إعادة التشغيل المشكلة.

5 إعجابات

إجمالي حجم قاعدة البيانات هو 423 ميجابايت.

أكبر الجداول هي
Posts 66 ميجابايت
Post_timings 60 ميجابايت

حدث فشل ثانٍ مشابه “لتحميل عالٍ”.

سأفترض تضارب الموارد.

هل حاول أي شخص استخدام لقطة Lightsail لأخذ لقطة من المثيل، واستعادتها إلى مثيل أكبر كوسيلة للترقية؟

يمكنك محاولة إعادة تشغيل مثيل AWS، فقد يؤدي ذلك إلى حل العديد من المشكلات.

لقد انتقلت باستخدام لقطة Lightsail من وحدة معالجة مركزية واحدة وذاكرة وصول عشوائي بسعة 1 جيجابايت و SSD بسعة 40 جيجابايت إلى وحدة معالجة مركزية مزدوجة وذاكرة وصول عشوائي بسعة 4 جيجابايت و SSD بسعة 80 جيجابايت.

بخلاف الاضطرار إلى فصل عنوان IP العام وإعادة إرفاقه، والذي كان مباشرًا بما فيه الكفاية، فإن مخاوفي المتبقية هي “ما الذي فاتني”؟

هل هناك أي شيء (نسخ احتياطي، بريد إلكتروني، تكوين S3 bucket، إلخ) يجب علي التحقق منه أو هل أحتاج إلى إعادة تشغيل أي معلمات تثبيت أولية للاستفادة من الموارد التي تمت ترقيتها؟

أفكر بناءً على هذا الرابط في زيادة db_shared_buffer إلى 1 جيجابايت على الأقل.
يقول ملف app.yml الحالي 128 ميجابايت، ويشير أيضًا إلى الضبط التلقائي عند بدء التشغيل.

1 جيجابايت مناسب لنظام 4 جيجابايت. تأكد أيضًا من تحديث unicorn_workers إلى 4.

التوصية المعتادة إذا كنت تنتقل بين الخوادم ستكون إعادة تشغيل discourse-setup والتي ستتولى ما سبق تلقائيًا.

إعجاب واحد (1)

شكرا. أنا الآن أتعمق في موضوع بروميثيوس.
أشياء جيدة.