تحديث المواضيع في الوقت الفعلي يتجمد تحت النشاط العالي

ljpp · 1 نوفمبر 2020، 9:19م

@سام

مع هذه الإعدادات، كانت تجربة المستخدم أفضل. نعم، كانت هناك عدة “اختناقات” وسُجّل عدد كبير من أخطاء 429 في مفتش كروم الخاص بي. كان حمل المعالج منخفضًا. لكن من ناحية أخرى، كانت اللعبة المنزلية هادئة نسبيًا (كان العديد من الأعضاء النشطين موجودين في الموقع، ولم يكونوا يتحدثون في الدردشة).

لا يمكنني تحديد الإعدادات التي يجب تعديلها، ولكن بناءً على تجربتي الشخصية نسبيًا:

لا يزال ميزات الكود تحمي الخادم بشكل مفرط من حيث الحمل. ربما يمكن السماح بمستوى إجهاد أعلى قليلاً على الخادم.
عندما يتراجع العميل، فإن التأخير طويل جدًا من منظور تجربة المستخدم. تستمر اللعبة ويمكن أن يحدث الكثير خلال دقيقة. تتعطل الدردشة، حيث يشير الأشخاص إلى أحداث مختلفة في اللعبة. (هذا يفاقم مشكلة التأخيرات الزمنية المختلفة بين الوقت الفعلي والتلفزيون الكابلي وIPTV ومخزن Chromecast لمدة 20 ثانية، وما إلى ذلك.)
يرى المستخدم فقط أن الدردشة قد توقفت، لكنه لا يتلقى أي مؤشر على أن الموقع لا يزال متصلًا ونشطًا. ومن المرجح أن يقوم بتحديث الصفحة أو القيام بأشياء أخرى، مما يضيف إلى الحمل المرتفع.

ljpp · 20 نوفمبر 2020، 5:58م

فقط لاستبعاد بعض الاحتمالات، قمت بترقية الخادم إلى 8 أنوية افتراضية و32 جيجابايت من ذاكرة الوصول العشوائي. قمت بضبط مخازن قاعدة البيانات على 16 جيجابايت وعدد عمليات أوركسترا (Unicorns) على 16. عادت التعديلات الأخرى إلى الإعدادات الافتراضية.

لسوء الحظ، لم يحقق الترقية سوى القليل. تتجمد المناقشات السريعة باستمرار، حتى مع نشاط متوسط.

الأداء بائس في الوقت الحالي. أظن أنني بحاجة إلى البدء في النظر إلى Prometheus وما شابه. أنا متأكد بنسبة 95% من أن أداء البرنامج تراجع بشكل خطير منذ الإصدار v2.3.

كان تعليق الأخ @Iceman مهملاً إلى حد كبير في سبتمبر. فهو يبلغ عن حدوث الاختناقات بغض النظر عن العتاد الذي يستخدمه؟

Falco · 20 نوفمبر 2020، 9:25م

أنا أشك في أنك تواجه عنق زجاجة في Redis، ولكن كما قلت مرارًا وتكرارًا، لا يمكننا التأكد إلا إذا جمعت تلك الإحصائيات. بدونه، قد نلجأ إلى علم التنجيم.

إذا كانت شكوكي صحيحة، فسوف يفسر ذلك أيضًا أن إضافة المزيد من الأنوية البطيئة والذاكرة العشوائية (RAM) للمشكلة لا يُحدث فرقًا، نظرًا لأن Redis يعمل بخيط واحد، فلا يمكنك التوسع إلا من خلال الحصول على أنوية عالية الأداء.

سنطلق صورة جديدة مع الإصدار النهائي من 2.6 بحلول نهاية الشهر، وستأتي مع Redis 6 ومتغيرات جديدة في app.yml لاستخدامها على النحو الأمثل. أخبرني إذا كنت ترغب في تجربتها مبكرًا، ويمكنني تزويدك بالتعليمات اللازمة لذلك.

ljpp · 22 نوفمبر 2020، 5:03م

لاحظت هذا للتو في موضوع مغلق. @codinghorror - هذا غير صحيح. ما يحصل عليه المستخدم النهائي فعليًا في حالة الحمل المرتفع:

إشعار بأنه تم تسجيل خروجه
يتم نقله إلى صفحة فهرس الموقع
تحتوي صفحة الفهرس على إشعار بانر يشير إلى الحمل المرتفع

المستخدم في الواقع لم يتم تسجيل خروجه. عادةً، عند النقر للعودة إلى الموضوع النشط، يعمل الموقع كالمعتاد.

codinghorror · 22 نوفمبر 2020، 9:20م

مرة أخرى، لا يوجد عملاء يبلغون عن هذا السلوك (من بين الآلاف، والكثير منهم أكثر ازدحامًا من موقعك)، لذا فإن أي مناقشة إضافية في هذه المرحلة عديمة الفائدة إلى حد كبير — فليس لدينا أي رؤية حول أي حالة إعداد غريبة أو مشاكل غريبة في أداء الأجهزة قد تكون لديك هناك.

نأمل في المستقبل أن يتغير هذا الأمر وأن نحصل على رؤية أفضل للمشكلة الفعلية.

ljpp · 22 نوفمبر 2020، 9:25م

لقد كنت أبلغ فقط عن واجهة المستخدم/تجربة المستخدم الفعلية التي تحدث عند وقوع حمل مرتفع. لا شيء آخر.

riking · 22 نوفمبر 2020، 9:47م

يجب أن يكون السلوك هو إبقاؤهم في صفحة الموضوع وعرض رؤية غير مسجلة لهم، وليس نقلهم إلى الصفحة الرئيسية.

ljpp · 28 نوفمبر 2020، 4:42م

أنت محق على الأرجح. المشكلة هي Redis. صورة القاعدة الجديدة تحسّن الأمور، لكننا الآن نتجاوز قدرات الخوادم.

ربما، لكن هذا ليس كيف يعمل في الواقع. لقد قمت بإعادة إنتاجه للتو قبل دقيقة.

Falco · 28 نوفمبر 2020، 4:45م

حسنًا، على الأقل هناك حل معروف لهذا:

ljpp · 28 نوفمبر 2020، 4:47م

الحل: كتابة كود أكثر خفة وكفاءة

إذًا، إذا كان ريدز (Redis) هو الاختناق، فكيف يمكنك التوسع أفقيًا؟

ما زال يُحيرني ما الذي تغير منذ الموسم الماضي. لا أرى نموًا عضويًا كبيرًا، ولا زيادة في شعبية دردشة اللعبة. ومع ذلك، فإن قدرتنا على الخدمة قد انخفضت بشكل كبير، وهي تعاني حتى في أكثر الألعاب هدوءًا.

sam · 28 نوفمبر 2020، 8:58م

إلى أن تتمكن من جمع مقاييس من مثيل Discourse التاريخي الخاص بك، ثم تقارنها بالمقاييس التي تجمعها من التثبيت الحالي، مع الحفاظ على نفس الأجهزة تمامًا، سيبقى هذا لغزًا.

قد يكون الفرق كله هو أن مقدم خدمة VPS الخاص بك نقلك من جهاز فيزيائي إلى آخر، أو أن لديك جارًا صاخبًا، أو أن خادم VPS الخاص بك يشغّل الآن 17 خدمة مشتركة في المتوسط مقابل 13 خدمة لكل جهاز.

ljpp · 28 نوفمبر 2020، 9:02م

يرجى عدم التكهن بمحاولة دفع المشكلة إلى مزود خدمة الخوادم الافتراضية (VPS). تعتبر UpCloud واحدة من أفضل المزودين في السوق، وقد تحقّقوا من جانبهم للتأكد من عدم وجود أي شيء غير عادي. إنهم يعلّقون إعلاناتهم على موقعنا، ومن غير الجيد سمعة الموقع أن يعاني من تباطؤ

لكن لا توجد بيانات تاريخية، وبصراحة، لم أكن أركز بشكل كبير لأن كل شيء كان يعمل بسلاسة، حتى بدأت أولى مباريات العرض في أغسطس. بالطبع، تغيرت السلوكيات البشرية بفضل جائحة كوفيد، ومن يدري ما غير ذلك. لكنني لا أستطيع رؤية ذلك في مقاييس موقعنا أو خادمنا.

ومع ذلك، فهذا يمثل مادة اختبار ممتازة. لقد زوّدنا @riking ببعض لقطات الشاشة لما يحدث عندما يبدأ الحمل الزائد على الخادم. أظن أنكم لا تشاهدون ذلك في كثير من الأحيان.

codinghorror · 28 نوفمبر 2020، 11:19م

لاحظ أن لا أحد يختلف معك — نحن فقط نوضح أن الطبيب لا يستطيع سوى قدر محدود من تشخيص المريض عندما يكون مقيدًا بمشاهدة المريض عبر كاميرا فيديو على الإنترنت.

Alec · 2 ديسمبر 2020، 9:27ص

أردت فقط القول إن هذا كان تمامًا كما عشته عندما قمت بإعداد موقعي لأول مرة (لذا فهو ليس فريدًا لموقعك).

إليك موضوعًا أنشأته حول ذلك في ذلك الوقت:

هذا هو ما دفعني للانتقال إلى خيارات معالج الذاكرة المختلفة الموضحة هنا:

للأسف، لم أتمكن حتى الآن من التبديل بشكل صحيح إلى Hetzner من Digital Ocean كما وصفت (بدأت وظيفة جديدة). لكنني سأفعل ذلك بمجرد أن أجد فرصة هذا الشهر.

تجربة المستخدم النهائي المتمثلة في طرده من الموضوع، أو بقائه في الموضوع (مع رسالة تسجيل الخروج). بدا أن ذلك يعتمد على الحمل. (تم توجيه عدد أكبر من المستخدمين إلى فهرس الموقع بعد تسجيل هدف)

لا أملك معرفة تقنية كافية لأكون مفيدًا، لكنني شعرت أنه قد يكون من المفيد معرفة أن موقعًا رياضيًا مع قمم مشابهة لسلوك الدردشة يؤدي إلى مشكلة مماثلة. لكن مشكلتي (موقع أصغر حجمًا وأحدث) تم حلها من خلال ترقية الخادم بشكل أكبر.

pfaffman · 2 ديسمبر 2020، 1:01م

إذا كنت مهتمًا بالحصول على بيانات لاتخاذ قرارات بشأن كيفية تشخيص الأمور في المستقبل، فيمكنك تثبيت إضافة Prometheus exporter لمنصة Discourse.

ljpp · 29 ديسمبر 2020، 8:15م

مجرد تحديث موجز:

تم تثبيت بيئة جديدة مكونة من حاويتين على خادمين افتراضيين (web_only و data).
وبشكل مفاجئ (بالنسبة لي)، فإن خادم web_only يعاني من استهلاك الموارد بالكامل، بينما يكون خادم data محمّلاً بشكل خفيف نسبياً. كلاهما يعملان بخطة UpCloud.com التي توفر 4 أنوية افتراضية و 8 جيجابايت من ذاكرة الوصول العشوائي.
تم ترقية خادم web_only إلى خطة UpCloud.com التي توفر 6 أنوية افتراضية و 16 جيجابايت من ذاكرة الوصول العشوائي. وتم زيادة عدد وحدات يونيكورن إلى 18.

رغم ذلك، ما زلنا نواجه حدوداً مختلفة من نوع 429. ومع ذلك، لم يتم تفعيل وضع “النظام تحت حمل مرتفع”.

ljpp · 3 يناير 2021، 8:06م

تم إفساد موسم الهوكي بسبب جائحة كوفيد، والآن يلعبون بضع مباريات عشوائية دون جمهور. نظرًا لأن لدينا أرصدة استضافة مع UpCloud.com، فإننا نعمل على تحسين التجربة باستخدام ما لدينا. الآن نستخدم 6 أنوية افتراضية وذاكرة 16 جيجابايت لـ web_only، و4 أنوية افتراضية وذاكرة 8 جيجابايت لـ data، مع تشغيل unicorns عند 18.

قمنا مرة أخرى بتعطيل مُحدِّد معدل الطلبات…

DISCOURSE_MAX_REQS_PER_IP_MODE: none

…مما يساعد، لكننا لا نزال نتلقى أخطاء 429 من استعلامات POLL، والتي تُسبب تأخيرًا طويلًا/تجميدًا للمستخدم النهائي. سنواصل التعديل عن طريق زيادة DISCOURSE_REJECT_MESSAGE_BUS_QUEUE_SECONDS.

لكن قبل أن نفعل ذلك، سؤال لـ @sam / الطاقم:

هل توجد متغير بيئة لزيادة الحد الفاصل لـ الحمل الشديد - وضع القراءة فقط، أم يمكن تعطيله بالكامل؟

sam · 3 يناير 2021، 11:59م

لا يجب أن يكون ذلك ضروريًا، فنحن نود استضافتك لنتمكن من فهم السبب وراء استمرار حدوث هذا الأمر لك رغم أن حركة المرور لديك منخفضة جدًا.

ljpp · 4 يناير 2021، 8:50م

ربما يكون الأمر كذلك، لكننا نود أن نكون أقل حماية قليلاً تجاه الخادم، لأن طفرات النشاط الطبيعية قصيرة جدًا وتستقر عمومًا خلال دقيقة أو نحو ذلك. لذا فإن رفع العتبات قليلاً قد يحسن تجربة المستخدم، مع انتظار الانتقال.

ljpp · 12 يناير 2021، 7:35م

كانت الألعاب شحيحة (بفضل كوفيد)، لذا لم تكن لدينا سوى فرص قليلة لقياس هذا الأمر وتعديله.

ما اكتشفناه هو أنه حتى مع مواردنا المحسّنة من العتاد (6+4 أنوية افتراضية و16+8 جيجابايت من ذاكرة الوصول العشوائي)، فإن جمهورًا نشطًا بشكل متواضع قادر على التسبب في 429 حالة تجمّد للعميل. رأينا ذلك في مباريات كأس العالم U20، التي جذبت حوالي 50% من جمهورنا المعتاد للألعاب في غرف الدردشة.

من خلال القياس والتجربة والخطأ، اعتمدنا التعديلات التالية:

  DISCOURSE_REJECT_MESSAGE_BUS_QUEUE_SECONDS: 0.4
  DISCOURSE_MAX_REQS_PER_IP_PER_MINUTE: 400
  DISCOURSE_MAX_REQS_PER_IP_PER_10_SECONDS: 100

يبدو أن هذا يلغي 80% من حالات الخطأ 429، مما يتيح تجربة سلسة نسبيًا لجزء كبير من المستخدمين.

كانت الخطوة التالية هي شراء أنواع مختلفة من موارد العتاد، إما باستخدام أجهزة مخصصة لسرعة الخيط الواحد أو التحول إلى مزود خدمة VPS يقدم خططًا بعدد هائل من الأنوية الافتراضية. أما بالنسبة لنا، فإن الخطوة التالية هي العمل مع فريق استضافة Discourse، كما أشار سام سابقًا.

نأمل أن تكون هذه التعديلات مفيدة لـ @iceman و @alec أو أي شخص آخر. تأكد من مراقبة استخدام وحدة المعالجة المركزية وطابور الانتظار. كما أن ما تعلمته من هذه التجربة هو أن حاويتين أفضل بشكل كبير من حاوية واحدة - حيث يمكن تطبيق التعديلات مع توقف شبه معدوم، واستغلال موارد العتاد بشكل أكثر دقة.

ما زلت مهتمًا بأي تعديلات أو اكتشافات جديدة قد تساعد في تحسين الأداء وتجربة المستخدم في المناقشات السريعة التي تدفعها الأحداث الواقعية.

الموضوع		الردود	مرات العرض
Improving Instance Performance (Megatopics, Database Size and Extreme Load) Self-hosting	60	5745	13 أكتوبر 2020
Extreme load error Self-hosting	19	1751	13 أغسطس 2023
Topic history not loading correctly after migration Support	20	1103	8 فبراير 2023
Discourse installation has been getting slower and slower and slower Self-hosting server-resources	36	1866	15 أبريل 2023
The MEGATOPIC: public good, or public menace? Community Building	41	16489	4 أبريل 2021

تحديث المواضيع في الوقت الفعلي يتجمد تحت النشاط العالي

الموضوعات ذات الصلة