تجاوز UploadCreator للاستيراد

Ghan · 2 يناير 2021، 11:50م

أعمل على استيراد بيانات إلى Discourse باستخدام أداة استيراد جماعي. تعمل هذه الأداة بشكل ممتاز مع المواضيع والمنشورات، لكن المشكلة الحالية تكمن في الملفات. لدينا حوالي 50,000 مستخدم مع صور شخصية، وفي حين أن بيانات المستخدمين تُستورد إلى قاعدة البيانات في بضع ثوانٍ فقط، فإن استيراد الصور الشخصية يستغرق ساعات. حيث يتم معالجة تحميل واحد فقط في الثانية تقريبًا.

هل هناك طريقة لتسريع هذه العملية؟ لست متأكدًا من أي جزء من هذه العملية هو الأبطأ. إذا لم يتم العثور على ملف صورة شخصية (أي أن photo_filename غير موجود)، فإن العملية تتم بسرعة كبيرة، لكنني أشعر بالضياع قليلًا أثناء محاولة الغوص في فئة UploadCreator التي يتم استدعاؤها في نهاية المطاف بواسطة كود أداة الاستيراد هذه.

لدينا أكثر من 600,000 مرفق، لذا فإنني قلق جدًا بشأن المدة التي سيستغرقها استيرادها باستخدام استدعاء create_upload نفسه.

        upload = create_upload(u.id, photo_filename, File.basename(photo_filename))
        if upload.persisted?
          u.import_mode = false
          u.create_user_avatar
          u.import_mode = true
          u.user_avatar.update(custom_upload_id: upload.id)
          u.update(uploaded_avatar_id: upload.id)
        else
          puts "Error: Upload did not persist for #{u.username} #{photo_real_filename}!"
        end

TheDarkWizard · 8 يناير 2021، 1:55ص

هل لديك أي فكرة حول هذا يا @neounix، بما أنك قمت بتشغيل مستورد ضخم للملفات مرة واحدة؟

بفضل المستورد الضخم، تم تقليل عدد المنشورات البالغ عددها 26 مليونًا من أسبوع إلى ساعتين تقريبًا. المشكلة الآن هي المرفقات التي تستغرق عدة أيام.

neounix · 8 يناير 2021، 6:21ص

مرحبًا @TheDarkWizard

لم أستخدم سكريبتات Discourse لنقل الملفات الفعلية.

استخدمنا أدوات نقل الملفات العادية مثل tar و gzip و sftp و rsync وما إلى ذلك.

بصراحة، استخدمنا قطعًا مختلفة من سكريبتات Discourse (الهجرة)، لكن انتهى بنا الأمر بكتابة أكثر من نصف الكود الذي استخدمناه أثناء عملية الهجرة؛ لأننا قضينا شهورًا في كتابة كود gsub() لتنظيف (مراجعة) منشورات “البرمجة” التي تعود لعقود، والتي راجعها مشرفون نشروا الكثير من الأكواد على مر السنين، وكان الجميع يريد أن يكون كودهم مثاليًا بدون أي مشاكل في بناء الجملة!

اعتقدنا أن السكريبتات التي قدمها Discourse كانت نقطة انطلاق ممتازة واستخدمناها على نطاق واسع؛ كما كتبنا الكثير من أكوادنا الخاصة بناءً على تلك السكريبتات أيضًا.

نأمل أن يكون ذلك مفيدًا.

TheDarkWizard · 9 يناير 2021، 4:44ص

أعتذر، ربما تم تجاوز سؤالي. نحن لا نحتاج إلى تعليمات حول كيفية نقل الملفات إلى بيئة الخادم حيث يتم الاستيراد. لدينا سكريبت استيراد جماعي يكتبه @Ghan، ونحن نحاول معرفة كيفية تسريع إرفاق المرفقات. أدى الانتقال من أداة الاستيراد العادية إلى أداة الاستيراد الجماعي إلى تقليل وقت استيراد المنشورات من أسبوع إلى ساعتين تقريبًا. كنت آمل أن يتمكن أحد من توجيهنا في الاتجاه الصحيح حول كيفية التعامل مع المرفقات بشكل صحيح.

neounix · 9 يناير 2021، 5:32ص

آسف إذا قرأت سؤالك بشكل خاطئ ولم تكن إجابتي مفيدة.

على أي حال، أنا متأكد من أنك ستتمكن من حل الأمر. الأمر ليس معقداً للغاية (إنه مجرد برنامج) وأنتم أذكياء.

أتمنى لكم التوفيق. آسف على عدم قدرتي على المساعدة أكثر. لقد أكملنا عملية الهجرة في الربع الثاني من عام 2020، وهي (مهمة الهجرة) الآن في ماضٍ بعيد عنا.

TheDarkWizard · 9 يناير 2021، 6:01ص

منطقي!

موقعك يبدو رائعاً

pfaffman · 9 يناير 2021، 2:12م

لا أعتقد أن هناك حلاً سحرياً مماثلاً. بما أن عمليات الرفع لا تعتمد على معالجة المنشورات السابقة، فيمكنك تشغيل عمليات متعددة (على سبيل المثال، كل عملية تتعامل مع نطاق تاريخي مختلف) لتقليل الوقت بعامل يساوي عدد وحدات المعالجة المركزية التي يمكنك استخدامها (بشرط ألا تكون قاعدة البيانات ونظام الملفات هما عنق الزجاجة).

Ghan · 9 يناير 2021، 5:09م

يبدو أنه عند معالجة المنشورات للمرفقات، يتم إنشاء عدد من وظائف Sidekiq للتعامل مع بعض المعالجة الأخرى لهذه المنشورات. ونتيجة لذلك، حتى عملية واحدة تعمل على استيراد المرفقات تنجح ببطء في دفع الخادم إلى متوسط تحميل يتجاوز 40، حتى مع وجود 8 أنوية. (زدت عدد عمال Sidekiq للتعامل مع الحمل.)

ربما أتمكن من إيقاف خدمة Unicorn حتى يكتمل الاستيراد، لكن هذا مجرد نقل الحمل إلى وقت لاحق. يبدو أن المعالجة يجب أن تتم بطريقة أو بأخرى.

pfaffman · 9 يناير 2021، 11:16م

هذه حقيقة أساسية.

الموضوع		الردود	مرات العرض
phpBB 3 Importer (old) Feature	90	17405	8 أكتوبر 2014
Importers for large forums Announcements	50	9624	1 ديسمبر 2023
Migrating a large forum Support	11	1666	14 أكتوبر 2021
Vanilla to Discourse Large Data Import (decreasing speed) Support	11	925	12 نوفمبر 2020
Migrate a vBulletin 4 forum to Discourse Sysadmins how-to	183	31114	9 نوفمبر 2025

تجاوز UploadCreator للاستيراد

الموضوعات ذات الصلة