استيراد HTML إلى Discourse

يوم سعيد،

عندما تم إيقاف خدمة Google Yahoo، قام مسؤولو مجموعة موجودة بتصدير جميع الرسائل إلى HTML. ثم قاموا بتحميل كل ملفات HTML هذه إلى Groups.io وكان ذلك هو عملية الترحيل الخاصة بهم.

اليوم هناك بضع مئات من ملفات HTML هذه بعناوين مثل HtmlDigest001 تحتوي على مئات المواضيع المختلفة لكل ملف وكل موضوع له عشرات الرسائل.

لقد كنت أعمل بجد باستخدام نصوص بايثون لمحاولة استخراج النص المنظم حسب الموضوع وتاريخ النشر في مستندات وورد فردية، ولكن دون نجاح.

كنت أفكر الآن فيما إذا كان Discourse سيكون قادرًا على استيراد ملفات HTML هذه وتحويلها بطريقة ما إلى رسائل منفصلة. أو إذا كانت هناك أداة قادرة على القيام بهذه المهمة.

شكراً لوقتك ومساعدتك.

مع خالص التقدير

حسنًا، كل شيء ممكن. ستحتاج إلى كتابة شيء يقوم بتحليلها، على سبيل المثال، دفعها إلى قاعدة بيانات. يمكنك إلقاء نظرة على أحد مستوردي json أو csv. يمكن أن تساعد جوهرة nokogiri.

إعجابَين (2)