أحتاج إلى مساعدتك في مشكلة. لدينا العديد من المواضيع المخزنة كـ HTML في قاعدة البيانات (raw_data)، لكنها عبارة عن HTML تم “نقله” من نظام آخر. تم ذلك قبل أن ننقل الموقع، ولن نفعل ذلك أبدًا بهذه الطريقة. ما نريد تحقيقه هو تحويل سلسلة HTML التي تحتوي على div، link، br /، span، blockquote، small ولكن بدون p، بالإضافة إلى عناصر ليست HTML مثل [quote][/quote]، إلى Markdown، ثم إعادة معالجة المنشورات للحصول عليها بتنسيق HTML الخاص بـ Discourse، بحيث يتم تحسينها بواسطة Discourse (مثل عرض الزحف). في الوقت الحالي، يُستخدم محتوى HTML العادي (cooked_method=2)، مما يؤدي إلى العديد من مشاكل الزحف ومشاكل soft404 في Google Search Console.
يجب علينا القيام بذلك لحوالي 4-5 ملايين منشور، لذا ستكون هذه مهمة مكلفة جدًا.
لدينا مكتبة تحويل مدمجة من HTML إلى Markdown، وهي ليست مثالية لكنها تؤدي الغرض في وظيفة الاقتباس.
يمكنك تمرير جميع المنشورات عبر هذه المكتبة، على ما أظن، لكن ما تصفه هنا، من وجهة نظري، يبدو وكأنه يتطلب قدرًا كبيرًا من العمل المخصص. أنصحك بالتواصل مع المجتمع في قناة Marketplace وتحديد قيمة مالية (بالدولار) لهذا العمل.
في الواقع، أعجبني محلل html2markdown الخاص بك كثيرًا وأود استخدامه خارج نظام Discourse، في عملي اليومي. هل لديك أي نصائح حول استخلاصه إلى أداة نصية في منطقة نصية؟