تحويل HTML إلى Markdown وإعادة التشكيل

أحتاج إلى مساعدتك في مشكلة. لدينا العديد من المواضيع المخزنة كـ HTML في قاعدة البيانات (raw_data)، لكنها عبارة عن HTML تم “نقله” من نظام آخر. تم ذلك قبل أن ننقل الموقع، ولن نفعل ذلك أبدًا بهذه الطريقة. ما نريد تحقيقه هو تحويل سلسلة HTML التي تحتوي على div، link، br /، span، blockquote، small ولكن بدون p، بالإضافة إلى عناصر ليست HTML مثل [quote][/quote]، إلى Markdown، ثم إعادة معالجة المنشورات للحصول عليها بتنسيق HTML الخاص بـ Discourse، بحيث يتم تحسينها بواسطة Discourse (مثل عرض الزحف). في الوقت الحالي، يُستخدم محتوى HTML العادي (cooked_method=2)، مما يؤدي إلى العديد من مشاكل الزحف ومشاكل soft404 في Google Search Console.
يجب علينا القيام بذلك لحوالي 4-5 ملايين منشور، لذا ستكون هذه مهمة مكلفة جدًا.

هل لديك أي أفكار؟

أطيب التحيات، مايك

لدينا مكتبة تحويل مدمجة من HTML إلى Markdown، وهي ليست مثالية لكنها تؤدي الغرض في وظيفة الاقتباس.

يمكنك تمرير جميع المنشورات عبر هذه المكتبة، على ما أظن، لكن ما تصفه هنا، من وجهة نظري، يبدو وكأنه يتطلب قدرًا كبيرًا من العمل المخصص. أنصحك بالتواصل مع المجتمع في قناة Marketplace وتحديد قيمة مالية (بالدولار) لهذا العمل.

هذا هو نوع الأشياء التي أقوم بها. يمكنك إرسال بريد إلكتروني إلى Jay@literatecomputing.com.

في الواقع، أعجبني محلل html2markdown الخاص بك كثيرًا وأود استخدامه خارج نظام Discourse، في عملي اليومي. هل لديك أي نصائح حول استخلاصه إلى أداة نصية في منطقة نصية؟

لا يوجد نقص في محولات html2markdown. في الحقيقة، كتب آرون سوارتز واحدًا.

الفرق هو أنني أثق في أن yours سيقوم بما أريد — لا أكثر ولا أقل.

شكرًا لك.

LQ