HTML a Markdown y rebake

Necesito tu ayuda con un problema. Tenemos muchos temas almacenados como HTML en la base de datos (raw_data), pero es un HTML que fue “migrado” desde otro sistema. Esto se hizo antes de que lanzáramos el sitio web y nunca, bajo ninguna circunstancia, lo habríamos hecho de esta manera. Lo que queremos lograr es convertir la cadena HTML que contiene <div>, <link>, <br />, <span>, <blockquote>, <small> (pero no <p>) y algo que no es HTML como [quote][/quote] en Markdown y luego rehacer las publicaciones para obtenerlas en el estilo HTML de Discourse, de modo que sean optimizadas por Discourse (por ejemplo, vista de rastreador). En este momento, se utiliza el contenido HTML antiguo y plano (cooked_method=2), lo que genera muchos problemas de rastreo y errores soft404 en Google Search Console.

Debemos hacer esto para aproximadamente 4-5 millones de publicaciones, por lo que será un trabajo muy costoso.

¿Alguna idea?

Saludos,
Mike

Tenemos una librería integrada de conversión de HTML a Markdown; no es perfecta, pero cumple su función para la función de citas.

Podrías pasar todas las publicaciones por ella, supongo, pero lo que describes aquí, para mí, suena a una gran cantidad de trabajo personalizado. Recomiendo contactar a la comunidad en Marketplace y ponerle un valor monetario al trabajo.

Eso es lo que hago. Puedes enviar un correo electrónico a Jay@literatecomputing.com.

En realidad, me gusta mucho tu analizador html2markdown y me gustaría usarlo fuera de Discourse, para mi trabajo diario. ¿Tienes algún consejo sobre cómo extraerlo en un elemento de área de texto?

No faltan analizadores de html2markdown. De hecho, Aaron Swartz escribió uno.

La diferencia es que confío en que el tuyo haga exactamente lo que quiero: ni más ni menos.

Gracias.

LQ