HTML a Markdown y rebake

Mike_Gehrhardt · 17 Octubre, 2019 13:30

Necesito tu ayuda con un problema. Tenemos muchos temas almacenados como HTML en la base de datos (raw_data), pero es un HTML que fue “migrado” desde otro sistema. Esto se hizo antes de que lanzáramos el sitio web y nunca, bajo ninguna circunstancia, lo habríamos hecho de esta manera. Lo que queremos lograr es convertir la cadena HTML que contiene <div>, <link>, <br />, <span>, <blockquote>, <small> (pero no <p>) y algo que no es HTML como [quote][/quote] en Markdown y luego rehacer las publicaciones para obtenerlas en el estilo HTML de Discourse, de modo que sean optimizadas por Discourse (por ejemplo, vista de rastreador). En este momento, se utiliza el contenido HTML antiguo y plano (cooked_method=2), lo que genera muchos problemas de rastreo y errores soft404 en Google Search Console.

Debemos hacer esto para aproximadamente 4-5 millones de publicaciones, por lo que será un trabajo muy costoso.

¿Alguna idea?

Saludos,
Mike

sam · 21 Octubre, 2019 01:24

Tenemos una librería integrada de conversión de HTML a Markdown; no es perfecta, pero cumple su función para la función de citas.

Podrías pasar todas las publicaciones por ella, supongo, pero lo que describes aquí, para mí, suena a una gran cantidad de trabajo personalizado. Recomiendo contactar a la comunidad en Marketplace y ponerle un valor monetario al trabajo.

pfaffman · 21 Octubre, 2019 02:10

Eso es lo que hago. Puedes enviar un correo electrónico a Jay@literatecomputing.com.

louquillio · 7 Octubre, 2020 02:12

En realidad, me gusta mucho tu analizador html2markdown y me gustaría usarlo fuera de Discourse, para mi trabajo diario. ¿Tienes algún consejo sobre cómo extraerlo en un elemento de área de texto?

No faltan analizadores de html2markdown. De hecho, Aaron Swartz escribió uno.

La diferencia es que confío en que el tuyo haga exactamente lo que quiero: ni más ni menos.

Gracias.

LQ

Tema		Respuestas	Vistas
Is there a way to convert cooked content back to Markdown? Support markdown	9	289	19 Agosto 2024
Converting Wiki Posts to HTML Support	3	605	13 Febrero 2022
What markdown parser Discourse is using? Development	6	2124	2 Abril 2016
How is Google Docs to Markdown so good on Discourse? Praise	4	3045	12 Junio 2020
Converting links from raw markdown to HTML Development	2	1880	21 Noviembre 2018

HTML a Markdown y rebake

Temas relacionados