Da HTML a Markdown e ribake

Ho bisogno del tuo aiuto su un problema. Abbiamo molti argomenti archiviati come HTML nel database (raw_data), ma si tratta di HTML “migrato” da un altro sistema. È stato fatto prima che lanciassimo il sito e non lo avremmo mai fatto in questo modo. L’obiettivo è convertire la stringa HTML contenente <div>, <link>, <br />, <span>, <blockquote>, <small> (ma senza <p>) e elementi non HTML come [quote][/quote] in Markdown, per poi rigenerare i post e convertirli nell’HTML tipico di Discourse, ottimizzati da Discourse stesso (ad esempio per la visualizzazione dei crawler). Al momento viene utilizzato il vecchio contenuto HTML puro (cooked_method=2), il che causa molti problemi di indicizzazione e errori soft404 nella Google Search Console.
Dobbiamo farlo per circa 4-5 milioni di post, quindi sarà un lavoro molto costoso.

Hai qualche idea?

Grazie,
Mike

Abbiamo una libreria integrata di conversione da HTML a Markdown; non è perfetta, ma svolge il suo compito per la funzione di citazione.

Potresti far passare tutti i post attraverso di essa, suppongo, ma quello che descrivi qui, a mio avviso, sembra richiedere un lavoro personalizzato di una certa entità. Ti consiglio di contattare la comunità su Marketplace e di indicare un valore in dollari per il lavoro.

È il genere di cose che faccio. Puoi inviare una e-mail a Jay@literatecomputing.com.

In realtà, mi piace molto il tuo parser html2markdown e vorrei utilizzarlo anche al di fuori di Discourse, per il mio lavoro quotidiano. Hai qualche consiglio su come estrarlo in un’area di testo interattiva?

Non mancano parser html2markdown. Dopotutto, Aaron Swartz ne ha scritto uno.

La differenza è che mi fido del tuo per fare esattamente ciò che voglio — né più, né meno.

Grazie.

LQ