Ho bisogno del tuo aiuto su un problema. Abbiamo molti argomenti archiviati come HTML nel database (raw_data), ma si tratta di HTML “migrato” da un altro sistema. È stato fatto prima che lanciassimo il sito e non lo avremmo mai fatto in questo modo. L’obiettivo è convertire la stringa HTML contenente <div>, <link>, <br />, <span>, <blockquote>, <small> (ma senza <p>) e elementi non HTML come [quote][/quote] in Markdown, per poi rigenerare i post e convertirli nell’HTML tipico di Discourse, ottimizzati da Discourse stesso (ad esempio per la visualizzazione dei crawler). Al momento viene utilizzato il vecchio contenuto HTML puro (cooked_method=2), il che causa molti problemi di indicizzazione e errori soft404 nella Google Search Console.
Dobbiamo farlo per circa 4-5 milioni di post, quindi sarà un lavoro molto costoso.
Abbiamo una libreria integrata di conversione da HTML a Markdown; non è perfetta, ma svolge il suo compito per la funzione di citazione.
Potresti far passare tutti i post attraverso di essa, suppongo, ma quello che descrivi qui, a mio avviso, sembra richiedere un lavoro personalizzato di una certa entità. Ti consiglio di contattare la comunità su Marketplace e di indicare un valore in dollari per il lavoro.
In realtà, mi piace molto il tuo parser html2markdown e vorrei utilizzarlo anche al di fuori di Discourse, per il mio lavoro quotidiano. Hai qualche consiglio su come estrarlo in un’area di testo interattiva?