Da HTML a Markdown e ribake

Mike_Gehrhardt · 17 Ottobre 2019, 1:30pm

Ho bisogno del tuo aiuto su un problema. Abbiamo molti argomenti archiviati come HTML nel database (raw_data), ma si tratta di HTML “migrato” da un altro sistema. È stato fatto prima che lanciassimo il sito e non lo avremmo mai fatto in questo modo. L’obiettivo è convertire la stringa HTML contenente <div>, <link>, <br />, <span>, <blockquote>, <small> (ma senza <p>) e elementi non HTML come [quote][/quote] in Markdown, per poi rigenerare i post e convertirli nell’HTML tipico di Discourse, ottimizzati da Discourse stesso (ad esempio per la visualizzazione dei crawler). Al momento viene utilizzato il vecchio contenuto HTML puro (cooked_method=2), il che causa molti problemi di indicizzazione e errori soft404 nella Google Search Console.
Dobbiamo farlo per circa 4-5 milioni di post, quindi sarà un lavoro molto costoso.

Hai qualche idea?

Grazie,
Mike

sam · 21 Ottobre 2019, 1:24am

Abbiamo una libreria integrata di conversione da HTML a Markdown; non è perfetta, ma svolge il suo compito per la funzione di citazione.

Potresti far passare tutti i post attraverso di essa, suppongo, ma quello che descrivi qui, a mio avviso, sembra richiedere un lavoro personalizzato di una certa entità. Ti consiglio di contattare la comunità su Marketplace e di indicare un valore in dollari per il lavoro.

pfaffman · 21 Ottobre 2019, 2:10am

È il genere di cose che faccio. Puoi inviare una e-mail a Jay@literatecomputing.com.

louquillio · 7 Ottobre 2020, 2:12am

In realtà, mi piace molto il tuo parser html2markdown e vorrei utilizzarlo anche al di fuori di Discourse, per il mio lavoro quotidiano. Hai qualche consiglio su come estrarlo in un’area di testo interattiva?

Non mancano parser html2markdown. Dopotutto, Aaron Swartz ne ha scritto uno.

La differenza è che mi fido del tuo per fare esattamente ciò che voglio — né più, né meno.

Grazie.

LQ

Argomento		Risposte	Visualizzazioni
Is there a way to convert cooked content back to Markdown? Support markdown	9	289	Agosto 19, 2024
Converting Wiki Posts to HTML Support	3	605	Febbraio 13, 2022
What markdown parser Discourse is using? Development	6	2121	Aprile 2, 2016
How is Google Docs to Markdown so good on Discourse? Praise	4	3045	Giugno 12, 2020
Converting links from raw markdown to HTML Development	2	1880	Novembre 21, 2018

Da HTML a Markdown e ribake

Argomenti correlati