Importazione di HTML in Discourse

Buongiorno,

Quando Google Yahoo è stato dismesso, gli amministratori di un gruppo esistente hanno esportato tutti i messaggi in HTML. Hanno quindi caricato tutti gli HTML su Groups.io e questo è stato il loro processo di migrazione.

Oggi ci sono poche centinaia di questi file HTML con titoli come HtmlDigest001 contenenti centinaia di argomenti diversi per file e ogni argomento ha dozzine di messaggi.

Ho cercato di arrangiarmi con script Python per estrarre il testo organizzato per argomento e data di pubblicazione in singoli documenti Word, ma senza successo.

Stavo ora pensando se Discourse sarebbe in grado di importare questi file HTML e in qualche modo convertirli in messaggi separati. O se esiste uno strumento in grado di svolgere questo compito.

Grazie per il tuo tempo e aiuto.

Saluti

Beh, tutto è possibile. Dovresti scrivere qualcosa che li analizzi e, diciamo, li inserisca in un database. Puoi dare un’occhiata a uno degli importatori json o csv. La gemma nokogiri può aiutare.

2 Mi Piace