Importando HTML para o Discourse

Bom dia,

Quando o Google Yahoo foi desativado, os administradores de um grupo existente exportaram todas as mensagens para HTML. Em seguida, eles carregaram todo o HTML no Groups.io e esse foi o processo de migração deles.

Hoje existem algumas centenas desses arquivos HTML com títulos como HtmlDigest001 contendo centenas de assuntos diferentes por arquivo e cada assunto tem dezenas de mensagens.

Tenho me esforçado com scripts Python tentando extrair texto organizado por assunto e data de postagem em documentos Word individuais, mas sem sucesso.

Estava pensando agora se o Discourse seria capaz de importar esses arquivos HTML e de alguma forma convertê-los em mensagens separadas. Ou se existe uma ferramenta capaz de realizar essa tarefa.

Obrigado pelo seu tempo e ajuda.

Atenciosamente

Bem, tudo é possível. Você precisaria escrever algo que os analisasse e, digamos, os inserisse em um banco de dados. Você pode dar uma olhada em um dos importadores json ou csv. A gem nokogiri pode ajudar.

2 curtidas