Bom dia,
Quando o Google Yahoo foi desativado, os administradores de um grupo existente exportaram todas as mensagens para HTML. Em seguida, eles carregaram todo o HTML no Groups.io e esse foi o processo de migração deles.
Hoje existem algumas centenas desses arquivos HTML com títulos como HtmlDigest001 contendo centenas de assuntos diferentes por arquivo e cada assunto tem dezenas de mensagens.
Tenho me esforçado com scripts Python tentando extrair texto organizado por assunto e data de postagem em documentos Word individuais, mas sem sucesso.
Estava pensando agora se o Discourse seria capaz de importar esses arquivos HTML e de alguma forma convertê-los em mensagens separadas. Ou se existe uma ferramenta capaz de realizar essa tarefa.
Obrigado pelo seu tempo e ajuda.
Atenciosamente