Tenho 28 anos de posts, com uma pasta para cada ano e um arquivo mbox para cada mês. Há 66.909 mensagens nos arquivos mbox. A importação mostra 65.895. A diferença de 1.014 é devido às falhas indicadas na saída da importação?
Os posts foram convertidos de mbx’s do Eudora para mbox’s padrão com o Aid4Mail.
Para o erro “A mensagem pai não existe”, vejo 421 ocorrências.
Para o erro “Falha ao mapear post”, vejo 149 ocorrências.
Minha expressão regular de divisão (split_regex) é “^From .@. [0-9]{4}”, que parece adequada para cabeçalhos como,
Vi o mesmo erro na semana passada enquanto trabalhava em um problema diferente. Vou corrigi-lo esta semana e postarei uma atualização aqui assim que estiver resolvido.
Essas são apenas avisos e provavelmente aparecem devido aos erros de “Falha ao mapear post”. Isso acontece quando uma mensagem referencia um post que não existe. Tenho quase certeza de que corrigir o outro problema resolverá a maioria, senão todos, desses avisos.
Você pode dar uma olhada no index.db que o script de importação cria. É um banco de dados SQLite3. Você pode executar a seguinte consulta para ver com o que o analisador está trabalhando. Ela seleciona as mensagens para os dois Message-ID que você postou.
SELECT *
FROM email
WHERE msg_id IN ('bbe76bf7a9cab5a2ec2a06e6ef453555', '23a86e52-71ba-7435-1c9c-c4f2a134b90d@mmtaylor.net')
Acho que as colunas email_date e raw_message serão as mais interessantes para você. Talvez você consiga descobrir o que está confundindo o analisador de e-mails…
Para o primeiro, a data é nula, e vejo que não há data para essa mensagem no mbx. Notei que a resposta (com :Re) aparece antes da mensagem “inicial”, motivo pelo qual pensei que a data não estivesse faltando. A importação considera as mensagens pai como a primeira no arquivo com esse assunto?
A data do e-mail é extraída da linha “Date:”, como esta?
Date: Wed, 25 Mar 1992 12:23:00 GMT
Vou verificar se consigo corrigir aqueles com datas ausentes.
Não, ele usa os cabeçalhos In-Reply-To e References para corresponder e ordenar por Message-ID, a menos que você tenha alterado a configuração group_messages_by_subject do importador para true.
Sim.
Minha melhor suposição é que haja um problema com um dos anexos. Talvez a extensão do arquivo não seja permitida?
Eu configurei a configuração group_messages_by_subject para true, pois sem ela não havia nenhum agrupamento.
Essa mensagem tem duas imagens embutidas:
Content-Type: application/octet-stream;
name=“Conflict (was … long live Wil”
Content-Transfer-Encoding: base64
Content-Disposition: inline; filename=“Conflict (was … long live Wil”
Sim, isso funciona. Fiz o mesmo no passado. Recomendo definir index_only como true em settings.yml, para que ele não comece a importar imediatamente após indexar as mensagens. Você pode fazer todas as alterações necessárias no banco de dados após a conclusão da indexação. Em seguida, altere index_only para false novamente e reinicie a importação.
Acho que estou entendendo algo errado. A indexação já não foi feita, já que o index.db já está construído?
Eu transfiri o index.db para minha área de trabalho. Ia atualizar as datas, depois transferir o index.db de volta para o servidor e executar a importação novamente. Isso não está correto?
Decidi seguir o caminho de editar os arquivos mbox, adicionando uma linha “Date”, por exemplo: “Date: Wed, 25 Mar 1992 17:43:06”. Transfiri os arquivos atualizados e executei a importação novamente, duas vezes. No entanto, o campo email_date não foi atualizado.