Obrigado, Jay! Agradeço o incentivo.
Ugh, prefiro não pensar nisso.
Provavelmente foram mais de 15 ou 20 horas depois que você me colocou no caminho certo com a consulta SQL.
Gostaria de conversar com você sobre isso se tiver alguma ideia:
Levou cerca de 70 horas para fazer um teste completo com dados de produção em um VPS muito poderoso. Gostaria de fazer com que meus usuários interajam novamente o mais rápido possível, mesmo que a importação de posts e MPs ainda esteja incompleta. Ou outra ideia alternativa que pensei seria desabilitar a função preprocess_posts, que também modifiquei bastante com substituições adicionais de regex gsub e também para passar todos os posts e MPs pelo Pandoc com um ou dois comandos diferentes, dependendo se o post original era marcação Textile ou HTML puro. Se eu desabilitar toda a rotina preprocess_posts, provavelmente cortaria o tempo de importação pela metade, e então eu poderia adicionar todo esse material de formatação à seção postprocess_posts depois que todos os dados brutos fossem importados. Mas a desvantagem é que, depois, eu não conseguiria acessar facilmente a coluna original do banco de dados que mostra o formato de origem (Textile ou HTML) para cada post, o que é uma condição para minha manipulação do Pandoc. Ou eu poderia adicionar um campo personalizado a cada post, rotulando-o como textile ou html e recuperá-lo mais tarde durante o pós-processamento? Sei lá, apenas pensando alto aqui.