Preciso da sua ajuda com um problema. Temos muitos tópicos armazenados como HTML no banco de dados (raw_data), mas é um HTML “migra” de outro sistema. Isso foi feito antes de trazermos o site para cá e nunca teríamos feito dessa forma. O que queremos alcançar é converter a string HTML contendo <div>, <link>, <br />, <span>, <blockquote>, <small>, mas sem <p>, e algo que não é HTML como [quote][/quote] em Markdown e, em seguida, refazer as postagens para colocá-las no estilo HTML do Discourse, de modo que sejam otimizadas pelo Discourse (por exemplo, visualização de crawler). No momento, o conteúdo HTML puro e antigo é usado (cooked_method=2), o que leva a muitos problemas de rastreamento e soft404 no Google Search Console.
Temos que fazer isso para cerca de 4 a 5 milhões de postagens, então será um trabalho muito caro.
Temos uma biblioteca integrada de conversão de HTML para Markdown. Ela não é perfeita, mas cumpre o papel na função de citação.
Você poderia passar todas as postagens por ela, imagino, mas o que você está descrevendo aqui, para mim, soa como uma grande quantidade de trabalho personalizado. Eu recomendaria entrar em contato com a comunidade no Marketplace e colocar um valor em dinheiro para o trabalho.
Na verdade, gosto muito do seu analisador html2markdown e gostaria de usá-lo fora do Discourse, no meu trabalho diário. Alguma dica sobre como extraí-lo para um widget de área de texto?