Problema de renderização do Markdown com imagem cercada por HTML

Esse problema surgiu novamente

Apenas pensando em voz alta, mas me pergunto se podemos contornar o problema complicado aqui (ou seja, a conversão de HTML para markdown). Para recapitular (apenas para ajudar a refletir sobre isso)

  1. O Discourse suporta a importação de HTML para a criação de conteúdo de post (por exemplo, HTML do WP Discourse).

  2. Em alguns contextos, o usuário espera que a integridade do HTML original seja mantida exatamente.

  3. “Integridade” aqui tem pelo menos dois aspectos:

    1. Como o conteúdo é renderizado, por exemplo, quebras de linha
    2. Onde a mídia está hospedada, por exemplo, baixar imagens para o local para evitar imagens quebradas ou potencialmente por preocupações de segurança
  4. A conversão de HTML para markdown potencialmente cria problemas para o primeiro tipo de integridade; no entanto, atualmente é necessário para garantir o segundo tipo de integridade.

Então, talvez uma maneira de resolver esse problema para certas postagens importadas seja armazenar o HTML importado diretamente como o conteúdo cozido do post, e o job pull_hotlinked_images suportaria o download de imagens em tal conteúdo sem converter img para markdown.

Sim, dito de forma mais simples, talvez o código pudesse suportar o download de imagens vinculadas sem exigir a conversão de img para markdown. Para essas postagens, você interpolaria a URL da imagem baixada no conteúdo cozido em vez do conteúdo bruto.

3 curtidas