HTML vers Markdown et rebake

J’ai besoin de votre aide pour résoudre un problème. Nous avons un grand nombre de sujets stockés sous forme de HTML dans la base de données (raw_data), mais ce HTML provient d’une migration depuis un autre système. Cela a été fait avant que nous ne prenions en charge le site web, et nous n’aurions jamais procédé de cette manière. Ce que nous souhaitons réaliser, c’est convertir la chaîne HTML contenant des balises comme

, ,
, ,
, (mais pas

) ainsi que des éléments non HTML comme [quote][/quote] en Markdown, puis régénérer les publications pour les convertir au format HTML optimisé par Discourse (par exemple, pour la vue destinée aux robots d’indexation). Actuellement, le contenu HTML brut est utilisé (cooked_method=2), ce qui entraîne de nombreux problèmes d’indexation et des erreurs soft404 dans Google Search Console.

Nous devons effectuer cette opération pour environ 4 à 5 millions de publications, ce qui représente une tâche très coûteuse.

Avez-vous des idées ?

Cordialement,
Mike

Nous disposons d’une bibliothèque intégrée de conversion HTML vers Markdown. Elle n’est pas parfaite, mais elle fait l’affaire pour la fonction de citation.

Vous pourriez passer tous les messages par ce biais, je suppose, mais ce que vous décrivez ici me semble impliquer un travail de personnalisation considérable. Je vous recommande de contacter la communauté sur Marketplace et d’évaluer le coût de la prestation en dollars.

C’est le genre de choses que je fais. Vous pouvez envoyer un e-mail à Jay@literatecomputing.com.

En fait, j’aime beaucoup votre analyseur html2markdown et j’aimerais l’utiliser en dehors de Discourse, pour mon travail quotidien. Avez-vous des conseils pour l’extraire dans un petit outil de zone de texte ?

Il n’y a pas de pénurie d’analyseurs html2markdown. D’ailleurs, Aaron Swartz en a écrit un.

La différence, c’est que j’ai confiance en le vôtre pour faire exactement ce que je veux — ni plus, ni moins.

Merci.

LQ