HTML vers Markdown et rebake

Mike_Gehrhardt · Octobre 17, 2019, 1:30

J’ai besoin de votre aide pour résoudre un problème. Nous avons un grand nombre de sujets stockés sous forme de HTML dans la base de données (raw_data), mais ce HTML provient d’une migration depuis un autre système. Cela a été fait avant que nous ne prenions en charge le site web, et nous n’aurions jamais procédé de cette manière. Ce que nous souhaitons réaliser, c’est convertir la chaîne HTML contenant des balises comme

, ,
, ,

, (mais pas
) ainsi que des éléments non HTML comme [quote][/quote] en Markdown, puis régénérer les publications pour les convertir au format HTML optimisé par Discourse (par exemple, pour la vue destinée aux robots d’indexation). Actuellement, le contenu HTML brut est utilisé (cooked_method=2), ce qui entraîne de nombreux problèmes d’indexation et des erreurs soft404 dans Google Search Console.

Nous devons effectuer cette opération pour environ 4 à 5 millions de publications, ce qui représente une tâche très coûteuse.

Avez-vous des idées ?

Cordialement,
Mike

sam · Octobre 21, 2019, 1:24

Nous disposons d’une bibliothèque intégrée de conversion HTML vers Markdown. Elle n’est pas parfaite, mais elle fait l’affaire pour la fonction de citation.

Vous pourriez passer tous les messages par ce biais, je suppose, mais ce que vous décrivez ici me semble impliquer un travail de personnalisation considérable. Je vous recommande de contacter la communauté sur Marketplace et d’évaluer le coût de la prestation en dollars.

pfaffman · Octobre 21, 2019, 2:10

C’est le genre de choses que je fais. Vous pouvez envoyer un e-mail à Jay@literatecomputing.com.

louquillio · Octobre 7, 2020, 2:12

En fait, j’aime beaucoup votre analyseur html2markdown et j’aimerais l’utiliser en dehors de Discourse, pour mon travail quotidien. Avez-vous des conseils pour l’extraire dans un petit outil de zone de texte ?

Il n’y a pas de pénurie d’analyseurs html2markdown. D’ailleurs, Aaron Swartz en a écrit un.

La différence, c’est que j’ai confiance en le vôtre pour faire exactement ce que je veux — ni plus, ni moins.

Merci.

LQ

Sujet		Réponses	Vues
Is there a way to convert cooked content back to Markdown? Support markdown	9	286	Août 19, 2024
Converting Wiki Posts to HTML Support	3	598	Février 13, 2022
What markdown parser Discourse is using? Development	6	2120	Avril 2, 2016
How is Google Docs to Markdown so good on Discourse? Praise	4	3041	Juin 12, 2020
Converting links from raw markdown to HTML Development	2	1879	Novembre 21, 2018

HTML vers Markdown et rebake

Sujets connexes