HTML から Markdown への変換と再構築

問題についてお手伝いが必要です。データベース(raw_data)には、別のシステムから「移行」された HTML 形式のトピックが多数保存されています。これは当社のウェブサイト導入前に実施されたもので、決してこのような方法で行うべきではなかったのです。私たちが目指しているのは、<div><link><br /><span><blockquote><small> は含まれるが <p> タグは含まず、かつ [quote][/quote] のように HTML ではない記法も含まれる HTML 文字列を Markdown に変換し、その後投稿を再構築して、Discourse による最適化(例:クローラー表示)が適用された Discourse 標準の HTML 形式にすることです。現状では、生の HTML コンテンツがそのまま使用されており(cooked_method=2)、これが Google サーチコンソールにおける多くのクローリング問題や soft404 の原因となっています。

約 400〜500 万件の投稿に対してこの作業を行う必要があり、非常にコストのかかる作業となります。

何かアイデアはありますか?

よろしくお願いいたします、Mike

HTML から Markdown への変換を行う組み込みライブラリがあります。完璧ではありませんが、引用機能には十分機能します。

すべての投稿をそのライブラリに通すことも可能かもしれませんが、ここで説明されていることは、私から見ると大規模なカスタム作業のように思えます。Marketplace のコミュニティに連絡し、その作業に対する報酬額を設定することを推奨します。

それが私がやっていることです。Jay@literatecomputing.com までメールしてください。

実際、あなたの html2markdown パーサーは非常に気に入っており、Discourse 以外でも日常業務で活用したいと考えています。これをテキストエリアのデモとして抽出する方法について、何かヒントはありますか?

html2markdown パーサーは数多く存在します。Aaron Swartz 氏も 一つ書きました

違いは、あなたのパーサーは私が望むことを正確に実行すると信頼している点です。過不足なく。

ありがとうございます。

LQ