問題についてお手伝いが必要です。データベース(raw_data)には、別のシステムから「移行」された HTML 形式のトピックが多数保存されています。これは当社のウェブサイト導入前に実施されたもので、決してこのような方法で行うべきではなかったのです。私たちが目指しているのは、<div>、<link>、<br />、<span>、<blockquote>、<small> は含まれるが <p> タグは含まず、かつ [quote][/quote] のように HTML ではない記法も含まれる HTML 文字列を Markdown に変換し、その後投稿を再構築して、Discourse による最適化(例:クローラー表示)が適用された Discourse 標準の HTML 形式にすることです。現状では、生の HTML コンテンツがそのまま使用されており(cooked_method=2)、これが Google サーチコンソールにおける多くのクローリング問題や soft404 の原因となっています。
約 400〜500 万件の投稿に対してこの作業を行う必要があり、非常にコストのかかる作業となります。
何かアイデアはありますか?
よろしくお願いいたします、Mike