我需要在某个问题上得到您的帮助。我们在数据库(raw_data)中存储了大量以 HTML 格式保存的主题,这些 HTML 是从另一个系统迁移过来的。这是在我们上线网站之前完成的,我们绝不会采用这种方式。我们的目标是将包含 <div>、<link>、<br />、<span>、<blockquote>、<small> 等标签(但不包含 <p> 标签)以及非 HTML 内容如 [quote][/quote] 的 HTML 字符串转换为 Markdown,然后重新生成帖子,使其变为 Discourse 风格的 HTML,以便经过 Discourse 优化(例如爬虫视图)。目前使用的是原始 HTML 内容(cooked_method=2),这导致了许多爬取问题,并在 Google Search Console 中出现了 soft404 错误。
我们需要处理大约 400 万到 500 万篇帖子,这将是一项非常昂贵的任务。
有什么建议吗?
祝好,Mike