HTML 转 Markdown 并重新生成

我需要在某个问题上得到您的帮助。我们在数据库(raw_data)中存储了大量以 HTML 格式保存的主题,这些 HTML 是从另一个系统迁移过来的。这是在我们上线网站之前完成的,我们绝不会采用这种方式。我们的目标是将包含 <div><link><br /><span><blockquote><small> 等标签(但不包含 <p> 标签)以及非 HTML 内容如 [quote][/quote] 的 HTML 字符串转换为 Markdown,然后重新生成帖子,使其变为 Discourse 风格的 HTML,以便经过 Discourse 优化(例如爬虫视图)。目前使用的是原始 HTML 内容(cooked_method=2),这导致了许多爬取问题,并在 Google Search Console 中出现了 soft404 错误。

我们需要处理大约 400 万到 500 万篇帖子,这将是一项非常昂贵的任务。

有什么建议吗?

祝好,Mike

我们内置了一个 HTML 转 Markdown 的转换库,它虽不完美,但足以满足引用功能的需求。

我想你可以把所有帖子都通过这个库处理,但你这里描述的需求,在我看来需要大量的定制开发。我建议你在 Marketplace 频道联系社区,并为此工作标出一个价格。

这就是我常做的事。你可以发送邮件至 Jay@literatecomputing.com

实际上,我非常喜欢你的 html2markdown 解析器,并希望将其用于 Discourse 之外,服务于我的日常工作。有什么关于将其提取为一个文本区域小工具的建议吗?

html2markdown 解析器多如牛毛。事实上,Aaron Swartz 也写过这样一个

区别在于,我信任你的解析器能按我的意愿行事——不多不少。

谢谢。

LQ