我们希望构建一个自动化管道,能够更新我们构建的 Discourse 自定义主题,该主题具有用于不同类型抓取数据内容的选项卡:
- 从源(RSS 源、网站等)抓取内容
- 使用元数据构建数据:标题、来源、类型(新闻/会议)、URL、日期
- 使用 Discourse API:
- 在正确的类别下创建主题,并在自定义主题的特定选项卡中更新内容。
- 添加相关标签(使其显示在正确的选项卡下)
存储和渲染抓取数据的最佳方法是什么:
- 本地数据库或外部 CMS 用于存储和安排内容,或
- YAML/JSON 文件(静态源)
我们希望构建一个自动化管道,能够更新我们构建的 Discourse 自定义主题,该主题具有用于不同类型抓取数据内容的选项卡:
存储和渲染抓取数据的最佳方法是什么:
也许可以看看 RSS Polling
感谢 pfaffman 提供的插件建议。但是,我们没有 rss 订阅源数据,我们将抓取的数据存储在独立的数据库中。我们是否可以使用此插件连接到独立数据库并获取所需数据并呈现内容?
这是一个示例。您可以将抓取的数据制成 RSS feed,或修改插件以读取您想要的任何格式。
我可能会用 Ruby 编写抓取器并将其集成到插件中。
或者,也许可以使用 Use the Discourse API ruby gem 并将其放入 Github action 中,让它推送数据。我正计划为一位无法使用自定义插件的托管客户这样做。
谢谢 Jay。已经用 Python 完成了爬虫开发……现在我们正在评估如何渲染存储在 MongoDB 中的这些抓取的数据。