将所有论坛帖子导出以便手动上传到外部LLMs?

我需要准备一个导出或备份,然后可以手动上传到 Perplexity.ai Workspace。我想包含整个网站上的所有帖子。允许的文件类型有:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

我可以上传最多 50 个文件,每个文件不大于 25MB。

我不需要包含图片。

哪种方法最好?

(另外,虽然不是必需的,但如果可能的话,我希望导出的文件能包含用户上传的文档(如 .pdf 文件)的内容,并且是 LLM 可读的格式。)

有人对如何准备这样的导出有什么想法吗?

我是自托管的。

以下是我目前找到的信息……

Ask.Discourse.com 说...

导出内容(排除图片):

  1. 使用数据浏览器插件(如果可用):
    • Discourse 的 数据浏览器插件 允许您运行自定义 SQL 查询,以您想要的格式(例如 JSONCSV)提取不同类型的数据。
    • 示例查询:运行一个查询来导出所有帖子和主题。这将为您提供结构化数据。
  2. 通过 API 进行 JSON 导出:
    • Discourse 上的每个主题或帖子都可以通过在 URL 末尾添加 .json 来以编程方式导出为 JSON 格式。
    • 例如:
https://<your-discourse-site>/t/topic-title/<topic-id>.json
*   如果您想基于 `topic_id` 以编程方式触发这些导出以获取网站上的所有主题,这将把对话保存在单独的 `.json` 文件中。
  1. 自动命令行选项(如果支持):
    • 对于自托管网站,高级用户可以直接使用 pg_dump 命令或类似的数据库查询提取步骤来操作数据库。
    • 但是,托管计划不允许直接运行这些工具。
  2. 用户上传的文档(例如 PDF):
    • 不幸的是,将上传文档的内容直接合并到 .json 或任何其他输出格式(如 .txt)中并不受原生支持。但是,您可以单独下载文档并在本地使用专用工具进行解析,然后将其文本包含在结构化格式中。

文件类型建议:

考虑到您的上传限制:

  • 对于文本提取,请导出 .json.csv 文件,因为这些格式最能捕捉结构化的帖子和主题详细信息。

如果需要其他自定义,请告诉我!

有关更多详细信息,请查看 数据浏览器插件文档

1 个赞

数据浏览器是这里的正确方法:

这是我建议采取的方法:

4 个赞