我需要准备一个导出或备份,然后可以手动上传到 Perplexity.ai Workspace。我想包含整个网站上的所有帖子。允许的文件类型有:
.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx
我可以上传最多 50 个文件,每个文件不大于 25MB。
我不需要包含图片。
哪种方法最好?
(另外,虽然不是必需的,但如果可能的话,我希望导出的文件能包含用户上传的文档(如 .pdf 文件)的内容,并且是 LLM 可读的格式。)
有人对如何准备这样的导出有什么想法吗?
我是自托管的。
以下是我目前找到的信息……
Ask.Discourse.com 说...
导出内容(排除图片):
- 使用数据浏览器插件(如果可用):
- Discourse 的 数据浏览器插件 允许您运行自定义 SQL 查询,以您想要的格式(例如
JSON、CSV)提取不同类型的数据。 - 示例查询:运行一个查询来导出所有帖子和主题。这将为您提供结构化数据。
- Discourse 的 数据浏览器插件 允许您运行自定义 SQL 查询,以您想要的格式(例如
- 通过 API 进行 JSON 导出:
- Discourse 上的每个主题或帖子都可以通过在 URL 末尾添加
.json来以编程方式导出为JSON格式。 - 例如:
- Discourse 上的每个主题或帖子都可以通过在 URL 末尾添加
https://<your-discourse-site>/t/topic-title/<topic-id>.json
* 如果您想基于 `topic_id` 以编程方式触发这些导出以获取网站上的所有主题,这将把对话保存在单独的 `.json` 文件中。
- 自动命令行选项(如果支持):
- 对于自托管网站,高级用户可以直接使用
pg_dump命令或类似的数据库查询提取步骤来操作数据库。 - 但是,托管计划不允许直接运行这些工具。
- 对于自托管网站,高级用户可以直接使用
- 用户上传的文档(例如 PDF):
- 不幸的是,将上传文档的内容直接合并到
.json或任何其他输出格式(如.txt)中并不受原生支持。但是,您可以单独下载文档并在本地使用专用工具进行解析,然后将其文本包含在结构化格式中。
- 不幸的是,将上传文档的内容直接合并到
文件类型建议:
考虑到您的上传限制:
- 对于文本提取,请导出
.json或.csv文件,因为这些格式最能捕捉结构化的帖子和主题详细信息。
如果需要其他自定义,请告诉我!
有关更多详细信息,请查看 数据浏览器插件文档。