Discourse 是否支持将对话导出为有组织的批量数据？

Ivan_Rapekas · 2021 年2 月 20 日 18:17

Discourse 是否支持将对话导出为可离线复用的结构化数据？在 Slack 中的使用场景如下：

有时我会从历史记录中提取部分数据，为新成员准备文档。
采用相同方法从多个讨论中提取有用数据，以整理外部产品文档。
尝试使用 Python 解析大量排序混乱的主题/对话，以获取包含高亮关键词的结构化数据——用于定义不同对话之间的关联（某种形式的数据分析）。

希望我表达清楚了

Holger_Winkelmann · 2021 年2 月 20 日 20:59

嗯，你用过 TensorFlow 吗？你或许应该从一开始就避免大量非结构化数据。我这里也遇到同样的问题。但我正尝试从源头把它整理好。我这里有个 Slack 聊天混乱不堪，我打算让人们把数据结构化来解决这个问题。

Ivan_Rapekas · 2021 年2 月 20 日 22:08

我不确定 AI 是否适合我的需求。我从不同来源收集数据，主要目标是找到真正重要的亮点（关键词、URL、证据等），并构建结构化数据以回答以下问题：

接受与某项任务相关特定解决方案的正确顺序是什么？以便还原事件的真实全貌。
该算法应能从大量低质量对话（尤其是包含多层附件的邮件以及不可靠的网络出版物）中检测出重要提及。
定义不同行动之间的有价值关联，大致路径如下：新闻 → 博客 → 公众情绪与需求 → 聊天/邮件决策 → 所用策略 → 实际行动 → 已确认的假设 → 相关人员 → 结果说明。

因此，我使用以下 Python 模板：

PRODUCT_RELATIVE_SOURCES = {
    "websites": {
        "company1": [
            "blog",
            "vacancies",
            "news",
            "tags"
        ]
    },
    "social-networks": {
        "network1": [
            "feed",
            "story",
            "public",
            "direct",
            "tags"
        ]
    },
    "messengers": {
        "messenger1": [
            "chat1",
            "room1",
            "bot1",
            "direct",
            "tags"
        ]
    },
    "mailboxes": {
        "box1": [
            "subject",
            "body",
            "sender",
            "cc",
            "meta"
        ]
    }
}

EXCLUDE_SOURCES = {
    "main",
    "libs",
    "opt"
}

我希望能从 Discourse 导出类似的数据结构（或许通过 API）。最初我询问的是关于“Discourse for Teams”的问题，因为我发现它与 Slack 有很多相似之处，而我们的团队对 Slack 并不满意。其付费的历史功能几乎毫无用处。

tobiaseigen · 2021 年2 月 20 日 22:42

在这方面，Discourse 能做的所有事情，Discourse for Teams 也都能做到。因此，我将您的帖子移入了一个全新的主题。也许其他人能为您提供建议。

您熟悉 JSON 吗？在 Discourse 中，您可以在几乎任何 URL 后添加 .json，以查看该页面的更便携格式。这或许会有所帮助？

例如，这个主题：

https://meta.discourse.org/t/does-discourse-support-export-conversations-as-an-organized-bulk-of-data/180537.json

Ivan_Rapekas · 2021 年2 月 21 日 16:17

哇，看起来很棒，非常感谢你，Tobias！我觉得这对我已经足够了

话题		回复	浏览量
Dump all conversations in a file and structured data Support	7	1806	2021 年9 月 15 日
Saving a Conversation Support	9	1031	2021 年11 月 3 日
Public data dumps Feature	7	2163	2023 年3 月 31 日
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	279	2025 年1 月 27 日
ChatGPT Integration tools for Discourse Support	6	2067	2023 年2 月 27 日

Discourse 是否支持将对话导出为有组织的批量数据？

相关话题