Discourse 是否支持将对话导出为有组织的批量数据?

Discourse 是否支持将对话导出为可离线复用的结构化数据?在 Slack 中的使用场景如下:

  1. 有时我会从历史记录中提取部分数据,为新成员准备文档。
  2. 采用相同方法从多个讨论中提取有用数据,以整理外部产品文档。
  3. 尝试使用 Python 解析大量排序混乱的主题/对话,以获取包含高亮关键词的结构化数据——用于定义不同对话之间的关联(某种形式的数据分析)。

希望我表达清楚了 :grinning:

1 个赞

嗯,你用过 TensorFlow 吗? :wink: 你或许应该从一开始就避免大量非结构化数据。我这里也遇到同样的问题。但我正尝试从源头把它整理好。我这里有个 Slack 聊天混乱不堪,我打算让人们把数据结构化来解决这个问题。

我不确定 AI 是否适合我的需求。我从不同来源收集数据,主要目标是找到真正重要的亮点(关键词、URL、证据等),并构建结构化数据以回答以下问题:

  1. 接受与某项任务相关特定解决方案的正确顺序是什么?以便还原事件的真实全貌。
  2. 该算法应能从大量低质量对话(尤其是包含多层附件的邮件以及不可靠的网络出版物)中检测出重要提及。
  3. 定义不同行动之间的有价值关联,大致路径如下:新闻 → 博客 → 公众情绪与需求 → 聊天/邮件决策 → 所用策略 → 实际行动 → 已确认的假设 → 相关人员 → 结果说明。

因此,我使用以下 Python 模板:

PRODUCT_RELATIVE_SOURCES = {
    "websites": {
        "company1": [
            "blog",
            "vacancies",
            "news",
            "tags"
        ]
    },
    "social-networks": {
        "network1": [
            "feed",
            "story",
            "public",
            "direct",
            "tags"
        ]
    },
    "messengers": {
        "messenger1": [
            "chat1",
            "room1",
            "bot1",
            "direct",
            "tags"
        ]
    },
    "mailboxes": {
        "box1": [
            "subject",
            "body",
            "sender",
            "cc",
            "meta"
        ]
    }
}

EXCLUDE_SOURCES = {
    "main",
    "libs",
    "opt"
}

我希望能从 Discourse 导出类似的数据结构(或许通过 API)。最初我询问的是关于“Discourse for Teams”的问题,因为我发现它与 Slack 有很多相似之处,而我们的团队对 Slack 并不满意。其付费的历史功能几乎毫无用处。

1 个赞

在这方面,Discourse 能做的所有事情,Discourse for Teams 也都能做到。因此,我将您的帖子移入了一个全新的主题。也许其他人能为您提供建议。

您熟悉 JSON 吗?在 Discourse 中,您可以在几乎任何 URL 后添加 .json,以查看该页面的更便携格式。这或许会有所帮助?

例如,这个主题:

https://meta.discourse.org/t/does-discourse-support-export-conversations-as-an-organized-bulk-of-data/180537.json

5 个赞

哇,看起来很棒,非常感谢你,Tobias!我觉得这对我已经足够了 :+1:

2 个赞