Поддерживает ли Discourse экспорт разговоров в виде организованного массива данных?

Ivan_Rapekas · 20.Февраль.2021 18:17:53

Поддерживает ли Discourse экспорт переписки в виде организованного набора данных, который можно использовать офлайн? Примеры использования в Slack:

Иногда я извлекаю данные из истории, чтобы подготовить документы для новых участников.
Тот же подход применяется для извлечения полезной информации из нескольких обсуждений с целью организации внешней документации по продукту.
Попытки проанализировать множество плохо структурированных тем/переписок с помощью Python, чтобы получить структурированные данные с выделенными ключевыми словами — шаги для определения связей между разными обсуждениями (некий анализ данных).

Надеюсь, я был понятен

Holger_Winkelmann · 20.Февраль.2021 20:59:05

Хм, вы использовали TensorFlow? Возможно, стоит по возможности избегать большого количества неструктурированных данных. У меня здесь та же проблема. Но я пытаюсь как-то навести порядок прямо у источника. У меня здесь адский Slack-чат, но я справлюсь, заставив людей структурировать данные…

Ivan_Rapekas · 20.Февраль.2021 22:08:25

Я не уверен, что ИИ подходит для моей задачи. Я собираю данные из различных источников, и главная цель — найти действительно важные ключевые моменты (слова, URL, доказательства и т. д.) и создать структурированные данные, которые могли бы ответить на следующие вопросы:

Каков был правильный порядок принятия определённого решения по той или иной задаче, чтобы восстановить реальную картину событий.
Алгоритм должен обнаруживать важные упоминания в огромном количестве низкокачественных обсуждений (особенно в электронной почте с множеством уровней вложений и на ненадёжных веб-публикациях).
Определять ценные связи между различными действиями, примерно по следующей схеме: новости → блог → общественное настроение и потребности → решение в чате/почте → использованная стратегия → реальные действия → одобренные предположения → связанные лица → объяснение результата.

Поэтому я использую для этого шаблон на Python:

PRODUCT_RELATIVE_SOURCES = {
    "websites": {
        "company1": [
            "blog",
            "vacancies",
            "news",
            "tags"
        ]
    },
    "social-networks": {
        "network1": [
            "feed",
            "story",
            "public",
            "direct",
            "tags"
        ]
    },
    "messengers": {
        "messenger1": [
            "chat1",
            "room1",
            "bot1",
            "direct",
            "tags"
        ]
    },
    "mailboxes": {
        "box1": [
            "subject",
            "body",
            "sender",
            "cc",
            "meta"
        ]
    }
}

EXCLUDE_SOURCES = {
    "main",
    "libs",
    "opt"
}

Вероятно, я хотел бы получить аналогичную структуру данных, экспортируемую из Discourse (возможно, через API). Изначально я задал вопрос о Discourse для команд, поскольку нашёл много сходств со Slack, и наша команда не удовлетворена Slack. Платная функция истории почти бесполезна.

tobiaseigen · 20.Февраль.2021 22:42:55

В этом отношении всё, что можно сделать с Discourse, можно сделать и с Discourse for Teams. Именно поэтому я переместил ваш пост в отдельную новую тему. Возможно, у других участников есть для вас предложения.

Вы знакомы с JSON? Вы можете добавить .json практически к любому URL в Discourse, чтобы увидеть страницу в более переносимом формате. Возможно, это поможет?

Например, эта тема:

https://meta.discourse.org/t/does-discourse-support-export-conversations-as-an-organized-bulk-of-data/180537.json

Ivan_Rapekas · 21.Февраль.2021 16:17:37

Вау, выглядит отлично, большое спасибо, Тобиас! Думаю, этого для меня достаточно

Тема		Ответов	Просм.
Dump all conversations in a file and structured data Support	7	1805	15.09.2021
Saving a Conversation Support	9	1030	03.11.2021
Public data dumps Feature	7	2163	31.03.2023
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	277	27.01.2025
ChatGPT Integration tools for Discourse Support	6	2063	27.02.2023

Поддерживает ли Discourse экспорт разговоров в виде организованного массива данных?

Связанные темы