Поддерживает ли Discourse экспорт разговоров в виде организованного массива данных?

Поддерживает ли Discourse экспорт переписки в виде организованного набора данных, который можно использовать офлайн? Примеры использования в Slack:

  1. Иногда я извлекаю данные из истории, чтобы подготовить документы для новых участников.
  2. Тот же подход применяется для извлечения полезной информации из нескольких обсуждений с целью организации внешней документации по продукту.
  3. Попытки проанализировать множество плохо структурированных тем/переписок с помощью Python, чтобы получить структурированные данные с выделенными ключевыми словами — шаги для определения связей между разными обсуждениями (некий анализ данных).

Надеюсь, я был понятен :grinning:

1 лайк

Хм, вы использовали TensorFlow? :wink: Возможно, стоит по возможности избегать большого количества неструктурированных данных. У меня здесь та же проблема. Но я пытаюсь как-то навести порядок прямо у источника. У меня здесь адский Slack-чат, но я справлюсь, заставив людей структурировать данные…

Я не уверен, что ИИ подходит для моей задачи. Я собираю данные из различных источников, и главная цель — найти действительно важные ключевые моменты (слова, URL, доказательства и т. д.) и создать структурированные данные, которые могли бы ответить на следующие вопросы:

  1. Каков был правильный порядок принятия определённого решения по той или иной задаче, чтобы восстановить реальную картину событий.
  2. Алгоритм должен обнаруживать важные упоминания в огромном количестве низкокачественных обсуждений (особенно в электронной почте с множеством уровней вложений и на ненадёжных веб-публикациях).
  3. Определять ценные связи между различными действиями, примерно по следующей схеме: новости → блог → общественное настроение и потребности → решение в чате/почте → использованная стратегия → реальные действия → одобренные предположения → связанные лица → объяснение результата.

Поэтому я использую для этого шаблон на Python:

PRODUCT_RELATIVE_SOURCES = {
    "websites": {
        "company1": [
            "blog",
            "vacancies",
            "news",
            "tags"
        ]
    },
    "social-networks": {
        "network1": [
            "feed",
            "story",
            "public",
            "direct",
            "tags"
        ]
    },
    "messengers": {
        "messenger1": [
            "chat1",
            "room1",
            "bot1",
            "direct",
            "tags"
        ]
    },
    "mailboxes": {
        "box1": [
            "subject",
            "body",
            "sender",
            "cc",
            "meta"
        ]
    }
}

EXCLUDE_SOURCES = {
    "main",
    "libs",
    "opt"
}

Вероятно, я хотел бы получить аналогичную структуру данных, экспортируемую из Discourse (возможно, через API). Изначально я задал вопрос о Discourse для команд, поскольку нашёл много сходств со Slack, и наша команда не удовлетворена Slack. Платная функция истории почти бесполезна.

1 лайк

В этом отношении всё, что можно сделать с Discourse, можно сделать и с Discourse for Teams. Именно поэтому я переместил ваш пост в отдельную новую тему. Возможно, у других участников есть для вас предложения.

Вы знакомы с JSON? Вы можете добавить .json практически к любому URL в Discourse, чтобы увидеть страницу в более переносимом формате. Возможно, это поможет?

Например, эта тема:

https://meta.discourse.org/t/does-discourse-support-export-conversations-as-an-organized-bulk-of-data/180537.json

5 лайков

Вау, выглядит отлично, большое спасибо, Тобиас! Думаю, этого для меня достаточно :+1:

2 лайка