Выгрузить все разговоры в файл и структурированные данные

Этот вопрос похож на этот: Does Discourse support export conversations as an organized bulk of data?

но мы ищем способ провести NLP-анализ всех обсуждений на нашем сайте Discourse. Кто-то из нашей команды спросил, можно ли это сделать, работая на низком уровне в бэкенде, например, экспортировав базу данных без таблиц, используя что-то вроде pg_dump --schema-only. Я не до конца понял, что имел в виду мой коллега, но подумал, что, возможно, вы разберётесь.

Если вы используете самостоятельное размещение, то они могут выполнить команду pg_dump, которая, по их мнению, поможет.

Вы также можете выгрузить данные в различных форматах с помощью плагина Data Explorer.

Этот плагин, похоже, предоставляет почти всё, что нам нужно! Спасибо!

Итак, я установил плагин и просмотрел все запросы по адресу (Superseded) What cool data explorer queries have you come up with?, но не нашёл ничего, что могло бы экспортировать сами разговоры. Например, я запросил топ-100 самых активных тем. Получаю записи базы данных с ID тем (см. скриншот), но не сами разговоры. Не связано ли это с тем, что плагин предназначен только для извлечения данных из базы данных и не может извлекать сами разговоры? Если это так, существует ли способ использовать информацию, извлечённую из базы данных, чтобы получить разговоры в JSON-файлах, при этом ID тем в этих файлах будут теми, что были извлечены из базы данных плагином?

 SELECT * FROM posts where topic_id=425

Это вернёт сообщения по первому топик в вашем запросе (при условии, что я могу печатать с этого телефона).

Но если вам нужен JSON, можно сделать что-то вроде:

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

Я не понял ваш первый вариант, возможно, опечатка в тексте? Вы имели в виду, что получаю только первое сообщение темы?

Что касается второго варианта с расширением .json, есть ли альтернативный URL, использующий topic_id или любой другой параметр, который позволил бы программно получать разговор в формате JSON без необходимости знать заголовок темы?

Вы пробовали SQL-запрос? Была ли ошибка? Редакция: Я проверил. Этот запрос вернёт все сообщения в теме.

Вы можете получить любую тему, используя только ID темы.

https://meta.discourse.org/t/-/202351.json

Запрос был в порядке, я просто неправильно понял ваше объяснение того, что он фактически предоставляет. Спасибо за перепроверку. Это отличные решения.