Выгрузить все разговоры в файл и структурированные данные

Wall-E · 01.Сентябрь.2021 14:59:40

Этот вопрос похож на этот: Does Discourse support export conversations as an organized bulk of data?

но мы ищем способ провести NLP-анализ всех обсуждений на нашем сайте Discourse. Кто-то из нашей команды спросил, можно ли это сделать, работая на низком уровне в бэкенде, например, экспортировав базу данных без таблиц, используя что-то вроде pg_dump --schema-only. Я не до конца понял, что имел в виду мой коллега, но подумал, что, возможно, вы разберётесь.

pfaffman · 01.Сентябрь.2021 15:02:29

Если вы используете самостоятельное размещение, то они могут выполнить команду pg_dump, которая, по их мнению, поможет.

Вы также можете выгрузить данные в различных форматах с помощью плагина Data Explorer.

Wall-E · 01.Сентябрь.2021 20:44:11

Этот плагин, похоже, предоставляет почти всё, что нам нужно! Спасибо!

Wall-E · 14.Сентябрь.2021 22:40:02

Итак, я установил плагин и просмотрел все запросы по адресу (Superseded) What cool data explorer queries have you come up with?, но не нашёл ничего, что могло бы экспортировать сами разговоры. Например, я запросил топ-100 самых активных тем. Получаю записи базы данных с ID тем (см. скриншот), но не сами разговоры. Не связано ли это с тем, что плагин предназначен только для извлечения данных из базы данных и не может извлекать сами разговоры? Если это так, существует ли способ использовать информацию, извлечённую из базы данных, чтобы получить разговоры в JSON-файлах, при этом ID тем в этих файлах будут теми, что были извлечены из базы данных плагином?

pfaffman · 14.Сентябрь.2021 23:35:14

 SELECT * FROM posts where topic_id=425

Это вернёт сообщения по первому топик в вашем запросе (при условии, что я могу печатать с этого телефона).

Но если вам нужен JSON, можно сделать что-то вроде:

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

Wall-E · 15.Сентябрь.2021 00:17:19

Я не понял ваш первый вариант, возможно, опечатка в тексте? Вы имели в виду, что получаю только первое сообщение темы?

Что касается второго варианта с расширением .json, есть ли альтернативный URL, использующий topic_id или любой другой параметр, который позволил бы программно получать разговор в формате JSON без необходимости знать заголовок темы?

pfaffman · 15.Сентябрь.2021 00:38:57

Вы пробовали SQL-запрос? Была ли ошибка? Редакция: Я проверил. Этот запрос вернёт все сообщения в теме.

Вы можете получить любую тему, используя только ID темы.

https://meta.discourse.org/t/-/202351.json

Wall-E · 15.Сентябрь.2021 13:03:18

Запрос был в порядке, я просто неправильно понял ваше объяснение того, что он фактически предоставляет. Спасибо за перепроверку. Это отличные решения.

Тема		Ответов	Просм.
Does Discourse support export conversations as an organized bulk of data? Feature	4	1121	21.02.2021
Exporting all Topic titles and IDs? Development	1	1552	22.01.2018
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	277	27.01.2025
Discourse Public Data Dump Developer Guides	1	1151	13.05.2025
Saving a Conversation Support	9	1030	03.11.2021

Выгрузить все разговоры в файл и структурированные данные

Связанные темы