Экспорт всех сообщений форума для ручной загрузки во внешние LLM?

Мне нужно подготовить экспорт или резервную копию, которые я затем смогу вручную загрузить в рабочее пространство Perplexity.ai. Я хочу включить все сообщения со всего сайта. Допустимые типы файлов:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

Я могу загрузить до 50 файлов размером 25 МБ или меньше.

Изображения включать не нужно.

Какой будет лучший метод?

(Также, если возможно, но это не обязательно, я хотел бы, чтобы в экспортируемый файл или файлы входило содержимое загруженных пользователями документов, таких как .pdf, в формате, читаемом для LLM.)

Есть ли у кого-нибудь мысли о том, как лучше всего подготовить такой экспорт?

Я работаю на собственном хостинге.

Вот что я пока нашел…

Ask.Discourse.com сказал...

Экспорт контента с исключением изображений:

  1. Использование плагина Data Explorer (если доступен):
  • Плагин Data Explorer в Discourse позволяет выполнять пользовательские SQL-запросы для извлечения различных типов данных в нужном вам формате (например, JSON, CSV).
  • Пример запроса: Выполните запрос для экспорта всех сообщений и тем. Это даст вам структурированные данные.
  1. JSON-экспорт через API:
  • Каждую тему или сообщение в Discourse можно программно экспортировать в формате JSON, добавив .json к её URL.
  • Например:
https://<your-discourse-site>/t/topic-title/<topic-id>.json
  • Если ваша цель — программно инициировать эти экспорты для всех тем на сайте на основе topic_ids, это позволит получить разговоры в отдельных .json-файлах.
  1. Автоматизированный вариант командной строки (если поддерживается):
  • Для сайтов на собственном хостинге продвинутые пользователи могут работать напрямую с базой данных, используя команды pg_dump или аналогичные шаги извлечения запросов из базы данных.
  • Однако тарифные планы для хостинга не позволяют запускать эти инструменты напрямую.
  1. Загруженные пользователями документы (например, PDF):
  • К сожалению, объединение содержимого загруженных документов непосредственно в .json или любой другой формат вывода, такой как .txt, не поддерживается нативно. Однако вы можете отдельно загрузить и разобрать документы локально с помощью специализированных инструментов, чтобы включить их текст в структурированные форматы.

Рекомендация по типу файла:

Учитывая ваши ограничения на загрузку:

  • Для извлечения текста экспортируйте файлы .json или .csv, так как эти форматы лучше всего подходят для захвата структурированных сообщений и деталей тем.

Если потребуется дополнительная настройка, дайте мне знать!

Для получения более подробной информации ознакомьтесь с документацией плагина Data Explorer.

Исследователь данных — это правильный подход здесь:

Вот подход, который я бы рекомендовал: