Мне нужно подготовить экспорт или резервную копию, которые я затем смогу вручную загрузить в рабочее пространство Perplexity.ai. Я хочу включить все сообщения со всего сайта. Допустимые типы файлов:
.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx
Я могу загрузить до 50 файлов размером 25 МБ или меньше.
Изображения включать не нужно.
Какой будет лучший метод?
(Также, если возможно, но это не обязательно, я хотел бы, чтобы в экспортируемый файл или файлы входило содержимое загруженных пользователями документов, таких как .pdf, в формате, читаемом для LLM.)
Есть ли у кого-нибудь мысли о том, как лучше всего подготовить такой экспорт?
Я работаю на собственном хостинге.
Вот что я пока нашел…
Ask.Discourse.com сказал...
Экспорт контента с исключением изображений:
- Использование плагина Data Explorer (если доступен):
- Плагин Data Explorer в Discourse позволяет выполнять пользовательские SQL-запросы для извлечения различных типов данных в нужном вам формате (например,
JSON,CSV). - Пример запроса: Выполните запрос для экспорта всех сообщений и тем. Это даст вам структурированные данные.
- JSON-экспорт через API:
- Каждую тему или сообщение в Discourse можно программно экспортировать в формате
JSON, добавив.jsonк её URL. - Например:
https://<your-discourse-site>/t/topic-title/<topic-id>.json
- Если ваша цель — программно инициировать эти экспорты для всех тем на сайте на основе topic_ids, это позволит получить разговоры в отдельных
.json-файлах.
- Автоматизированный вариант командной строки (если поддерживается):
- Для сайтов на собственном хостинге продвинутые пользователи могут работать напрямую с базой данных, используя команды
pg_dumpили аналогичные шаги извлечения запросов из базы данных. - Однако тарифные планы для хостинга не позволяют запускать эти инструменты напрямую.
- Загруженные пользователями документы (например, PDF):
- К сожалению, объединение содержимого загруженных документов непосредственно в
.jsonили любой другой формат вывода, такой как.txt, не поддерживается нативно. Однако вы можете отдельно загрузить и разобрать документы локально с помощью специализированных инструментов, чтобы включить их текст в структурированные форматы.
Рекомендация по типу файла:
Учитывая ваши ограничения на загрузку:
- Для извлечения текста экспортируйте файлы
.jsonили.csv, так как эти форматы лучше всего подходят для захвата структурированных сообщений и деталей тем.
Если потребуется дополнительная настройка, дайте мне знать!
Для получения более подробной информации ознакомьтесь с документацией плагина Data Explorer.