Какой лучший способ создать пайплайн для публикации скрапленных данных в категории Discourse с кастомными темами на основе вкладок?

Steve_John · 26.Март.2025 20:54:22

Мы хотим создать автоматизированный конвейер для обновления кастомной темы Discourse, которую мы разработали и которая содержит разные вкладки для различных типов скрапированного контента:

Извлечение контента из источников (RSS-ленты, веб-сайты и т. д.)
Структурирование данных с метаданными: заголовок, источник, тип (новости/конференции), URL, дата
Использование API Discourse для:

Создания темы в правильной категории и обновления контента в конкретных вкладках кастомной темы.
Добавления соответствующих тегов (чтобы контент отображался в нужной вкладке)

Какой способ лучше всего подходит для хранения скрапированных данных и их отображения:

Локальная база данных или внешняя CMS для хранения и планирования контента или
Файлы YAML/JSON (статический источник)

pfaffman · 26.Март.2025 21:40:50

Возможно, стоит заглянуть на RSS Polling

Steve_John · 28.Март.2025 06:42:38

Спасибо pfaffman за предложения плагинов. Однако у нас нет данных RSS-ленты, мы храним собранные данные в отдельной базе данных. Можно ли использовать этот плагин для подключения к отдельной базе данных, получения необходимых данных и отображения контента?

pfaffman · 28.Март.2025 12:37:04

Это был пример. Вы можете либо преобразовать свои спаршенные данные в RSS-канал, либо модифицировать плагин для чтения любого формата, который вы хотите использовать.

Я бы, вероятно, написал скрейпер на Ruby и интегрировал его в плагин.

Или, возможно, использовать Use the Discourse API ruby gem, разместить это в действии GitHub и настроить автоматическую отправку данных. Я планирую сделать это для клиента, который использует хостинг и не может использовать пользовательский плагин.

Steve_John · 30.Март.2025 07:23:46

Спасибо, Джей. Разработка парсера на Python уже завершена… теперь мы оцениваем, как отображать собранные данные, которые хранятся в MongoDB.

Тема		Ответов	Просм.
Share your use cases of using Discourse REST API 🧑‍💻 Development rest-api	2	868	08.08.2023
API / Functionality required to push Data from Discourse to external resource Development	5	718	05.01.2024
Automating Discourse Topic Creation Extras	4	383	14.12.2024
Do you have original customisations? Community Building	9	2888	02.04.2018
Rss feed to topics or posts in Discourse based forums Feature	9	3310	11.09.2022

Какой лучший способ создать пайплайн для публикации скрапленных данных в категории Discourse с кастомными темами на основе вкладок?

Связанные темы