Quelle est la meilleure façon de construire un pipeline pour publier des données extraites dans les catégories Discourse avec des thèmes personnalisés à onglets ?

Nous voulons construire un pipeline automatisé qui peut mettre à jour le thème personnalisé de Discourse que nous avons construit, lequel comporte différents onglets pour différents types de contenu récupéré :

  1. Récupère le contenu des sources (flux RSS, sites Web, etc.)
  2. Structure les données avec des métadonnées : titre, source, type (actualités/conférences), URL, date
  3. Utilise l’API Discourse pour :
  • Créer un sujet dans la catégorie appropriée et mettre à jour le contenu dans des onglets spécifiques du thème personnalisé.
  • Ajouter des étiquettes pertinentes (pour qu’il apparaisse sous l’onglet correct)

Quelles sont les meilleures façons de stocker les données récupérées et de les rendre :

  1. Base de données locale ou CMS externe pour stocker et planifier le contenu ou
  2. Fichiers YAML/JSON (source statique)
1 « J'aime »

Peut-être jetez un œil à RSS Polling

Merci pfaffman pour les suggestions de plugins. Cependant, nous n’avons pas de données de flux RSS, nous stockons des données scrapées dans une base de données autonome… pouvons-nous utiliser ce plugin pour nous connecter à la base de données autonome et récupérer les données nécessaires et afficher le contenu ?

C’était un exemple. Vous pourriez soit transformer vos données extraites en flux RSS, soit modifier le plugin pour lire le format que vous souhaitez y mettre.

Ce que je ferais probablement, c’est écrire le scraper en Ruby et l’intégrer dans un plugin.

Ou peut-être Use the Discourse API ruby gem et le mettre dans une action Github et le faire pousser les données. Je prévois de faire cela pour un client qui est hébergé et ne peut pas utiliser de plugin personnalisé.

Merci Jay. Le développement du scraper est déjà terminé avec Python… nous évaluons maintenant comment rendre ces données scrapées qui sont stockées dans MongoDB.