Queremos construir um pipeline automatizado que possa atualizar o tema personalizado do Discourse que construímos, o qual possui diferentes abas para diferentes tipos de conteúdo extraído:
Extrai conteúdo de fontes (feeds RSS, sites, etc.)
Estrutura os dados com metadados: título, fonte, tipo (notícias/conferências), URL, data
Usa a API do Discourse para:
Criar um tópico sob a categoria correta e atualizar o conteúdo dentro de abas específicas do tema personalizado.
Adicionar tags relevantes (para que apareça na aba correta)
Quais são as melhores maneiras de armazenar os dados extraídos e renderizar:
banco de dados local ou CMS externo para armazenar e agendar conteúdo ou
Obrigado pfaffman pelas sugestões de plugins. No entanto, não temos dados de feed rss, armazenamos dados raspados em um banco de dados autônomo. Podemos usar este plugin para nos conectar ao banco de dados autônomo e buscar os dados necessários e renderizar o conteúdo?
Era um exemplo. Você poderia transformar seus dados extraídos em um feed RSS ou modificar o plugin para ler qualquer formato que você queira colocar nele.
O que eu provavelmente faria seria escrever o scraper em ruby e integrá-lo a um plugin.
Ou talvez Use the Discourse API ruby gem e colocá-lo em uma Github action e fazer com que ele envie os dados. Estou planejando fazer isso para um cliente que está hospedado e não pode usar um plugin personalizado.
Obrigado, Jay. O desenvolvimento do scraper já foi concluído com Python… agora estávamos avaliando como renderizar esses dados extraídos, que são armazenados no MongoDB.