Wir möchten eine automatisierte Pipeline erstellen, die das von uns erstellte benutzerdefinierte Discourse-Theme aktualisieren kann, das verschiedene Tabs für unterschiedliche Arten von gescrapten Dateninhalten hat:
Sammelt Inhalte aus Quellen (RSS-Feeds, Websites usw.)
Strukturiert die Daten mit Metadaten: Titel, Quelle, Typ (Nachrichten/Konferenzen), URL, Datum
Verwendet die Discourse-API, um:
Ein Thema unter der richtigen Kategorie zu erstellen und Inhalte in bestimmten Tabs des benutzerdefinierten Themes zu aktualisieren.
Relevante Tags hinzuzufügen (damit es unter dem richtigen Tab erscheint)
Was sind die besten Möglichkeiten, gescrapte Daten zu speichern und zu rendern:
Lokale Datenbank oder externes CMS zum Speichern und Planen von Inhalten oder
Vielen Dank, pfaffman, für die Plugin-Vorschläge. Wir haben jedoch keine RSS-Feed-Daten, wir speichern die gescrapten Daten in einer eigenständigen Datenbank. Können wir dieses Plugin verwenden, um eine Verbindung zur eigenständigen Datenbank herzustellen, die benötigten Daten abzurufen und den Inhalt zu rendern?
Es war ein Beispiel. Sie könnten entweder Ihre gescannten Daten in einen RSS-Feed umwandeln oder das Plugin so modifizieren, dass es jedes gewünschte Format liest.
Ich würde wahrscheinlich den Scraper in Ruby schreiben und ihn in ein Plugin integrieren.
Oder vielleicht Use the Discourse API ruby gem und es in eine Github-Aktion einbinden und die Daten pushen lassen. Das plane ich für einen Kunden zu tun, der gehostet wird und kein benutzerdefiniertes Plugin verwenden kann.
Danke Jay. Die Entwicklung des Scrapers mit Python ist bereits abgeschlossen … jetzt evaluieren wir, wie diese gesammelten Daten, die in MongoDB gespeichert sind, gerendert werden sollen.