Zugriff auf Postgres-Datenbank für Analytics-Pipeline

Hallo zusammen, ich habe keinen ähnlichen Beitrag dazu gefunden, also hier ist er:

Meine Organisation baut unsere Analyse-Dashboards (innerhalb von Snowflake) auf und hofft, die Benutzerdaten, die wir in Discourse haben, zu integrieren.

Derzeit hosten wir Discourse selbst auf einer EC2-Instanz innerhalb von Docker. Hier scheinen sich ein paar Optionen zu bieten:

  1. Verwenden Sie den AWS Database Migration Service, um auf den Postgres-Server auf der EC2 zuzugreifen. Dies würde erfordern, den Postgres-Port freizugeben (von dem ich nicht glaube, dass er standardmäßig öffentlich zugänglich ist) und einen neuen Postgres-Benutzer zu erstellen, aber ansonsten scheint dies eine ziemlich gute Lösung zu sein.
  • Ein direkter SQL-Dump in einen S3-Bucket (wie Backups in Discourse funktionieren) funktioniert nicht, da SQL kein Datenformat ist, das von Snowflake akzeptiert wird.
  1. Installieren Sie das Data Explorer Plugin, schreiben Sie die Abfragen, die die gewünschten Daten ausgeben, und führen Sie dann die resultierenden Daten in CSVs/JSONs aus und exportieren Sie sie, die wir dann in Snowflake importieren können.
  • Diese Lösung scheint mehr Schritte als 1. oben zu haben, würde aber auch den Zweck erfüllen und hat eine geringere Chance, die Discourse-DB zu beschädigen.

Ich würde mich über Input oder Berichte von anderen freuen, die ihre DB-Daten in eine Analyse-Pipeline bekommen haben. Vielen Dank!

Wenn Snowflake mit Postgres sprechen kann, würde ich einen Postgres-Port öffnen (mit entsprechender Firewall, um den Zugriff zu beschränken) und es damit sprechen lassen.

Wenn Snowflake CSV/JSON lesen kann, könnten Sie den Daten-Explorer verwenden und die Daten automatisch über die API abrufen.

1 „Gefällt mir“

Das ist nachvollziehbar. Wahrscheinlich werde ich den direkten Weg wählen (meine Option 1). Speicher ist günstig und das Entleeren der gesamten Datenbank nach Snowflake, damit wir alle unsere Analyseabfragen in einem Repository definieren können, fühlt sich nach deutlich weniger Aufwand an, als einige Abfragen in Data Explorer für eine Reihe von Analyseanfragen zu definieren, dann bitten sie um mehr, also definieren wir einen weiteren Satz und so weiter…