Ich habe meine eigene „stabile“ Discourse-Installation mit externem Postgres und Redis eingerichtet.
Um die Architektur zu präzisieren: In Azure, 1 LoadBalancer, 1 VM, die den Discourse-Container hostet, mit NFS-Freigabe für Backups und Bilder, 1 Postgres, 1 Redis.
Ich habe sie mit meinem eigenen Logo, den Plugins discourse-calendar und discourse-news (und anderen Dingen, die hier aber irrelevant sind) angepasst.
Zufällig, für einen Zeitraum von etwa 30 Minuten, treten einige UI-Fehler auf:
Das Hauptlogo wird wieder auf das Standardlogo zurückgesetzt
Das Favicon wird wieder auf das Standard-Favicon zurückgesetzt
Die Seite „upcoming-events“, die von discourse-calendar generiert wird, verschwindet (kein Link und 404-Antwort bei Aufruf über URL)
Das benutzerdefinierte Logo, das an discourse-news übergeben wird (mit einer URL), verschwindet
Dann kommt es wieder zurück.
Ich habe nichts in den Logs dazu gefunden.
Meine Browserkonsole zeigt nichts an.
Eine Sache, die ich sagen kann, ist, dass ich während dieser Zeit eine Zunahme der Redis-Cache-Misses feststellen kann.
Kann mir jemand bei der Fehlersuche helfen? Ich weiß nicht einmal, wo ich relevante Protokolle finden kann…
@pfaffman Ich habe aus meiner Sicht die Standardinstallation verwendet.
Außer, dass ich die bereitgestellte Funktion zur Verwendung einer externen Datenbank und Redis genutzt habe.
Aber ich verwende die in der Standardinstallation beschriebene app.yaml und den Docker-Build und -Run.
Ich habe das getan, um Hochverfügbarkeit und verschiedene Skalierungsstrategien bereitstellen zu können: Mit einer vollständig eigenständigen Bereitstellung können Sie nur vertikal skalieren (Ihren Knoten skalieren) und nicht hochverfügbar.
Ich verstehe. Das sollte funktionieren. Meine beste Vermutung ist, dass Sie auf null virtuelle Maschinen herunterfahren und das, was Sie sehen, die gecachte Website in Ihrem Browser ist. Oder auf andere Weise verbindet sich der Lastausgleich nicht mit dem Host. Oder Discourse erhält nicht die echte IP und es gibt eine Ratenbegrenzung (aber normalerweise würden Sie eine Fehlermeldung sehen).
Aber Ihre Hochverfügbarkeitsfunktionen bieten geringe Verfügbarkeit. Es sei denn, Sie gehen von Dutzenden von Benutzern die meiste Zeit zu Tausenden zu anderen Zeiten (wie bei einer Sportseite), dann wird die Skalierung wahrscheinlich mehr Probleme verursachen als lösen.
Das Erste, was ich tun würde, wäre, den Lastausgleich zu entfernen und zu sehen, ob das das Problem behebt. Entscheiden Sie dann, wie Sie weiter vorgehen. Wenn es einmal im Monat vorkommt, ist es nicht einfach zu diagnostizieren.