`/srv/status` gibt OK zurück, selbst wenn die Datenbank defekt ist

pfaffman · 17. Juli 2020 um 20:09

Bei einem Upgrade einer Installation mit zwei Containern ist heute Morgen etwas schiefgelaufen. Beim Bootstrapping eines neuen Containers wurde die Datenbank in einen defekten Zustand migriert (vielleicht wäre das nicht passiert, wenn ich SKIP_POST_DEPLOYMENT_MIGRATIONS=1 verwendet hätte, aber das ist ein anderes Thema), sodass der laufende Container die Meldung „Hoppla, diese Site ist defekt

codinghorror · 17. Juli 2020 um 23:17

Wie genau war es kaputt? Können Sie genauer sein? Wie sah die Startseite aus?

michaeld · 18. Juli 2020 um 01:48

Ja, ‘ok’ bedeutet, dass der Unicorn läuft. Du kannst Postgres und Redis herunterfahren, und es zeigt trotzdem ‘ok’ an, wenn ich mich richtig erinnere.

pfaffman · 18. Juli 2020 um 01:53

Ich bin mir ziemlich sicher, dass das richtig ist. Es ergibt Sinn, es ist nur nicht das, was ich dachte.

codinghorror · 18. Juli 2020 um 01:54

Ich bin mir nicht sicher, wie der aktuelle Stand dazu ist @sam @eviltrout? Ich erinnere mich vage an eine frühere Diskussion darüber.

michaeld · 18. Juli 2020 um 02:06

Ja, es wird weder Redis noch PG geprüft. Ich glaube, wir nutzen ein Plugin, das User.find(1) und $redis.get verwendet. Das erfasst auch den Fall von @pfaffman nicht, aber das könnte etwas übertrieben sein – man kann nicht erwarten, dass hier eine vollständige Datenbankkonsistenzprüfung durchgeführt wird.
discourse/app/controllers/forums_controller.rb at main · discourse/discourse · GitHub

riking · 18. Juli 2020 um 02:27

Der Endpunkt /srv/status prüft nur den lokalen Prozess, nicht aber Abhängigkeiten. „Ist der HTTP-Stack hängengeblieben?" sowie „Bin ich im Lame-Duck-Modus?". In der Kubernetes-Terminologie handelt es sich hierbei um die livenessProbe, nicht um die readinessProbe.

Wenn wir eine readinessProbe einführen möchten, sollte diese unter einer anderen URL liegen.

Wahrscheinlich Discourse.system_user.id statt 1.

Thema		Antworten	Aufrufe
How to test /srv/status Support	1	730	17. März 2021
Health check API Feature	9	2561	28. Januar 2020
`/srv/status` monitoring endpoint doesn't catch some service unavailability issues - one example free space Feature	14	1554	26. April 2017
What URL should we monitor to be sure Discourse is up Support	3	1572	25. April 2016
502 bad gateway with clean rebuild and no plugins except discourse docker Self-hosting	5	425	14. Februar 2024

`/srv/status` gibt OK zurück, selbst wenn die Datenbank defekt ist

Verwandte Themen