Hola,
Esta mañana, algunos usuarios me advirtieron de que nuestra instalación de Discourse aparentemente estaba caída, pero cuando la revisé, ya estaba en línea de nuevo. Pude ver varios comportamientos de “desconexión” en mi pila de monitoreo, pero cuando fui a revisar los registros con launcher logs app, parece que se muestran sin fecha ni hora (
) y solo los más recientes, supongo, sin distinción real de la fuente de los registros, ya que hay varios componentes que forman una instalación de Discourse (nginx, redis, psql, etc.).
¿Hay alguna forma de tener registros más precisos o, mejor aún, exponerlos de alguna manera para poder capturarlos con loki / promtail?
Todos los gráficos son de “últimos 5 días”, ya que agregué este monitoreo solo entonces. Esto es lo que puedo ver en mi monitoreo:
Tiempo de actividad del contenedor:
Desde los plugins de discourse-prometheus, muchos “agujeros” que supongo que son de cuando Discourse no responde, ya que coinciden con las notificaciones que recibí de los usuarios esta mañana:
Ampliado las últimas 6 horas para aclarar que esta no es una ventana “pequeña” y definitivamente no es aceptable para los usuarios, por supuesto:
Registros obtenidos con ./launcher logs app
root@vmi1229594:/var/discourse# ./launcher logs app
Se detectó la arquitectura x86_64.
run-parts: executing /etc/runit/1.d/00-ensure-links
run-parts: executing /etc/runit/1.d/00-fix-var-logs
run-parts: executing /etc/runit/1.d/01-cleanup-web-pids
run-parts: executing /etc/runit/1.d/anacron
run-parts: executing /etc/runit/1.d/cleanup-pids
Limpiando archivos PID obsoletos
run-parts: executing /etc/runit/1.d/copy-env
Se inició runsvdir, PID es 41
ok: run: redis: (pid 53) 0s
ok: run: postgres: (pid 55) 0s
supervisor pid: 51 unicorn pid: 87
Cerrando
run-parts: executing /etc/runit/3.d/01-nginx
ok: down: nginx: 0s, normalmente activo
run-parts: executing /etc/runit/3.d/02-unicorn
(51) saliendo
ok: down: unicorn: 1s, normalmente activo
run-parts: executing /etc/runit/3.d/10-redis
ok: down: redis: 0s, normalmente activo
run-parts: executing /etc/runit/3.d/99-postgres
ok: down: postgres: 0s, normally up
ok: down: nginx: 5s, normally up
ok: down: postgres: 0s, normally up
ok: down: redis: 3s, normally up
ok: down: unicorn: 5s, normally up
ok: down: cron: 1s, normally up
ok: down: rsyslog: 1s, normally up
run-parts: executing /etc/runit/1.d/00-ensure-links
run-parts: executing /etc/runit/1.d/00-fix-var-logs
run-parts: executing /etc/runit/1.d/01-cleanup-web-pids
run-parts: executing /etc/runit/1.d/anacron
run-parts: executing /etc/runit/1.d/cleanup-pids
Limpiando archivos PID obsoletos
run-parts: executing /etc/runit/1.d/copy-env
Se inició runsvdir, PID es 35
ok: run: redis: (pid 49) 0s
ok: run: postgres: (pid 48) 0s
supervisor pid: 43 unicorn pid: 81
(43) Reabriendo registros
(43) Reabriendo registros
Cerrando
run-parts: executing /etc/runit/3.d/01-nginx
ok: down: nginx: 0s, normally up
run-parts: executing /etc/runit/3.d/02-unicorn
(43) exiting
ok: down: unicorn: 0s, normally up
run-parts: executing /etc/runit/3.d/10-redis
ok: down: redis: 0s, normally up
run-parts: executing /etc/runit/3.d/99-postgres
timeout: run: postgres: (pid 48) 34983s, want down, got TERM
run-parts: /etc/runit/3.d/99-postgres exited with return code 1
ok: down: nginx: 10s, normally up
ok: down: redis: 8s, normally up
ok: down: unicorn: 10s, normally up
ok: down: cron: 0s, normally up
ok: down: rsyslog: 0s, normally up
kill: run: postgres: (pid 48) 34991s, want down, got TERM
run-parts: executing /etc/runit/1.d/00-ensure-links
run-parts: executing /etc/runit/1.d/00-fix-var-logs
run-parts: executing /etc/runit/1.d/01-cleanup-web-pids
run-parts: executing /etc/runit/1.d/anacron
run-parts: executing /etc/runit/1.d/cleanup-pids
Limpiando archivos PID obsoletos
run-parts: executing /etc/runit/1.d/copy-env
Se inició runsvdir, PID es 35
fail: redis: runsv no está en ejecución
ok: run: redis: (pid 53) 1s
ok: run: postgres: (pid 48) 1s
supervisor pid: 79 unicorn pid: 83
(79) Reabriendo registros
Cerrando
run-parts: executing /etc/runit/3.d/01-nginx
ok: down: nginx: 0s, normally up
run-parts: executing /etc/runit/3.d/02-unicorn
(79) exiting
ok: down: unicorn: 0s, normally up
run-parts: executing /etc/runit/3.d/10-redis
ok: down: redis: 0s, normally up
run-parts: executing /etc/runit/3.d/99-postgres
ok: down: postgres: 0s, normally up
ok: down: nginx: 5s, normally up
ok: down: postgres: 0s, normally up
ok: down: redis: 3s, normally up
ok: down: unicorn: 5s, normally up
ok: down: cron: 1s, normally up
ok: down: rsyslog: 1s, normally up
run-parts: executing /etc/runit/1.d/00-ensure-links
run-parts: executing /etc/runit/1.d/00-fix-var-logs
run-parts: executing /etc/runit/1.d/01-cleanup-web-pids
run-parts: executing /etc/runit/1.d/anacron
run-parts: executing /etc/runit/1.d/cleanup-pids
Limpiando archivos PID obsoletos
run-parts: executing /etc/runit/1.d/copy-env
Se inició runsvdir, PID es 34
ok: run: redis: (pid 49) 0s
ok: run: postgres: (pid 44) 0s
supervisor pid: 41 unicorn pid: 80
(41) Reabriendo registros
(41) Reabriendo registros
(41) Reabriendo registros
(41) Reabriendo registros
(41) Reabriendo registros








