2.6.0b2 Upgrade SEHR langsam

Wingtip · 21. August 2020 um 00:58

Nur als Info für alle: Versucht dieses Upgrade nicht zur Hauptverkehrszeit.

Das Upgrade auf 2.6.0b2 läuft auf unserem Server bereits seit weit über 40 Minuten, obwohl es normalerweise nur ein paar Minuten dauert und meist schon abgeschlossen ist, bevor man wieder nachschaut. Ich war besorgt, es könnte kaputt sein, aber beim Einloggen in Postgres sehe ich, dass eine riesige Aktualisierung läuft. Es scheint, als würde die Suchdaten für private Nachrichten aktualisiert.

Hoffentlich ist es nicht kaputt. Ich werde es wohl herausfinden. Ich will es auf keinen Fall abbrechen oder den Container während des Upgrades neu starten.

Ausgeführte Abfrage:

postgres=# SELECT pid, age(clock_timestamp(), query_start), usename, query 
FROM pg_stat_activity 
WHERE query != '<IDLE>' AND query NOT ILIKE '%pg_stat_activity%' 
ORDER BY query_start desc;
  pid  |       age       |  usename  |                                            query                          
                   
-------+-----------------+-----------+---------------------------------------------------------------------------
-------------------
   698 |                 |           | 
   701 |                 | postgres  | 
   699 |                 |           | 
   697 |                 |           | 
   696 |                 |           | 
 14572 | 00:10:31.484201 | discourse | UPDATE post_search_data                                                   
                  +
       |                 |           | SET private_message = X.private_message                                   
                  +
       |                 |           | FROM                                                                      
                  +
       |                 |           | (                                                                         
                  +
       |                 |           |   SELECT post_id,                                                         
                  +
       |                 |           |     CASE WHEN t.archetype = 'private_message' THEN TRUE ELSE FALSE END pri
vate_message      +
       |                 |           |   FROM posts p                                                            
                  +
       |                 |           |   JOIN post_search_data pd ON pd.post_id = p.id                           
                  +
       |                 |           |   JOIN topics t ON t.id = p.topic_id                                      
                  +
       |                 |           |   WHERE pd.private_message IS NULL OR                                     
                  +
       |                 |           |     pd.private_message <> CASE WHEN t.archetype = 'private_message' THEN T
RUE ELSE FALSE END+
       |                 |           |   LIMIT 3000000                                                           
                  +
       |                 |           | ) X                                                                       
                  +
       |                 |           | WHERE X.post_id = post_search_data.post_id                                
                  +
       |                 |           | 
 14573 | 00:47:02.814489 | discourse | SELECT pg_try_advisory_lock(2859260972035668690)
(7 rows)

Wingtip · 21. August 2020 um 01:02

Das Upgrade ist gerade erfolgreich abgeschlossen, als meine Panik ihren Höhepunkt erreichte. Gute Zeiten, gute Zeiten.

codinghorror · 21. August 2020 um 01:04

Das Upgrade war auch auf schneller, colokierter Hardware für mich ziemlich langsam. Ich bin mir nicht ganz sicher, warum, aber es ist definitiv etwas, das man beachten sollte.

Wingtip · 21. August 2020 um 01:09

Ja, ich schlage vor, im Changelog einen Hinweis zu hinterlassen, der warnt, dass dieses Update wahrscheinlich viel länger als die meisten anderen dauern wird, und dass man es nicht abbrechen oder drastische Maßnahmen ergreifen sollte, da dies erwartet wird.

tgxworld · 21. August 2020 um 01:52

@Wingtip Kann ich die Anzahl der Beiträge auf deinem Forum überprüfen? Leider wird dies bei Seiten mit einer großen Anzahl von Beiträgen langsam sein.

Wingtip · 21. August 2020 um 02:08

Ja, wir haben über 5 Millionen.

codinghorror · 21. August 2020 um 02:18

Meine lokale Site hatte nicht so viele Beiträge und war dennoch ziemlich langsam. Nicht 40 Minuten langsam, aber merklich langsamer als bei früheren Upgrades, vielleicht um das 3- bis 4-fache?

neounix · 21. August 2020 um 02:54

FWIW:

Gerade neu aufgebaut und läuft jetzt auf 2.6.0.beta2 ( 2aa1482421 )

Der Build-Prozess war auf unserem Server nicht merklich langsamer.

Paracelsus · 21. August 2020 um 06:42

Danke @Wingtip, ich dachte, das passiert nur bei uns!

Eigentlich musste ich den Neuaufbau abbrechen und die App neu starten, weil ich dachte, sie sei bei der von dir erwähnten Abfrage hängengeblieben. Wir haben 6 Millionen Beiträge, und nach etwa 45 Minuten war der Vorgang immer noch nicht abgeschlossen. Ich werde also wohl für mindestens eine Stunde Neuaufbau Zeit einplanen und unsere Nutzer vorher warnen müssen.

jomaxro · 21. August 2020 um 11:16

Hinweis: In den Release Notes wurde ein Hinweis zur verlängerten Zeit für das Docker-Manager-Update und/oder das Neustarten über SSH hinzugefügt.

neounix · 21. August 2020 um 11:38

Ich habe gerade eine Stoppuhr gezückt und einen Neuaufbau getestet (eine Site mit etwa 1 Million Beiträgen) von 2.6.0b1 auf b2; von Anfang bis Ende dauerte es 170 Sekunden.

Dies ist mein zweiter Neuaufbau heute, von b1 auf b2, und alles scheint in Ordnung zu sein, ohne merkliche Unterschiede in der Build-Geschwindigkeit.

Hinweis: Wir upgraden immer über die Kommandozeile und verwenden nicht die Benutzeroberfläche.

AntiMetaman · 21. August 2020 um 11:44

Ich benutze den Docker-Manager ebenfalls nicht und bevorzuge das Neuaufbauen über die Kommandozeile. So kann man im Fehlerfall besser die Protokolle einsehen. Ich finde es auch schneller.

Wingtip · 21. August 2020 um 12:00

Ja, es scheint, dass dies hauptsächlich ein Problem bei Foren mit vielen Beiträgen ist.

Wingtip · 21. August 2020 um 13:15

Ich habe (in meinem Irrtum) über die Webkonsole aktualisiert, sodass ich die ganze Zeit kein aktuelles Log hatte. Das werde ich mir zum letzten Mal als Fehler anrechnen.

pfaffman · 21. August 2020 um 16:20

Ich hatte eine große Site, die wiederholt beim Bootstrapping gescheitert ist. Es handelt sich um eine Installation mit zwei Containern, sodass der alte Container weiterlief, während das Bootstrap die Migration durchführte. Schließlich habe ich das Problem gelöst, indem ich SKIP_POST_DEPLOYMENT_MIGRATIONS=1 für das Bootstrap aktiviert und die Migrationen erst ausgeführt habe, nachdem der neue Container hochgefahren war. Mit SKIP_POST_DEPLOYMENT_MIGRATIONS=1 im ENV-Abschnitt war die Migration sehr schnell, und die Site konnte während der Migration (die, glaube ich, über 20 Minuten dauerte) normal funktionieren, wenn auch möglicherweise etwas langsamer.

Ich denke, habe es aber noch nicht getestet, dass derselbe Trick auch die Ausfallzeit bei einer Installation mit einem einzigen Container minimieren würde. Wenn ich recht habe, würde man folgendermaßen vorgehen:

SKIP_POST_DEPLOYMENT_MIGRATIONS=1 in deine app.yml einfügen
./launcher rebuild app ausführen
./launcher enter app ausführen
SKIP_POST_DEPLOYMENT_MIGRATIONS=0 rake db:migrate ausführen
Die Änderung in app.yml rückgängig machen, es sei denn, du planst, nach jedem Upgrade die Migrationen manuell durchzuführen
Vielleicht erneut neu aufbauen, um sicherzustellen, dass du keine Probleme hast, solange du noch weißt, was deine Site beschädigt haben könnte. Denn wenn du es erst in vier Monaten wieder versuchst, wirst du keine Ahnung haben, und es wird für jeden schwer sein, das Problem zu erraten.

Wenn es eine Möglichkeit gäbe, ./launcher so zu konfigurieren, dass es SKIP_POST_DEPLOYMENT_MIGRATIONS=1 an die entsprechenden Prozesse übergibt, ohne eine Änderung an der app.yml vorzunehmen, wäre das für diejenigen, die mit Editoren Schwierigkeiten haben, weniger umständlich.

Wenn ich es schaffe, die Arbeit daran zu erledigen, die ich vorhatte, werde ich ein neues Thema erstellen und berichten, was ich herausgefunden habe. Der Rauch hat mich jedoch in einen Raum eingesperrt, in dem ich meinen großen Monitor nicht habe. (Die Pandemie reichte also nicht? Wir müssen auch noch Rauch ertragen? Und ich bin dem verdammten Feuer nicht einmal besonders nahe.)

riking · 21. August 2020 um 23:39

Gute Idee, ich habe das umgesetzt:

github.com/discourse/discourse_docker

FEATURE: Add easy mechanism for skipping post-deployment migrations (#481)

master ← riking:patch-5

closed 01:19AM - 02 Oct 20 UTC

riking

+8 -0

This will help self-hosters avoid longer downtime when a large post-deployment m…igration is pending. Usage: ``` ./launcher rebuild app --skip-post-migrations ./launcher enter app SKIP_POST_DEPLOYMENT_MIGRATIONS=0 rake db:migrate exit ./launcher restart app ``` (Note: the 'restart' clears the temporarily-set environment variable, so future web upgrades will correctly apply post-deployment migrations.) https://meta.discourse.org/t/2-6-0b2-upgrade-very-slow/161604/19?u=riking

pfaffman · 21. August 2020 um 23:42

Das sind fantastische Neuigkeiten! (Zwei andere Projekte haben mir heute in die Quere gekommen und irgendwie funktioniert meine Multisite-Instanz nicht mehr richtig mit S3 zusammen. ) Vielen Dank!

Wingtip · 22. August 2020 um 04:35

Gibt es einen technischen Grund, warum Datenbankänderungen nach dem Upgrade standardmäßig blockierend sein müssen? Gibt es eine Möglichkeit, dieses Verhalten so zu ändern, dass der Server nach zukünftigen Upgrades schnell wieder verfügbar ist und die nachgelagerten Schritte im Hintergrund ausgeführt werden?

Meiner Meinung nach sollten alle für die Funktionsfähigkeit der aktualisierten Anwendung essenziellen Änderungen, wie z. B. DDL, direkt Teil des Upgrades selbst sein und nicht in nachgelagerten Skripten stehen.

Paracelsus · 22. August 2020 um 06:47

Wir haben unsere Neugestaltung vor sieben Stunden über die Kommandozeile gestartet! Und sie läuft immer noch… Sie ist immer noch da:

Irgendwelche Ideen?

Edit: Inzwischen habe ich den Prozess beendet, damit die Seite wieder für unsere Nutzer verfügbar ist. Aber es muss einen besseren Weg geben, dieses Update durchzuführen.

pfaffman · 22. August 2020 um 09:04

Haben Sie eine große Datenbank?

Thema		Antworten	Aufrufe
2.6.0 beta 3 update failed on disk and/or memory space Self-hosting server-resources	29	2564	26. Oktober 2020
An upgrade knocked my site offline; how long until it's restored? Self-hosting	16	378	9. August 2025
Upgrade failed spectacularily Support	25	751	10. Februar 2025
Problem rebuilding because of slow database shutdown Self-hosting	26	1172	25. April 2023
Discourse upgrade via Web UI Fails & SSH Upgrade Brings Down Discourse Instance Self-hosting	17	2035	26. November 2021

2.6.0b2 Upgrade SEHR langsam

Verwandte Themen