復元時に失敗しないように、重複キータグを削除するためにバックアップ内のデータベースを変更する

Drew-ART · 2023 年 8 月 22 日午後 8:01

andy@ubuntu-s-1vcpu-1gb-ams3-01:/var/discourse/shared/standalone/backups/default$ file public-happiness-2023-07-25-033857-v20220628031850.tar.gz
public-happiness-2023-07-25-033857-v20220628031850.tar.gz: gzip compressed data, was "public-happiness-2023-07-25-033857-v20220628031850.tar", last modified: Tue Aug  8 14:53:40 2023, max speed, from FAT filesystem (MS-DOS, OS/2, NT)

ファイルの内容全体は問題なさそうですが、情報量が多いので断定するのは難しいです: Hastebin

pfaffman · 2023 年 8 月 22 日午後 8:09

ファイルパスが原因だと思います。以下をご覧ください。

github.com/discourse/discourse

lib/backup_restore/backuper.rb

main


      
          
          tar_filename = "#{@archive_basename}.tar"
          
          log "Making sure archive does not already exist..."
          Discourse::Utils.execute_command("rm", "-f", tar_filename)
          Discourse::Utils.execute_command("rm", "-f", "#{tar_filename}.gz")
          
          log "Creating empty archive..."
          Discourse::Utils.execute_command(
            "tar",
            "--create",
            "--file",
            tar_filename,
            "--files-from",
            "/dev/null",
          )
          
          log "Archiving data dump..."
          Discourse::Utils.execute_command(
            "tar",
            "--append",

うーん。それが問題ではないかもしれません。私は 7zip が互換性のある tar ファイルを作成できることをほとんど信頼していませんが、それは非合理的かもしれません。

  -h, --dereference
              シンボリックリンクをたどります。それらが指すファイルをアーカイブおよびダンプします。

答えは上記のファイルにあるかもしれません。実際には、同じディレクトリにある別のファイルにある可能性が高いです。

Ed_S · 2023 年 8 月 22 日午後 9:11

ありがとうございます。内容は正しいのですが、名前が間違っていると思います。それが問題の原因です。

-rwxrwxrwx 0/0        26927534 2023-08-08 14:37 public-happiness-2023-07-25-033857-v20220628031850/dump.sql.gz

となっているところを、

-rwxrwxrwx 0/0        26927534 2023-08-08 14:37 dump.sql.gz

とする必要があります。

編集：したがって、tar.gz ファイルを作成する際に 7zip の動作を少し変更する必要があります。

Drew-ART · 2023 年 8 月 25 日午後 4:31

ご協力ありがとうございます。ファイルを解凍し、重複タグを再度編集してから、非常に注意深く再圧縮しました。ファイル名に細心の注意を払ったところ、進展がありました！

現在、復元中にこのエラーメッセージが表示されます。これはより一般的であるようです。

[2023-08-25 15:25:21] CREATE INDEX
[2023-08-25 15:25:21] ERROR:  could not create unique index "index_tags_on_lower_name"
[2023-08-25 15:25:21] DETAIL:  Key (lower(name::text))=(socialmedia) is duplicated.
[2023-08-25 15:25:21] EXCEPTION: psql failed: DETAIL:  Key (lower(name::text))=(socialmedia) is duplicated.

タグは正常に変更されたようですが、データベースの投稿にはまだタグのインスタンスがいくつか残っていることを意味すると思います。タグID番号は、socialmedia という名前のタグがあるはずですが、代わりに socialmedia2 という名前のタグが見つかり、競合が発生していることを示しています。

この投稿とこちらの投稿では修正について議論されていますが、バックアップにアクセスできるのはローカルマシンでコードを直接編集する場合のみなので、mysqlツールを使用してクリーンアップすることはできません。

幸いなことに、私のデータベースには 'socialmedia' のインスタンスが 38 個しかありません（50,000 を超える socialmedia の出現回数とは対照的です）。上記のようにスクリーンショットを撮った 395421 行目のものを変更したのが正しいと仮定すると、残りのインスタンスのうち、‘socialmedia’ タグに関連付けられているものと、‘socialmedia2’ に編集したタグに関連付けられているものを区別する方法がわかりません。

以下は、socialmedia タグを使用した比較的短い投稿の例です。

9488	'/groups/communitybuilders':86 '/groups/socialmedia':84 '/groups/webdev':89 '1st':117 '2022':131 '6':125 'activ':61 'banner':113 'btw':143 'close':169 'comment':21 'communiti':47 'communitybuild':87 'concept':4A 'especi':28 'event':119 'excit':164 'feedback':8B 'final':166 'get':38,133 'github':94 'grow':6A,142 'hack':127 'hard':156 'help':96 'homepag':151 'host':124 'improv':11B 'join':71,106 'launch':41,118,126 'like':128 'link':110 'live':140,175 'lot':27 'love':1A,67 'marvelxi':152 'mean':25 'media':51 'member':62 'mention':93 'move':45 'much':15 'new':150 'one':72,107 'onto':53 'plan':121 'platform':7B,43,139 'pleas':5A 'project':137 'promot':97 're':33,36,56,161 'readi':39,172 'rhorho358':23 'right':63 'see':100,167 'site':176 'slight':76,177,179 'small':58 'smile':77,178,180 'social':50 'socialmedia':85 'stage':31 'suggest':10B 'sure':79 'take':17 'team':59,75,103 'thank':12 'think':147 'time':19 'use':108 'webdev':90 'websit':3A 'whether':80 'work':155 'would':66,82	Thank you so much for taking the time to comment here @R , it means a lot, especially in the st... has been working hard on it and we’re all very excited to finally see it close to being ready on the live site :slight_smile: :slight_smile:	en_GB	4	f

しかし、投稿でユーザーが使用する可能性のあるタグよりも多くのタグが先頭にあるように見えるため、私は間違った方向に進んでいる可能性があります。また、上記の投稿では ‘socialmedia’ がタグとして使用されていない可能性もありますが、使用されているはずです。

pfaffman · 2023 年 8 月 26 日午前 1:49

データベースを手動で復元し、インデックスを追加して、テキストファイルではなくデータベースの問題を修正することをお勧めしますが、それも困難です。

merefield · 2023 年 8 月 26 日午前 6:02

それがすぐに導き出せる結論ではないと思います。問題は単純なはずです。

インデックスが作成されない理由は、tagsテーブルに少なくとも2つのエントリがあり、それらの名前を小文字にしたときに同じものになるためです。エラーメッセージはそれを伝えています。

したがって、その変換を行う際に競合する単一テーブル内の関連エントリを見つける必要があると思います。

github.com/discourse/discourse

app/models/tag.rb

1209efb63


      
          #  created_at         :datetime         not null
          #  updated_at         :datetime         not null
          #  pm_topic_count     :integer          default(0), not null
          #  target_tag_id      :integer
          #  description        :string
          #  public_topic_count :integer          default(0), not null
          #  staff_topic_count  :integer          default(0), not null
          #
          # Indexes
          #
          #  index_tags_on_lower_name  (lower((name)::text)) UNIQUE
          #  index_tags_on_name        (name) UNIQUE
          #

また、投稿にはタグ付けされず、トピックにタグ付けされます。

重複を削除する前に、そのIDをメモしておいてください。topic_tagsテーブルからも関連する行を削除する必要があるためです（コンテナを再起動するだけで、このすべてのメンテナンスをオンラインで実行していれば、すぐに処理できたはずです。インスタンスを破棄するのではなく!!）。

github.com/discourse/discourse

app/models/topic_tag.rb

1209efb63


      
              end
            end
          end
          
          # == Schema Information
          #
          # Table name: topic_tags
          #
          #  id         :integer          not null, primary key
          #  topic_id   :integer          not null
          #  tag_id     :integer          not null
          #  created_at :datetime         not null
          #  updated_at :datetime         not null
          #
          # Indexes
          #
          #  index_topic_tags_on_topic_id_and_tag_id  (topic_id,tag_id) UNIQUE
          #

Drew-ART · 2023 年 8 月 30 日午前 8:33

サイトが復旧しました！ご協力いただいた皆様、ありがとうございました。

どうやら数日前に解決していたようですが、エラーメッセージを注意深く読んでいませんでした。‘socialmedia’ と ‘social-media’ という2つの重複タグがありました。最初のタグを修正した後、2つの重複タグが非常に似ていたため、エラーメッセージが変わったことに気づきませんでした。

以下は、これらの2つのエラーを修正するプロセスです。

1. タグテーブルと重複タグの検索

バックアップをオペレーティングシステムにダウンロードします。このガイドはWindows用ですが、Linuxでも同様のプロセスになります。
すべてのzipフォルダを展開すると、dump.sqlファイルとuploadsフォルダが残ります。
dump.sqlファイルをテキストエディタで開きます。私はVisual Studio Codeを使用しました。
「COPY public.tags」を検索してタグテーブルを見つけます。これは下部にあり、次のように表示されるはずです。

手動でブラウズするか、タグテーブルを別のドキュメントにコピー＆ペーストして検索機能を使用し、重複タグを見つけます。
修正したdump.sqlファイルをdump.sqlとして保存します。

2. ファイルとフォルダの順序と名前は、再zipする際に完璧でなければなりません。

展開後、dump.sqlファイルとuploadsフォルダがあるはずです。
dump.sqlを右クリックします。「7zip」を選択し、「アーカイブに追加」を選択します。
アーカイブ形式としてgzipを選択し、ファイル名は元のままにします。
新しいdump.sql.gzファイルとuploadsファイルを選択し、右クリック > 7zip > アーカイブに追加 > アーカイブ形式: tar を選択します。ファイル名は元のバックアップとまったく同じであることを確認してください。‘public-happiness-2023-07-25-033857-v20220628031850’ のようなものになるはずです。
新しい.tarファイルを選択 > 7zip > アーカイブに追加 > アーカイブ形式: gzip を選択します。ファイル名は元のバックアップとまったく同じであることを確認してください。‘public-happiness-2023-07-25-033857-v20220628031850’ のようなものになるはずです。
最終結果は、元のバックアップと同じ名前の.tar.gzファイルになるはずです。
管理エリアにアップロードしてバックアップを復元します。

Drew-ART · 2023 年 8 月 30 日午前 8:39

タグが繰り返されている可能性のあるもう1つの場所は、検索データテーブルです。

COPY public.tag_search_data (tag_id, search_data, raw_data, locale, version) FROM stdin;

これも修正する必要があるかどうかは不明です。

pfaffman · 2023 年 8 月 30 日午前 10:21

直ったんですね！本当によかったです！

トピック		返信	表示
SQL Error during import Self-hosting	18	2409	2015 年 5 月 3 日
Can't restore due to corrupt indexes (with some clues on how to deal with corrupt indexes) Self-hosting	12	4803	2020 年 1 月 6 日
Problems while updating from 3.0.0 to 3.0.1 Self-hosting	16	1340	2023 年 6 月 14 日
Problem with restore Discourse from backup (3.4, quite large DB) Support	17	375	2025 年 1 月 14 日
Error restoring backup "key is duplicated" Self-hosting	7	1882	2017 年 8 月 30 日

復元時に失敗しないように、重複キータグを削除するためにバックアップ内のデータベースを変更する

関連トピック