Heroku Postgres の論理バックアップ
この記事の英語版に更新があります。ご覧の翻訳には含まれていない変更点があるかもしれません。
最終更新日 2024年04月24日(水)
Table of Contents
論理バックアップを取得すると、Heroku Postgres データベースから単一のスナップショットファイルが作成されます。すべての Heroku Postgres データベースは継続的な物理バックアップによって保護されますが、論理バックアップはデータの可搬性に関してより柔軟性があります。
物理バックアップとは異なり、論理バックアップはデータベースリソースをアプリケーションコードと共有するため、自動的には取得されません。この記事では、データベースのパフォーマンスへの影響を最小限に抑えて論理バックアップを実行する方法について説明します。
論理バックアップのしくみ
論理バックアップは、pg_dump
を使用して取得されます。バックアップは、ダンプファイルの形式に応じて、pg_restore
または psql
を使用して復元できます。
pg_dump
は、データベース全体で一貫したスナップショットを生成するために、Postgres 接続を使用して 1 つのトランザクションで一連の SQL COPY
ステートメントを実行します。pg_dump
が生成するファイルは、データベースのサイズよりもはるかに小さいサイズです。これにはライブデータセットとインデックスの再作成方法の説明のみが含まれ、インデックス自体は含まれていません。
スクリプト形式のダンプは、psql
を使用して復元することによって取得時にデータベースを再構築するために使用される、SQL コマンドのプレーンテキストファイルです。
アーカイブファイル形式は、スクリプト形式より柔軟かつ高性能です。カスタム形式では、アーカイブされたすべての項目の圧縮や便宜的な並べ替えが可能になります。pg_restore
を使用して、アーカイブファイル形式を復元できます。この記事では、アーカイブされた圧縮形式のバックアップに焦点を当てています。
論理バックアップのパフォーマンスへの影響
pg_dump
への影響は、データベースのサイズとともに悪化します。想定外の不具合を回避するには、データベースのパフォーマンスとバックアップ要件のバランスをとることが必要です。
pg_dump
を実行すると、データベースに多くの影響があります。
- できるだけ多くのファイルシステム I/O を消費し、並列に実行されているクエリとの間でリソースを求めて競合が発生します。
- スキーマの変更など、排他ロックを必要とする他の操作を妨げます。
- 実行時間の長いトランザクションは、自動バキュームがそれらのトランザクションに表示される行をフリーズできないようにするため、
VACUUM
およびその他の自動メンテナンスプロセスは一時停止されます。 - キャッシュされたデータを OS およびファイルシステムのキャッシュから削除します。
Heroku PGBackups を使用した小さなデータベースでの論理バックアップの取得
Heroku Postgres には、CLI を使用して論理バックアップを手動で取得またはスケジュールするための pg:backups
コマンドが付属しています。これは、背後で pg_dump
を実行し、pg_restore
で復元できるアーカイブファイルを作成します。pg:backups
を使用して取得されたすべてのバックアップは、データベースのある場所にかかわらず米国内で保管されます。
Heroku PGBackups は、20 GB までのデータベースでのみ使用してください。より大規模なデータベースをバックアップするために必要な I/O、メモリ、および CPU の競合は、法外なものになり、バックアップの取得を早い段階で終了させる可能性があります。
詳細は、「Heroku PGBackups」を参照してください。
より大規模なデータベースでの論理バックアップの取得
適度な CPU 負荷がかかった状態での大規模なデータベースの頻繁な論理バックアップは、低速で、他のクエリのパフォーマンスを低下させ、必要なメンテナンス操作の実行を妨げる可能性があります。
20 GB を超えるデータベースの場合は、Heroku Postgres データベースの短期間のフォークに対して論理バックアップを取得します。フォークから論理バックアップを取得すると、元のデータベースのパフォーマンスが保持され、ダンプを成功させるために必要なだけ多くのリソースをバックアップ操作で消費できるようになります。
Heroku Postgres データベースの短期間のフォークを作成します。
pg_dump
コマンドを実行するスクリプトを作成し、バックアップファイルを選択した宛先に転送します。次のpg_dump
コマンドは、Heroku PGBackups 出力と同じ形式のバックアップファイルを作成します。
pg_dump -F c --no-acl --no-owner --quote-all-identifiers $FORKED_DATABASE_URL
ダンプの完了後にスクリプトにバックアップファイルの転送が含まれていること、および pg_dump
コマンドがフォークされたデータベースを指していることを確認してください。オプションで --jobs
フラグを使用すると、ダンプ操作を並列化できます。--compress
フラグを使用して圧縮量を調整することもできます。公式の Postgres ドキュメントでその他の設定オプションを参照してください。
ファイルをアプリにアップロードして、One-off dynos にアクセスできるようにします。
データベースと同じリージョンにある、分離された One-off dyno でスクリプトを実行します。十分な計算能力を提供するには、Performance-L、Private-L、または Shield-L dyno をお勧めします。たとえば、
heroku run:detached --app example-app-name --size=performance-L script.sh
です。
一部のデータベースは、バックアップファイルの実行と転送には大きすぎて、One-off dyno の 24 時間の制限内では完了できません。これらのデータベースの場合、Postgres 接続文字列を取得して Heroku の外部でスクリプトを実行できます。Shield または Private データベースを使用している場合は、外部接続を容易にするために PrivateLink または mTLS も使用する必要があります。
別のリージョンのストレージ用の論理バックアップの取得
Heroku PGBackups によって取得されたすべてのバックアップは、米国に保管されます。自分で pg_dump
を実行して、バックアップを取得して別の場所に保存できます。「より大規模なデータベースでの論理バックアップの取得」のセクションの手順に従ってください。
論理バックアップの復元
ターゲットデータベースは、復元プロセスが実行される前に削除されることに注意してください。
heroku pg:backups:restore
コマンドは、pg_restore
アプリケーションを実行し、Heroku で実行されている dyno がアクセスできるダンプファイルを取得して、Heroku Postgres データベースに復元します。
pg_restore
は、Postgres 接続を使用してダンプを Postgres データベースにロードします。復元によって、必要なスキーマの作成、COPY
コマンドによるデータのロード、制約の追加、およびソースデータベースからダンプされたインデックスとトリガーの作成が行われます。これらの操作は、通常の操作での復元されたデータの書き込み、処理、変更のためにそれぞれがディスク I/O と計算を必要とするため、低速になることがあります。
復元の特定の部分は、並列接続を介して実行できます。heroku pg:backups:restore
の代わりに pg_restore
コマンドを使用して One-off dyno で pg_restore
を実行する場合は、--jobs
フラグを含めることで並列接続を実行できます。各ジョブは 1 つのプロセスであるため、データベースインスタンスの vCPU ごとに複数のジョブを実行することはお勧めできません。たとえば、Standard-4 データベースには 4 つの vCPU があるため、リソースの競合やパフォーマンスの低下を回避するために、最大 4 つのジョブで pg_restore
を実行します。
Heroku Postgres データベース間での論理バックアップの直接転送
heroku pg:copy
は専用の dyno を使用して pg_dump
の出力を pg_restore
に直接パイプします。これにより、ダンプファイルを Heroku の外部にある場所に転送する必要がなくなります。このデータ転送は、転送をより明確に可視化できるように、pv
(パイプビューアー) 経由でもパイプされます。pg:copy
の詳細は、Heroku Postgres データベースのアップグレードの記事を参照してください。
pg:copy
メソッドでは、データベース 1 GB あたり約 3 分のアプリのダウンタイムが必要です。大規模なデータベースの場合は、代わりにより大規模なデータベースでの論理バックアップの取得の手順に従うことをお勧めします。
pg:copy
の実行の最後でのインデックスの作成、制約の追加、その他のチェックは、pv
のログには反映されません。転送がハングしているように見える場合がありますが、バックグラウンドで機能しています。