Heroku Postgres での高可用性
最終更新日 2022年11月21日(月)
Table of Contents
Premium、Private および Shield 層プランのすべてのプライマリデータベースには、高可用性 (HA) 機能が付属しています。 このデータベースクラスタおよび管理システムは、場合によりダウンタイムの長期化につながりかねないハードウェアまたはソフトウェアの障害に対してデータベースの可用性を高めるよう設計されています。この機能を持つプライマリデータベースは、障害が発生すると、スタンバイと呼ばれる別のレプリカデータベースに自動的に置き換えられます。
Premium、Private および Shield 層プランのフォロワーデータベースは、リーダーデータベースをフォロー解除しないかぎり非表示のスタンバイを持つことはありません。フォロワーデータベースに高可用性が必要な場合、複数のフォロワーを設定してください。
その結果、障害が発生したデータベースインスタンスは破棄され、スタンバイが再構成されます。
この状態が発生すると、少量 (ただし、制限された量) の最近コミットされたデータが失われる可能性があります。
フェイルオーバーイベントが発生した場合は、DATABASE_URL
および HEROKU_POSTGRES_*_URL
環境設定の値が変更される可能性があります。Heroku の外部からこのデータベースに接続している場合は、資格情報を正しく設定していることを確認してください。
フォロワーと同様に、HA スタンバイは、アベイラビリティ―ゾーン (AZ) 全体にわたる障害から保護するために、異なる AZ に物理的に配置されます。
スタンバイノードは、アプリケーションから見えません。水平方向の読み取りスケーリングまたはレポートのためにフォロワーが必要な場合は、プライマリの新しい Standard 層のフォロワーデータベースを作成してください。
フェイルオーバー条件
突然発生するフェイルオーバーによく見られる問題を防ぐために、フェイルオーバーに適切に対応するための一連のチェックが実行されます。これらのチェックは数秒ごとに実行され、SSH プロトコルを使用して、基礎となるホストとの接続の確立が行われます。ただし、何らかの理由で PostgreSQL プロセスのみが使用不可になった場合、フェイルオーバーは不要で、代わりにそのプロセスがブートされて元の使用可能な状態に戻されるだけであるため、可能であれば常にダウンタイム期間がさらに短くなります。
システムで最初に問題が検出されると、複数のネットワークの場所にまたがって 2 分間いくつかのチェックを実行して、データベースが間違いなく使用不可であることを確認します。こうすることで、一過性の問題によりフェイルオーバーがトリガーされることを防ぎます。
フォロワーと同様に、スタンバイは非同期的に最新の状態に維持されます。つまり、データがプライマリデータベースではコミットされるが、スタンバイではまだされない可能性があります。データ損失を最小限に抑えるために、次の 2 つの重要な手順を実行します。
- スタンバイが 10 セグメントを超えて遅れている場合は、フェイルオーバーを試行しません。つまり、可能性のある最大の損失は 160 MB または 10 分のうちの少ない方です。
- 10 セグメントのうちのいずれかが継続的保護を使用して正常にアーカイブされたが、2 分の確認期間中に適用されない場合は、スタンバイを読み取り専用モードから移行する前に、それが確実に適用されるようにします。
通常、コミットされたデータの損失はほとんどありません。
メモリ不足の状態や並列接続の枯渇は、フェイルオーバー条件としては扱われません。これらの状態はアプリケーションの動作によって発生するため、フェイルオーバー後も保持される可能性があります。
フェイルオーバー後
正常なフェイルオーバーの後、次のいくつかの点に注意する必要があります。
- データベースの URL が変更されるため、アプリは新しい資格情報で自動的に再起動します。
- 新しいデータベースのキャッシュはコールドになるため、アプリケーションのパフォーマンスが短期間だけ低下する可能性があります。これは、通常の使用を通して自然に解決されます。
- 新しいスタンバイが自動的に作成されるため、それが使用可能になってフェイルオーバー条件を満たすまで、HA の手順を実行できません。
- 使用されているすべての Postgres シーケンス (整数のプライマリキーのシーケンスなど) で、シーケンスが Postgres 自体で複製される方法が原因で、フェイルオーバーイベントの後にギャップが見られることがあります。
- フェイルオーバーイベントが発生すると、プライマリデータベースの標準フォロワーは破棄されて再作成されます。Premium、Private および Shield プランのフォロワーは、正しいデータベースを再指定します。再指定に失敗した場合、フォロワーは破棄されて再作成されます。
HA ステータス
heroku pg:info
を実行して、データベースの HA のステータスを確認できます。通常の状況では、HA Status: Available
が表示されます。フォロー解除またはフェイルオーバーイベントの後、スタンバイの再構築中には HA Status: Temporarily Unavailable
が表示されます。また、スタンバイが 10 セグメントを超えて遅れている場合にも、その時刻にはフェイルオーバーが試行されないため ‘Temporarily Unavailable’ が表示されることがあります。