リージョンディスクを使用して復元性のあるワークロードを設計する場合の考慮事項

Last reviewed 2020-09-23 UTC

このドキュメントでは、ステートフルアプリケーション、ヘルスチェックエージェント、同期的にレプリケートされるリージョンディスクをデプロイしてゾーンフェイルオーバーのモニタリングとオーケストレートを行うアプリケーション固有のリージョンコントロールプレーンと間の動作とインタラクションについて説明します。

このドキュメントは、リージョンディスクを使用して HA サービスを構築するの続編としてアプリケーションデベロッパー向けに作成したもので、リージョンディスクを使用した HA データベースサービスの構築で説明している設計とアーキテクチャを拡張しています。このドキュメントの設計上の考慮事項と費用比較、パフォーマンス、復元力のセクションを最初にお読みになることをおすすめします。

ステートレスアプリケーションは、別のゾーンで少なくとも 1 つのセカンダリ Compute Engine インスタンスを実行することで復元力を高めています。プライマリインスタンスで障害が発生しても、アプリケーションはセカンダリインスタンスで引き続き動作します。ステートフルアプリケーションは、アプリケーションの状態をゾーンディスク（単一ゾーンでのみ使用可能なディスク）に保持し、インスタンスの再起動から状態を復元できます。復元性を確保するには、ステートフルアプリケーションがアプリケーションの状態をセカンダリインスタンスに保持する必要があります。

図 1 は、2 つのゾーンに複製される一般的な 2 ノードステートフルアプリケーションを示しています。各ゾーンのアプリケーションは、ゾーンディスクにアプリケーションの状態を保存し、インスタンス間のネットワーク接続により、アプリケーションの状態変更をノード間で同期します。

ロードバランサは、異なるゾーンにあるプライマリ VM とセカンダリインスタンスにアプリケーションの状態を複製するために使用されます。

図 1: リージョンディスクを使用しない 2 ノードステートフルアプリケーション

リージョンディスクの追加

ステートフルアプリケーションのアプリケーション状態を同期する場合、リージョンディスクを追加する方法もあります。アプリケーションがアプリケーションの状態をリージョンディスクに書き込むと、Google Cloud がブロックストレージを別のゾーンと自動的に同期します。

図 2 に、ステートフルデータベースアプリケーションのアーキテクチャを示します。

リージョンディスクが 2 つのゾーンの 2 つの VM インスタンスにアタッチされています。

図 2. ステートフルデータベースアプリケーション

図 2 に示すように、2 つのゾーンに 2 つのアプリケーションコンピューティングインスタンス（プライマリインスタンスとセカンダリインスタンス）がデプロイされています。ここでは、アプリケーションの状態を保存するリージョンディスクのほかに、アプリケーション固有のリージョンコントロールプレーンという別のエンティティも存在します。アプリケーション固有のリージョンコントロールプレーンは、リージョンディスクがアタッチされているインスタンスと、現在プライマリになっているインスタンスを決定します。このアーキテクチャはアクティブ / パッシブ構成です。プライマリインスタンスのみがリージョンディスクにアプリケーションの状態を commit できます。

コンピューティングインスタンスとステートフルアプリケーション

図 2 は、稼働中のアクティブ / パッシブデータベースアプリケーションを示していますが、次の構成も可能です。

目標復旧時間（RTO）にセカンダリインスタンスの起動時に追加のレイテンシを許容できる余裕がある場合は、アクティブインスタンスのみを実行することで、Compute Engine の費用を抑えることができます。フェイルオーバーでは、アプリケーション固有のリージョンコントロールプレーンがセカンダリインスタンスを開始し、そのインスタンスにリージョンディスクをアタッチします。
リージョンディスクに対する進行状況を確認するバッチ処理またはストリーム処理のワークロード。フェイルオーバーが行われると、アプリケーションはその最後のチェックポイントから処理を再開します。

Compute Engine インスタンスの起動の管理

リージョンディスクに同時にアタッチできるコンピューティングインスタンスは 1 つだけです。このため、インスタンスを起動して、リージョンディスクを体系的にアタッチする必要があります。コンピューティングインスタンスとアプリケーションの起動をリージョンディスクのアタッチから分離することをおすすめします。インスタンスの起動スクリプトで、リージョンディスクのアタッチを開始することはできません。代わりに、起動スクリプトでヘルスチェックエージェントを起動し、リージョンディスクがアタッチされるまで待機する必要があります。

起動時に、コンピューティングインスタンスが次の操作を順番に行う必要があります。

ヘルスチェックエージェントを起動する。
リージョンディスクがアタッチされるまで待機する。
リージョンディスクのアタッチ後、ファイルシステムをマウントする。
ファイルシステムをマウントしたら、アプリケーションを起動する。

この手順でシステムを起動できますが、フェイルオーバーも発生します。フェイルオーバー中、リージョンディスクはセカンダリインスタンスに強制的にアタッチされます。また、リージョンディスクがプライマリインスタンスから強制的に削除され、ファイルシステムに対する入出力オペレーションが失敗します。この時点で、コンピューティングインスタンスをシャットダウンまたは再起動する必要があります。

ヘルスチェックエージェントとヘルスチェックの実行

前のセクションで説明したとおり、コンピューティングインスタンスは、アプリケーションの開始前にリージョンディスクがアタッチされるのを待機します。アプリケーション固有のリージョンコントロールプレーンは、ディスクのアタッチを待機しているコンピューティングインスタンスにのみリージョンディスクをアタッチします。ディスクがアタッチされると、アプリケーション固有のコントロールプレーンがアプリケーションの正常性をモニタリングします。アプリケーションが異常な状態になると、フェイルオーバーを開始します。

各コンピューティングインスタンスは、次のいずれかの状態になります。

停止中
開始中
ディスク待機中
アプリケーション実行中

ヘルスチェックエージェントは、インスタンスの現在の状態を報告します。2 つの状態を 1 回のヘルスチェックで報告するのではなく、2 回のバイナリヘルスチェックを実行できます。コンピューティングインスタンスでリージョンディスクをアタッチする準備ができている場合、またはリージョンディスクがアタッチされ、書き込み可能である場合、インスタンスのヘルスチェックにより正常なステータスが報告されます。アプリケーションが動作中で、アプリケーションの状態をリージョンディスクに書き込める場合、アプリケーションのヘルスチェックにより正常なステータスが報告されます。

2 つのバイナリヘルスチェックを使用すると、次のような利点があります。

Compute Engine のマネージドヘルスチェックサービスを使用できます。このサービスでは、ヘルスチェックエージェントがポーリングされ、しきい値カウントを使用して一時的なエラーが解消されます。
マネージドインスタンスグループ（MIG）は、インスタンスのヘルスチェックをモニタリングして、異常なコンピューティングインスタンスを自動修復できます。
ロードバランサは、アプリケーションのヘルスチェックをモニタリングし、トラフィックをアクティブなアプリケーションインスタンスにルーティングできます。

システムが一時的な障害に反応するのを防ぐには、ヘルスチェックレポートの頻度を下げるか、レベル間の移行に必要な繰り返しシグナルのしきい値を増やします。どちらの手法でも、システムが障害に反応するのを遅らせ、復旧までの時間を延長できます。これらのパラメータをテストして測定することで、システムの復旧時間のバランスをとれるようにヘルスチェックのパラメータを調整できます。

アプリケーション固有のリージョンコントロールプレーンについて

アーキテクチャの最後の部分はアプリケーション固有のリージョンコントロールプレーンです。これは次の 2 つの機能を担います。

プライマリインスタンスとセカンダリ VM インスタンスのライフサイクルを管理する。
アプリケーションのヘルスチェックのステータスをモニタリングすることで、フェイルオーバーが必要かどうかを判断する。

フェイルオーバーが必要な場合、アプリケーション固有のリージョンコントロールプレーンによってフェイルオーバーの調整が行われます。

セカンダリインスタンスが動作中で、リージョンディスクのアタッチを待機しているかを確認する。
リージョンディスクをセカンダリインスタンスに強制的にアタッチする。
障害が発生したプライマリインスタンスをモニタリングして再起動する。プライマリインスタンスが再起動されると、必要に応じてコントロールプレーンがフェイルバックを開始します。

アプリケーション固有のリージョンコントロールプレーン自体は、アプリケーションが動作している 2 つのゾーン間で高可用性を維持する必要があります。多くの場合、オンプレミスのデータセンターでは追加のサーバーをデプロイしてクォーラムを構築し、どのコンピューティングインスタンスがプライマリインスタンスかを特定してフェイルオーバーをオーケストレートすることで、高可用性（HA）を確保できます。この場合、Heartbeat、Pacemaker、Keepalived などの HA モニタリングツールがよく使用されています。

アプリケーション固有のリージョンコントロールプレーンはクラウドのどこででも使用できますが、 Google Cloud では、リージョンで以下のマネージドサービスを利用できるため、この手法を簡単に実施できます。

App Engine、Cloud Run、Cloud Run functions などのGoogle Cloud サーバーレスプロダクト。管理やデプロイが簡単です。
アプリケーションを実行するコンピューティングインスタンスのモニタリングの負荷を軽減するマネージドヘルスチェック。
コンピューティングインスタンスのライフサイクルを管理するマネージドインスタンスグループ。

図 3 では、ステートフルマネージドインスタンスグループとマネージドヘルスチェックに加え、アプリケーション固有のリージョンコントロールプレーンに Cloud Run functions を使用しています。

アプリケーション固有のリージョンコントロールプレーンは、プライマリ VM とセカンダリ VM を管理します。

図 3. アプリケーション固有のリージョンコントロールプレーン

図 3 は、アプリケーションのプライマリインスタンスとセカンダリインスタンスの 2 つのコンピューティングインスタンスを示しています。インスタンスはそれぞれ別のゾーンで実行され、ステートフルリージョン MIG によって管理されます。同じリージョンディスクが 2 つのゾーンで使用されています。2 つのマネージドヘルスチェックサービスが実行されています。マネージドヘルスチェックサービスの 1 つはインスタンスのヘルスステータスをモニタリングします。このサービスは、ステートフル MIG によって使用されます。他のヘルスチェックサービスはアプリケーションのヘルスステータスをモニタリングし、ロードバランサのターゲットプールによって使用されます。

アプリケーション固有のリージョンコントロールプレーンは、アプリケーションのステータスをモニタリングし、リージョンディスクを現在の正常なコンピューティングインスタンスにアタッチするため、ターゲットプールアプリケーションのヘルスステータスとステートフルリージョン MIG を使用します。

次のステップ

Google Kubernetes Engine のドキュメントで、リージョンディスクのプロビジョニングを確認する。
フローティング IP アドレスの使用のパターンで、オンプレミスの HA ツールをGoogle Cloudで使用する方法を確認する。
Google Cloud に関するリファレンスアーキテクチャ、図、ベストプラクティスを確認する。Cloud アーキテクチャセンターをご覧ください。

リージョン ディスクを使用して復元性のあるワークロードを設計する場合の考慮事項

リージョン ディスクの追加

コンピューティング インスタンスとステートフル アプリケーション