このページは Cloud Translation API によって翻訳されました。

アプリケーションの障害復旧シナリオ

Last reviewed 2024-08-05 UTC

このドキュメントは、 Google Cloudの障害復旧（DR）について説明するシリーズの一部です。ここでは、アプリケーションの一般的な障害復旧シナリオについて説明します。

シリーズは次のパートで構成されています。

はじめに

このドキュメントでは、障害イベントからどのようにしてアプリケーションを簡単に復旧できるかを示す DR パターンの観点から、アプリケーションの DR シナリオを説明します。DR の構成要素ドキュメントで説明したコンセプトを使用して、復旧目標に適したエンドツーエンドの DR 計画を実装する方法を説明します。

まず、典型的なワークロードを例にとり、復旧の目標とアーキテクチャがどのように DR 計画に直接的な影響を与えるかについて考察してみましょう。

バッチ処理のワークロード

バッチ処理のワークロードは、多くの場合ミッションクリティカルではありません。そのため、通常は稼働時間を最大化する高可用性（HA）アーキテクチャの設計にコストをかける必要はありません。一般に、バッチ処理のワークロードは中断に対応できます。このタイプのワークロードには、通常のインスタンスよりはるかに低料金で作成、実行できる Spot VM やプリエンプティブル VM インスタンスのような、費用対効果の高いプロダクトを活用できます。（ただし、他のタスクがリソースへのアクセスを必要とする場合、Compute Engine がこのインスタンスをプリエンプティブに停止または削除する可能性があります。

処理タスクの一環として定期的なチェックポイントを実装することにより、新しい VM が起動したときに処理ジョブを障害発生ポイントから再開できます。 Dataproc を使用している場合、プリエンプト可能なワーカーノードを起動するプロセスは、マネージドインスタンスグループによって管理されます。これはウォームパターンと見なすことができ、置き換え用 VM による処理の続行を待機するための短い一時停止が発生します。

e コマースサイト

e コマースサイトでは、アプリケーションのいくつかの部分の RTO 値を比較的大きくできる場合があります。たとえば、実際の購買パイプラインには高可用性が必要ですが、注文のお知らせを顧客に送信するメール処理は数時間の遅延を許容できます。顧客は確認メールが届くのを期待しますが、自分の購入内容は把握しているはずなので、この通知が購入プロセスに欠かせない部分というわけではありません。これは、ホット（購買）パターンとウォーム / コールド（通知）パターンを混合したものです。

アプリケーションのトランザクション部分には、高い稼働時間と最小限の RTO 値が求められます。そのため、この部分には HA を使用して可用性を最大限にします。このアプローチは、ホットパターンと見なすことができます。

この e コマースシナリオは、同じアプリケーション内でさまざまな RTO 値を設定する方法を示しています。

動画ストリーミング

動画ストリーミングソリューションには、検索エクスペリエンスからユーザーにコンテンツをストリーミングする実際のプロセスまで、高可用性が要求される要素が多く存在します。さらに、ユーザーが満足できるエクスペリエンスを提供するには、システムのレイテンシを低くする必要があります。ソリューションのどの部分でも優れたエクスペリエンスを提供しないと、サプライヤにも顧客にも不満が生じます。さらに、昨今の顧客は他の競合製品に関心を移してしまう可能性があります。

このようなシナリオでは、HA アーキテクチャは必須であり、RTO 値を小さくする必要があります。このシナリオでは、アプリケーションアーキテクチャ全体にホットパターンを適用して、障害発生時の影響を最小限に抑えられるようにする必要があります。

オンプレミスの本番環境用の DR および HA アーキテクチャ

このセクションでは、アプリケーションがオンプレミスで実行され、DR ソリューションがGoogle Cloud上にある場合に、3 つのパターン（コールド、ウォーム、ホット）を実装する方法について説明します。

コールドパターン: Google Cloudへの復旧

コールドパターンの場合、DR Google Cloudプロジェクトのリソースは最小限に抑えられており、復旧シナリオの実現に必要なもののみとなっています。本番環境で本番のワークロードを実行できないような問題が発生すると、フェイルオーバー機能によって Google Cloudで本番環境のミラーリングを開始するように要求されます。そしてクライアントは、DR 環境のサービスを使用し始めます。

ここでは、上記のパターンの例を検証します。この例では、 Google Cloudへの接続を提供するために、セルフマネージド（Google Cloudではない）VPN ソリューションを使用して Cloud Interconnect が構成されています。データは、本番環境の一部として Cloud Storage にコピーされます。

このパターンでは、次の DR 構成要素を使用します。

Cloud DNS
Cloud Interconnect
セルフマネージド VPN ソリューション
Cloud Storage
Compute Engine
Cloud Load Balancing
Deployment Manager

次の図は、この例のアーキテクチャを示しています。

本番環境がオンプレミスの場合のコールドパターンのアーキテクチャ

この環境を構成する方法を次のステップで概説します

VPC ネットワークを作成します。
オンプレミスネットワークと Google Cloud ネットワーク間の接続を構成します。
データのバックアップ先として、Cloud Storage バケットを作成します。
サービスアカウントを作成します。
IAM ポリシーを作成して、バケットとそのオブジェクトにアクセスできるユーザーを制限します。この目的のために作成した専用サービスアカウントを含めます。また、オペレーターおよびシステム管理者のユーザーアカウントやグループをポリシーに追加して、これらすべての ID に適切なアクセス権を付与します。Cloud Storage へのアクセス権限の詳細については、Cloud Storage に適用される IAM 権限をご覧ください。
サービスアカウントの権限借用を使用して、ローカルの Google Cloudユーザー（またはサービスアカウント）にアクセス権を付与し、先ほど作成したサービスアカウントの権限を借用できるようにします。または、この目的専用の新しいユーザーを作成することもできます。
ターゲットバケットでファイルのアップロードとダウンロードをテストします。
データ転送スクリプトを作成します。
このスクリプトを実行するようにスケジュール設定されたタスクを作成します。Linux crontab や Windows タスクスケジューラなどのツールを使用できます。
本番環境内のサーバーごとに構成したカスタムイメージを作成します。各イメージは、オンプレミスと同じ構成である必要があります。

データベースサーバーのカスタムイメージを構成する一環として、Cloud Storage バケットからインスタンスに最新のバックアップを自動的にコピーして、復元プロセスを呼び出す起動スクリプトを作成します。
インターネットに接続するウェブサービスを指すよう Cloud DNS を構成します。
以前に構成したカスタムイメージを使用して Google Cloud ネットワークにアプリケーションサーバーを作成する Deployment Manager テンプレートを作成します。このテンプレートには、必要とされる適切なファイアウォールルールも設定する必要があります。

カスタムイメージのアプリケーションバージョンがオンプレミスと同じになるようにするプロセスを実装する必要があります。標準アップグレードサイクルの一環としてカスタムイメージへのアップグレードも実装するようにします。また、Cloud Deployment Manager テンプレートで最新のカスタムイメージが使用されるようにします。

フェイルオーバープロセスと再起動後のタスク

障害が発生した場合は、Google Cloudで稼働しているシステムに復旧できます。これを行うには、作成した Deployment Manager テンプレートを使用して復旧環境を作成する、修復プロセスを起動します。復旧環境のインスタンスで本番環境のトラフィックを受け入れる準備が整ったら、Google Cloudのウェブサーバーを指すよう DNS を調整します。

一般的な復旧シーケンスは次のとおりです。

Deployment Manager テンプレートを使用して、Google Cloudにデプロイを作成します。
ご使用のデータベースシステムのバックアップファイル復元手順に沿って、 Google Cloud で実行されているデータベースサーバーに、Cloud Storage にある最新のデータベースバックアップを適用します。
Cloud Storage の最新のトランザクションログを適用します。
復旧した環境でユーザーシナリオをシミュレートし、アプリケーションが想定どおり動作することをテストします。
テストが正常に完了したら、 Google Cloud上のウェブサーバーを指すように Cloud DNS を構成します。（たとえば、ロードバランサの内側に複数のウェブサーバーが存在する場合は、 Google Cloud ロードバランサの内側のエニーキャスト IP アドレスを使用できます）。

次の図は、復旧した環境を示しています。

本番環境がオンプレミスの場合のコールドパターンの復旧の構成

オンプレミスでの本番環境の稼働が再開され、本番のワークロードに対応できるようになったら、 Google Cloud 復旧環境へのフェイルオーバー時に使用したステップの逆を行います。本番環境に復帰するための一般的なシーケンスは次のとおりです。

Google Cloudで実行されているデータベースのバックアップを作成します。
バックアップファイルを本番環境にコピーします。
本番環境データベースシステムにバックアップファイルを適用します。
Google Cloud内のアプリケーションに接続できないようにします。たとえば、グローバルロードバランサに接続できないようにします。この時点から本番環境の復元が完了するまで、アプリケーションは使用できなくなります。
本番環境にすべてのトランザクションログファイルをコピーし、データベースサーバーに適用します。
オンプレミスのウェブサービスを指すように Cloud DNS を構成します。
Cloud Storage にデータをコピーするために用意したプロセスが想定どおりに動作していることを確認します。
デプロイを削除します。

ウォームスタンバイ: Google Cloudへの復旧

多くの場合、ウォームパターンは、完全な HA 構成にかかる労力と費用を要することなく、RTO と RPO の値をできるだけ小さく維持するために導入されます。RTO と RPO の値を小さくすればするほど完全な冗長環境に近づき、2 つの環境からのトラフィックを処理できるようになりますが、コストは高くなります。そのため、DR シナリオにウォームパターンを導入することは、予算と可用性とのトレードオフをバランスよく保つことになります。

このアプローチの一例は、セルフマネージド VPN ソリューションで構成された Cloud Interconnect を使用して、 Google Cloudへの接続を提供することです。オンプレミスで多層アプリケーションを実行すると同時に、 Google Cloudで最小限の復旧スイートを使用します。復旧スイートは、 Google Cloud上の運用データベースサーバーインスタンスで構成されます。このインスタンスは、非同期または準同期のレプリケーション手法を使用してレプリケートされたトランザクションを受信できるように、常に実行されている必要があります。コストを削減するには、データベースサービスを実行できる最小マシンタイプでデータベースを実行します。長時間実行インスタンスを使用できるため、継続利用割引が適用されます。

このパターンでは、次の DR 構成要素を使用します。

Cloud DNS
Cloud Interconnect
セルフマネージド VPN ソリューション
Compute Engine
Deployment Manager

Compute Engine のスナップショットを使用すれば、以前の状態にロールバックできるバックアップを作成できます。この例では、更新されたウェブページやアプリケーションバイナリが本番環境のウェブサーバーやアプリケーションサーバーに頻繁に書き込まれるため、スナップショットを使用します。これらの更新は、 Google Cloud上の参照ウェブサーバーとアプリケーションサーバーのインスタンスに定期的にレプリケートされます。（参照サーバーは本番環境のトラフィックを受け入れません。これらのサーバーはスナップショットの作成に使用されます）。

次の図は、この方法を実装するアーキテクチャを示しています。レプリケーションのターゲットは、図に表示されていません。

本番環境がオンプレミスの場合のウォームパターンのアーキテクチャ

この環境を構成する方法を次のステップで概説します

VPC ネットワークを作成します。
オンプレミスネットワークと Google Cloud ネットワーク間の接続を構成します。
オンプレミスサーバーを Google Cloud VM インスタンスに複製します。これには、パートナーソリューションを使用する方法もあります。どの方法を採用するかは環境によって異なります。
Google Cloud 上のデータベースサーバーのカスタムイメージを、オンプレミスのデータベースサーバーと同じ構成で作成します。
ウェブサーバーインスタンスとアプリケーションサーバーインスタンスのスナップショットを作成します。
前の手順で作成したカスタムイメージを使用して、 Google Cloud でデータベースインスタンスを開始します。オンプレミスの本番環境データベースから複製されたデータを受け入れることができる最小マシンタイプを使用します。
データベースログとトランザクションログを保管するために、 Google Cloud データベースインスタンスに永続ディスクを接続します。
ご使用のデータベースソフトウェアの手順に沿って、オンプレミスのデータベースサーバーと Google Cloud のデータベースサーバーとの間のレプリケーションを構成します。
データベースインスタンスにアタッチされている永続ディスクで、自動削除フラグを no-auto-delete に設定します。
Google Cloud上のデータベースインスタンスの永続ディスクのスナップショットを定期的に作成するようスケジュール設定されたタスクを構成します。
必要に応じて、ウェブサーバーとアプリケーションサーバーの容量を確保するために予約を作成します。
スナップショットからインスタンスを作成するプロセスと、永続ディスクのスナップショットを取得するプロセスをテストします。
前の手順で作成されたスナップショットを使用して、ウェブサーバーとアプリケーションサーバーのインスタンスを作成します。
対応するオンプレミスサーバーが更新されるたびに、ウェブアプリケーションとアプリケーションサーバーに更新をコピーするスクリプトを作成します。更新されたサーバーのスナップショットを作成するスクリプトを作成します。
オンプレミスでインターネットに接続するウェブサービスを指すように Cloud DNS を構成します。

フェイルオーバープロセスと再起動後のタスク

フェイルオーバーを管理するには、通常はモニタリングおよびアラートシステムを使用して自動フェイルオーバープロセスを起動します。オンプレミスのアプリケーションをフェイルオーバーする必要がある場合は、本番環境のトラフィックを受け入れられるように Google Cloud 上のデータベースシステムを構成します。また、ウェブサーバーおよびアプリケーションサーバーのインスタンスも開始します。

次の図は、Google Cloud にフェイルオーバーし、Google Cloudから本番環境のワークロードを提供できるようになった後の構成を示しています。

本番環境がオンプレミスの場合のウォームパターンの復旧の構成

一般的な復旧シーケンスは次のとおりです。

データベースサーバーインスタンスのサイズを変更して、本番環境の負荷を処理できるようにします。
Google Cloud上のウェブサーバーとアプリケーションのスナップショットを使用して、新しいウェブサーバーとアプリケーションのインスタンスを作成します。
復旧した環境でユーザーシナリオをシミュレートし、アプリケーションが想定どおり動作することをテストします。
テストが正常に完了したら、 Google Cloud上のウェブサービスを指すように Cloud DNS を構成します。

Google Cloudで実行されているデータベースのバックアップを作成します。
バックアップファイルを本番環境にコピーします。
本番環境データベースシステムにバックアップファイルを適用します。
Google Cloud内のアプリケーションに接続できないようにします。たとえば、ファイアウォールルールを変更して、ウェブサーバーに接続できないようにします。この時点から本番環境の復元が完了するまで、アプリケーションは使用できなくなります。
本番環境にすべてのトランザクションログファイルをコピーし、データベースサーバーに適用します。
本番環境でユーザーシナリオをシミュレートし、アプリケーションが想定どおりに動作するかをテストします。
オンプレミスのウェブサービスを指すように Cloud DNS を構成します。
Google Cloudで実行されているウェブサーバーとアプリケーションサーバーのインスタンスを削除します。参照サーバーは実行したままにします。
Google Cloud 上のデータベースサーバーのサイズを変更して、オンプレミスの本番環境データベースから複製されたデータを受け入れられる最小限のインスタンスサイズに戻します。
ご使用のデータベースソフトウェアの手順に沿って、オンプレミスのデータベースサーバーと Google Cloud のデータベースサーバーとの間のレプリケーションを構成します。

オンプレミスと Google Cloudとの間でのホット HA 構成

RTO と RPO の値が非常に小さい場合、これらの値は、本番環境と Google Cloud との間で同時に HA 構成を実行することでのみ達成可能です。このアプローチは、オンプレミスと Google Cloudの両方が本番環境のトラフィックを処理するため、ホットパターンとなります。

ウォームパターンとの主な違いは、両方の環境のリソースが本番環境モードで稼働し、本番環境のトラフィックを処理することです。

このパターンでは、次の DR 構成要素を使用します。

Cloud Interconnect
Cloud VPN
Compute Engine
マネージドインスタンスグループ
Cloud Monitoring
Cloud Load Balancing

次の図は、この例のアーキテクチャを示しています。このアーキテクチャを実装することで、障害発生時に最小限の介入で済む DR 計画を実現できます。

本番環境がオンプレミスの場合のホットパターンのアーキテクチャ

この環境を構成する方法を次のステップで概説します

VPC ネットワークを作成します。
オンプレミスネットワークと Google Cloud ネットワーク間の接続を構成します。
オンプレミスの本番環境内のサーバーごとに構成したカスタムイメージを Google Cloud に作成します。各 Google Cloud イメージは、オンプレミスと同じ構成である必要があります。
ご使用のデータベースソフトウェアの手順に沿って、オンプレミスのデータベースサーバーと Google Cloud のデータベースサーバーとの間のレプリケーションを構成します。

多くのデータベースシステムは、レプリケーションを構成する際に書き込み可能なデータベースインスタンスを 1 つしか許容していません。このため、データベースレプリカの 1 つを読み取り専用サーバーにする必要がある場合があります。
アプリケーションサーバーとウェブサーバーのイメージを使用するインスタンステンプレートを個々に作成します。
アプリケーションサーバーとウェブサーバーのリージョンマネージドインスタンスグループを構成します。
Cloud Monitoring を使用してヘルスチェックを構成します。
前の手順で構成したリージョンマネージドインスタンスグループを使用して、ロードバランシングを構成します。
永続ディスクのスナップショットを定期的に作成するようスケジュール設定されたタスクを構成します。
オンプレミス環境と Google Cloud 環境の間でトラフィックを分散する DNS サービスを構成します。

このハイブリッドアプローチでは、2 つの本番環境への重み付きルーティングをサポートする DNS サービスを使用して、双方で同じアプリケーションを処理できるようにする必要があります。

システムは、1 つの環境の一部分だけで発生する可能性のある障害（部分的な障害）に備えて設計する必要があります。その場合、トラフィックは、他方のバックアップ環境の同等のサービスに再ルーティングされることになります。たとえば、オンプレミスのウェブサーバーが使用不能になった場合、その環境への DNS ルーティングを無効化できます。DNS サービスがヘルスチェックをサポートする場合は、ヘルスチェックで一方の環境のウェブサーバーに到達できないと判定されると、この処理が自動的に行われます。

書き込み可能インスタンスが 1 つだけ許可されるデータベースシステムを使用している場合、元の書き込み可能データベースとリードレプリカ（読み取りレプリカ）との間でハートビートの接続が失われると、多くの場合はデータベースシステムによって読み取り専用レプリカが書き込み可能プライマリに自動的に昇格されます。障害発生後に介入が必要な場合に備えて、ご使用のデータベースレプリケーションにこのような側面があることを必ず理解しておいてください。

Google Cloud のカスタム VM イメージのアプリケーションバージョンが、オンプレミスと同じバージョンになるように所定のプロセスを実装する必要があります。標準アップグレードサイクルの一環としてカスタムイメージへのアップグレードを実装し、Cloud Deployment Manager テンプレートで最新のカスタムイメージが使用されるようにします。

フェイルオーバープロセスと再起動後のタスク

ここで説明するホットシナリオの構成では、障害とは 2 つの環境の一方が利用できなくなることを意味します。ウォームシナリオやコールドシナリオのように、フェイルオーバープロセスでデータや処理を第 2 の環境に移動する必要はありません。ただし、次の構成変更の処理が必要になる場合があります。

DNS サービスがヘルスチェックエラーに基づいて自動的にルーティングを変更しない場合は、DNS ルーティングを手動で構成して、稼働中のシステムにトラフィックを送信する必要があります。
障害発生時にデータベースシステムが読み取り専用レプリカを書き込み可能プライマリに自動的に昇格しない場合は、レプリカが確実に昇格するように介入する必要があります。

第 2 の環境の稼働が再開され、本番環境のトラフィックの処理が可能になったら、データベースを再同期する必要があります。どちらの環境も本番環境のワークロードをサポートしているため、プライマリデータベースを変更する操作は必要ありません。データベースが同期したら、DNS 設定を調整して両方の環境に本番環境のトラフィックを再度分散できます。

Google Cloud上の本番環境用の DR および HA アーキテクチャ

Google Cloud上に本番環境ワークロード用のアプリケーションアーキテクチャを設計する場合、プラットフォームの HA 機能は DR アーキテクチャに直接影響を及ぼします。

Backup and DR サービスは、クラウドとハイブリッドワークロードのバックアップと復元を行う一元化されたクラウドネイティブソリューションです。迅速なデータ復元が可能になり、重要なビジネスオペレーションを迅速に再開できます。

Google Cloudでのアプリケーションシナリオに Backup and DR サービスを使用する方法の詳細については、以下をご覧ください。

Compute Engine 用 Backup and DR サービスでは、 Google Cloud Backup and DR サービスを使用してインスタンスレベルで永続ディスクからデータを増分バックアップするコンセプトと詳細について説明します。
Google Cloud VMware Engine 用のバックアップと DR サービスでは、 Google Cloud Backup and DR Service を使用して VM レベルで VMDK からデータを増分バックアップするコンセプトと詳細について説明します。
Filestore とファイルシステムの Backup and DR サービスでは、 Google Cloud Backup and DR サービスを使用して、本番環境の SMB、NFS、Filestore ファイルシステムからデータをキャプチャしてバックアップするコンセプトと詳細について説明します。

コールド: 復元可能なアプリケーションサーバー

コールドフェイルオーバーのシナリオでは、アクティブなサーバーインスタンスを 1 つしか必要としないため、1 つのインスタンスだけがディスクに書き込みを行います。オンプレミス環境では、アクティブ / パッシブクラスタがよく使用されます。Google Cloudで本番環境を稼働する場合、VM は、1 つのインスタンスのみを実行するマネージドインスタンスグループに作成できます。

このパターンでは、次の DR 構成要素を使用します。

Compute Engine
マネージドインスタンスグループ

次の図は、このコールドフェイルオーバーシナリオのアーキテクチャの例を示しています。

本番環境が Google Cloudの場合のコールドパターンの復旧の構成

次の手順では、このコールドフェイルオーバーのシナリオを構成する方法を概説します。

VPC ネットワークを作成します。
アプリケーションウェブサービスで構成されたカスタム VM イメージを作成します。
1. アプリケーションサービスによって処理されたデータが、アタッチされた永続ディスクに書き込まれるように VM を構成します。
接続された永続ディスクからスナップショットを作成します。
ウェブサーバーのカスタム VM イメージを参照するインスタンステンプレートを作成します。
1. 起動スクリプトを構成します。このスクリプトで、最新のスナップショットから永続ディスクを作成して、ディスクをマウントするようにします。このスクリプトは、ディスクの最新のスナップショットを取得できる必要があります。
インスタンステンプレートを参照するターゲットサイズが 1 のマネージドインスタンスグループとヘルスチェックを作成します。
永続ディスクのスナップショットを定期的に作成するスケジュール設定されたタスクを作成します。
外部アプリケーションロードバランサを構成します。
サービスに障害が発生したときにアラートを送信するように、Cloud Monitoring を使用してアラートを構成します。

このコールドフェイルオーバーのシナリオでは、 Google Cloudで利用可能な HA 機能の一部を活用しています。VM に障害が発生した場合、マネージドインスタンスグループは VM を自動的に再作成しようとします。このフェイルオーバーの手順を開始する必要はありません。外部アプリケーションロードバランサでは、代替 VM が必要な場合でも、アプリケーションサーバーの前に同じ IP アドレスが使用されます。インスタンステンプレートとカスタムイメージは、代替 VM が置換対象のインスタンスと必ず同じ構成になるようにします。

RPO は、最後に取得されたスナップショットによって決まります。スナップショットの取得回数が多くなるほど、RPO 値は小さくなります。

マネージドインスタンスグループは、厚みのある HA を提供します。より具体的には、アプリケーションレベルや VM レベルで障害に対処する方法を提供します。そうしたシナリオのいずれかが発生した場合、手動で介入する必要はありません。ターゲットサイズが 1 の場合、マネージドインスタンスグループで実行されているトラフィックを処理するインスタンスは、必ず 1 つしかありません。

永続ディスクはゾーン単位であるため、ゾーンの障害が発生した場合は、スナップショットを作成してディスクを再作成する必要があります。スナップショットはリージョン間でも使用できるため、ディスクは同じリージョンに復元する場合と同様に、別のリージョンに復元できます。

万一ゾーンに障害が発生した場合は、次のセクションで説明するように、手動介入して復元する必要があります。

フェイルオーバープロセス

VM に障害が発生すると、マネージドインスタンスグループは自動的に同じゾーンに VM の再作成を試みます。インスタンステンプレートの起動スクリプトによって、最新のスナップショットから永続ディスクが作成され、新しい VM にアタッチされます。

ただし、サイズ 1 のマネージドインスタンスグループは、ゾーンに障害が発生した場合には復元されません。ゾーン障害のシナリオでは、サービスに障害が発生した場合、Cloud Monitoring アラートや他のモニタリングプラットフォームに対応して、手動で別のゾーンにインスタンスグループを作成する必要があります。

この構成の変化形として、ゾーン永続ディスクではなくリージョン永続ディスクを使用する方法もあります。この方法では、復旧手順の一環としてスナップショットを使用して永続ディスクを復元する必要がありません。しかし、2 倍のストレージが消費されるため、それに見合う予算が必要になります。

どの方法を選択するかは、予算および RTO と RPO の値によって決まります。

ウォーム: 静的サイトフェイルオーバー

Compute Engine インスタンスに障害が発生した場合、Cloud Storage ベースの静的サイトをスタンバイとして設定することで、サービスの中断を緩和できます。このパターンは、ウェブアプリケーションがほとんど静的である場合に適しています。

このシナリオでは、プライマリアプリケーションが Compute Engine インスタンス上で実行されます。これらのインスタンスは、マネージドインスタンスグループにまとめられ、これらのインスタンスグループが HTTPS ロードバランサのバックエンドサービスとして機能します。HTTP ロードバランサは、ロードバランサの構成、各インスタンスグループの構成、そして各インスタンスのヘルス状態に応じて、着信トラフィックをインスタンスに誘導します。

このパターンでは、次の DR 構成要素を使用します。

Compute Engine
Cloud Storage
Cloud Load Balancing
Cloud DNS

次の図は、この例のアーキテクチャを示しています。

本番環境が Google Cloud上にある場合の静的サイトへのウォームフェイルオーバーのアーキテクチャ

このシナリオを構成する方法を次のステップで概説します。

VPC ネットワークを作成します。
アプリケーションウェブサービスで構成されているカスタムイメージを作成します。
ウェブサーバー用のイメージを使用するインスタンステンプレートを作成します。
ウェブサーバーのマネージドインスタンスグループを構成します。
モニタリングを使用してヘルスチェックを構成します。
前の手順で構成したマネージドインスタンスグループを使用して、ロードバランシングを構成します。
Cloud Storage ベースの静的サイトを作成します。

本番環境の構成では、このプライマリアプリケーションを指すように Cloud DNS が構成され、スタンバイの静的サイトは休眠状態になります。Compute Engine アプリケーションが停止した場合は、Cloud DNS がこの静的サイトを指すように構成します。

フェイルオーバープロセス

1 つ以上のアプリケーションサーバーが停止した場合、静的なウェブサイトを指すように Cloud DNS を構成します。次の図は、復旧モードのアーキテクチャを示しています。

本番環境が Google Cloud上にある場合の静的サイトへのフェイルオーバー後の構成。

アプリケーションの Compute Engine インスタンスの実行が再開され、本番環境のワークロードへの対応が可能になったら、復旧ステップの逆を行い、このインスタンスの外側にあるロードバランサを指すように Cloud DNS を構成します。

または、Persistent Disk 非同期レプリケーションを使用することもできます。このストレージオプションは、リージョン間のアクティブ / パッシブ DR 向けに、目標復旧時点（RPO）と目標復旧時間（RTO）が短いブロックストレージレプリケーションを提供します。このストレージオプションを使用すると、ワークロードレベルではなく、インフラストラクチャレベルで Compute Engine ワークロードのレプリケーションを管理できます。

ホット: HA のウェブアプリケーション

本番環境を Google Cloud上で稼働している場合のホットパターンは、適切に設計された HA デプロイを確立することです。

このパターンでは、次の DR 構成要素を使用します。

Compute Engine
Cloud Load Balancing
Cloud SQL

次の図は、この例のアーキテクチャを示しています。

本番環境が Google Cloud上にある場合のホットパターンのアーキテクチャ

このシナリオでは、 Google Cloudの HA 機能を活用しています。フェイルオーバーステップは障害発生時に自動的に起動されるため、手動で開始する必要はありません。

図に示されているように、このアーキテクチャでは、グローバルな負荷分散および Cloud SQL とともに、リージョンマネージドインスタンスグループが使用されています。この例では、リージョンマネージドインスタンスグループが使用されているため、インスタンスが 3 つのゾーンに分散されています。

このアプローチでは、徹底的な HA を実現できます。リージョンマネージドインスタンスグループによって、アプリケーション、インスタンス、またはゾーンのレベルの障害に対処するメカニズムが提供されるため、これらのシナリオの発生時に手動による介入は必要がありません。

アプリケーションレベルの復旧を処理するには、マネージドインスタンスグループの設定の一環として、そのグループ内のインスタンスでサービスが正常に実行されていることを確認する HTTP ヘルスチェックを構成します。ヘルスチェックによりいずれかのインスタンスでサービスに障害が発生していると判定されると、グループによってそのインスタンスが自動的に再作成されます。

Google Cloudでスケーラブルで復元性の高いアプリケーションを構築する方法の詳細については、スケーラブルで復元性の高いアプリのパターンをご覧ください。

次のステップ

Google Cloud 地域とリージョンについて読む。
この DR シリーズの他のドキュメントを見る。
Google Cloud に関するリファレンスアーキテクチャ、図、ベストプラクティスを確認する。Cloud アーキテクチャセンターをご覧ください。

アプリケーションの障害復旧シナリオ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

はじめに

バッチ処理のワークロード

e コマースサイト

動画ストリーミング

オンプレミスの本番環境用の DR および HA アーキテクチャ

コールド パターン: Google Cloudへの復旧

フェイルオーバー プロセスと再起動後のタスク

ウォーム スタンバイ: Google Cloudへの復旧

フェイルオーバー プロセスと再起動後のタスク

オンプレミスと Google Cloudとの間でのホット HA 構成

フェイルオーバー プロセスと再起動後のタスク

Google Cloud上の本番環境用の DR および HA アーキテクチャ

コールド: 復元可能なアプリケーション サーバー

フェイルオーバー プロセス

ウォーム: 静的サイト フェイルオーバー

フェイルオーバー プロセス

ホット: HA のウェブ アプリケーション

次のステップ

アプリケーションの障害復旧シナリオ

コールドパターン: Google Cloudへの復旧

フェイルオーバープロセスと再起動後のタスク

ウォームスタンバイ: Google Cloudへの復旧

フェイルオーバープロセスと再起動後のタスク

フェイルオーバープロセスと再起動後のタスク

コールド: 復元可能なアプリケーションサーバー

フェイルオーバープロセス

ウォーム: 静的サイトフェイルオーバー

フェイルオーバープロセス

ホット: HA のウェブアプリケーション