外部アプリケーションロードバランサのフェイルオーバー

このページでは、外部アプリケーションロードバランサでフェイルオーバーが機能する仕組みについて説明します。フェイルオーバー構成には、プライマリロードバランサとバックアップロードバランサの 2 つのロードバランサが含まれます。ここでは、プライマリロードバランサは、フェイルオーバーを構成するロードバランサとします。バックアップロードバランサは、プライマリロードバランサがヘルスチェックに失敗したときに接続を受信するロードバランサです。

フェイルオーバーとフェイルバックは、ロードバランサ間でトラフィックを転送する自動プロセスです。Cloud DNS が停止を検出してプライマリロードバランサからバックアップロードバランサにトラフィックを転送するプロセスをフェイルオーバーといいます。Cloud DNS がこの逆の処理を行い、トラフィックをプライマリロードバランサにリダイレクトするプロセスをフェイルバックといいます。

フェイルオーバーの仕組み

外部アプリケーションロードバランサのグローバルからリージョンへのフェイルオーバーは、トラフィックをフェイルオーバーするリージョンに 2 つ以上のリージョン外部アプリケーションロードバランサを作成することで処理されます。バックアップロードバランサとして使用できるのは、リージョン外部アプリケーションロードバランサのみです。リージョン外部アプリケーションロードバランサは、個々のGoogle Cloud リージョン内で自己完結しているだけでなく、同じリージョンで実行されているグローバル外部アプリケーションロードバランサまたは従来のアプリケーションロードバランサのインフラストラクチャからも分離されています。

リージョン外部アプリケーションロードバランサは、どちらも Envoy プロキシをベースにしています。トラフィックを非常によく似た方法で処理するため、グローバル外部アプリケーションロードバランサのフェイルオーバーロードバランサとして最適です。これは、トラフィックの処理方法に大きな違いがある従来のアプリケーションロードバランサとは対照的です。

次のフェイルオーバーシナリオがサポートされています。

グローバル外部アプリケーションロードバランサからリージョン外部アプリケーションロードバランサ
リージョン外部アプリケーションロードバランサからリージョン外部アプリケーションロードバランサ
従来のアプリケーションロードバランサからリージョン外部アプリケーションロードバランサ

重要: このページで説明するフェイルオーバー構成は、プライマリロードバランサが使用できない場合にのみ、トラフィックがバックアップロードバランサにフェイルオーバーするアクティブ / パッシブフェイルオーバー構成です。これは、Cloud DNS のフェイルオーバールーティングポリシーを使用して実現します。リージョン外部アプリケーションロードバランサは、アクティブ / アクティブ構成もサポートしています。これにより、複数のロードバランサを異なるリージョンにデプロイし、同時にトラフィックを処理できます。これは、Cloud DNS の位置情報ルーティングポリシーを使用して構成できます。詳細については、リージョン外部アプリケーションロードバランサの高可用性をご覧ください。

フェイルオーバーとフェイルバックのワークフロー

次の設定は、グローバル外部アプリケーションロードバランサから 2 つのリージョン外部アプリケーションロードバランサへのフェイルオーバーを示しています（グローバルロードバランサがバックエンドをデプロイしたリージョンにそれぞれ 1 つずつあります）。

以降のセクションでは、フェイルオーバー構成にさまざまなコンポーネントが関係する一般的なワークフローについて説明します。

プライマリロードバランサの障害を検出する

Google Cloud は、ヘルスチェックを使用して、プライマリ外部アプリケーションロードバランサが正常かどうかを検出します。これらのヘルスチェックを構成して、3 つのソースリージョンからプローブを送信します。これらの 3 つのソースリージョンは、クライアントがロードバランサにアクセスするリージョンにする必要があります。たとえば、グローバル外部アプリケーションロードバランサがあり、クライアントトラフィックのほとんどが北米とヨーロッパから発信される場合は、北米の 2 つのリージョンとヨーロッパの 1 つのリージョンから発信されるプローブを構成できます。

これらのリージョンの 2 つ以上のリージョンから発信されたヘルスチェックが失敗すると、バックアップリージョン外部アプリケーションロードバランサへのフェイルオーバーがトリガーされます。

追加情報:
- ヘルスチェックを作成するときに、ソースリージョンを 3 つ指定する必要があります。ソースリージョンを指定できるのはグローバルヘルスチェックのみです。
- HTTP、HTTPS、TCP のヘルスチェックがサポートされています。
- ヘルスチェックプローブは、構成された Google Cloudソースリージョンから少し離れたインターネット上のポイントオブプレゼンス（PoP）から発信されます。
バックアップロードバランサにトラフィックを転送する

プライマリロードバランサでヘルスチェックが失敗すると、 Google Cloudは Cloud DNS フェイルオーバールーティングポリシーを使用して、バックアップロードバランサにトラフィックを転送する方法を決定します。

停止期間（トラフィックがプライマリロードバランサからバックアップロードバランサにフェイルオーバーするまでの時間）は、DNS TTL 値、ヘルスチェック間隔、ヘルスチェックの異常しきい値によって決まります。推奨の設定については、ベストプラクティスをご覧ください。
プライマリロードバランサにフェイルバックする

ヘルスチェックに再び合格すると、プライマリロードバランサへのフェイルバックが自動的に行われます。バックアップロードバランサとプライマリロードバランサの両方がトラフィックを処理するため、フェイルバック中にダウンタイムが発生することはありません。
フェイルオーバーを定期的にテストする

事業継続計画の一環として、フェイルオーバーワークフローを定期的にテストすることをおすすめします。プライマリからバックアップロードバランサへのトラフィックの段階的シフトと即時シフトの両方をテストする必要があります。フェイルオーバーが機能していることを確認したら、フェイルバックをトリガーして、トラフィックが期待どおりにプライマリロードバランサにルーティングされることを確認します。

フェイルオーバーを構成する

フェイルオーバーを構成する手順は次のとおりです。

既存のプライマリロードバランサの構成を確認し、プライマリロードバランサで使用されている機能（セキュリティ機能、トラフィック管理機能、ルーティング機能、CDN など）がバックアップリージョン外部アプリケーションロードバランサで使用できることを確認します。同様の機能を使用できない場合、このロードバランサはフェイルオーバーに適していない可能性があります。
プライマリロードバランサをできるだけミラーリングする構成で、バックアップリージョン外部アプリケーションロードバランサを作成します。
ヘルスチェックと DNS ルーティングポリシーを作成して、障害を検出し、フェイルオーバー中にプライマリからバックアップロードバランサにトラフィックを転送するようにします。

プライマリロードバランサの構成を確認する

始める前に、バックアップリージョン外部アプリケーションロードバランサが、プライマリロードバランサで使用されているすべての機能をサポートしていることを確認します。

トラフィックの中断を回避するため、次の違いを確認してください。

GKE の DeploymentGKE を利用している場合、GKE Gateway を使用してデプロイされたロードバランサは、GKE Ingress コントローラを使用してデプロイされたロードバランサよりも、このフェイルオーバーメカニズムとの互換性が高いことに注意してください。これは、GKE Gateway がグローバルとリージョンの両方の外部アプリケーションロードバランサの構成をサポートしているためです。GKE Ingress コントローラは従来のアプリケーションロードバランサのみをサポートしています。

最適な結果を得るには、GKE Gateway を使用してプライマリロードバランサとバックアップロードバランサの両方をデプロイします。
Cloud CDN。リージョン外部アプリケーションロードバランサは Cloud CDN をサポートしていません。したがって、障害が発生した場合、Cloud CDN に依存するオペレーションも影響を受けます。冗長性を高めるには、Cloud CDN のフォールバックとして機能するサードパーティの CDN ソリューションを構成することをおすすめします。
Cloud Armor。プライマリロードバランサに Cloud Armor を使用している場合は、バックアップリージョン外部アプリケーションロードバランサの構成時に同じ Cloud Armor 機能を構成してください。Cloud Armor には、リージョンスコープとグローバルスコープで使用できる機能があります。詳細については、Cloud Armor ドキュメントの次のセクションをご覧ください。
- リージョン Cloud Armor セキュリティポリシー
- グローバル Cloud Armor セキュリティポリシー
SSL 証明書。プライマリロードバランサとバックアップロードバランサの両方に共通の SSL 証明書を使用する場合は、プライマリロードバランサで使用されている SSL 証明書のタイプが、バックアップリージョン外部アプリケーションロードバランサと互換性があることを確認します。グローバルロードバランサ、リージョンロードバランサ、従来のロードバランサで使用できる SSL 証明書の違いを確認します。詳しくは、次のセクションをご覧ください。
- Compute Engine SSL 証明書
- Certificate Manager SSL 証明書
バックエンドバケット。リージョン外部アプリケーションロードバランサは、バックエンドとして Cloud Storage バケットをサポートしていません。バックエンドバケットを使用してロードバランサのフェイルオーバーを設定することはできません。

バックアップロードバランサを構成する

バックアップロードバランサは、障害発生時にトラフィックをリダイレクトするリージョンに構成するリージョン外部アプリケーションロードバランサです。

バックアップロードバランサを構成する際は、次の点に注意してください。

トラフィックが両方のデプロイで同じように処理されるように、バックアップリージョン外部アプリケーションロードバランサの機能をプライマリロードバランサとできるだけ似た構成する必要があります。
- グローバル外部アプリケーションロードバランサ。リージョン外部アプリケーションロードバランサは、いくつかの例外を除き、グローバル外部アプリケーションロードバランサとほとんど同じ機能をサポートしています。リージョンロードバランサは、グローバルロードバランサと同じ高度なトラフィック管理機能をサポートしているため、プライマリロードバランサとバックアップロードバランサの同等性を簡単に実現できます。
- 従来のアプリケーションロードバランサ。従来のアプリケーションロードバランサでは、プライマリロードバランサとバックアップロードバランサの機能の同等性を実現するのが困難です。これは、リージョン外部アプリケーションロードバランサが、トラフィックを異なる方法で処理する Envoy ベースのロードバランサであるためです。本番環境にデプロイする前に、フェイルオーバーとフェイルバックを十分にテストしてください。
リージョン、グローバル、従来のアプリケーションロードバランサの特定の機能については、ロードバランサの機能の比較をご覧ください。

Terraform などの自動化フレームワークを使用して、プライマリとバックアップのデプロイの両方でロードバランサ構成の一貫性を維持することをおすすめします。
バックエンドがあるすべてのリージョンに、バックアップリージョン外部アプリケーションロードバランサを設定することをおすすめします。たとえば、5 つのリージョンにインスタンスグループがあるグローバルデプロイから 3 つのリージョンのバックアップリージョンロードバランサにフェイルオーバーする場合、残りの 2 つのリージョンのバックエンドサービスがアイドル状態である間に、これらの 3 つのリージョンのバックエンドサービスの負荷が高くなる可能性があります。

また、プライマリグローバルロードバランサからこれらのバックアップリージョンロードバランサにフェイルオーバートラフィックを再ルーティングするときに、重み付けラウンドロビンポリシーを使用するように Cloud DNS を構成することをおすすめします。異なるリージョンのバックエンドインスタンスグループの最大サイズを考慮して、各バックアップロードバランサに重みを割り当てます。
リージョン外部アプリケーションロードバランサは、プレミアムとスタンダードの両方の Network Service Tiers をサポートします。フェイルオーバー中のレイテンシが主な懸念事項でない場合は、スタンダードティアを使用して、バックアップリージョン外部アプリケーションロードバランサを設定することをおすすめします。スタンダードティアのインフラストラクチャを使用すると、グローバル外部アプリケーションロードバランサで使用されるプレミアムティアのインフラストラクチャからさらに分離されます。
プライマリロードバランサとバックアップロードバランサの両方に同じバックエンドを使用する場合は、バックエンドがあるリージョンにバックアップリージョン外部アプリケーションロードバランサを作成します。バックエンドインスタンスグループで自動スケーリングを有効にしている場合は、デプロイ間でバックエンドを共有するための要件を満たす必要があります。
必要に応じて、リージョン外部アプリケーションロードバランサ用に追加の Envoy プロキシを予約し、フェイルオーバーイベントの発生時に、追加のトラフィックが同じリージョン内の他のロードバランサのデプロイを妨げないようにします。詳細については、プロキシ専用サブネットの追加予約をご覧ください。

リージョン外部アプリケーションロードバランサの構成方法については、VM インスタンスグループのバックエンドを使用してリージョン外部アプリケーションロードバランサを設定するをご覧ください。

プロキシ専用サブネットの容量を追加で予約する

リージョンと VPC ネットワーク内の Envoy ベースのすべてのリージョンロードバランサは、同じ Envoy プロキシのプールを共有します。フェイルオーバーイベントでは、バックアップリージョン外部アプリケーションロードバランサが、プライマリロードバランサからのフェイルオーバートラフィックを処理するためにプロキシの使用量が増加します。バックアップロードバランサで常に容量を確保できるように、プロキシ専用サブネットのサイズを確認することをおすすめします。特定のリージョンでトラフィックを処理するために必要なプロキシ数の概算を計算し、必要に応じて容量を増やすことをおすすめします。また、フェイルオーバーイベントによって、同じリージョンとネットワーク内の他の Envoy ベースのリージョンロードバランサが中断されないようにします。

通常、リージョン外部アプリケーションロードバランサプロキシは最大で次のものを管理できます。

1 秒あたり 600（HTTP）または 150（HTTPS）の新しい接続
3,000 のアクティブな接続
1 秒あたり 1,400 のリクエスト数

DNS ポリシーを使用して、異なるリージョンの複数のバックアップロードバランサにトラフィックを分割する場合は、リージョンとネットワークごとのプロキシ要件を見積もる際に、この点を考慮する必要があります。プロキシ専用サブネットを大きくすると、必要に応じてGoogle Cloud がロードバランサに多くの Envoy プロキシを割り当てることができます。

プライマリアドレス範囲と同じ方法（expand-ip-range コマンドを使用）で、プロキシ専用サブネットを拡張することはできません。代わりに、要件を満たすバックアッププロキシ専用サブネットを作成し、アクティブなロールに昇格する必要があります。

プロキシ専用サブネットのサイズを変更する方法については、プロキシ専用サブネットのサイズまたはアドレス範囲を変更するをご覧ください。

プライマリロードバランサとバックアップロードバランサの間でバックエンドを共有する

インフラストラクチャの完全な冗長性を実現するには、ロードバランサレベルとバックエンドレベルの両方で冗長性を確保する必要があります。バックアップリージョン外部アプリケーションロードバランサは、プライマリロードバランサと重複しないバックエンド（インスタンスグループまたはネットワークエンドポイントグループ）で構成する必要があります。

ただし、プライマリとセカンダリのロードバランサ間でバックエンドインスタンスグループを共有し、インスタンスグループで自動スケーリングが有効になっている場合は、適切なフェイルオーバーが行われるように、次の要件を満たす必要があります。

オートスケーラーは、CPU ベースのスケーリングのみで設定する必要があります。ロードバランサの使用率ベースのスケーリング方法はサポートされていません。
グローバルバックエンドサービスとリージョンバックエンドサービスの両方で、UTILIZATION バランシングモードのみを使用する必要があります。フェイルオーバープロセスでインスタンスがグローバルロードバランサとリージョンロードバランサの両方から 2 倍のトラフィックを受信する可能性があるため、RATE バランシングモードの使用はおすすめしません。
トラフィックがグローバルロードバランサからリージョンロードバランサに切り替わるダウンタイム中に、オートスケーラーがグループを早期にスケールダウンしないように、スケールイン制御を構成する必要があります。このダウンタイムは、DNS TTL と構成されたヘルスチェック間隔の合計になる場合があります。

自動スケーリングが正しく設定されていないと、フェイルオーバー中にグローバルロードバランサからのトラフィックの損失により、インスタンスグループが急速に縮小するため、二次的な停止が発生する可能性があります。

Cloud DNS とヘルスチェックを構成する

このセクションでは、Cloud DNS と Google Cloud ヘルスチェックを使用して、Cloud Load Balancing 環境を構成し、障害を検出してバックアップロードバランサにトラフィックを転送する方法について説明します。

必要なヘルスチェックポリシーとルーティングポリシーを構成する手順は次のとおりです。

プライマリロードバランサの転送ルールの IP アドレスのヘルスチェックを作成します。
```
gcloud compute health-checks create http HEALTH_CHECK_NAME \
    --global \
    --source-regions=SOURCE_REGION_1,SOURCE_REGION_2,SOURCE_REGION_3 \
    --use-serving-port \
    --check-interval=HEALTH_CHECK_INTERVAL \
    --healthy-threshold=HEALTHY_THRESHOLD \
    --unhealthy-threshold=UNHEALTHY_THRESHOLD \
    --request-path=REQUEST_PATH
```
次のように置き換えます。
- HEALTH_CHECK_NAME: ヘルスチェックの名前
- SOURCE_REGION: ヘルスチェックを実行する 3 つの Google Cloudリージョン。ソースリージョンは 3 つ指定する必要があります。
- HEALTH_CHECK_INTERVAL: 1 つのプローバーから発行されたプローブの開始から、同じプローバーから次に発行されたプローブの開始までの時間（秒単位）。サポートされている最小値は 30 秒です。推奨される値については、ベストプラクティスをご覧ください。
- HEALTHY_THRESHOLD、UNHEALTHY_THRESHOLD: VM インスタンスが正常であるか、正常でないかを判定するために必要になるプローブの成功または失敗の連続回数。いずれのしきい値も省略されている場合、 Google Cloud ではデフォルトの 2 が使用されます。
- REQUEST_PATH:Google Cloud がヘルスチェックプローブリクエストを送信する URL パス。省略すると、 Google Cloud はプローブリクエストをルートパス / に送信します。ヘルスチェックの対象のエンドポイントがプライベートな場合（外部転送ルールの IP アドレスでは一般的ではありません）、このパスを /afhealthz に設定できます。
Cloud DNS で Cloud DNS レコードセットを作成し、ルーティングポリシーを適用します。ドメイン名をプライマリロードバランサの転送ルールの IP アドレス、またはバックアップロードバランサの転送ルールの IP アドレスのいずれか（ヘルスチェックが失敗した場合）に解決するように、ルーティングポリシーを構成する必要があります。
```
gcloud dns record-sets create DNS_RECORD_SET_NAME \
    --ttl=TIME_TO_LIVE \
    --type=RECORD_TYPE \
    --zone="MANAGED_ZONE_NAME" \
    --routing-policy-type=FAILOVER \
    --routing-policy-primary-data=PRIMARY_LOAD_BALANCER_FORWARDING_RULE \
    --routing-policy-backup-data_type=GEO \
    --routing-policy-backup-data="BACKUP_REGION_1=BACKUP_LOAD_BALANCER_1_IP_ADDRESS[;BACKUP_REGION_2=BACKUP_LOAD_BALANCER_2_IP_ADDRESS;BACKUP_REGION_3=BACKUP_LOAD_BALANCER_3_IP_ADDRESS]" \
    --health-check=HEALTH_CHECK_NAME \
    --backup-data-trickle-ratio=BACKUP_DATA_TRICKLE_RATIO
```
次のように置き換えます。
- DNS_RECORD_SET_NAME: 追加するレコードセットの DNS またはドメイン名（例: test.example.com）
- TIME_TO_LIVE: レコードセットの有効期間（TTL）の秒数。推奨される値については、ベストプラクティスをご覧ください。
- RECORD_TYPE: レコードタイプ（例: A）
- MANAGED_ZONE_NAME: レコードセットを管理するマネージドゾーンの名前（例: my-zone-name）
- PRIMARY_LOAD_BALANCER_FORWARDING_RULE: プライマリロードバランサの転送ルール名
- BACKUP_REGION: バックアップロードバランサがデプロイされているリージョン
- BACKUP_LOAD_BALANCER_IP_ADDRESS: 各リージョンに対応するバックアップロードバランサの転送ルールの IP アドレス
- BACKUP_DATA_TRICKLE_RATIO: プライマリロードバランサが正常な場合でも、バックアップロードバランサに送信するトラフィックの割合。この割合は 0～1 にする必要があります（0.1 など）。デフォルトは 0 に設定されています。

ベストプラクティス

Cloud DNS レコードとヘルスチェックを構成する際のベストプラクティスは次のとおりです。

トラフィックがプライマリロードバランサからバックアップロードバランサにフェイルオーバーするまでの時間（つまり、停止時間）は、DNS TTL 値、ヘルスチェック間隔、ヘルスチェックの異常しきい値パラメータによって異なります。

Google の Cloud DNS では、この期間の上限は次の式で計算できます。
```
Duration of outage = DNS TTL + Health Check Interval * Unhealthy Threshold
```
フェイルオーバー構成では、DNS TTL を 30～60 秒に設定することをおすすめします。TTL が長くなると、DNS がバックアップリージョン外部アプリケーションロードバランサにフェイルオーバーした後も、インターネット上のクライアントがプライマリ外部アプリケーションロードバランサに引き続きアクセスするため、ダウンタイムが長くなります。
一時的なエラーによる不要なフェイルオーバーを回避するため、ヘルスチェックに正常しきい値と異常しきい値のパラメータを構成します。しきい値を高くすると、トラフィックがバックアップロードバランサにフェイルオーバーするまでの時間が長くなります。
フェイルオーバー設定が期待どおりに機能するように、プライマリロードバランサが正常な場合でも、常にバックアップロードバランサに少量のトラフィックを送信するように DNS ルーティングポリシーを設定できます。これを行うには、DNS レコードセットの作成時に --backup-data-trickle-ratio パラメータを使用します。

バックアップに送信されるトラフィックの割合を、0～1 の割合で構成できます。一般的な値は 0.1 です。Cloud DNS では、トラフィックの 100% をバックアップ VIP アドレスに送信し、手動でフェイルオーバーをトリガーすることもできます。

外部アプリケーション ロードバランサのフェイルオーバー コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。