Google Distributed Cloud の障害の影響を理解する

Google Distributed Cloud は、障害の範囲を限定し、ビジネスの継続性に不可欠な機能を優先するように設計されています。このドキュメントでは、障害が発生した際にクラスタの機能がどのような影響を受けるかを説明します。この情報は、問題が発生した場合にトラブルシューティングを行う部分の優先順位を決めるのに役立ちます。

さらにサポートを必要とされる場合は、Cloud カスタマーケアにお問い合わせください。

Google Distributed Cloud のコア機能には次のカテゴリがあります。

ワークロードの実行: 既存のワークロードを継続して実行できます。これは、ビジネスの継続性を維持するための最も重要な考慮事項です。クラスタに問題が発生しても、既存のワークロードは中断されることなく引き続き実行できます。
ワークロードの管理: ワークロードを作成、更新、削除できます。これは、クラスタに問題が発生した場合でも、トラフィックが増加した際にワークロードを拡張するために 2 番目に重要な考慮事項です。
ユーザークラスタの管理: ノードの管理、ユーザークラスタの更新、アップグレード、削除を行うことができます。これは、アプリケーションのライフサイクルに関する考慮事項ほど重要ではありません。既存のノードに使用可能な容量があれば、ユーザークラスタを変更できなくても、ユーザーのワークロードには影響しません。
管理クラスタを管理する: 管理クラスタを更新、アップグレードできます。管理クラスタはユーザーワークロードをホストしないため、重要度は最も低くなります。管理クラスタに問題がある場合でも、アプリケーションワークロードは中断されることなく引き続き実行されます。

以下のセクションでは、これらのコア機能のカテゴリを使用して、特定のタイプの障害シナリオの影響について説明します。

障害モード

Google Distributed Cloud クラスタのパフォーマンスに影響を与える可能性がある障害について説明します。

ESXi ホストの障害

この障害シナリオでは、Kubernetes ノードをホストする仮想マシン（VM）インスタンスを実行する ESXi ホストが機能しなくなったか、ネットワークが分断された可能性があります。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断	中断の可能性と自動復旧	中断の可能性と自動復旧	中断と自動復旧	中断と自動復旧
説明	障害が発生したホストの VM 上で稼働する Pod は中断され、別の正常な VM に自動的に再スケジュールされます。ユーザーアプリケーションが予備のワークロード容量を持ち、複数のノードに分散されている場合、再試行を行うクライアントは中断を検知しません。	ホストの障害が、HA 以外のユーザークラスタ内のコントロールプレーン VM または HA ユーザークラスタ内の複数のコントロールプレーン VM に影響する場合は、中断が発生します。	ホストの障害が、管理クラスタのコントロールプレーン VM またはワーカー VM に影響する場合は、中断が発生します。	ホストの障害が、管理クラスタ内のコントロールプレーン VM に影響する場合は、中断が発生します。
再設定	vSphere HA は、正常なホストで VM を自動的に再起動します。	vSphere HA は、正常なホストで VM を自動的に再起動します。	vSphere HA は、正常なホストで VM を自動的に再起動します。	vSphere HA は、正常なホストで VM を自動的に再起動します。
予防策	高可用性を実現できる方法でワークロードをデプロイし、中断の可能性を最小限に抑えます。	HA ユーザークラスタを使用して、中断が発生する可能性を最小限に抑えます。	—	—

VM の障害

この障害シナリオでは、VM が予期せず削除されたか、ブートディスクが破損したか、オペレーティングシステムの問題で VM が不正使用される可能性があります。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断	中断の可能性と自動復旧	中断の可能性と自動復旧	中断と自動/手動復旧	中断と手動復旧
説明	障害が発生したワーカー VM で実行される Pod は中断され、Kubernetes によって他の正常な VM に自動的に再スケジュールされます。ユーザーアプリケーションが予備のワークロード容量を持ち、複数のノードに分散されている場合、再試行を行うクライアントは中断を検知しません。	HA 以外のユーザークラスタ内のコントロールプレーン VM または HA ユーザークラスタ内の複数のコントロールプレーン VM に障害が起こると、中断が発生します。	管理クラスタ内のコントロールプレーン VM またはワーカー VM で障害が起こると、中断が発生します。	管理クラスタ内のコントロールプレーン VM で障害が起こると、中断が発生します。
再設定	ユーザークラスタでノードの自動修復が有効になっている場合は、障害が発生した VM は自動的に復旧します。	管理クラスタでノードの自動修復を有効にすると、障害が発生した VM は自動的に復旧します。	管理クラスタでノードの自動修復を有効にすると、管理クラスタ内の障害が発生したワーカー VM は自動的に復旧します。管理クラスタのコントロールプレーン VM を復旧するには、管理クラスタのコントロールプレーン VM の修復をご覧ください。	管理クラスタのコントロールプレーン VM を復旧するには、管理クラスタのコントロールプレーン VM の修復をご覧ください。
予防策	高可用性を実現できる方法でワークロードをデプロイし、中断の可能性を最小限に抑えます。	HA ユーザークラスタを使用して、中断が発生する可能性を最小限に抑えます。	—	—

ストレージの障害

この障害シナリオでは、VM の電源が突然切れたことにより、VMDK ファイル内のコンテンツが壊れている可能性があります。また、データストアの障害により、etcdデータとPersistentVolume（PV）が失われている可能性があります。

etcd の障害

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断	中断なし	中断の可能性と手動復旧	中断と手動復旧	中断と手動復旧
説明	—	HA 以外のユーザークラスタ内の etcd ストアまたは HA ユーザークラスタ内の複数の etcd レプリカで障害が起こると、中断が発生します。	HA 以外のユーザークラスタ内の etcd ストアまたは HA ユーザークラスタ内の複数の etcd レプリカで障害が起こると、中断が発生します。管理クラスタ内の etcd レプリカに障害が起こると、中断が発生します。	管理クラスタ内の etcd レプリカに障害が起こると、中断が発生します。
予防策	—	Google Distributed Cloud では、障害から復旧するための手動プロセスが用意されています。	Google Distributed Cloud では、障害から復旧するための手動プロセスが用意されています。	Google Distributed Cloud では、障害から復旧するための手動プロセスが用意されています。

ワークロードを実行

ワークロードの管理

ユーザークラスタの管理

管理クラスタを管理する

中断

中断なし

中断の可能性と手動復旧

中断と手動復旧

説明

—

HA 以外のユーザークラスタ内の etcd ストアまたは HA ユーザークラスタ内の複数の etcd レプリカで障害が起こると、中断が発生します。

管理クラスタ内の etcd レプリカに障害が起こると、中断が発生します。

予防策

—

Google Distributed Cloud では、障害から復旧するための手動プロセスが用意されています。

ユーザーアプリケーション PV の障害

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断	中断の可能性あり	中断なし	中断なし	中断なし
説明	障害が発生した PV を使用するワークロードが影響を受けます。高可用性を実現できる方法でワークロードをデプロイし、中断の可能性を最小限に抑えます。	—	—	—

ワークロードを実行

ワークロードの管理

ユーザークラスタの管理

管理クラスタを管理する

中断

中断の可能性あり

中断なし

説明

障害が発生した PV を使用するワークロードが影響を受けます。

高可用性を実現できる方法でワークロードをデプロイし、中断の可能性を最小限に抑えます。

—

ロードバランサの障害

この障害シナリオでは、ロードバランサの障害は、LoadBalancer タイプの Service を公開するユーザーワークロードに影響を与える可能性があります。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
	中断と手動復旧
説明	スタンバイロードバランサによって管理コントロールプレーンの VIP 接続が復旧されるまで、数秒間の中断が発生します。サービスの中断は、Seesaw を使用する場合には最大 2 秒、F5 を使用すると最大 300 秒になる可能性があります。ロードバランサノードの数が増えると、MetalLB のフェイルオーバーの中断時間が長くなります。5 ノード未満であれば、中断は 10 秒以内です。
再設定	Seesaw HA は障害を自動的に検出し、バックアップインスタンスを使用するようにフェイルオーバーします。 Google Distributed Cloud では、Seesaw の障害を復旧するための手動プロセスが用意されています。

ワークロードを実行

ワークロードの管理

ユーザークラスタの管理

管理クラスタを管理する

中断と手動復旧

説明

スタンバイロードバランサによって管理コントロールプレーンの VIP 接続が復旧されるまで、数秒間の中断が発生します。

サービスの中断は、Seesaw を使用する場合には最大 2 秒、F5 を使用すると最大 300 秒になる可能性があります。

ロードバランサノードの数が増えると、MetalLB のフェイルオーバーの中断時間が長くなります。5 ノード未満であれば、中断は 10 秒以内です。

再設定

Seesaw HA は障害を自動的に検出し、バックアップインスタンスを使用するようにフェイルオーバーします。

Google Distributed Cloud では、Seesaw の障害を復旧するための手動プロセスが用意されています。

壊れたクラスタの復旧

以降のセクションでは、壊れたクラスタの復旧方法について説明します。

ESXi ホストの障害からの復旧

Google Distributed Cloud では、ESXi ホストの障害からの復旧に vSphere HA を利用します。vSphere HA は、ESXi ホストを継続的にモニタリングして、必要な場合は他のホスト上で VM を自動的に再起動できます。復旧を Google Distributed Cloud ユーザーが意識することはありません。

VM の障害からの復旧

VM の障害には、次のようなものがあります。

VM が予期せず削除された。
VM ブートディスクの破損（スパムジャーナルログが原因で読み取り専用になるブートディスクなど）。
ディスクのパフォーマンス低下やネットワーク設定の問題（VM に IP アドレスを割り当てることができないため）が原因で VM を起動できない。
Docker オーバーレイファイルシステムの破損
アップグレードの失敗による管理コントロールプレーン VM の消失。
オペレーティングシステムの問題。

Google Distributed Cloud には、管理者アドオンノード、ユーザーコントロールプレーン、ユーザーノード用の自動復旧メカニズムが用意されています。このノードの自動復旧機能は、管理クラスタとユーザークラスタごとに有効にできます。

管理コントロールプレーン VM は、Kubernetes クラスタによって管理されていないという点で特別なもので、その可用性がビジネス継続性に影響することはありません。管理コントロールプレーン VM の障害の復旧については、Cloud カスタマーケアにお問い合わせください。

ストレージ障害からの復旧

一部のストレージ障害は、vSphere HA と vSAN を使用することで、Google Distributed Cloud に影響を与えることなく軽減できます。ただし、特定のストレージ障害は、vSphere レベルから表面化し、さまざまな Google Distributed Cloud コンポーネントで、データの破損や消失につながる可能性があります。

クラスタとユーザーワークロードのステートフル情報は、次の場所に保存されます。

etcd: 各クラスタ（管理クラスタとユーザークラスタ）には、クラスタの状態（Kubernetes オブジェクト）を保存する etcd データベースがあります。
PersistentVolumes: システムコンポーネントとユーザーワークロードの両方で使用されます。

etcd データの破損や消失からの復旧

etcd は、ユーザーアプリケーションマニフェストを含むすべてのクラスタの状態を保存するために Kubernetes が使用するデータベースです。ユーザークラスタの etcd データベースが破損または消失すると、アプリケーションのライフサイクルオペレーションは機能しなくなります。管理クラスタの etcd データベースが破損または消失すると、ユーザークラスタのライフサイクルオペレーションは機能しなくなります。

etcd は、データの破損を検出する確実な仕組みを備えていません。etcd のデータが破損または消失している疑いがある場合は、etcd Pod のログを調べる必要があります。

保留中 / エラー / クラッシュループの etcd Pod が、常に etcd のデータの破損や消失を意味しているとは限りません。etcd Pod をホストする VM のエラーが原因で発生している可能性があります。次の etcd の復旧は、データが破損や消失した場合にのみ実施してください。

etcd データの破損や消失から復旧する（最新のクラスタ状態に戻す）には、クラスタ内でのライフサイクル操作（作成、更新、アップグレードなど）の後、常に etcd データをバックアップする必要があります。etcd のデータをバックアップするには、管理クラスタのバックアップとユーザークラスタのバックアップをご覧ください。

etcd のデータを復元すると、クラスタは以前の状態になります。アプリケーションがデプロイされる前にバックアップが作成され、そのバックアップを使用してクラスタを復元すると、最近デプロイされたアプリケーションは復元されたクラスタでは実行されません。たとえば、ユーザークラスタを作成する前に作成された管理クラスタの etcd のスナップショットを使用すると、復元された管理クラスタには、ユーザークラスタコントロールプレーンがありません。したがって、重要なクラスタオペレーションそれぞれの後で、クラスタをバックアップすることをおすすめします。

etcd データの破損 / 消失は、次のような状況で発生します。

3 ノード etcd クラスタ（HA ユーザークラスタ）のノードの 1 つが、データの破損や消失が原因で恒久的に壊れる。この場合、1 つのノードのみが使用できなくなっているため、etcd クォーラムは満たされています。これは、いずれかの etcd レプリカのデータが破損または消失した HA クラスタで発生する可能性があります。この問題は、失敗した etcd レプリカをクリーンな状態の新しいレプリカに置き換えることで、データを消失することなく解決できます。詳細については、障害が発生した etcd レプリカを置き換えるをご覧ください。
3 ノード etcd クラスタ（HA ユーザークラスタ）のノードの 2 つが、データの破損や消失が原因で恒久的に壊れる。クォーラムが失われているため、障害が発生した etcd レプリカを新しいレプリカに置き換えても解決しません。バックアップデータからクラスタの状態を復元する必要があります。詳細については、バックアップ（HA）からユーザークラスタを復元するをご覧ください。
単一ノードの etcd クラスタ（管理クラスタまたは HA 以外のユーザークラスタ）が、データの破損や消失が原因で恒久的に壊れる。クォーラムがなくなったため、バックアップから新しいクラスタを作成する必要があります。詳細については、バックアップ（HA 以外）からユーザークラスタを復元するをご覧ください。

ユーザーアプリケーションの PV の破損または消失からの復旧

ユーザーアプリケーションの PersistentVolume をバックアップおよび復元するには、相応のパートナーストレージソリューションを使用できます。Google Distributed Cloud で認定されているストレージパートナーのリストについては、Anthos Ready ストレージパートナーをご覧ください。

ロードバランサの障害からの復旧

バンドル型 Seesaw ロードバランサの場合、ロードバランサを再作成することで障害から復旧できます。ロードバランサを再作成するには、管理クラスタのロードバランサのアップグレードの説明に沿って、Seesaw を同じバージョンにアップグレードします。

管理クラスタのロードバランサに障害が発生した場合、コントロールプレーンが離れている可能性があります。コントロールプレーンにアクセスできる管理コントロールプレーン VM でアップグレードを実行します。

統合ロードバランサ（F5）については、F5 サポートにお問い合わせください。

バンドル型 MetalLB ロードバランサの場合、クラスタノードをロードバランサとして使用します。ロードバランサの問題では、ノードの自動修復はトリガーされません。手動プロセスに沿ってノードを修復できます。

次のステップ

さらにサポートが必要な場合は、Cloud カスタマーケアにお問い合わせください。

Google Distributed Cloud の障害の影響を理解する

障害モード

ESXi ホストの障害

VM の障害

ストレージの障害

etcd の障害

ユーザー アプリケーション PV の障害

ロードバランサの障害

壊れたクラスタの復旧

ESXi ホストの障害からの復旧

VM の障害からの復旧

ストレージ障害からの復旧

etcd データの破損や消失からの復旧

ユーザー アプリケーションの PV の破損または消失からの復旧

ロードバランサの障害からの復旧

次のステップ

ユーザーアプリケーション PV の障害

ユーザーアプリケーションの PV の破損または消失からの復旧