Version 1.13. This version is no longer supported. For information about how to upgrade to version 1.14, see Upgrading Anthos on bare metal in the 1.14 documentation. For more information about supported and unsupported versions, see the Version history page in the latest documentation.

Anthos clusters on bare metal での障害の影響を理解する

Anthos clusters on bare metal は、障害の範囲を限定し、ビジネスの継続性に不可欠な機能を優先するように設計されています。このドキュメントでは、障害が発生した際にクラスタの機能がどのような影響を受けるかを説明します。この情報は、問題が発生した場合にトラブルシューティングを行う部分の優先順位を決めるのに役立ちます。

Anthos clusters on bare metal のコア機能には次のカテゴリがあります。

ワークロードの実行: 既存のワークロードを引き続き実行できます。これは、ビジネスの継続性を維持するための最も重要な考慮事項です。クラスタに問題が発生しても、既存のワークロードは中断されることなく引き続き実行できます。
ワークロードの管理: ワークロードを作成、更新、削除できます。これは、クラスタに問題が発生した場合でも、トラフィックが増加した際にワークロードを拡張するために 2 番目に重要な考慮事項です。
ユーザークラスタの管理: ノードの管理、ユーザークラスタの更新、アップグレード、削除を行うことができます。これは、アプリケーションのライフサイクルに関する考慮事項ほど重要ではありません。既存のノードに使用可能な容量があれば、ユーザークラスタを変更できなくても、ユーザーのワークロードには影響しません。
管理クラスタの管理: 管理クラスタを更新、アップグレードできます。
- 管理クラスタとユーザークラスタを別々に使用するデプロイの場合、管理クラスタはユーザーのワークロードをホストしないため、この考慮事項の重要度は最も低くなります。管理クラスタに問題が発生しても、他のクラスタのアプリケーションのワークロードは中断されることなく実行され続けます。
- ハイブリッドやスタンドアロンなど、他のデプロイモデルを使用する場合は、管理クラスタがアプリケーションのワークロードを実行します。管理クラスタに問題が発生してコントロールプレーンが停止すると、アプリケーションワークロードやユーザークラスタコンポーネントも管理できなくなります。

以下のセクションでは、これらのコア機能のカテゴリを使用して、特定のタイプの障害シナリオの影響について説明します。障害シナリオの一環として中断が発生する場合は、可能な限り中断の期間（順序）も記載します。

ノード障害

Anthos clusters on bare metal のノードは、機能しなくなったり、ネットワーク上で到達不能になったりする可能性があります。障害が発生したマシンが属しているノードプールとクラスタに応じて、いくつかの障害モードがあります。

コントロールプレーンノード

次の表に、Anthos clusters on bare metal のコントロールプレーンの一部であるノードの動作の概要を示します。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断なし	中断の可能性あり（不明）	中断の可能性あり（不明）	中断の可能性あり（不明）
説明	—	ノードの障害が、高可用性でない（HA）ユーザークラスタ内の単一のコントロールプレーンノードに影響する場合、または HA ユーザークラスタ内のコントロールプレーンノードの半分以上に影響する場合は障害が発生しています。ユーザークラスタのコントロールプレーンのクォーラムが失われます。	ノード障害が、非 HA 管理クラスタ内の単一のコントロールプレーンノードに影響するか、HA 管理クラスタ内の半分以上のコントロールプレーンノードに影響する場合は、中断が発生します。管理クラスタのコントロールプレーンのクォーラムが失われます。	ノード障害が、非 HA 管理クラスタ内の単一のコントロールプレーンノードに影響するか、HA 管理クラスタ内の半分以上のコントロールプレーンノードに影響する場合は、中断が発生します。管理クラスタのコントロールプレーンのクォーラムが失われます。
再設定	—	詳細については、クォーラムの損失から回復する方法をご覧ください。	詳細については、クォーラムの損失から回復する方法をご覧ください。	詳細については、クォーラムの損失から回復する方法をご覧ください。
予防策	—	ユーザークラスタを HA モードでデプロイして、中断が発生する可能性を最小限に抑えます。	管理クラスタを HA モードでデプロイして、中断が発生する可能性を最小限に抑えます。	管理クラスタを HA モードでデプロイして、中断が発生する可能性を最小限に抑えます。

ロードバランサノード

次の表には、Anthos clusters on bare metal でロードバランサをホストするノードの動作の概要を示しています。このガイダンスは、レイヤ 2 モードのバンドル型ロードバランサにのみ適用されます。手動による負荷分散の場合は、外部ロードバランサの障害モードを確認します。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断の可能性あり（各種）	中断の可能性あり（各種）	中断の可能性あり（各種）	中断の可能性あり（各種）
説明	外部ワークロードはクラスタ内のワークロードと通信する際にデータプレーンロードバランサに依存しており、ロードバランサノードが 1 つしかない場合は、中断が発生します。	ユーザークラスタのコントロールプレーンの仮想 IP アドレスは、1 つのロードバランサノード上に存在します。ユーザークラスタのロードバランサノードプールが HA でない場合は、中断が発生します。	管理クラスタのコントロールプレーンの仮想 IP アドレスは、1 つのロードバランサノード上に存在します。管理クラスタのロードバランサノードプールが HA でない場合は、中断が発生します。	管理クラスタのコントロールプレーンの仮想 IP アドレスは、1 つのロードバランサノード上に存在します。管理クラスタのロードバランサノードプールが HA でない場合は、中断が発生します。
再設定	複数のロードバランサノードが存在する場合、MetalLB のフェイルオーバーは数秒以内に発生します。 HA でない場合は、追加のロードバランサノードのデプロイを検討してください。	HA の場合、フェイルオーバーは数秒程度で自動的に行われます。 HA でない場合は、追加のロードバランサノードのデプロイを検討してください	HA の場合、フェイルオーバーは数秒程度で自動的に行われます。 HA でない場合は、追加のロードバランサノードのデプロイを検討してください。	HA の場合、フェイルオーバーは数秒程度で自動的に行われます。 HA でない場合は、追加のロードバランサノードのデプロイを検討してください。
予防策	中断が発生する可能性を最小限に抑えるには、ロードバランサのノードプールを HA モードでデプロイします。	中断が発生する可能性を最小限に抑えるには、ロードバランサのノードプールを HA モードでデプロイします。	中断が発生する可能性を最小限に抑えるには、ロードバランサのノードプールを HA モードでデプロイします。	中断が発生する可能性を最小限に抑えるには、ロードバランサのノードプールを HA モードでデプロイします。

ワーカーノード

次の表に、Anthos clusters on bare metal にあるワーカーノードの動作の概要を示します。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断の可能性あり（数秒程度）	中断なし	中断なし	中断なし
説明	障害が発生したノードで実行されている `Pods` は中断され、デフォルトのエビクションタイムアウトが 5 分に設定されている他の正常なノードに自動的に再スケジュールされます。ユーザーアプリケーションが予備のワークロード容量を持ち、複数のノードに分散されている場合、再試行を行うクライアントで中断は検知されません。 `Pods` は正常なノードで自動的に再起動されます。クラスタに予備の容量がない場合は、新しいノードがクラスタに追加されるまで、中断が継続する可能性があります。	—	—	—
再設定	クラスタに予備の容量がない場合は、複数の障害ゾーンに分散したノードを追加でデプロイし、障害が発生したワークロードを新しいノードに移行する必要があります。	—	—	—
予防策	複数の障害ゾーンに分散しているノードをデプロイします。複数の障害ゾーンに分散した複数のレプリカを持つワークロードをデプロイして、中断が発生する可能性を最小限に抑えます。	—	—	—

ストレージの障害

Anthos clusters on bare metal のストレージは、機能しなくなったり、ネットワーク上で到達不能になったりする可能性があります。障害が発生したストレージに応じて、いくつかの障害モードがあります。

etcd

ノードの突然の電源切断やストレージの根本的な障害が原因で、etcd の内容が破損する可能性があります。次の表に、etcd エラーによるコア機能の動作の概要を示します。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断なし	中断の可能性あり（不明）	中断の可能性あり（不明）	中断の可能性あり（不明）
説明	既存のワークロードが Kubernetes コントロールプレーンに依存しない場合は、ワークロードは中断することなく機能し続けます。	単一のコントロールプレーンユーザークラスタの `etcd` で障害が発生するか、HA ユーザークラスタ内の半分以上のコントロールプレーンノードで障害が発生すると、中断が起きます。ユーザークラスタのコントロールプレーンのクォーラムが失われます。	単一のコントロールプレーン管理クラスタの `etcd` で障害が発生するか、HA 管理クラスタ内の半分以上のコントロールプレーンノードで障害が発生すると、中断が起きます。管理クラスタのコントロールプレーンのクォーラムが失われます。	単一のコントロールプレーン管理クラスタの `etcd` で障害が発生するか、HA 管理クラスタ内の半分以上のコントロールプレーンノードで障害が発生すると、中断が起きます。管理クラスタのコントロールプレーンのクォーラムが失われます。
再設定	—	詳細については、クォーラムの損失から回復する方法をご覧ください。	詳細については、クォーラムの損失から回復する方法をご覧ください。	詳細については、クォーラムの損失から回復する方法をご覧ください。
予防策	—	中断が発生する可能性を最小限に抑えるために、ユーザークラスタを HA モードでデプロイします。	中断が発生する可能性を最小限に抑えるために、管理クラスタを HA モードでデプロイします。	中断が発生する可能性を最小限に抑えるために、管理クラスタを HA モードでデプロイします。

ユーザーアプリケーション `PersistentVolume`

次の表に、PersistentVolume での障害の発生によるコア機能の動作の概要を示します。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断の可能性あり（不明）	中断なし	中断なし	中断なし
説明	障害の発生した `PersistentVolume are affected.` を使用するワークロード	—	—	—
再設定	—	—	—	—
予防策	中断が発生する可能性を最小限に抑えるために、ユーザーワークロードを HA モードでデプロイします。	—	—	—

Fluent Bit の破損ディスク

Fluent Bit のディスクの破損は、コア機能には影響しませんが、Google Cloud でログを収集して検査する機能には影響します。

stackdriver-log-forwarder のログから SIGSEGV イベントが検知される場合があります。このエラーは、ディスク上でバッファリングされたログが破損したことが原因で発生する可能性があります。

Fluent Bit には、壊れたチャンクを除去してドロップするメカニズムがあります。この機能は、Anthos clusters on bare metal で使用される Fluent Bit バージョン（v1.8.3）で使用できます。

`LoadBalancer` IP の枯渇

割り当てられたプール内の IP アドレスが現在すべて占有されている場合、新しく作成された LoadBalancer サービスは LoadBalancer IP アドレスを取得できません。このシナリオは、サービスのクライアントが LoadBalancer サービスと通信する機能に影響を与えます。

この IP アドレスの枯渇から回復するには、クラスタのカスタムリソースを変更して、アドレスプールにより多くの IP アドレスを割り振ります。

証明書の期限切れ:

クラスタが 1 年間アップグレードされておらず、オンデマンドローテーションが実行されていない場合、クラスタオペレーションで使用される証明書は期限切れになる可能性があります。

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断なし	中断の可能性あり（不明）	中断の可能性あり（不明）	中断の可能性あり（不明）
説明	ユーザーワークロードが kubernetes コントロールプレーンのコンポーネントと通信しない場合、中断は発生しません。	ユーザークラスタの認証局が期限切れになると、中断が発生します。	管理クラスタの認証局が期限切れるになると、中断が発生します。	ユーザークラスタの認証局が期限切れになると、中断が発生します。
再設定	—	手順に沿って、ユーザークラスタで証明書のローテーションを手動でトリガーします。 CA のローテーション中は、中断が発生します。	手順に沿って、管理クラスタで証明書のローテーションを手動でトリガーします。 CA のローテーション中は、中断が発生します。	手順に沿って、管理クラスタで証明書のローテーションを手動でトリガーします。 CA のローテーション中は、中断が発生します。
予防策	証明書の有効期限を対象とするモニターを設定します。指標の例「kubelet_certificate_manager_server_expiration_seconds」は、指標のリストで確認できます。

アップグレードの失敗

	ワークロードを実行	ワークロードの管理	ユーザークラスタの管理	管理クラスタを管理する
中断（期間）	中断なし	中断なし	中断の可能性あり（不明）	中断の可能性あり（不明）
説明	ユーザークラスタのコントロールプレーンでアップグレードに失敗した場合、既存のワークロードが中断されることはありません。特定のワーカーノードでアップグレードが失敗すると、そのノード上のワークロードはドレインされ、他の正常なノードの容量に余裕があればその正常なノードに移動されます。	コントロールプレーンノードのいずれかでアップグレードに失敗すると、アップグレードは停止します。ユーザークラスタが HA の場合は、アップグレードに失敗してもクラスタは機能します。	管理クラスタのコントロールプレーンでアップグレードが失敗した場合は、アップグレードが終了するまで中断が発生します。	管理クラスタのコントロールプレーンでアップグレードが失敗した場合は、アップグレードが終了するまで中断が発生します。
再設定	—	—	アップグレードは再試行できます。詳細については、アップグレードの問題を診断して再開する方法をご覧ください。	アップグレードは再試行できます。詳細については、アップグレードの問題を診断して再開する方法をご覧ください。
予防策	—	—	詳細については、アップグレードの前にバックアップを作成する方法をご覧ください。	詳細については、アップグレードの前にバックアップを作成する方法をご覧ください。

次のステップ

プロダクトの既知の問題と回避策について詳しくは、Anthos clusters on bare metal に関する既知の問題をご覧ください。

Anthos clusters on bare metal での障害の影響を理解する

ノード障害

コントロール プレーン ノード

ロードバランサ ノード

ワーカーノード

ストレージの障害

etcd

ユーザー アプリケーション PersistentVolume

Fluent Bit の破損ディスク

LoadBalancer IP の枯渇

証明書の期限切れ:

アップグレードの失敗

次のステップ

コントロールプレーンノード

ロードバランサノード

ユーザーアプリケーション `PersistentVolume`

`LoadBalancer` IP の枯渇