Version 1.16. This version is no longer supported. For information about how to upgrade to version 1.28, see Upgrade clusters in the latest documentation. For more information about supported and unsupported versions, see the Versioning page in the latest documentation.

クラスタアップグレードのライフサイクルとステージ

GKE on Bare Metal をアップグレードする場合、アップグレードプロセスには複数のステップとコンポーネントが含まれます。アップグレードステータスのモニタリングや、問題の診断とトラブルシューティングを行う際に、bmctl upgrade cluster コマンドを実行した場合に起こる内容を把握することが有効です。このドキュメントでは、クラスタのアップグレードのコンポーネントとステージについて詳しく説明します。

概要

アップグレードプロセスにより、GKE on Bare Metal クラスタを現在のバージョンから上位のバージョンに移行します。

このバージョン情報は、管理クラスタのクラスタカスタムリソースの一部として、次の場所に保存されます。

status.anthosBareMetalVersion: クラスタの現在のバージョンを定義します。
spec.anthosBareMetalVersion: ターゲットバージョンを定義します。アップグレードプロセスの実行の開始時に設定されます。

アップグレードオペレーションが成功すると、status.anthosBareMetalVersion が spec.anthosBareMetalVersion に調整され、両方のターゲットバージョンが表示されます。

バージョンスキュー

バージョンスキューとは、管理クラスタとその管理対象のユーザークラスタのバージョンの違いのことです。GKE on Bare Metal クラスタは、Kubernetes と同じスタイルに従います。管理クラスタは、マネージドクラスタよりも最大で 1 つ新しいマイナーバージョンにできます。

アップグレードのバージョンルール

新しいバージョンの bmctl をダウンロードしてインストールすると、bmctl の以前のバージョンで作成またはアップグレードされた管理者、ハイブリッド、スタンドアロン、ユーザークラスタをアップグレードできます。クラスタを下位バージョンにダウングレードすることはできません。

クラスタは、使用している bmctl のバージョンと一致するバージョンにのみアップグレードできます。つまり、bmctl のバージョン 1.16.8 を使用している場合は、クラスタをバージョン 1.16.8 にのみアップグレードできます。

パッチバージョンのアップグレード

任意のマイナーバージョンについて、より上位のパッチバージョンにアップグレードできます。つまり、Y が X より大きい限り、1.16.X バージョンクラスタをバージョン 1.16.Y にアップグレードできます。たとえば、1.15.0 から 1.15.1 にアップグレードしたり、1.15.1 から 1.15.3 にアップグレードしたりできます。クラスタに最新のセキュリティ修正が適用されているように、可能な限り最新のパッチバージョンにアップグレードすることをおすすめします。

マイナーバージョンのアップグレード

パッチバージョンに関係なく、クラスタをマイナーバージョン間でアップグレードできます。つまり、1.N.X がお使いのクラスタのバージョンで、N+1 が次に使用可能なマイナーバージョンであれば、1.N.X から 1.N+1.Y にアップグレードできます。この場合、パッチバージョン X と Y はアップグレードロジックに影響しません。たとえば、1.15.3 から 1.16.8 にアップグレードできます。

クラスタのアップグレードでは、マイナーバージョンをスキップすることはできません。クラスタのバージョンから 2 つ以上離れたマイナーバージョンにアップグレードしようとすると、bmctl がエラーを出力します。たとえば、バージョン 1.14.0 のクラスタをバージョン 1.16.0 にアップグレードすることはできません。

管理クラスタは、同じマイナーバージョンまたは以前のマイナーバージョンのユーザークラスタを管理できます。マネージドユーザークラスタは、管理クラスタより 1 つ前のマイナーバージョン以降でなければなりません。そのため、管理クラスタを新しいマイナーバージョンにアップグレードする前に、すべてのマネージドユーザークラスタが管理クラスタと同じマイナーバージョンであることを確認してください。

次のアップグレード手順の例では、バージョン 1.15.2 から GKE on Bare Metal 1.16.8 へのアップグレードプロセスを示します。

ノードプールのバージョニングルール

ノードプールを選択的にアップグレードする場合は、次のバージョンルールが適用されます。

クラスタバージョンは、ワーカーノードプールのバージョン以上である必要があります。
クラスタバージョンとワーカーノードプールバージョン間の最大スキューは、1 つのマイナーバージョンです。
ワーカーノードプールは、クラスタバージョンより後にリリースされたバージョンにすることはできません。

たとえば、バージョン 1.16.0 のリリース時に使用できないバージョン 1.15.4 のクラスタでは、バージョン 1.16.0 にアップグレードして、ワーカーノードプールをバージョン 1.15.4 のままにすることはできません。同様に、バージョン 1.16.0 にアップグレードしても、ワーカーノードプールをバージョン 1.15.2 のままにした場合、後でワーカーノードプールをバージョン 1.15.4 にアップグレードすることはできません。

次の表に、特定のクラスタバージョンで許可されている、サポートされているノードプールのバージョンを示します。

クラスタ（コントロールプレーン）のバージョン	サポートされているワーカーノードプールのバージョン
1.16.8	1.16.8 1.16.7 1.16.6 1.16.5 1.16.4	1.16.3 1.16.2 1.16.1 1.16.0 1.15.9	1.15.8 1.15.7 1.15.6 1.15.5 1.15.4	1.15.3 1.15.2 1.15.1 1.15.0
1.16.7	1.16.7 1.16.6 1.16.5 1.16.4 1.16.3	1.16.2 1.16.1 1.16.0 1.15.9 1.15.8	1.15.7 1.15.6 1.15.5 1.15.4 1.15.3	1.15.2 1.15.1 1.15.0
1.16.6	1.16.6 1.16.5 1.16.4 1.16.3 1.16.2	1.16.1 1.16.0 1.15.9 1.15.8 1.15.7	1.15.6 1.15.5 1.15.4 1.15.3 1.15.2	1.15.1 1.15.0
1.16.5	1.16.5 1.16.4 1.16.3 1.16.2	1.16.1 1.16.0 1.15.8 1.15.7	1.15.6 1.15.5 1.15.4 1.15.3	1.15.2 1.15.1 1.15.0
1.16.4	1.16.4 1.16.3 1.16.2 1.16.1	1.16.0 1.15.7 1.15.6 1.15.5	1.15.4 1.15.3 1.15.2 1.15.1	1.15.0
1.16.3	1.16.3 1.16.2 1.16.1 1.16.0	1.15.6 1.15.5 1.15.4 1.15.3	1.15.2 1.15.1 1.15.0
1.16.2	1.16.2 1.16.1 1.16.0 1.15.5	1.15.4 1.15.3 1.15.2 1.15.1	1.15.0
1.16.1	1.16.1 1.16.0 1.15.4 1.15.3	1.15.2 1.15.1 1.15.0
1.16.0	1.16.0 1.15.3 1.15.2 1.15.1	1.15.0

コンポーネントをアップグレードする

コンポーネントは、ノードとクラスタの両方のレベルでアップグレードされます。クラスタレベルでは、次のコンポーネントがアップグレードされます。

ネットワーキング、オブザーバビリティ、ストレージのクラスタコンポーネント。
管理クラスタ、ハイブリッドクラスタ、スタンドアロンクラスタの場合、ライフサイクルコントローラ。
gke-connect-agent。

クラスタ内のノードは次のいずれかのロールとして動作し、ノードのロールに応じてさまざまなコンポーネントがアップグレードされます。

ノードのロール	関数	アップグレードするコンポーネント
ワーカー	ユーザーワークロードを実行する	Kubelet、コンテナランタイム（Docker または containerd）
コントロールプレーン	Kubernetes コントロールプレーン、クラスタライフサイクルコントローラ、Google Kubernetes Engine（GKE）Enterprise エディションプラットフォームアドオンを実行する	Kubernetes コントロールプレーンの静的 Pod（`kubeapi-server`、`kube-scheduler`、`kube-controller-manager`、etcd） `lifecycle-controllers-manager` および `anthos-cluster-operator` などのライフサイクルコントローラ `stackdriver-log-aggregator` および `gke-connect-agent` などの Google Kubernetes Engine（GKE）Enterprise エディションプラットフォームアドオン
コントロールプレーンのロードバランサ	`kube-apiserver` へのトラフィックを処理する HAProxy と Keepalived を実行し、仮想 IP アドレスを申請して MetalLB スピーカーを実行する	コントロールプレーンロードバランサの静的 Pod（HAProxy、Keepalived） MetalLB スピーカー

注: Config Sync、Policy Controller、Config Controller、Anthos Service Mesh は、GKE on Bare Metal のアップグレードの一部として含まれていません。GKE on Bare Metal クラスタは、Config Sync、Policy Controller、Config Controller、Anthos Service Mesh などの追加のコンポーネントをアップグレードする前または後にアップグレードできます。Google Kubernetes Engine（GKE）Enterprise エディションのプロダクトのアップグレード順序は関係ありません。Google Kubernetes Engine（GKE）Enterprise エディションコンポーネントのバージョン互換性情報については、Google Kubernetes Engine（GKE）Enterprise エディションのバージョンとアップグレードのサポートをご覧ください。

ダウンタイムの想定値

次の表に、クラスタをアップグレードする際に予想されるダウンタイムと潜在的な影響を示します。この表は、複数のクラスタノードと HA コントロールプレーンがあることを前提としています。スタンドアロンクラスタを実行するか、HA コントロールプレーンがない場合は、追加のダウンタイムが発生します。特に明記されていない限り、このダウンタイムは管理クラスタとユーザークラスタの両方のアップグレードに適用されます。

コンポーネント	ダウンタイムの想定値	ダウンタイムが発生する場合
Kubernetes コントロールプレーン API サーバー（`kube-apiserver`）、etcd、スケジューラ	ダウンタイムなし	該当なし
ライフサイクルコントローラと `ansible-runner` ジョブ（管理クラスタのみ）	ダウンタイムなし	該当なし
Kubernetes コントロールプレーン `loadbalancer-haproxy`、`keepalived`	ロードバランサがトラフィックをリダイレクトする際の一時的なダウンタイム（1～2 分未満）。	アップグレードプロセスの開始時。
オブザーバビリティ `pipeline-stackdriver` と `metrics-server`	オペレータがドレインされ、アップグレードされた。ダウンタイムは 5 分未満となります。 DaemonSet は引き続きダウンタイムなしで動作します。	コントロールプレーンノードのアップグレード完了後。
Container Network Interface（CNI）	既存のネットワークルートはダウンタイムなし。 DaemonSet は、ダウンタイムなしで 2 つずつデプロイされます。オペレーターはドレインされ、アップグレードされます。5 分未満のダウンタイム。	コントロールプレーンノードのアップグレード完了後。
MetalLB（ユーザークラスタのみ）	オペレータがドレインされ、アップグレードされた。ダウンタイムは 5 分未満です。既存のサービスのダウンタイムなし	コントロールプレーンノードのアップグレード完了後。
CoreDNS と DNS オートスケーラー（ユーザークラスタのみ）	CoreDNS にはオートスケーラーを持つ複数のレプリカがあります。通常、ダウンタイムは発生しません。	コントロールプレーンノードのアップグレード完了後。
ローカルボリュームプロビジョナー	既存のプロビジョニングされた永続ボリューム（PV）のダウンタイムなし。オペレータは 5 分間のダウンタイムが発生する可能性があります。	コントロールプレーンノードのアップグレード完了後。
Istio / ingress	Istio オペレータがドレインされ、アップグレードされます。約 5 分のダウンタイム。既存の構成済みの Ingress は引き続き動作します。	コントロールプレーンノードのアップグレード完了後。
その他のシステムオペレータ	ドレインとアップグレード時のダウンタイムは 5 分。	コントロールプレーンノードのアップグレード完了後。
ユーザーワークロード	設定によって異なる（高可用性など）。独自のワークロードデプロイを確認して、潜在的な影響を把握する。	ワーカーノードがアップグレードされるとき。

ユーザークラスタのアップグレードの詳細

このセクションでは、コンポーネントのアップグレードの順序と、ユーザークラスタアップグレードのステータス情報について詳しく説明します。次のセクションでは、管理クラスタ、ハイブリッドクラスタ、スタンドアロンクラスタのアップグレードに関する、このフローからの逸脱について詳しく説明します。

次の図は、ユーザークラスタのアップグレードに関するプリフライトチェックプロセスを示しています。

クラスタのプリフライトチェックでは、アップグレードプロセスを開始する前に、クラスタで追加のヘルスチェックが実行されます。

上の図は、アップグレード中に発生するステップの詳細を示しています。

bmctl upgrade cluster コマンドは、PreflightCheck カスタムリソースを作成します。
このプリフライトチェックでは、クラスタのアップグレードチェック、ネットワークヘルスチェック、ノードヘルスチェックなどの追加チェックが実行されます。
これらの追加チェックの結果が結合され、クラスタがターゲットバージョンに正常にアップグレードできるかどうかが報告されます。

プリフライトチェックが成功し、ブロックの問題がない場合は、次の図のように、クラスタ内のコンポーネントが指定された順序でアップグレードされます。

コントロールプレーンのロードバランサとコントロールプレーンのノードプールがアップグレードされ、次に GKE 接続、クラスタアドオン、ロードバランサノードプールとワーカーノードプールがアップグレードされます。

上の図では、コンポーネントが次の順番でアップグレードされます。

アップグレードは、spec.anthosBareMetalVersion フィールドの更新から始まります。
コントロールプレーンのロードバランサがアップグレードされます。
コントロールプレーンのノードプールがアップグレードされます。
同時に、GKE 接続がアップグレードされ、クラスタアドオンがアップグレードされ、ロードバランサノードプールがアップグレードされます。
1. ロードバランサのノードプールが正常にアップグレードされると、ワーカーノードプールがアップグレードされます。
すべてのコンポーネントがアップグレードされると、クラスタのヘルスチェックが実行されます。

すべてのチェックに合格するまで、ヘルスチェックの実行が継続されます。
すべてのヘルスチェックに合格すると、アップグレードが終了します。

各コンポーネントには、クラスタカスタムリソース内に独自のステータスフィールドがあります。これらのフィールドのステータスを確認して、アップグレードの進行状況を確認できます。

シーケンス	フィールド名	意味
1	`status.controlPlaneNodepoolStatus`	ステータスは、コントロールプレーンのノードプールのステータスからコピーされます。このフィールドには、コントロールプレーンノードプールのノードのバージョンが含まれます
2	`status.anthosBareMetalLifecycleControllersManifestsVersion`	クラスタに適用されている `lifecycles-controllers-manager` のバージョン。このフィールドは、管理クラスタ、スタンドアロンクラスタ、ハイブリッドクラスタでのみ使用できます。
2	`status.anthosBareMetalManifestsVersion`	最後に適用されたマニフェストのクラスタのバージョン。
2	`status.controlPlaneLoadBalancerNodepoolStatus`	ステータスは、コントロールプレーンロードバランサのノードプールのステータスからコピーされます。`Cluster.Spec` に個別のコントロールプレーンロードバランサが指定されていない場合、このフィールドは空になります。
3	`status.anthosBareMetalVersions`	バージョンからノード番号への統合バージョンマップ。
4	`status.anthosBareMetalVersion`	アップグレードされたバージョンの最終ステータス。

管理クラスタ、ハイブリッドクラスタ、スタンドアロンクラスタのアップグレードの詳細

bmctl バージョン 1.15.0 以降では、セルフマネージド（管理、ハイブリッド、スタンドアロン）クラスタのデフォルトのアップグレード動作はインプレース アップグレードです。つまり、クラスタをバージョン 1.15.0 以降にアップグレードすると、アップグレードでは、ブートストラップクラスタの代わりにライフサイクルコントローラを使用して、アップグレードプロセス全体を管理します。この変更によりプロセスが簡素化され、リソースの要件が縮小されるため、クラスタのアップグレードの信頼性とスケーラビリティが向上します。

アップグレードにブートストラップクラスタを使用することはおすすめしませんが、このオプションは引き続き使用できます。アップグレード時にブートストラップクラスタを使用するには、--use-bootstrap=true フラグを指定して bmctl upgrade コマンドを実行します。アップグレードのステージは、使用する方法によって異なります。

インプレースアップグレード

セルフマネージドクラスタのデフォルトのインプレースアップグレードプロセスは、ユーザークラスタのアップグレードプロセスと類似しています。ただし、インプレースアップグレードプロセスを使用すると、クラスタのプリフライトチェックとヘルスチェックが実行される前に、preflightcheck-operator の新しいバージョンがデプロイされます。

preflightcheck-operator の新しいバージョンは、クラスタのプリフライトチェックがクラスタで追加のヘルスチェックを実行する前にデプロイされます。

ユーザークラスタのアップグレードと同様に、Cluster.spec.anthosBareMetalVersion フィールドを目的のバージョンに更新してアップグレードプロセスを開始します。次の図に示すように、コンポーネントが更新される前に 2 つの追加のステップが実行されます。lifecycle-controller-manager は、目的のバージョンに自身をアップグレードしてから、目的のバージョンの anthos-cluster-operator をデプロイします。この anthos-cluster-operator は、アップグレードプロセスの残りのステップを実行します。

lifecycle-controller-manager と anthos-cluster-operator は、ユーザークラスタのコンポーネントと同じ順序で残りのクラスタがアップグレードされる前にデプロイされます。

成功すると、anthos-cluster-operator によってターゲットバージョンが spec.anthosBareMetalVersion から status.anthosBareMetalVersion に整合されます。

ブートストラップクラスタを使用したアップグレード

管理クラスタ、ハイブリッドクラスタ、スタンドアロンクラスタをアップグレードするプロセスは、前のセクションで説明したユーザークラスタと類似しています。

主な違いは、bmctl upgrade cluster コマンドによって、ブートストラップクラスタを作成するプロセスが開始されることです。このブートストラップクラスタは、アップグレード中にハイブリッドクラスタ、管理クラスタ、スタンドアロンクラスタを管理する一時的なクラスタです。

クラスタの管理所有権をブートストラップクラスタに移行するプロセスを、ピボットといいます。残りのアップグレードは、ユーザークラスタのアップグレードと同じプロセスで行われます。

アップグレードプロセス中、ターゲットクラスタ内のリソースは古いままです。アップグレードの進行状況は、ブートストラップクラスタのリソースにのみ反映されます。

必要に応じて、ブートストラップクラスタにアクセスしてアップグレードプロセスのモニタリングとデバッグを行うことができます。ブートストラップクラスタには bmctl-workspace/.kindkubeconfig を使用してアクセスできます。

アップグレードの完了後にクラスタの管理所有権を元に戻すには、クラスタがブートストラップクラスタからアップグレードされたクラスタにリソースをピボットします。アップグレードプロセス中にクラスタをピボットするための手動のステップはありません。クラスタのアップグレードに成功すると、ブートストラップクラスタが削除されます。

ノードのドレイン

GKE on Bare Metal クラスタをアップグレードすると、ノードがドレインされるため、アプリケーションの中断が発生する可能性があります。このドレインプロセスにより、ノード上で実行されているすべての Pod がシャットダウンされ、クラスタ内の残りのノードで再起動します。

Deployment は、そのような中断を許容するために使用できます。Deployment では、アプリケーションまたはサービスの複数のレプリカの実行を指定できます。複数のレプリカを使用するアプリケーションでは、アップグレード中に中断がほとんど、またはまったく発生しません。

Pod Disruption Budget（PDB）

Pod Disruption Budget（PDB）を使用すると、定義された数のレプリカが常に通常の実行条件でクラスタで実行されるようにできます。PDB を使用すると、Pod を再スケジュールする必要がある場合に中断をワークロードに制限できます。ただし、アップグレード中にノードがドレインされても、GKE on Bare Metal は PDB の設定に従いません。ノードのドレインプロセスはベストエフォートです。一部の Pod が Terminating 状態から先に進まず、ノードを空にしないことがあります。ノードのドレインプロセスに 20 分以上かかる場合、停止した Pod があってもアップグレードは続行されます。

クラスタ アップグレードのライフサイクルとステージ

概要

バージョン スキュー

アップグレードのバージョン ルール

パッチ バージョンのアップグレード

マイナー バージョンのアップグレード

ノードプールのバージョニング ルール