Anthos clusters on bare metal はベアメタル向け Google Distributed Cloud（ソフトウェアのみ）になりました。詳細については、プロダクトの概要をご覧ください。

Google Distributed Cloud クラスタのアップグレードに関するベストプラクティス

このドキュメントでは、Google Distributed Cloud をアップグレードするためのベストプラクティスと考慮事項について説明します。ここでは、クラスタのアップグレードを準備する方法と、アップグレード前に行うベストプラクティスについて説明します。以下のベストプラクティスは、クラスタのアップグレードに関連するリスクの軽減に役立ちます。

テスト、開発、本番環境などの複数の環境がある場合、テストなどの重要度の低い環境から開始し、アップグレード機能を確認することをおすすめします。成功したら、次の環境に進みます。本番環境をアップグレードするまで、このプロセスを繰り返します。この方法により、重要なポイントから次のポイントに進行し、アップグレードとワークロードがすべて正しく実行されることを確認できます。

アップグレードのチェックリスト

このドキュメントに記載されているすべてのベストプラクティスに従うことをおすすめします。以下のチェックリストを使用して、進捗状況の追跡に活用してください。リスト内の各項目は、詳細情報が記載されているこのドキュメントのセクションにリンクしています。

アップグレードの所要時間を見積もり、メンテナンスの時間枠を計画する。

アップグレード先のバージョンと他の GKE Enterprise コンポーネントとの互換性を確認する。

コントロールプレーンとワーカーノードのクラスタリソースの使用率を確認する。

クラスタをバックアップする。

クラスタが構成され、正しく動作していることを確認し、アップグレード前に問題を解決する。

Deployments、StatefulSets、DaemonSets のユーザーワークロードのデプロイを確認する。

Webhook の使用を監査する。

プレビュー機能の使用を確認する。

SELinux のステータスを確認する。

Pod の密度構成を変更しない。

コントロールプレーンとロードバランサのノードがメンテナンスモードになっていないことを確認する。

これらのチェックが完了したら、アップグレードプロセスを開始できます。すべてのクラスタが正常にアップグレードされるまで、進捗状況をモニタリングします。

アップグレードを計画する

アップグレードが中断される可能性があります。アップグレードを開始する前に、慎重に計画を行って環境とアプリケーションの準備ができていることを確認してください。

所要時間を見積もり、メンテナンスの時間枠を計画する

クラスタのアップグレードにかかる時間は、ノード数とノード上で実行されるワークロードの密度によって異なります。クラスタのアップグレードを正常に完了するには、メンテナンスの時間枠に十分な時間を確保します。

アップグレードの大まかな見積もり時間を計算するには、10 minutes * the number of nodes を単一の同時ノードアップグレードに使用します。

たとえば、クラスタ内に 50 個のノードがある場合、合計アップグレード時間は約 500 分（10 minutes * 50 nodes = 500 minutes）になります。

他の GKE Enterprise コンポーネントの互換性を確認する

クラスタが Cloud Service Mesh、Config Sync、Policy Controller、Config Controller などの GKE Enterprise コンポーネントを実行している場合は、GKE Enterprise のバージョンとアップグレードのサポートをチェックして、アップグレード前後の Google Distributed Cloud でサポートされているバージョンを確認します。

互換性チェックは、Cloud Service Mesh、Config Sync、Policy Controller、または Config Controller がデプロイされている管理クラスタやユーザークラスタをベースとします。

クラスタのリソース使用量を確認する

ノードがドレインされたときに Pod が強制排除され、アップグレードを管理するのに十分なリソースがアップグレード中のクラスタ内にあることを確認するには、クラスタの現在のリソース使用量を確認します。クラスタのリソース使用量を確認するには、Google Cloud Observability　のカスタムダッシュボードを使用します。

kubectl top nodes などのコマンドを使用して現在のクラスタのリソース使用量を取得できますが、ダッシュボードでは時間の経過に伴うリソースの使用状況について詳細を確認できます。このリソースの使用状況データは、実行中のワークロードとユースケースに応じて、アップグレードが中断を最小限にとどめる要因（週末や夜間など）を判断する際に活用できます。

通常、管理クラスタのアップグレードはアプリケーションのダウンタイムを発生させないため、そのタイミングはユーザークラスタよりも重要でない場合があります。ただし、管理クラスタのアップグレードを開始する前に、利用可能なリソースを確認することが引き続き重要です。また、管理クラスタのアップグレードはある程度のリスクを伴うため、クラスタへの管理アクセスが重要でない、あまり使われていない期間中に推奨されることがあります。

管理クラスタコントロールプレーンのリソース

すべてのアップグレードコントローラとジョブが、管理クラスタコントロールプレーンノードで実行されます。使用可能なコンピューティングリソースを把握するには、これらのコントロールプレーンノードのリソース使用量を確認します。アップグレードプロセスでは通常、ライフサイクルコントローラの各セットに 1,000 ミリコアの CPU（1,000 mCPU）と、2～3 GiB の RAM が必要です。CPU ユニット「mCPU」は「コアの 1,000 分の 1」を表します。つまり、1,000 ミリコアは、各ライフサイクルコントローラの各ノードで 1 コアに相当します。アップグレード中に、要求される追加のコンピューティングリソースを削減するには、ユーザークラスタを同じバージョンに維持してみてください。

次のデプロイ例では、2 つのユーザークラスタが管理クラスタとは異なるバージョンになっています。

管理クラスタ	ユーザークラスタ 1	ユーザークラスタ 2
1.13.3	1.13.0	1.13.2

使用されているバージョンごとに、ライフサイクルコントローラのセットが管理コントローラにデプロイされます。この例では、3 つのライフサイクルコントローラセット（1.13.3、1.13.0、1.13.2）があります。ライフサイクルコントローラの各セットは、合計で 1,000 mCPU と 3 GiB の RAM を使用します。これらのライフサイクルコントローラの現在の合計リソース使用量は、3,000 mCPU と 9 GiB の RAM です。

ユーザークラスタ 2 が 1.13.3 にアップグレードされると、ライフサイクルコントローラのセットが 2 つ（1.13.3 と 1.13.0）になります。

管理クラスタ	ユーザークラスタ 1	ユーザークラスタ 2
1.13.3	1.13.0	1.13.3

ライフサイクルコントローラは、合計で 2,000 mCPU と 6 GiB の RAM を使用することになります。

ユーザークラスタ 1 が 1.13.3 にアップグレードされた場合、フリートはすべて同じバージョン（1.13.3）で実行されることになります。

管理クラスタ	ユーザークラスタ 1	ユーザークラスタ 2
1.13.3	1.13.3	1.13.3

ライフサイクルコントローラのセットは 1 つのみになり、合計で 1, 000 mCPU と 3 GiB の RAM を使用します。

次の例では、すべてのユーザークラスタが同じバージョンになります。管理クラスタがアップグレードされると、ライフサイクルコントローラのセットが 2 つだけ使用されるため、コンピューティングリソースの使用量が削減されます。

管理クラスタ	ユーザークラスタ 1	ユーザークラスタ 2
1.14.0	1.13.3	1.13.3

この例では、すべてのユーザーコントローラが管理クラスタと同じバージョンにアップグレードされるまで、ライフサイクルコントローラが再び合計で 2, 000 mCPU と 6 GiB の RAM を使用します。

アップグレード中にコントロールプレーンノードに追加のコンピューティングリソースがない場合は、Pending 状態の anthos-cluster-operator、capi-controller-manager、cap-controller-manager、または cap-kubeadm-bootstraper などの Pod が表示される可能性があります。この問題を解決するには、一部のユーザークラスタを同じバージョンにアップグレードしてバージョンを統合し、使用しているライフサイクルコントローラの数を減らします。アップグレードがすでに停止している場合は、kubectl edit deployment を使用して保留中のデプロイを編集し、管理クラスタのコントロールプレーンに収まるように CPU リクエストと RAM リクエストを減らすこともできます。

次の表に、さまざまなアップグレードシナリオにおけるコンピューティングリソースの要件の詳細を示します。

クラスタ	必要な管理クラスタリソース
ユーザークラスタアップグレード	他のクラスタの同じバージョンにアップグレード: なし他の管理クラスタまたはユーザークラスタの別のバージョンへのアップグレード: 1,000 mCPU と 3 GiB の RAM ハイブリッドクラスタ内のユーザークラスタには、同じリソース要件が設定されます。
管理クラスタのアップグレード（ユーザークラスタを含む）	1,000 mCPU と 3 GiB の RAM
ハイブリッドクラスタのアップグレード（ユーザークラスタなし）	1,000 mCPU と 3 GiB の RAM サージ。リソースは使用後に返却されます。
スタンドアロン	200 mCPU と 1 GiB の RAM サージ。リソースは使用後に返却されます。

クラスタをバックアップする

アップグレードを開始する前に、bmctl backup cluster コマンドを使用してクラスタをバックアップします。

バックアップファイルには機密情報が含まれているため、バックアップファイルは安全に保管してください。

クラスタが構成され、正しく動作していることを確認する

アップグレード前にクラスタの健全性を確認するには、クラスタで bmctl check cluster を実行します。このコマンドは、正しく構成されていないノードや停止している Pod があるノードを特定するなど、高度なチェックを実行します。

bmctl upgrade cluster コマンドを実行してクラスタをアップグレードすると、いくつかのプリフライトチェックが実行されます。これらのチェックが成功しなかった場合、アップグレードプロセスは停止します。潜在的な損害からクラスタを保護するためのプリフライトチェックに頼るのではなく、こうした問題を bmctl check cluster コマンドを使用して事前に特定して修正することをおすすめします。

ユーザーワークロードのデプロイを確認する

ユーザーワークロードについて考慮すべき領域は、ドレインと API 互換性の 2 つです。

ワークロードのドレイン

アップグレード中に、ノード上のユーザーワークロードがドレインされます。ワークロードにレプリカが 1 つしかない場合、またはすべてのレプリカが同じノードにある場合、ワークロードのドレインにより、クラスタで実行されているサービスが停止される可能性があります。複数のレプリカを持つワークロードを実行します。レプリカ番号は、同時実行ノード数より大きくする必要があります。

アップグレードの停止を回避するために、バージョン 1.29 までアップグレードするドレインプロセスでは Pod Disruption Budget（PDB）は考慮されません。ワークロードは縮退状態で実行される可能性があり、最小数のサービス提供レプリカは total replica number - concurrent upgrade number になります。

API の互換性

API の互換性については、マイナーバージョンのアップグレードを実施する際に、ワークロード API と新しいマイナーバージョンの Kubernetes との互換性を確認してください。必要に応じて、ワークロードを互換性のあるバージョンにアップグレードします。可能な場合は、GKE Enterprise のエンジニアリングチームが、互換性のない API（削除された Kubernetes API など）を使用してワークロードを識別する手順を提供します。

Cloud Service Mesh、Config Sync、Policy Controller、Config Controller、その他の GKE Enterprise コンポーネントを使用している場合は、インストールされたバージョンが Google Distributed Cloud の新しいバージョンと互換性があるかどうかを確認します。GKE Enterprise コンポーネントのバージョン互換性情報は、GKE Enterprise のバージョンとアップグレードのサポートをご覧ください。

Webhook の使用を監査する

クラスタに Webhook（特に Policy Controller などの監査を目的とする Pod リソース）があるかどうかを確認します。クラスタのアップグレード中のドレインプロセスにより、Policy Controller Webhook サービスが中断され、アップグレードが停止したり長時間を要したりする場合があります。これらの Webhook を一時的に無効にするか、高可用性（HA）デプロイを使用することをおすすめします。

プレビュー機能の使用を確認する

プレビュー機能は変更される場合があり、テストと評価のみを目的として提供されています。本番環境のクラスタではプレビュー機能を使用しないでください。プレビュー機能を使用するクラスタを必ずアップグレードできるというわけではありません。場合によっては、プレビュー機能を使用するクラスタのアップグレードを明示的にブロックすることがあります。

アップグレードに関連する重要な変更点については、リリースノートをご覧ください。

SELinux のステータスを確認する

コンテナを保護するために SELinux を有効にする場合は、すべてのホストマシンで SELinux を Enforced モードで有効にする必要があります。リリース 1.9.0 以降の Google Distributed Cloud では、クラスタの作成やクラスタのアップグレードの前または後に SELinux を有効または無効にできます。Red Hat Enterprise Linux（RHEL）では、SELinux がデフォルトで有効になっています。ホストマシンで SELinux が無効になっている場合や、不明な場合は、SELinux を使用したコンテナの保護をご覧ください。

Google Distributed Cloud が SELinux をサポートするのは、RHEL システムの場合のみです。

Pod の密度構成を変更しない

Google Distributed Cloud は、nodeConfig.PodDensity.MaxPodsPerNode を使用してノードあたり最大 250 個のポッドの構成をサポートしています。Pod 密度はクラスタの作成時にのみ構成できます。既存のクラスタのポッド密度設定を更新することはできません。アップグレード中は、Pod の密度構成を変更しないでください。

コントロールプレーンとロードバランサのノードがメンテナンスモードになっていないことを確認する

アップグレードを開始する前に、コントロールプレーンとロードバランサのノードがメンテナンスされていないことを確認します。いずれかのノードがメンテナンスモードの場合、コントロールプレーンとロードバランサのノードプールを十分に利用できるようにするために、アップグレードは一時停止します。

Google Distributed Cloud クラスタのアップグレードに関するベスト プラクティス