マシンシリーズを選択して Autopilot Pod のパフォーマンスを最適化する

Autopilot

このページでは、Google Kubernetes Engine（GKE）Autopilot クラスタでワークロードパフォーマンスを最適化するために、特定の Compute Engine マシンシリーズにワークロードを配置する方法について説明します。

次の内容を理解しておいてください。

Compute Engine のマシンシリーズとユースケース
アプリケーションのカーネルレベル要件

マシンシリーズの選択の仕組み

Autopilot が Pod に特定の Compute Engine ハードウェアを割り当てるように、Pod 仕様に cloud.google.com/machine-family ノードセレクタを追加できます。たとえば、CPU パワーを多く必要とする Pod には C3 マシンシリーズを選択し、メモリを多く必要とする Pod には N1 マシンシリーズを選択します。ワークロードを最適に実行するために、Autopilot は選択したマシンシリーズから事前定義されたマシンタイプのいずれかをプロビジョニングします。

特定のマシンシリーズを選択すると、Pod のパフォーマンスが最適化されるだけでなく、次のようなメリットがあります。

ノードの効率的な使用: デフォルトでは、Autopilot は、同じマシンシリーズをリクエストする Pod を各ノードにできるだけ多くスケジュールすることで、ノードのリソース使用量を最適化します。この方法により、ノードのリソース使用量が最適化され、価格対性能比が向上します。ワークロードがノード上のすべてのリソースにアクセスする必要がある場合は、必要に応じて、ノードごとに 1 つの Pod をリクエストするようにワークロードを構成できます。
バースト可能なワークロード: リソース上限をリクエストよりも高く設定することで、Pod がノード上の未使用のリソース容量にバーストするように構成できます。詳細については、GKE で Pod バーストを構成するをご覧ください。

各 Pod に専用のノードを割り当てるように計画する

すべてのノードリソースに対して信頼できるアクセスが必要で、CPU 使用率の高いワークロードがある場合は、マシンシリーズをリクエストする Pod が独自のノードに配置されるように Pod を構成できます。

AI / ML トレーニングワークロードやハイパフォーマンスコンピューティング（HPC）バッチワークロードなど、CPU 使用率の高い大規模なワークロードを実行する場合は、Pod ごとに専用のノードを用意することをおすすめします。

複数 Pod と単一 Pod のスケジューリングのどちらかを選択する

要件に応じて、次のガイダンスに従って Pod のスケジューリング動作を選択します。

他の Pod とコンピューティングリソースを共有できる Pod がある場合や、専用ハードウェアで Pod を実行しながら費用を最適化する場合、ノードあたりの複数の Pod のデフォルトのスケジューリング動作を使用します。
すべてのノードリソースに対して信頼できるアクセスが必要な Pod がある場合、またはコンピューティングリソースの共有による中断の可能性を最小限に抑える場合は、Pod ごとに専用のノードをリクエストします。

料金

基盤となる VM と接続されたハードウェアの料金は Compute Engine から請求されます。さらに、Autopilot ノードの管理とスケーラビリティに対するプレミアム料金が発生します。詳細については、GKE の料金をご覧ください。

始める前に

作業を始める前に、次のことを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、gcloud components update を実行して最新のバージョンを取得する。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region と compute/zone のプロパティを設定してください。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。

バージョン 1.30.1-gke.1396000 以降を実行している既存の Autopilot クラスタがあることを確認します。クラスタを作成する場合は、Autopilot クラスタの作成をご覧ください。

マシンシリーズを選択する

このセクションでは、Pod で特定の Compute Engine マシンシリーズを選択する方法について説明します。

次のマニフェストを machine-series-pod.yaml として保存します。

apiVersion: v1
kind: Pod
metadata:
  name: machine-series-pod
spec:
  nodeSelector:
    cloud.google.com/machine-family: MACHINE_SERIES
  containers:
  - name: my-container
    image: "k8s.gcr.io/pause"
    resources:
      requests:
        cpu: 5
        memory: "25Gi"
      limits:
        cpu: 20
        memory: 100Gi

MACHINE_SERIES は、Pod の Compute Engine マシンシリーズ（c3 など）に置き換えます。サポートされている値については、このページのサポートされているマシンシリーズをご覧ください。

Pod をデプロイします。

kubectl apply -f machine-series-pod.yaml

このマニフェストにより、Autopilot は、使用可能な容量がある場合、同じマシンシリーズを選択する Pod を同じノードに効率的にスケジュールすることで、ノードのリソース使用量を最適化します。

ローカル SSD を使用する

ローカル SSD を提供するマシンシリーズを指定すると、マシンシリーズを選択する Pod でエフェメラルストレージにローカル SSD を使用できます。Autopilot は、Pod の Compute Engine マシンタイプを選択するときに、エフェメラルストレージリクエストを考慮します。

詳細については、ローカル SSD を使用するエフェメラルストレージを Autopilot クラスタで使用するをご覧ください。

Pod 専用のノードをリクエストする

Pod に具体的なパフォーマンス要件がある場合（たとえば、すべてのノードリソースに対して信頼性の高いアクセスが必要な場合）、マシンシリーズノードセレクタと一緒に cloud.google.com/compute-class: Performance ノードセレクタを指定して、Pod ごとに専用のノードをリクエストできます。これにより、指定されたマシンシリーズを使用し、その Pod 専用の新しいノードに Pod を配置するよう Autopilot に指示します。このノードセレクタを使用すると、Autopilot はそのノードで他の Pod をスケジュールできなくなります。

次のマニフェストを dedicated-node-pod.yaml として保存します。

apiVersion: v1
kind: Pod
metadata:
  name: dedicated-node-pod
spec:
  nodeSelector:
    cloud.google.com/machine-family: MACHINE_SERIES
    cloud.google.com/compute-class: Performance
  containers:
  - name: my-container
    image: "k8s.gcr.io/pause"
    resources:
      requests:
        cpu: 12
        memory: "50Gi"
        ephemeral: "200Gi"

MACHINE_SERIES は、ノードごとの Pod スケジューリングもサポートするサポート対象のマシンシリーズに置き換えます。指定されたマシンシリーズがノードごとの Pod スケジューリングをサポートしていない場合、デプロイはエラーで失敗します。

Pod をデプロイします。

kubectl apply -f dedicated-node-pod.yaml

このマニフェストをデプロイすると、Autopilot は次の処理を行います。

デプロイされた Pod が少なくともパフォーマンス最適化ノード用の最小リソースをリクエストするようにします。
デプロイされた Pod とクラスタ内の任意の DaemonSet のリソースリクエストの合計を計算します。
選択したマシンシリーズを基盤とするノードをプロビジョニングします。
Pod が独自のノードで実行されるように、ノードセレクタと toleration 機能を組み合わせて Pod マニフェストを変更します。

サポートされているマシンシリーズ

machine-family セレクタは、次のマシンシリーズをサポートしています。

マシンシリーズ	ノードセレクタ値	ノードあたり複数の Pod をサポート	ノードあたり 1 つの Pod をサポート
C4D マシンシリーズ（バージョン要件を参照）	`c4d`
C4A マシンシリーズ	`c4a`
C4 マシンシリーズ（デフォルト）	`c4`
C3 マシンシリーズ	`c3`
C3D マシンシリーズ	`c3d`
C2 マシンシリーズ	`c2`
C2D マシンシリーズ	`c2d`
H3 マシンシリーズ	`h3`
T2D マシンシリーズ	`t2d`
T2A マシンシリーズ	`t2a`
E2 マシンシリーズ	`e2`
N4 マシンシリーズ	`n4`
N2 マシンシリーズ	`n2`
N2D マシンシリーズ	`n2d`
N1 マシンシリーズ	`n1`
Z3 マシンシリーズ	`z3`

マシンシリーズが指定されておらず、c4 がリージョンで使用可能な場合、c4 がデフォルトになります。

これらのマシンシリーズとそのユースケースを比較するには、Compute Engine ドキュメントのマシンシリーズの比較をご覧ください。

バージョン要件

C4D マシンシリーズは、次のバージョンと構成で使用できます。

ローカル SSD を使用しない C4D マシンタイプ: GKE バージョン 1.33.0-gke.1439000 以降。
ローカル SSD を使用した C4D マシンタイプ: GKE バージョン 1.33.1-gke.1171000 以降。

他の GKE 機能との互換性

特定のマシンシリーズを選択する Pod は、そのマシンシリーズでサポートされている GKE の機能を使用できます。たとえば以下のものが挙げられます。

Spot Pod
拡張ランタイム Pod（Pod ごとに専用ノードがある場合のみ）
ワークロードの分離
容量の予約
確約利用割引

Spot Pod と拡張ランタイム Pod は相互に排他的です。GKE では、ワークロードの分離を使用する場合でも、ノードあたりの専用 Pod に対して、リソースリクエストの最小数の引き上げはできません。

GKE がマシンタイプを選択する方法

指定されたマシンシリーズのマシンタイプを選択するために、GKE は、Pod と新しいノードで実行される DaemonSet の CPU、メモリ、エフェメラルストレージのリクエストの合計数を計算します。GKE は、使用可能な Compute Engine マシンタイプの中で、この合計数をすべてサポートする最も近い値のマシンタイプを選択します。

例 1: C3D マシンシリーズを選択する 4 つのレプリカを持つ Deployment について考えてみましょう。Pod ごとに専用のノードをリクエストしません。各レプリカのリソースリクエストは次のとおりです。
- 500m vCPU（0.5 vCPU）
- 1 GiB のメモリ
Autopilot は、4 つすべての Pod を、c3d-standard-4 というマシンタイプに基づいたノード上に配置します。このマシンタイプには、4 つの vCPU と 16 GB のメモリが備わっています。
例 2: C3D マシンシリーズとエフェメラルストレージとしてローカル SSD を使用する Pod について考えてみましょう。Pod 専用のノードをリクエストしたとします。DaemonSet を含むリソースリクエストの合計は次のとおりです。
- 12 vCPU
- 50 GiB のメモリ
- 200 GiB のエフェメラルストレージ
Autopilot は、c3d-standard-16-lssd マシンタイプを使用するノードに Pod を配置します。このマシンタイプには、16 vCPU、64 GiB のメモリ、365 GiB のローカル SSD 容量があります。

次のステップ

Autopilot がさまざまなユースケースに提供するコンピューティングオプションのガイダンスを確認する。Autopilot のコンピューティングクラスをご覧ください。
Autopilot で GPU ベースのワークロードをデプロイする