このページは Cloud Translation API によって翻訳されました。

DRA ワークロード用に GKE インフラストラクチャを準備する

Standard

このページでは、Google Kubernetes Engine（GKE）のインフラストラクチャを、動的リソース割り当て（DRA）に対応させる方法について説明します。設定手順には、GPU または TPU を使用するノードプールを作成し、クラスタに DRA ドライバをインストールすることが含まれます。

このページは、専用のハードウェアデバイスを使用してインフラストラクチャを設定する複雑さとオーバーヘッドを軽減したいプラットフォーム管理者の方を対象としています。

DRA について

DRA は Kubernetes の組み込み機能で、クラスタ内のハードウェアを Pod とコンテナ間で柔軟にリクエストして割り当て、共有できます。詳細については、リソースの動的割り当てについてをご覧ください。

制限事項

ノードの自動プロビジョニングはサポートされていません。
Autopilot クラスタは DRA をサポートしていません。
DRA では、GPU ドライバの自動インストールはサポートされていません。
次の GPU 共有機能は使用できません。
- 時間共有 GPU
- マルチインスタンス GPU
- マルチプロセス Service（MPS）

要件

DRA を使用するには、GKE クラスタで 1.32.1-gke.1489001 以降を実行する必要があります。

また、使用するハードウェアのタイプに応じて、次の要件と制限事項にも注意してください。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

バージョン 1.32.1-gke.1489001 以降を実行する GKE Standard クラスタがある。リージョンクラスタを作成することもできます。

Cloud Shell を使用していない場合は、Helm CLI をインストールします。

curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3
chmod 700 get_helm.sh
./get_helm.sh

クラスタで DRA ベータ版 API を有効にする

gcloud container clusters update CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --enable-kubernetes-unstable-apis="resource.k8s.io/v1beta1/deviceclasses,resource.k8s.io/v1beta1/resourceclaims,resource.k8s.io/v1beta1/resourceclaimtemplates,resource.k8s.io/v1beta1/resourceslices"

次のように置き換えます。

CLUSTER_NAME: クラスタの名前。
CONTROL_PLANE_LOCATION: クラスタコントロールプレーンのリージョンまたはゾーン（例: us-central1、us-central1-a）。

GPU または TPU を使用して GKE ノードプールを作成する

GKE では、GPU と TPU の両方で DRA を使用できます。マシンタイプ、アクセラレータのタイプ、ノード数、ノードのオペレーティングシステム、ノードのロケーションなどのノードプールの設定は、要件に応じて決定してください。

GPU

GPU に DRA を使用するには、ノードプールの作成時に次の操作を行う必要があります。

gpu-driver-version=disabled を使用して、GPU ドライバの自動インストールを無効にします。
gke-no-default-nvidia-gpu-device-plugin=true ノードラベルを追加して、GPU デバイスプラグインを無効にします。
nvidia.com/gpu.present=true ノードラベルを追加して、ノードで DRA ドライバ DaemonSet を実行します。

DRA 用の GPU ノードプールを作成する手順は次のとおりです。

必要なハードウェアを使用してノードプールを作成します。次の例では、2 つの L4 GPU を搭載する Container-Optimized OS に g2-standard-24 インスタンスが配置されたノードプールを作成します。
```
gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --machine-type "g2-standard-24" \
    --accelerator "type=nvidia-l4,count=2,gpu-driver-version=disabled" \
    --num-nodes "1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true
```
次のように置き換えます。
- NODEPOOL_NAME: ノードプールの名前
- CLUSTER_NAME: クラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタコントロールプレーンのリージョンまたはゾーン（例: us-central1、us-central1-a）。
Container-Optimized OS ノードまたは Ubuntu ノードにドライバを手動でインストールします。詳細な手順については、NVIDIA GPU ドライバを手動でインストールするをご覧ください。

TPU

TPU で DRA を使用するには、gke-no-default-tpu-device-plugin=true ノードラベルを追加して TPU デバイスプラグインを無効にする必要があります。

TPU を使用するノードプールを作成します。次の例では、TPU Trillium ノードプールを作成します。

gcloud container node-pools create NODEPOOL_NAME \
    --cluster CLUSTER_NAME --num-nodes 1 \
    --location=CONTROL_PLANE_LOCATION \
    --node-labels "gke-no-default-tpu-device-plugin=true,gke-no-default-tpu-dra-plugin=true" \
    --machine-type=ct6e-standard-8t

次のように置き換えます。

NODEPOOL_NAME: ノードプールの名前
CLUSTER_NAME: クラスタの名前。
CONTROL_PLANE_LOCATION: クラスタコントロールプレーンのリージョンまたはゾーン（例: us-central1、us-central1-a）。

DRA ドライバをインストールする

GPU

NVIDIA DRA ドライバを含む Helm チャートを pull して更新します。

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
    && helm repo update

バージョン 25.3.0-rc.4 の NVIDIA DRA ドライバをインストールします。

helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu --version="25.3.0-rc.4" --create-namespace --namespace nvidia-dra-driver-gpu \
    --set nvidiaDriverRoot="/home/kubernetes/bin/nvidia/" \
    --set gpuResourcesEnabledOverride=true \
    --set resources.computeDomains.enabled=false \
    --set kubeletPlugin.priorityClassName="" \
    --set kubeletPlugin.tolerations[0].key=nvidia.com/gpu \
    --set kubeletPlugin.tolerations[0].operator=Exists \
    --set kubeletPlugin.tolerations[0].effect=NoSchedule

Ubuntu ノードの場合は、nvidiaDriverRoot="/opt/nvidia" ディレクトリパスを使用します。

TPU

提供されている Helm チャートを使用して、TPU の DRA ドライバをインストールできます。Helm チャートにアクセスするには、次の操作を行います。

ai-on-gke リポジトリのクローンを作成して、GPU と TPU の DRA ドライバを含む Helm チャートにアクセスします。
```
git clone https://github.com/ai-on-gke/common-infra.git
```
そのチャートを含むディレクトリに移動します。
```
cd common-infra/common/charts
```
TPU DRA ドライバをインストールします。
```
./tpu-dra-driver/install-tpu-dra-driver.sh
```

インフラストラクチャが DRA に対応していることを確認する

DRA ドライバ Pod が実行されていることを確認します。

GPU

kubectl get pods -n nvidia-dra-driver-gpu
NAME                                         READY   STATUS    RESTARTS   AGE
nvidia-dra-driver-gpu-kubelet-plugin-52cdm   1/1     Running   0          46s

TPU

kubectl get pods -n tpu-dra-driver
NAME                                         READY   STATUS    RESTARTS   AGE
tpu-dra-driver-kubeletplugin-h6m57           1/1     Running   0          30s

追加したハードウェアデバイスが ResourceSlice に一覧表示されていることを確認します。

kubectl get resourceslices -o yaml

前のセクションの例を使用した場合、使用したハードウェアのタイプに応じて、ResourceSlice は次のようになります。

GPU

次の例では、2 つの L4 GPU を搭載した g2-standard-24 マシンを作成します。

apiVersion: v1
items:
- apiVersion: resource.k8s.io/v1beta1
  kind: ResourceSlice
  metadata:
    # lines omitted for clarity
  spec:
    devices:
    - basic:
        attributes:
          architecture:
            string: Ada Lovelace
          brand:
            string: Nvidia
          cudaComputeCapability:
            version: 8.9.0
          cudaDriverVersion:
            version: 12.9.0
          driverVersion:
            version: 575.57.8
          index:
            int: 0
          minor:
            int: 0
          productName:
            string: NVIDIA L4
          type:
            string: gpu
          uuid:
            string: GPU-4d403095-4294-6ddd-66fd-cfe5778ef56e
        capacity:
          memory:
            value: 23034Mi
      name: gpu-0
    - basic:
        attributes:
          architecture:
            string: Ada Lovelace
          brand:
            string: Nvidia
          cudaComputeCapability:
            version: 8.9.0
          cudaDriverVersion:
            version: 12.9.0
          driverVersion:
            version: 575.57.8
          index:
            int: 1
          minor:
            int: 1
          productName:
            string: NVIDIA L4
          type:
            string: gpu
          uuid:
            string: GPU-cc326645-f91d-d013-1c2f-486827c58e50
        capacity:
          memory:
            value: 23034Mi
      name: gpu-1
    driver: gpu.nvidia.com
    nodeName: gke-cluster-gpu-pool-9b10ff37-mf70
    pool:
      generation: 1
      name: gke-cluster-gpu-pool-9b10ff37-mf70
      resourceSliceCount: 1
kind: List
metadata:
  resourceVersion: ""

TPU

apiVersion: v1
items:
- apiVersion: resource.k8s.io/v1beta1
  kind: ResourceSlice
  metadata:
    # lines omitted for clarity
  spec:
    devices:
    - basic:
        attributes:
          index:
            int: 0
          tpuGen:
            string: v6e
          uuid:
            string: tpu-54de4859-dd8d-f67e-6f91-cf904d965454
      name: "0"
    - basic:
        attributes:
          index:
            int: 1
          tpuGen:
            string: v6e
          uuid:
            string: tpu-54de4859-dd8d-f67e-6f91-cf904d965454
      name: "1"
    - basic:
        attributes:
          index:
            int: 2
          tpuGen:
            string: v6e
          uuid:
            string: tpu-54de4859-dd8d-f67e-6f91-cf904d965454
      name: "2"
    - basic:
        attributes:
          index:
            int: 3
          tpuGen:
            string: v6e
          uuid:
            string: tpu-54de4859-dd8d-f67e-6f91-cf904d965454
      name: "3"
    driver: tpu.google.com
    nodeName: gke-tpu-b4d4b61b-fwbg
    pool:
      generation: 1
      name: gke-tpu-b4d4b61b-fwbg
      resourceSliceCount: 1
kind: List
metadata:
  resourceVersion: ""

次のステップ

DRA を使用してワークロードをデプロイする