このページは Cloud Translation API によって翻訳されました。

Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する

Standard

このページでは、GPUDirect-TCPXO、GPUDirect-TCPX、gVNIC、マルチネットワーキングを使用して、Google Kubernetes Engine（GKE）Standard クラスタで高性能 GPU ワークロードのネットワーク帯域幅とスループットを最大化する方法を説明します。Autopilot クラスタを使用している場合は、Autopilot モードのクラスタで GPU ネットワーク帯域幅を最大にするをご覧ください。

このページは、ML ワークロードを利用する ML エンジニアとプラットフォーム管理者を対象としています。 Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

人工知能（AI）、ML、ハイパフォーマンスコンピューティング（HPC）アプリケーションでは、ジョブの完了時間を短縮してパフォーマンスを最適化するために、強力なアクセラレーションが必要となります。たとえば、会話型 AI と画像生成に焦点を当てた ML モデルには、高いスケーラビリティとコンピューティング能力が求められます。

このページを読む前に、ネットワークインターフェースカード（NIC）や TCP などのネットワークテクノロジーと、NVIDIA Collective Communications Library（NCCL）などのアクセラレータテクノロジーに精通している必要があります。

Google Cloud GPU スーパーコンピュータについて

Google Cloud には、スケーラブルで大規模なモデル用に構築され、アクセラレータ用に最適化されたスーパーコンピュータがあります。このマシンには次のような利点があります。

1 マシンあたり 8 個の NVIDIA B200、H200、または H100 GPU。
プライマリ NIC で最大 200 Gbps の帯域幅。
セカンダリ NIC（A3 Mega マシンタイプでは最大 8 つ、A3 High マシンタイプでは最大 4 つ）。それぞれが GPU データ転送用に最大 200 Gbps の帯域幅をサポートします。

GKE ワークロードでは、単一ノードで使用可能なすべての GPU とセカンダリ NIC を使用し、使用可能な帯域幅の大半を使用する必要があります。このドキュメントで説明するソリューションは、高パフォーマンス、高スループット、低レイテンシを必要とするワークロードに最適です。

帯域幅を最大化するために必要な機能

GPU スーパーコンピュータノードのネットワーク帯域幅を最大化するには、次の機能をすべて使用します。

GPUDirect ネットワーキングスタック: A3 マシンシリーズは、カスタムのリモートダイレクトメモリアクセス（RDMA）用に 3 つのネットワーキングスタックをサポートしています。
- A3 High マシンタイプと NVIDIA H100 GPU では、GPUDirect-TCPX を使用して、GPU との間のパケットペイロードの転送に必要なオーバーヘッドを削減します。GPUDirect を使用しない GPU と比較すると、スループットが大幅に向上します。
- A3 Mega マシンタイプと NVIDIA H100 Mega GPU では、GPU から VM への通信をさらに改善する GPUDirect-TCPXO を使用します。
- A3 Ultra マシンタイプと NVIDIA H200 GPU、A4 マシンタイプと NVIDIA B200 GPU では、GPUDirect RDMA を使用して分散 AI ワークロードを実行し、スループットをさらに改善します。始めに、AI で最適化されたカスタム GKE クラスタを作成します。
gVNIC: パケットヘッダー分割、フローステアリング、バッファ管理などの GPUDirect 機能を有効にします。GPUDirect-TCPX または GPUDirect-TCPXO を使用するには、gVNIC が必要です。gVNIC の詳細については、GPU ノードのネットワークトラフィック速度を上げるをご覧ください。
マルチネットワーキング: アクセラレータ最適化マシンにセカンダリ NIC を追加します。競合を避けるため、各 NIC はそれぞれの VPC 内の個別のサブネットに関連付けられます。マルチネットワークサポートの詳細については、Pod のマルチネットワークサポートを設定するをご覧ください。
配置ポリシー: リソース配置ポリシーを使用して、特定のワークロードのすべての GPU ノードを物理的に近いサーバーに配置し、レイテンシを最小限に抑えます。詳細については、GKE ノードのコンパクトプレースメントを定義するをご覧ください。

手順の概要

これらの機能をすべて一緒に使用する手順は次のとおりです。

Virtual Private Cloud（VPC）とサブネットを作成する
GKE 環境を作成する
GPUDirect バイナリと NCCL プラグインをインストールする
NRI デバイスインジェクタプラグインをデプロイする
テストワークロードをデプロイして GPUDirect の設定を確認する

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

H100 GPU に十分な割り当てがあることを確認します。追加の割り当てをリクエストするには、GPU 割り当てをご覧ください。

要件

特に明記されていない限り、次の要件は GPUDirect-TCPX と GPUDirect-TCPXO の両方に適用されます。

GPUDirect-TCPX は GKE バージョン 1.27 以降でサポートされており、使用するには次のものが必要です。
- * a3-highgpu-8g マシンタイプ。
- GKE バージョン 1.27 の場合は、GKE パッチバージョン 1.27.7-gke.1121000 以降を使用します。
- GKE バージョン 1.28 の場合は、GKE パッチバージョン 1.28.10-gke.1141000 以降を使用します。
- GKE バージョン 1.29 の場合は、GKE パッチバージョン 1.29.5-gke.1121000 以降を使用します。
GPUDirect-TCPXO は GKE バージョン 1.28 以降でサポートされており、使用するには次のものが必要です。
- a3-megagpu-8g マシンタイプ。
- GKE バージョン 1.28 の場合は、GKE パッチバージョン 1.28.9-gke.1250000 以降を使用します。
- GKE バージョン 1.29 の場合は、GKE パッチバージョン 1.29.4-gke.1542000 以降を使用します。
- GKE バージョン 1.30 の場合は、GKE パッチバージョン 1.30.4-gke.1129000 以降を使用します。
- GKE バージョン 1.31 の場合は、GKE パッチバージョン 1.31.1-gke.2008000 以降を使用します。
- GKE バージョン 1.32 の場合は、GKE パッチバージョン 1.32.2-gke.1489001 以降を使用します。
GKE ノードで Container-Optimized OS（COS）ノードイメージが使用されている必要があります。Ubuntu と Windows のノードイメージはサポートされません。

GPU ノードで NVIDIA ドライババージョン 535 以降が使用されている必要があります。
GKE Dataplane V2 を使用する必要があります。
複数のノードプール間で実行される GPUDirect-TCPX または GPUDirect-TCPXO ワークロードの場合、すべてのノードプールが同じ Compute Engine ゾーンに存在し、同じネットワークセット（VPC やサブネットなど）を使用する必要があります。

制限事項

次の制限が適用されます。

GPUDirect-TCPX と GPUDirect-TCPXO は、マルチインスタンス GPU、GPU タイムシェアリング、NVIDIA MPS ではサポートされていません。
GPUDirect-TCPX または GPUDirect-TCPXO で NCCL FastSocket を使用できません。
GKE ワークロードでは、単一ノードで使用可能な GPU とセカンダリ NIC をすべて使用する必要があります。複数の Pod が単一のノードで GPUDirect-TCPX または GPUDirect-TCPXO を使用できません。
使用できるマシンタイプは a3-highgpu-8g と a3-megagpu-8g のみです。他の A3 マシンタイプはサポートされていません。

VPC とサブネットを作成する

ノードに追加する仮想 NIC ごとに、プロジェクト内に個別の VPC ネットワークを作成します。各 VPC ネットワークには、内部ネットワークトラフィックを許可するサブネットとファイアウォールルールが必要です。

プロジェクトに GPUDirect の VPC ネットワークを作成し、それぞれにサブネットとファイアウォールルールを設定します。GPUDirect-TCPX のタブ（A3 High マシンタイプの場合）または GPUDirect-TCPXO のタブ（A3 Mega マシンタイプの場合）を選択して、手順を完了します。
GPUDirect-TCPXO
帯域幅を最大にするため、8 つの新しいネットワークを作成することをおすすめします。
```
for N in $(seq 1 8); do
gcloud compute networks create PREFIX-net-$N \
    --subnet-mode=custom \
    --mtu=8244

gcloud compute networks subnets create PREFIX-sub-$N \
    --network=PREFIX-net-$N \
    --region=REGION \
    --range=SUBNET_RANGE

gcloud compute firewall-rules create PREFIX-internal-$N \
  --network=PREFIX-net-$N \
  --action=ALLOW \
  --rules=tcp:0-65535,udp:0-65535,icmp \
  --source-ranges=SOURCE_RANGE
done
```
次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- REGION: 各サブネットの Compute Engine リージョン。
- SUBNET_RANGE: 各サブネットの IP アドレス範囲（CIDR 表記）。この例のコマンドは 8 つのサブネットに対して繰り返し使用します。このため、変数を使用して各サブネットの IP アドレスを変更する必要があります。たとえば、最初のサブネットで 192.168.1.0/24 を使用し、2 番目のサブネットで 192.168.2.0/24 を使用するように 192.168.$N.0/24 を指定します。
- SOURCE_RANGE: 上り（内向き）トラフィックを許可するファイアウォールルールの送信元 IP アドレス範囲（CIDR 表記）。例: 192.168.0.0/16
GPUDirect-TCPX
帯域幅を最大にするため、4 つの新しいネットワークを作成することをおすすめします。
```
for N in $(seq 1 4); do
gcloud compute networks create PREFIX-net-$N \
    --subnet-mode=custom \
    --mtu=8244

gcloud compute networks subnets create PREFIX-sub-$N \
    --network=PREFIX-net-$N \
    --region=REGION \
    --range=SUBNET_RANGE

gcloud compute firewall-rules create PREFIX-internal-$N \
  --network=PREFIX-net-$N \
  --action=ALLOW \
  --rules=tcp:0-65535,udp:0-65535,icmp \
  --source-ranges=SOURCE_RANGE
done
```
次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- REGION: 各サブネットの Compute Engine リージョン。
- SUBNET_RANGE: 各サブネットの IP アドレス範囲（CIDR 表記）。この例のコマンドは 4 つのサブネットに対して繰り返し使用します。このため、変数を使用して各サブネットの IP アドレスを変更します。たとえば、最初のサブネットで 192.168.1.0/24 を使用し、2 番目のサブネットで 192.168.2.0/24 を使用するように 192.168.$N.0/24 を指定します。
- SOURCE_RANGE: 上り（内向き）トラフィックを許可するファイアウォールルールの送信元 IP アドレス範囲（CIDR 表記）。例: 192.168.0.0/16
ネットワークが作成されたことを確認します。
```
gcloud compute networks list
```

GKE 環境を作成する

マルチネットワーキング（プレビュー）を使用する新しい GKE クラスタを作成し、次の特性を持つ GPU ノードプールを作成します。

gVNIC が有効
各セカンダリ NIC に指定されたマルチネットワーキングサブネット
ノードをバッキングする H100 GPU を備えた A3 マシンシリーズ
最新の NVIDIA ドライバがインストールされている

マルチネットワーキングを使用するように既存のクラスタを更新することはできません。

GPUDirect-TCPXO

GPUDirect-TCPXO をサポートする利用可能な GKE バージョンを選択します。バージョンを一覧取得するには、次のコマンドを実行します。
```
gcloud container get-server-config \
    --format="yaml(validMasterVersions)" \
    --region=REGION \
    --project=PROJECT_ID
```
次のように置き換えます。
- REGION: クラスタコントロールプレーンのコンピューティングリージョン。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
クラスタを作成します。
```
gcloud beta container clusters create CLUSTER_NAME \
  --enable-dataplane-v2 \
  --enable-ip-alias \
  --location=CONTROL_PLANE_LOCATION \
  --enable-multi-networking \
  --cluster-version=VERSION \
  --no-enable-autoupgrade \
  --project=PROJECT_ID
```
次のように置き換えます。
- CLUSTER_NAME: 新しいクラスタの名前。
- VERSION: 要件で説明されているように、GPUDirect-TCPXO をサポートする GKE バージョン。
- CONTROL_PLANE_LOCATION: クラスタのコントロールプレーンの Compute Engine のロケーション。リージョンクラスタの場合はリージョン、ゾーンクラスタの場合はゾーンを指定します。

作成した VPC ネットワークとサブネットワークに対応する Network リソースと GKENetworkParamSet リソースをクラスタに作成します。

kubectl apply -f - <<EOF
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc1
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc1
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc2
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc2
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc3
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc3
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc4
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc4
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc5
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc5
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc6
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc6
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc7
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc7
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc8
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc8
  type: Device
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc1
spec:
  vpc: PREFIX-net-1
  vpcSubnet: PREFIX-sub-1
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc2
spec:
  vpc: PREFIX-net-2
  vpcSubnet: PREFIX-sub-2
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc3
spec:
  vpc: PREFIX-net-3
  vpcSubnet: PREFIX-sub-3
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc4
spec:
  vpc: PREFIX-net-4
  vpcSubnet: PREFIX-sub-4
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc5
spec:
  vpc: PREFIX-net-5
  vpcSubnet: PREFIX-sub-5
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc6
spec:
  vpc: PREFIX-net-6
  vpcSubnet: PREFIX-sub-6
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc7
spec:
  vpc: PREFIX-net-7
  vpcSubnet: PREFIX-sub-7
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc8
spec:
  vpc: PREFIX-net-8
  vpcSubnet: PREFIX-sub-8
  deviceMode: NetDevice
EOF

これらのリソースは、パススルーモードで GPU トラフィックの NIC を構成するように GKE に指示します。このトラフィックには、eBPF を使用した組み込みネットワーキングプログラミングは適用されません。

GPUDirect-TCPX

クラスタを作成します。
```
gcloud beta container clusters create CLUSTER_NAME \
  --enable-dataplane-v2 \
  --enable-ip-alias \
  --location=CONTROL_PLANE_LOCATION \
  --enable-multi-networking \
  --cluster-version=VERSION \
  --no-enable-autoupgrade \
  --project=PROJECT_ID
```
次のように置き換えます。
- CLUSTER_NAME: 新しいクラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタのコントロールプレーンの Compute Engine のロケーション。リージョンクラスタの場合はリージョン、ゾーンクラスタの場合はゾーンを指定します。
- VERSION: 要件で説明されているように、GPUDirect-TCPX をサポートする GKE バージョン。

作成した VPC ネットワークとサブネットワークに対応する Network リソースと GKENetworkParamSet リソースをクラスタに作成します。

kubectl apply -f - <<EOF
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc1
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc1
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc2
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc2
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc3
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc3
  type: Device
---
apiVersion: networking.gke.io/v1
kind: Network
metadata:
  name: vpc4
spec:
  parametersRef:
    group: networking.gke.io
    kind: GKENetworkParamSet
    name: vpc4
  type: Device
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc1
spec:
  vpc: PREFIX-net-1
  vpcSubnet: PREFIX-sub-1
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc2
spec:
  vpc: PREFIX-net-2
  vpcSubnet: PREFIX-sub-2
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc3
spec:
  vpc: PREFIX-net-3
  vpcSubnet: PREFIX-sub-3
  deviceMode: NetDevice
---
apiVersion: networking.gke.io/v1
kind: GKENetworkParamSet
metadata:
  name: vpc4
spec:
  vpc: PREFIX-net-4
  vpcSubnet: PREFIX-sub-4
  deviceMode: NetDevice
EOF

GPU ノードプールを作成する

GPUDirect-TCPXO

H100 GPU 用のノードプールを作成します。

gcloud beta container node-pools create NODE_POOL_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --cluster=CLUSTER_NAME \
    --project=PROJECT_ID \
    --accelerator=type=nvidia-h100-mega-80gb,count=8,gpu-driver-version=LATEST \
    --machine-type=a3-megagpu-8g \
    --num-nodes=2 \
    --additional-node-network network=PREFIX-net-1,subnetwork=PREFIX-sub-1 \
    --additional-node-network network=PREFIX-net-2,subnetwork=PREFIX-sub-2 \
    --additional-node-network network=PREFIX-net-3,subnetwork=PREFIX-sub-3 \
    --additional-node-network network=PREFIX-net-4,subnetwork=PREFIX-sub-4 \
    --additional-node-network network=PREFIX-net-5,subnetwork=PREFIX-sub-5 \
    --additional-node-network network=PREFIX-net-6,subnetwork=PREFIX-sub-6 \
    --additional-node-network network=PREFIX-net-7,subnetwork=PREFIX-sub-7 \
    --additional-node-network network=PREFIX-net-8,subnetwork=PREFIX-sub-8 \
    --enable-gvnic \
    --no-enable-autoupgrade \
    --scopes "https://www.googleapis.com/auth/cloud-platform" \
    [--placement-policy=POLICY_NAME \
    --reservation-affinity=specific \
    --reservation=RESERVATION_NAME \
    --host-maintenance-interval=PERIODIC]

NODE_POOL_NAME は、ノードプール名に置き換えます。

この例では、テストを容易にするために、--scopes "https://www.googleapis.com/auth/cloud-platform" 引数でノードインスタンスのスコープを cloud-platform に設定しています。本番環境では、スコープを制限して、よりきめ細かい認証情報を構成することもできます。

予約を使用している場合は、--placement-policy、--reservation-affinity、--reservation フラグを使用します。これらのフラグを指定して、ノードプールのポリシー名と予約を構成します。

このコマンドが失敗した場合、プロジェクトに十分な H100 GPU 割り当てがない可能性があります。十分な割り当てがあることを確認してから、コマンドを再試行してください。

GPUDirect-TCPX

H100 GPU 用のノードプールを作成します。

gcloud container node-pools create NODE_POOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --machine-type=a3-highgpu-8g \
    --accelerator=type=nvidia-h100-80gb,count=8,gpu-driver-version=LATEST \
    --additional-node-network=network=PREFIX-net-1,subnetwork=PREFIX-sub-1 \
    --additional-node-network=network=PREFIX-net-2,subnetwork=PREFIX-sub-2 \
    --additional-node-network=network=PREFIX-net-3,subnetwork=PREFIX-sub-3 \
    --additional-node-network=network=PREFIX-net-4,subnetwork=PREFIX-sub-4 \
    --enable-gvnic \
    --no-enable-autoupgrade

NODE_POOL_NAME は、ノードプールの名前に置き換えます。

このコマンドが失敗した場合、プロジェクトに十分な H100 GPU 割り当てがない可能性があります。割り当てがあることを確認してから、コマンドを再試行してください。

ノードプールを作成した後に、各ノードに GPU がアタッチされていることを確認します。

クラスタ内のノードのリストを取得します。
```
kubectl get nodes
```
各 GPU ノードに 8 つの GPU があることを確認します。
```
kubectl describe node NODE_NAME
```
NODE_NAME は、記述するノードの名前に置き換えます。

出力は次のようになります。
```
Capacity:
  ...
  nvidia.com/gpu:             8
Allocatable:
  ...
  nvidia.com/gpu:             8
```

GPUDirect バイナリをインストールして NCCL を構成する

このセクションでは、A3 マシンタイプ（A3 High の場合は GPUDirect-TCPX、A3 Mega の場合は GPUDirect-TCPXO）に基づいて GPUDirect バイナリをインストールする方法と、DaemonSet を使用して特定の NCCL ライブラリバージョンをインストールする方法について説明します。

GPUDirect-TCPXO

この DaemonSet は次の処理を行います。

GPUDirect-TCPXO 関連の構成を設定するための事前インストール。
NCCL ライブラリと GPUDirect-TCPXO バイナリをノードにインストールします。
ライブラリとバイナリを VM の /home/kubernetes/bin/nvidia/lib64 ディレクトリに保存します。デフォルトでは、このディレクトリは NCCL と GPUDirect-TCPXO を使用する必要のある GPU コンテナの /usr/local/nvidia/lib64 パスにマウントされます。

バイナリをインストールして NCCL を構成する手順は次のとおりです。

GitHub の nccl-tcpxo-installer.yaml Daemonset マニフェストを確認します。

DaemonSet をデプロイします。

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/gpudirect-tcpxo/nccl-tcpxo-installer.yaml

NCCL プラグインの実行が開始するまで 2 分ほどかかります。

DaemonSet Pod のステータスを確認します。

kubectl get pods -n=kube-system -l=name=nccl-tcpxo-installer

出力は次のようになります。

# Output
nccl-tcpxo-installer-6c2pv                    1/1     Running   0          2m11s
nccl-tcpxo-installer-qgg82                    1/1     Running   0          2m11s

GPUDirect-TCPX

この DaemonSet は次の処理を行います。

NCCL ライブラリと GPUDirect-TCPX バイナリをノードにインストールします。
ライブラリとバイナリを VM の /home/kubernetes/bin/nvidia/lib64 ディレクトリに保存します。デフォルトでは、このディレクトリは NCCL と GPUDirect-TCPX を使用する必要のある GPU コンテナの /usr/local/nvidia/lib64 パスにマウントされます。

バイナリをインストールして NCCL を構成する手順は次のとおりです。

GitHub の nccl-tcpx-installer.yaml Daemonset マニフェストを確認します。

DaemonSet をデプロイします。

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/gpudirect-tcpx/nccl-tcpx-installer.yaml

NCCL プラグインの実行が開始するまで 2 分ほどかかります。

DaemonSet Pod のステータスを確認します。

kubectl get pods -n=kube-system -l=name=nccl-tcpx-installer

出力は次のようになります。

nccl-tcpx-installer-6c2pv                    1/1     Running   0          2m11s
nccl-tcpx-installer-qgg82                    1/1     Running   0          2m11s

NRI デバイスインジェクタプラグインをデプロイする

このセクションでは、DaemonSet を使用して NRI デバイスインジェクタをインストールする方法について説明します。どちらの H100 GPU マシンタイプも、同じ NRI デバイスインジェクタプラグインをインストールします。このプラグインは次の処理を行います。

H100 GPU を搭載したノードで Node Resource Interface（NRI）を有効にします。GKE バージョン 1.29 以降では、NRI はデフォルトで有効になっています。
Pod アノテーションで指定されたコンテナに GPU デバイスを挿入する NRI デバイスインジェクタプラグインコンテナをデプロイします。

プラグインのインストールは、次のようにします。

GitHub の nri-device-injector.yaml Deployment マニフェストを確認します。

DaemonSet をデプロイします。

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nri_device_injector/nri-device-injector.yaml

NCCL プラグインの実行が開始するまで 2 分ほどかかります。

DaemonSet Pod のステータスを確認します。

kubectl get pods -n=kube-system -l=name=device-injector

出力は次のようになります。

# Output
device-injector-md6hb                         1/1     Running   0       4h54m
device-injector-vh9bm                         1/1     Running   0       4h54m

テストワークロードをデプロイする

このセクションでは、サンプルワークロードをデプロイし、NCCL と GPUDirect-TCPX または GPUDirect-TCPXO が期待どおりに動作することを確認します。このサンプルワークロードは、次のことを行います。

2 つの Pod をデプロイします。各 Pod は、H100 GPU を備えたノードで実行されます。
各 Pod にサイドカーコンテナをデプロイして、これらの Pod が GPUDirect-TCPXO または GPUDirect-TCPX を使用できるようにします。

このサンプルワークロードをデプロイする手順は次のとおりです。

GPUDirect-TCPXO

このワークロードには、Pod が GPUDirect-TCPXO を使用できるようにするサービスを実行する tcpxo-daemon というサイドカーコンテナが含まれています。このサイドカーコンテナは、GPUDirect-TCPXO を使用する独自の環境の Pod に追加する必要があります。マニフェストに追加する必須フィールドのスニペットについては、マニフェストに GPUDirect を追加するをご覧ください。

GitHub の nccl-test-latest.yaml マニフェストを確認します。

テストワークロードを含む 2 つの Pod をデプロイします。

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/gpudirect-tcpxo/nccl-test-latest.yaml

Pod がデプロイされたら、all-gather テストをトリガーします。

kubectl exec --stdin --tty --container=nccl-test nccl-test-host-1 -- /scripts/allgather.sh nccl-host-1 nccl-host-2

出力は次のようになります。

#                                                              out-of-place                       in-place
#        size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#         (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
            0             0     float    none      -1     0.24    0.00    0.00      0     0.18    0.00    0.00      0
            0             0     float    none      -1     0.19    0.00    0.00      0     0.17    0.00    0.00      0
            0             0     float    none      -1     0.17    0.00    0.00      0     0.17    0.00    0.00      0
            0             0     float    none      -1     0.17    0.00    0.00      0     0.17    0.00    0.00      0
            0             0     float    none      -1     0.17    0.00    0.00      0     0.17    0.00    0.00      0
          256             4     float    none      -1    235.2    0.00    0.00      0    235.1    0.00    0.00      0
          512             8     float    none      -1    241.0    0.00    0.00      0    236.1    0.00    0.00      0
         1024            16     float    none      -1    236.3    0.00    0.00      0    233.3    0.00    0.00      0
         2048            32     float    none      -1    234.1    0.01    0.01      0    233.4    0.01    0.01      0
         4096            64     float    none      -1    237.1    0.02    0.02      0    235.3    0.02    0.02      0
         8192           128     float    none      -1    236.2    0.03    0.03      0    235.2    0.03    0.03      0
        16384           256     float    none      -1    236.6    0.07    0.06      0    238.5    0.07    0.06      0
        32768           512     float    none      -1    237.9    0.14    0.13      0    238.8    0.14    0.13      0
        65536          1024     float    none      -1    242.3    0.27    0.25      0    239.4    0.27    0.26      0
       131072          2048     float    none      -1    263.0    0.50    0.47      0    275.1    0.48    0.45      0
       262144          4096     float    none      -1    279.2    0.94    0.88      0    269.9    0.97    0.91      0
       524288          8192     float    none      -1    273.5    1.92    1.80      0    273.5    1.92    1.80      0
      1048576         16384     float    none      -1    315.1    3.33    3.12      0    314.1    3.34    3.13      0
      2097152         32768     float    none      -1    319.2    6.57    6.16      0    311.5    6.73    6.31      0
      4194304         65536     float    none      -1    331.8   12.64   11.85      0    331.3   12.66   11.87      0
      8388608        131072     float    none      -1    356.3   23.54   22.07      0    353.8   23.71   22.23      0
     16777216        262144     float    none      -1    409.1   41.01   38.45      0    405.2   41.40   38.81      0
     33554432        524288     float    none      -1    451.4   74.34   69.69      0    447.7   74.94   70.26      0
     67108864       1048576     float    none      -1    713.4   94.07   88.19      0    713.8   94.01   88.13      0
    134217728       2097152     float    none      -1   1122.1  119.62  112.14      0   1116.3  120.23  112.72      0
    268435456       4194304     float    none      -1   1785.8  150.32  140.92      0   1769.2  151.72  142.24      0
    536870912       8388608     float    none      -1   2859.7  187.74  176.00      0   2852.6  188.20  176.44      0
   1073741824      16777216     float    none      -1   5494.1  195.44  183.22      0   5568.2  192.83  180.78      0
   2147483648      33554432     float    none      -1    10841  198.09  185.71      0    10798  198.88  186.45      0
   4294967296      67108864     float    none      -1    21453  200.21  187.70      0    21490  199.86  187.37      0
   8589934592     134217728     float    none      -1    42603  201.63  189.03      0    42670  201.31  188.73      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 45.7587
#

GPUDirect-TCPX

このワークロードには、Pod が GPUDirect-TCPX を使用できるようにするサービスを実行する tcpx-daemon というサイドカーコンテナが含まれています。このサイドカーコンテナは、GPUDirect-TCPX を使用する独自の環境の Pod に追加する必要があります。マニフェストに追加する必須フィールドのスニペットについては、マニフェストに GPUDirect を追加するをご覧ください。

GitHub の nccl-config.yaml ConfigMap マニフェストを確認します。このマニフェストでは、NCCL Allgather テストを初期化し、NCCL 固有の構成を設定するスクリプトをデプロイします。
GitHub の nccl-test-latest.yaml Deployment マニフェストを確認します。

ConfigMap とテストワークロードをデプロイします。

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/gpudirect-tcpx/nccl-config.yaml
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/gpudirect-tcpx/nccl-test-latest.yaml

次のコマンドを実行して、ノードの NCCL all-gather テストをトリガーします。

kubectl exec \
  --stdin --tty --container=nccl-test nccl-test-host-1 \
  -- /configs/allgather.sh nccl-host-1 nccl-host-2

出力は次のようになります。

#                                                              out-of-place                       in-place
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
    1048576         16384     float    none      -1    696.8    1.50    1.41      0    729.0    1.44    1.35      0
    2097152         32768     float    none      -1    776.4    2.70    2.53      0    726.7    2.89    2.71      0
    4194304         65536     float    none      -1    774.3    5.42    5.08      0    805.1    5.21    4.88      0
    8388608        131072     float    none      -1    812.1   10.33    9.68      0    817.6   10.26    9.62      0
   16777216        262144     float    none      -1   1035.2   16.21   15.19      0   1067.8   15.71   14.73      0
   33554432        524288     float    none      -1   1183.3   28.36   26.59      0   1211.8   27.69   25.96      0
   67108864       1048576     float    none      -1   1593.4   42.12   39.49      0   1510.5   44.43   41.65      0
  134217728       2097152     float    none      -1   2127.8   63.08   59.13      0   2312.7   58.03   54.41      0
  268435456       4194304     float    none      -1   3603.0   74.50   69.85      0   3586.2   74.85   70.17      0
  536870912       8388608     float    none      -1   7101.7   75.60   70.87      0   7060.9   76.03   71.28      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 29.8293

必要な NCCL 構成設定を使用してパフォーマンスを改善する

次の Key-Value ペアは、GPUDirect-TCPX と GPUDirect-TCPXO に必要な NCCL 構成設定です。NCCL を使用するワークロードをデプロイする場合は、パフォーマンスを最適化するために環境変数として設定します。

GPUDirect-TCPXO


"LD_LIBRARY_PATH=\"${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64\"",
"NCCL_FASTRAK_CTRL_DEV=eth0",
"NCCL_FASTRAK_IFNAME=eth1,eth2,eth3,eth4,eth5,eth6,eth7,eth8",
"NCCL_SOCKET_IFNAME=eth0",
"NCCL_CROSS_NIC=0",
"NCCL_ALGO=Ring,Tree",
"NCCL_PROTO=Simple,LL128",
"NCCL_MIN_NCHANNELS=4",
"NCCL_TUNER_PLUGIN=libnccl-tuner.so",
"NCCL_TUNER_CONFIG_PATH=/usr/local/nvidia/lib64/a3plus_tuner_config.textproto",
"NCCL_SHIMNET_GUEST_CONFIG_CHECKER_CONFIG_FILE=/usr/local/nvidia/lib64/a3plus_guest_config.textproto",
"NCCL_DYNAMIC_CHUNK_SIZE=524288",
"NCCL_P2P_NET_CHUNKSIZE=524288",
"NCCL_P2P_PCI_CHUNKSIZE=524288",
"NCCL_P2P_NVL_CHUNKSIZE=1048576",
"NCCL_FASTRAK_NUM_FLOWS=2",
"NCCL_FASTRAK_USE_SNAP=1",
"NCCL_FASTRAK_PLUGIN_ACCEPT_TIMEOUT_MS=600000",
"NCCL_FASTRAK_ENABLE_CONTROL_CHANNEL=0",
"NCCL_BUFFSIZE=8388608",
"CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7",
"NCCL_NET_GDR_LEVEL=PIX",
"NCCL_FASTRAK_ENABLE_HOTPATH_LOGGING=0",
"NCCL_FASTRAK_USE_LLCM=1",
"NCCL_NVLS_ENABLE=0"

必要に応じて、次の手順ですべての構成を一度に設定できます。

ワークロードコンテナマニフェストに、次の Key-Value ペアを環境変数として追加します。
```
NCCL_LIB_DIR="/usr/local/nvidia/lib64"
```
ワークロードコンテナの起動時に nccl-env-profile.sh スクリプトが実行されるようにします。たとえば、Pod 仕様でコンテナのコマンドをオーバーライドして、次のものを含めることで、この操作を行うことができます。
```
source ${NCCL_LIB_DIR}/nccl-env-profile.sh
```

LL128 サポート

NVIDIA LL128（低レイテンシ 128）NCCL 通信プロトコルを使用すると、小規模から中規模のコレクティブのパフォーマンスを大幅に向上させることができます。GPUDirect-TCPXO は LL128 プロトコルをサポートしています。

LL128 を使用するには、GPUDirect バイナリをインストールして NCCL を構成するセクションの nccl-tcpxo-installer.yaml ファイルで、次のコンテナイメージバージョン以降を使用していることを確認します。

us-docker.pkg.dev/gce-ai-infra/gpudirect-tcpxo/nccl-plugin-gpudirecttcpx-
dev:v1.0.8-1

LL128 を設定する手順は次のとおりです。

us-docker.pkg.dev/gce-ai-infra/gpudirect-tcpxo/nccl-plugin-gpudirecttcpx- dev:v1.0.8-1 NCCL プラグインバージョンの場合は、次の操作を行います。
1. ワークロードマニフェストで、次の環境変数を設定します。
```
NCCL_LIB_DIR="/usr/local/nvidia/lib64
```
2. コンテナの起動時に nccl-env-profile-ll128.sh スクリプトを実行するようにワークロードを構成します。ワークロードマニフェストで、次のコマンドを設定します。
```
source ${NCCL_LIB_DIR}/nccl-env-profile-ll128.sh
```
  nccl-env-profile-ll128.sh スクリプトには次の環境変数があります。
```
NCCL_PROTO=Simple,LL128
NCCL_TUNER_CONFIG_PATH=/usr/local/nvidia/lib64/a3plus_tuner_config_ll128.textproto
NCCL_SHIMNET_GUEST_CONFIG_CHECKER_CONFIG_FILE=/usr/local/nvidia/lib64/a3plus_guest_config_ll128.textproto
```
us-docker.pkg.dev/gce-ai-infra/gpudirect-tcpxo/nccl-plugin-gpudirecttcpx-dev:v1.0.9-1 NCCL プラグインバージョン以降では、LL128 がデフォルトのパラメータになるため、nccl-env-profile.sh スクリプトまたは nccl-env-profile-ll128.sh スクリプトのいずれかを使用すると LL128 が有効になります。LL128 を無効にするには:
1. ワークロードマニフェストで、次の環境変数を設定します。
```
NCCL_LIB_DIR="/usr/local/nvidia/lib64
```
2. コンテナの起動時に nccl-env-profile-ll128.sh スクリプトを実行するようにワークロードを構成します。ワークロードマニフェストで、次のコマンドを設定します。
```
source ${NCCL_LIB_DIR}/nccl-env-profile-simple.sh
```
  nccl-env-profile-simple.sh スクリプトには次の環境変数があります。
```
NCCL_PROTO=Simple
NCCL_TUNER_CONFIG_PATH=/usr/local/nvidia/lib64/a3plus_tuner_config_simple.textproto
NCCL_SHIMNET_GUEST_CONFIG_CHECKER_CONFIG_FILE=/usr/local/nvidia/lib64/a3plus_tuner_config_simple.textproto
```

GPUDirect-TCPX

"LD_LIBRARY_PATH=\"${LD_LIBRARY_PATH}:/usr/local/tcpx/lib64\"",
"NCCL_SOCKET_IFNAME=\"eth0\"",
"NCCL_ALGO=Ring",
"NCCL_PROTO=Simple",
"NCCL_CROSS_NIC=0",
"NCCL_NET_GDR_LEVEL=PIX",
"NCCL_P2P_PXN_LEVEL=0",
"NCCL_GPUDIRECTTCPX_SOCKET_IFNAME=eth1,eth2,eth3,eth4",
"NCCL_GPUDIRECTTCPX_CTRL_DEV=eth0",
"NCCL_DYNAMIC_CHUNK_SIZE=524288",
"NCCL_P2P_NET_CHUNKSIZE=524288",
"NCCL_P2P_PCI_CHUNKSIZE=524288",
"NCCL_P2P_NVL_CHUNKSIZE=1048576",
"NCCL_BUFFSIZE=4194304",
"NCCL_NSOCKS_PERTHREAD=4",
"NCCL_SOCKET_NTHREADS=1",
"NCCL_GPUDIRECTTCPX_TX_BINDINGS=\"eth1:8-21,112-125;eth2:8-21,112-125;eth3:60-73,164-177;eth4:60-73,164-177\"",
"NCCL_GPUDIRECTTCPX_RX_BINDINGS=\"eth1:22-35,126-139;eth2:22-35,126-139;eth3:74-87,178-191;eth4:74-87,178-191\"",
"NCCL_GPUDIRECTTCPX_PROGRAM_FLOW_STEERING_WAIT_MICROS=500000"

NCCL のデバッグログを収集する

NCCL エラーをロギングするには、次の NCCL 構成を追加することをおすすめします。

NCCL_DEBUG=INFO
NCCL_DEBUG_SUBSYS=INIT,NET,ENV,COLL,GRAPH
NCCL_DEBUG_FILE=/DIRECTORY/FILE_NAME.%h.%p

NCCL_DEBUG=INFO: デバッグ情報を出力します。
- 大規模なワークロード（64 個以上のノード）では、広範なロギングが発生する可能性があります。このシナリオを回避するには、NCCL_DEBUG_FILE を指定していない限り、NCCL_DEBUG=WARN を設定してログをエラーのみに制限することをおすすめします。
NCCL_DEBUG_SUBSYS: NCCL がデバッグ情報を収集するサブシステムをフィルタします。次のサブシステムのログを収集することをおすすめします。
- INIT: NCCL の初期化フェーズ。
- NET: NCCL ネットワーク。
- ENV: NCCL が使用する環境変数。
- COLL: コレクティブオペレーション。
- GRAPH: トポロジの検出とグラフ検索。
異なるサブシステムのログを収集する場合は、NCCL ドキュメントの NCCL_DEBUG_SUBSYS で、使用可能な値のリストをご覧ください。
NCCL_DEBUG_FILE（省略可）: NCCL デバッグロギング出力を指定したファイルに転送します。この変数は NCCL ログを標準ファイルに書き込みます。これにより、ログ出力がアプリケーション出力と混在するのを防ぐことができます。また、この変数は、異なる NCCL ランクのログを異なるファイルに書き込むため、ログが混在することはありません。

ファイル名の形式は次のようにします。
```
/DIRECTORY/FILE_NAME.%h.%p
```
次のように置き換えます。
- DIRECTORY: ログファイルを保存するディレクトリ。
- FILE_NAME: ログファイルの名前。
プレースホルダ %h はノードのホスト名に解決され、%p はログを生成するプロセスのプロセス ID（PID）に解決されます。

NCCL ログのデバッグの詳細については、GKE での GPU のトラブルシューティングをご覧ください。

マニフェストに GPUDirect を追加する

このセクションでは、Pod で GPUDirect を使用するために Kubernetes マニフェストに追加する必要がある必須フィールドについて説明します。

GPUDirect のタイプ別の手順は次のとおりです。

GPUDirect-TCPXO

Pod メタデータに次のアノテーションを追加します。これらのアノテーションがない場合は、hostNetwork:true が Pod に対して必要になり、privileged:true が tcpxo-daemon コンテナに対して必要になります。

metadata:
  annotations:
    devices.gke.io/container.tcpxo-daemon: |+
      - path: /dev/nvidia0
      - path: /dev/nvidia1
      - path: /dev/nvidia2
      - path: /dev/nvidia3
      - path: /dev/nvidia4
      - path: /dev/nvidia5
      - path: /dev/nvidia6
      - path: /dev/nvidia7
      - path: /dev/nvidiactl
      - path: /dev/nvidia-uvm
      - path: /dev/dmabuf_import_helper
    networking.gke.io/default-interface: 'eth0'
    networking.gke.io/interfaces: |
      [
        {"interfaceName":"eth0","network":"default"},
        {"interfaceName":"eth1","network":"vpc1"},
        {"interfaceName":"eth2","network":"vpc2"},
        {"interfaceName":"eth3","network":"vpc3"},
        {"interfaceName":"eth4","network":"vpc4"},
        {"interfaceName":"eth5","network":"vpc5"},
        {"interfaceName":"eth6","network":"vpc6"},
        {"interfaceName":"eth7","network":"vpc7"},
        {"interfaceName":"eth8","network":"vpc8"}
      ]

次のフィールドを Pod 仕様に追加します。

spec:
  volumes:
  - name: libraries
    hostPath:
      path: /home/kubernetes/bin/nvidia/lib64
  - name: sys
    hostPath:
      path: /sys
  - name: proc-sys
    hostPath:
      path: /proc/sys
  - name: aperture-devices
    hostPath:
      path: /dev/aperture_devices

マニフェストに次のコンテナを追加して、tcpxo-daemon サービスを実行します。（TCPXO_DAEMON_IMAGE）は、最新のイメージ us-docker.pkg.dev/gce-ai-infra/gpudirect-tcpxo/tcpgpudmarxd-dev:v1.0.17 に置き換えます。

- name: tcpxo-daemon
  image: TCPXO_DAEMON_IMAGE
  imagePullPolicy: Always
  command: ["/bin/sh", "-c"]
  args:
    - |
      set -ex
      chmod 755 /fts/entrypoint_rxdm_container.sh
      /fts/entrypoint_rxdm_container.sh --num_hops=2 --num_nics=8 --uid= --alsologtostderr
  securityContext:
    capabilities:
      add:
        - NET_ADMIN
        - NET_BIND_SERVICE
  volumeMounts:
    - name: libraries
      mountPath: /usr/local/nvidia
    - name: sys
      mountPath: /hostsysfs
    - name: proc-sys
      mountPath: /hostprocsysfs
  env:
    - name: LD_LIBRARY_PATH
      value: /usr/local/nvidia/lib64

すべての GPU コンテナに次の環境変数を追加します。

env:
- name: LD_LIBRARY_PATH
  value: /usr/local/nvidia/lib64
- name: NCCL_FASTRAK_LLCM_DEVICE_DIRECTORY
  value: /dev/aperture_devices

すべての GPU コンテナに次の volumeMount を追加します。aperture_devices が設定されていない場合、GPU コンテナには privileged:true が必要です。
```
volumeMounts:
  - name: aperture-devices
    mountPath: /dev/aperture_devices
```
環境変数を追加して NCCL オプションを構成します。詳細については、推奨される NCCL 構成設定を使用してパフォーマンスを改善するをご覧ください。

完成した Pod 仕様は次のようになります。

apiVersion: v1
kind: Pod
metadata:
name: a3plus-workloads
annotations:
  devices.gke.io/container.tcpxo-daemon: |+
    - path: /dev/nvidia0
    - path: /dev/nvidia1
    - path: /dev/nvidia2
    - path: /dev/nvidia3
    - path: /dev/nvidia4
    - path: /dev/nvidia5
    - path: /dev/nvidia6
    - path: /dev/nvidia7
    - path: /dev/nvidiactl
    - path: /dev/nvidia-uvm
    - path: /dev/dmabuf_import_helper
  networking.gke.io/default-interface: 'eth0'
  networking.gke.io/interfaces: |
    [
      {"interfaceName":"eth0","network":"default"},
      {"interfaceName":"eth1","network":"vpc1"},
      {"interfaceName":"eth2","network":"vpc2"},
      {"interfaceName":"eth3","network":"vpc3"},
      {"interfaceName":"eth4","network":"vpc4"},
      {"interfaceName":"eth5","network":"vpc5"},
      {"interfaceName":"eth6","network":"vpc6"},
      {"interfaceName":"eth7","network":"vpc7"},
      {"interfaceName":"eth8","network":"vpc8"}
    ]
...
containers:
  - name: tcpxo-daemon
    image: TCPXO_DAEMON_IMAGE
    imagePullPolicy: Always
    command: ["/bin/sh", "-c"]
    args:
      - |
        set -ex
        chmod 755 /fts/entrypoint_rxdm_container.sh
        /fts/entrypoint_rxdm_container.sh --num_hops=2 --num_nics=8 --uid= --alsologtostderr
    securityContext:
      capabilities:
        add:
          - NET_ADMIN
          - NET_BIND_SERVICE
    volumeMounts:
      - name: libraries
        mountPath: /usr/local/nvidia
      - name: sys
        mountPath: /hostsysfs
      - name: proc-sys
        mountPath: /hostprocsysfs
    env:
      - name: LD_LIBRARY_PATH
        value: /usr/local/nvidia/lib64
  - name: main-application-container
...
   env:
      - name: LD_LIBRARY_PATH
        value: /usr/local/nvidia/lib64
      - name: NCCL_FASTRAK_LLCM_DEVICE_DIRECTORY
        value: /dev/aperture_devices
    securityContext:
    volumeMounts:
      - name: aperture-devices
        mountPath: /dev/aperture_devices
    resources:
      limits:
        nvidia.com/gpu: 8
volumes:
  - name: libraries
    hostPath:
      path: /home/kubernetes/bin/nvidia
  - name: sys
    hostPath:
      path: /sys
  - name: proc-sys
    hostPath:
      path: /proc/sys
  - name: aperture-devices
    hostPath:
      path: /dev/aperture_devices

GPUDirect-TCPX

Pod メタデータに次のアノテーションを追加します。これらのアノテーションがない場合は、hostNetwork:true が Pod に対して必要になり、privileged:true が tcpx-daemon コンテナに対して必要になります。

metadata:
  annotations:
    devices.gke.io/container.tcpx-daemon: |+
      - path: /dev/nvidia0
      - path: /dev/nvidia1
      - path: /dev/nvidia2
      - path: /dev/nvidia3
      - path: /dev/nvidia4
      - path: /dev/nvidia5
      - path: /dev/nvidia6
      - path: /dev/nvidia7
      - path: /dev/nvidiactl
      - path: /dev/nvidia-uvm
    networking.gke.io/default-interface: 'eth0'
    networking.gke.io/interfaces: |
      [
        {"interfaceName":"eth0","network":"default"},
        {"interfaceName":"eth1","network":"vpc1"},
        {"interfaceName":"eth2","network":"vpc2"},
        {"interfaceName":"eth3","network":"vpc3"},
        {"interfaceName":"eth4","network":"vpc4"},
      ]

次のフィールドを Pod 仕様に追加します。

spec:
  volumes:
  - name: libraries
    hostPath:
      path: /home/kubernetes/bin/nvidia/lib64
  - name: sys
    hostPath:
      path: /sys
  - name: proc-sys
    hostPath:
      path: /proc/sys

マニフェストに次のコンテナを追加して、tcpx-daemon サービスを実行します。

- name: tcpx-daemon
  image: us-docker.pkg.dev/gce-ai-infra/gpudirect-tcpx/tcpgpudmarxd-dev:v2.0.9
  command:
    - /tcpgpudmarxd/build/app/tcpgpudmarxd
    - --gpu_nic_preset
    - a3vm
    - --gpu_shmem_type
    - fd
    - --uds_path
    - /run/tcpx
    - --setup_param
    - \"--verbose 128 2 0 \"
  securityContext:
    capabilities:
        add:
          - NET_ADMIN
  volumeMounts:
    - name: libraries
      mountPath: /usr/local/nvidia/lib64
    - name: tcpx-socket
      mountPath: /run/tcpx
    - name: sys
      mountPath: /hostsysfs
    - name: proc-sys
      mountPath: /hostprocsysfs
  env:
    - name: LD_LIBRARY_PATH
      value: /usr/local/nvidia/lib64

GPU をリクエストするコンテナに次のボリュームマウントを追加します。
```
volumeMounts:
- name: tcpx-socket
  mountPath: /tmp
- name: libraries
  mountPath: /usr/local/nvidia/lib64
```
注: GPU をリクエストするコンテナのデフォルトの tcpx-socket パスは /tmp です。NCCL_GPUDIRECTTCPX_UNIX_CLIENT_PREFIX 環境変数を /tmp 以外の値に設定すると、GKE は tcpx-socket ボリュームをその mountPath にマウントします。
環境変数を追加して NCCL オプションを構成します。詳細については、このドキュメントの推奨される NCCL 構成設定を使用してパフォーマンスを改善するをご覧ください。
次の環境変数をすべての GPU コンテナに追加します。
```
env:
- name: LD_LIBRARY_PATH
  value: /usr/local/nvidia/lib64
```

完成した Pod 仕様は次のようになります。

apiVersion: v1
kind: Pod
metadata:
name: a3-gpu-workloads-example
labels:
  name: a3-gpu-workloads-example
annotations:
  devices.gke.io/container.tcpx-daemon: |+
        - path: /dev/nvidia0
        - path: /dev/nvidia1
        - path: /dev/nvidia2
        - path: /dev/nvidia3
        - path: /dev/nvidia4
        - path: /dev/nvidia5
        - path: /dev/nvidia6
        - path: /dev/nvidia7
        - path: /dev/nvidiactl
        - path: /dev/nvidia-uvm
  networking.gke.io/default-interface: 'eth0'
  networking.gke.io/interfaces: |
    [
      {"interfaceName":"eth0","network":"default"},
      {"interfaceName":"eth1","network":"vpc1"},
      {"interfaceName":"eth2","network":"vpc2"},
      {"interfaceName":"eth3","network":"vpc3"},
      {"interfaceName":"eth4","network":"vpc4"}
    ]
spec:
containers:
  - name: tcpx-daemon
    image: us-docker.pkg.dev/gce-ai-infra/gpudirect-tcpx/tcpgpudmarxd-dev:v2.0.11
    imagePullPolicy: Always
    command:
      - /tcpgpudmarxd/build/app/tcpgpudmarxd
      - --gpu_nic_preset
      - a3vm
      - --gpu_shmem_type
      - fd
      - --uds_path
      - /run/tcpx
      - --setup_param
      - \"--verbose 128 2 0 \"
    securityContext:
capabilities:
        add:
          - NET_ADMIN
    volumeMounts:
      - name: libraries
        mountPath: /usr/local/nvidia/lib64
        readOnly: true
      - name: tcpx-socket
        mountPath: /run/tcpx
      - name: sys
        mountPath: /hostsysfs
      - name: proc-sys
        mountPath: /hostprocsysfs
    env:
      - name: LD_LIBRARY_PATH
        value: /usr/local/nvidia/lib64
  - name: a3-gpu-workloads-example
    ...
    volumeMounts:
      - name: tcpx-socket
        mountPath: /tmp
      - name: libraries
        mountPath: /usr/local/nvidia/lib64
        readOnly: true
    resources:
      limits:
        nvidia.com/gpu: 8
    env:
      - name: LD_LIBRARY_PATH
        value: /usr/local/nvidia/lib64
...
volumes:
  - name: libraries
    hostPath:
      path: /home/kubernetes/bin/nvidia/lib64
  - name: tcpx-socket
    emptyDir:
  - name: sys
    hostPath:
      path: /sys
  - name: proc-sys
    hostPath:
      path: /proc/sys

次のステップ

GPUDirect-TCPXO リリースノートを確認する
GPUDirect-TCPX(O) でワークロードを実行するためのベストプラクティスの詳細を確認する。
GKE ネットワーキングのベストプラクティスを確認する。
Nvidia GPU 上のデータ移動とアクセスについて Nvidia GPUDirect ファミリーテクノロジーの詳細を確認する。
GKE の現在の GPU バージョンの可用性と GPU のリクエストについて確認する。

Standard モードのクラスタで GPU ネットワーク帯域幅を最大化する

Google Cloud GPU スーパーコンピュータについて

帯域幅を最大化するために必要な機能

手順の概要

始める前に

要件

制限事項

VPC とサブネットを作成する

GPUDirect-TCPXO

GPUDirect-TCPX

GKE 環境を作成する

GPUDirect-TCPXO

GPUDirect-TCPX

GPU ノードプールを作成する

GPUDirect-TCPXO

GPUDirect-TCPX

GPUDirect バイナリをインストールして NCCL を構成する

GPUDirect-TCPXO

GPUDirect-TCPX

NRI デバイス インジェクタ プラグインをデプロイする

テスト ワークロードをデプロイする

GPUDirect-TCPXO

GPUDirect-TCPX

必要な NCCL 構成設定を使用してパフォーマンスを改善する

GPUDirect-TCPXO

LL128 サポート

GPUDirect-TCPX

NCCL のデバッグログを収集する

マニフェストに GPUDirect を追加する

GPUDirect-TCPXO

GPUDirect-TCPX

次のステップ

NRI デバイスインジェクタプラグインをデプロイする

テストワークロードをデプロイする