RDMA ネットワーク プロファイル
このページでは、 Google Cloudの RDMA ネットワーク プロファイルの概要について説明します。
RDMA ネットワーク プロファイルについて
RDMA ネットワーク プロファイルを使用すると、NVIDIA ConnectX-7 NIC を搭載した VM インスタンスで AI ワークロードを実行できる Virtual Private Cloud(VPC)ネットワークを作成できます。これらの NIC はリモート ダイレクト メモリ アクセス(RDMA)接続をサポートし、 Google Cloudでは NIC タイプが MRDMA
です。
RDMA ネットワーク プロファイルを使用する VPC ネットワークは、RDMA over Converged Ethernet v2(RoCE v2)を使用してネットワーク内に作成された VM の GPU 間の低レイテンシで高帯域幅の RDMA 通信をサポートします。
Google Cloudで AI ワークロードを実行する方法については、AI ハイパーコンピュータのドキュメントをご覧ください。
仕様
RDMA ネットワーク プロファイルで作成された VPC ネットワークの仕様は次のとおりです。
- ネットワークは、
MRDMA
NIC からのアタッチメントのみを受け入れます。MRDMA
NIC をサポートする VM タイプは A3 Ultra VM のみです。A3 Ultra VM の GVNICs など、他の NIC タイプは通常の VPC ネットワークに接続する必要があります。 - ネットワークでサポートされている一連の機能は、Google Cloud によって事前構成されており、RDMA を必要とする AI ワークロードの実行をサポートしています。RDMA ネットワーク プロファイルを使用する VPC ネットワークには、通常の VPC ネットワークよりも多くの制約があります。詳しくは、サポートされている機能とサポートされていない機能をご覧ください。
- ネットワークは、ネットワークの作成時に指定したネットワーク プロファイルのゾーンに制限されます。たとえば、ネットワークで作成するインスタンスは、ネットワーク プロファイルのゾーンに作成する必要があります。詳細については、サポートされているゾーンをご覧ください。また、ネットワークで作成するサブネットは、ネットワーク プロファイルのゾーンに対応するリージョンに存在する必要があります。
- ネットワークの作成時に指定する RDMA ネットワーク プロファイルのリソース名は、
ZONE-vpc-roce
という形式です(例:europe-west1-b-vpc-roce
)。 - RDMA ネットワーク プロファイルで作成された VPC ネットワークのデフォルトの MTU は
8896
です。このデフォルトにより、VM のゲスト OS の RDMA ドライバは、適切な MTU を柔軟に使用できます。通常の VPC ネットワークのデフォルトの MTU(1460
)は、一部の RDMA ワークロードでは小さすぎる場合があります。最適なパフォーマンスを得るには、デフォルトの MTU を変更しないことをおすすめします。
サポートされているゾーン
RDMA ネットワーク プロファイルは、次のゾーンで使用できます。
europe-west1-b
us-east7-c
サポートされている機能とサポートされていない機能
このセクションでは、RDMA ネットワーク プロファイルで作成された VPC ネットワークでサポートされている機能とサポートされていない機能について説明します。
通常の VPC ネットワークの機能は、ネットワーク プロファイルで無効にするように構成されている場合、ネットワーク プロファイルで無効になっている機能に依存している場合、またはこのセクションで説明するように RDMA NIC からのトラフィックに適用されない場合を除き、サポートされています。
ネットワーク プロファイルで構成された機能
この表に、ネットワーク プロファイル リソースによって構成される特定の機能と、RDMA ネットワーク プロファイルで作成された VPC ネットワークでサポートされているかどうかを示します。これには、 Google Cloudによって設定されたネットワーク プロファイルのプロパティ値が含まれます。
特徴 | サポート対象 | プロパティ名 | プロパティ値 | 詳細 |
---|---|---|---|---|
MRDMA NIC |
interfaceTypes |
MRDMA |
ネットワークは、A3 Ultra VM で使用される ネットワークが、 |
|
同じネットワーク内のマルチ NIC | allowMultiNicInSameNetwork |
MULTI_NIC_IN_SAME_NETWORK_ALLOWED |
このネットワークは、同じ VM の異なる NIC が同じ VPC ネットワークを使用できるマルチ NIC VM をサポートしています。 | |
IPv4 専用のサブネット | allowedSubnetStackTypes |
SUBNET_STACK_TYPE_IPV4_ONLY |
このネットワークは、通常の VPC ネットワークと同じ有効な IPv4 範囲を含む、IPv4 のみのサブネットをサポートしています。 ネットワークがデュアルスタックまたは IPv6 のみのサブネットをサポートしていない。詳細については、サブネットの種類をご覧ください。 |
|
PRIVATE サブネットの目的 |
allowedSubnetPurposes |
SUBNET_PURPOSE_PRIVATE |
ネットワークは、目的が ネットワークが Private Service Connect サブネット、プロキシ専用サブネット、または Private NAT サブネットをサポートしていない。詳細については、サブネットの目的をご覧ください。 |
|
GCE_ENDPOINT アドレスの目的 |
addressPurposes |
GCE_ENDPOINT |
ネットワークは、 ネットワークは、Cloud Load Balancing で使用される |
|
VM の外部 IP アドレス | allowExternalIpAccess |
EXTERNAL_IP_ACCESS_BLOCKED |
このネットワークは、VM への外部 IP アドレスの割り当てをサポートしていません。ネットワークに接続されている NIC が一般公開されているインターネットに到達できない。 | |
エイリアス IP 範囲 | allowAliasIpRanges |
ALIAS_IP_RANGE_BLOCKED |
ネットワークでエイリアス IP 範囲(エイリアス IP 範囲でのみ使用できるセカンダリ IPv4 アドレス範囲を含む)を使用できない。 | |
自動モード | allowAutoModeSubnet |
AUTO_MODE_SUBNET_BLOCKED |
VPC ネットワークのサブネット作成モードを自動モードに設定することはできません。 | |
VPC ネットワーク ピアリング | allowVpcPeering |
VPC_PEERING_BLOCKED |
ネットワークが VPC ネットワーク ピアリングをサポートしていない。また、このネットワークは、VPC ネットワーク ピアリングに依存するプライベート サービス アクセスをサポートしていません。 | |
静的ルート | allowStaticRoutes |
STATIC_ROUTES_BLOCKED |
ネットワークが静的ルートをサポートしていない。 | |
Packet Mirroring | allowPacketMirroring |
PACKET_MIRRORING_BLOCKED |
ネットワークが Packet Mirroring をサポートしていない。 | |
Cloud NAT | allowCloudNat |
CLOUD_NAT_BLOCKED |
ネットワークが Cloud NAT をサポートしていない。 | |
Cloud Router | allowCloudRouter |
CLOUD_ROUTER_BLOCKED |
ネットワークが Cloud Router の作成をサポートしていない。 | |
Cloud Interconnect | allowInterconnect |
INTERCONNECT_BLOCKED |
ネットワークが Cloud Interconnect をサポートしていない。 | |
Cloud VPN | allowVpn |
VPN_BLOCKED |
ネットワークが Cloud VPN をサポートしていない。 | |
Cloud Load Balancing | allowLoadBalancing |
LOAD_BALANCING_BLOCKED |
ネットワークが Cloud Load Balancing をサポートしていない。ネットワークにロードバランサを作成することはできません。また、Google Cloud Armor セキュリティ ポリシーは外部 IP アドレスを持つロードバランサと VM にのみ適用されるため、ネットワークで Google Cloud Armor を使用できません。 | |
限定公開の Google アクセス | allowPrivateGoogleAccess |
PRIVATE_GOOGLE_ACCESS_BLOCKED |
ネットワークが限定公開の Google アクセスをサポートしていない。 | |
Private Service Connect | allowPsc |
PSC_BLOCKED |
ネットワークが Private Service Connect 構成をサポートしていない。 |
RDMA NIC からのトラフィックに適用されない追加機能
RDMA はレイヤ 2 トラフィックであるため、他のプロトコルのトラフィックに使用できる通常の VPC ネットワークの一部機能は、RDMA ネットワーク プロファイルを使用するネットワーク内のトラフィックに適用されません。次に例を示します。
同じ VPC ネットワーク内のマルチ NIC のパフォーマンスに関する考慮事項
クロスレール GPU 間の通信を利用するワークロードをサポートするために、RDMA ネットワーク プロファイルを使用すると、同じネットワークに複数の MRDMA
NIC が接続された VM を作成できます。ただし、クロスレール接続は、レイテンシの増加など、ネットワークのパフォーマンスに影響する可能性があります。MRDMA
NIC を使用する VM は NCCL を使用します。NCCL は、クロスレール通信でもすべてのネットワーク転送をレールアライメントしようとします。たとえば、PXN を使用して、ネットワーク経由で転送する前に NVlink を介してデータをレールアライメントされた GPU にコピーします。