RDMA ネットワーク プロファイル

このページでは、 Google Cloudの RDMA ネットワーク プロファイルの概要について説明します。

RDMA ネットワーク プロファイルについて

RDMA ネットワーク プロファイルを使用すると、NVIDIA ConnectX-7 NIC を搭載した VM インスタンスで AI ワークロードを実行できる Virtual Private Cloud(VPC)ネットワークを作成できます。これらの NIC はリモート ダイレクト メモリ アクセス(RDMA)接続をサポートし、 Google Cloudでは NIC タイプが MRDMA です。

RDMA ネットワーク プロファイルを使用する VPC ネットワークは、RDMA over Converged Ethernet v2(RoCE v2)を使用してネットワーク内に作成された VM の GPU 間の低レイテンシで高帯域幅の RDMA 通信をサポートします。

Google Cloudで AI ワークロードを実行する方法については、AI ハイパーコンピュータのドキュメントをご覧ください。

仕様

RDMA ネットワーク プロファイルで作成された VPC ネットワークの仕様は次のとおりです。

  • ネットワークは、MRDMA NIC からのアタッチメントのみを受け入れます。MRDMA NIC をサポートする VM タイプは A3 Ultra VM のみです。A3 Ultra VM の GVNICs など、他の NIC タイプは通常の VPC ネットワークに接続する必要があります。
  • ネットワークでサポートされている一連の機能は、Google Cloud によって事前構成されており、RDMA を必要とする AI ワークロードの実行をサポートしています。RDMA ネットワーク プロファイルを使用する VPC ネットワークには、通常の VPC ネットワークよりも多くの制約があります。詳しくは、サポートされている機能とサポートされていない機能をご覧ください。
  • ネットワークは、ネットワークの作成時に指定したネットワーク プロファイルのゾーンに制限されます。たとえば、ネットワークで作成するインスタンスは、ネットワーク プロファイルのゾーンに作成する必要があります。詳細については、サポートされているゾーンをご覧ください。また、ネットワークで作成するサブネットは、ネットワーク プロファイルのゾーンに対応するリージョンに存在する必要があります。
  • ネットワークの作成時に指定する RDMA ネットワーク プロファイルのリソース名は、ZONE-vpc-roce という形式です(例: europe-west1-b-vpc-roce)。
  • RDMA ネットワーク プロファイルで作成された VPC ネットワークのデフォルトの MTU は 8896 です。このデフォルトにより、VM のゲスト OS の RDMA ドライバは、適切な MTU を柔軟に使用できます。通常の VPC ネットワークのデフォルトの MTU(1460)は、一部の RDMA ワークロードでは小さすぎる場合があります。最適なパフォーマンスを得るには、デフォルトの MTU を変更しないことをおすすめします。

サポートされているゾーン

RDMA ネットワーク プロファイルは、次のゾーンで使用できます。

  • europe-west1-b
  • us-east7-c

サポートされている機能とサポートされていない機能

このセクションでは、RDMA ネットワーク プロファイルで作成された VPC ネットワークでサポートされている機能とサポートされていない機能について説明します。

通常の VPC ネットワークの機能は、ネットワーク プロファイルで無効にするように構成されている場合、ネットワーク プロファイルで無効になっている機能に依存している場合、またはこのセクションで説明するように RDMA NIC からのトラフィックに適用されない場合を除き、サポートされています。

ネットワーク プロファイルで構成された機能

この表に、ネットワーク プロファイル リソースによって構成される特定の機能と、RDMA ネットワーク プロファイルで作成された VPC ネットワークでサポートされているかどうかを示します。これには、 Google Cloudによって設定されたネットワーク プロファイルのプロパティ値が含まれます。

特徴 サポート対象 プロパティ名 プロパティ値 詳細
MRDMA NIC interfaceTypes MRDMA

ネットワークは、A3 Ultra VM で使用される MRDMA NIC のみをサポートします。

ネットワークが、GVNICVIRTIO_NET などの他の NIC タイプをサポートしていない。

同じネットワーク内のマルチ NIC allowMultiNicInSameNetwork MULTI_NIC_IN_SAME_NETWORK_ALLOWED このネットワークは、同じ VM の異なる NIC が同じ VPC ネットワークを使用できるマルチ NIC VM をサポートしています。

同じ VPC ネットワーク内のマルチ NIC のパフォーマンスに関する考慮事項をご覧ください。

IPv4 専用のサブネット allowedSubnetStackTypes SUBNET_STACK_TYPE_IPV4_ONLY

このネットワークは、通常の VPC ネットワークと同じ有効な IPv4 範囲を含む、IPv4 のみのサブネットをサポートしています。

ネットワークがデュアルスタックまたは IPv6 のみのサブネットをサポートしていない。詳細については、サブネットの種類をご覧ください。

PRIVATE サブネットの目的 allowedSubnetPurposes SUBNET_PURPOSE_PRIVATE

ネットワークは、目的が PRIVATE の通常のサブネットをサポートしています。

ネットワークが Private Service Connect サブネット、プロキシ専用サブネット、または Private NAT サブネットをサポートしていない。詳細については、サブネットの目的をご覧ください。

GCE_ENDPOINT アドレスの目的 addressPurposes GCE_ENDPOINT

ネットワークは、GCE_ENDPOINT の目的の IP アドレスをサポートしています。これは、VM インスタンスに割り当てられた内部 IP アドレスに使用されます。

ネットワークは、Cloud Load Balancing で使用される SHARED_LOADBALANCER_VIP 目的など、特殊な目的の IP アドレスをサポートしていません。詳細については、アドレス リソース リファレンスをご覧ください。

VM の外部 IP アドレス allowExternalIpAccess EXTERNAL_IP_ACCESS_BLOCKED このネットワークは、VM への外部 IP アドレスの割り当てをサポートしていません。ネットワークに接続されている NIC が一般公開されているインターネットに到達できない。
エイリアス IP 範囲 allowAliasIpRanges ALIAS_IP_RANGE_BLOCKED ネットワークでエイリアス IP 範囲(エイリアス IP 範囲でのみ使用できるセカンダリ IPv4 アドレス範囲を含む)を使用できない。
自動モード allowAutoModeSubnet AUTO_MODE_SUBNET_BLOCKED VPC ネットワークのサブネット作成モードを自動モードに設定することはできません。
VPC ネットワーク ピアリング allowVpcPeering VPC_PEERING_BLOCKED ネットワークが VPC ネットワーク ピアリングをサポートしていない。また、このネットワークは、VPC ネットワーク ピアリングに依存するプライベート サービス アクセスをサポートしていません。
静的ルート allowStaticRoutes STATIC_ROUTES_BLOCKED ネットワークが静的ルートをサポートしていない。
Packet Mirroring allowPacketMirroring PACKET_MIRRORING_BLOCKED ネットワークが Packet Mirroring をサポートしていない。
Cloud NAT allowCloudNat CLOUD_NAT_BLOCKED ネットワークが Cloud NAT をサポートしていない。
Cloud Router allowCloudRouter CLOUD_ROUTER_BLOCKED ネットワークが Cloud Router の作成をサポートしていない。
Cloud Interconnect allowInterconnect INTERCONNECT_BLOCKED ネットワークが Cloud Interconnect をサポートしていない。
Cloud VPN allowVpn VPN_BLOCKED ネットワークが Cloud VPN をサポートしていない。
Cloud Load Balancing allowLoadBalancing LOAD_BALANCING_BLOCKED ネットワークが Cloud Load Balancing をサポートしていない。ネットワークにロードバランサを作成することはできません。また、Google Cloud Armor セキュリティ ポリシーは外部 IP アドレスを持つロードバランサと VM にのみ適用されるため、ネットワークで Google Cloud Armor を使用できません。
限定公開の Google アクセス allowPrivateGoogleAccess PRIVATE_GOOGLE_ACCESS_BLOCKED ネットワークが限定公開の Google アクセスをサポートしていない。
Private Service Connect allowPsc PSC_BLOCKED ネットワークが Private Service Connect 構成をサポートしていない。

RDMA NIC からのトラフィックに適用されない追加機能

RDMA はレイヤ 2 トラフィックであるため、他のプロトコルのトラフィックに使用できる通常の VPC ネットワークの一部機能は、RDMA ネットワーク プロファイルを使用するネットワーク内のトラフィックに適用されません。次に例を示します。

同じ VPC ネットワーク内のマルチ NIC のパフォーマンスに関する考慮事項

クロスレール GPU 間の通信を利用するワークロードをサポートするために、RDMA ネットワーク プロファイルを使用すると、同じネットワークに複数の MRDMA NIC が接続された VM を作成できます。ただし、クロスレール接続は、レイテンシの増加など、ネットワークのパフォーマンスに影響する可能性があります。MRDMA NIC を使用する VM は NCCL を使用します。NCCL は、クロスレール通信でもすべてのネットワーク転送をレールアライメントしようとします。たとえば、PXN を使用して、ネットワーク経由で転送する前に NVlink を介してデータをレールアライメントされた GPU にコピーします。

次のステップ