RDMA 网络配置文件

本页面简要介绍了 Google Cloud 中的 RDMA 网络配置文件。

RDMA 网络配置文件简介

借助 RDMA 网络配置文件,您可以创建 Virtual Private Cloud (VPC) 网络,在其中在具有 NVIDIA ConnectX-7 NIC 的虚拟机实例上运行 AI 工作负载。这些 NIC 支持远程直接内存访问 (RDMA) 连接,并且在 Google Cloud 中具有 NIC 类型 MRDMA

具有 RDMA 网络配置文件的 VPC 网络支持在使用 RDMA over Converged Ethernet v2 (RoCE v2) 在网络中创建的虚拟机的 GPU 之间进行低延迟、高带宽的 RDMA 通信。

如需详细了解如何在 Google Cloud 中运行 AI 工作负载,请参阅 AI Hypercomputer 文档。

规格

使用 RDMA 网络配置文件创建的 VPC 网络具有以下规范:

  • 该网络仅接受来自 MRDMA NIC 的附件。A3 Ultra 虚拟机是唯一支持 MRDMA NIC 的虚拟机类型。其他 NIC 类型(例如 A3 Ultra 虚拟机的 GVNICs)必须连接到常规 VPC 网络。
  • Google Cloud 预配置了网络支持的一组功能,以支持运行需要 RDMA 的 AI 工作负载。与常规 VPC 网络相比,采用 RDMA 网络配置文件的 VPC 网络存在更多限制。如需了解详情,请参阅支持的功能和不支持的功能
  • 该网络会受限于您在创建网络时指定的网络配置文件所在的可用区。例如,您在网络中创建的任何实例都必须在网络配置文件的可用区中创建。如需了解详情,请参阅支持的区域。此外,您在网络中创建的任何子网都必须位于与网络配置文件的可用区对应的区域中。
  • 您在创建网络时指定的 RDMA 网络配置文件的资源名称采用以下格式 ZONE-vpc-roce,例如 europe-west1-b-vpc-roce
  • 使用 RDMA 网络配置文件创建的 VPC 网络中的默认 MTU 为 8896。此默认值可让虚拟机的客机操作系统中的 RDMA 驱动程序灵活地使用适当的 MTU。对于某些 RDMA 工作负载,常规 VPC 网络中的默认 MTU (1460) 可能过小。为了获得最佳性能,Google 建议您不要更改默认 MTU。

支持的区域

RDMA 网络配置文件适用于以下区域:

  • europe-west1-b
  • us-east7-c

支持的功能和不支持的功能

本部分介绍了使用 RDMA 网络配置文件创建的 VPC 网络中受支持和不受支持的功能。

除非常规 VPC 网络的功能被配置为由网络配置文件停用、依赖于由网络配置文件停用的功能,或者不适用于来自 RDMA NIC 的流量(如本部分所述),否则这些功能受支持。

由网络配置文件配置的功能

下表列出了由网络配置文件资源配置的具体功能,并说明了使用 RDMA 网络配置文件创建的 VPC 网络是否支持这些功能。其中包括 Google Cloud 设置的网络配置文件属性值。

功能 支持 属性名称 属性值 详细信息
MRDMA 个 NIC interfaceTypes MRDMA

该网络仅支持 A3 Ultra 虚拟机使用的 MRDMA NIC。

该网络不支持其他 NIC 类型,例如 GVNICVIRTIO_NET

同一网络中的多 NIC allowMultiNicInSameNetwork MULTI_NIC_IN_SAME_NETWORK_ALLOWED 该网络支持多 NIC 虚拟机,其中同一虚拟机的不同 NIC 可以使用同一 VPC 网络。

请参阅同一 VPC 网络中多 NIC 的性能注意事项

仅限 IPv4 的子网 allowedSubnetStackTypes SUBNET_STACK_TYPE_IPV4_ONLY

该网络支持仅 IPv4 子网,包括与常规 VPC 网络相同的有效 IPv4 范围

网络不支持双栈或仅 IPv6 子网。如需了解详情,请参阅子网类型

PRIVATE 子网用途 allowedSubnetPurposes SUBNET_PURPOSE_PRIVATE

该网络支持常规子网,其用途为 PRIVATE

网络不支持 Private Service Connect 子网、代理专用子网或专用 NAT 子网。 如需了解详情,请参阅子网的用途

GCE_ENDPOINT 地址用途 addressPurposes GCE_ENDPOINT

该网络支持用途为 GCE_ENDPOINT 的 IP 地址,该用途用于分配给虚拟机实例的内部 IP 地址。

该网络不支持特殊用途 IP 地址,例如 Cloud Load Balancing 中使用的 SHARED_LOADBALANCER_VIP 用途。 如需了解详情,请参阅地址资源参考文档

虚拟机的外部 IP 地址 allowExternalIpAccess EXTERNAL_IP_ACCESS_BLOCKED 该网络不支持向虚拟机分配外部 IP 地址。连接到网络的 NIC 无法访问公共互联网。
别名 IP 范围 allowAliasIpRanges ALIAS_IP_RANGE_BLOCKED 网络不支持使用别名 IP 地址范围,包括次要 IPv4 地址范围,这些范围只能由别名 IP 地址范围使用。
自动模式 allowAutoModeSubnet AUTO_MODE_SUBNET_BLOCKED VPC 网络的子网创建模式无法设置为自动模式。
VPC 网络对等互连 allowVpcPeering VPC_PEERING_BLOCKED 网络不支持 VPC 网络对等互连。 此外,该网络不支持专用服务访问通道,该通道依赖于 VPC 网络对等互连。
静态路由 allowStaticRoutes STATIC_ROUTES_BLOCKED 网络不支持静态路由
数据包镜像 allowPacketMirroring PACKET_MIRRORING_BLOCKED 网络不支持数据包镜像
Cloud NAT allowCloudNat CLOUD_NAT_BLOCKED 网络不支持 Cloud NAT
Cloud Router allowCloudRouter CLOUD_ROUTER_BLOCKED 该网络不支持创建 Cloud Router 路由器
Cloud Interconnect allowInterconnect INTERCONNECT_BLOCKED 网络不支持 Cloud Interconnect
Cloud VPN allowVpn VPN_BLOCKED 网络不支持 Cloud VPN
Cloud Load Balancing allowLoadBalancing LOAD_BALANCING_BLOCKED 网络不支持 Cloud Load Balancing。您无法在该网络中创建负载平衡器。此外,您无法在网络中使用 Google Cloud Armor,因为 Google Cloud Armor 安全政策仅适用于具有外部 IP 地址的负载平衡器和虚拟机。
专用 Google 访问通道 allowPrivateGoogleAccess PRIVATE_GOOGLE_ACCESS_BLOCKED 网络不支持专用 Google 访问通道
Private Service Connect allowPsc PSC_BLOCKED 该网络不支持任何 Private Service Connect 配置。

不适用于来自 RDMA NIC 的流量的其他功能

由于 RDMA 是第 2 层流量,因此适用于其他协议流量的常规 VPC 网络的某些功能不适用于采用 RDMA 网络配置文件的网络中的流量,例如:

同一 VPC 网络中多 NIC 的性能注意事项

为了支持受益于跨轨 GPU 到 GPU 通信的工作负载,RDMA 网络配置文件可让您创建多个 MRDMA NIC 连接到同一网络的虚拟机。不过,跨轨道连接可能会影响网络性能,例如增加延迟时间。具有 MRDMA NIC 的虚拟机使用 NCCL,后者会尝试对所有网络传输进行轨道对齐,即使是跨轨道通信也是如此,例如,在通过网络传输数据之前,使用 PXN 通过 NVlink 将数据复制到轨道对齐的 GPU。

后续步骤