RDMA 网络配置文件

本页面简要介绍了 Google Cloud中的 RDMA 网络配置文件。

RDMA 网络配置文件简介

借助 RDMA 网络配置文件,您可以创建 Virtual Private Cloud (VPC) 网络,并在其中在具有 NVIDIA ConnectX-7 NIC 的虚拟机实例上运行 AI 工作负载。这些网卡支持远程直接内存访问 (RDMA) 连接,并且在 Google Cloud中具有网卡类型 MRDMA

具有 RDMA 网络配置文件的 VPC 网络支持在使用 RDMA over converged ethernet v2 (RoCE v2) 的网络中创建的虚拟机的 GPU 之间进行低延迟、高带宽的 RDMA 通信。

如需详细了解如何在 Google Cloud中运行 AI 工作负载,请参阅 AI Hypercomputer 文档。

规格

使用 RDMA 网络配置文件创建的 VPC 网络具有以下规范:

  • 网络仅接受来自 MRDMA NIC 的附件。A3 Ultra 虚拟机是唯一支持 MRDMA NIC 的虚拟机类型。其他类型的网卡(例如 A3 Ultra 虚拟机的 GVNIC)必须连接到常规 VPC 网络。
  • 网络中支持的一组功能由Google Cloud 预先配置,以支持运行需要 RDMA 的 AI 工作负载。使用 RDMA 网络配置文件的 VPC 网络比常规 VPC 网络具有更多限制。如需了解详情,请参阅支持的功能和不支持的功能
  • 网络会受限于您在创建网络时指定的网络配置文件的可用区。例如,您在网络中创建的任何实例都必须在网络配置文件的某个可用区中创建。此外,您在网络中创建的所有子网都必须位于与网络配置文件的可用区对应的区域中。

    RDMA 网络配置文件并非在所有可用区都可用。如需查看网络配置文件可用的可用区,请参阅支持的可用区。您还可以通过列出网络配置文件查看可用的可用区专用网络配置文件实例。

  • 您在创建网络时指定的 RDMA 网络配置文件的资源名称采用 ZONE-vpc-roce 格式,例如 europe-west1-b-vpc-roce

  • 使用 RDMA 网络配置文件创建的 VPC 网络中的默认 MTU 为 8896。此默认值可让虚拟机客户机操作系统中的 RDMA 驱动程序灵活地使用适当的 MTU。对于某些 RDMA 工作负载,常规 VPC 网络中的默认 MTU (1460) 可能过小。为实现最佳性能,Google 建议您不要更改默认 MTU。

支持的可用区

RDMA 网络配置文件适用于以下可用区:

  • europe-west1-b
  • us-central1-a
  • us-central1-b
  • us-east4-b
  • us-west1-c

支持的功能与不支持的功能

本部分介绍了使用 RDMA 网络配置创建的 VPC 网络中支持和不支持的功能。

系统支持常规 VPC 网络的功能,除非这些功能已配置为由网络配置文件停用,依赖于由网络配置文件停用的功能,或者不适用于本部分所述的 RDMA NIC 的流量。

由网络配置文件配置的功能

下表列出了由网络配置文件资源配置的特定功能,并说明了这些功能在使用 RDMA 网络配置文件创建的 VPC 网络中是否受支持。其中包含由 Google Cloud设置的网络配置文件属性值。

功能 支持 属性名称 属性值 详情
MRDMA NIC interfaceTypes MRDMA

该网络仅支持 A3 Ultra 虚拟机使用的 MRDMA NIC。

网络不支持其他 NIC 类型,例如 GVNICVIRTIO_NET

同一网络中的多 NIC allowMultiNicInSameNetwork MULTI_NIC_IN_SAME_NETWORK_ALLOWED 该网络支持多 NIC 虚拟机,其中同一虚拟机的不同 NIC 可以连接到同一 VPC 网络。不过,NIC 必须连接到网络中的不同子网。

请参阅同一 VPC 网络中的多 NIC 的性能注意事项

仅限 IPv4 的子网 allowedSubnetStackTypes SUBNET_STACK_TYPE_IPV4_ONLY

该网络支持仅 IPv4 的子网,包括与常规 VPC 网络相同的有效 IPv4 范围

网络不支持双栈或 IPv6 单栈子网。如需了解详情,请参阅子网类型

PRIVATE 子网用途 allowedSubnetPurposes SUBNET_PURPOSE_PRIVATE

该网络支持常规子网,其用途为 PRIVATE

网络不支持 Private Service Connect 子网、仅代理子网或专用 NAT 子网。 如需了解详情,请参阅子网用途

GCE_ENDPOINT 地址用途 addressPurposes GCE_ENDPOINT

该网络支持用途为 GCE_ENDPOINT 的 IP 地址,该用途用于分配给虚拟机实例的内部 IP 地址。

网络不支持特殊用途 IP 地址,例如 Cloud Load Balancing 中使用的 SHARED_LOADBALANCER_VIP 用途。 如需了解详情,请参阅地址资源参考文档

虚拟机的外部 IP 地址 allowExternalIpAccess EXTERNAL_IP_ACCESS_BLOCKED 网络不支持为虚拟机分配外部 IP 地址。连接到网络的 NIC 无法访问公共互联网。
别名 IP 范围 allowAliasIpRanges ALIAS_IP_RANGE_BLOCKED 网络不支持使用别名 IP 地址范围,包括次要 IPv4 地址范围,这些范围只能由别名 IP 地址范围使用。
自动模式 allowAutoModeSubnet AUTO_MODE_SUBNET_BLOCKED VPC 网络的子网创建模式无法设置为自动模式。
VPC 网络对等互连 allowVpcPeering VPC_PEERING_BLOCKED 该网络不支持 VPC 网络对等互连。 此外,该网络不支持专用服务访问,后者依赖于 VPC 网络对等互连。
静态路由 allowStaticRoutes STATIC_ROUTES_BLOCKED 该网络不支持静态路由
数据包镜像 allowPacketMirroring PACKET_MIRRORING_BLOCKED 网络不支持数据包镜像
Cloud NAT allowCloudNat CLOUD_NAT_BLOCKED 该网络不支持 Cloud NAT
Cloud Router allowCloudRouter CLOUD_ROUTER_BLOCKED 该网络不支持创建 Cloud Router 路由器
Cloud Interconnect allowInterconnect INTERCONNECT_BLOCKED 该网络不支持 Cloud Interconnect
Cloud VPN allowVpn VPN_BLOCKED 该网络不支持 Cloud VPN
Cloud Load Balancing allowLoadBalancing LOAD_BALANCING_BLOCKED 该网络不支持 Cloud Load Balancing。您无法在网络中创建负载均衡器。此外,您无法在网络中使用 Google Cloud Armor,因为 Google Cloud Armor 安全政策仅适用于具有外部 IP 地址的负载均衡器和虚拟机。
专用 Google 访问通道 allowPrivateGoogleAccess PRIVATE_GOOGLE_ACCESS_BLOCKED 该网络不支持专用 Google 访问通道
Private Service Connect allowPsc PSC_BLOCKED 网络不支持任何 Private Service Connect 配置。

不适用于来自 RDMA NIC 的流量的其他功能

由于采用 RDMA 网络配置的 VPC 网络针对性能进行了优化,因此常规 VPC 网络的一些功能(适用于其他协议的流量)不适用于采用 RDMA 网络配置的网络中的任何流量,例如:

虽然 Google Cloud 不会阻止您配置这些功能,但这些功能在使用 RDMA 网络配置的 VPC 网络中不起作用。

同一 VPC 网络中多 NIC 的性能注意事项

为了支持从跨轨道 GPU 到 GPU 通信中受益的工作负载,RDMA 网络配置文件可让您创建具有多个 MRDMA NIC 且连接到同一网络的虚拟机。不过,跨轨道连接可能会影响网络性能,例如延长延迟时间。具有 MRDMA NIC 的虚拟机使用 NCCL,NCCL 会尝试对所有网络传输进行轨道对齐,即使是跨轨道通信也是如此,例如,在通过网络传输数据之前,使用 PXN 将数据通过 NVLink 复制到轨道对齐的 GPU。

后续步骤