RDMA 网络配置文件

本页面简要介绍了 Google Cloud中的远程直接内存访问 (RDMA) 网络配置文件。

概览

借助 RDMA 网络配置文件,您可以创建虚拟私有云 (VPC) 网络,该网络可在其中创建的虚拟机的内存或 GPU 之间提供低延迟、高带宽的 RDMA 通信。

RDMA 网络配置文件非常适合运行 AI 工作负载。如需详细了解如何在 Google Cloud中运行 AI 工作负载,请参阅 AI Hypercomputer 概览

您可以使用 RDMA 网络配置文件创建以下类型的 VPC 网络:

VPC 网络类型 网络配置文件资源名称 协议 支持的 NIC 类型 支持的机器类型
Falcon VPC 网络(预览版 ZONE-vpc-falcon 基于 Falcon 传输的 RDMA IRDMA
RoCE VPC 网络 ZONE-vpc-roce 基于融合以太网的 RDMA v2 (RoCE v2) MRDMA

支持的可用区

RDMA 网络配置文件只能在一组有限的可用区中使用。您只能在相应网络配置文件可用的可用区中创建 Falcon VPC 网络或 RoCE VPC 网络。

如需查看支持的可用区,请参阅列出网络配置文件

或者,您也可以查看您打算在网络中创建的机器类型所支持的可用区。RDMA 网络配置文件适用于其支持的机器类型所在的可用区。详情请参阅以下内容:

规格

使用 RDMA 网络配置文件创建的 VPC 网络具有以下规范:

  • 可用区限制。使用具有 RDMA 网络配置文件的 VPC 网络的资源仅限于与网络创建期间的 VPC 网络关联的 RDMA 网络配置文件所在的可用区。此可用区级限制具有以下影响:

    • 所有在 VPC 网络中具有网络接口的实例都必须在与 VPC 网络所用 RDMA 网络配置文件的可用区相匹配的可用区中创建。

    • 在 VPC 网络中创建的所有子网都必须位于相应区域中,该区域包含 VPC 网络所用 RDMA 网络配置文件的可用区。

  • 仅限 RDMA 网络接口。采用 RDMA 网络配置文件的 VPC 网络仅支持来自特定网络接口的连接:

    • Falcon VPC 网络仅支持 IRDMA 网络接口 (NIC),这些接口仅在 H4D 机器系列上提供。
    • RoCE VPC 网络仅支持 MRDMA NIC,而 MRDMA NIC 仅适用于 A3 UltraA4A4X 机器系列。

    虚拟机 (VM) 实例的所有非 RDMA NIC 都必须连接到常规 VPC 网络。

  • 8896 字节 MTU。为获得最佳性能,我们建议为采用 RDMA 网络配置文件的 VPC 网络设置 8896 字节的最大传输单元 (MTU)。这样一来,虚拟机客机操作系统中的 RDMA 驱动程序便可根据需要使用较小的 MTU。

    如果您使用 gcloud CLI 或 API 创建具有 RDMA 网络配置文件的 VPC 网络,则默认 MTU 为 8896 字节。如果您使用的是 Google Cloud 控制台,则必须将 MTU 设置为 8896

  • 防火墙差异。请参阅以下信息,了解采用 RDMA 网络配置文件的 VPC 网络在防火墙方面的差异:

    • 具有 RDMA 网络配置文件的 VPC 网络使用以下隐式防火墙规则,这些规则与常规 VPC 网络使用的隐式防火墙规则不同:

      • 隐式允许出站流量
      • 隐式允许入站流量
    • Cloud NGFW 支持取决于 VPC 网络类型:

      • RoCE VPC 网络仅支持具有 RoCE 防火墙政策类型的区域级网络防火墙政策。支持的区域级网络防火墙政策中规则的参数集有限。如需了解详情,请参阅 适用于 RoCE VPC 网络的 Cloud NGFW
      • Falcon VPC 网络不支持配置 Cloud NGFW 规则或政策。
  • 不支持Connectivity TestsConnectivity Tests 不支持采用 RDMA 网络配置文件的 VPC 网络。

  • 其他 VPC 功能。采用 RDMA 网络配置文件的 VPC 网络支持有限的其他 VPC 功能。如需了解详情,请参阅下文中的支持的功能与不支持的功能部分。

支持的功能与不支持的功能

下表列出了采用 RDMA 网络配置文件的 VPC 网络支持哪些 VPC 功能。

功能 支持 网络配置文件属性 网络配置文件属性值 详细信息
RDMA NIC interfaceTypes MRDMAIRDMA

采用 RDMA 网络配置文件的 VPC 网络仅支持与 RDMA 网络配置文件对应的 NIC 类型:

  • IRDMA(适用于 Falcon VPC 网络)
  • MRDMA(适用于 RoCE VPC 网络)

不支持其他 NIC 类型,例如 GVNICVIRTIO_NET

同一网络中的多 NIC allowMultiNicInSameNetwork MULTI_NIC_IN_SAME_NETWORK_ALLOWED

采用 RDMA 网络配置文件的 VPC 网络支持多 NIC 虚拟机,允许同一虚拟机的两个或更多 RDMA NIC 位于同一 VPC 网络中。每个NIC都必须连接到 VPC 网络中的唯一子网。

另请参阅 RoCE VPC 网络多 NIC 注意事项

仅限 IPv4 的子网 subnetworkStackTypes SUBNET_STACK_TYPE_IPV4_ONLY

采用 RDMA 网络配置文件的 VPC 网络支持仅限 IPv4 的子网,包括与常规 VPC 网络相同的有效 IPv4 范围

采用 RDMA 网络配置文件的 VPC 网络不支持双栈或仅限 IPv6 的子网。 如需了解详情,请参阅子网类型

PRIVATE 子网用途 subnetworkPurposes SUBNET_PURPOSE_PRIVATE

采用 RDMA 网络配置文件的 VPC 网络支持常规子网,其 purpose 属性值为 PRIVATE

采用 RDMA 网络配置文件的 VPC 网络不支持 Private Service Connect 子网、代理专用子网或 Private NAT 子网。 如需了解详情,请参阅子网的用途

GCE_ENDPOINT 地址用途 addressPurposes GCE_ENDPOINT

具有 RDMA 网络配置文件的 VPC 网络支持 purpose 属性值为 GCE_ENDPOINT 的 IP 地址,该属性值由虚拟机 NIC 的内部 IP 地址使用。

采用 RDMA 网络配置文件的 VPC 网络不支持特殊用途的 IP 地址,例如 SHARED_LOADBALANCER_VIP 用途。 如需了解详情,请参阅地址资源参考文档

来自 nic0 的连接 allowDefaultNicAttachment DEFAULT_NIC_ATTACHMENT_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持将虚拟机的 nic0 网络接口连接到该网络。连接到 VPC 网络的每个 RDMA NIC都不得为 nic0
虚拟机的外部 IP 地址 allowExternalIpAccess EXTERNAL_IP_ACCESS_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持为 RDMA NIC 分配外部 IP 地址。因此,RDMA NIC 无法访问互联网。
Dynamic Network Interface allowSubInterfaces SUBINTERFACES_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Dynamic NIC
别名 IP 范围 allowAliasIpRanges ALIAS_IP_RANGE_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持为 RDMA NIC 分配别名 IP 范围
IP 转发 allowIpForwarding IP_FORWARDING_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 IP 转发
虚拟机网络迁移 allowNetworkMigration NETWORK_MIGRATION_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持在网络之间迁移虚拟机 NIC
自动模式 allowAutoModeSubnet AUTO_MODE_SUBNET_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不能是自动模式网络。如需了解详情,请参阅子网创建模式
VPC 网络对等互连 allowVpcPeering VPC_PEERING_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持使用 VPC 网络对等互连连接到其他 VPC 网络。 因此,采用 RDMA 网络配置文件的 VPC 网络不支持使用专用服务访问通道连接到服务。
静态路由 allowStaticRoutes STATIC_ROUTES_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持静态路由
数据包镜像 allowPacketMirroring PACKET_MIRRORING_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持数据包镜像
Cloud NAT allowCloudNat CLOUD_NAT_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Cloud NAT
Cloud Router allowCloudRouter CLOUD_ROUTER_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Cloud Router 路由器和动态路由。
Cloud Interconnect allowInterconnect INTERCONNECT_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Cloud Interconnect VLAN 连接。
Cloud VPN allowVpn VPN_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Cloud VPN 隧道。
Network Connectivity Center allowNcc NCC_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Network Connectivity Center。 您无法将具有 RDMA 网络配置文件的 VPC 网络作为 VPC spoke 添加到 Network Connectivity Center hub。
Cloud Load Balancing allowLoadBalancing LOAD_BALANCING_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Cloud Load Balancing。 因此,采用 RDMA 网络配置文件的 VPC 网络不支持负载均衡器功能,包括 Google Cloud Armor
专用 Google 访问通道 allowPrivateGoogleAccess PRIVATE_GOOGLE_ACCESS_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持专用 Google 访问通道
Private Service Connect allowPsc PSC_BLOCKED 采用 RDMA 网络配置文件的 VPC 网络不支持 Private Service Connect

RoCE VPC 网络多 NIC 注意事项

为了支持可从跨轨道 GPU 到 GPU 通信中受益的工作负载,RoCE VPC 网络支持在网络中具有多个 MRDMA NIC 的虚拟机。每个 MRDMA NIC都必须位于唯一的子网中。在同一 RoCE VPC 网络中放置两个或更多 MRDMA NIC 可能会影响网络性能,包括增加延迟时间。MRDMA NIC 使用 NCCL。NCCL 会尝试对所有网络传输进行对齐,即使是跨轨道通信也是如此。例如,它使用 PXN 将数据通过 NVLink 复制到轨道对齐的 GPU,然后再通过网络传输数据。

后续步骤