网络和 GPU 机器


较高的网络带宽可以提升 GPU 实例的性能,以支持在 Compute Engine 上运行的分布式工作负载。

在 Compute Engine 上挂接 GPU 的实例可用的最大网络带宽如下所示:

  • 对于 A3 加速器优化型实例,您可以获得高达 3,600 Gbps 的网络带宽上限
  • 对于 A2 和 G2 加速器优化实例,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于机器类型。
  • 对于挂接了 P100 和 P4 GPU 的 N1 通用实例,可用的最大网络带宽为 32 Gbps。这与没有挂接 GPU 的 N1 实例可用的最大速率类似。如需详细了解网络带宽,请参阅出站数据速率上限
  • 对于挂接了 T4 和 V100 GPU 的 N1 通用实例,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于 GPU 和 vCPU 的数量组合。

查看网络带宽和 NIC 配置

请参阅下一部分,查看每种 GPU 机器类型的网络布置和带宽速度。

A3 Ultra 机器类型

A3 Ultra 机器类型挂接了 H200 GPU,在 A3 机器系列中提供最高的网络性能。

此机器类型提供 8 个 NVIDIA ConnectX-7 (CX7) 网络接口卡 (NIC) 和 2 个 Google 虚拟 NIC (gVNIC)。八个 CX7 NIC 的总网络带宽为 3,200 Gbps,这些 NIC 仅用于高带宽 GPU 到 GPU 通信,无法用于其他网络需求,例如访问公共互联网。如下图所示,每个 CX7 NIC 都与一个 NVIDIA H200 141GB GPU 对齐,以优化非统一内存访问 (NUMA)。所有 8 个 GPU 都可以使用连接它们的所有对所有 NVLink 桥接快速相互通信。另外两个 gVNIC 网络接口卡是智能 NIC,可针对通用网络需求额外提供 400 Gbps 的网络带宽,为这些机器提供总计 3,600 Gbps 的网络带宽上限。

A3 Ultra 网络架构。
图 1:A3 Ultra 网络架构

如需使用这些多个 NIC,您需要创建 3 个虚拟私有云网络,如下所示:

  • 2 个虚拟私有云网络:每个 gVNIC 都有自己的 VPC 网络
  • 1 个用于 RDMA 的虚拟私有云网络:所有 8 个 CX7 NIC 共用同一 VPC 网络

如需设置这些网络,请参阅 AI Hypercomputer 文档中的创建 VPC 网络

机器类型 GPU 数量 GPU 内存*
(GB HBM3e)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps)
a3-ultragpu-8g 8 1128 224 2,952 12,000 10 3600

*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

A3 Mega、A3 High 和 A3 Edge 机器类型

这些机器类型挂接了 H100 80GB GPU。每种机器类型都有固定的 GPU 数量、vCPU 数量和内存大小。

  • 单 NIC A3 虚拟机:对于挂接 1 到 4 个 GPU 的 A3 虚拟机,只有一个物理网络接口卡 (NIC) 可用。
  • 多 NIC A3 虚拟机:对于挂接了 8 个 GPU 的 A3 虚拟机,可以使用多个物理 NIC。对于这些 A3 机器类型,NIC 在外围设备组件互连高速 (PCIe) 总线上的排列方式如下:
    • 对于 A3 Mega 机器类型:可使用 8+1 NIC 排列。采用这种排列时,8 个 NIC 共享同一 PCIe 总线,1 个 NIC 位于单独的 PCIe 总线上。
    • 对于 A3 High 机器类型:可使用 4+1 NIC 排列。 采用这种排列时,4 个 NIC 共享同一 PCIe 总线,而 1 个NIC 位于单独的 PCIe 总线上。
    • 对于 A3 Edge 机器类型:可使用 4+1 NIC 排列。 采用这种排列时,4 个 NIC 共享同一 PCIe 总线,而 1 个NIC 位于单独的 PCIe 总线上。 这 5 个 NIC 为每个虚拟机提供的总网络带宽为 400 Gbps。

    共享同一 PCIe 总线的 NIC 采用非统一内存访问 (NUMA) 对齐方式,即每两个 NVIDIA H100 80GB GPU 对应一个 NIC。这些 NIC 非常适合专用高带宽 GPU 到 GPU 通信。位于单独 PCIe 总线上的物理 NIC 非常适合其他网络需求。 如需了解如何为 A3 High 和 A3 Edge 虚拟机设置网络,请参阅设置巨型帧 MTU 网络

A3 Mega

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps)
a3-megagpu-8g 8 640 208 1,872 6000 9 1800

A3 High

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps)
a3-highgpu-1g 1 80 26 234 750 1 25
a3-highgpu-2g 2 160 52 468 1,500 1 50
a3-highgpu-4g 4 320 104 936 3000 1 100
a3-highgpu-8g 8 640 208 1,872 6000 5 1000

A3 Edge

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps)
a3-edgegpu-8g 8 640 208 1,872 6000 5
  • 800:适用于 asia-south1 和 northamerica-northeast2
  • 400:适用于所有其他 A3 Edge 区域

*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

A2 机器类型

每种 A2 机器类型都挂接了固定数量的 NVIDIA A100 40GB 或 NVIDIA A100 80 GB GPU。每种机器类型还具有固定的 vCPU 数量和内存大小。

A2 机器系列有两种类型:

  • A2 Ultra:这些机器类型挂接了 A100 80GB GPU 和本地 SSD 磁盘。
  • A2 标准:这些机器类型挂接了 A100 40GB GPU

A2 Ultra

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 最大网络带宽 (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1500 50
a2-ultragpu-8g 8 640 96 1,360 3000 100

A2 标准

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 最大网络带宽 (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1,360 100

*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

G2 机器类型

每种 G2 机器类型都挂接了固定数量的 NVIDIA L4 GPU 和 vCPU。每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的虚拟机内存量。您可以在虚拟机创建期间指定自定义内存。

如需为大多数 GPU 实例获得更高的网络带宽速度(50 Gbps 或更高),建议您使用 Google 虚拟 NIC (gVNIC)。如需详细了解如何创建使用 gVNIC 的 GPU 实例,请参阅创建使用更高带宽的 GPU 实例

机器类型 GPU 数量 GPU 内存* (GB GDDR6) vCPU 数量 默认虚拟机内存 (GB) 自定义虚拟机内存范围 (GB) 支持的最大本地 SSD (GiB) 最大网络带宽 (Gbps)
g2-standard-4 1 24 4 16 16 - 32 375 10
g2-standard-8 1 24 8 32 32 - 54 375 16
g2-standard-12 1 24 12 48 48 - 54 375 16
g2-standard-16 1 24 16 64 54 - 64 375 32
g2-standard-24 2 48 24 96 96 - 108 750 32
g2-standard-32 1 24 32 128 96 - 128 375 32
g2-standard-48 4 96 48 192 192 - 216 1500 50
g2-standard-96 8 192 96 384 384 - 432 3000 100

*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

N1 + GPU 机器类型

对于挂接了 T4 和 V100 GPU 的 N1 通用实例,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于 GPU 和 vCPU 的数量组合。如需了解所有其他 N1 GPU 实例,请参阅概览

请参阅以下部分,根据 GPU 型号、vCPU 和 GPU 数量计算可用于 T4 和 V100 实例的最大网络带宽。

少于 5 个 vCPU

对于具有 5 个或更少 vCPU 的 T4 和 V100 实例,最大网络带宽为 10 Gbps。

超过 5 个 vCPU

对于具有超过 5 个 vCPU 的 T4 和 V100 实例,最大网络带宽根据该虚拟机的 vCPU 和 GPU 数量计算得出。

如需为大多数 GPU 实例获得更高的网络带宽速度(50 Gbps 或更高),建议您使用 Google 虚拟 NIC (gVNIC)。如需详细了解如何创建使用 gVNIC 的 GPU 实例,请参阅创建使用更高带宽的 GPU 实例

GPU 模型 GPU 数量 最大网络带宽计算
NVIDIA V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
NVIDIA T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

创建高带宽机器

后续步骤