网络带宽和 GPU


较高的网络带宽可以改善在 Compute Engine 虚拟机实例上运行的分布式工作负载的性能。

概览

在 Compute Engine 上挂接 GPU 的虚拟机可用的最大网络带宽如下所示:

  • 对于 A3 加速器优化型虚拟机,您可以获得高达 1,800 Gbps 的网络带宽上限
  • 对于 A2 和 G2 加速器优化虚拟机,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于机器类型。
  • 对于挂接了 P100 和 P4 GPU 的 N1 通用虚拟机,可用的最大网络带宽为 32 Gbps。这与没有挂接 GPU 的 N1 虚拟机可用的最大速率类似。如需详细了解网络带宽,请参阅出站数据速率上限
  • 对于挂接了 T4 和 V100 GPU 的 N1 通用虚拟机,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于 GPU 和 vCPU 的数量组合。

网络带宽和 Google 虚拟 NIC (gVNIC)

如需为 GPU 虚拟机获得更高的网络带宽速度(50 Gbps 或更高),建议您使用 Google 虚拟 NIC (gVNIC)。如需详细了解如何创建使用 gVNIC 的 GPU 虚拟机,请参阅创建使用更高带宽的 GPU 虚拟机

加速器优化型虚拟机

本部分概述了 A3、A2 和 G2 加速器优化虚拟机可用的最大网络带宽。

A3 虚拟机

每种 A3 机器类型都挂接了固定数量的 NVIDIA H100 80GB GPU、固定的 vCPU 数量和固定的虚拟机内存大小。

  • 单 NIC A3 虚拟机:对于连接了 1 到 4 个 GPU 的 A3 虚拟机,只有一个物理网络接口卡 (NIC) 可用。
  • 多 NIC A3 虚拟机:对于连接了 8 个 GPU 的 A3 虚拟机,可以使用多个物理 NIC。对于这些 A3 机器类型,NIC 在外围设备组件互连高速 (PCIe) 总线上的排列方式如下:
    • 对于 A3 Mega 机器类型:可使用 8+1 的 NIC 配置。采用这种配置时,8 个 NIC 共用一个 PCIe 总线,1 个 NIC 位于单独的 PCIe 总线上。
    • 对于 A3 High 机器类型:可使用 4+1 的 NIC 配置。 采用这种配置时,4 个 NIC 共用一个 PCIe 总线,1 个 NIC 位于单独的 PCIe 总线上。
    • 对于 A3 Edge 机器类型:可用 NIC 配置为 4+1。采用这种配置时,4 个 NIC 共用一个 PCIe 总线,1 个 NIC 位于单独的 PCIe 总线上。这 5 个 NIC 为每个虚拟机提供的总网络带宽为 400 Gbps。

    共享相同 PCIe 总线的 NIC 具有非统一内存访问 (NUMA) 对齐,即每两个 NVIDIA H100 80GB GPU 一个 NIC。这些 NIC 非常适合专用高带宽 GPU 到 GPU 通信。位于单独 PCIe 总线上的物理 NIC 非常适合其他网络需求。

A3 Mega

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) 网络协议
a3-megagpu-8g 8 640 208 1,872 6000 9 1800 GPUDirect-TCPXO

A3 High

预配 a3-highgpu-1ga3-highgpu-2ga3-highgpu-4g 机器类型时,您必须使用 Spot 虚拟机或使用动态工作负载调度程序 (DWS) 的功能(例如 MIG 中的大小调整请求)。如需详细了解这两种方式,请参阅以下内容:
机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) 网络协议
a3-highgpu-1g 1 80 26 234 750 1 25 GPUDirect-TCPX
a3-highgpu-2g 2 160 52 468 1500 1 50 GPUDirect-TCPX
a3-highgpu-4g 4 320 104 936 3000 1 100 GPUDirect-TCPX
a3-highgpu-8g 8 640 208 1,872 6000 5 1000 GPUDirect-TCPX

A3 Edge

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) 网络协议
a3-edgegpu-8g 8 640 208 1,872 6000 5
  • 800:适用于 asia-south1 和 northamerica-northeast2
  • 400:对于所有其他 A3 Edge 地区
GPUDirect-TCPX

*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

A2 虚拟机

每种 A2 机器类型都挂接了固定数量的 NVIDIA A100 40GB 或 NVIDIA A100 80 GB GPU。每种机器类型还具有固定的 vCPU 数量和内存大小。

A2 机器系列有两种类型:

  • A2 Ultra:这些机器类型挂接了 A100 80GB GPU 和本地 SSD 磁盘。
  • A2 标准:这些机器类型挂接了 A100 40GB GPU

A2 Ultra

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 最大网络带宽 (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1500 50
a2-ultragpu-8g 8 640 96 1,360 3000 100

A2 标准

机器类型 GPU 数量 GPU 内存*
(GB HBM3)
vCPU 数量 虚拟机内存 (GB) 已挂接的本地 SSD (GiB) 最大网络带宽 (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1,360 100

*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

G2 虚拟机配置

每种 G2 机器类型都挂接了固定数量的 NVIDIA L4 GPU 和 vCPU。每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的虚拟机内存量。您可以在虚拟机创建期间指定自定义内存。

机器类型 GPU 数量 GPU 内存* (GB GDDR6) vCPU 数量 默认虚拟机内存 (GB) 自定义虚拟机内存范围 (GB) 支持的最大本地 SSD (GiB) 最大网络带宽 (Gbps)
g2-standard-4 1 24 4 16 16 - 32 375 10
g2-standard-8 1 24 8 32 32 - 54 375 16
g2-standard-12 1 24 12 48 48 - 54 375 16
g2-standard-16 1 24 16 64 54 - 64 375 32
g2-standard-24 2 48 24 96 96 - 108 750 32
g2-standard-32 1 24 32 128 96 - 128 375 32
g2-standard-48 4 96 48 192 192 - 216 1500 50
g2-standard-96 8 192 96 384 384 - 432 3000 100

*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽

N1 GPU 虚拟机

对于挂接了 T4 和 V100 GPU 的 N1 通用虚拟机,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于 GPU 和 vCPU 的数量组合。如需了解所有其他 N1 GPU 虚拟机,请参阅概览

请参阅以下部分,根据 GPU 型号、vCPU 和 GPU 数量计算可用于 T4 和 V100 虚拟机的最大网络带宽。

少于 5 个 vCPU

对于具有 5 个或更少 vCPU 的 T4 和 V100 虚拟机,最大网络带宽为 10 Gbps。

超过 5 个 vCPU

对于具有超过 5 个 vCPU 的 T4 和 V100 虚拟机,最大网络带宽根据该虚拟机的 vCPU 和 GPU 数量计算得出。

GPU 模型 GPU 数量 最大网络带宽计算
NVIDIA V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
NVIDIA T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

创建高带宽虚拟机

如需创建使用更高网络带宽的虚拟机,请参阅使用更高的网络带宽

如需测试或验证任何配置的带宽速度,您可以使用基准化分析测试。如需了解详情,请参阅检查网络带宽

后续步骤