加速器优化机器系列由 Google Cloud 设计,旨在为人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 等 GPU 加速工作负载提供所需的性能和效率。
加速器优化机器系列适用于以下机器系列:A3、A2 和 G2。一系列中的每个机器类型都有一个特定模型和挂接的 NVIDIA GPU 数量。您还可以将一些 GPU 型号挂接到 N1 通用机器类型。
不同工作负载类型的机器系列建议
以下部分提供了基于 GPU 工作负载的推荐机器系列。
大型 AI 模型
工作负载类型 | 最适合的使用场景 | 很好的替代方案 |
---|---|---|
多个(分布式)服务器训练 | A3 | A2 |
推断 | A3、A2 |
主流模型
工作负载类型 | 最适合的使用场景 | 很好的替代方案(按建议顺序) |
---|---|---|
多个(分布式)服务器训练 | A3 |
|
单个服务器训练 | A3、A2 |
|
推断 | G2 |
|
图形密集型工作负载
工作负载类型 | 最适合的使用场景(按建议的顺序) |
---|---|
视频串流和转码、远程虚拟工作站、数字孪生 |
|
高性能计算
对于高性能计算工作负载,任何加速器优化机器系列都适用。最佳拟合取决于必须分流到 GPU 的计算量。
价格和折扣
所有加速器优化机器类型都支持以下折扣和使用方案:
加速器优化机器类型将为其挂接的 GPU、预定义 vCPU、内存和捆绑的本地 SSD(如果适用)计费。如需详细了解加速器优化虚拟机的价格信息,请参阅虚拟机实例价格页面上的加速器优化机器类型系列部分。
A3 机器系列
A3 机器系列提供标准机器类型,且具有 208 个 vCPU 和高达 1872 GB 的内存。此机器系列针对计算和内存密集型、网络绑定机器学习训练和 HPC 工作负载进行了优化。
A3 机器系列还提供以下功能:
新一代硬件:每种 A3 机器类型都挂接了 NVIDIA H100 GPU,每个 GPU 提供 80GB GPU 内存,非常适合基于大型转换器的语言模型、数据库和 HPC。
此机器系列基于第 4 代 Intel Xeon 可扩展处理器 (Sapphire Rapids) 构建而成,提供高达 3.3 GHz 的持续单核最大 Turbo 频率。
行业领先的 NVLink 容量:NVIDIA H100 GPU 提供单向 450 GB/s 的峰值 GPU NVLink 带宽。得益于系统中的 8 个 GPU 之间采用全连接 NVLink 拓扑,聚合 NVLink 带宽可高达 7.2 TB/s。这些 GPU 可用作具有统一内存空间的单个高性能加速器,可提供高达 25 千万亿次浮点运算的 AI/DL/机器学习计算能力和高达 50 千万亿次浮点运算的推断计算能力。
提高了计算速度和网络性能:与上一代 NVIDIA A100 GPU 相比,NVIDIA H100 GPU 的计算速度提高了 2.5 倍,虚拟机 (VM) 网络带宽也提高了 10 倍。
每个a3-highgpu-8g
虚拟机都有五个物理网络接口卡 (NIC),其中四个共享相同的外设组件互连快速 (PCIe) 总线,并且具有非统一内存访问 (NUMA) 集 NIC(每两个 NVIDIA H100 80GB GPU)。这四个物理 NIC 非常适合专用高带宽 GPU 到 GPU 通信。另一个物理 NIC 位于单独的 PCIe 总线上,非常适合其他网络需求。每个 NIC 的最大带宽为 200 Gbps,因此每个虚拟机的最大带宽为 1000 Gbps (1 Tbps)。凭借 GPUDirect-TCPX 提高了 GPU 集群性能:GPUDirect-TCPX 允许数据包载荷直接从 GPU 内存传输到网络接口,从而提高网络性能。
与 A2 或 G2 加速器优化机器类型相比,通过利用 GPUDirect-TCPX,A3 虚拟机在集群中的虚拟机之间提供最高吞吐量。
要使用 GPUDirect-TCPX 最大限度地提高 GPU 集群性能,请查看以下文档:
- 对于 Compute Engine,请参阅使用 GPUDirect-TCPX 最大限度地提高 GPU 网络性能
- 对于 Google Kubernetes Engine,请参阅使用 GPUDirect-TCPX 和多网络功能最大限度地提高 GPU 网络带宽
虚拟化优化:A3 虚拟机的外设组件互连快速 (PCIe) 拓扑提供更准确的位置信息,工作负载可使用这些信息来优化数据传输。
NVIDIA H100 GPU 还公开了函数级别重置 (FLR),用于从故障中安全恢复,并支持在某些情况下实现原子操作并发改进。
存储:6 TB 本地 SSD 会自动添加到使用 A3 机器类型创建的虚拟机中。本地 SSD 可用于快速暂存磁盘或用于将数据输送到 GPU 中,同时防止 I/O 瓶颈。
对于需要更高存储性能的应用,您最多还可以为这些系列中的机器类型挂接 257 TB 的永久性磁盘存储空间。
紧凑布置政策支持:可让您更好地控制虚拟机在数据中心的物理位置。这样可以在单个可用区中为虚拟机放置提供低延迟和更高的带宽。紧凑布置政策在给定区域中的网络低延迟子集中支持多达 96 个虚拟机。
A3 支持的磁盘类型
A3 虚拟机可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - Hyperdisk Extreme (
hyperdisk-extreme
) - Hyperdisk Throughput (
hyperdisk-throughput
) - 本地 SSD:自动添加到使用 A3 机器类型创建的虚拟机
磁盘和容量限制
您可以在虚拟机上混合使用 Persistent Disk 卷和 Hyperdisk 卷,但存在以下限制:
- 每个虚拟机的 Hyperdisk 卷和 Persistent Disk 卷的总数不能超过 128 个。
所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
使用 vCPU 数量少于 32 个的机器类型时:
- 对于 Persistent Disk 或 Hyperdisk 为 257 TiB
- 对于 Persistent Disk 和 Hyperdisk 的混合使用为 257 TiB
使用具有 32 个或更多 vCPU 的机器类型时:
- 对于 Persistent Disk 为 257 TiB
- 对于 Hyperdisk 或是 Persistent Disk 和 Hyperdisk 的混合使用为 512 TiB
如需详细了解这些限制,请参阅每个虚拟机的 Hyperdisk 容量限制和 Persistent Disk 容量上限。
A3 标准机器类型
此机器类型具有固定数量的 H100 GPU。
机器类型 | GPU 数量 | vCPU 数量* | 内存 (GB) | 每个虚拟机的 所有磁盘数上限† |
每个虚拟机的 Hyperdisk 卷总数上限 |
所有磁盘的总磁盘 大小上限 (TiB)# |
本地 SSD | 出站带宽上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|---|
a3-highgpu-8g |
8 | 208 | 1872 | 128 |
|
512,包括最多 257 TiB 的 Persistent Disk | 是 | 1000 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
†Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
#对于 Hyperdisk Throughput,每个卷的大小上限为 32 TiB。对于所有其他 Persistent Disk 卷或 Hyperdisk 卷,大小上限为 64 TiB。
A3 标准限制
- 使用 A3 标准机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 您只能在某些区域和可用区中使用 A3 标准机器类型。
- 您不能在使用 A3 标准机器类型的虚拟机上使用区域永久性磁盘。
- A3 标准机器类型仅在 Sapphire Rapids 平台上提供。
- 如果您的虚拟机使用 A3 标准机器类型,则无法更改机器类型。如果您需要使用其他机器类型,则必须创建新的虚拟机。
- 您不能将其他任何机器类型更改为 A3 标准机器类型。如果您需要创建使用 A3 标准机器类型的虚拟机,则必须创建新虚拟机。
- A3 标准机器类型不支持单租户。
- 您无法在 Windows 操作系统上运行 A3 标准机器类型。
A2 机器系列
A2 机器系列提供 A2 标准机器类型和 A2 Ultra 机器类型。这些机器类型具有 12 到 96 个 vCPU 和高达 1360 GB 的内存。
A2 机器系列还提供以下功能:
挂接 NVIDIA GPU:每种 A2 机器类型都具有 NVIDIA A100 GPU。有 A100 40GB 和 A100 80GB 可供选择。
行业领先的 NVLink 容量,最大 GPU 到 GPU NVLink 带宽为 600 GBps。例如,具有 16 个 GPU 的系统的总 NVLink 带宽可达 9.6 TBps。这 16 个 GPU 可用作具有统一内存空间的单个高性能加速器,可提供高达每秒 10 千万亿次浮点运算的计算能力和每秒 20 千万亿次浮点运算的推断计算能力,可用于人工智能、深度学习和机器学习工作负载。
计算速度提升:与上一代 NVIDIA V100 GPU 相比,挂接的 NVIDIA A100 GPU 将计算速度提升了高达 10 倍。
使用 A2 机器系列,您可以获得高达 100 Gbps 的网络带宽。
存储:为了用于快速 scratch 磁盘或将数据输送到 GPU,同时防止 I/O 瓶颈,A2 机器类型支持本地 SSD,如下所示:
- 对于 A2 标准机器类型,您可以添加高达 3 TB 的本地 SSD。
- 对于 A2 Ultra 机器类型,当您创建虚拟机时,本地 SSD 会自动挂接。
对于需要此更高存储性能的应用,您还可以为 A2 虚拟机挂接多达 257 TB 的永久性磁盘存储空间。
紧凑布置政策支持:可让您更好地控制虚拟机在数据中心的物理位置。这样可以在单个可用区中为虚拟机放置提供低延迟和更高的带宽。如需了解详情,请参阅使用紧凑放置政策缩短延迟时间。
A2 支持的磁盘类型
A2 虚拟机可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - 标准永久性磁盘 (
pd-standard
) - 本地 SSD:自动挂接到使用 A2 Ultra 机器类型创建的虚拟机。
A2 标准机器类型
这些机器类型具有固定数量的 A100 40GB GPU。
机器类型 | GPU 数量 | vCPU 数量* | 内存 (GB) | 永久性磁盘卷数量上限† | 永久性磁盘总大小上限 (TB) | 本地 SSD | 出站带宽上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 12 | 85 | 128 | 257 | 是 | 24 |
a2-highgpu-2g |
2 | 24 | 170 | 128 | 257 | 是 | 32 |
a2-highgpu-4g |
4 | 48 | 340 | 128 | 257 | 是 | 50 |
a2-highgpu-8g |
8 | 96 | 680 | 128 | 257 | 是 | 100 |
a2-megagpu-16g |
16 | 96 | 1360 | 128 | 257 | 是 | 100 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
†Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
#对于 Hyperdisk Throughput,每个卷的大小上限为 32 TiB。对于所有其他 Persistent Disk 卷或 Hyperdisk 卷,大小上限为 64 TiB。
A2 标准限制
- 使用 A2 标准机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 您只能在某些区域和可用区中使用 A2 标准机器类型。
- 您不能在使用 A2 标准机器类型的虚拟机上使用区域永久性磁盘。
- A2 标准机器类型仅在 Cascade Lake 平台上提供。
- 如果您的虚拟机使用 A2 标准机器类型,您只能从一个 A2 标准机器类型切换到另一个 A2 标准机器类型。您无法切换到任何其他机器类型。如需了解详情,请参阅修改加速器优化虚拟机。
- 您不能在 Windows 操作系统上使用
a2-megagpu-16g
A2 标准机器类型。使用 Windows 操作系统时,请选择其他 A2 标准机器类型。 - 您不能在使用 A2 标准机器类型的 Windows 虚拟机上快速格式化挂接的本地 SSD。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。 - A2 标准机器类型不支持单租户。
A2 Ultra 机器类型
这些机器类型具有固定数量的 A100 80GB GPU。本地 SSD 会自动挂接到使用 A2 Ultra 机器类型创建的虚拟机。
机器类型 | GPU 数量 | vCPU 数量* | 内存 (GB) | 永久性磁盘卷数量上限† | 永久性磁盘总大小上限 (TB) | 捆绑本地 SSD | 出站带宽上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 12 | 170 | 128 | 257 | 375 GB | 24 |
a2-ultragpu-2g |
2 | 24 | 340 | 128 | 257 | 750 GB | 32 |
a2-ultragpu-4g |
4 | 48 | 680 | 128 | 257 | 1.5 TB | 50 |
a2-ultragpu-8g |
8 | 96 | 1360 | 128 | 257 | 3 TB | 100 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
†Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
#对于 Hyperdisk Throughput,每个卷的大小上限为 32 TiB。对于所有其他 Persistent Disk 卷或 Hyperdisk 卷,大小上限为 64 TiB。
A2 Ultra 限制
- 使用 A2 Ultra 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 您只能在某些区域和可用区中使用 A2 Ultra 机器类型。
- 您不能在使用 A2 Ultra 机器类型的虚拟机上使用区域永久性磁盘。
- A2 Ultra 机器类型仅在 Cascade Lake 平台上提供。
- 如果您的虚拟机使用 A2 Ultra 机器类型,您无法更改机器类型。如果您需要使用其他 A2 Ultra 机器类型或任何其他机器类型,则必须创建新虚拟机。
- 您不能将其他任何机器类型更改为 A2 Ultra 机器类型。如果您需要创建使用 A2 Ultra 机器类型的虚拟机,则必须创建新虚拟机。
- 您不能在使用 A2 Ultra 机器类型的 Windows 虚拟机上快速格式化挂接的本地 SSD。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。
G2 机器系列
G2 机器系列提供标准机器类型,具有 4 到 96 个 vCPU 和高达 432 GB 的内存。此机器系列针对推断和图形工作负载进行了优化。
G2 机器系列还提供以下功能:
挂接 NVIDIA GPU:每种 G2 机器类型都具有 NVIDIA L4 GPU。
提高了推断速率:G2 机器类型提供对 FP8(8 位浮点)数据类型的支持,可加快 ML 推断速率并降低内存需求。
下一代图形性能:NVIDIA L4 GPU 使用第三代 RT 核心和 NVIDIA DLSS 3(深度学习超级采样)技术将图形性能提升到 3 倍。
高性能网络带宽:使用 G2 机器系列,您可以获得高达 100 Gbps 的网络带宽。
存储:您最多可以向 G2 虚拟机添加 3 TB 的本地 SSD。可用于快速暂存磁盘或用于将数据输送到 GPU 中,同时防止 I/O 瓶颈。
对于需要更多永久性存储空间的应用,您也可以将 Hyperdisk 和 Persistent Disk 卷挂接到 G2 虚拟机。最大存储容量取决于虚拟机具有的 vCPU 数量。如需了解详情,请参阅支持的磁盘类型。
紧凑布置政策支持:可让您更好地控制虚拟机在数据中心的物理位置。这样可以在单个可用区中为虚拟机放置提供低延迟和更高的带宽。如需了解详情,请参阅使用紧凑放置政策缩短延迟时间。
G2 支持的磁盘类型
G2 虚拟机可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - Hyperdisk Throughput (
hyperdisk-throughput
) - 本地 SSD
您可以在虚拟机上混合使用 Persistent Disk 卷和 Hyperdisk 卷,但存在以下限制:
- 每个虚拟机的 Hyperdisk 卷和 Persistent Disk 卷的总数不能超过 128 个。
所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
使用 vCPU 数量少于 32 个的机器类型时:
- 对于 Persistent Disk 或 Hyperdisk 为 257 TiB
- 对于 Persistent Disk 和 Hyperdisk 的混合使用为 257 TiB
使用具有 32 个或更多 vCPU 的机器类型时:
- 对于 Persistent Disk 为 257 TiB
- 对于 Hyperdisk 或是 Persistent Disk 和 Hyperdisk 的混合使用为 512 TiB
如需详细了解这些限制,请参阅每个虚拟机的 Hyperdisk 容量限制和 Persistent Disk 容量上限。
机器类型 | GPU 数量 | vCPU 数量* | 默认内存 (GB) | 自定义内存范围 (GB) | 每个虚拟机的 所有磁盘数上限# |
每个虚拟机的 Hyperdisk 卷总数上限 |
所有磁盘的总磁盘 大小上限 (TiB) |
支持的最大本地 SSD (GB) | 出站带宽上限 (Gbps)‡ |
---|---|---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 4 | 16 | 16 - 32 | 128 | 24 | 257 | 375 | 10 |
g2-standard-8 |
1 | 8 | 32 | 32 - 54 | 128 | 32 | 257 | 375 | 16 |
g2-standard-12 |
1 | 12 | 48 | 48 - 54 | 128 | 32 | 257 | 375 | 16 |
g2-standard-16 |
1 | 16 | 64 | 54 - 64 | 128 | 48 | 257 | 375 | 32 |
g2-standard-24 |
2 | 24 | 96 | 96 - 108 | 128 | 64 | 257 | 750 | 32 |
g2-standard-32 |
1 | 32 | 128 | 96 - 128 | 128 | 64 | 512,但最多 257 TiB 的 Persistent Disk | 375 | 32 |
g2-standard-48 |
4 | 48 | 192 | 192 - 216 | 128 | 64 | 512,但最多 257 TiB 的 Persistent Disk | 1500 | 50 |
g2-standard-96 |
8 | 96 | 384 | 384 - 432 | 128 | 64 | 512,但最多 257 TiB 的 Persistent Disk | 3000 | 100 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
†Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
#对于 Hyperdisk Throughput,每个卷的大小上限为 32 TiB。对于所有其他 Persistent Disk 卷或 Hyperdisk 卷,大小上限为 64 TiB。
G2 标准机器类型
每种 G2 机器类型都挂接了固定数量的 NVIDIA L4 GPU 和 vCPU。每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的虚拟机内存量。您可以在虚拟机创建期间指定自定义内存。
G2 标准限制
- 使用 G2 标准机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 您只能在某些区域和可用区中使用 G2 标准机器类型。
- 您不能在使用 G2 标准机器类型的虚拟机上使用区域永久性磁盘。
- G2 标准机器类型仅在 Cascade Lake 平台上提供。
- 使用 G2 标准机器类型的虚拟机不支持标准永久性磁盘 (
pd-standard
)。如需了解支持的磁盘类型,请参阅 G2 支持的磁盘类型。 - 您不能在 G2 标准机器类型上创建多实例 GPU。
- 如果您需要更改 G2 虚拟机的机器类型,请查看修改加速器优化虚拟机。
- 您不能将 Deep Learning VM Image 映像用作使用 G2 标准机器类型的虚拟机的启动磁盘。
- Container-Optimized OS 的当前默认驱动程序不支持在 G2 机器类型上运行的 L4 GPU。Container-Optimized OS 也仅支持一组特定的驱动程序。如需在 G2 机器类型上使用 Container-Optimized OS,请查看以下说明:
- 使用支持推荐的最低 NVIDIA 驱动程序版本
525.60.13
或更高版本的 Container-Optimized OS 版本。如需了解详情,请查看 Container-Optimized OS 版本说明。 - 在安装驱动程序时,请指定适用于 L4 GPU 的最新可用版本。
例如
sudo cos-extensions install gpu -- -version=525.60.13
。
- 使用支持推荐的最低 NVIDIA 驱动程序版本
- 在以下情况下,您必须使用 Google Cloud CLI 或 REST 创建 G2 虚拟机:
- 您想要指定自定义内存值。
- 您想要自定义可见 CPU 核心数。