加速器优化机器家族由 Google Cloud 设计,旨在为人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 等 GPU 加速工作负载提供所需的性能和效率。
加速器优化机器家族适用于以下机器系列:A4X、A4、A3、A2 和 G2。一系列中的每个机器类型都有一个特定模型和挂接的 NVIDIA GPU 数量。您还可以将一些 GPU 型号挂接到 N1 通用机器类型。
不同工作负载类型的机器系列建议
以下部分根据您的 GPU 工作负载介绍了推荐的机器系列。
工作负载类型 | 建议的机器类型 |
---|---|
预训练模型 | A4X、A4、A3 Ultra、A3 Mega、A3 High 和 A2 如需确定最适合的机器类型或系列,请参阅 AI Hypercomputer 文档中的有关预训练模型的建议。 |
微调模型 | A4X、A4、A3 Ultra、A3 Mega、A3 High 和 A2 如需确定最适合的机器类型或系列,请参阅 AI Hypercomputer 文档中的有关微调模型的建议。 |
服务推理 | A4X、A4、A3 Ultra、A3 Mega、A3 High、A3 Edge 和 A2 如需确定最适合的机器类型或系列,请参阅 AI Hypercomputer 文档中的有关服务推理的建议。 |
图形密集型工作负载 | G2 和 N1+T4 |
高性能计算 | 对于高性能计算工作负载,任何加速器优化机器系列都适合。最适合的机器类型或系列取决于必须分流到 GPU 的计算量。 如需了解详情,请参阅 AI Hypercomputer 文档中的有关 HPC 的建议。 |
价格和预配选项
如果是加速器优化机器类型,您需要为挂接的 GPU、预定义 vCPU、内存和捆绑的本地 SSD(如果适用)付费。 可应用于加速器优化实例的折扣因您使用的预配选项而异,如下表所述。如需详细了解加速器优化实例的价格信息,请参阅虚拟机实例价格页面上的加速器优化机器类型家族部分。
按需(默认) | Spot 虚拟机 | 灵活启动(预览版) | 预订 | |
---|---|---|---|---|
支持的加速器优化机器系列 | A3 Mega、A3 High、A3 Edge、A2 和 G2 | A4、A3、A2 和 G2 | A4、A3、A2 和 G2 | 支持因预留类型而异:
|
折扣 | 您可以通过购买基于资源的承诺,为某些资源获得承诺使用折扣 (CUD)。但是,如果您使用的是按需预配选项,则 GPU 和本地 SSD 磁盘不符合 CUD 的条件。如果您希望即使对于 GPU 和本地 SSD 磁盘也能获得 CUD,我们建议您改用预留预配选项。 |
Spot 虚拟机可通过 Spot 虚拟机价格自动获得折扣。 |
使用灵活启动预配模型预配的虚拟机可通过动态工作负载调度器价格自动获得折扣。 |
您可以通过购买基于资源的承诺为加速器优化机器类型资源获得 CUD。请注意,任何 GPU 和本地 SSD 磁盘的承诺都需要为这些资源使用附加预留。 |
A4X 机器系列
A4X 机器系列在基于 NVIDIA GB200 NVL72 机架级架构的艾级平台上运行,最多具有 140 个 vCPU 和 884 GB 内存。此机器系列针对计算和内存密集型、网络绑定机器学习训练和 HPC 工作负载进行了优化。A4X 机器系列提供一种机器类型。
使用 A4X 机器类型创建的虚拟机实例具有以下特性:
通过 NVIDIA GB200 超级芯片实现 GPU 加速:A4X 实例会自动挂接 NVIDIA GB200 超级芯片。这些超级芯片具有 NVIDIA B200 GPU,每个 GPU 可提供 180 GB 内存。A4X 有两个插槽,其中 NVIDIA Grace™ CPU 搭载 Arm® Neoverse™ V2 核心。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 B200 GPU。
NVIDIA Grace CPU 平台:A4X 实例使用 NVIDIA Grace CPU 平台。如需详细了解该平台,请参阅 CPU 平台。
业界领先的 NVLink 可伸缩性:多节点 NVLink,可在单个网域中扩容至最多 72 个 GPU。NVIDIA B200 GPU 为每个 GPU 双向提供 1, 800 GBps 的 GPU NVLink 带宽。得益于系统中的 4 个 GPU 之间采用全连接 NVLink 拓扑,总 NVLink 带宽可高达 130 TB/s。
通过 RoCE 增强网络性能:对于 A4X 实例,RDMA over Converged Ethernet (RoCE) 通过将 NVIDIA ConnectX-7 (CX-7) 网络接口卡 (NIC) 与 Google 的数据中心级四向轨道对齐网络相结合,可提高网络性能。与 A4 实例相比,通过利用 RDMA over Converged Ethernet (RoCE),A4X 实例可在集群中的实例之间实现更高的吞吐量。
CX-7 NIC 在四向轨道对齐的网络拓扑上实现物理隔离,使 A4X 实例能够以 72 个 GPU 为一组进行横向扩容,从而在单个无阻塞集群中实现多达数千个 GPU。
提高了网络速度:网络速度是使用 A3 机器类型创建的实例的 4 倍。
针对数据传输和恢复优化了虚拟化:A4X 实例的外设组件互连高速总线 (PCIe) 拓扑可提供更准确的位置信息,工作负载可使用这些信息来优化数据传输。
GPU 还公开了功能级重置 (FLR),可从故障中正常恢复,并在某些情况下提供原子操作支持,可实现并发改进。
本地 SSD 和 Hyperdisk 支持:12,000 GiB 的本地 SSD 会自动添加到 A4X 实例。本地 SSD 可用于快速 scratch 磁盘或用于将数据输送到 GPU 中,同时防止 I/O 瓶颈。
对于需要更高存储性能的应用,您可以为 A4X 实例挂接高达 512 TiB 的 Hyperdisk。
密集分配和拓扑感知调度支持:通过 Cluster Director 预配 A4X 实例时,您可以请求密集分配的容量块。宿主机在物理上彼此靠近,并作为资源块预配,并通过动态机器学习网络结构相互连接,以最大限度地减少网络跃点并针对最短延迟时间进行优化。此外,Cluster Director 还提供节点和集群级层的拓扑信息,可用于作业布置。
A4X 机器类型
机器类型 | GPU 数量 | GPU 内存* (GB HBM3e) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (GBps)‡ |
---|---|---|---|---|---|---|---|
a4x-highgpu-4g |
4 | 720 | 140 | 884 | 12,000 | 6 | 2,000 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A4X 限制
- 只能使用 A4X 机器类型支持的预配选项来请求容量。
- 使用 A4X 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A4X 机器类型。
- 不能在使用 A4X 机器类型的虚拟机上使用永久性磁盘(区域级或可用区级)。
- A4X 机器类型仅在 NVIDIA Grace 平台上提供。
- 您不能将现有虚拟机的机器类型更改为 A4X 机器类型。您只能创建新的 A4X 虚拟机。使用 A4X 机器类型创建虚拟机后,您无法更改机器类型。
- 不能在 A4X 机器类型上运行 Windows 操作系统。
- A4X 虚拟机不支持以下各项:
A4X 系列支持的磁盘类型
A4X 虚拟机可以使用以下块存储类型:
- Hyperdisk Balanced (
hyperdisk-balanced
):这是启动磁盘支持的唯一磁盘类型 - Hyperdisk Extreme (
hyperdisk-extreme
) - 本地 SSD:自动添加到使用任何 A4X 机器类型创建的虚拟机
每个虚拟机的磁盘数量上限* | ||||||
---|---|---|---|---|---|---|
机器类型 | 所有磁盘† | 平衡 Hyperdisk | Hyperdisk Throughput | Hyperdisk ML | Hyperdisk Extreme | 挂接了本地 SSD |
a4x-highgpu-4g |
128 | 128 | 不适用 | 不适用 | 8 | 32 |
*Hyperdisk 用量与机器类型是分开计费的。如需了解磁盘价格,请参阅 Hyperdisk 价格。
†此限制适用于 Hyperdisk,但不包括本地 SSD 磁盘。
磁盘和容量限制
您可以在虚拟机上混合使用不同类型的 Hyperdisk,但所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
对于 vCPU 数量少于 32 个的机器类型:所有 Hyperdisk 的容量为 257 TiB
对于 vCPU 数量不低于 32 的机器类型:所有 Hyperdisk 的容量上限为 512 TiB
如需详细了解容量限制,请参阅 Hyperdisk 大小和连接限制。
A4 机器系列
A4 机器系列提供配备多达 224 个 vCPU 和 3,968 GB 内存的机器类型。对于大多数 GPU 加速工作负载,A4 实例提供的性能是先前的 GPU 实例类型的 3 倍。建议将 A4 用于机器学习训练工作负载,尤其是在大规模(例如数百或数千个 GPU)的情况下。A4 机器系列提供一种机器类型。
使用 A4 机器类型创建的虚拟机实例具有以下特性:
通过 NVIDIA B200 GPU 实现 GPU 加速:NVIDIA B200 GPU 会自动挂接到 A4 实例,每个 GPU 提供 180 GB GPU 内存。
第 5 代 Intel Xeon 可扩缩处理器 (Emerald Rapids):可提供高达 4.0 GHz 的持续单核最大 Turbo 频率。如需详细了解此处理器,请参阅 CPU 平台。
业界领先的 NVLink 可伸缩性:NVIDIA B200 GPU 为每个 GPU 双向提供 1,800 GBps 的 GPU NVLink 带宽。
得益于系统中的 8 个 GPU 之间采用全连接 NVLink 拓扑,总 NVLink 带宽可高达 14.4 TBps。
通过 RoCE 增强网络性能:RDMA over Converged Ethernet (RoCE) 通过将 NVIDIA ConnectX-7 网络接口卡 (NIC) 与 Google 的数据中心级四向轨道对齐的网络相结合,可提高网络性能。与大多数 A3 实例相比,通过利用 RDMA over Converged Ethernet (RoCE),A4 实例可在集群中的实例之间实现更高的吞吐量,但在 A3 Ultra 机器类型上运行的实例除外。
提升了网络速度:网络速度是上一代 A2 实例的 4 倍。
如需详细了解网络,请参阅网络带宽和 GPU。
针对数据传输和恢复优化了虚拟化:A4 实例的外设组件互连高速总线 (PCIe) 拓扑可提供更准确的位置信息,工作负载可使用这些信息来优化数据传输。
GPU 还公开了功能级重置 (FLR),可从故障中正常恢复,并在某些情况下提供原子操作支持,可实现并发改进。
本地 SSD 和 Hyperdisk 支持:12,000 GiB 的本地 SSD 会自动添加到 A4 实例。本地 SSD 可用于快速 scratch 磁盘或用于将数据输送到 GPU 中,同时防止 I/O 瓶颈。
对于需要更高存储性能的应用,您还可以为 A4 实例挂接高达 512 TiB 的 Hyperdisk。
密集分配和拓扑感知调度支持:在预配使用 Cluster Director 提供的功能和服务的 A4 实例时,您可以请求密集分配的容量块。宿主机在物理上彼此靠近,并作为资源块预配,并通过动态机器学习网络结构相互连接,以最大限度地减少网络跃点并针对最短延迟时间进行优化。此外,您还可以在节点和集群级层获取可用于作业布置的拓扑信息。
A4 机器类型
机器类型 | GPU 数量 | GPU 内存* (GB HBM3e) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a4-highgpu-8g |
8 | 1,440 | 224 | 3,968 | 12,000 | 10 | 3600 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A4 限制
- 您只能使用 A4 机器类型支持的预配选项来请求容量。
- 使用 A4 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A4 机器类型。
- 不能在使用 A4 机器类型的虚拟机上使用永久性磁盘(区域级或可用区级)。
- A4 机器类型仅在 Emerald Rapids CPU 平台上提供。
- 您不能将现有虚拟机的机器类型更改为 A4 机器类型。您只能创建新的 A4 虚拟机。使用 A4 机器类型创建虚拟机后,您无法更改机器类型。
- A4 机器类型不支持单租户。
- 不能在 A4 机器类型上运行 Windows 操作系统。
A4 系列支持的磁盘类型
A4 虚拟机可以使用以下块存储类型:
- Hyperdisk Balanced (
hyperdisk-balanced
):这是启动磁盘支持的唯一磁盘类型 - Hyperdisk Extreme (
hyperdisk-extreme
) - 本地 SSD:自动添加到使用任何 A4 机器类型创建的虚拟机
每个虚拟机的磁盘数量上限* | ||||||
---|---|---|---|---|---|---|
机器类型 | 所有磁盘† | 平衡 Hyperdisk | Hyperdisk Throughput | Hyperdisk ML | Hyperdisk Extreme | 挂接了本地 SSD |
a4-highgpu-8g |
128 | 128 | 不适用 | 不适用 | 8 | 32 |
*Hyperdisk 用量与机器类型是分开计费的。如需了解磁盘价格,请参阅 Hyperdisk 价格。
†此限制适用于 Hyperdisk,但不包括本地 SSD 磁盘。
磁盘和容量限制
如果机器类型支持,您可以在虚拟机上混合使用 Hyperdisk 卷和 Persistent Disk 卷,但存在以下限制:
- 每个虚拟机的 Hyperdisk 卷和 Persistent Disk 卷的总数不能超过 128 个。
所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
对于 vCPU 数量少于 32 个的机器类型:
- 对于所有 Hyperdisk 或所有 Persistent Disk 为 257 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 257 TiB
对于具有 32 个或更多 vCPU 的机器类型:
- 对于所有 Hyperdisk 为 512 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 512 TiB
- 对于所有 Persistent Disk 为 257 TiB
如需详细了解容量限制,请参阅 Hyperdisk 大小和连接限制以及 Persistent Disk 容量上限。
A3 机器系列
A3 机器系列最多配有 224 个 vCPU 和 2,944 GB 内存。此机器系列针对计算和内存密集型、网络绑定机器学习训练和 HPC 工作负载进行了优化。 A3 机器系列提供 A3 Ultra、A3 Mega、A3 High 和 A3 Edge 机器类型。
使用 A3 机器类型创建的虚拟机实例具有以下特性:
特性 | A3 Ultra | A3 Mega、A3 High、A3 Edge |
---|---|---|
GPU 加速 | 挂接了 NVIDIA H200 SXM GPU,每个 GPU 提供 141 GB GPU 内存,并提供更大、更快的内存,可支持大型语言模型和 HPC 工作负载。 |
挂接了 NVIDIA H100 SXM GPU,每个 GPU 提供 80 GB GPU 内存,非常适合基于 Transformer 的大语言模型、数据库和 HPC。 |
Intel Xeon 可扩缩处理器 | 第 5 代 Intel Xeon 可扩展处理器 (Emerald Rapids),可提供高达 4.0 GHz 的持续单核最大 Turbo 频率。如需详细了解此处理器,请参阅 CPU 平台。 |
第 4 代 Intel Xeon 可扩缩处理器 (Sapphire Rapids),可提供高达 3.3 GHz 的持续单核最大 Turbo 频率。如需详细了解此处理器,请参阅 CPU 平台。 |
业界领先的 NVLink 可伸缩性 | NVIDIA H200 GPU 提供单向 900 GB/s 的峰值 GPU NVLink 带宽。 得益于系统中的 8 个 GPU 之间采用全连接 NVLink 拓扑,总 NVLink 带宽可高达 7.2 TB/s。 |
NVIDIA H100 GPU 提供单向 450 GB/s 的峰值 GPU NVLink 带宽。 得益于系统中的 8 个 GPU 之间采用全连接 NVLink 拓扑,总 NVLink 带宽可高达 7.2 TB/s。 |
增强了网络性能 | 对于此机器类型,RDMA over Converged Ethernet (RoCE) 通过将 NVIDIA ConnectX-7 网络接口卡 (NIC) 与我们的数据中心级四向轨道对齐网络相结合,可提高网络性能。与其他 A3 机器类型相比,通过利用 RDMA over Converged Ethernet (RoCE),a3-ultragpu-8g 机器类型可在集群中的实例之间实现更高的吞吐量。
|
|
提升了网络速度 | 网络速度是上一代 A2 机器系列的 4 倍。 如需详细了解网络,请参阅网络带宽和 GPU。 |
网络速度是上一代 A2 机器系列的 2.5 倍。 如需详细了解网络,请参阅网络带宽和 GPU。 |
虚拟化优化 | A3 实例的外设组件互连高速总线 (PCIe) 拓扑可提供更准确的位置信息,工作负载可使用这些信息来优化数据传输。 GPU 还公开了功能级重置 (FLR),可从故障中正常恢复,并在某些情况下提供原子操作支持,可实现并发改进。 |
|
本地 SSD、永久性磁盘和 Hyperdisk 支持 |
本地 SSD 可用于快速 scratch 磁盘或用于将数据输送到 GPU 中,同时防止 I/O 瓶颈。本地 SSD 按以下方式挂接:
对于需要更高存储性能的应用,您还可以为这些系列中的机器类型挂接高达 512 TiB 的永久性磁盘和 Hyperdisk。 对于部分机器类型,还支持高达 257 TiB 的永久性磁盘。 |
|
紧凑布置政策支持 | 可让您更好地控制实例在数据中心内的物理布置。 这样可以在单个可用区中为实例布置实现低延迟、更高的带宽。 如需了解详情,请参阅紧凑布置政策简介。 |
A3 Ultra 机器类型
机器类型 | GPU 数量 | GPU 内存* (GB HBM3e) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-ultragpu-8g |
8 | 1128 | 224 | 2,952 | 12,000 | 10 | 3600 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A3 Ultra 限制
- 您只能使用 A3 Ultra 机器类型支持的预配选项来请求容量。
- 使用 A3 Ultra 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Ultra 机器类型。
- 不能在使用 A3 Ultra 机器类型的虚拟机上使用永久性磁盘(区域级或可用区级)。
- A3 Ultra 机器类型仅在 Emerald Rapids CPU 平台上提供。
- 您不能将现有虚拟机的机器类型更改为 A3 Ultra 机器类型。您只能创建新的 A3 Ultra虚拟机。使用 A3 Ultra 机器类型创建虚拟机后,您无法更改机器类型。
- A3 Ultra 机器类型不支持单租户。
- 不能在 A3 Ultra 机器类型上运行 Windows 操作系统。
A3 Mega 机器类型
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6000 | 9 | 1800 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A3 Mega 限制
- 您只能使用 A3 Mega 机器类型支持的预配选项来请求容量。
- 使用 A3 Mega 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Mega 机器类型。
- 您不能在使用 A3 Mega 机器类型的虚拟机上使用区域级永久性磁盘。
- A3 Mega 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 您不能将现有虚拟机的机器类型更改为 A3 Mega 机器类型。您只能创建新的 A3 Mega 虚拟机。使用 A3 Mega 机器类型创建虚拟机后,您无法更改机器类型。
- A3 Mega 机器类型不支持单租户。
- 不能在 A3 Mega 机器类型上运行 Windows 操作系统。
A3 High 机器类型
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-highgpu-1g |
1 | 80 | 26 | 234 | 750 | 1 | 25 |
a3-highgpu-2g |
2 | 160 | 52 | 468 | 1,500 | 1 | 50 |
a3-highgpu-4g |
4 | 320 | 104 | 936 | 3000 | 1 | 100 |
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6000 | 5 | 1000 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A3 High 限制
- 您只能使用 A3 High 机器类型支持的预配选项来请求容量。
- 使用 A3 High 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 High 机器类型。
- 您不能在使用 A3 High 机器类型的虚拟机上使用区域级永久性磁盘。
- A3 High 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 您不能将现有虚拟机的机器类型更改为 A3 High 机器类型。您只能创建新的 A3 High 虚拟机。使用 A3 High 机器类型创建虚拟机后,您无法更改机器类型。
- A3 High 机器类型不支持单租户。
- 不能在 A3 High 机器类型上运行 Windows 操作系统。
- 对于
a3-highgpu-1g
、a3-highgpu-2g
和a3-highgpu-4g
机器类型,存在以下限制:-
对于这些机器类型,您必须使用 Spot 虚拟机或利用动态工作负载调度器 (DWS) 的功能(例如 MIG 中的规模调整请求)来创建虚拟机。如需详细了解任一选项,请查看以下内容:
- 如需创建 Spot 虚拟机,请在创建加速器优化虚拟机时将预配模型设置为
SPOT
。 - 如需在 MIG 中创建使用 DWS 的规模调整请求,请参阅创建具有 GPU 虚拟机的 MIG。
- 如需创建 Spot 虚拟机,请在创建加速器优化虚拟机时将预配模型设置为
- 不能将 Hyperdisk Balanced 与这些机器类型搭配使用。
- 您无法创建预留。
-
对于这些机器类型,您必须使用 Spot 虚拟机或利用动态工作负载调度器 (DWS) 的功能(例如 MIG 中的规模调整请求)来创建虚拟机。如需详细了解任一选项,请查看以下内容:
A3 Edge 机器类型
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-edgegpu-8g |
8 | 640 | 208 | 1,872 | 6000 | 5 |
|
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A3 Edge 限制
- 您只能使用 A3 Edge 机器类型支持的预配选项来请求容量。
- 使用 A3 Edge 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Edge 机器类型。
- 您不能在使用 A3 Edge 机器类型的虚拟机上使用区域级永久性磁盘。
- A3 Edge 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 您不能将现有虚拟机的机器类型更改为 A3 Edge 机器类型。您只能创建新的 A3 Edge 虚拟机。使用 A3 Edge 机器类型创建虚拟机后,您无法更改机器类型。
- A3 Edge 机器类型不支持单租户。
- 不能在 A3 Edge 机器类型上运行 Windows 操作系统。
A3 系列支持的磁盘类型
A3 Ultra
A3 Ultra 虚拟机可以使用以下块存储类型:
- Hyperdisk Balanced (
hyperdisk-balanced
):这是启动磁盘支持的唯一磁盘类型 - Hyperdisk Balanced 高可用性 (
hyperdisk-balanced-high-availability
) - Hyperdisk Extreme (
hyperdisk-extreme
) - 本地 SSD:自动添加到使用任何 A3 机器类型创建的虚拟机
每个虚拟机的磁盘数量上限* | |||||||
---|---|---|---|---|---|---|---|
机器 类型 |
所有磁盘† | 平衡 Hyperdisk | Hyperdisk Balanced 高可用性 | Hyperdisk Throughput | Hyperdisk ML | Hyperdisk Extreme | 挂接了 本地 SSD 磁盘 |
a3-ultragpu-8g |
128 | 128 | 128 | 不适用 | 不适用 | 8 | 32 |
*Hyperdisk 用量与机器类型是分开计费的。如需了解磁盘价格,请参阅 Hyperdisk 价格。
†此限制适用于 Hyperdisk,但不包括本地 SSD 磁盘。
A3 Mega
A3 Mega 虚拟机可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - Hyperdisk Balanced (
hyperdisk-balanced
) - Hyperdisk Balanced 高可用性 (
hyperdisk-balanced-high-availability
) - Hyperdisk ML (
hyperdisk-ml
) - Hyperdisk Extreme (
hyperdisk-extreme
) - Hyperdisk Throughput (
hyperdisk-throughput
) - 本地 SSD:自动添加到使用任何 A3 机器类型创建的虚拟机
每个虚拟机的磁盘数量上限* | |||||||
---|---|---|---|---|---|---|---|
机器 类型 |
所有磁盘† | 平衡 Hyperdisk | Hyperdisk Balanced 高可用性 | Hyperdisk Throughput | Hyperdisk ML | Hyperdisk Extreme | 挂接了 本地 SSD 磁盘 |
a3-megagpu-8g |
128 | 32 | 32 | 64 | 64 | 8 | 16 |
*Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。 如需了解磁盘价格,请参阅 Persistent Disk 和 Hyperdisk 价格。
†此限制适用于 Persistent Disk 和 Hyperdisk,但不包括本地 SSD 磁盘。
A3 High
A3 High 虚拟机可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - Hyperdisk Balanced (
hyperdisk-balanced
):只有a3-highgpu-8g
支持此类型 - Hyperdisk Balanced 高可用性 (
hyperdisk-balanced-high-availability
) - Hyperdisk ML (
hyperdisk-ml
) - Hyperdisk Extreme (
hyperdisk-extreme
) - Hyperdisk Throughput (
hyperdisk-throughput
) - 本地 SSD:自动添加到使用任何 A3 机器类型创建的虚拟机
每个虚拟机的磁盘数量上限* | |||||||
---|---|---|---|---|---|---|---|
机器 类型 |
所有磁盘† | 平衡 Hyperdisk | Hyperdisk Balanced 高可用性 | Hyperdisk Throughput | Hyperdisk ML | Hyperdisk Extreme | 挂接了 本地 SSD 磁盘 |
a3-highgpu-1g |
128 | 不适用 | 32 | 64 | 64 | 不适用 | 2 |
a3-highgpu-2g |
128 | 不适用 | 32 | 64 | 64 | 不适用 | 4 |
a3-highgpu-4g |
128 | 不适用 | 32 | 64 | 64 | 8 | 8 |
a3-highgpu-8g |
128 | 32 | 32 | 64 | 64 | 8 | 16 |
*Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。 如需了解磁盘价格,请参阅 Persistent Disk 和 Hyperdisk 价格。
†此限制适用于 Persistent Disk 和 Hyperdisk,但不包括本地 SSD 磁盘。
A3 Edge
A3 Edge 虚拟机可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - Hyperdisk Balanced (
hyperdisk-balanced
) - Hyperdisk Balanced 高可用性 (
hyperdisk-balanced-high-availability
) - Hyperdisk ML (
hyperdisk-ml
) - Hyperdisk Extreme (
hyperdisk-extreme
) - Hyperdisk Throughput (
hyperdisk-throughput
) - 本地 SSD:自动添加到使用任何 A3 机器类型创建的虚拟机
每个虚拟机的磁盘数量上限* | |||||||
---|---|---|---|---|---|---|---|
机器类型 | 所有磁盘† | 平衡 Hyperdisk | Hyperdisk Balanced 高可用性 | Hyperdisk Throughput | Hyperdisk ML | Hyperdisk Extreme | 挂接了本地 SSD |
a3-edgegpu-8g |
128 | 32 | 32 | 64 | 64 | 8 | 16 |
*Hyperdisk 和 Persistent Disk 用量与机器类型是分开计费的。 如需了解磁盘价格,请参阅 Persistent Disk 和 Hyperdisk 价格。
†此限制适用于 Persistent Disk 和 Hyperdisk,但不包括本地 SSD 磁盘。
磁盘和容量限制
如果机器类型支持,您可以在虚拟机上混合使用 Hyperdisk 卷和 Persistent Disk 卷,但存在以下限制:
- 每个虚拟机的 Hyperdisk 卷和 Persistent Disk 卷的总数不能超过 128 个。
所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
对于 vCPU 数量少于 32 个的机器类型:
- 对于所有 Hyperdisk 或所有 Persistent Disk 为 257 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 257 TiB
对于具有 32 个或更多 vCPU 的机器类型:
- 对于所有 Hyperdisk 为 512 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 512 TiB
- 对于所有 Persistent Disk 为 257 TiB
如需详细了解容量限制,请参阅 Hyperdisk 大小和连接限制以及 Persistent Disk 容量上限。
A2 机器系列
A2 机器系列提供 A2 Standard 和 A2 Ultra 机器类型。这些机器类型具有 12 个到 96 个 vCPU 和高达 1,360 GB 的内存。
使用 A2 机器类型创建的虚拟机实例具有以下特性:
GPU 加速:每个 A2 实例都配有 NVIDIA A100 GPU。有 A100 40GB 和 A100 80GB 可供选择。
行业领先的 NVLink 容量,GPU 到 GPU NVLink 峰值带宽为 600 GBps。例如,具有 16 个 GPU 的系统的总 NVLink 带宽高达 9.6 TBps。这 16 个 GPU 可用作具有统一内存空间的单个高性能加速器,可提供高达每秒 10 千万亿次浮点运算的计算能力和每秒 20 千万亿次浮点运算的推断计算能力,可用于人工智能、深度学习和机器学习工作负载。
提升了计算速度:挂接的 NVIDIA A100 GPU 提供的计算速度提是上一代 NVIDIA V100 GPU 的 10 倍。
使用 A2 机器系列,您可以获得高达 100 Gbps 的网络带宽。
本地 SSD、永久性磁盘和 Hyperdisk 支持:为了用于快速 scratch 磁盘或将数据输送到 GPU,同时防止 I/O 瓶颈,A2 机器类型支持本地 SSD,如下所示:
- 对于 A2 Standard 机器类型,您可以在创建实例时添加高达 3,000 GiB 的本地 SSD。
- 对于 A2 Ultra 机器类型,当您创建实例时,本地 SSD 会自动挂接。
对于需要更高存储性能的应用,您还可以为 A2 实例挂接高达 257 TiB 的永久性磁盘和 512 TiB 的 Hyperdisk 卷。
紧凑布置政策支持:可让您更好地控制实例在数据中心内的物理布置。这样可以在单个可用区中为实例布置实现低延迟、更高的带宽。如需了解详情,请参阅使用紧凑布置政策缩短延迟时间。
A2 机器系列提供以下机器类型。
A2 Ultra 机器类型
这些机器类型具有固定数量的 A100 80GB GPU。本地 SSD 会自动挂接到使用 A2 Ultra 机器类型创建的实例。
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 | 24 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | 32 |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1500 | 50 |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3000 | 100 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A2 Ultra 限制
- 您只能使用 A2 Ultra 机器类型支持的预配选项来请求容量。
- 使用 A2 Ultra 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A2 Ultra 机器类型。
- A2 Ultra 机器类型仅在 Cascade Lake 平台上提供。
- 如果虚拟机使用 A2 Ultra 机器类型,则不能更改机器类型。如果您需要使用其他 A2 Ultra 机器类型或任何其他机器类型,则必须创建新虚拟机。
- 不能将任何其他机器类型更改为 A2 Ultra 机器类型。如果您需要使用 A2 Ultra 机器类型的虚拟机,则必须创建新虚拟机。
- 不能在使用 A2 Ultra 机器类型的 Windows 虚拟机上快速格式化挂接的本地固态硬盘。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。
A2 标准机器类型
这些机器类型具有固定数量的 A100 40GB GPU。
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 40 | 12 | 85 | 是 | 24 |
a2-highgpu-2g |
2 | 80 | 24 | 170 | 是 | 32 |
a2-highgpu-4g |
4 | 160 | 48 | 340 | 是 | 50 |
a2-highgpu-8g |
8 | 320 | 96 | 680 | 是 | 100 |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | 是 | 100 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A2 Standard 限制
- 您只能使用 A2 标准机器类型支持的预配选项来请求容量。
- 使用 A2 标准机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A2 标准机器类型。
- A2 标准机器类型仅在 Cascade Lake 平台上提供。
- 如果您的虚拟机使用 A2 标准机器类型,您只能从一种 A2 标准机器类型切换到另一种 A2 标准机器类型。您无法切换到任何其他机器类型。如需了解详情,请参阅修改加速器优化虚拟机。
- 不能将 Windows 操作系统与 <codea2-megagpu-16g< code="" dir="ltr" translate="no"> A2 标准机器类型搭配使用。 使用 Windows 操作系统时,请选择其他 A2 标准机器类型。</codea2-megagpu-16g<>
- 不能在使用 A2 标准机器类型的 Windows 虚拟机上快速格式化挂接的本地 SSD。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。 - A2 标准机器类型不支持单租户。
A2 系列支持的磁盘类型
A2 实例可以使用以下块存储类型:
- Hyperdisk ML (
hyperdisk-ml
) - 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - 标准永久性磁盘 (
pd-standard
) - 本地 SSD:自动挂接到使用 A2 Ultra 机器类型创建的实例。
如果机器类型支持,您可以在虚拟机上混合使用 Hyperdisk 卷和 Persistent Disk 卷,但存在以下限制:
- 每个虚拟机的 Hyperdisk 卷和 Persistent Disk 卷的总数不能超过 128 个。
所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
对于 vCPU 数量少于 32 个的机器类型:
- 对于所有 Hyperdisk 或所有 Persistent Disk 为 257 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 257 TiB
对于具有 32 个或更多 vCPU 的机器类型:
- 对于所有 Hyperdisk 为 512 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 512 TiB
- 对于所有 Persistent Disk 为 257 TiB
如需详细了解容量限制,请参阅 Hyperdisk 大小和连接限制以及 Persistent Disk 容量上限。
G2 机器系列
G2 机器系列提供标准机器类型,具有 4 到 96 个 vCPU 和高达 432 GB 的内存。此机器系列针对推断和图形工作负载进行了优化。 G2 机器系列提供一种标准机器类型,但有多种配置可供选择。
使用 G2 机器类型创建的虚拟机实例具有以下特性:
GPU 加速:每种 G2 机器类型都配有 NVIDIA L4 GPU。
提高了推理速率:G2 机器类型提供对 FP8(8 位浮点)数据类型的支持,可加快机器学习推理速率并降低内存需求。
新一代图形性能:通过使用第三代 RT 核心和 NVIDIA DLSS 3(深度学习超级采样)技术,NVIDIA L4 GPU 的图形性能是原来的 3 倍。
高性能网络带宽:使用 G2 机器系列,您可以获得高达 100 Gbps 的网络带宽。
本地 SSD、永久性磁盘和 Hyperdisk 支持:您可以为 G2 实例添加高达 3,000 GiB 的本地 SSD。可用于快速 scratch 磁盘或用于将数据输送到 GPU 中,同时防止 I/O 瓶颈。
对于需要更多永久性存储空间的应用,您也可以将 Hyperdisk 和永久性磁盘卷挂接到 G2 实例。最大存储容量取决于虚拟机具有的 vCPU 数量。如需了解详情,请参阅支持的磁盘类型。
紧凑布置政策支持:可让您更好地控制实例在数据中心内的物理布置。这样可以在单个可用区中为实例布置实现低延迟、更高的带宽。如需了解详情,请参阅使用紧凑布置政策缩短延迟时间。
G2 机器类型
每种 G2 机器类型都挂接了固定数量的 NVIDIA L4 GPU 和 vCPU。每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的虚拟机内存量。您可以在虚拟机创建期间指定自定义内存。
机器类型 | GPU 数量 | GPU 内存* (GB GDDR6) | vCPU 数量† | 默认虚拟机内存 (GB) | 自定义虚拟机内存范围 (GB) | 支持的最大本地 SSD (GiB) | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 24 | 4 | 16 | 16 - 32 | 375 | 10 |
g2-standard-8 |
1 | 24 | 8 | 32 | 32 - 54 | 375 | 16 |
g2-standard-12 |
1 | 24 | 12 | 48 | 48 - 54 | 375 | 16 |
g2-standard-16 |
1 | 24 | 16 | 64 | 54 - 64 | 375 | 32 |
g2-standard-24 |
2 | 48 | 24 | 96 | 96 - 108 | 750 | 32 |
g2-standard-32 |
1 | 24 | 32 | 128 | 96 - 128 | 375 | 32 |
g2-standard-48 |
4 | 96 | 48 | 192 | 192 - 216 | 1500 | 50 |
g2-standard-96 |
8 | 192 | 96 | 384 | 384 - 432 | 3000 | 100 |
*GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
G2 限制
- 您只能使用 G2 机器类型支持的预配选项来请求容量。
- 使用 G2 机器类型的虚拟机不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 G2 机器类型。
- G2 机器类型仅在 Cascade Lake 平台上提供。
- 使用 G2 标准机器类型的虚拟机不支持标准永久性磁盘 (
pd-standard
)。如需了解支持的磁盘类型,请参阅 G2 支持的磁盘类型。 - 不能在 G2 机器类型上创建多实例 GPU。
- 如果您需要更改 G2 虚拟机的机器类型,请查看修改加速器优化虚拟机。
- 不能将 Deep Learning VM Image 映像用作使用 G2 机器类型的虚拟机的启动磁盘。
- Container-Optimized OS 的当前默认驱动程序不支持在 G2 机器类型上运行的 L4 GPU。Container-Optimized OS 也仅支持一组特定的驱动程序。如需在 G2 机器类型上使用 Container-Optimized OS,请查看以下说明:
- 使用支持推荐的最低 NVIDIA 驱动程序版本
525.60.13
或更高版本的 Container-Optimized OS 版本。如需了解详情,请查看 Container-Optimized OS 版本说明。 - 在安装驱动程序时,请指定适用于 L4 GPU 的最新可用版本。
例如
sudo cos-extensions install gpu -- -version=525.60.13
。
- 使用支持推荐的最低 NVIDIA 驱动程序版本
- 在以下情况下,您必须使用 Google Cloud CLI 或 REST 创建 G2 虚拟机:
- 您想要指定自定义内存值。
- 您想要自定义可见 CPU 核心数。
G2 系列支持的磁盘类型
G2 实例可以使用以下块存储类型:
- 平衡永久性磁盘 (
pd-balanced
) - SSD(性能)永久性磁盘 (
pd-ssd
) - Hyperdisk ML (
hyperdisk-ml
) - Hyperdisk Throughput (
hyperdisk-throughput
) - 本地 SSD
如果机器类型支持,您可以在虚拟机上混合使用 Hyperdisk 卷和 Persistent Disk 卷,但存在以下限制:
- 每个虚拟机的 Hyperdisk 卷和 Persistent Disk 卷的总数不能超过 128 个。
所有磁盘类型的磁盘总容量上限(以 TiB 为单位)不能超过以下值:
对于 vCPU 数量少于 32 个的机器类型:
- 对于所有 Hyperdisk 或所有 Persistent Disk 为 257 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 257 TiB
对于具有 32 个或更多 vCPU 的机器类型:
- 对于所有 Hyperdisk 为 512 TiB
- 对于 Hyperdisk 和 Persistent Disk 的混合使用为 512 TiB
- 对于所有 Persistent Disk 为 257 TiB
如需详细了解容量限制,请参阅 Hyperdisk 大小和连接限制以及 Persistent Disk 容量上限。