要加速 Compute Engine 上的特定工作负载,您可以部署挂接了 GPU 的加速器优化虚拟机,也可以将 GPU 挂接到 N1 通用虚拟机。
本文档介绍了在 Compute Engine 上运行的 GPU 的功能和限制。
GPU 和机器系列
N1 通用和加速器优化(A3、A2 和 G2)机器系列支持 GPU。对于使用 N1 机器类型的虚拟机,您可以在虚拟机创建期间或之后将 GPU 挂接到虚拟机。对于使用 A3、A2 或 G2 机器类型的虚拟机,系统会在您创建虚拟机时自动挂接 GPU。GPU 不能与其他机器系列搭配使用。
加速器优化机器系列
每种加速器优化机器类型都挂接了特定型号的 NVIDIA GPU。
- 对于 A3 加速器优化机器类型,挂接了 NVIDIA H100 80GB GPU。以下是可用选项:
- A3 High (
a3-highgpu-8g
):此机器类型挂接了 H100 80GB GPU - A3 Mega (
a3-megagpu-8g
):此机器类型挂接了 H100 80GB Mega GPU
- A3 High (
- 对于 A2 加速器优化机器类型,挂接了 NVIDIA A100 GPU。以下是可用选项:
- A2 标准(
a2-highgpu-*
、a2-megagpu-*
):这些机器类型挂接了 A100 40GB GPU - A2 Ultra (
a2-ultragpu-*
):这些机器类型挂接了 A100 80GB GPU
- A2 标准(
- 对于 G2 加速器优化机器类型 (
g2-standard-*
),挂接了 NVIDIA L4 GPU。
如需了解详情,请参阅加速器优化机器系列。
N1 通用机器系列
对于所有其他 GPU 类型,您可以使用大多数 N1 机器类型,N1 共享核心机器类型(f1-micro
和 g1-small
)除外。
抢占式虚拟机实例上的 GPU
您可以按较低的 GPU spot 价格将 GPU 添加到抢占式虚拟机实例。挂接到抢占式实例的 GPU 在工作方式上类似于普通 GPU,但只会在实例的生命周期内保留。搭载 GPU 的抢占式实例遵循与所有抢占式实例相同的抢占过程。
考虑申请将专用 Preemptible GPU
配额用于抢占式实例上的 GPU。如需了解详情,请参阅抢占式虚拟机实例的配额。
在维护事件发生时,挂接了 GPU 的抢占式实例会默认被抢占,并且无法自动重启。如果您要在实例被抢占后重新创建这些实例,请使用托管实例组。如果 vCPU、内存和 GPU 资源可用,则托管实例组将重新创建您的实例。
如果您希望在实例被抢占前收到警告,或者想要将实例配置为在维护事件发生后自动重启,请使用具有 GPU 的标准实例。对于具有 GPU 的标准实例,Google 会在抢占前提前一小时发出通知。
如果 GPU 所属的实例在开始运行后的第一分钟被抢占,则 Compute Engine 不会针对这些 GPU 向您收费。
如需了解自动重启标准实例的步骤,请参阅更新实例对应的选项。
如需了解如何创建挂接 GPU 的抢占式实例,请参阅创建挂接 GPU 的虚拟机。
具有预定义运行时间的虚拟机上的 GPU
使用默认标准预配模型的虚拟机(标准虚拟机)的资源通常不能使用抢占式分配配额,这些配额适用于临时工作负载,并且通常更可用。如果您的项目没有抢占式配额,并且您从未申请过抢占式配额,则该项目中的所有虚拟机都会使用标准分配配额。
但是,在您申请抢占式分配配额后,满足以下所有条件的标准虚拟机只能使用抢占式分配配额。
- 虚拟机已挂接 GPU。虚拟机可以是挂接了 GPU 的 N1 虚拟机,也可以是加速器优化虚拟机。
- 虚拟机已配置为在预定义的运行时间(7 天或更短时间)结束后通过以下方法之一自动删除:
- 使用
maxRunDuration
字段或terminationTime
字段。如需了解详情,请参阅限制虚拟机的运行时或限制 MIG 中虚拟机的运行时。 - 使用
requestedRunDuration
字段,该字段仅适用于托管式实例组 (MIG)。如需了解详情,请参阅关于调整 MIG 中的请求大小。
- 使用
- 不允许虚拟机使用预留。如需了解详情,请参阅创建虚拟机而不使用预留。
通过使用此类工作负载的抢占式分配配额,您既可以从标准虚拟机获得不间断运行时间,也可以从抢占式分配配额提高可获取性。
无论使用哪种配额,标准虚拟机都不享受 Spot 虚拟机价格,也不受抢占影响。
如需了解详情,请参阅抢占式配额。
GPU 和机密虚拟机
您不能将 GPU 挂接到机密虚拟机实例。如需详细了解机密虚拟机,请参阅机密虚拟机概览。
GPU 和块存储
在 GPU 平台上创建虚拟机时,您可以向虚拟机添加永久性或临时块存储。如需存储非暂时性数据,请使用永久性块存储(如 Hyperdisk ML 或 Persistent Disk),因为磁盘与虚拟机的生命周期无关。即使在删除虚拟机后,永久性存储中的数据也可以保留。
对于临时存储或缓存,请在创建虚拟机时添加本地 SSD 磁盘,以使用临时块存储。
使用 Persistent Disk 卷和 Hyperdisk 卷的永久性块存储
您可以向支持 GPU 的虚拟机挂接 Persistent Disk 和 Hyperdisk ML 卷。
对于机器学习训练和服务工作负载,Google 建议使用 Hyperdisk ML 卷,这类卷可提供高吞吐量和较短的数据加载时间。这使得 Hyperdisk ML 成为适用于机器学习工作负载的更经济实惠的方案,因为它可提供较短的 GPU 空闲时间。
Hyperdisk ML 卷提供只读多挂接支持,因此您可以将同一磁盘挂接到多个虚拟机,从而让每个虚拟机能够访问相同的数据。
如需详细了解支持 GPU 的机器系列支持的磁盘类型,请参阅 N1 和加速器优化机器系列页面。
本地 SSD 磁盘数量
本地 SSD 磁盘为缓存、数据处理或其他暂时性数据提供快速的临时存储。本地 SSD 磁盘以物理方式挂接到托管虚拟机的服务器,因此可实现快速存储。它们是临时存储,因为如果虚拟机重启,数据会丢失。
您不应将具有高度持久性要求的数据存储在本地 SSD 磁盘上。如需存储非暂时性数据,请改用永久性存储。
如果您手动停止具有 GPU 的虚拟机,则可以保留本地 SSD 数据,但存在某些限制。如需了解详情,请参阅本地 SSD 文档。
如需了解具有 GPU 类型的本地 SSD 的区域支持,请参阅 GPU 区域和可用区的本地 SSD 可用性。
GPU 与主机维护
当 Compute Engine 在虚拟机上执行维护事件时,挂接 GPU 的虚拟机始终会停止。如果虚拟机挂接了本地 SSD 磁盘,则本地 SSD 数据会在虚拟机停止后丢失。
如需了解如何处理维护事件,请参阅处理 GPU 主机维护事件。
GPU 价格
与 vCPU 类似,大多数挂接了 GPU 的虚拟机均可享受持续使用折扣。当您为虚拟工作站选择 GPU 时,系统会为您的虚拟机添加 NVIDIA RTX 虚拟工作站许可。
请参阅 GPU 价格页面,了解 GPU 的每小时价格和每月价格。
预留可享受承诺使用折扣的 GPU
如需预留特定可用区中的 GPU 资源,请参阅预留 Compute Engine 可用区级资源。
若要获得特定可用区中 GPU 的承诺使用折扣,您必须为 GPU 购买基于资源的承诺,并将指定匹配 GPU 的预留附加到您的承诺。如需了解详情,请参阅将预留附加到基于资源的承诺。
GPU 限制和局限
对于挂接了 GPU 的虚拟机,需遵守以下限制和局限:
GPU 仅受通用 N1 或加速器优化(A3、A2 和 G2)机器类型支持。
为了保护 Compute Engine 系统和用户,新项目设置具有 GPU 全球配额,这限制了您可以在任何支持的地区中创建的 GPU 总数。申请 GPU 配额时,您必须为要在每个区域中创建的 GPU 模型申请一个配额,并为所有地区中所有类型的 GPU 总数另外申请一个全球配额。
如果虚拟机挂接了一个或多个 GPU,那么您添加到虚拟机的每个 GPU 都可以配备最多数量的 vCPU。要查看不同 GPU 配置的可用 vCPU 和内存范围,请参阅 GPU 列表。
GPU 需要设备驱动程序才能正常工作。在 Compute Engine 上运行的 NVIDIA GPU 有最低驱动程序版本的限制。如需详细了解驱动程序版本,请参阅所需的 NVIDIA 驱动程序版本。
对于挂接了特定 GPU 模型的虚拟机,仅当挂接的 GPU 型号为正式版并且同一区域中的多个可用区均支持该 GPU 模型时,该虚拟机才在 Compute Engine 服务等级协议 (SLA) 的涵盖范围内。Compute Engine 服务等级协议 (SLA) 未涵盖以下可用区的 GPU 型号:
- NVIDIA H100 80GB Mega:
asia-northeast1-b
australia-southeast1-c
europe-west2-b
us-east5-a
us-west4-a
- NVIDIA H100 80GB:
asia-northeast1-b
europe-west1-b
us-east5-a
us-west4-a
- NVIDIA L4:
asia-northeast1-b
northamerica-northeast2-a
- NVIDIA A100 80 GB:
asia-southeast1-c
us-east4-c
us-east5-b
- NVIDIA A100 40 GB:
us-east1-b
us-west1-b
us-west3-b
us-west4-b
- NVIDIA T4:
europe-west3-b
southamerica-east1-c
us-west3-b
- NVIDIA V100:
asia-east1-c
us-east1-c
- NVIDIA P100:
australia-southeast1-c
europe-west4-a
- NVIDIA H100 80GB Mega:
Compute Engine 支持在每个 GPU 上运行 1 个并发用户。
后续步骤
- 了解如何创建挂接 GPU 的虚拟机。
- 了解如何添加或移除 GPU。