此页面由 Cloud Translation API 翻译。

GPU 实例简介

本文档介绍了在 Compute Engine 上运行的 GPU 虚拟机 (VM) 实例的功能和限制。

如需加速 Compute Engine 上的特定工作负载，您可以部署挂接了 GPU 的加速器优化实例，也可以将 GPU 挂接到 N1 通用实例。Compute Engine 以直通模式为您的实例提供 GPU。直通模式可让您的实例直接控制 GPU 及其内存。

您还可以在 AI Hypercomputer 上使用一些 GPU 机器类型。AI Hypercomputer 是一种超级计算系统，经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。建议使用此选项来创建密集分配、性能优化的基础架构，并集成 Google Kubernetes Engine (GKE) 和 Slurm 调度器。

支持的机器类型

Compute Engine 提供不同的机器类型来支持各种工作负载。

部分机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。当您创建使用 NVIDIA RTX 虚拟工作站的实例时，Compute Engine 会自动添加 vWS 许可。如需了解虚拟工作站的价格，请参阅 GPU 价格页面。

GPU 机器类型
AI 和机器学习工作负载	图形和可视化	其他 GPU 工作负载
加速器优化 A 系列机器类型专为高性能计算 (HPC)、人工智能 (AI) 和机器学习 (ML) 工作负载而设计。较新的 A 系列非常适合预训练和微调涉及大量加速器的基础模型，而 A2 系列可用于训练较小的模型和单主机推理。对于这些机器类型，GPU 型号会自动挂接到实例。	加速器优化型 G 系列机器类型专为 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面等工作负载而设计。这些机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。 G 系列还可用于训练较小的模型和进行单主机推理。对于这些机器类型，GPU 型号会自动挂接到实例。	对于 N1 通用机器类型（N1 共享核心机器类型 [`f1-micro` 和 `g1-small`] 除外），您可以挂接一组选定的 GPU 型号。其中一些 GPU 型号还支持 NVIDIA RTX 虚拟工作站 (vWS)。
A4X （NVIDIA GB200 超级芯片）（`nvidia-gb200`） A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) （`nvidia-h200-141gb`） A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	以下 GPU 型号可以挂接到 N1 通用机器类型： NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

GPU 机器类型

AI 和机器学习工作负载图形和可视化其他 GPU 工作负载

加速器优化 A 系列机器类型专为高性能计算 (HPC)、人工智能 (AI) 和机器学习 (ML) 工作负载而设计。

较新的 A 系列非常适合预训练和微调涉及大量加速器的基础模型，而 A2 系列可用于训练较小的模型和单主机推理。

对于这些机器类型，GPU 型号会自动挂接到实例。

加速器优化型 G 系列机器类型专为 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面等工作负载而设计。这些机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。

G 系列还可用于训练较小的模型和进行单主机推理。

对于这些机器类型，GPU 型号会自动挂接到实例。

对于 N1 通用机器类型（N1 共享核心机器类型 [f1-micro 和 g1-small] 除外），您可以挂接一组选定的 GPU 型号。其中一些 GPU 型号还支持 NVIDIA RTX 虚拟工作站 (vWS)。

A4X （NVIDIA GB200 超级芯片）
（nvidia-gb200）
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
（nvidia-h200-141gb）
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

以下 GPU 型号可以挂接到 N1 通用机器类型：

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

Spot 虚拟机上的 GPU

您可以较低的 GPU spot 价格将 GPU 添加到 Spot 虚拟机。挂接到 Spot 虚拟机的 GPU 的工作方式类似于普通 GPU，但只会在虚拟机的生命周期内保留。搭载 GPU 的 Spot 虚拟机遵循与所有 Spot 虚拟机相同的抢占过程。

考虑申请将专用 Preemptible GPU 配额用于 Spot 虚拟机上的 GPU。如需了解详情，请参阅 Spot 虚拟机的配额。

在维护事件发生时，挂接了 GPU 的 Spot 虚拟机会默认被抢占，并且无法自动重启。如果您要在虚拟机被抢占后重新创建这些实例，请使用代管式实例组。如果 vCPU、内存和 GPU 资源可用，则代管式实例组将重新创建您的虚拟机实例。

如果您希望在虚拟机被抢占前收到警告，或者想要将虚拟机配置为在维护事件结束后自动重启，请使用具有 GPU 的标准虚拟机。对于具有 GPU 的标准虚拟机，Compute Engine 会在抢占前提前一小时发出通知。

如果 GPU 所属的虚拟机在开始运行后的第一分钟被抢占，则 Compute Engine 不会针对这些 GPU 向您收费。

如需了解如何创建挂接 GPU 的 Spot 虚拟机，请参阅创建挂接 GPU 的虚拟机和创建 Spot 虚拟机。例如，请参阅使用 Spot 虚拟机创建 A3 Ultra 实例或 A4 实例。

具有预定义运行时的实例上的 GPU

使用标准预配模型的实例通常不能使用抢占式分配配额。抢占式配额适用于临时工作负载，通常能够提供更高的可用性。如果您的项目没有抢占式配额，并且您从未申请过抢占式配额，则项目中的所有实例都会使用标准分配配额。

如果您申请抢占式分配配额，则使用标准预配模型的实例必须满足以下所有条件，才能使用抢占式分配配额：

实例已挂接 GPU。
实例配置为在预定义的运行时间（通过 maxRunDuration 或 terminationTime 字段指定）结束后自动删除。如需了解详情，请参阅以下内容：
- 限制实例的运行时间
- 限制 MIG 中的实例的运行时间
不允许实例使用预留。如需了解详情，请参阅阻止计算实例使用预留。

当您为有时间限制的 GPU 工作负载使用抢占式分配时，既可以获得不间断的运行时间，也可以获得抢占式分配配额的高可获取性。如需了解详情，请参阅抢占式配额。

GPU 和机密虚拟机

您可以在 A3 机器系列上将 GPU 与使用 Intel TDX 的机密虚拟机实例搭配使用。如需了解详情，请参阅机密虚拟机支持的配置。如需了解如何创建具有 GPU 的机密虚拟机实例，请参阅创建具有 GPU 的机密虚拟机实例。

GPU 和块存储

使用 GPU 机器类型创建实例时，您可以向实例添加永久性或临时块存储。如需存储非暂时性数据，请使用永久性块存储（如 Hyperdisk 或 Persistent Disk），因为这些磁盘与实例的生命周期无关。即使在删除实例后，永久性存储中的数据也可以保留。

对于临时存储或缓存，请在创建实例时添加本地 SSD 磁盘，以使用临时块存储。

使用 Persistent Disk 卷和 Hyperdisk 卷的永久性块存储

您可以将 Persistent Disk 和部分 Hyperdisk 卷挂接到启用了 GPU 的实例。

对于机器学习 (ML) 和服务工作负载，请使用 Hyperdisk ML 卷，这类卷可提供高吞吐量和较短的数据加载时间。Hyperdisk ML 是一种更经济实惠的机器学习工作负载方案，因为它可提供较短的 GPU 空闲时间。

Hyperdisk ML 卷提供只读多挂接支持，因此您可以将同一磁盘挂接到多个实例，从而让每个实例能够访问相同的数据。

如需详细了解支持 GPU 的机器系列支持的磁盘类型，请参阅 N1 和加速器优化机器系列页面。

本地 SSD 磁盘数量

本地 SSD 磁盘为缓存、数据处理或其他暂时性数据提供快速的临时存储。本地 SSD 磁盘以物理方式挂接到托管实例的服务器，因此可实现快速存储。本地 SSD 磁盘提供临时存储，因为实例在重启时会丢失数据。

请避免将具有高度持久性要求的数据存储在本地 SSD 磁盘上。如需存储非暂时性数据，请改用永久性存储。

如果您手动停止具有 GPU 的实例，则可以保留本地 SSD 数据，但存在某些限制。如需了解详情，请参阅本地 SSD 文档。

如需了解具有 GPU 类型的本地 SSD 的区域支持，请参阅 GPU 区域和可用区的本地 SSD 可用性。

GPU 与主机维护

当 Compute Engine 在宿主服务器上执行维护事件时，始终会停止挂接 GPU 的实例。如果实例挂接了本地 SSD 磁盘，则实例会在停止后丢失本地 SSD 数据。

如需了解如何处理维护事件，请参阅处理 GPU 主机维护事件。

预留 GPU 容量

预留为可用区级资源（包括 GPU）提供了较高的容量保障。您可以使用预留来确保在需要将 GPU 用于性能密集型应用时，有可用的 GPU。如需了解在 Compute Engine 中预留特定可用区资源的不同方法，请参阅选择预留类型。

如果您想为 GPU 享受承诺使用折扣 (CUD)，也需要预留资源。

GPU 价格

如果您请求 Compute Engine 使用 Spot 预配模型、灵活启动预配模型或受预留约束的预配模型预配 GPU，则可以享受折扣价，具体取决于 GPU 类型。您还可以针对 GPU 使用量获享承诺使用折扣或持续使用折扣（仅限 N1 虚拟机）。

请参阅 GPU 价格页面，了解 GPU 的每小时价格和每月价格。

GPU 承诺使用折扣

基于资源的承诺提供 Compute Engine 资源大幅折扣，作为回报，您需要承诺在特定区域使用这些资源至少一年。您通常会为 vCPU、内存、GPU 和本地 SSD 磁盘等资源购买承诺，以便与特定机器系列搭配使用。当您使用资源时，可以按折扣价获得符合条件的资源用量。如需详细了解这些折扣，请参阅基于资源的承诺使用折扣。

如需购买包含 GPU 的承诺，您还必须预留 GPU，并将预留附加到承诺。如需详细了解如何将预留附加到承诺，请参阅将预留附加到基于资源的承诺。

针对 GPU 的持续使用折扣

与 vCPU 类似，使用 N1 机器类型并挂接了 GPU 的实例均可享受持续使用折扣 (SUD)。当您为虚拟工作站选择 GPU 时，Compute Engine 会向您的实例自动添加一个 NVIDIA RTX 虚拟工作站许可。

GPU 限制和局限

对于挂接了 GPU 的实例，需遵守以下限制和局限：

只有加速器优化型（A4X、A4、A3、A2、G4 和 G2）和通用 N1 机器类型支持 GPU。
为了保护 Compute Engine 系统和用户，新项目设置具有 GPU 全球配额，这限制了您可以在任何支持的地区中创建的 GPU 总数。申请 GPU 配额时，您必须为要在每个区域中创建的 GPU 模型申请一个配额，并为所有地区中所有类型的 GPU 总数另外申请一个全球配额。
如果实例挂接了一个或多个 GPU，那么您添加到实例的每个 GPU 都可以配备最多数量的 vCPU。要查看不同 GPU 配置的可用 vCPU 和内存范围，请参阅 GPU 列表。
GPU 需要设备驱动程序才能正常工作。在 Compute Engine 上运行的 NVIDIA GPU 有最低驱动程序版本的限制。如需详细了解驱动程序版本，请参阅所需的 NVIDIA 驱动程序版本。
只有在所挂接的 GPU 模型为正式版时，Compute Engine SLA 才涵盖挂接了该 GPU 模型的实例。

对于包含多个可用区的区域，只有在该区域内的多个可用区都提供该 GPU 模型时，Compute Engine SLA 才涵盖该实例。如需按区域查看 GPU 模型，请参阅 GPU 区域和可用区。
Compute Engine 支持在每个 GPU 上运行 1 个并发用户。
另请参阅挂接了 GPU 的每种机器类型的限制。