GPU 简介


您可以将图形处理单元 (GPU) 挂接到虚拟机 (VM) 实例以加速 Compute Engine 上的特定工作负载。

本文档介绍了在 Compute Engine 上运行的 GPU 的功能和限制。

GPU 和机器系列

N1 通用和加速器优化(A3、A2 和 G2)机器系列支持 GPU。对于使用 N1 机器类型的虚拟机,您可以在虚拟机创建期间或之后将 GPU 挂接到虚拟机。对于使用 A3、A2 或 G2 机器类型的虚拟机,系统会在您创建虚拟机时自动挂接 GPU。GPU 不能与其他机器系列搭配使用。

加速器优化机器系列

每种加速器优化机器类型都挂接了特定型号的 NVIDIA GPU。

如需了解详情,请参阅加速器优化机器系列

N1 通用机器系列

对于所有其他 GPU 类型,您可以使用大多数 N1 机器类型(N1 共享核心机器类型除外)。

对于此机器系列,您可以使用预定义自定义机器类型。

抢占式虚拟机实例上的 GPU

您可以按较低的 GPU spot 价格将 GPU 添加到抢占式虚拟机实例。挂接到抢占式实例的 GPU 在工作方式上类似于普通 GPU,但只会在实例的生命周期内保留。搭载 GPU 的抢占式实例遵循与所有抢占式实例相同的抢占过程

考虑申请将专用 Preemptible GPU 配额用于抢占式实例上的 GPU。如需了解详情,请参阅抢占式虚拟机实例的配额

在维护事件发生时,挂接了 GPU 的抢占式实例会默认被抢占,并且无法自动重启。如果您要在实例被抢占后重新创建这些实例,请使用托管实例组。如果 vCPU、内存和 GPU 资源可用,则托管实例组将重新创建您的实例。

如果您希望在实例被抢占前收到警告,或者想要将实例配置为在维护事件发生后自动重启,请使用具有 GPU 的标准实例。对于具有 GPU 的标准实例,Google 会在抢占前提前一小时发出通知

如果 GPU 所属的实例在开始运行后的第一分钟被抢占,则 Compute Engine 不会针对这些 GPU 向您收费。

如需了解自动重启标准实例的步骤,请参阅更新实例对应的选项

如需了解如何创建挂接 GPU 的抢占式实例,请参阅创建挂接 GPU 的虚拟机

GPU 和机密虚拟机

您不能将 GPU 挂接到机密虚拟机实例。如需详细了解机密虚拟机,请参阅机密虚拟机概览

GPU 和块存储

在 GPU 平台上创建虚拟机时,您可以通过将 Persistent Disk 挂接到虚拟机来添加耐用的块存储。您还可以在创建虚拟机时挂接本地 SSD 磁盘,以添加临时块存储。

挂接 GPU 的虚拟机不支持 Google Cloud Hyperdisk。

Persistent Disk

您可以将 Persistent Disk 卷添加到挂接了 GPU 的虚拟机。存储在 Persistent Disk 卷上的数据独立于虚拟机的生命周期,因此适合存储非暂时性数据。

如需详细了解支持 GPU 的机器系列可用的 Persistent Disk 类型,请参阅 N1加速器优化机器系列页面

本地 SSD 磁盘数量

本地 SSD 磁盘为缓存、数据处理或其他暂时性数据提供快速的临时存储。本地 SSD 磁盘以物理方式挂接到托管虚拟机的服务器,因此可实现快速存储。它们是临时存储,因为如果虚拟机重启,数据可能会丢失。

您不应将具有高度持久性要求的数据存储在本地 SSD 磁盘上。如需存储非暂时性数据,请改用可用的耐用存储选项之一。

如果您手动停止具有 GPU 的虚拟机,则可以保留本地 SSD 数据,但存在某些限制。如需了解详情,请参阅本地 SSD 文档

如需了解具有 GPU 类型的本地 SSD 的区域支持,请参阅 GPU 区域和可用区的本地 SSD 可用性

GPU 与主机维护

当 Compute Engine 在虚拟机上执行维护事件时,挂接 GPU 的虚拟机始终会停止。如果虚拟机挂接了本地 SSD 磁盘,则本地 SSD 数据会在虚拟机停止后丢失。

如需了解如何处理维护事件,请参阅处理 GPU 主机维护事件

GPU 价格

与 vCPU 类似,大多数挂接了 GPU 的虚拟机均可享受持续使用折扣。当您为虚拟工作站选择 GPU 时,系统会为您的虚拟机添加 NVIDIA RTX 虚拟工作站许可。

请参阅 GPU 价格页面,了解 GPU 的每小时价格和每月价格。

预留可享受承诺使用折扣的 GPU

如需预留特定可用区中的 GPU 资源,请参阅预留 Compute Engine 可用区级资源

若要获得特定可用区中 GPU 的承诺使用折扣,您必须为 GPU 购买基于资源的承诺,并将指定匹配 GPU 的预留附加到您的承诺。如需了解详情,请参阅将预留附加到基于资源的承诺

GPU 限制和局限

对于挂接了 GPU 的虚拟机,需遵守以下限制和局限:

  • 如果要将 NVIDIA K80 GPU 与虚拟机搭配使用,虚拟机不能使用 Intel Skylake 或更高版本的 CPU 平台。

  • GPU 仅受通用 N1 或加速器优化(A3、A2 和 G2)机器类型支持。

  • 为了保护 Compute Engine 系统和用户,新项目设置具有 GPU 全球配额,这限制了您可以在任何支持的地区中创建的 GPU 总数。申请 GPU 配额时,您必须为要在每个区域中创建的 GPU 模型申请一个配额,并为所有地区中所有类型的 GPU 总数另外申请一个全球配额。

  • 如果虚拟机挂接了一个或多个 GPU,那么您添加到虚拟机的每个 GPU 都可以配备最多数量的 vCPU。例如,每个 NVIDIA K80 GPU 可让您为实例机器类型配备最多八个 vCPU 和高达 52 GB 的内存。要查看不同 GPU 配置的可用 vCPU 和内存范围,请参阅 GPU 列表

  • GPU 需要设备驱动程序才能正常工作。在 Compute Engine 上运行的 NVIDIA GPU 有最低驱动程序版本的限制。如需详细了解驱动程序版本,请参阅所需的 NVIDIA 驱动程序版本

  • 对于挂接了特定 GPU 模型的虚拟机,仅当挂接的 GPU 型号为正式版并且同一区域中的多个可用区均支持该 GPU 模型时,该虚拟机才在 Compute Engine 服务等级协议 (SLA) 的涵盖范围内。Compute Engine 服务等级协议 (SLA) 未涵盖以下可用区的 GPU 型号:

    • NVIDIA H100 80GB:
      • us-east5-a
    • NVIDIA L4:
      • europe-west3-b
      • europe-west6-b
    • NVIDIA A100 80 GB:
      • asia-southeast1-c
      • us-east4-c
      • us-east5-b
    • NVIDIA A100 40 GB:
      • us-east1-b
      • us-west1-b
      • us-west3-b
      • us-west4-b
    • NVIDIA T4:
      • europe-west3-b
      • southamerica-east1-c
      • us-west3-b
    • NVIDIA V100:
      • asia-east1-c
      • us-east1-c
    • NVIDIA P100:
      • australia-southeast1-c
      • europe-west4-a
    • NVIDIA K80:
      • us-west1-b
  • Compute Engine 支持在每个 GPU 上运行 1 个并发用户。

后续步骤