GPU 简介


您可以将图形处理单元 (GPU) 挂接到虚拟机 (VM) 实例以加速 Compute Engine 上的特定工作负载。

本文档介绍了在 Compute Engine 上运行的 GPU 的功能和限制。

GPU 和机器系列

N1 通用和加速器优化(A3、A2 和 G2)机器系列支持 GPU。对于使用 N1 机器类型的虚拟机,您可以在虚拟机创建期间或之后将 GPU 挂接到虚拟机。对于使用 A3、A2 或 G2 机器类型的虚拟机,系统会在您创建虚拟机时自动挂接 GPU。GPU 不能与其他机器系列搭配使用。

加速器优化机器系列

每种加速器优化机器类型都挂接了特定型号的 NVIDIA GPU。

如需了解详情,请参阅加速器优化机器系列

N1 通用机器系列

对于所有其他 GPU 类型,您可以使用大多数 N1 机器类型(N1 共享核心机器类型除外)。

对于此机器系列,您可以使用预定义自定义机器类型。

抢占式实例上的 GPU

您可以按较低的 GPU spot 价格将 GPU 添加到抢占式虚拟机实例。挂接到抢占式实例的 GPU 在工作方式上类似于普通 GPU,但只会在实例的生命周期内保留。搭载 GPU 的抢占式实例遵循与所有抢占式实例相同的抢占过程

考虑申请将专用 Preemptible GPU 配额用于抢占式实例上的 GPU。如需了解详情,请参阅抢占式虚拟机实例的配额

在维护事件发生时,挂接了 GPU 的抢占式实例会默认被抢占,并且无法自动重启。如果您要在实例被抢占后重新创建这些实例,请使用托管实例组。如果 vCPU、内存和 GPU 资源可用,则托管实例组将重新创建您的实例。

如果您希望在实例被抢占前收到警告,或者想要将实例配置为在维护事件发生后自动重启,请使用具有 GPU 的标准实例。对于具有 GPU 的标准实例,Google 会在抢占前提前一小时发出通知

如果 GPU 所属的实例在开始运行后的第一分钟被抢占,则 Compute Engine 不会针对这些 GPU 向您收费。

如需了解自动重启标准实例的步骤,请参阅更新实例对应的选项

如需了解如何创建挂接 GPU 的抢占式实例,请参阅创建挂接 GPU 的虚拟机

GPU 和机密虚拟机

您不能将 GPU 挂接到机密虚拟机实例。如需详细了解机密虚拟机,请参阅机密计算概念

GPU 与主机维护

在发生主机维护事件时,挂接 GPU 的虚拟机无法实时迁移且必须停止。通常,这些维护事件每两周发生一次。但在必要时可能会更频繁地发生。如需了解如何处理维护事件,请参阅处理 GPU 主机维护事件

GPU 和块存储

您可以将本地 SSD 添加到挂接了 GPU 的虚拟机。如需不同 GPU 类型和区域的本地 SSD 支持列表,请参阅 GPU 区域和可用区的本地 SSD 可用性

GPU 价格

与 vCPU 类似,大多数挂接了 GPU 的虚拟机均可享受持续使用折扣。当您为虚拟工作站选择 GPU 时,系统会为您的虚拟机添加 NVIDIA RTX 虚拟工作站许可。

请参阅 GPU 价格页面,了解 GPU 的每小时价格和每月价格。

预留可享受承诺使用折扣的 GPU

如需预留特定可用区中的 GPU 资源,请参阅预留 Compute Engine 可用区级资源

若要获得特定可用区中 GPU 的承诺使用折扣,您必须为 GPU 购买基于资源的承诺,并将指定匹配 GPU 的预留附加到您的承诺。如需了解详情,请参阅将预留附加到基于资源的承诺

GPU 限制和局限

对于挂接了 GPU 的虚拟机,需遵守以下限制和局限:

  • 如果要将 NVIDIA K80 GPU 与虚拟机搭配使用,虚拟机不能使用 Intel Skylake 或更高版本的 CPU 平台。

  • GPU 目前仅受通用 N1 或加速器优化(A3、A2 和 G2)机器类型支持。

  • 为了保护 Compute Engine 系统和用户,新项目设置具有 GPU 全球配额,这限制了您可以在任何支持的地区中创建的 GPU 总数。申请 GPU 配额时,您必须为要在每个区域中创建的 GPU 模型申请一个配额,并为所有地区中所有类型的 GPU 总数另外申请一个全球配额。

  • 如果虚拟机挂接了一个或多个 GPU,那么您添加到实例的每个 GPU 都可以配备最多数量的 vCPU。例如,每个 NVIDIA K80 GPU 可让您为实例机器类型配备最多八个 vCPU 和高达 52 GB 的内存。要查看不同 GPU 配置的可用 vCPU 和内存范围,请参阅 GPU 列表

  • GPU 需要设备驱动程序才能正常工作。在 Compute Engine 上运行的 NVIDIA GPU 有最低驱动程序版本的限制。如需详细了解驱动程序版本,请参阅所需的 NVIDIA 驱动程序版本

  • 对于挂接了特定 GPU 模型的虚拟机,仅当挂接的 GPU 型号为正式版并且同一区域中的多个可用区均支持该 GPU 模型时,该虚拟机才在 Compute Engine 服务等级协议 (SLA) 的涵盖范围内。Compute Engine 服务等级协议 (SLA) 未涵盖以下可用区的 GPU 型号:

    • NVIDIA H100 80GB:
      • us-east5-a
    • NVIDIA L4:
      • europe-west3-b
      • europe-west6-b
    • NVIDIA A100 80 GB:
      • asia-southeast1-c
      • us-east4-c
      • us-east5-b
    • NVIDIA A100 40 GB:
      • us-east1-b
      • us-west1-b
      • us-west3-b
      • us-west4-b
    • NVIDIA T4:
      • europe-west3-b
      • southamerica-east1-c
      • us-west3-b
    • NVIDIA V100:
      • asia-east1-c
      • us-east1-c
    • NVIDIA P100:
      • australia-southeast1-c
      • europe-west4-a
    • NVIDIA K80:
      • us-west1-b
  • Compute Engine 支持在每个 GPU 上运行 1 个并发用户。

后续步骤