Compute Engine 提供了可添加到虚拟机的图形处理单元 (GPU)。您可以使用这些 GPU 加速虚拟机上的特定工作负载,例如机器学习和数据处理。
本文档简要介绍了创建挂接了 GPU 的虚拟机所需的步骤。
如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
选择 GPU 型号
如需查看可用的 GPU 型号列表,请参阅 GPU 平台。此外,记下所选 GPU 型号支持的机器类型。
对于每个型号,您可能还需要查看以下内容:
- 支持的区域和可用区。
- GPU 价格,了解在虚拟机上使用每个 GPU 型号的费用。对于使用加速器优化机器的虚拟机,另请参阅虚拟机实例价格。
- 查看具有 GPU 的虚拟机的限制。
选择操作系统
如果您要将 GPU 用于机器学习,则可以为虚拟机使用 Deep Learning VM Image 映像。每个 Deep Learning VM Image 映像都预安装了 GPU 驱动程序,并包含 TensorFlow 和 PyTorch 等软件包。您还可以将 Deep Learning VM Image 映像用于一般 GPU 工作负载。如需了解可用映像以及这些映像中安装的软件包,请参阅选择映像。 您还可以使用任何公共映像或自定义映像,但某些映像可能需要本文档未介绍的独特驱动程序或安装过程。
您必须确定哪些驱动程序适合您的操作系统映像。如需了解安装驱动程序的步骤,请参阅安装 GPU 驱动程序。
检查 GPU 配额
为了保护 Compute Engine 系统和用户,新项目会有一个 GPU 全球配额,该配额限制了您可在任何受支持可用区中创建的 GPU 总数。 如需查看 GPU 配额,请参阅 GPU 配额。
如果您需要额外的 GPU 配额,请申请增加配额。申请 GPU 配额时,您必须为要在每个区域中创建的 GPU 类型申请配额,并为所有可用区中所有类型的 GPU 总数另外申请一个全球配额。
如果您的项目已建立账单历史记录,那么在您提交申请后,项目将自动获得配额。
GPU 虚拟机和抢占式分配配额
使用默认标准预配模型的虚拟机的资源(标准虚拟机)通常不能使用抢占式分配配额,这些配额适用于临时工作负载,并且通常更可用。如果您的项目没有抢占式配额,并且您从未申请过抢占式配额,则该项目中的所有虚拟机都会使用标准分配配额。
但是,在您申请抢占式分配配额后,满足以下所有条件的标准虚拟机只能使用抢占式分配配额。
- 虚拟机已挂接 GPU。虚拟机可以是挂接了 GPU 的 N1 虚拟机,也可以是加速器优化虚拟机。
- 虚拟机已配置为在预定义的运行时间(7 天或更短时间)结束后通过以下方法之一自动删除:
- 使用
maxRunDuration
字段或terminationTime
字段。如需了解详情,请参阅限制虚拟机的运行时间或限制 MIG 中虚拟机的运行时间。 - 使用
requestedRunDuration
字段,该字段仅适用于托管式实例组 (MIG)。如需了解详情,请参阅关于调整 MIG 中的请求大小。
- 使用
- 不允许虚拟机使用预留。如需了解详情,请参阅创建虚拟机而不使用预留。
通过使用此类工作负载的抢占式分配配额,您既可以从标准虚拟机获得不间断运行时间,也可以从抢占式分配配额提高可获取性。
无论使用哪种配额,标准虚拟机都不享受 Spot 虚拟机价格,也不受抢占影响。
如需了解详情,请参阅抢占式配额。
创建挂接了 GPU 的虚拟机
如需创建挂接了 GPU 的虚拟机,请完成以下步骤:
创建虚拟机。用于创建虚拟机的方法取决于所选的 GPU 型号。
- 如需创建挂接了 NVIDIA H100、A100 或 L4 GPU 的虚拟机,请参阅创建加速器优化虚拟机。
- 如需创建挂接了 NVIDIA T4、P4、P100 或 V100 GPU 的虚拟机,请参阅创建挂接了 GPU 的 N1 虚拟机。
如需让虚拟机使用 GPU,您需要在虚拟机上安装 GPU 驱动程序。如果您启用了 NVIDIA RTX 虚拟工作站(以前称为 NVIDIA GRID),请为虚拟工作站安装驱动程序。
后续步骤
详细了解 GPU 平台。
详细了解使用 GPU 的功能和限制。
- 了解如何查看 GPU 的实际和预测用量。