本文档简要介绍创建挂接了图形处理器 (GPU) 的 Compute Engine 实例所需的步骤。您可以使用 GPU 来加速特定的工作负载,如机器学习和数据处理。
您还可以在 AI Hypercomputer 上使用一些 GPU 机器类型。AI Hypercomputer 是一种超级计算系统,经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。建议使用此选项来创建密集分配、性能优化的基础架构,并集成 Google Kubernetes Engine (GKE) 和 Slurm 调度器。
如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
选择 GPU 型号
如需查看可用的 GPU 型号列表,请参阅 GPU 平台。还要记下所选 GPU 型号支持的机器类型。
对于每个型号,您可能还需要查看以下内容:
限制
除了配备 GPU 的所有实例适用的一般性限制之外,挂接了 GPU 的每种机器系列还有以下特定限制:
A4 实例
A3 Ultra 实例
- 只能使用 A3 Ultra 机器类型支持的使用选项来请求容量。
- 使用 A3 Ultra 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Ultra 机器类型。
- 不能在使用 A3 Ultra 机器类型的实例上使用永久性磁盘(区域级或可用区级)。
- A3 Ultra 机器类型仅在 Emerald Rapids CPU 平台上提供。
- 不能将现有实例的机器类型更改为 A3 Ultra 机器类型;只能创建新的 A3 Ultra 实例。使用 A3 Ultra 机器类型创建实例后,便无法再更改机器类型。
- A3 Ultra 机器类型不支持单租户。
- 不能在 A3 Ultra 机器类型上运行 Windows 操作系统。
A3 Mega 实例
- 只能使用 A3 Mega 机器类型支持的使用选项来请求容量。
- 使用 A3 Mega 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Mega 机器类型。
- 不能在使用 A3 Mega 机器类型的实例上使用区域级永久性磁盘。
- A3 Mega 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 不能将现有实例的机器类型更改为 A3 Mega 机器类型;只能创建新的 A3 Mega 实例。使用 A3 Mega 机器类型创建实例后,便无法再更改机器类型。
- A3 Mega 机器类型不支持单租户。
- 不能在 A3 Mega 机器类型上运行 Windows 操作系统。
A3 High 实例
- 只能使用 A3 High 机器类型支持的使用选项来请求容量。
- 使用 A3 High 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 High 机器类型。
- 不能在使用 A3 High 机器类型的实例上使用区域级永久性磁盘。
- A3 High 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 不能将现有实例的机器类型更改为 A3 High 机器类型;只能创建新的 A3 High 实例。使用 A3 High 机器类型创建实例后,便无法再更改机器类型。
- A3 High 机器类型不支持单租户。
- 不能在 A3 High 机器类型上运行 Windows 操作系统。
- 对于
a3-highgpu-1g
、a3-highgpu-2g
和a3-highgpu-4g
机器类型,必须使用 Spot 虚拟机或通过利用动态工作负载调度器 (DWS) 的功能(例如 MIG 中的规模调整请求)来创建实例。如需详细了解任一选项,请查看以下内容:- 如需创建 Spot 虚拟机,请在创建加速器优化虚拟机时将预配模型设置为
SPOT
。 - 如需在 MIG 中创建使用 DWS 的规模调整请求,请参阅创建具有 GPU 虚拟机的 MIG。
- 如需创建 Spot 虚拟机,请在创建加速器优化虚拟机时将预配模型设置为
A3 Edge 实例
- 只能使用 A3 Edge 机器类型支持的使用选项来请求容量。
- 使用 A3 Edge 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A3 Edge 机器类型。
- 不能在使用 A3 Edge 机器类型的实例上使用区域级永久性磁盘。
- A3 Edge 机器类型仅在 Sapphire Rapids CPU 平台上提供。
- 不能将现有实例的机器类型更改为 A3 Edge 机器类型;只能创建新的 A3 Edge 实例。使用 A3 Edge 机器类型创建实例后,便无法再更改机器类型。
- A3 Edge 机器类型不支持单租户。
- 不能在 A3 Edge 机器类型上运行 Windows 操作系统。
A2 Standard 实例
- 只能使用 A2 Standard 机器类型支持的使用选项来请求容量。
- 使用 A2 Standard 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A2 标准机器类型。
- A2 标准机器类型仅在 Cascade Lake 平台上提供。
- 如果您的实例使用 A2 Standard 机器类型,则您只能从一种 A2 Standard 机器类型切换到另一种 A2 Standard 机器类型。您无法切换到任何其他机器类型。如需了解详情,请参阅修改加速器优化型实例。
- 不能将 Windows 操作系统与
a2-megagpu-16g
A2 Standard 机器类型搭配使用。如要使用 Windows 操作系统,请选择其他 A2 Standard 机器类型。 - 不能在使用 A2 Standard 机器类型的 Windows 实例上快速格式化挂接的本地 SSD。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。 - A2 标准机器类型不支持单租户。
A2 Ultra 实例
- 只能使用 A2 Ultra 机器类型支持的使用选项来请求容量。
- 使用 A2 Ultra 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在某些区域和可用区中使用 A2 Ultra 机器类型。
- A2 Ultra 机器类型仅在 Cascade Lake 平台上提供。
- 如果您的实例使用 A2 Ultra 机器类型,则不能更改机器类型。如果您需要使用其他 A2 Ultra 机器类型或任何其他机器类型,则必须创建新实例。
- 不能将任何其他机器类型更改为 A2 Ultra 机器类型。如果您需要使用 A2 Ultra 机器类型的实例,则必须创建新实例。
- 不能在使用 A2 Ultra 机器类型的 Windows 实例上快速格式化挂接的本地固态硬盘。如需设置这些本地 SSD 的格式,您必须使用 diskpart 实用程序并指定
format fs=ntfs label=tmpfs
设置,以进行完整格式化。
G4 实例
- 只能使用 G4 机器类型支持的使用选项来请求容量。
- 使用 G4 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在部分区域和可用区使用 G4 机器类型。
- 不能在使用 G4 机器类型的实例上使用永久性磁盘(区域级或可用区级)。
- G4 机器类型仅在 AMD EPYC Turin 第 5 代平台上提供。
- 只能创建按需实例。不支持预留、灵活启动或 Spot 虚拟机。如要开始使用 G4 实例,请与您的 Google 客户支持团队联系。
- 只能在
us-central1-b
中创建 G4 实例。 - 只能在采用 G4 机器类型的实例上使用 Hyperdisk Balanced 和 Hyperdisk Extreme 磁盘类型。
- 不能将承诺使用折扣应用于使用 G4 机器类型的实例。
- 不能创建使用 G4 机器类型的机密虚拟机实例。
- 不能在单租户节点上创建 G4 实例。
- 不能创建使用 NVIDIA RTX 虚拟工作站 (vWS) 的 G4 实例。
G2 实例
- 只能使用 G2 机器类型支持的使用选项来请求容量。
- 使用 G2 机器类型的实例不会获得持续使用折扣和灵活承诺使用折扣。
- 只能在部分区域和可用区使用 G2 机器类型。
- G2 机器类型仅在 Cascade Lake 平台上提供。
- 使用 G2 机器类型的实例不支持标准永久性磁盘 (
pd-standard
)。如需了解支持的磁盘类型,请参阅 G2 支持的磁盘类型。 - 不能在使用 G2 机器类型的实例上创建多实例 GPU。
- 如果您需要更改 G2 实例的机器类型,请查看修改加速器优化型实例。
- 不能将 Deep Learning VM Image 映像用作使用 G2 机器类型的实例的启动磁盘。
- Container-Optimized OS 的当前默认驱动程序不支持在 G2 机器类型上运行的 L4 GPU。此外,Container-Optimized OS 仅支持一组特定的驱动程序。如需在 G2 机器类型上使用 Container-Optimized OS,请查看以下说明:
- 使用支持推荐的最低 NVIDIA 驱动程序版本
525.60.13
或更高版本的 Container-Optimized OS 版本。如需了解详情,请查看 Container-Optimized OS 版本说明。 - 在安装驱动程序时,请指定适用于 L4 GPU 的最新可用版本。
例如
sudo cos-extensions install gpu -- -version=525.60.13
。
- 使用支持推荐的最低 NVIDIA 驱动程序版本
- 在以下情况下,必须使用 Google Cloud CLI 或 REST 创建 G2 实例:
- 您想要指定自定义内存值。
- 您想要自定义可见 CPU 核心数。
N1+GPU 实例
如需了解搭载了 GPU 的 N1 实例适用的限制,请参阅 N1 机器系列的特性和适用于 N1 机器系列的 GPU。
选择操作系统
如果您要将 GPU 用于机器学习,请使用以下任一操作系统:
针对 AI 工作负载进行了优化的映像。您可以使用 Ubuntu 和 Rocky 映像,这些映像有针对加速器进行了优化的版本,其中预安装了 NVIDIA 驱动程序和 CUDA 工具包。请参阅 AI Hypercomputer 文档中的操作系统映像。
Deep Learning VM Image 映像。每个深度学习虚拟机都具有 GPU 驱动程序安装工具,并包含 TensorFlow 和 PyTorch 等软件包。您还可以将 Deep Learning VM 映像用于一般 GPU 工作负载。如需详细了解可用映像以及这些映像上安装的软件包,请参阅 Deep Learning VM 文档中的选择映像。
或者,您也可以使用公共映像或自定义映像。对于大多数公共映像或自定义映像,您需要安装 NVIDIA 驱动程序和 CUDA 工具包。如需帮助确定哪些驱动程序适合您的 GPU 型号,请参阅安装 GPU 驱动程序。
检查 GPU 配额
为了保护 Compute Engine 系统和用户,新项目会有一个 GPU 全球配额,该配额限制了您可在任何受支持可用区中创建的 GPU 总数。 如需查看 GPU 配额,请参阅 GPU 配额。
如果您需要额外的 GPU 配额,请申请增加配额。申请 GPU 配额时,您必须为要在每个区域中创建的 GPU 类型申请配额,并为所有可用区中所有类型的 GPU 总数另外申请一个全球配额。
如果您的项目已建立账单历史记录,那么在您提交申请后,项目将自动获得配额。
GPU 实例和抢占式分配配额
使用标准预配模型的实例通常不能使用抢占式分配配额。抢占式配额适用于临时工作负载,通常能够提供更高的可用性。如果您的项目没有抢占式配额,并且您从未申请过抢占式配额,则项目中的所有实例都会使用标准分配配额。
如果您申请抢占式分配配额,则使用标准预配模型的实例必须满足以下所有条件,才能使用抢占式分配配额:
- 实例已挂接 GPU。
- 实例配置为在预定义的运行时间(通过
maxRunDuration
或terminationTime
字段指定)结束后自动删除。如需了解详情,请参阅以下内容: - 不允许实例使用预留。如需了解详情,请参阅阻止计算实例使用预留。
当您使用有时间限制的 GPU 工作负载的抢占式分配时,您既可以从不间断运行时间中受益,也可以从抢占式分配配额的高可获取性中受益。如需了解详情,请参阅抢占式配额。
创建挂接了 GPU 的实例
如需创建挂接了 GPU 的实例,请完成以下步骤:
创建实例。用于创建实例的方法取决于所选的 GPU 型号。
- 如需创建挂接了 NVIDIA B200 或 H200 GPU 的实例,请参阅创建 A3 Ultra 或 A4 实例。
- 如需创建挂接了 NVIDIA H100、A100 或 L4 GPU 的实例,请参阅创建 A3、A2 或 G2 实例。
- 如需了解如何开始使用挂接了 NVIDIA RTX PRO 6000 GPU 的 G4 实例,请与您的 Google 客户支持团队联系。
- 如需创建挂接了 NVIDIA T4、P4、P100 或 V100 GPU 的实例,请参阅创建挂接了 GPU 的 N1 实例。
若要让实例能够使用 GPU,您需要在实例上安装 GPU 驱动程序。如果您启用了 NVIDIA RTX 虚拟工作站(以前称为 NVIDIA GRID),请为虚拟工作站安装驱动程序。
后续步骤
详细了解 GPU 平台。
- 了解如何查看 GPU 的实际和预测用量。