GKE 中 AI/机器学习工作负载的加速器使用选项简介


本页面介绍了可用于根据 AI/机器学习工作负载的要求获取计算加速器(例如 GPUTPU)的可用技术。在 GKE 中,这些技术称为加速器用量选项。了解不同的消费选项有助于您优化资源利用率,避免资源利用不足,提高获取资源的几率,并平衡成本和性能。

本页面适用于与机器学习 (ML) 工程师协调以获取成功部署 AI/ML 工作负载所需资源的平台管理员和运维人员。

如需详细了解我们在 Google Cloud 内容中提及的常见角色和示例任务,请参阅常见的 GKE 用户角色和任务

了解使用选项

您可以选择以下选项在 GKE 上使用加速器:

  • 按需:您可以在 GKE 上使用 TPU 或 GPU,而无需提前安排容量。在请求资源之前,您必须拥有足够的按需配额,以满足特定类型和数量的加速器需求。按需是最灵活的使用选项;不过,我们无法保证有足够的按需资源来满足您的请求。
  • 预留:您可以预留一段时间的资源。预留可以是以下任一类型:
    • 未来预留:您预留资源的时间通常较长,用于未来特定时间。在该时间段内,您可以独占使用预留的资源。如需预订未来的活动,您需要与技术支持客户经理 (TAM) 沟通。如需了解详情,请参阅 TPUGPU 指南。
    • 未来预留(最长 90 天,日历模式):您可以针对指定的时间段请求容量,日历顾问会建议可用的日期。未来预留(日历模式下)最长可预留 90 天,可为较短的预留期提供更大的灵活性,并支持自助式容量搜索。如需了解详情,请参阅日历模式下的未来预留请求
    • 按需预留:您可以请求在容量可用时立即预配按需预留,这与按需选项类似。在预留处于有效状态期间,无论您是否使用这些资源,都需要为其付费。
  • 灵活启动:您无需预留即可为短时工作负载预留密集分配的资源。您请求特定数量的 GPU 或 TPU,Compute Engine 会在容量可用时预配这些 GPU 或 TPU。GPU 或 TPU 最多可不间断运行 7 天。如需了解详情,请参阅灵活启动配置
  • Spot:您可预配 Spot 虚拟机,从而享受大幅折扣,但 Spot 虚拟机可能会随时被抢占,并且会提前 30 秒发出警告。如需了解详情,请参阅 Spot 虚拟机

了解 GKE 中的加速器配额

配额和系统限制会限制您对 Google Cloud 资源的使用,以确保所有 Google Cloud 用户都能使用资源。配额具有默认值,但您通常可以申请调整。系统限制是无法更改的固定值。默认情况下,项目通常不附带大量加速器配额。您必须申请并获得特定加速器类型和区域的配额批准。

在管理工作负载所需的配额时,请考虑以下特征:

  • 您必须为每种消费选项申请所需的配额。如需确定每种消费选项所需的配额,请参阅选择消费选项表格中列出的相应“配额”参数。 如果配额不足,尝试创建集群、节点池或部署需要加速器的工作负载将会失败,并显示 Quota exceeded 错误。

  • 在 Autopilot 中使用自定义计算类时,您必须申请配额。为满足计算类要求而预配的节点仍会消耗项目针对指定加速器的配额。

  • Google Cloud 免费试用账号在申请增加 GPU 和 TPU 等高价值资源的配额方面存在限制。如需使用加速器配额,请升级为付费账号。

如需查看和申请配额,请前往 Google Cloud 控制台中的“配额”页面。您可以过滤加速器配额并申请增加配额。

选择使用选项

请考虑以下因素,为您的 AI/机器学习工作负载选择最佳使用选项:

  • 工作负载类型:考虑您要实现的工作负载类型。 如果您运行的是训练工作负载或推理工作负载,GKE 要求会有所不同:
    • 训练:需要具有大量内存的高性能资源。训练工作负载通常具有明确定义的生命周期。这些工作负载通常更容易规划,因为它们不太容易出现资源消耗突然飙升的情况。
    • 推理:通常需要针对可伸缩性和更低成本进行优化的加速器。推理工作负载在资源消耗突然飙升期间可能需要大量加速器内存。
  • 基于实施阶段的生命周期:如果您正在执行概念验证 (POC)、平台评估、应用开发或测试、生产化或优化,请考虑您的业务目标。
  • 预配时间:确定工作负载是否需要立即执行,或者是否可以在将来运行。如果可以安排在未来执行,请确定开始时间可以有多灵活。
  • 平衡成本与性能:评估工作负载性能要求和预算限制,以选择最具成本效益的加速器。考虑加速器的成本与其性能特征之间的权衡。请注意,新加速器可能会带来更高的性价比。

请使用下表选择一种消费选项:

工作负载类型 预配时间 有效期 推荐的消费选项
  • 长时间运行的大规模工作负载,例如预训练基础模型或多主机推理。
  • 生产环境工作负载。
立即(已获批准的预订) 长期(每次预订)

如果您想使用任何 GPU(A4X、A4 或 A3 Ultra 除外)或任何 TPU,请使用按需预留

  • 费用:您需要支付整个预订期的费用。
  • 配额:在交付容量之前,配额会自动增加。

如果您想使用 G2、A2、A3 High 或 A3 Mega 加速器,请使用未来预留

  • 费用:您需要支付整个预订期的费用。
  • 配额:在交付容量之前,配额会自动增加。
  • 需要精确开始时间的短时运行分布式工作负载,例如模型微调、模拟或批量推理。
  • 用于平台评估、基准比较或优化测试的工作负载。
立即(已获批准的预订) 最长 90 天

未来预留(最多 90 天,在日历模式下)

  • 费用:折扣价(最高可省 53%)。您需要支付预订期限的费用。
  • 配额:不收取配额费用。
  • 支持的加速器:A4、A3 Ultra、TPU v5e、TPU v5p、TPU Trillium。
  • 开始时间灵活的批处理工作负载,例如小型模型训练、微调或可扩缩的推理。
  • 用于 POC 或集成测试的工作负载。
点播(奖励有限,送完即止) 每次分配最多 7 天

灵活启动预配模式

  • 费用:折扣价(最高可省 53%)。随用随付。
  • 配额:系统会收取 GPU 抢占式配额TPU 抢占式配额的费用。
  • 支持的加速器:除 A4X 之外的所有 GPU 系列。所有 TPU 版本。
  • 优先级较低的容错工作负载,例如 CI/CD、数据分析或高性能计算 (HPC)。
  • 高度可中断的工作负载。
点播(奖励有限,送完即止) 可变,可提前 30 秒发出抢占警告

Spot 虚拟机

  • 费用:折扣力度很大(60-91%)。随用随付。
  • 配额:系统会扣减 GPU 抢占式配额TPU 抢占式配额
  • 支持的加速器:除 A4X 之外的所有 GPU 系列。所有 TPU 版本。
  • 需要立即执行的通用工作负载。
立即(奖励有限,送完即止) 无限制

按需(GPUTPU

  • 费用:随用随付。
  • 配额:系统会收取 GPUTPU 按需配额的费用。
  • 支持的加速器:除 A4X、A4 或 A3 Ultra 以外的所有 GPU 系列。所有 TPU 版本。

后续步骤