本指南介绍了如何使用日历模式下的未来预留功能来优化张量处理单元 (TPU) 配置。日历模式下的未来预留功能是一个内置的日历顾问和 Recommender,可帮助您找到 TPU 容量并提前做好规划。您可以针对特定开始时间和时长(1 到 90 天之间)请求容量,Recommender 会提供建议的日期。
本指南适用于机器学习 (ML) 工程师、平台管理员和运维人员,以及对使用 Kubernetes 容器编排功能运行批量工作负载感兴趣的数据和 AI 专家。如需详细了解我们在 Google Cloud 内容中提及的常见角色和示例任务,请参阅常见的 GKE 用户角色和任务。
如需了解详情,请参阅日历模式下的未来预留简介。
使用场景
日历模式下的未来预留最适合具有预定、短期、高需求请求的工作负载(例如训练)或者批量推理模型,这些模型需要在请求的开始时间具备高可用性。
如果您的工作负载要求根据需要动态预配资源(最多 7 天),而无需长期预留或复杂的配额管理,请考虑使用灵活启动。如需了解详情,请参阅使用灵活启动预配 GPU 和 TPU 简介。
准备工作
在开始之前,请确保您已执行以下任务:
- 启用 Google Kubernetes Engine API。 启用 Google Kubernetes Engine API
- 如果您要使用 Google Cloud CLI 执行此任务,请安装并初始化 gcloud CLI。 如果您之前安装了 gcloud CLI,请运行
gcloud components update
以获取最新版本。
- 确保您拥有以下任意一项:
- 运行 1.28.3-gke.1098000 版或更高版本的现有 Standard 集群。
- 运行 1.30.3-gke.1451000 版或更高版本的现有 Autopilot 集群。
在日历模式下为 TPU 请求未来预留
在日历模式下请求具有未来预留的 TPU 的流程包括以下步骤:
- 确保您有足够的配额用于创建虚拟机时不属于预留的任何资源,例如磁盘或 IP 地址。日历模式下的未来预留请求不需要 Compute Engine 配额。
- 完成在日历模式下创建请求中所述的步骤。这些步骤包括:
- 查看 TPU 的未来可用性
- 在日历模式下为 TPU 创建并提交未来预留请求。
- 等待 Google Cloud 批准您的请求。
- 创建使用预留的 TPU 节点池。
创建节点池
本部分仅适用于 Standard 集群。
您可以在创建单主机或多主机 TPU 切片节点池时使用预留。例如,您可以使用 Google Cloud CLI 创建单主机 TPU 切片节点池。
gcloud container node-pools create NODE_POOL_NAME \
--location=LOCATION \
--cluster=CLUSTER_NAME \
--node-locations=NODE_ZONES \
--machine-type=MACHINE_TYPE \
--reservation-affinity=specific \ This is required
--reservation=RESERVATION
替换以下内容:
NODE_POOL_NAME
:新节点池的名称。LOCATION
:基于您要使用的 TPU 版本的可用区名称。如需确定可用的位置,请参阅 GKE 中的 TPU 可用性。CLUSTER_NAME
:集群的名称。NODE_ZONES
:GKE 在其中创建节点池的一个或多个可用区的英文逗号分隔列表。MACHINE_TYPE
:用于节点的机器类型。如需详细了解与 TPU 兼容的机器类型,请使用选择 TPU 版本中的表。RESERVATION
:要使用的日历预留的名称。
如需查看您可以指定的所有标志的完整列表,请参阅 gcloud container clusters create
参考文档。
创建具有日历预留的节点池后,您可以像部署任何其他 TPU 节点池一样部署工作负载。例如,您可以创建一个作业,用于指定使用预留 TPU 的 TPU 节点池。
后续步骤
试用 GKE 部署示例,了解如何部署使用您预留的 TPU 资源的生成式 AI 模型:
在 GKE AI 实验室中探索利用 GKE 加速 AI/机器学习计划的实验性示例。