本指南說明如何使用日曆模式的預約功能,最佳化 Tensor 處理單元 (TPU) 的佈建作業。日曆模式的未來預留功能是內建的日曆顧問和建議工具,可協助您尋找 TPU 容量並提前規劃。您可以要求特定開始時間和時長 (1 到 90 天) 的容量,推薦工具會提供建議日期。
本指南適用於機器學習 (ML) 工程師、平台管理員和操作員,以及有興趣使用 Kubernetes 容器自動化調度管理功能執行批次工作負載的資料和 AI 專家。如要進一步瞭解 Google Cloud 內容中提及的常見角色和範例工作,請參閱「常見的 GKE Enterprise 使用者角色和工作」。
詳情請參閱「日曆模式中的未來預留項目簡介」。
用途
在日曆模式下預訂未來時間,最適合有排程、短期、高需求的工作負載,例如訓練,或是在要求開始時間需要高可用性的批次推論模型。
如果工作負載需要視情況動態佈建資源,且最多 7 天,不需要長期預訂或複雜的配額管理,建議使用彈性啟動。詳情請參閱「關於使用彈性啟動功能佈建 GPU 和 TPU」。
事前準備
開始之前,請確認你已完成下列工作:
- 啟用 Google Kubernetes Engine API。 啟用 Google Kubernetes Engine API
- 如要使用 Google Cloud CLI 執行這項工作,請安裝並初始化 gcloud CLI。如果您先前已安裝 gcloud CLI,請執行
gcloud components update
,取得最新版本。
- 請確認您已備妥下列任一項目:
- 執行 1.28.3-gke.1098000 以上版本的現有標準叢集。
- 執行 1.30.3-gke.1451000 以上版本的現有 Autopilot 叢集。
要求以日曆模式預留未來 TPU
如要以日曆模式預留 TPU,請按照下列步驟操作:
- 建立 VM 時,請確保您有足夠的配額,可供不屬於預留資源的任何資源使用,例如磁碟或 IP 位址。日曆模式的預訂要求不需要 Compute Engine 配額。
- 完成「在日曆模式中建立要求」一文中的步驟。這些步驟包括:
- 查看 TPU 未來適用資格。
- 在日曆模式中,建立及提交 TPU 的未來預留項目要求。
- 等待 Google Cloud 核准您的要求。
- 建立使用預訂項目的 TPU 節點集區。
建立節點集區
本節內容僅適用於標準叢集。
建立單一主機或多主機 TPU 節點集區時,可以使用保留項目。舉例來說,您可以使用 Google Cloud CLI 建立單一主機 TPU 節點集區。
gcloud container node-pools create NODE_POOL_NAME \
--location=LOCATION \
--cluster=CLUSTER_NAME \
--node-locations=NODE_ZONES \
--machine-type=MACHINE_TYPE \
--reservation-affinity=specific \ This is required
--reservation=RESERVATION
更改下列內容:
NODE_POOL_NAME
:新節點集區的名稱。LOCATION
:可用區名稱,取決於您要使用的 TPU 版本。如要找出可用位置,請參閱「GKE 中的 TPU 可用性」。CLUSTER_NAME
:叢集名稱。NODE_ZONES
:以半形逗號分隔的清單,列出 GKE 建立節點集區的一或多個區域。MACHINE_TYPE
:節點使用的機器類型。如要進一步瞭解與 TPU 相容的機器類型,請參閱「選擇 TPU 版本」一文中的表格。RESERVATION
:要使用的日曆預約名稱。
如要查看可指定的所有旗標完整清單,請參閱 gcloud container clusters create
參考資料。
使用日曆預約建立節點集區後,您就可以像使用其他 TPU 節點集區一樣部署工作負載。舉例來說,您可以建立 Job,指定要使用預留 TPU 的 TPU 節點集區。
後續步驟
試用生成式 AI 模型適用的 GKE 部署範例,這些模型會使用您預留的 TPU 資源:
在 GKE AI Labs 中探索實驗性範例,瞭解如何運用 GKE 加速 AI/機器學習計畫。