在日曆模式中,要求預留未來的 TPU


本指南說明如何使用日曆模式的預約功能,最佳化 Tensor 處理單元 (TPU) 的佈建作業。日曆模式的未來預留功能是內建的日曆顧問和建議工具,可協助您尋找 TPU 容量並提前規劃。您可以要求特定開始時間和時長 (1 到 90 天) 的容量,推薦工具會提供建議日期。

本指南適用於機器學習 (ML) 工程師、平台管理員和操作員,以及有興趣使用 Kubernetes 容器自動化調度管理功能執行批次工作負載的資料和 AI 專家。如要進一步瞭解 Google Cloud 內容中提及的常見角色和範例工作,請參閱「常見的 GKE Enterprise 使用者角色和工作」。

詳情請參閱「日曆模式中的未來預留項目簡介」。

用途

在日曆模式下預訂未來時間,最適合有排程、短期、高需求的工作負載,例如訓練,或是在要求開始時間需要高可用性的批次推論模型。

如果工作負載需要視情況動態佈建資源,且最多 7 天,不需要長期預訂或複雜的配額管理,建議使用彈性啟動。詳情請參閱「關於使用彈性啟動功能佈建 GPU 和 TPU」。

事前準備

開始之前,請確認你已完成下列工作:

  • 啟用 Google Kubernetes Engine API。
  • 啟用 Google Kubernetes Engine API
  • 如要使用 Google Cloud CLI 執行這項工作,請安裝初始化 gcloud CLI。如果您先前已安裝 gcloud CLI,請執行 gcloud components update,取得最新版本。
  • 請確認您已備妥下列任一項目:

要求以日曆模式預留未來 TPU

如要以日曆模式預留 TPU,請按照下列步驟操作:

  1. 建立 VM 時,請確保您有足夠的配額,可供不屬於預留資源的任何資源使用,例如磁碟或 IP 位址。日曆模式的預訂要求不需要 Compute Engine 配額。
  2. 完成「在日曆模式中建立要求」一文中的步驟。這些步驟包括:
    1. 查看 TPU 未來適用資格。
    2. 在日曆模式中,建立及提交 TPU 的未來預留項目要求。
    3. 等待 Google Cloud 核准您的要求。
  3. 建立使用預訂項目的 TPU 節點集區。

建立節點集區

本節內容僅適用於標準叢集。

建立單一主機或多主機 TPU 節點集區時,可以使用保留項目。舉例來說,您可以使用 Google Cloud CLI 建立單一主機 TPU 節點集區

gcloud container node-pools create NODE_POOL_NAME \
    --location=LOCATION \
    --cluster=CLUSTER_NAME \
    --node-locations=NODE_ZONES \
    --machine-type=MACHINE_TYPE \
    --reservation-affinity=specific \ This is required
    --reservation=RESERVATION

更改下列內容:

  • NODE_POOL_NAME:新節點集區的名稱。
  • LOCATION:可用區名稱,取決於您要使用的 TPU 版本。如要找出可用位置,請參閱「GKE 中的 TPU 可用性」。
  • CLUSTER_NAME:叢集名稱。
  • NODE_ZONES:以半形逗號分隔的清單,列出 GKE 建立節點集區的一或多個區域。
  • MACHINE_TYPE:節點使用的機器類型。如要進一步瞭解與 TPU 相容的機器類型,請參閱「選擇 TPU 版本」一文中的表格。
  • RESERVATION:要使用的日曆預約名稱。

如要查看可指定的所有旗標完整清單,請參閱 gcloud container clusters create 參考資料。

使用日曆預約建立節點集區後,您就可以像使用其他 TPU 節點集區一樣部署工作負載。舉例來說,您可以建立 Job,指定要使用預留 TPU 的 TPU 節點集區。

後續步驟