本頁面由 Cloud Translation API 翻譯而成。

在日曆模式中，要求預留未來的 TPU

自動駕駛標準

本指南說明如何使用日曆模式的預約功能，最佳化 Tensor 處理單元 (TPU) 的佈建作業。日曆模式的預留功能內建日曆顧問和建議工具，可協助您尋找 TPU 運算資源並提前規劃。您可以要求在指定開始時間和 1 到 90 天的期間內提供容量，推薦工具會提供建議日期。

本指南適用於機器學習 (ML) 工程師、平台管理員和操作員，以及有興趣使用 Kubernetes 容器自動化調度管理功能執行批次工作負載的資料和 AI 專家。如要進一步瞭解 Google Cloud 內容中提及的常見角色和範例工作，請參閱「常見的 GKE 使用者角色和工作」。

詳情請參閱「日曆模式中的未來預留項目簡介」。

用途

在日曆模式下預訂未來資源，最適合有排程、短期且需求量高的工作負載，例如訓練或批次推論模型，這類工作負載需要在要求開始時間提供高可用性。

如果工作負載需要視情況動態佈建資源，且時間不超過 7 天，不需要長期預訂或複雜的配額管理，建議使用彈性啟動消耗量選項。詳情請參閱「關於使用彈性啟動功能佈建 GPU 和 TPU」。

事前準備

開始之前，請確認您已完成下列工作：

啟用 Google Kubernetes Engine API。

啟用 Google Kubernetes Engine API

如要使用 Google Cloud CLI 執行這項工作，請安裝並初始化 gcloud CLI。如果您先前已安裝 gcloud CLI，請執行 gcloud components update 指令，取得最新版本。較舊的 gcloud CLI 版本可能不支援執行本文件中的指令。
注意：如果是現有的 gcloud CLI 安裝項目，請務必設定 compute/region 屬性。如果您主要使用區域叢集，請改為設定 compute/zone。設定預設位置後，即可避免 gcloud CLI 發生下列錯誤：One of [--zone, --region] must be supplied: Please specify location。如果叢集位置與您設定的預設位置不同，您可能需要在特定指令中指定位置。

請確認你已備妥下列任一項目：
- 執行 1.28.3-gke.1098000 以上版本的現有標準叢集。
- 執行 1.30.3-gke.1451000 以上版本的現有 Autopilot 叢集。

要求 TPU 的日曆模式未來預留項目

如要以日曆模式預留 TPU，請按照下列步驟操作：

建立 VM 時，請確保您有足夠的配額，可供不屬於預留資源的任何資源使用，例如磁碟或 IP 位址。日曆模式的預訂要求不需要 Compute Engine 配額。
完成「在日曆模式中建立要求」一文中的步驟。這些步驟包括：
1. 查看 TPU 未來適用資格。
2. 在日曆模式中，建立及提交 TPU 的未來預留項目要求。
3. 等待 Google Cloud 核准要求。
建立使用預訂項目的 TPU 節點集區。

建立節點集區

本節內容僅適用於標準叢集。

建立單一主機或多主機 TPU 節點集區時，可以使用保留項目。舉例來說，您可以使用 Google Cloud CLI 建立單一主機 TPU 節點集區。

gcloud container node-pools create NODE_POOL_NAME \
    --location=LOCATION \
    --cluster=CLUSTER_NAME \
    --node-locations=NODE_ZONES \
    --machine-type=MACHINE_TYPE \
    --reservation-affinity=specific \ This is required
    --reservation=RESERVATION

更改下列內容：

NODE_POOL_NAME：新節點集區的名稱。
LOCATION：可用區名稱，取決於您要使用的 TPU 版本。如要找出可用位置，請參閱「GKE 中的 TPU 可用性」。
CLUSTER_NAME：叢集名稱。
NODE_ZONES：以半形逗號分隔的清單，列出 GKE 建立節點集區的一或多個區域。
MACHINE_TYPE：節點使用的機器類型。如要進一步瞭解與 TPU 相容的機器類型，請參閱「選擇 TPU 版本」一文中的表格。
RESERVATION：要使用的日曆預約名稱。

如要查看可指定的所有旗標完整清單，請參閱 gcloud container clusters create 參考資料。

使用日曆預約建立節點集區後，您就可以像使用其他 TPU 節點集區一樣部署工作負載。舉例來說，您可以建立工作，指定要使用預留 TPU 的 TPU 節點集區。

後續步驟

試用生成式 AI 模型的 GKE 部署範例，這些範例會使用您預留的 TPU 資源：
在 GKE AI Labs 中探索實驗性範例，瞭解如何運用 GKE 加速 AI/機器學習計畫。