設定 Cloud TPU 環境
您必須先完成下列步驟,才能使用 Cloud TPU 資源訓練模型或執行推論:
設定您的 Google Cloud 專案
您必須擁有 Google Cloud 帳戶和專案,才能使用 Cloud TPU。
- 在 Google Cloud 控制台中,登入 Google 帳戶或註冊新帳戶。 
- 建立 Google Cloud 專案。詳情請參閱「建立專案」。 
- 
所有 Google Cloud 用量都必須設定帳單。只有在開始使用 Google Cloud 資源後才需要付費。詳情請參閱 Cloud Billing 說明文件。 所有 Cloud TPU 版本的用量計費皆遵循 Cloud TPU 定價頁面所列的標準區域價格。 
- 安裝 Google Cloud CLI。Google Cloud CLI 是一套程式庫和工具,可用於存取及管理 Google Cloud 資源和服務。 
- 設定您在 Google Cloud CLI 中安裝的 - gcloud指令。- 執行下列指令,設定 - gcloud使用 Google Cloud專案。- $ gcloud config set project PROJECT_ID 
- 
所有 Google Cloud 用量都必須設定帳單。只有在開始使用 Google Cloud 資源後才需要付費。詳情請參閱 Cloud Billing 說明文件。 所有 Cloud TPU 版本的用量計費皆遵循 Cloud TPU 定價頁面所列的標準區域價格。 
設定環境以使用 Cloud TPU
在申請 Cloud TPU 之前,您必須啟用 Cloud TPU API,並確認自己有權限管理專案中的存取權,以及建立 Cloud TPU。建議您建立使用者自行管理的服務帳戶,並將其附加至 TPU。
- 從 Google Cloud 控制台啟用 Cloud TPU API,或在 Cloud Shell 中使用 gcloud CLI: - gcloud- $ gcloud services enable tpu.googleapis.com - 控制台- 在 Google Cloud 控制台中,前往 Cloud TPU API 頁面。
 - 按一下「啟用」。
 
- 請確認您在專案中具有下列角色: - 服務帳戶管理員:建立服務帳戶時需要此權限
- 專案 IAM 管理員:需要此角色才能在專案中授予角色
- TPU 管理員:建立 TPU 時需要使用
 - 請按照「查看目前存取權」中的指示,查看哪些使用者有權存取您的專案、資料夾或機構。如要查看自己的存取權,請在「Principal」欄中找出含有您電子郵件地址的資料列。如果您的電子郵件地址不在該欄中,表示您沒有任何角色。在含有電子郵件地址的資料列「角色」欄中,確認角色清單是否包含必要角色。 - 如果您沒有必要的角色,請授予角色,或請管理員授予角色。 
- 建立 Cloud TPU 服務代理: - 服務代理人是一種服務身分,由 Google 維護,可供 Cloud TPU 服務在您的 Google Cloud 專案中執行作業。舉例來說,服務代理程式可用於建立及管理 Cloud TPU 資源。 - $ gcloud beta services identity create --service tpu.googleapis.com --project PROJECT_ID 
- 建立 TPU 服務帳戶: - 服務帳戶可做為 TPU VM 的憑證。服務帳戶附加的角色會授予 Google Cloud 資源存取權。建議您使用使用者管理的服務帳戶,只授予 TPU VM 所需的權限。使用使用者自管服務帳戶時,您必須在使用 - --service-account標記建立 TPU VM 時指定該帳戶。- 請按照「建立服務帳戶」一節的操作說明,建立使用者管理的服務帳戶。 
- 請按照「管理專案、資料夾和機構的存取權」一文中的操作說明,授予服務帳戶存取 TPU 將存取的 Google Cloud 服務。建議您為 TPU 指派下列角色,以便存取常用的Google Cloud 服務。 - TPU 管理員:需要此權限才能完全存取 TPU 資源
- Storage 管理員:存取 Cloud Storage 時需要使用
- Logs Writer:使用 Logging API 寫入記錄時所需
- Monitoring 指標寫入者:用於將指標寫入 Cloud Monitoring
 
 
準備建立 Cloud TPU
建立 Cloud TPU 前,您必須先申請配額。您也應考慮使用排隊資源,以及要使用哪些參數來設定 TPU。
- 選擇消費選項。 - 消耗選項是用來要求 Cloud TPU 容量的方法。請根據下列因素選擇消費選項: - 需要容量的速度
- 需要容量多久
- 您需要的容量是否有固定或彈性的時間限制
- 是否可搶佔容量
- 定價
 - 詳情請參閱「Cloud TPU 消耗選項」。 
- 要求配額: - TPU 配額是指在Google Cloud 專案中可使用的 Cloud TPU 核心數量限制。每個 TPU 版本都會與專屬配額相關聯。如要建立 Cloud TPU, Google Cloud 專案必須針對您要建立的 TPU 版本和大小,以及建立 TPU 的區域,具備配額。如要進一步瞭解配額分配、配額類型,以及如何要求配額,請參閱「配額」。 - 如果您使用 Google Kubernetes Engine 或 Vertex AI 建立 TPU,則需要這些服務的配額。如要進一步瞭解 GKE 配額,請參閱「使用 GKE 規劃 TPU 設定」一文。如要進一步瞭解 Vertex AI 配額,請參閱「Vertex AI 配額和限制」。 
- 決定是否要使用排入佇列的資源。 - 最佳做法是建立 Cloud TPU 做為佇列資源。排隊資源可讓您在可用容量釋出後立即接收。您可以指定要填寫要求的選用開始和結束時間。 - 有不同的 gcloud CLI 指令可用於處理排入佇列的資源。詳情請參閱「佇列資源使用者指南」。 
- 決定 Cloud TPU 建立參數: - 區域:將 - --zone標記設定為要建立 TPU 的區域。您必須在這個區域中分配配額。詳情請參閱「TPU 地區和區域」。
- TPU 設定:如果您不需要指定自訂拓撲,或是使用 TPU v2 或 v3,請將 - --accelerator-type標記設為- vVERSION-TENSORCORES。將 VERSION 替換為您要使用的 TPU 版本號碼。將 TENSORCORES 替換為要使用的 TensorCore 數量。- 如果您想自訂 TPU 的實體拓撲,請使用 - --version和- --topology旗標。將- --version旗標設為要使用的 TPU 版本。將- --topology標記設為要使用的拓撲。- 如要進一步瞭解 TPU 設定 (包括支援的設定和拓撲變化版本),請參閱「TPU 版本」。 
- 軟體版本:如果您要求排隊資源,請將 - --runtime-version旗標設為要使用的軟體版本名稱。否則,請使用- --version旗標。TPU 軟體版本適用於 TensorFlow、PyTorch 和 JAX 架構。如要進一步瞭解支援的軟體版本,請參閱 TPU VM 軟體版本。
- 服務帳戶:如果您已建立服務帳戶,請將 - --service-account設為服務帳戶的電子郵件地址,以便將服務帳戶附加至 TPU。如果留空,系統會使用預設的 Compute Engine 服務帳戶。
- 配額類型:新增與要使用的配額類型相對應的標記: - 配額類型 - 旗標 - 預留 - --reserved- Spot VM - --spot- 可先占 (不適用於佇列資源,請改用 - --spot)- --preemptible- 隨選 - 不需要額外標記 
- 進階設定:您可以在要求中加入其他標記,以便設定 TPU。詳情請參閱 - gcloud compute tpus tpu-vm create說明文件和以下各節:
 
如需建立 Cloud TPU 的範例,請參閱「開始使用」一文。
後續步驟
- 瞭解如何建立及管理 VM 和 TPU 資源
- 執行 Cloud TPU 快速入門導覽課程