如要設定 Vertex AI TensorBoard,必須符合下列條件:
- 建立具備必要權限的服務帳戶。
- 建立 Cloud Storage bucket,用於儲存 Vertex AI TensorBoard 記錄。
- 建立 Vertex AI TensorBoard 執行個體。
建立具備必要權限的服務帳戶
如要將 Vertex AI TensorBoard 與自訂訓練整合,必須附加服務帳戶。
建立服務帳戶:
gcloud --project=PROJECT_ID iam service-accounts create USER_SA_NAME
更改下列內容:
PROJECT_ID
:您要建立服務帳戶的專案 ID。USER_SA_NAME
:您要建立的服務帳戶專屬名稱。
Vertex AI Training Service 會使用這個新服務帳戶存取 Google Cloud 服務和資源。如有需要,請使用下列指令授予這些角色:
SA_EMAIL="USER_SA_NAME@PROJECT_ID.iam.gserviceaccount.com" gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:${SA_EMAIL}" \ --role="roles/storage.admin" gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:${SA_EMAIL}" \ --role="roles/aiplatform.user"
建立 Cloud Storage bucket 來儲存 Vertex AI TensorBoard 記錄
您必須建立 Cloud Storage 值區,才能儲存訓練指令碼產生的 Vertex AI TensorBoard 記錄。值區必須是地區值區,也就是不能是多地區或雙地區值區,且下列資源必須位於同一地區:
- Cloud Storage 值區
- Vertex AI 訓練工作
- Vertex AI TensorBoard 執行個體
您可以改用現有 bucket,不必按照這裡說明的步驟建立 bucket。使用現有 bucket 時,bucket 的位置必須與建立 Vertex AI TensorBoard 執行個體的位置相同。
GCS_BUCKET_NAME="PROJECT_ID-tensorboard-logs-LOCATION_ID"
gcloud storage buckets create "gs://${GCS_BUCKET_NAME}" --location=LOCATION_ID
將 LOCATION_ID 替換成您建立 Vertex AI TensorBoard 執行個體的所在位置,例如 us-central1
。
GCS_BUCKET_NAME
可用來透過 REST 建立自訂訓練工作。
建立 Vertex AI TensorBoard 執行個體
您必須先建立 Vertex AI TensorBoard 執行個體 (儲存 Vertex AI TensorBoard 實驗的區域化資源),才能以視覺化方式呈現實驗。有兩種做法。您可以選擇使用預設執行個體,或手動建立執行個體。您可以在專案和區域中建立多個執行個體,但大多數使用者只需要一個執行個體。
使用預設的 Vertex AI TensorBoard 執行個體
初始化 Vertex AI 實驗時,系統會自動建立預設的 TensorBoard 執行個體。這個支援的 TensorBoard 會與 Vertex AI 實驗建立關聯,並用於所有後續的 Vertex AI Experiments 執行作業。您可以直接從實驗擷取 tensorboard_resource_name
。這是最簡單的 Vertex AI TensorBoard 入門方式,應可滿足大多數使用者的需求。
Python 適用的 Vertex AI SDK
使用 Python 適用的 Vertex AI SDK,以預設執行個體建立 Vertex AI TensorBoard 實驗。從實驗中擷取 tensorboard_resource_name
。
請參閱 Vertex AI SDK 參考說明文件中的 init 和 Experiment。
Python
experiment_name
:實驗名稱。experiment_description
:實驗說明。project
:要在其中建立 TensorBoard 執行個體的專案PROJECT_ID
。location
:要在其中建立 TensorBoard 執行個體的位置。 Vertex AI TensorBoard 位於區域中。 請務必選取支援 Vertex AI TensorBoard 的區域。
手動建立 Vertex AI TensorBoard 執行個體
您可以手動建立 Vertex AI TensorBoard。這對於較熟悉 Google Cloud 控制台的使用者、需要啟用 CMEK 的 TensorBoard 使用者 (請參閱「CMEK」),或想要使用多個 TensorBoard 的使用者來說,都很有幫助。初始化 Vertex AI 實驗、啟動實驗執行作業或設定訓練程式碼時,可以直接指定這個執行個體。
Python 適用的 Vertex AI SDK
使用 Python 適用的 Vertex AI SDK 建立 Vertex AI TensorBoard 執行個體。
Python
project
:要在其中建立 TensorBoard 執行個體的專案PROJECT_ID
。display_name
:Vertex AI TensorBoard 執行個體的說明名稱。location
:要在其中建立 TensorBoard 執行個體的位置。 Vertex AI TensorBoard 位於區域中。 請務必選取支援 Vertex AI TensorBoard 的區域。
Google Cloud CLI
使用 Google Cloud CLI 建立 Vertex AI TensorBoard 執行個體。
- 安裝 gcloud CLI
- 執行
gcloud init
初始化 Google Cloud CLI。 - 如要確認安裝,請探索指令。
gcloud ai tensorboards --help
指令包括create
、describe
、list
、update
和delete
。如有需要,請按照這些步驟為專案和位置設定預設值,再繼續操作。
- 驗證 gcloud CLI。
gcloud auth application-default login
- 提供專案名稱和顯示名稱,建立 Vertex AI TensorBoard 執行個體。首次在專案中執行這個步驟時,可能需要幾分鐘才能完成。請記下下列指令結尾列印的 Vertex AI TensorBoard 執行個體名稱 (例如:
projects/123/locations/us-central1/tensorboards/456
)。後續步驟會用到這項資訊。
gcloud ai tensorboards create --display-name DISPLAY_NAME \ --project PROJECT_NAME
取代下列項目:
PROJECT_NAME
:要在其中建立 TensorBoard 執行個體的專案。DISPLAY_NAME
:TensorBoard 執行個體的說明名稱。
Google Cloud 控制台
如要加密 Vertex AI TensorBoard 資料,您必須在建立執行個體時啟用 CMEK 金鑰。
請按照下列步驟,使用 Google Cloud 控制台建立啟用 CMEK 的 Vertex AI TensorBoard 執行個體。
- 如果您是 Vertex AI 新手或要開始新專案,請設定專案和開發環境。
- 在 Google Cloud 控制台的 Vertex AI 專區中,前往「Experiments」頁面。
前往「實驗」頁面 - 前往「TensorBoard Instances」分頁。
- 按一下頁面頂端的「建立」。
- 從「Region」(區域) 下拉式清單中選取位置。
- (選用) 新增說明。
- (選用) 在「Encryption」(加密) 下方,選取「Customer-managed encryption key (CMEK)」(客戶管理的加密金鑰 (CMEK)),然後選取客戶管理的金鑰。
- 按一下「建立」,建立 TensorBoard 執行個體。
Terraform
下列範例使用 google_vertex_ai_tensorboard
Terraform 資源建立未加密的 Vertex AI TensorBoard 執行個體。
如要瞭解如何套用或移除 Terraform 設定,請參閱「基本 Terraform 指令」。
Terraform
刪除 TensorBoard 執行個體
刪除 TensorBoard 執行個體會一併刪除該 TensorBoard,以及所有相關聯的 TensorBoard 實驗和 TensorBoard 執行作業。系統不會刪除執行個體相關聯的 Vertex AI Experiments。
如要刪除 Vertex AI Experiments 和相關聯的 Vertex AI TensorBoard 實驗,請參閱「刪除實驗」。
Python 適用的 Vertex AI SDK
使用 Python 適用的 Vertex AI SDK 刪除 Vertex AI TensorBoard 執行個體。
Python
tensorboard_resource_name
:提供 TensorBoard 資源名稱。project
:TensorBoard 執行個體所在的PROJECT_ID
。location
:TensorBoard 執行個體所在的位置。
Google Cloud 控制台
請按照下列步驟,使用 Google Cloud 控制台刪除 Vertex AI TensorBoard 執行個體。
- 在 Google Cloud 控制台的 Vertex AI 專區中,前往「Experiments」頁面。
前往「實驗」頁面 - 選取「TensorBoard Instances」分頁標籤。系統會顯示 TensorBoard 執行個體清單。
- 選取 ,然後按一下「刪除」
相關字詞
許多範例都會參照「TensorBoard 資源名稱」和「TensorBoard 執行個體 ID」這兩個詞彙。
TensorBoard 資源名稱
TensorBoard 資源名稱用於完整識別 Vertex AI TensorBoard 執行個體。格式如下:
projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID
使用 gcloud CLI 或 Vertex AI SDK 建立 TensorBoard 資源時,系統會在記錄訊息中列印資源名稱,也可以提供適當的預留位置值來建立資源。
Python 適用的 Vertex AI SDK
您可以使用 Vertex AI SDK,從 Vertex AI Experiments 擷取 TensorBoard 資源名稱。
Python
experiment_name
:實驗名稱。project
:實驗的PROJECT_ID
。location
:實驗所在位置。
TensorBoard 執行個體 ID
TensorBoard 執行個體 ID 是與 TensorBoard 執行個體相關聯的產生 ID 值。如要找到 TENSORBOARD_INSTANCE_ID
,請前往控制台的 Vertex AI 專區,選取「實驗」頁面中的「TensorBoard 執行個體」 Google Cloud 分頁標籤。
您也可以從 TensorBoard 資源名稱擷取執行個體 ID。