排解 Vertex AI 問題

本頁面說明實用的疑難排解步驟,協助您解決使用 Vertex AI 時遇到的問題。

部分 Vertex AI 元件的疑難排解步驟會另外列出。請參閱以下資訊:

如要篩選這個頁面的內容,請按一下主題:

AutoML 模型

本節說明 AutoML 問題的疑難排解步驟,或許有所助益。

測試集、驗證集或訓練集中缺少標籤

問題

使用預設資料分割方式訓練 AutoML 分類模型時,Vertex AI 可能會將某個類別的執行個體分配到特定集合 (測試、驗證或訓練) 的數量過少,導致訓練期間發生錯誤。如果類別不平衡或訓練資料量較少,就更容易發生這個問題。

解決方案

如要解決這個問題,請新增更多訓練資料、手動分割資料,為每個資料集指派足夠的類別,或是從資料集中移除較少出現的標籤。詳情請參閱「AutoML 模型資料分割作業簡介」。

Vertex AI Studio

使用 Vertex AI Studio 時,您可能會收到下列錯誤訊息:

嘗試調整模型會傳回 Internal error encountered

問題

嘗試微調模型時發生 Internal error encountered 錯誤。

解決方案

執行下列 curl 指令,建立空白的 Vertex AI 資料集。 請務必在指令中設定專案 ID。

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

指令完成後,請等待五分鐘,然後再次嘗試調整模型。

錯誤代碼:429

問題

您會遇到下列錯誤:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

解決方案

請稍後再試,並採用指數輪詢機制。如果錯誤持續發生,請與 Vertex AI 支援團隊聯絡。

錯誤代碼:410

問題

您會遇到下列錯誤:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

解決方案

詳情請參閱「驗證總覽」。

錯誤代碼:403

問題

您會遇到下列錯誤:

403: Permission denied.

解決方案

確認存取 API 的帳戶具備適當權限。

Vertex AI Pipelines

本節說明實用的疑難排解步驟,解決 Vertex AI Pipelines 問題。

您沒有以服務帳戶身分執行操作的權限

問題

執行 Vertex AI Pipelines 工作流程時,您可能會遇到下列錯誤訊息:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

解決方案

這項錯誤表示執行工作流程的服務帳戶無法存取所需資源。

如要解決這個問題,請嘗試下列其中一種方法:

  • Vertex AI Service Agent 角色新增至服務帳戶。
  • 授予使用者服務帳戶的 iam.serviceAccounts.actAs 權限。

錯誤 Internal error happened

問題

如果管道失敗並顯示 Internal error happened 訊息,請檢查記錄檔探索工具並搜尋管道名稱。您可能會看到類似下列的錯誤:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

這表示 Vertex AI 的 VPC 對等互連包含已刪除的 IP 範圍。

解決方案

如要解決這個問題,請使用 update 指令更新 VPC 對等互連,並加入有效的 IP 範圍。

提供的 OAuth 範圍或 ID 權杖目標對象無效

問題

執行 Vertex AI Pipelines 工作流程時,您會看到下列錯誤訊息:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

解決方案

也就是說,您未在其中一個管道元件中提供憑證,或未使用 ai_platform.init() 設定憑證。

如要解決這個問題,請為相關管道元件設定憑證,或設定環境憑證,並在程式碼開頭使用 ai_platform.init()

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Vertex AI Pipelines 元件需要的磁碟空間超過 100 GB

問題

分配給 Vertex AI Pipelines 元件的預設磁碟空間為 100 GB,且不支援增加磁碟空間。如要瞭解這個問題,請參閱公開 Issue Tracker

解決方案

如要讓元件使用超過 100 GB 的磁碟空間,請使用 components 方法將元件轉換為自訂工作。使用這個運算子,您可以指派元件使用的機器類型和磁碟大小。

如需如何使用這個運算子的範例,請參閱「將元件轉換為 Vertex AI 自訂工作」一節中的「Vertex AI Pipelines:使用預建管道元件進行自訂訓練 Google Cloud 」。

Vertex AI 網路問題

本節說明疑難排解步驟,解決 Vertex AI 網路相關問題。

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

使用 Vertex AI 的私用公開 IP 範圍時,工作負載無法存取虛擬私有雲網路中的端點

問題

預設不會匯入私人使用的公開 IP 範圍。

解決方案

如要使用私人使用的公開 IP 範圍,您必須啟用私人使用的公開 IP 範圍匯入功能

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

問題

執行工作負載或部署端點時,您會收到 com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project 形式的錯誤。

當您變更工作負載的私人服務存取權預留項目時,就會發生這種情況。系統可能未透過 Vertex AI API 註冊任何已刪除的範圍。

解決方案

更新私人服務存取權分配後,請執行 gcloud services vpc-peerings update for servicenetworking

管道或工作無法存取對等互連虛擬私有雲網路中的端點

問題

Vertex AI 管道嘗試連線至虛擬私有雲網路中的資源時逾時。

解決方案

請嘗試下列方法解決問題:

  • 確認您已完成「設定虛擬私有雲網路對等互連」中的所有步驟。
  • 檢查對等互連虛擬私有雲網路的設定。請確保網路在作業執行期間,從正確的服務網路範圍匯入路徑。

    前往「VPC Network Peering」(虛擬私有雲網路對等互連)

  • 確認您有防火牆規則,允許從這個範圍連線至網路中的目標。

  • 如果對等互連連線在工作執行期間未匯入任何路徑,表示系統未使用服務網路設定。這可能是因為您使用預設網路以外的網路完成對等互連設定。如果是這種情況,請務必在啟動工作時指定網路。請使用完整網路名稱,格式如下:projects/$PROJECT_ID/global/networks/$NETWORK_NAME

    詳情請參閱路徑總覽

管道或作業無法存取網路以外的其他網路端點

問題

管道或工作無法存取網路以外的網路端點。

解決方案

根據預設,對等互連設定只會將路徑匯出至虛擬私有雲中的本機子網路。

此外,系統不支援遞移對等互連,只有直接對等互連網路可以通訊。

  • 如要允許 Vertex AI 透過您的網路連線,並連上其他網路中的端點,您必須將網路路徑匯出至對等互連連線。編輯對等互連虛擬私有雲網路的設定,並啟用 Export custom routes

前往「VPC Network Peering」(虛擬私有雲網路對等互連)

由於系統不支援遞移對等互連,即使啟用 Export Custom Routes,Vertex AI 也不會瞭解其他對等互連網路和服務的路徑。如需解決方法,請參閱「擴展 Vertex AI Pipelines 的網路可連線範圍」。

No route to host,但 Google Cloud 控制台顯示沒有路徑衝突

問題

您在 Google Cloud 控制台中看到的路由,只會是您自己的虛擬私有雲所知的路由,以及完成 VPC 網路對等互連設定時保留的範圍。

在極少數情況下,Vertex AI 工作嘗試連線至虛擬私有雲匯出至 Vertex AI 網路的 IP 位址時,可能會擲回 no route to host 投訴。

這可能是因為 Vertex AI 工作是在受管理 GKE 叢集的網路命名空間中執行,而該叢集的 IP 範圍與目標 IP 衝突。如要進一步探討,請參閱 GKE 網路基本概念

在這些情況下,工作負載會嘗試連線至自身網路命名空間內的 IP,如果無法連線,就會擲回錯誤。

解決方案

製作工作負載,傳回其本機命名空間 IP 位址,並確認這不會與您透過對等互連連線匯出的任何路徑衝突。如有衝突,請在工作參數中傳遞 reservedIpRanges[] 清單,該清單不得與虛擬私有雲網路中的任何範圍重疊。這項工作會使用這些範圍做為工作負載的內部 IP 位址。

RANGES_EXHAUSTEDRANGES_NOT_RESERVED

問題

RANGES_EXHAUSTEDRANGES_NOT_RESERVEDRANGES_DELETED_LATER 形式的錯誤表示基礎虛擬私有雲網路對等互連設定有問題。這些是網路錯誤,並非 Vertex AI 服務本身的錯誤。

解決方案

遇到 RANGES_EXHAUSTED 錯誤時,請先確認這項申訴是否有效。

  • 前往 Cloud 控制台的「網路分析器」,在虛擬私有雲網路中尋找「IP 位址分配摘要」形式的洞察資訊。如果這些指標顯示分配量已達或接近 100%,您可以為預留項目新增範圍
  • 此外,請考量可透過特定大小的預留項目執行的平行工作數量上限

詳情請參閱「服務基礎架構驗證錯誤」。

如果錯誤持續發生,請與支援團隊聯絡

Router status is temporarily unavailable

問題

啟動 Vertex AI Pipelines 時,您會收到類似以下的錯誤訊息:

Router status is temporarily unavailable. Please try again later

解決方案

錯誤訊息指出這是暫時性狀況。請嘗試再次啟動 Vertex AI Pipelines。

如果錯誤持續發生,請與支援團隊聯絡

工作負載無法解析虛擬私有雲中 DNS 網域的主機名稱

問題

Vertex AI 工作負載無法連線至虛擬私有雲中設定的主機名稱。 您已確認可從虛擬私有雲內的用戶端存取這些主機名稱。

這是因為工作負載是在 Google 代管的專案中執行。這個受管理環境中的虛擬私有雲必須與您的虛擬私有雲對等互連,才能使用任何網路資源。此外,這些工作負載需要存取的任何 DNS 區域,都必須與 Google 管理的 VPC 專屬共用。

解決方案

  • 確認您已在虛擬私有雲網路中為 Vertex AI 設定虛擬私有雲網路對等互連
  • 完成共用私人 DNS 區域的步驟,與 Vertex AI 供應商網路共用。
  • 請確認啟動 Vertex AI 工作負載時,已使用 --network 旗標指定虛擬私有雲網路。這樣一來,這些資源就能在 Google 管理的網路中執行,並存取您共用的 DNS 區域。

用戶端行為導致連線問題

如果嘗試使用 API 時發生連線問題,可能是用戶端的問題。 Google Cloud 本節提供用戶端解決方案建議,可協助您提升體驗。

連線重設和捨棄的封包

問題

嘗試使用 Google Cloud API 時,連線會重設,封包也會遺失。

解決方案

如要解決這個問題,請考慮下列事項:

  • 如果交易流量很大,且延遲時間必須很短,請考慮是否因內部部署用戶端的線路卡有已知問題,導致 TCP 連線重設或封包遭捨棄。
  • 請考慮要求路徑中的任何用戶端服務是否使用 iptables。包括 Kubernetes 叢集,或部分具狀態的防火牆和 NAT 裝置。根據預設,Linux 連線追蹤 (conntrack) 子系統會嚴格遵守 TCP 通訊協定規格,並捨棄順序錯誤的 TCP 封包。如要關閉這項行為,請開啟 Linux 核心參數 net.netfilter.nf_conntrack_tcp_be_liberal 或其對等項目。

連線不完整

問題

嘗試使用 Google Cloud API 時,連線不完整。

解決方案

如要解決這個問題,請考慮下列事項:

  • 如果轉送路徑有多條返回用戶端的路徑,請務必瞭解反向路徑轉送的概念。如果懷疑這項行為會封鎖連線,請關閉這項功能。
  • 如果是負載平衡連線,請確認傳入防火牆規則是否允許回應封包傳送至兩個負載平衡器。

其他非 API 連線問題

如要解決非 API 連線問題,請考慮下列事項:

  • 如果要求路徑中有任何 Proxy,請考慮是否會導致您遇到的問題。請參閱相關文件,並在遇到不明延遲、連線中斷、DNS 覆寫、跨來源封鎖等類似問題時,務必排解 Proxy 問題。
  • 特別是處理來自 Google Cloud API 的 429 回應時,如果用戶端邏輯立即重試連線,可能會使問題更加嚴重。實作重試時,請務必瞭解並實作指數輪詢

Vertex AI 預測

本節說明疑難排解步驟,解決您使用 Vertex AI 預測時可能遇到的問題。

超過重試次數上限錯誤

問題

執行批次預測工作時,您會收到類似下列的錯誤訊息,表示執行自訂模型的機器可能無法在時限內完成預測。

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

當 Vertex AI 預測服務向 Google Front End 服務註冊時,可能會發生這種情況,因為該服務會將用戶端與 Vertex AI Prediction API 之間的連線設為 Proxy。

如果 Google Front End 服務在 10 分鐘內未收到 API 回應,就會使連線逾時,並向用戶端傳回 500 HTTP 回應代碼。

解決方案

如要解決這個問題,請嘗試下列任一做法:

  • 增加運算節點,或變更機器類型。
  • 製作預測容器,定期傳送 102 HTTP 回應碼。這會重設 Google Front End 服務的 10 分鐘計時器。

專案已連結至虛擬私有雲

問題

部署端點時,您可能會看到類似下列的錯誤訊息,這表示 Vertex AI 端點先前使用過虛擬私有雲網路,但資源未適當清除。

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

解決方案

如要解決這個問題,請試著在 Cloud Shell 中執行這項指令。

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

這會手動將舊的 VPC 網路與 Service Networking VPC 中斷連線。

部署失敗或端點遭刪除

問題

模型部署作業意外失敗、端點遭到刪除,或先前部署的模型已取消部署。

您的帳單帳戶可能無效。如果帳戶長期處於無效狀態,與該帳戶相關聯的專案中的某些資源可能會遭到移除。例如,系統可能會刪除端點和模型。資源一經移除便無法復原。

解決方案

如要解決這個問題,請嘗試下列做法:

詳情請參閱帳單問題

Vertex AI 自訂服務帳戶問題

本節說明服務帳戶問題的疑難排解步驟,或許有所助益。

模型部署失敗,並顯示服務帳戶 serviceAccountAdmin 錯誤

問題

模型部署作業失敗,並顯示下列錯誤訊息:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

解決方案

這項錯誤表示自訂服務帳戶可能設定有誤。如要建立具備正確 IAM 權限的自訂服務帳戶,請參閱「使用自訂服務帳戶」。

使用自訂服務帳戶時,無法擷取身分識別權杖

問題

使用自訂服務帳戶時,在單一副本上執行的訓練工作無法連線至 Compute Engine 中繼資料服務,因此無法擷取權杖。

您會看到類似以下的錯誤訊息:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

解決方案

如要使用自訂服務帳戶擷取身分識別權杖,請使用 iamcredentials.googleapis.com

自訂訓練模型

本節說明疑難排解步驟,解決您使用自訂訓練模型時可能遇到的問題。

自訂訓練問題

自訂訓練期間可能會發生下列問題。這些問題適用於 CustomJobHyperparameterTuningJob 資源,包括由 TrainingPipeline 資源建立的資源

錯誤代碼:400

問題

您會遇到下列錯誤:

400 Machine type MACHINE_TYPE is not supported.

如果所選機器類型不支援 Vertex AI 訓練,或是所選區域沒有特定資源,系統可能會顯示這則錯誤訊息。

解決方案

僅在適當的區域使用可用的機器類型

副本以非零狀態碼結束

問題

分散式訓練期間,任何工作者發生錯誤都會導致訓練失敗。

解決方案

如要查看工作站的堆疊追蹤記錄,請在Google Cloud 控制台中查看自訂訓練記錄。

請查看其他疑難排解主題,修正常見錯誤,然後建立新的 CustomJobHyperparameterTuningJobTrainingPipeline 資源。在許多情況下,錯誤代碼是由訓練程式碼中的問題所致,而非 Vertex AI 服務。如要判斷是否為這種情況,您可以在本機或 Compute Engine 上執行訓練程式碼。

副本記憶體不足

問題

如果訓練虛擬機器 (VM) 執行個體在訓練期間記憶體不足,可能會發生錯誤。

解決方案

您可以在 Google Cloud 控制台中查看訓練 VM 的記憶體用量。

即使發生這項錯誤,您在 VM 上看到的記憶體用量可能也不會達到 100%,因為 VM 上執行的服務 (訓練應用程式除外) 也會消耗資源。對於記憶體較少的機器類型,其他服務可能會耗用相對較高的記憶體百分比。舉例來說,在 n1-standard-4 VM 上,服務最多可耗用 40% 的記憶體。

您可以最佳化訓練應用程式的記憶體用量,也可以選擇記憶體較大的機器類型。

區域資源不足

問題

你在某個區域遇到缺貨問題。

解決方案

Vertex AI 會使用 Compute Engine 資源訓練模型。如果 Compute Engine 某個區域的特定 CPU 或 GPU 容量已達上限,Vertex AI 就無法排定工作負載。這個問題與專案配額無關。

達到 Compute Engine 容量上限時,Vertex AI 會自動重試 CustomJobHyperparameterTuningJob 最多三次。如果所有重試都失敗,工作就會失敗。

使用 GPU 時通常會發生缺貨情形。如果使用 GPU 時發生這項錯誤,請嘗試切換至其他 GPU 類型。如果可以,請嘗試在其他地區訓練模型。

存取其他 Google Cloud 服務時發生權限錯誤

如果從訓練程式碼存取其他 Google Cloud服務時發生權限錯誤 (例如:google.api_core.exceptions.PermissionDenied: 403),則可能發生下列其中一個問題:

  • 問題

    執行程式碼的服務代理程式或服務帳戶 (專案的 Vertex AI 自訂程式碼服務代理程式或自訂服務帳戶) 沒有必要權限。

    解決方案

    瞭解如何授予 Vertex AI 自訂程式碼服務代理權限,或設定具備必要權限的自訂服務帳戶

  • 問題

    執行程式碼的服務代理或服務帳戶確實具備必要權限,但程式碼嘗試存取錯誤專案中的資源。如果錯誤訊息提及的專案 ID 結尾為 -tp,就特別可能是這個問題。

    解決方案

    由於 Vertex AI 執行訓練程式碼的方式,如果您未在程式碼中明確指定專案 ID 或專案編號,可能會不慎發生這個問題。

    如要瞭解如何修正這個問題,請指定專案 ID 或專案編號

  • 問題

    您的 Vertex AI Training 工作已順利執行本機資料,但無法執行 Cloud Storage 中的資料。

    解決方案

    為專案的 Vertex AI 自訂程式碼服務代理角色新增 storage.buckets.create 權限。

    瞭解如何將特定角色新增至 Vertex AI 的服務代理程式,修正這項問題。

使用 Cloud Storage FUSE 時發生效能問題

問題

Cloud Storage FUSE 工作執行速度緩慢。

解決方案

請參閱「將 Cloud Storage 做為掛接的檔案系統使用」一文中的「效能最佳化指南」。

搭配使用 KFP 與 VPC Service Controls 時,pip install 會失敗

問題

您會看到下列錯誤:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

解決方案

VPC Service Controls 服務範圍會封鎖 Vertex AI 從網際網路存取第三方 API 和服務。如要安裝套件,請使用 packageUris 從 Cloud Storage bucket 安裝依附元件。如要一般性地討論如何使用這項技術,請參閱「搭配 Vertex AI 使用 VPC Service Controls」一文中的「使用自訂容器」一節。

發生內部錯誤

問題

系統發生錯誤,因此訓練失敗。

解決方案

這可能是暫時性問題,請嘗試重新提交 CustomJobHyperparameterTuningJobTrainingPipeline。如果錯誤持續發生,請與支援團隊聯絡

使用自訂容器映像檔時發生錯誤代碼 500

問題

記錄中顯示 500 錯誤。

解決方案

這類錯誤可能是自訂容器映像檔的問題,而非 Vertex AI 錯誤。

部署至端點時,服務帳戶無法存取 Cloud Storage 值區

問題

嘗試將模型部署至端點時,如果服務帳戶沒有相關 Cloud Storage 值區的 storage.objects.list 存取權,可能會看到下列錯誤訊息:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

根據預設,部署模型的自訂容器會使用無法存取 Cloud Storage 值區的服務帳戶。

解決方案

如要解決這個問題,請嘗試下列其中一種方法:

  • 上傳模型時,請將您要從容器存取的檔案複製到模型構件。Vertex AI 會將模型複製到預設服務帳戶可存取的位置,與所有其他模型構件類似。

  • 在容器建構程序中,將檔案複製到容器。

  • 指定自訂服務帳戶

神經架構搜尋

已知問題

  • 取消 NAS 工作後,主要工作 (父項) 會停止,但部分子項試驗仍會顯示「執行中」狀態。請忽略顯示「執行中」的子項試用狀態。試驗已停止,但 UI 仍顯示「Running」(執行中) 狀態。只要主要工作停止,就不會產生額外費用。
  • 在訓練師中回報獎勵後,請等待 (休眠) 10 分鐘,再結束試用工作。
  • 使用 Cloud Shell 執行 TensorBoard 時,產生的輸出連結可能無法運作。在這種情況下,請記下通訊埠編號,使用「Web Preview」工具,然後選取正確的通訊埠編號,即可顯示繪圖。

    存取 Web Preview 工具:

    一張特徵歸因圖表,顯示單一預測的騎乘時間長度。

  • 如果訓練記錄中顯示類似下列內容的錯誤訊息:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    使用 RAM 較多的機器,因為 OOM 狀況會導致這個錯誤。

  • 如果自訂訓練師無法找到工作目錄 job-dir FLAG,請匯入 job_dir 時使用底線,而非連字號。教學課程 1 中的附註說明瞭這一點。

  • 訓練期間發生 NaN 錯誤 訓練工作可能會發生 NaN 錯誤,例如 NaN : Tensor had NaN values。建議架構的學習率可能過高。詳情請參閱「記憶體不足 (OOM) 和學習率相關錯誤」。

  • 訓練期間發生 OOM 錯誤 訓練工作可能會發生 OOM (記憶體不足) 錯誤。 批次大小可能超過加速器記憶體容量。 詳情請參閱記憶體不足 (OOM) 和學習率相關錯誤

  • Proxy-task model selection controller job dies 在極少數情況下,proxy-task model selection controller job 會終止,您可以按照這些步驟繼續執行工作。

  • Proxy-task search controller job dies 在極少數情況下,proxy-task search controller job 會終止, 您可以按照這些步驟繼續執行工作。

  • 服務帳戶沒有存取 Artifact Registry 或值區的權限。 如果收到類似「」Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas或值區存取權的錯誤訊息,請在專案中為這個服務帳戶指派儲存空間編輯者角色。

Vertex AI 特徵儲存庫

本節說明實用的疑難排解步驟,協助您解決 Vertex AI 特徵儲存庫的問題。

傳送串流擷取或線上服務要求時發生 Resource not found 錯誤

問題

設定特徵商店、實體類型或特徵資源後,這些資源會延遲一段時間,才會傳播至 FeaturestoreOnlineServingService 服務。有時,如果您在建立資源後立即提交串流擷取或線上放送要求,這種延遲傳播可能會導致 resource not found 錯誤。

解決方案

如果收到這項錯誤,請稍候幾分鐘,然後再次提出要求。

新建立的特徵已成功批次擷取,但線上服務要求傳回空值

問題

如果是新建立的功能,系統會延遲一段時間,才會將這些功能傳播至 FeaturestoreOnlineServingService 服務。功能和值存在,但需要時間傳播。這可能會導致線上放送要求傳回空白值。

解決方案

如果發現不一致,請稍候幾分鐘,然後再次提出線上放送要求。

線上服務節點的 CPU 使用率偏高

問題

線上服務節點的 CPU 使用率偏高。

解決方案

如要解決這個問題,您可以手動增加節點數量或啟用自動調度資源,藉此增加線上服務節點數量。請注意,即使啟用自動調度資源功能,Vertex AI 特徵儲存庫在新增或移除節點時,仍需要時間重新平衡資料。如要瞭解如何查看特徵值分布指標的變化趨勢,請參閱「查看特徵值指標」。

最繁忙的線上服務節點 CPU 使用率偏高

問題

如果最繁忙節點的 CPU 使用率偏高,您可以增加服務節點數量,或將實體存取模式變更為偽隨機。

解決方案

將實體存取模式設為偽隨機,可減少因頻繁存取特徵商店中彼此靠近的實體,而導致 CPU 使用率偏高的情況。如果上述兩種解決方案都無效,請導入用戶端快取,避免重複存取相同實體。

QPS 偏低時,線上服務延遲時間較長

問題

如果 QPS 偏低,且一段時間內沒有活動或活動量偏低,可能會導致部分伺服器端快取過期。如果線上服務節點的流量以正常或更高的每秒查詢數 (QPS) 恢復,可能會導致延遲時間過長。

解決方案

如要解決這個問題,請傳送至少 5 QPS 的人為流量至 Feature Store,保持連線有效。

批次擷取工作在六小時後失敗

問題

批次擷取工作可能會失敗,因為讀取工作階段會在六小時後過期。

解決方案

為避免逾時,請增加工作站數量,在六小時內完成擷取工作。

匯出特徵值時發生 Resource exceeded 錯誤

問題

如果匯出工作超過內部配額,匯出大量資料可能會失敗,並顯示資源超出上限的錯誤訊息。

解決方案

如要避免發生這項錯誤,您可以設定時間範圍參數 start_timeend_time,一次處理較少的資料量。如要瞭解完整匯出功能,請參閱完整匯出

Vertex AI Vizier

使用 Vertex AI Vizier 時,您可能會遇到下列問題。

發生內部錯誤

問題

發生系統錯誤時,就會出現內部錯誤。

解決方案

這可能是暫時性問題。請嘗試重新傳送要求。如果錯誤持續發生,請與支援團隊聯絡

使用服務帳戶角色搭配 Vertex AI 時發生權限錯誤

問題

使用 Vertex AI 時,如果服務帳戶角色發生一般權限錯誤,

這些錯誤可能會出現在 Cloud Logging 的產品元件記錄或稽核記錄中。也可能出現在受影響專案的任何組合中。

這些問題可能是由下列一或多項原因所致:

  • 使用 Service Account Token Creator 角色,但應該使用 Service Account User 角色,反之亦然。這些角色會授予服務帳戶不同的權限,且無法互換。如要瞭解 Service Account Token CreatorService Account User 角色之間的差異,請參閱服務帳戶角色

  • 您已授予服務帳戶跨多個專案的權限,但這項操作預設不允許。

解決方案

如要解決這個問題,請嘗試下列一或多項操作:

  • 判斷是否需要 Service Account Token CreatorService Account User 角色。如要瞭解詳情,請參閱您使用的 Vertex AI 服務的 IAM 說明文件,以及您使用的任何其他產品整合。

  • 如果您已跨多個專案授予服務帳戶權限,請確保iam.disableCrossProjectServiceAccountUsage,啟用跨專案附加服務帳戶。目前不會強制執行。如要確保系統不會強制執行 iam.disableCrossProjectServiceAccountUsage,請執行下列指令:

    gcloud resource-manager org-policies disable-enforce \
      iam.disableCrossProjectServiceAccountUsage \
      --project=PROJECT_ID