本頁面由 Cloud Translation API 翻譯而成。

瞭解自訂訓練服務

本頁說明訓練叢集的狀態，以及訓練工作生命週期，以及 Vertex AI 如何處理訓練錯誤。您可以根據這些資訊調整訓練程式碼。

訓練工作生命週期

本節說明 Vertex AI 如何在訓練工作生命週期中處理 worker VM。

將新工作排入佇列

建立 CustomJob 或 HyperparameterTuningJob 時，工作可能會在 JOB_STATE_QUEUED 狀態下停留一段時間，然後才由 Vertex AI 執行。這段時間通常很短，但如果您的Google Cloud 專案沒有足夠的自訂訓練配額可供工作使用，Vertex AI 會將工作排入佇列，直到您有足夠的配額為止。

並行啟動 worker

訓練工作開始時，Vertex AI 會在短時間內安排盡可能多的工作站。因此，工作站可能會並行啟動，而非依序啟動。為了減少啟動延遲時間，Vertex AI 會在每個 worker 可用時立即開始執行程式碼。當所有工作站都可用時，Vertex AI 會將工作狀態設為 JOB_STATE_RUNNING。

在大多數情況下，機器學習架構會自動處理並行啟動的工作站。如果您在訓練程式碼中使用了發布策略，可能需要手動調整，才能處理同時啟動的工作站。進一步瞭解 TensorFlow 和 PyTorch 中的分發策略。

在訓練作業期間重新啟動 worker

在訓練工作期間，Vertex AI 可以從任何具有相同主機名稱的 worker 池重新啟動 worker。這可能發生的原因如下：

VM 維護作業：當執行 worker 的 VM 需要進行 VM 維護作業時，Vertex AI 會在另一個 VM 上重新啟動 worker。進一步瞭解即時遷移功能，以便維護 VM。
非零結束：如果任何工作站以非零結束代碼結束，Vertex AI 會立即在同一個 VM 中重新啟動該工作站。
- 如果 worker 因常見錯誤而失敗，系統會將其視為永久性錯誤，並關閉整個工作。如果任何容器在 Vertex AI 關閉整個工作前重新啟動，這些容器可能會在 Cloud Logging 中產生記錄。
- 如果工作站因非永久性錯誤 (任何未列在常見錯誤中) 而失敗，Vertex AI 會允許重新啟動的工作站繼續執行，每個工作站最多可重新啟動五次。在五次重新啟動後，如果 worker 再次失敗，Vertex AI 會重試整個工作，最多三次，然後才會將整個工作視為失敗。

如要在訓練程式碼中處理 worker 重新啟動，請在訓練期間定期儲存檢查點，以便在 worker 重新啟動時從檢查點還原。如果訓練時間可能超過四小時，建議您至少每四小時儲存一次檢查點。瞭解如何在 TensorFlow 和 PyTorch 中使用訓練檢查點。

順利完成工作

當主要複本以結束代碼 0 退出時，訓練工作就會成功完成。此時，Vertex AI 會關閉所有其他執行中的 worker。

Vertex AI 如何處理訓練工作錯誤

本節說明 Vertex AI 如何處理常見的訓練工作錯誤和內部錯誤。

工作結束後約一分鐘，Vertex AI 會根據結束碼，在訓練工作物件上設定錯誤代碼。

處理常見錯誤

Vertex AI 遇到下列任一問題時，會關閉所有 worker：

錯誤類型	錯誤訊息/記錄	注意事項
使用者程式碼例外狀況	複本 `REPLICA_NAME` 以非零狀態 `EXIT_CODE` 結束。終止原因：`REASON`。	如果工作遇到可能為暫時性的結束碼，Vertex AI 會嘗試重新啟動工作最多三次。以下是可能會導致 Vertex AI 重試工作的暫時性錯誤代碼： `SIGABRT` `ExitCode 6` `ExitCode 134` (自訂容器) `SIGSEGV` `ExitCode 11` `ExitCode 139` (自訂容器)
記憶體不足	複本 `REPLICA_NAME` 記憶體不足，並以非零的 `EXIT_CODE` 狀態結束。	GKE 會在 Vertex AI 節點上保留記憶體。在最小的機器類型 (例如 `n1-standard-4`) 上，Vertex AI 系統代理可能會占用總記憶體的 40%。對於較大的 VM，負擔相對較小。比較 `n1-standard`機器類型的可用記憶體。
所在地區的容量不足 (Compute Engine 缺貨)	區域資源不足：`REGION_NAME`。請嘗試使用其他區域或加速器。	如果 Compute Engine 在您所在區域的 CPU 或 GPU 已達上限，就會發生缺貨情形。與專案配額無關。發生這種情況時，Vertex AI 會嘗試重新啟動工作，最多三次。 A2 和 A3 VM 上執行的工作，動態工作負載排程器可讓您在所要求的 GPU 資源可用時排程工作，而不會因缺貨錯誤而失敗。詳情請參閱「根據資源可用性排定訓練工作時間表」。

處理內部錯誤

如果 Vertex AI 發生內部錯誤，系統會嘗試重新啟動工作兩次 (共三次嘗試)。如果重新啟動嘗試也失敗，Vertex AI 會傳回內部錯誤，並顯示訊息：Internal error occurred for the current attempt。