選擇自訂訓練方法

如果您要自行編寫訓練程式碼,而不是使用 AutoML},可以考慮採用幾種自訂訓練方式。本文簡要概述及比較執行自訂訓練的各種方式。

Vertex AI 的自訂訓練資源

您可以建立三種 Vertex AI 資源,在 Vertex AI 中訓練自訂模型:

建立自訂工作時,請指定 Vertex AI 執行訓練程式碼所需的設定,包括:

在工作站集區中,您可以指定下列設定:

超參數調整工作有其他設定可供調整,例如指標。進一步瞭解超參數調整

訓練管線會自動調度管理自訂訓練工作或超參數調整工作,並執行額外步驟,例如載入資料集,或在訓練工作成功完成後,將模型上傳至 Vertex AI。

自訂訓練資源

如要查看專案中現有的訓練管道,請前往Google Cloud 控制台的「Vertex AI」專區,然後點選「訓練管道」頁面。

前往訓練管線

如要查看專案中現有的自訂工作,請前往「自訂工作」頁面。

前往「Custom jobs」(自訂工作) 頁面

如要查看專案中現有的超參數調整工作,請前往「超參數調整」頁面。

前往「超參數調整」

預先建構的容器和自訂容器

將自訂訓練工作、超參數調整工作或訓練管線提交至 Vertex AI 前,您需要建立 Python 訓練應用程式自訂容器,定義要在 Vertex AI 上執行的訓練程式碼和依附元件。如果您使用 TensorFlow、PyTorch、scikit-learn 或 XGBoost 建立 Python 訓練應用程式,可以使用預先建構的容器執行程式碼。如果不確定要選擇哪個選項,請參閱訓練代碼規定瞭解詳情。

分散式訓練

您可以指定多個工作站集區,為分散式訓練設定自訂訓練工作、超參數調整工作或訓練管線:

  • 使用第一個工作站集區設定主要副本,並將副本數量設為 1。
  • 如果機器學習架構支援這些額外的叢集工作,可進行分散式訓練,請新增更多工作站集區,以設定工作站副本、參數伺服器副本或評估工具副本。

進一步瞭解如何使用分散式訓練

後續步驟

  • 瞭解如何建立永久資源,以執行自訂訓練工作。
  • 請參閱「建立自訂訓練工作」,瞭解如何建立自訂訓練工作,以便在 Vertex AI 中執行自訂訓練應用程式。
  • 請參閱「建立訓練管線」,瞭解如何建立訓練管線,以便在 Vertex AI 中執行自訂訓練應用程式。
  • 如要瞭解超參數調整搜尋,請參閱「使用超參數調整」。