Vertex AI Experiments 是一項工具,可協助您追蹤及分析不同的模型架構、超參數和訓練環境,並追蹤實驗執行的步驟、輸入內容和輸出內容。Vertex AI Experiments 也能評估模型在測試資料集和訓練期間的整體成效。然後根據這項資訊,為特定用途選取最合適的模型。
執行實驗不會產生額外費用。您只需支付實驗期間使用的資源費用,詳情請參閱「Vertex AI 定價」。
您要執行什麼操作? | 查看筆記本範例 |
---|---|
追蹤指標和參數 | 比較機型 |
追蹤實驗歷程 | 模型訓練 |
追蹤管道執行作業 | 比較管道執行作業 |
追蹤步驟、輸入和輸出
Vertex AI Experiments 可讓您追蹤:
- 實驗執行的步驟,例如預先處理、訓練、
- 輸入內容,例如演算法、參數、資料集、
- 這些步驟的輸出內容,例如模型、檢查點、指標。
然後判斷哪些做法有效,哪些無效,並找出進一步的實驗途徑。
如需使用者歷程範例,請參閱:
分析模型效能
Vertex AI Experiments 可讓您追蹤及評估模型在測試資料集和訓練期間的整體成效。這項功能有助於瞭解模型的效能特徵,包括特定模型的整體運作情況、失敗之處和優勢。
如需使用者歷程範例,請參閱:
比較模型效能
Vertex AI Experiments 可讓您在實驗執行中,將多個模型分組並進行比較。每個模型都有專屬的指定參數、建模技術、架構和輸入內容。這種做法有助於選取最佳模型。
如需使用者歷程範例,請參閱:
搜尋實驗
Google Cloud 控制台會集中顯示實驗、實驗執行的橫切面檢視畫面,以及每次執行的詳細資料。Python 適用的 Vertex AI SDK 提供 API,可供您使用實驗、實驗執行作業、實驗執行作業參數、指標和構件。
Vertex AI Experiments 和 Vertex ML Metadata 可協助您找出實驗中追蹤的構件。這樣您就能快速查看構件的沿襲,以及執行作業中各步驟所取用和產生的構件。
支援範圍
Vertex AI Experiments 支援使用 Vertex AI 自訂訓練、Vertex AI Workbench 筆記本、Notebooks,以及大多數機器學習架構中的所有 Python 機器學習架構,開發模型。對於 TensorFlow 等部分 ML 架構,Vertex AI Experiments 深入整合了架構,讓使用者體驗變得非常簡單。對於其他機器學習架構,Vertex AI Experiments 提供架構中立的 Python 適用的 Vertex AI SDK,可供您使用。(請參閱:TensorFlow、scikit-learn、PyTorch、XGBoost 的預先建構容器)。
資料模型和概念
Vertex AI Experiments 是 Vertex ML Metadata 中的內容,除了 n 個管道執行作業外,實驗還可包含 n 個實驗執行作業。實驗執行作業包含參數、摘要指標、時間序列指標,以及 PipelineJob
、Artifact
和 Execution
Vertex AI 資源。Vertex AI TensorBoard 是開放原始碼 TensorBoard 的受管理版本,用於儲存時間序列指標。您可以在Google Cloud 控制台中查看 pipeline 執行的執行作業和構件。
Vertex AI Experiments 術語
實驗、實驗執行作業和管道執行作業
實驗
- 實驗是可包含一組 n 個實驗執行的環境,以及管線執行,使用者可以做為群組調查不同的設定,例如輸入構件或超參數。
實驗執行
- Vertex AI 實驗中可追蹤的特定執行作業,會記錄輸入內容 (例如演算法、參數和資料集) 和輸出內容 (例如模型、檢查點和指標),以監控及比較機器學習開發疊代。詳情請參閱「建立及管理實驗執行」。
管道執行
- 您可以將一或多個 Vertex PipelineJob 與實驗建立關聯,其中每個 PipelineJob 都會以單一執行作業的形式呈現。在此情況下,執行作業的參數會由 PipelineJob 的參數推斷而來。這些指標是從系統推斷而來,以及該 PipelineJob 產生的指標構件。系統會從該 PipelineJob 產生的構件推斷執行作業的構件。
PipelineJob
資源可以與 ExperimentRun
資源建立關聯。
在此情況下,系統不會推斷參數、指標和構件。
請參閱「將管線與實驗建立關聯」。
參數和指標
請參閱「記錄參數」。
摘要指標
- 摘要指標是實驗執行期間每個指標鍵的單一值。舉例來說,實驗的測試準確度是在訓練結束時,根據測試資料集計算出的準確度,可擷取為單一值摘要指標。
請參閱「記錄摘要指標」。
時間序列指標
- 時間序列指標是縱向指標值,每個值代表訓練例行程序中某個步驟的執行情況。時間序列指標會儲存在 Vertex AI TensorBoard 中。Vertex AI Experiments 會儲存 Vertex TensorBoard 資源的參照。
請參閱「記錄時間序列指標」。
資源類型
管道工作
- 管道工作或管道執行作業對應於 Vertex AI API 中的 PipelineJob 資源。這是機器學習管道定義的執行個體,定義為一組透過輸入/輸出依附元件互連的機器學習工作。
構件
- 構件是機器學習工作流程產生及使用的離散實體或資料。構件範例包括資料集、模型、輸入檔案和訓練記錄。
您可以使用結構定義,透過 Vertex AI Experiments 定義構件類型。舉例來說,支援的結構定義類型包括 system.Dataset
、system.Model
和 system.Artifact
。詳情請參閱系統結構定義。