本文概要說明「用於預測的表格工作流程」管道和元件。如要瞭解如何訓練模型,請參閱「使用 Tabular Workflow for Forecasting 訓練模型 」。
表格預測工作流程是預測工作的完整管道。這項 API 與 AutoML API 類似,但可讓您選擇要控制及自動執行的項目。您不必控管整個管道,而是控管管道中的每個步驟。這些管道控制項包括:
- 資料分割
- 特徵工程
- 架構搜尋
- 模型訓練
- 模型組合
優點
以下列舉「表格式預測工作流程」的優點:
- 支援大型資料集,大小上限為 1 TB,最多可有 200 個資料欄。
- 您可以限制架構類型的搜尋空間或略過架構搜尋,提升穩定性並縮短訓練時間。
- 可手動選取用於訓練和架構搜尋的硬體,提升訓練速度。
- 您可以變更集合大小,縮減模型大小並縮短延遲時間。
- 您可以在功能強大的管道圖介面中檢查每個元件,查看轉換後的資料表、評估的模型架構和許多其他詳細資料。
- 每個元件都能獲得更大的彈性和透明度,例如自訂參數、硬體、查看程序狀態、記錄等。
在 Vertex AI Pipelines 上進行預測
「Tabular Workflow for Forecasting」是 Vertex AI Pipelines 的代管執行個體。
Vertex AI Pipelines 是一種無伺服器服務,可執行 Kubeflow 管道。您可以使用管道自動執行及監控機器學習和資料準備工作。管道中的每個步驟都會執行管道工作流程的一部分。舉例來說,管道可以包含分割資料、轉換資料類型及訓練模型的步驟。由於步驟是管道元件的例項,因此步驟具有輸入內容、輸出內容和容器映像檔。步驟輸入內容可以從管道的輸入內容設定,也可以取決於這個管道中其他步驟的輸出內容。這些依附元件會將管道的工作流程定義為有向非循環圖。
管道和元件總覽
下圖顯示「Tabular Workflow for Forecasting」的建模管道:
管道元件如下:
- feature-transform-engine:執行特徵工程。詳情請參閱「特徵轉換引擎」。
training-configurator-and-validator:驗證訓練設定並產生訓練中繼資料。
輸入:
instance_schema
:OpenAPI 規格中的執行個體結構定義,用於說明推論資料的資料類型。dataset_stats
:描述原始資料集的統計資料。舉例來說,dataset_stats
會提供資料集中的資料列數。training_schema
:OpenAPI 規格中的訓練資料結構定義,說明訓練資料的資料類型。
split-materialized-data:將具體化資料分割為訓練集、評估集和測試集。
輸入:
materialized_data
:具體化資料。
輸出:
materialized_train_split
:具體化的訓練分割。materialized_eval_split
:具體化評估分割。materialized_test_split
:具體化的測試集。
calculate-training-parameters-2:計算 automl-forecasting-stage-1-tuner 的預期執行階段時間長度。
get-hyperparameter-tuning-results - 選用:如果將管道設定為略過架構搜尋,請從先前的管道執行作業載入超參數調整結果。
執行模型架構搜尋和調整超參數 (automl-forecasting-stage-1-tuner),或使用先前管道執行的超參數調整結果 (automl-forecasting-stage-2-tuner)。
- 架構是由一組超參數定義。
- 超參數包括模型類型和模型參數。
- 我們考量的模型類型為類神經網路和強化型樹狀結構。
- 針對每個考量的架構訓練模型。
輸入:
materialized_train_split
:具體化的訓練分割。materialized_eval_split
:具體化評估分割。artifact
- 先前管道執行的超參數調整結果。只有在將管道設定為略過架構搜尋時,這個構件才會是輸入內容。
輸出:
tuning_result_output
:微調輸出內容。
get-prediction-image-uri-2:根據模型類型產生正確的推論圖片 URI。
automl-forecasting-ensemble-2:彙整最佳架構,產生最終模型。
輸入:
tuning_result_output
:微調輸出內容。
輸出:
unmanaged_container_model
:輸出模型。
model-upload-2 - 上傳模型。
輸入:
unmanaged_container_model
:輸出模型。
輸出:
model
:Vertex AI 模型。
should_run_model_evaluation - 選用:使用測試集計算評估指標。