表格工作流程是一組整合式全代管可擴充 pipeline,適用於表格資料的端對端機器學習。這項服務採用 Google 技術開發模型,並提供自訂選項,可滿足您的需求。
優點
- 全代管:您不必擔心更新、依附元件和衝突。
- 輕鬆擴充:隨著工作負載或資料集增加,您不需要重新設計基礎架構。
- 效能最佳化:系統會根據工作流程需求自動設定合適的硬體。
- 深度整合:與 Vertex AI MLOps 套件中的產品 (例如 Vertex AI Pipelines 和 Vertex AI Experiments) 相容,讓您在短時間內執行多項實驗。
技術總覽
每個工作流程都是 Vertex AI Pipelines 的代管執行個體。
Vertex AI Pipelines 是一項無伺服器服務,可執行 Kubeflow 管道。您可以使用管道自動執行及監控機器學習和資料準備工作。管道中的每個步驟都會執行管道工作流程的一部分。舉例來說,管道可以包含分割資料、轉換資料類型及訓練模型的步驟。由於步驟是管道元件的例項,因此步驟具有輸入內容、輸出內容和容器映像檔。步驟輸入內容可以從管道的輸入內容設定,也可以取決於這個管道中其他步驟的輸出內容。這些依附元件會將管道的工作流程定義為有向非循環圖。
開始使用
在大多數情況下,您會使用 Google Cloud Pipeline Components SDK 定義及執行管道。以下範例程式碼說明瞭這個程序。請注意,實際程式碼的實作方式可能有所不同。
// Define the pipeline and the parameters
template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
…
optimization_objective=optimization_objective,
data_source=data_source,
target_column_name=target_column_name
…)
// Run the pipeline
job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
job.run(...)
如需範例 Colab 和筆記本,請洽詢業務代表或填寫申請表。
版本管理與維護
表格工作流程具有有效的版本控管系統,可持續更新及改善,不會對應用程式造成重大變更。
每個工作流程都會發布及更新,並納入 Google Cloud Pipeline Components SDK。任何工作流程的更新和修改都會以新版本發布。您隨時可以透過舊版 SDK,存取每個工作流程的舊版。如果 SDK 版本已固定,工作流程版本也會固定。
可用的工作流程
Vertex AI 提供下列 Tabular Workflows:
名稱 | 類型 | 適用情況 |
---|---|---|
特徵轉換引擎 | 特徵工程 | 公開預先發布版 |
端對端 AutoML | 分類與迴歸 | 正式發布版 |
TabNet | 分類與迴歸 | 公開預先發布版 |
廣度和深度 | 分類與迴歸 | 公開預先發布版 |
預測 | 預測 | 公開預先發布版 |
如需更多資訊和範例筆記本,請洽詢業務代表或填寫要求表單。
特徵轉換引擎
特徵轉換引擎會執行特徵選取和特徵轉換。 如果啟用特徵選取功能,特徵轉換引擎會建立一組經過排序的重要特徵。如果啟用特徵轉換,特徵轉換引擎會處理特徵,確保模型訓練和模型服務的輸入內容一致。特徵轉換引擎可單獨使用,也可搭配任何表格訓練工作流程使用。支援 TensorFlow 和非 TensorFlow 架構。
詳情請參閱「特徵工程」。
表格工作流程,適用於分類和迴歸
端對端 AutoML 的表格工作流程
端對端 AutoML 的表格工作流程是完整的 AutoML 管道,適用於分類和迴歸工作。這項 API 與 AutoML API 類似,但可讓您選擇要控制及自動執行的項目。您不必控管整個管道,而是控管管道中的每個步驟。這些管道控制項包括:
- 資料分割
- 特徵工程
- 架構搜尋
- 模型訓練
- 模型組合
- 模型蒸餾
優點
- 支援大小達數 TB 且最多有 1,000 欄的大型資料集。
- 您可以限制架構類型搜尋空間或略過架構搜尋,提升穩定性並縮短訓練時間。
- 手動選取用於訓練和架構搜尋的硬體,提升訓練速度。
- 您可以透過蒸餾或變更模型組合大小,縮減模型大小並改善延遲時間。
- 您可以在功能強大的管道圖表介面中檢查每個 AutoML 元件,查看轉換後的資料表、評估的模型架構,以及更多詳細資料。
- 每個 AutoML 元件都具備更高的彈性和透明度,例如可自訂參數和硬體、查看程序狀態和記錄等。
輸入/輸出
- 以 BigQuery 資料表或 Cloud Storage 中的 CSV 檔案做為輸入。
- 產生 Vertex AI 模型做為輸出內容。
- 中繼輸出內容包括資料集統計資料和資料集分割。
詳情請參閱「端對端 AutoML 的表格式工作流程」。
TabNet 適用的 Tabular Workflow
TabNet 適用的 Tabular Workflow 是一項 pipeline,可用於訓練分類或迴歸模型。TabNet 會運用順序注意力,選擇每個決策步驟要以哪些特徵進行推論。這有助於解讀結果,並提高學習效率,因為學習容量會用於最顯著的特徵。
優點
- 根據資料集大小、推論類型和訓練預算,自動選取適當的超參數搜尋空間。
- 與 Vertex AI 整合。訓練好的模型是 Vertex AI 模型。您可以立即執行批次推論,或部署模型以進行線上推論。
- 提供模型固有的可解釋性。您可以深入瞭解 TabNet 用來做出決策的特徵。
- 支援 GPU 訓練。
輸入/輸出
以 BigQuery 資料表或 Cloud Storage 中的 CSV 檔案做為輸入內容,並提供 Vertex AI 模型做為輸出內容。
詳情請參閱 TabNet 的表格工作流程。
廣度和深度學習適用的 Tabular Workflow
廣度和深度學習適用的 Tabular Workflow 是一種 pipeline,可用於訓練分類或迴歸模型。廣度和深度會一同訓練廣度線性模型和深層類神經網路,兼具記憶和一般化的能力。在某些線上實驗中,結果顯示與僅限廣泛和僅限深入模型相比,Wide & Deep 可大幅增加 Google 商店應用程式的獲客數。
優點
- 與 Vertex AI 整合。訓練好的模型是 Vertex AI 模型。您可以立即執行批次推論,或部署模型以進行線上推論。
輸入/輸出
以 BigQuery 資料表或 Cloud Storage 中的 CSV 檔案做為輸入內容,並提供 Vertex AI 模型做為輸出內容。
詳情請參閱廣度和深度學習適用的 Tabular Workflow。
表格預測工作流程
表格預測工作流程
表格預測工作流程是預測工作的完整管道。這項 API 與 AutoML API 類似,但可讓您選擇要控制及自動執行的項目。您不必控管整個管道,而是控管管道中的每個步驟。這些管道控制項包括:
- 資料分割
- 特徵工程
- 架構搜尋
- 模型訓練
- 模型組合
優點
- 支援大型資料集,大小上限為 1 TB,最多可有 200 個資料欄。
- 您可以限制架構類型的搜尋空間或略過架構搜尋,提升穩定性並縮短訓練時間。
- 可手動選取用於訓練和架構搜尋的硬體,提升訓練速度。
- 您可以變更集合大小,縮減模型大小並縮短延遲時間。
- 您可以在功能強大的管道圖介面中檢查每個元件,查看轉換後的資料表、評估的模型架構和許多其他詳細資料。
- 每個元件都能獲得更大的彈性和透明度,例如自訂參數、硬體、查看程序狀態、記錄等。
輸入/輸出
- 以 BigQuery 資料表或 Cloud Storage 中的 CSV 檔案做為輸入。
- 產生 Vertex AI 模型做為輸出內容。
- 中繼輸出內容包括資料集統計資料和資料集分割。
詳情請參閱「預測的表格工作流程」。
後續步驟
- 瞭解端對端 AutoML 的表格工作流程。
- 瞭解 TabNet 適用的 Tabular Workflow。
- 瞭解廣度和深度學習適用的 Tabular Workflow。
- 瞭解表格預測工作流程。
- 瞭解特徵工程。
- 瞭解表格工作流程的定價。