Vertex AI 中的機器學習運作

本節說明 Vertex AI 服務,協助您在機器學習 (ML) 工作流程中實作機器學習運作 (MLOps)

模型部署完成後,必須持續因應環境中不斷變化的資料,才能發揮最佳效能並保持相關性。MLOps 是一組實務做法,可提升機器學習系統的穩定性和可靠性。

Vertex AI MLOps 工具可協助 AI 團隊協同合作,並透過預測模型監控、警報、診斷和可執行的說明,提升模型品質。所有工具都是模組化設計,因此您可以視需要整合至現有系統。

如要進一步瞭解機器學習運作,請參閱機器學習的持續推送軟體更新與自動化管線,以及機器學習運作從業人員指南

機器學習運作功能圖

  • 協調工作流程:手動訓練及提供模型服務可能相當耗時且容易出錯,尤其當您需要多次重複執行這些程序時。

  • 追蹤機器學習系統中使用的中繼資料:在資料科學中,追蹤機器學習工作流程中使用的參數、構件和指標非常重要,尤其是在重複執行工作流程多次時。

    • Vertex 機器學習中繼資料可讓您記錄機器學習系統中使用的中繼資料、參數和構件。然後查詢該中繼資料,以利分析、偵錯及稽核 ML 系統或其產生的構件效能。
  • 找出最適合特定用途的模型:嘗試新的訓練演算法時,您需要知道哪個訓練模型的效果最好。

    • Vertex AI Experiments 可讓您追蹤及分析不同的模型架構、超參數和訓練環境,找出最適合您用途的模型。

    • Vertex AI TensorBoard 可協助您追蹤、以視覺化方式呈現及比較機器學習實驗,藉此評估模型成效。

  • 管理模型版本:將模型新增至中央存放區,有助於追蹤模型版本。

    • Vertex AI Model Registry 會顯示模型總覽,方便您更妥善地整理、追蹤及訓練新版本。您可以在模型登錄中評估模型、將模型部署至端點、建立批次推論,以及查看特定模型和模型版本的詳細資料。
  • 管理功能:在多個團隊重複使用機器學習功能時,您需要快速有效率地分享及提供這些功能。

    • Vertex AI 特徵儲存庫是可供整理、儲存和提供機器學習功能的集中存放區。使用中央特徵儲存庫,機構就能大規模重複使用機器學習特徵,並加快開發及部署新機器學習應用程式的速度。
  • 監控模型品質:在正式環境中部署模型時,模型的推論輸入資料最好與訓練資料相似,才能發揮最佳成效。如果輸入資料與模型訓練資料不同,就算模型本身沒有變動,效能也可能會降低。

    • Vertex AI Model Monitoring 會監控模型,偵測訓練與服務偏差和推論偏移,並在傳入的推論資料與訓練基準的偏差過大時傳送快訊。您可以根據快訊和特徵分布情形,評估是否需要重新訓練模型。
  • 擴充 AI 和 Python 應用程式Ray 是開放原始碼架構,可擴充 AI 和 Python 應用程式。Ray 提供基礎架構,可為機器學習 (ML) 工作流程執行分散式運算和平行處理。

    • Vertex AI 中的 Ray 經過精心設計,可讓您使用相同的開放原始碼 Ray 程式碼編寫程式,並在 Vertex AI 上開發應用程式,只需進行極少的變更。然後,您可以使用 Vertex AI 與其他 Google Cloud 服務的整合功能 (例如 Vertex AI InferenceBigQuery),做為機器學習 (ML) 工作流程的一部分。

後續步驟