GKE 中的 AI/機器學習工作負載簡介

本頁面提供 Google Kubernetes Engine (GKE) 的概念總覽,適用於 AI/機器學習工作負載。GKE 是 Google 代管的 Kubernetes 開放原始碼容器自動化調度管理平台。

Google Kubernetes Engine 提供兼具擴充能力、彈性與成本效益的平台,可執行所有容器化工作負載,包括人工智慧和機器學習 (AI/ML) 應用程式。無論您是訓練大型基礎模型、大規模提供推論要求,還是建構全方位的 AI 平台,GKE 都能提供您所需的控制權和效能。

如果您是資料和 AI 專家、雲端架構師、營運人員或開發人員,而且正在尋找可擴充的自動化代管 Kubernetes 解決方案,以便執行 AI/機器學習工作負載,歡迎參閱這個頁面。如要進一步瞭解常見角色,請參閱「常見的 GKE 使用者角色和工作」。

開始在 GKE 上執行 AI/機器學習工作負載

使用 GKE 的免費層級,您可以在幾分鐘內開始探索 GKE,無須支付叢集管理費用,即可開始使用 Kubernetes。

  1. 前往控制台 Google Cloud 開始使用

  2. 請嘗試下列快速入門導覽課程:
    • 在 GKE 上進行推論:在 GKE 上部署 AI 大型語言模型 (LLM),並使用預先定義的架構進行推論。
    • 在 GKE 上訓練:在 GKE 上部署 AI 訓練模型,並將預測結果儲存在 Cloud Storage 中。
  3. 請參閱「About accelerator consumption options for AI/ML workloads」,瞭解如何規劃及取得平台適用的加速器 (GPU 和 TPU)。

常見用途

GKE 提供統一的平台,可支援所有 AI 工作負載。

  • 建構 AI 平台:對於企業平台團隊,GKE 提供彈性,可建構標準化的多租戶平台,滿足各種需求。
  • 低延遲線上服務:對於建構生成式 AI 應用程式的開發人員,GKE 搭配 Inference Gateway 可提供最佳化路徑和自動調度資源功能,在控管費用的同時,確保使用者享有順暢體驗。

為 AI/機器學習工作負載選擇合適的平台

Google Cloud 提供一系列 AI 基礎架構產品,支援您的機器學習歷程,從全代管到完全可設定的產品都有。選擇合適的平台取決於您對控管、彈性和管理程度的具體需求。

最佳做法

如要深入控管、享有可攜性,並建構自訂的高效能 AI 平台,請選擇 GKE。

  • 基礎架構控制和彈性:您需要高度掌控基礎架構、使用自訂管道,或進行核心層級的自訂。
  • 大規模訓練和推論:您想使用 GKE 的擴充功能和高效能,訓練超大型模型或以最低延遲提供模型。
  • 大規模提升成本效益:您想優先進行成本最佳化,因此使用 GKE 與 Spot VM 和彈性啟動 VM 的整合功能,有效管理成本。
  • 可攜性和開放標準:您想避免受限於單一供應商選擇,並透過 Kubernetes 在任何地方執行工作負載,而且您已具備 Kubernetes 專業知識或多雲策略。

你也可以考慮下列替代方案:

Google Cloud 服務 適用情境
Vertex AI 全代管的端對端平台,可加快開發速度並卸載基礎架構管理作業。非常適合專注於機器學習運作流程和快速創造價值的團隊。如需更多資訊,請觀看「選擇自架 GKE 和代管 Vertex AI 來代管 AI 模型」。
Cloud Run 無伺服器平台,適用於可將資源調度降至零的容器化推論工作負載。適合事件驅動型應用程式,以及以符合成本效益的方式提供較小的模型。如需深入比較,請參閱「GKE 和 Cloud Run」。

GKE 如何為 AI/機器學習工作負載提供強大後盾

GKE 提供一系列專用元件,可簡化及加速 AI/機器學習生命週期的每個階段,從大規模訓練到低延遲推論皆適用。

下圖顯示 GKE 位於 Google Cloud中,可使用不同的雲端儲存空間選項 (例如 Cloud Storage FUSE 和 Managed Lustre),以及不同的雲端基礎架構選項 (例如 Cloud TPU 和 Cloud GPU)。GKE 也適用於深度學習的開放原始碼軟體和架構 (例如 JAX 或 TensorFlow)、機器學習編排 (例如 Jupyter 或 Ray),以及 LLM 推論 (例如 vLLM 或 NVIDIA Dynamo)。
圖 1:GKE 是可擴充的代管平台,適用於 AI/機器學習工作負載。

下表摘要列出支援 AI/機器學習工作負載或營運目標的 GKE 功能。

AI/機器學習工作負載或作業 GKE 如何提供支援 主要功能與特色
推論和放送 經過最佳化調整,可彈性提供 AI 模型服務,延遲時間短、處理量高且符合成本效益。
訓練和微調 提供大規模訓練超大型模型所需的擴充和協調功能,同時盡量降低成本。
  • 節點啟動速度更快:這項最佳化功能專為 GPU 工作負載設計,可將節點啟動時間縮短最多 80%。
  • 採用 Dynamic Workload Scheduler 的彈性啟動佈建模式:可提高您為短期訓練工作負載取得稀少 GPU 和 TPU 加速器的能力。
  • Kueue:Kubernetes 原生的工作排隊系統,可管理批次工作負載的資源分配、排程、配額管理和優先順序。
  • TPU Multislice: 硬體和網路架構,可讓多個 TPU Slice 透過資料中心網路 (DCN) 互相通訊,以進行大規模訓練。
整合式 AI/機器學習開發 代管支援 Ray,這是一種開放原始碼架構,可擴充分散式 Python 應用程式。
  • GKE 上的 Ray 外掛程式:抽象化 Kubernetes 基礎架構,讓您以最少的程式碼變更,擴充大規模資料預先處理、分散式訓練和線上服務等工作負載。

後續步驟