本頁面提供 Google Kubernetes Engine (GKE) 的概念總覽,適用於 AI/機器學習工作負載。GKE 是 Google 代管的 Kubernetes 開放原始碼容器自動化調度管理平台。
Google Kubernetes Engine 提供兼具擴充能力、彈性與成本效益的平台,可執行所有容器化工作負載,包括人工智慧和機器學習 (AI/ML) 應用程式。無論您是訓練大型基礎模型、大規模提供推論要求,還是建構全方位的 AI 平台,GKE 都能提供您所需的控制權和效能。
如果您是資料和 AI 專家、雲端架構師、營運人員或開發人員,而且正在尋找可擴充的自動化代管 Kubernetes 解決方案,以便執行 AI/機器學習工作負載,歡迎參閱這個頁面。如要進一步瞭解常見角色,請參閱「常見的 GKE 使用者角色和工作」。
開始在 GKE 上執行 AI/機器學習工作負載
使用 GKE 的免費層級,您可以在幾分鐘內開始探索 GKE,無須支付叢集管理費用,即可開始使用 Kubernetes。
- 請嘗試下列快速入門導覽課程:
- 在 GKE 上進行推論:在 GKE 上部署 AI 大型語言模型 (LLM),並使用預先定義的架構進行推論。
- 在 GKE 上訓練:在 GKE 上部署 AI 訓練模型,並將預測結果儲存在 Cloud Storage 中。
- 請參閱「About accelerator consumption options for AI/ML workloads」,瞭解如何規劃及取得平台適用的加速器 (GPU 和 TPU)。
常見用途
GKE 提供統一的平台,可支援所有 AI 工作負載。
- 建構 AI 平台:對於企業平台團隊,GKE 提供彈性,可建構標準化的多租戶平台,滿足各種需求。
- 低延遲線上服務:對於建構生成式 AI 應用程式的開發人員,GKE 搭配 Inference Gateway 可提供最佳化路徑和自動調度資源功能,在控管費用的同時,確保使用者享有順暢體驗。
為 AI/機器學習工作負載選擇合適的平台
Google Cloud 提供一系列 AI 基礎架構產品,支援您的機器學習歷程,從全代管到完全可設定的產品都有。選擇合適的平台取決於您對控管、彈性和管理程度的具體需求。
如要深入控管、享有可攜性,並建構自訂的高效能 AI 平台,請選擇 GKE。
- 基礎架構控制和彈性:您需要高度掌控基礎架構、使用自訂管道,或進行核心層級的自訂。
- 大規模訓練和推論:您想使用 GKE 的擴充功能和高效能,訓練超大型模型或以最低延遲提供模型。
- 大規模提升成本效益:您想優先進行成本最佳化,因此使用 GKE 與 Spot VM 和彈性啟動 VM 的整合功能,有效管理成本。
- 可攜性和開放標準:您想避免受限於單一供應商選擇,並透過 Kubernetes 在任何地方執行工作負載,而且您已具備 Kubernetes 專業知識或多雲策略。
你也可以考慮下列替代方案:
Google Cloud 服務 | 適用情境 |
---|---|
Vertex AI | 全代管的端對端平台,可加快開發速度並卸載基礎架構管理作業。非常適合專注於機器學習運作流程和快速創造價值的團隊。如需更多資訊,請觀看「選擇自架 GKE 和代管 Vertex AI 來代管 AI 模型」。 |
Cloud Run | 無伺服器平台,適用於可將資源調度降至零的容器化推論工作負載。適合事件驅動型應用程式,以及以符合成本效益的方式提供較小的模型。如需深入比較,請參閱「GKE 和 Cloud Run」。 |
GKE 如何為 AI/機器學習工作負載提供強大後盾
GKE 提供一系列專用元件,可簡化及加速 AI/機器學習生命週期的每個階段,從大規模訓練到低延遲推論皆適用。
下表摘要列出支援 AI/機器學習工作負載或營運目標的 GKE 功能。
AI/機器學習工作負載或作業 | GKE 如何提供支援 | 主要功能與特色 |
---|---|---|
推論和放送 | 經過最佳化調整,可彈性提供 AI 模型服務,延遲時間短、處理量高且符合成本效益。 |
|
訓練和微調 | 提供大規模訓練超大型模型所需的擴充和協調功能,同時盡量降低成本。 |
|
整合式 AI/機器學習開發 | 代管支援 Ray,這是一種開放原始碼架構,可擴充分散式 Python 應用程式。 |
|
後續步驟
- 如要探索我們為在 GKE 上執行 AI/機器學習工作負載,提供的豐富官方指南、教學課程和其他資源,請前往 GKE 的 AI/機器學習自動化調度管理入口網站。
- 瞭解如何取得運算加速器 (例如 GPU 或 TPU),在 GKE 上執行 AI/機器學習工作負載。
- 瞭解 GKE 的 AI/機器學習模型推論功能。
- 瞭解 GKE 上的 Ray。
- 在 GKE AI Labs 中探索實驗性範例,瞭解如何運用 GKE 加速 AI/機器學習計畫。