本頁面由 Cloud Translation API 翻譯而成。

GKE 中的 AI/機器學習工作負載簡介

自動駕駛標準

本頁面提供 Google Kubernetes Engine (GKE) 的概念總覽，適用於 AI/機器學習工作負載。GKE 是 Google 代管的 Kubernetes 開放原始碼容器自動化調度管理平台。

Google Kubernetes Engine 提供兼具擴充能力、彈性與成本效益的平台，可執行所有容器化工作負載，包括人工智慧和機器學習 (AI/ML) 應用程式。無論您是訓練大型基礎模型、大規模提供推論要求，還是建構全方位的 AI 平台，GKE 都能提供您所需的控制權和效能。

如果您是資料和 AI 專家、雲端架構師、營運人員或開發人員，而且正在尋找可擴充的自動化代管 Kubernetes 解決方案，以便執行 AI/機器學習工作負載，歡迎參閱這個頁面。如要進一步瞭解常見角色，請參閱「常見的 GKE 使用者角色和工作」。

開始在 GKE 上執行 AI/機器學習工作負載

使用 GKE 的免費層級，您可以在幾分鐘內開始探索 GKE，無須支付叢集管理費用，即可開始使用 Kubernetes。

前往控制台 Google Cloud 開始使用
請嘗試下列快速入門導覽課程：
- 在 GKE 上進行推論：在 GKE 上部署 AI 大型語言模型 (LLM)，並使用預先定義的架構進行推論。
- 在 GKE 上訓練：在 GKE 上部署 AI 訓練模型，並將預測結果儲存在 Cloud Storage 中。
請參閱「About accelerator consumption options for AI/ML workloads」，瞭解如何規劃及取得平台適用的加速器 (GPU 和 TPU)。

常見用途

GKE 提供統一的平台，可支援所有 AI 工作負載。

建構 AI 平台：對於企業平台團隊，GKE 提供彈性，可建構標準化的多租戶平台，滿足各種需求。
低延遲線上服務：對於建構生成式 AI 應用程式的開發人員，GKE 搭配 Inference Gateway 可提供最佳化路徑和自動調度資源功能，在控管費用的同時，確保使用者享有順暢體驗。

為 AI/機器學習工作負載選擇合適的平台

Google Cloud 提供一系列 AI 基礎架構產品，支援您的機器學習歷程，從全代管到完全可設定的產品都有。選擇合適的平台取決於您對控管、彈性和管理程度的具體需求。

最佳做法：

如要深入控管、享有可攜性，並建構自訂的高效能 AI 平台，請選擇 GKE。

基礎架構控制和彈性：您需要高度掌控基礎架構、使用自訂管道，或進行核心層級的自訂。
大規模訓練和推論：您想使用 GKE 的擴充功能和高效能，訓練超大型模型或以最低延遲提供模型。
大規模提升成本效益：您想優先進行成本最佳化，因此使用 GKE 與 Spot VM 和彈性啟動 VM 的整合功能，有效管理成本。
可攜性和開放標準：您想避免受限於單一供應商選擇，並透過 Kubernetes 在任何地方執行工作負載，而且您已具備 Kubernetes 專業知識或多雲策略。

你也可以考慮下列替代方案：

Google Cloud 服務	適用情境
Vertex AI	全代管的端對端平台，可加快開發速度並卸載基礎架構管理作業。非常適合專注於機器學習運作流程和快速創造價值的團隊。如需更多資訊，請觀看「選擇自架 GKE 和代管 Vertex AI 來代管 AI 模型」。
Cloud Run	無伺服器平台，適用於可將資源調度降至零的容器化推論工作負載。適合事件驅動型應用程式，以及以符合成本效益的方式提供較小的模型。如需深入比較，請參閱「GKE 和 Cloud Run」。

GKE 如何為 AI/機器學習工作負載提供強大後盾

GKE 提供一系列專用元件，可簡化及加速 AI/機器學習生命週期的每個階段，從大規模訓練到低延遲推論皆適用。

下圖顯示 GKE 位於 Google Cloud中，可使用不同的雲端儲存空間選項 (例如 Cloud Storage FUSE 和 Managed Lustre)，以及不同的雲端基礎架構選項 (例如 Cloud TPU 和 Cloud GPU)。GKE 也適用於深度學習的開放原始碼軟體和架構 (例如 JAX 或 TensorFlow)、機器學習編排 (例如 Jupyter 或 Ray)，以及 LLM 推論 (例如 vLLM 或 NVIDIA Dynamo)。 — **圖 1**：GKE 是可擴充的代管平台，適用於 AI/機器學習工作負載。

下表摘要列出支援 AI/機器學習工作負載或營運目標的 GKE 功能。

AI/機器學習工作負載或作業	GKE 如何提供支援	主要功能與特色
推論和放送	經過最佳化調整，可彈性提供 AI 模型服務，延遲時間短、處理量高且符合成本效益。	加速器彈性：GKE 支援 GPU 和 TPU 推論。 GKE 推論閘道：可感知模型的閘道，專為 AI 推論工作負載提供智慧型路由和負載平衡。 GKE 推論快速入門導覽課程：這項工具提供一系列熱門 AI 模型的基準設定檔，可簡化效能分析和部署作業。 GKE Autopilot：GKE 作業模式，可自動執行叢集作業和容量大小調整，減少負擔。
訓練和微調	提供大規模訓練超大型模型所需的擴充和協調功能，同時盡量降低成本。	節點啟動速度更快：這項最佳化功能專為 GPU 工作負載設計，可將節點啟動時間縮短最多 80%。採用 Dynamic Workload Scheduler 的彈性啟動佈建模式：可提高您為短期訓練工作負載取得稀少 GPU 和 TPU 加速器的能力。 Kueue：Kubernetes 原生的工作排隊系統，可管理批次工作負載的資源分配、排程、配額管理和優先順序。 TPU Multislice：硬體和網路架構，可讓多個 TPU Slice 透過資料中心網路 (DCN) 互相通訊，以進行大規模訓練。
整合式 AI/機器學習開發	代管支援 Ray，這是一種開放原始碼架構，可擴充分散式 Python 應用程式。	GKE 上的 Ray 外掛程式：抽象化 Kubernetes 基礎架構，讓您以最少的程式碼變更，擴充大規模資料預先處理、分散式訓練和線上服務等工作負載。

後續步驟

如要探索我們為在 GKE 上執行 AI/機器學習工作負載，提供的豐富官方指南、教學課程和其他資源，請前往 GKE 的 AI/機器學習自動化調度管理入口網站。
瞭解如何取得運算加速器 (例如 GPU 或 TPU)，在 GKE 上執行 AI/機器學習工作負載。
瞭解 GKE 的 AI/機器學習模型推論功能。
瞭解 GKE 上的 Ray。
在 GKE AI Labs 中探索實驗性範例，瞭解如何運用 GKE 加速 AI/機器學習計畫。

GKE 中的 AI/機器學習工作負載簡介 透過集合功能整理內容 你可以依據偏好儲存及分類內容。