本頁面由 Cloud Translation API 翻譯而成。

關於 GKE 的 AI/機器學習模型推論功能

自動駕駛標準

本頁面說明如何使用 GKE Gen AI 功能，在 Google Kubernetes Engine (GKE) 上執行生成式 AI/機器學習模型推論工作負載，並介紹相關基本概念、優點和步驟。

將生成式 AI 模型部署至實際應用程式時，推論服務至關重要。GKE 提供強大且可擴充的平台，可管理容器化工作負載，因此是開發或正式環境中模型服務的絕佳選擇。透過 GKE，您可以使用 Kubernetes 的自動化調度、擴充和高可用性功能，有效部署及管理推論服務。

為滿足 AI/機器學習推論的特定需求， Google Cloud 推出了一系列專為提升及最佳化 GKE 推論服務而設計的功能，也就是 GKE 生成式 AI 功能。如要進一步瞭解特定功能，請參閱 GKE 生成式 AI 功能。

如果您是 GKE 新手，請展開下列章節，瞭解 GKE 和 Kubernetes 基礎知識：

GKE 叢集和節點： 所有 Kubernetes 工作負載都會在節點上執行。在 GKE 中，節點是 Compute Engine 虛擬機器 (VM)。在其他 Kubernetes 平台上，節點可以是實體或虛擬機器。每個節點都由 Kubernetes 控制層管理，並具備執行 Pod 的所有必要元件。叢集是一組節點，可做為單一實體一起處理，您可以在叢集上部署容器化應用程式。
Pod 和部署：
- 在 Kubernetes 中，容器化應用程式會在 Pod 內執行。Pod 是 Kubernetes 中最小的可部署運算單元，Pod 具有一或多個「容器」。
- 部署作業是 Kubernetes API 物件，可讓您執行多個 Pod 副本，並將這些副本分配到叢集中的節點。
GKE 作業模式：
- Autopilot：在這個模式中，GKE 會全面管理叢集的節點，包括設定、資源調度和安全性。您不需要佈建或管理節點基礎架構，只要專心部署應用程式 (Pod) 即可。
- 標準：這個模式可全面掌控節點設定。您建立及管理的節點群組稱為節點集區。 Autopilot 可簡化作業，並支援加速器，因此適合許多推論工作負載。如果您需要精細控管節點類型或特定設定，以提升效能或降低成本，且 Autopilot 無法滿足需求，則可能偏好使用 Standard 模式。

開始在 GKE 上進行 AI/機器學習模型推論

您可以在幾分鐘內開始探索 GKE 的 AI/機器學習模型推論功能。您可以使用 GKE 的免費層級，開始使用 Kubernetes，不必支付叢集管理費用。

前往 Google Cloud 控制台中的 GKE AI/機器學習頁面
請嘗試部署模型步驟，部署容器化模型和模型伺服器。
請參閱「規劃推論作業」，瞭解如何在 GKE 上規劃及執行推論工作負載。

術語

本頁面使用下列與 GKE 推論相關的術語：

推論：在 GKE 叢集中執行生成式 AI 模型 (例如大型語言模型或擴散模型) 的程序，從輸入資料生成文字、嵌入項目或其他輸出內容。在 GKE 上進行模型推論時，可運用加速器有效處理複雜的運算，以進行即時或批次處理。
模型：從資料中學習模式的生成式 AI 模型，用於推論。模型的大小和架構各有不同，從較小的特定領域模型，到經過最佳化處理、可執行各種語言工作的大型數十億參數神經網路都有。
模型伺服器：負責接收推論要求並傳回推論結果的容器化服務。這項服務可以是 Python 應用程式，也可以是更強大的解決方案，例如 vLLM、JetStream、TensorFlow Serving 或 Triton Inference Server。模型伺服器會將模型載入記憶體，並在加速器上執行運算，有效率地傳回推論結果。
加速器：專用硬體，例如 NVIDIA 的圖形處理器 (GPU) 和 Google 的 Tensor Processing Unit (TPU)，可附加至 GKE 節點，加快運算速度，特別是訓練和推論工作。
量化：這項技術可將模型權重和啟用狀態從高精確度資料型別轉換為低精確度資料型別，藉此縮減 AI/機器學習模型的大小，並提升推論速度。

GKE 推論的優點

在 GKE 上提供推論服務有幾項優點：

高效率的價格效能：滿足推論服務需求，同時兼顧價值和速度。GKE 提供多種強大的加速器 (GPU 和 TPU) 供您選擇，因此您只需支付所需的效能費用。
加快部署速度：運用 GKE 生成式 AI 功能提供的量身打造最佳做法、資格和最佳做法，加快上市時間。
可擴充的效能：使用 GKE Inference Gateway、水平 Pod 自動調度資源 (HPA) 和自訂指標，透過預先建構的監控功能擴充效能。您可以執行各種預先訓練或自訂模型，參數範圍從 80 億到 6710 億個。
完整可攜性：透過開放標準享有完整可攜性。Google 參與了 Kubernetes 主要 API 的開發，包括 Gateway 和 LeaderWorkerSet，所有 API 都能透過 Kubernetes 發行版本移植。
生態系統支援：以 GKE 穩健的生態系統為基礎，支援 Kueue 等工具，進行進階資源佇列和管理，以及支援 Ray，進行分散式運算，以利擴充及有效率地訓練和推論模型。

GKE 推論的運作方式

本節將大致說明使用 GKE 進行推論服務的步驟：

將模型容器化：如要容器化應用程式，請建立容器映像檔，也就是可執行的套件，內含執行應用程式所需的一切：程式碼、執行階段、系統工具、系統程式庫和設定。簡單的應用程式可以容器化為單一單元，較複雜的應用程式則可分解為多個容器化元件。將模型伺服器 (例如 vLLM) 容器化，並從 Cloud Storage 或 Hugging Face 等存放區載入模型權重，即可部署模型。使用 GKE Inference Quickstart 時，系統會自動在資訊清單中管理容器化映像檔。
建立 GKE 叢集：建立 GKE 叢集來代管部署作業。選擇 Autopilot 即可享有代管體驗，選擇 Standard 則可自訂設定。設定叢集大小、節點類型和加速器。如要瞭解最佳化設定，請參閱推論快速入門導覽課程。
將模型部署為 Kubernetes Deployment：建立 Kubernetes Deployment，管理推論服務。部署作業是 Kubernetes API 物件，可讓您執行多個 Pod 副本，並將這些副本分散到叢集中的節點。指定 Docker 映像檔、副本和設定。Kubernetes 會提取映像檔，並在 GKE 叢集節點上執行容器。使用模型伺服器和模型設定 Pod，包括視需要使用 LoRA 轉接頭。
公開推論服務：建立 Kubernetes 服務，為 Deployment 提供網路端點，讓推論服務可供存取。使用 Inference Gateway 進行智慧負載平衡和路由，專為生成式 AI 推論工作負載量身打造。使用 Inference Gateway 進行智慧型負載平衡，專為生成式 AI 工作負載量身打造，或參閱負載平衡策略比較，選擇最符合需求的選項。
處理推論要求：以預期格式 (JSON、gRPC) 將應用程式用戶端的資料傳送至服務端點。如果您使用負載平衡器，系統會將要求分配給模型副本。模型伺服器會處理要求、執行模型，並傳回推論結果。
調度及監控推論部署作業：使用 HPA 調度推論作業，根據 CPU 或延遲時間自動調整副本。水平 Pod 自動調度器 (HPA) 是 Kubernetes 控制器，會根據觀察到的指標 (例如 CPU 使用率或自訂指標)，自動增加或減少工作負載 (例如 Deployment) 中的 Pod 數量。使用「Inference Quickstart」取得自動生成的縮放建議。如要追蹤效能，請使用 Cloud Monitoring 和 Cloud Logging，並搭配預先建構的觀測功能，包括熱門模型伺服器 (例如 vLLM) 的資訊主頁。

如需使用特定模型、模型伺服器和加速器的詳細範例，請參閱「推論範例」。

GKE 生成式 AI 功能

您可以一併或個別使用這些功能，解決在 GKE 環境中提供生成式 AI 模型，以及提升資源使用率時遇到的主要挑戰，且不必支付額外費用。

名稱	說明	優點
GKE 推論快速入門導覽課程	分析推論工作負載的效能和成本效益。指定業務需求，並取得量身打造的最佳做法，瞭解如何搭配使用加速器、擴充和儲存空間設定，以及最符合需求的模型伺服器。您可以使用 gcloud CLI 和 Google Cloud 控制台存取這項服務。詳情請參閱「參加『GKE 推論快速入門導覽課程』，瞭解如何分析模型服務效能和成本」。	自動執行選擇及設定基礎架構的初始步驟，節省時間。讓您全面掌控 Kubernetes 設定，進一步調整。
GKE Inference Gateway	根據 KV 快取使用率等指標取得路由，以縮短延遲時間。詳情請參閱「關於 GKE Inference Gateway」一文。	分享使用 LoRA 檔案微調的模型，並根據親和性選擇端點，以提高成本效益。跨區域動態存取 GPU 和 TPU 容量，確保高可用性。使用 Model Armor 外掛程式政策，提升模型的安全性。
模型權重載入加速器	使用 Cloud Storage FUSE 搭配快取和並行下載功能，快速存取 Cloud Storage 中的資料。對於需要穩定擴充效能的推論工作負載，Google Cloud Hyperdisk ML 是網路連接磁碟，最多可連接 2,500 個 Pod。	在 GKE 上盡量縮短權重載入模型延遲時間，以縮短推論啟動時間。如果部署作業的節點調度有限，請考慮使用 Cloud Storage FUSE 掛接模型權重。對於需要持續以低延遲存取大型模型權重的超大規模情境，Google Cloud Hyperdisk ML 提供專屬的區塊儲存空間解決方案。

名稱

說明

優點

GKE 推論快速入門導覽課程

分析推論工作負載的效能和成本效益。指定業務需求，並取得量身打造的最佳做法，瞭解如何搭配使用加速器、擴充和儲存空間設定，以及最符合需求的模型伺服器。您可以使用 gcloud CLI 和 Google Cloud 控制台存取這項服務。

詳情請參閱「參加『GKE 推論快速入門導覽課程』，瞭解如何分析模型服務效能和成本」。

自動執行選擇及設定基礎架構的初始步驟，節省時間。
讓您全面掌控 Kubernetes 設定，進一步調整。

GKE Inference Gateway

根據 KV 快取使用率等指標取得路由，以縮短延遲時間。

詳情請參閱「關於 GKE Inference Gateway」一文。

分享使用 LoRA 檔案微調的模型，並根據親和性選擇端點，以提高成本效益。
跨區域動態存取 GPU 和 TPU 容量，確保高可用性。
使用 Model Armor 外掛程式政策，提升模型的安全性。

模型權重載入加速器

使用 Cloud Storage FUSE 搭配快取和並行下載功能，快速存取 Cloud Storage 中的資料。

對於需要穩定擴充效能的推論工作負載，Google Cloud Hyperdisk ML 是網路連接磁碟，最多可連接 2,500 個 Pod。

在 GKE 上盡量縮短權重載入模型延遲時間，以縮短推論啟動時間。
如果部署作業的節點調度有限，請考慮使用 Cloud Storage FUSE 掛接模型權重。
對於需要持續以低延遲存取大型模型權重的超大規模情境，Google Cloud Hyperdisk ML 提供專屬的區塊儲存空間解決方案。

規劃推論

本節將介紹在 GKE 上執行推論工作負載時，應考量的一些重要事項。

具成本效益

由於使用加速器，提供大型生成式 AI 模型服務的費用可能很高，因此您應著重於有效運用資源。選取合適的機型和加速器至關重要，因為您必須根據模型大小和量化層級，選擇適當的加速器記憶體。舉例來說，搭載 NVIDIA L4 GPU 的 G2 執行個體適合較小的模型，可節省成本，而 A3 執行個體則更適合較大的模型。

請參考下列提示和建議，盡可能提高成本效益：

使用推論快速入門，根據您的效能需求取得建議的加速器。
使用量化和要求批次處理等技術，提升放送效率。詳情請參閱「最佳做法：使用 GPU 最佳化大型語言模型推論」。
企業可以運用自動調度資源功能，依需求動態調整資源。這有助於節省成本，尤其是在工作負載波動的情況下。詳情請參閱下列指南：
- 使用 GPU 自動調度大型語言模型 (LLM) 推論工作負載的最佳做法
- 使用 TPU 自動調度大型語言模型 (LLM) 推論工作負載的最佳做法

效能

如要提升 GKE 的推論效能，請著重於下列基準指標：

基準指標	指標 (單位)	說明
延遲時間	第一個權杖生成時間 (TTFT) (毫秒)	為要求產生第一個權杖所需的時間。
	個別輸出權杖的正規化時間 (NTPOT) (毫秒)	要求延遲時間 (以輸出權杖數量正規化)，以 `request_latency / total_output_tokens` 為單位。
	每個輸出權杖的時間 (TPOT) (毫秒)	生成一個輸出權杖所需的時間，以 `(request_latency - time_to_first_token) / (total_output_tokens - 1)` 為單位。
	權杖間延遲時間 (ITL) (毫秒)	測量生成兩個輸出權杖之間的延遲時間。與 TPOT 不同，ITL 是測量整個要求的延遲時間，而 ITL 則是測量生成每個輸出詞元的時間。接著，系統會匯總這些個別測量結果，產生平均值、中位數和百分位數值 (例如 p90)。
	要求延遲時間 (毫秒)	完成要求的端對端時間。
處理量	每秒要求數	每秒放送的要求總數。請注意，這項指標可能無法準確評估 LLM 輸送量，因為不同內容長度的差異可能很大。
	每秒輸出詞元數	這是以 `total_output_tokens_generated_by_server / elapsed_time_in_seconds` 衡量的常見指標。
	每秒輸入的權杖數	評估結果為 `total_input_tokens_generated_by_server / elapsed_time_in_seconds`。
	每秒權杖數	評估結果為 `total_tokens_generated_by_server / elapsed_time_in_seconds`。這項指標會計算輸入和輸出詞元，協助您比較預填時間較長和解碼時間較長的工作負載。

如要進一步提升效能，請參考下列提示和建議：

如要根據效能需求取得建議的加速器，請使用推論快速入門導覽課程。
如要提升效能，請使用模型伺服器最佳化技術，例如批次處理和 PagedAttention，這些技術都收錄在最佳做法指南中。此外，請優先處理記憶體管理和注意力運算，確保權杖間的延遲時間穩定偏低。
在模型伺服器 (例如 Hugging Face TGI、vLLM 或 NVIDIA Triton) 中使用標準化指標，有助於改善自動調度和負載平衡，進而以所選延遲時間達成更高的輸送量。GKE 可為多個模型伺服器提供自動應用程式監控功能。
使用 GKE 網路基礎架構功能 (例如推論閘道)，盡可能縮短延遲時間。
搭配使用 Cloud Storage FUSE 與平行下載和快取，或使用 Hyperdisk ML，加快從永久儲存空間載入模型權重的速度。
如要進行大規模訓練或推論，請使用 Pathways。Pathways 可讓單一 JAX 用戶端協調多個大型 TPU 配量的工作負載，簡化大規模機器學習運算。詳情請參閱「Pathways」。

可取得性

確保資源 (CPU、GPU 和 TPU) 可取得，對於維持推論工作負載的效能、可用性和成本效益至關重要。推論工作負載通常會出現突發且無法預測的流量模式，這可能會對硬體容量造成挑戰。GKE 提供下列功能，可解決這些挑戰：

資源用量選項：您可以選擇預留項目來確保容量、經濟實惠的資源調度、Dynamic Workload Scheduler，以及Spot VM，以最佳化成本並即時存取資源。
資源大小適中：舉例來說， Google Cloud 提供搭載 NVIDIA H100 GPU (1g、2g 或 4g) 的較小 A3 High VM，可支援 Spot VM，以符合成本效益的方式擴充生成式 AI 推論作業。
加速器運算級別：您可以透過自訂運算級別進行更精細的控制，避免過度佈建，並透過自動備援選項，盡可能取得資源。

節點升級

GKE 會自動執行大部分的升級程序，但您仍須考量升級策略，特別是相容性和測試。如要手動升級，您可以根據推論工作負載的容許中斷時間，選擇突波或藍綠升級。升級速度很快，但可能會短暫影響服務。藍綠升級幾乎不會造成停機，這對即時推論至關重要。詳情請參閱「節點升級策略」。

GPU 和 TPU 不支援即時遷移，因此維護作業需要重新啟動 Pod。使用 GKE 通知，為中斷做好準備。建議使用 Pod 中斷預算 (PDB)，確保可用 Pod 數量下限。確認 Pod 能正常處理終止作業。單一主機事件可能會中斷 TPU 節點，因此請規劃備援措施。如需更多最佳做法，請參閱「管理 GPU 和 TPU 的 GKE 節點中斷情形」。

試用推論範例

查看生成式 AI 模型、加速器和模型伺服器的 GKE 部署範例。如果您剛開始使用，建議先參閱「透過 vLLM 在 GKE 上使用 GPU 提供 Gemma 開放式模型」教學課程。

或者，您也可以依關鍵字搜尋教學課程：

加速器	模型伺服器	教學課程
GPU	vLLM	在 GKE 上提供 DeepSeek-R1 671B 或 Llama 3.1 405B 等 LLM
GPU	vLLM	透過 vLLM 在 GKE 上使用 GPU 提供 Llama 模型
GPU	vLLM	使用 vLLM 在 GKE 上透過 GPU 提供 Gemma 開放式模型
GPU	vLLM	使用 GKE Inference Gateway 提供 LLM 服務
GPU	vLLM	在 GKE 上提供開放式 LLM，並使用預先設定的架構
GPU	NVIDIA Triton	在 GKE 中使用單一 GPU 提供模型
GPU	Ray Serve	透過 Ray 在 L4 GPU 提供大型語言模型
GPU	TGI	在 GKE 中使用多個 GPU 提供 LLM
GPU	NVIDIA Triton	在 GKE 上使用 GPU、Triton 和 TensorRT-LLM 提供 Gemma 開放模型
GPU	Hugging Face TGI	在 GKE 上使用 GPU 和 Hugging Face TGI 提供 Gemma 開放式模型
GPU	TensorFlow Serving	在 GKE 中使用單一 GPU 提供模型
TPU	vLLM	透過 vLLM 在 GKE 上使用 TPU Trillium 提供 LLM
TPU	vLLM	透過 KubeRay 在 GKE 上使用 TPU 提供 LLM
TPU	JetStream	透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM
TPU	JetStream	透過 JetStream 在 GKE 上使用 TPU 提供 Gemma
TPU	MaxDiffusion	透過 MaxDiffusion 在 GKE 上使用 TPU 提供 Stable Diffusion XL (SDXL)
TPU	最佳 TPU	使用 Optimum TPU ，透過 GKE 上的 TPU 提供開放原始碼模型

後續步驟

請前往 GKE 的 AI/機器學習自動化調度管理入口網站，查看官方指南、教學課程和用途，瞭解如何在 GKE 上執行 AI/機器學習工作負載。
如要進一步瞭解如何最佳化模型服務，請參閱「Best practices for optimizing large language model inference with GPUs」。內容涵蓋在 GKE 上使用 GPU 供應 LLM 的最佳做法，例如量化、張量平行處理和記憶體管理。
在 GKE AI Labs 中探索實驗性範例，瞭解如何運用 GKE 加速 AI/機器學習計畫。