關於 GKE 中 AI/機器學習工作負載的加速器用量選項


本頁說明可用的技術,協助您根據 AI/機器學習工作負載的需求,取得 GPUTPU 等運算加速器。這些技術在 GKE 中稱為「加速器消耗選項」。瞭解不同的消耗選項有助於最佳化資源使用率,避免資源使用不足、提高取得資源的可能性,以及在成本和效能之間取得平衡。

本頁內容適用於平台管理員和營運人員,他們會與機器學習 (ML) 工程師協調,取得部署 AI/ML 工作負載所需的資源。

如要進一步瞭解我們在內容中提及的常見角色和範例工作,請參閱「常見的 GKE 使用者角色和工作」。 Google Cloud

瞭解用量方案

您可以選取下列任一選項,在 GKE 上使用加速器:

  • 隨選:在 GKE 上使用 TPU 或 GPU,不必事先安排運算資源。要求資源前,請務必有足夠的隨選配額,可支援特定類型和數量的加速器。以量計價是最具彈性的用量選項,但無法保證有足夠的以量計價資源可滿足您的要求。
  • 預留:在一段時間內預留資源。預訂可以是下列任一值:
    • 未來預留項目:您通常會預留資源較長的時間,以供日後特定時間使用。您可以在這段時間內專屬使用預留資源。如要預訂日後場地,請與客戶技術顧問 (TAM) 聯絡。詳情請參閱 TPUGPU 指南。
    • 未來 90 天內的預留項目 (日曆模式):你可以要求在特定時間範圍內預留容量,日曆顧問會建議可用的日期。預訂未來 90 天內的行程 (日曆模式),可彈性預訂較短的行程,並自行搜尋容量。詳情請參閱「日曆模式中的未來預訂要求」。
    • 隨需預留項目:您可以要求在容量可用時佈建隨需預留項目,與隨需選項類似。預留項目生效後,無論是否使用資源,您都必須支付費用。
  • 彈性啟動:您可為短期工作負載取得密集分配的資源,不必預留資源。您要求特定數量的 GPU 或 TPU,Compute Engine 會在容量可用時佈建這些資源。GPU 或 TPU 最多可連續運作七天。詳情請參閱彈性啟動佈建
  • Spot:您可佈建 Spot VM,享有大幅折扣,但 Spot VM 可能隨時遭到搶佔,且系統只會提前 30 秒發出警告。詳情請參閱「Spot VM」。

瞭解 GKE 中的加速器配額

配額和系統限制會限制您使用 Google Cloud 資源,確保所有 Google Cloud 使用者都能使用資源。配額有預設值,但您通常可以申請調整。系統限制是固定的值,無法變更。根據預設,專案通常不會提供大量加速器配額。您必須要求特定加速器類型和區域的配額,並獲得核准。

管理工作負載所需的配額時,請考量下列特性:

  • 您必須為每個用量選項申請所需配額。如要瞭解各個用量選項所需的配額,請參閱選擇用量選項表格中列出的相應「配額」參數。如果配額不足,嘗試建立叢集、節點集區或部署需要加速器的作業時,會失敗並顯示 Quota exceeded 錯誤。

  • 在 Autopilot 中使用自訂運算類別時,您必須要求配額。為滿足運算類別需求而佈建的節點,仍會耗用專案的指定加速器配額。

  • Google Cloud 免費試用帳戶無法要求增加 GPU 和 TPU 等高價值資源的配額。如要使用加速器配額,請升級為付費帳戶。

如要查看及申請配額,請前往 Google Cloud 控制台的「配額」頁面。您可以篩選加速器配額,並要求增加配額。

選擇用量方案

請根據下列考量事項,為 AI/機器學習工作負載選擇最合適的用量方案:

  • 工作負載類型:請考慮要實作的工作負載類型。 如果您執行的是訓練或推論工作負載,GKE 需求會有所不同:
    • 訓練:需要具備大量記憶體的高效能資源。訓練工作負載通常有明確的生命週期。這類工作負載通常較容易規劃,因為資源消耗量較不容易突然暴增。
    • 推論:通常需要針對可擴充性和降低成本進行最佳化的加速器。資源用量突然激增時,推論工作負載可能需要大量加速器記憶體。
  • 根據導入階段設定生命週期:如果您要執行概念驗證 (POC)、平台評估、應用程式開發或測試、正式上線或最佳化,請考量業務目標。
  • 佈建時間:判斷工作負載是否需要立即執行,或日後再執行。如果未來可以執行,請判斷開始時間的彈性程度。
  • 兼顧成本與效能:評估工作負載的效能需求和預算限制,選取最具成本效益的加速器。請權衡加速器的成本和效能特性。請注意,新加速器可能會提高成本效益比。

請參閱下表,選擇合適的用量方案:

工作負載類型 佈建時間 效期 建議的用量方案
  • 長時間執行的大規模工作負載,例如預先訓練基礎模型或多主機推論。
  • 正式環境工作負載。
立即 (預訂已核准) 長期 (每個預留項目)

如要使用任何 GPU (A4X、A4 或 A3 Ultra 除外) 或任何 TPU,請使用隨選預留

  • 費用:系統會收取整個預訂期間的費用。
  • 配額:系統會在提供容量前自動增加配額。

如要使用 G2、A2、A3 High 或 A3 Mega 加速器,請使用未來預留項目

  • 費用:系統會收取整個預訂期間的費用。
  • 配額:系統會在提供容量前自動增加配額。
  • 需要精確開始時間的短期分散式工作負載,例如模型微調、模擬或批次推論。
  • 用於平台評估、基準化或最佳化測試的工作負載。
立即 (預訂已核准) 最多 90 天

最多 90 天的未來預留項目 (日曆模式)

  • 費用:折扣價 (最多可省下 53%)。系統會向您收取預訂期間的費用。
  • 配額:不會收取配額費用。
  • 支援的加速器:A4、A3 Ultra、TPU v5e、TPU v5p、TPU Trillium。
  • 開始時間有彈性的批次工作負載,例如小型模型訓練、微調或可擴充的推論。
  • 概念驗證或整合測試的工作負載。
隨選 (視提供的服務情形而定) 每個分配最多 7 天

彈性啟動佈建模式

  • 費用:折扣價 (最多可省下 53%)。即付即用。
  • 配額:系統會收取 GPU 先占配額TPU 先占配額費用。
  • 支援的加速器:A4X 以外的所有 GPU 系列。所有 TPU 版本。
  • 容錯工作負載,例如 CI/CD、資料分析或高效能運算 (HPC),但優先順序較低。
  • 高度可中斷的工作負載。
隨選 (視提供的服務情形而定) 變數,可透過 30 秒警告搶占

Spot VM

  • 費用:大幅折扣 (60% 至 91%)。即付即用。
  • 配額:系統會收取 GPU 先占配額TPU 先占配額費用。
  • 支援的加速器:A4X 以外的所有 GPU 系列。所有 TPU 版本。
  • 需要立即執行的一般用途工作負載。
立即 (視提供的服務情形而定) 不限

隨選 (GPUTPU)

  • 費用:即付即用。
  • 配額:系統會收取 GPUTPU 隨選配額費用。
  • 支援的加速器:A4X、A4 或 A3 Ultra 以外的所有 GPU 系列。所有 TPU 版本。

後續步驟