本頁面由 Cloud Translation API 翻譯而成。

關於 GKE 中 AI/機器學習工作負載的加速器用量選項

自動駕駛標準

本頁說明可用的技術，協助您根據 AI/機器學習工作負載的需求，取得 GPU 或 TPU 等運算加速器。這些技術在 GKE 中稱為「加速器消耗選項」。瞭解不同的消耗選項有助於最佳化資源使用率，避免資源使用不足、提高取得資源的可能性，以及在成本和效能之間取得平衡。

本頁內容適用於平台管理員和營運人員，他們會與機器學習 (ML) 工程師協調，取得部署 AI/ML 工作負載所需的資源。

如要進一步瞭解我們在內容中提及的常見角色和範例工作，請參閱「常見的 GKE 使用者角色和工作」。 Google Cloud

瞭解用量方案

您可以選取下列任一選項，在 GKE 上使用加速器：

隨選：在 GKE 上使用 TPU 或 GPU，不必事先安排運算資源。要求資源前，請務必有足夠的隨選配額，可支援特定類型和數量的加速器。以量計價是最具彈性的消費選項，但無法保證有足夠的以量計價資源可滿足您的要求。
預留：在一段時間內預留資源。預訂可以是下列任一值：
- 未來預留項目：您通常會預留資源較長的時間，以供日後特定時間使用。您可以在這段時間內專屬使用預留資源。如要預訂日後場地，請與客戶技術顧問 (TAM) 聯絡。詳情請參閱 TPU 和 GPU 指南。
- 未來 90 天內的預留項目 (日曆模式)：你可以要求在特定時間範圍內預留容量，日曆顧問會建議可用的日期。預訂未來 90 天內的行程 (日曆模式)，可彈性預訂較短的行程，並自行搜尋容量。詳情請參閱「日曆模式中的未來預訂要求」。
- 隨需預留項目：您可以要求在容量可用時立即佈建隨需預留項目，這與隨需選項類似。預留項目生效後，無論是否使用資源，您都必須支付費用。
彈性啟動：您可為短期工作負載取得密集分配的資源，不必預留資源。您要求特定數量的 GPU 或 TPU，Compute Engine 會在容量可用時佈建這些資源。GPU 或 TPU 最多可連續運作七天。詳情請參閱彈性啟動佈建。
Spot：您可佈建 Spot VM，享有大幅折扣，但 Spot VM 可能隨時遭到先占，且系統只會提前 30 秒發出警告。詳情請參閱「Spot VM」。

瞭解 GKE 中的加速器配額

配額和系統限制會限制您使用 Google Cloud 資源，確保所有 Google Cloud 使用者都能使用資源。配額有預設值，但您通常可以申請調整。系統限制是固定的值，無法變更。根據預設，專案通常不會提供大量加速器配額。您必須要求並獲得特定加速器類型和區域的配額核准。

管理工作負載所需的配額時，請考量下列特性：

您必須為每個用量選項申請所需配額。如要瞭解各個用量選項所需的配額，請參閱選擇用量選項表格中列出的相應「配額」參數。如果配額不足，嘗試建立叢集、節點集區或部署需要加速器的作業時，會失敗並顯示 Quota exceeded 錯誤。
在 Autopilot 中使用自訂運算類別時，您必須要求配額。為滿足運算類別需求而佈建的節點，仍會耗用專案的指定加速器配額。
Google Cloud 免費試用帳戶無法要求增加 GPU 和 TPU 等高價值資源的配額。如要使用加速器配額，請升級為付費帳戶。

如要查看及申請配額，請前往 Google Cloud 控制台的「配額」頁面。您可以篩選加速器配額，並要求增加配額。

選擇用量方案

請根據下列考量事項，為 AI/機器學習工作負載選擇最合適的用量選項：

工作負載類型：請考慮要實作的工作負載類型。如果您執行的是訓練或推論工作負載，GKE 需求會有所不同：
- 訓練：需要具備大量記憶體的高效能資源。訓練工作負載通常有明確的生命週期。這類工作負載通常較容易規劃，因為資源消耗量較不容易突然暴增。
- 推論：通常需要針對可擴充性和降低成本進行最佳化的加速器。資源用量突然激增時，推論工作負載可能需要大量加速器記憶體。
根據導入階段設定生命週期：如果您要執行概念驗證 (POC)、平台評估、應用程式開發或測試、正式上線或最佳化，請考量業務目標。
佈建時間：判斷工作負載是否需要立即執行，或日後再執行。如果未來可以執行，請判斷開始時間的彈性程度。
成本與效能之間的平衡：評估工作負載效能需求和預算限制，選取最具成本效益的加速器。請權衡加速器的成本和效能特性。請注意，新的加速器可能會提高成本效益比。

請參閱下表，選擇合適的用量方案：

工作負載類型	佈建時間	效期	建議的用量方案
長時間執行的大規模工作負載，例如預先訓練基礎模型或多主機推論。正式環境工作負載。	立即 (預訂已核准)	長期 (每個預留項目)	如要使用任何 GPU (A4X、A4 或 A3 Ultra 除外) 或任何 TPU，請使用隨選預留：費用：系統會收取整個預訂期間的費用。配額：系統會在提供容量前自動增加配額。
長時間執行的大規模工作負載，例如預先訓練基礎模型或多主機推論。正式環境工作負載。	立即 (預訂已核准)	長期 (每個預留項目)	如要使用 G2、A2、A3 High 或 A3 Mega 加速器，請使用未來預留項目：費用：系統會收取整個預訂期間的費用。配額：系統會在提供容量前自動增加配額。
需要精確開始時間的短期分散式工作負載，例如模型微調、模擬或批次推論。用於平台評估、基準化或最佳化測試的工作負載。	立即 (預訂已核准)	最多 90 天	最多 90 天的未來預留項目 (日曆模式)：費用：折扣價 (最多可省下 53%)。系統會向您收取預訂期間的費用。配額：不會收取配額費用。支援的加速器：A4、A3 Ultra、TPU v5e、TPU v5p、TPU Trillium。
批次工作負載，例如小型模型訓練、微調或可擴充的推論，且開始時間彈性。概念驗證或整合測試的工作負載。	隨選 (視提供的服務情形而定)	每個分配最多 7 天	彈性啟動佈建模式：費用：折扣價 (最多可省下 53%)。即付即用。配額：系統會收取 GPU 先占配額或 TPU 先占配額費用。支援的加速器：A4X 以外的所有 GPU 系列。所有 TPU 版本。
容錯工作負載，例如 CI/CD、資料分析或高效能運算 (HPC)，但優先順序較低。高度可中斷的工作負載。	隨選 (視提供的服務情形而定)	變數，可透過 30 秒警告搶占	Spot VM：費用：大幅折扣 (60% 至 91%)。即付即用。配額：系統會收取 GPU 先占配額或 TPU 先占配額費用。支援的加速器：A4X 以外的所有 GPU 系列。所有 TPU 版本。
需要立即執行的一般用途工作負載。	立即 (視提供的服務情形而定)	不限	隨選 (GPU 或 TPU)：費用：即付即用。配額：系統會收取 GPU 或 TPU 隨選配額費用。支援的加速器：A4X、A4 或 A3 Ultra 以外的所有 GPU 系列。所有 TPU 版本。

後續步驟

進一步瞭解 GKE 中的 GPU。
進一步瞭解 GKE 中的 TPU。
進一步瞭解 GKE 的 AI/機器學習推論功能。