本頁說明可用的技術,協助您根據 AI/機器學習工作負載的需求,取得 GPU 或 TPU 等運算加速器。這些技術在 GKE 中稱為「加速器消耗選項」。瞭解不同的消耗選項有助於最佳化資源使用率,避免資源使用不足、提高取得資源的可能性,以及在成本和效能之間取得平衡。
本頁內容適用於平台管理員和營運人員,他們會與機器學習 (ML) 工程師協調,取得部署 AI/ML 工作負載所需的資源。
如要進一步瞭解我們在內容中提及的常見角色和範例工作,請參閱「常見的 GKE 使用者角色和工作」。 Google Cloud
瞭解用量方案
您可以選取下列任一選項,在 GKE 上使用加速器:
- 隨選:在 GKE 上使用 TPU 或 GPU,不必事先安排運算資源。要求資源前,請務必有足夠的隨選配額,可支援特定類型和數量的加速器。以量計價是最具彈性的用量選項,但無法保證有足夠的以量計價資源可滿足您的要求。
- 預留:在一段時間內預留資源。預訂可以是下列任一值:
- 未來預留項目:您通常會預留資源較長的時間,以供日後特定時間使用。您可以在這段時間內專屬使用預留資源。如要預訂日後場地,請與客戶技術顧問 (TAM) 聯絡。詳情請參閱 TPU 和 GPU 指南。
- 未來 90 天內的預留項目 (日曆模式):你可以要求在特定時間範圍內預留容量,日曆顧問會建議可用的日期。預訂未來 90 天內的行程 (日曆模式),可彈性預訂較短的行程,並自行搜尋容量。詳情請參閱「日曆模式中的未來預訂要求」。
- 隨需預留項目:您可以要求在容量可用時佈建隨需預留項目,與隨需選項類似。預留項目生效後,無論是否使用資源,您都必須支付費用。
- 彈性啟動:您可為短期工作負載取得密集分配的資源,不必預留資源。您要求特定數量的 GPU 或 TPU,Compute Engine 會在容量可用時佈建這些資源。GPU 或 TPU 最多可連續運作七天。詳情請參閱彈性啟動佈建。
- Spot:您可佈建 Spot VM,享有大幅折扣,但 Spot VM 可能隨時遭到搶佔,且系統只會提前 30 秒發出警告。詳情請參閱「Spot VM」。
瞭解 GKE 中的加速器配額
配額和系統限制會限制您使用 Google Cloud 資源,確保所有 Google Cloud 使用者都能使用資源。配額有預設值,但您通常可以申請調整。系統限制是固定的值,無法變更。根據預設,專案通常不會提供大量加速器配額。您必須要求特定加速器類型和區域的配額,並獲得核准。
管理工作負載所需的配額時,請考量下列特性:
您必須為每個用量選項申請所需配額。如要瞭解各個用量選項所需的配額,請參閱選擇用量選項表格中列出的相應「配額」參數。如果配額不足,嘗試建立叢集、節點集區或部署需要加速器的作業時,會失敗並顯示
Quota exceeded
錯誤。在 Autopilot 中使用自訂運算類別時,您必須要求配額。為滿足運算類別需求而佈建的節點,仍會耗用專案的指定加速器配額。
Google Cloud 免費試用帳戶無法要求增加 GPU 和 TPU 等高價值資源的配額。如要使用加速器配額,請升級為付費帳戶。
如要查看及申請配額,請前往 Google Cloud 控制台的「配額」頁面。您可以篩選加速器配額,並要求增加配額。
選擇用量方案
請根據下列考量事項,為 AI/機器學習工作負載選擇最合適的用量方案:
- 工作負載類型:請考慮要實作的工作負載類型。
如果您執行的是訓練或推論工作負載,GKE 需求會有所不同:
- 訓練:需要具備大量記憶體的高效能資源。訓練工作負載通常有明確的生命週期。這類工作負載通常較容易規劃,因為資源消耗量較不容易突然暴增。
- 推論:通常需要針對可擴充性和降低成本進行最佳化的加速器。資源用量突然激增時,推論工作負載可能需要大量加速器記憶體。
- 根據導入階段設定生命週期:如果您要執行概念驗證 (POC)、平台評估、應用程式開發或測試、正式上線或最佳化,請考量業務目標。
- 佈建時間:判斷工作負載是否需要立即執行,或日後再執行。如果未來可以執行,請判斷開始時間的彈性程度。
- 兼顧成本與效能:評估工作負載的效能需求和預算限制,選取最具成本效益的加速器。請權衡加速器的成本和效能特性。請注意,新加速器可能會提高成本效益比。
請參閱下表,選擇合適的用量方案:
工作負載類型 | 佈建時間 | 效期 | 建議的用量方案 |
---|---|---|---|
|
立即 (預訂已核准) | 長期 (每個預留項目) | 如要使用任何 GPU (A4X、A4 或 A3 Ultra 除外) 或任何 TPU,請使用隨選預留:
|
如要使用 G2、A2、A3 High 或 A3 Mega 加速器,請使用未來預留項目:
|
|||
|
立即 (預訂已核准) | 最多 90 天 |
|
|
隨選 (視提供的服務情形而定) | 每個分配最多 7 天 | |
|
隨選 (視提供的服務情形而定) | 變數,可透過 30 秒警告搶占 | |
|
立即 (視提供的服務情形而定) | 不限 |
後續步驟
- 進一步瞭解 GKE 中的 GPU。
- 進一步瞭解 GKE 中的 TPU。
- 進一步瞭解 GKE 的 AI/機器學習推論功能。