關於 GPU 執行個體

本文說明在 Compute Engine 上執行的 GPU 虛擬機器 (VM) 執行個體的特性和限制。

如要加速處理 Compute Engine 上的特定工作負載,您可以部署已附加 GPU 的加速器最佳化執行個體,或是將 GPU 附加至 N1 一般用途執行個體。Compute Engine 以直通模式為執行個體提供 GPU。直通模式可讓執行個體直接控制 GPU 和其記憶體。

您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級電腦系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。

支援的機器類型

Compute Engine 提供不同機器類型,支援各種工作負載。

部分機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時,Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的價格,請參閱 GPU 定價頁面

GPU 機器類型
AI 和機器學習工作負載 圖形和視覺化 其他 GPU 工作負載
加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。

後續世代的 A 系列非常適合預先訓練和微調基礎模型,這類模型需要大量加速器叢集;A2 系列則可用於訓練較小的模型和單一主機推論。

對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。

加速器最佳化 G 系列機型專為工作負載設計,例如 NVIDIA Omniverse 模擬工作負載、含有大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)

G 系列也可用於訓練較小的模型,以及單一主機推論。

對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。

對於 N1 一般用途機器類型 (N1 共用核心除外,即 f1-microg1-small),您可以附加一組選定的 GPU 型號。部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。

  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
下列 GPU 型號可附加至 N1 一般用途機器類型:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

Spot VM 上的 GPU

您可以用較低的 GPU Spot 價格,將 GPU 新增至 Spot VM。連接至 Spot VM 的 GPU,在運作方式上就如同一般的 GPU,但僅會在 VM 的可用期限內保留。具有 GPU 的 Spot VM,其先占程序與其他所有 Spot VM 均相同。

建議您申請專屬 Preemptible GPU 配額,用於 Spot VM 上的 GPU。詳情請參閱「Spot VM 配額」。

在維護作業期間,根據預設會先占具有 GPU 的 Spot VM,且這類 VM 無法自動重新啟動。如要重新建立已先占的 VM,請使用代管執行個體群組。代管執行個體群組會在 vCPU、記憶體和 GPU 資源可供使用時,重新建立 VM 執行個體。

如果您想在 VM 遭到先占前收到警告,或是想將 VM 設定成在維護作業過後自動重新啟動,請使用具有 GPU 的標準 VM。對於搭載 GPU 的標準 VM,Compute Engine 會在先占前提前一小時通知

如果 GPU 的 VM 在開始執行後的一分鐘內即已先占,則 Compute Engine 不會向您收取 GPU 的使用費。

如要瞭解如何建立附加 GPU 的 Spot VM,請參閱「建立附加 GPU 的 VM」和「建立 Spot VM」。舉例來說,請參閱「使用 Spot VM 建立 A3 Ultra 或 A4 執行個體」。

具有預先定義執行時間的執行個體上的 GPU

使用標準佈建模式的執行個體通常無法使用先占分配配額。先占配額適用於暫時性工作負載,通常較容易取得。如果專案沒有先占配額,且您從未要求先占配額,則專案中的所有執行個體都會消耗標準分配配額。

如果您要求搶占式配置配額,則使用標準佈建模型的執行個體必須符合下列所有條件,才能消耗搶占式配置配額:

為有時間限制的 GPU 工作負載使用先占分配量時,您可享有不間斷的執行時間,以及先占分配量配額的高取得率。詳情請參閱「先佔配額」。

GPU 和機密 VM

您可以在 A3 機器系列上,搭配使用 GPU 和採用 Intel TDX 的機密 VM 執行個體。詳情請參閱機密 VM 的支援設定。如要瞭解如何建立搭載 GPU 的機密 VM 執行個體,請參閱「建立搭載 GPU 的機密 VM 執行個體」。

GPU 和區塊儲存空間

使用 GPU 機器類型建立執行個體時,可以將永久或暫時的區塊儲存空間新增至執行個體。如要儲存非暫時性資料,請使用永久區塊儲存空間,例如 Hyperdisk永久磁碟,因為這些磁碟與執行個體的生命週期無關。即使刪除執行個體,永久儲存空間中的資料仍可保留。

如要使用暫存區塊儲存空間做為暫存儲存空間或快取,請在建立執行個體時新增本機 SSD 磁碟

使用 Persistent Disk 和 Hyperdisk 磁碟區的永久區塊儲存空間

您可以將 Persistent Disk 和 Hyperdisk 磁碟區連接至已啟用 GPU 的執行個體。

如要處理機器學習和服務工作負載,請使用 Hyperdisk ML 磁碟區,這類磁碟區提供高處理量,並縮短資料載入時間。Hyperdisk ML 可減少 GPU 閒置時間,因此是機器學習工作負載更具成本效益的選擇。

Hyperdisk ML 磁碟區提供唯讀多重附加支援,因此您可以將相同磁碟附加至多個執行個體,讓每個執行個體存取相同資料。

如要進一步瞭解支援 GPU 的機器系列支援的磁碟類型,請參閱 N1加速器最佳化機器系列頁面。

本機固態硬碟磁碟

本機 SSD 磁碟可提供快速的暫時儲存空間,用於快取、資料處理或其他暫時性資料。本機 SSD 磁碟與代管執行個體的伺服器實體連接,因此提供快速儲存空間。本機 SSD 磁碟提供暫時儲存空間,因為執行個體重新啟動時會遺失資料。

請勿在本機 SSD 磁碟上儲存需要高度持久性的資料。如要儲存非暫時性資料,請改用永久儲存空間

如果手動停止含有 GPU 的執行個體,可以保留本機 SSD 資料,但須遵守特定限制。詳情請參閱本機 SSD 說明文件

如要瞭解各區域支援的 GPU 類型和本機 SSD,請參閱各 GPU 區域和可用區的本機 SSD 可用性

GPU 和主機維護

當主機伺服器執行維護事件時,Compute Engine 一律會停止附加 GPU 的執行個體。如果執行個體已連結本機 SSD 磁碟,停止執行個體後,本機 SSD 資料就會遺失。

如要瞭解如何處理維護作業,請參閱「處理 GPU 主機維護事件」。

預留 GPU 容量

保留項目可確保您取得區域專屬資源的容量,包括 GPU。您可以預留 GPU,確保在需要使用 GPU 執行耗用大量效能的應用程式時,有足夠的 GPU 可用。如要瞭解在 Compute Engine 中預留特定區域資源的不同方法,請參閱「選擇預留類型」。

如要享有 GPU 的承諾使用折扣 (CUD),也需要預留。

GPU 定價

如果您要求 Compute Engine 使用現成、彈性啟動或預留綁定佈建模型佈建 GPU,則可依據 GPU 類型享有折扣價。您也可以為 GPU 用量取得承諾使用折扣或續用折扣 (僅適用於 N1 VM)。

如要瞭解 GPU 每小時和每月的價格,請參閱 GPU 定價頁面

GPU 承諾使用折扣

只要承諾在特定區域使用資源至少一年,即可享有依資源計算的承諾使用合約,並獲得 Compute Engine 資源的大幅折扣。您通常會購買 vCPU、記憶體、GPU 和本機 SSD 磁碟等資源的承諾,以便搭配特定機器系列使用。使用資源時,您會以折扣價取得符合條件的資源用量。如要進一步瞭解這些折扣,請參閱「依資源計算的承諾使用折扣」。

如要購買含 GPU 的承諾,您也必須預留 GPU,並將預留項目附加至承諾。如要進一步瞭解如何將預留項目加入承諾使用合約,請參閱「將預留項目加入以資源為準的承諾使用合約」一文。

GPU 續用折扣

使用 N1 機器類型並附加 GPU 的執行個體,可享有與 vCPU 相似的續用折扣 (SUD)。選用適用於虛擬工作站的 GPU 時,Compute Engine 會自動將 NVIDIA RTX 虛擬工作站授權新增至執行個體。

GPU 限制

如果執行個體已附加 GPU,則須遵守下列限制:

  • 只有加速器最佳化 (A4X、A4、A3、A2、G4 和 G2) 和一般用途 N1 機器類型支援 GPU。

  • 為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何受支援區域中建立的 GPU 總數。要求 GPU 配額時,您必須為要在各個地區中建立的 GPU 模型要求配額,並依據所有區域中全部類型之 GPU 的總數要求額外的全域配額。

  • 如果執行個體有一或多個 GPU,針對新增至執行個體的每一 GPU,均有 vCPU 數量上限。如要查看不同 GPU 設定的可用 vCPU 和記憶體範圍,請參閱 GPU 清單

  • GPU 需要裝置驅動程式才能正常運作。在 Compute Engine 上執行的 NVIDIA GPU 必須使用最低驅動程式版本。如要進一步瞭解驅動程式版本,請參閱「必要 NVIDIA 驅動程式版本」。

  • 只有附加的 GPU 模型正式推出後,Compute Engine 服務水準協議才會涵蓋附加該 GPU 模型的執行個體。

    如果地區有多個可用區,只有當 GPU 模型在該地區有多個可用區提供使用時,Compute Engine 服務水準協議才會涵蓋執行個體。如要查看各區域的 GPU 型號,請參閱 GPU 區域和可用區

  • Compute Engine 支援每個 GPU 能有 1 位並行使用者。

  • 另請參閱各機器類型搭配附加 GPU 的限制

後續步驟