本文列出 Compute Engine 提供的 NVIDIA GPU 型號,您可以在虛擬機器 (VM) 執行個體上使用這些 GPU,加快機器學習 (ML)、資料處理和需要大量圖形處理的工作負載。本文也詳細說明哪些 GPU 預先附加至加速器最佳化機器系列 (例如 A4X、A4、A3、A2、G4 和 G2),以及哪些 GPU 可附加至 N1 一般用途執行個體。
您可以參考這份文件,比較不同 GPU 型號的效能、記憶體和功能。如要進一步瞭解加速器最佳化機器家族,包括 CPU 平台、儲存空間選項和網路功能,以及找出符合工作負載的特定機型,請參閱「加速器最佳化機器家族」。
如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
如要查看 Compute Engine 中 GPU 的可用區域和可用區,請參閱「GPU 區域和可用區」。
GPU 機器類型
Compute Engine 提供不同機器類型,支援各種工作負載。
部分機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時,Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的價格,請參閱 GPU 定價頁面。
GPU 機器類型 | |||
---|---|---|---|
AI 和機器學習工作負載 | 圖形和視覺化 | 其他 GPU 工作負載 | |
加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。 後續世代的 A 系列非常適合預先訓練和微調基礎模型,這類模型需要大量加速器叢集;A2 系列則可用於訓練較小的模型和單一主機推論。 對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。 |
加速器最佳化 G 系列機型專為工作負載設計,例如 NVIDIA Omniverse 模擬工作負載、含有大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。 G 系列也可用於訓練較小的模型,以及單一主機推論。 對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。 |
對於 N1 一般用途機器類型 (N1 共用核心除外,即 |
|
|
下列 GPU 型號可附加至 N1 一般用途機器類型:
|
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級電腦系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
A4X 系列機器
A4X 加速器最佳化
機型使用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200
),
非常適合基礎模型訓練和服務。
A4X 是以 NVIDIA GB200 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B200 Blackwell GPU。
已連結 NVIDIA GB200 Grace Blackwell 超級晶片 | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A4 系列機型
A4 加速器最佳化機型連接 NVIDIA B200 Blackwell GPU (nvidia-b200
),非常適合用於基礎模型訓練和服務。
已連結的 NVIDIA B200 Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱網路頻寬。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 系列機型
A3 加速器最佳化機型連接的是 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。
A3 Ultra 機型
A3 Ultra 機型連接 NVIDIA H200 SXM GPU (nvidia-h200-141gb
),是 A3 系列中網路效能最高的機型。A3 Ultra 機型非常適合基礎模型訓練和服務。
附加的 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 Mega、High 和 Edge 機型
如要使用 NVIDIA H100 SXM GPU,可以選擇下列方式:
- A3 Mega:這類機型搭載 H100 SXM GPU (
nvidia-h100-mega-80gb
),非常適合大規模訓練和服務工作負載。 - A3 High:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb
),非常適合訓練和服務工作。 - A3 Edge:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb
),專為服務而設計,且僅在特定區域提供。
A3 Mega
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A2 系列機型
A2 加速器最佳化機型連接 NVIDIA A100 GPU,非常適合模型微調、大型模型和符合成本效益的推論。
A2 系列機器分為兩種:
- A2 Ultra:這類機型連接 A100 80GB GPU (
nvidia-a100-80gb
) 和本機 SSD 磁碟。 - A2 Standard:這類機型連接 A100 40GB GPU (
nvidia-tesla-a100
)。建立 A2 Standard 執行個體時,您也可以新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
A2 Ultra
已連結 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
已連結 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 支援本機 SSD | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 是 | 100 | 16 | 640 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G4 系列機型
G4 加速器最佳化
機型使用
NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000
),
適合用於 NVIDIA Omniverse 模擬工作負載、需要大量繪圖資源的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比,G4 機型也提供低成本解決方案,可執行單一主機推論和模型微調。
G4 系列的主要功能是支援多 GPU 機型 (g4-standard-96
、g4-standard-192
、g4-standard-384
) 的直接 GPU 對等 (P2P) 通訊。這項功能可讓同一執行個體內的 GPU 透過 PCIe 匯流排直接交換資料,不必經過 CPU 主機。如要進一步瞭解 G4 GPU 對等互連通訊,請參閱「G4 GPU 對等互連通訊」。
附加的 NVIDIA RTX PRO 6000 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 執行個體記憶體 (GB) | 支援的 Titanium SSD 容量上限 (GiB)2 | 實體 NIC 數量 | 網路頻寬上限 (Gbps)3 | GPU 數量 | GPU 記憶體4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2建立 G4 執行個體時,可以新增 Titanium SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
3輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
4GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G2 機器系列
G2 加速器最佳化機型連接的是 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要大量圖形處理的作業,以及高效能運算工作負載。
每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
已附加的 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量1 | 預設執行個體記憶體 (GB) | 自訂執行個體記憶體範圍 (GB) | 支援的最大本機 SSD (GiB) | 網路頻寬上限 (Gbps)2 | GPU 數量 | GPU 記憶體3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 至 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 至 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 到 54 歲 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 到 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 至 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 到 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 至 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 到 432 | 3,000 | 100 | 8 | 192 |
1 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
2輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
3GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1 機器系列
您可以將下列 GPU 型號附加至N1 機器類型,但N1 共用核心機器類型除外。
與加速器最佳化機器系列中的機器類型不同,N1 機器類型不會隨附一組已附加的 GPU。而是在建立執行個體時,指定要附加的 GPU 數量。
GPU 數量較少的 N1 執行個體會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的執行個體。
N1+T4 GPU
您可以將 NVIDIA T4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB GDDR6) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或 nvidia-tesla-t4-vws
|
1 | 16 | 1 至 48 | 1 至 312 | 是 |
2 | 32 | 1 至 48 | 1 至 312 | 是 | |
4 | 64 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1+P4 GPU
您可以將 NVIDIA P4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB GDDR5) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD2 |
---|---|---|---|---|---|
nvidia-tesla-p4 或 nvidia-tesla-p4-vws
|
1 | 8 | 1 至 24 | 1 至 156 | 是 |
2 | 16 | 1 至 48 | 1 至 312 | 是 | |
4 | 32 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
2對於已連結 NVIDIA P4 GPU 的執行個體,本機 SSD 磁碟僅支援 us-central1-c
和 northamerica-northeast1-b
區域。
N1+V100 GPU
您可以將 NVIDIA V100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB HBM2) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 至 12 | 1 至 78 | 是 |
2 | 32 | 1 至 24 | 1 至 156 | 是 | |
4 | 64 | 1 至 48 | 1 至 312 | 是 | |
8 | 128 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
2對於搭載 NVIDIA V100 GPU 的執行個體,us-east1-c
不支援本機 SSD 磁碟。
N1+P100 GPU
您可以將 NVIDIA P100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
對於部分 NVIDIA P100 GPU,某些設定的可用 CPU 和記憶體上限取決於 GPU 資源執行的區域。
加速器類型 | GPU 數量 | GPU 記憶體1 (GB HBM2) | 可用區 | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 或 nvidia-tesla-p100-vws
|
1 | 16 | 所有 P100 區域 | 1 至 16 | 1 至 104 | 是 |
2 | 32 | 所有 P100 區域 | 1 至 32 | 1 至 208 | 是 | |
4 | 64 | us-east1-c 、europe-west1-d 、europe-west1-b |
1 至 64 | 1 至 208 | 是 | |
所有其他 P100 區域 | 1 至 96 | 1 至 624 | 是 |
1GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
一般比較圖表
下表說明 Compute Engine 上提供的不同 GPU 型號,在 GPU 記憶體大小、功能可用性,以及理想的工作負載類型等各個要素最適合的選項。
GPU 模型 | GPU 記憶體 | 互連網路 | 支援 NVIDIA RTX 虛擬工作站 (vWS) | 最適用 |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
B200 | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
H200 | 141 GB HBM3e @ 4.8 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
H100 | 80 GB HBM3 @ 3.35 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 80GB | 80 GB HBM2e @ 1.9 TBps | NVLink 全網格 @ 600 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 40GB | 40 GB HBM2 @ 1.6 TBps | NVLink 全網格 @ 600 GBps | 機器學習訓練、推論、HPC | |
RTX PRO 6000 | 96 GB GDDR7 (含 ECC) @ 1597 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | 機器學習訓練、推論、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | 不適用 | 遠端視覺化工作站、機器學習推論與影片轉碼 | |
P100 | 16 GB HBM2 @ 732 GBps | 不適用 | 機器學習訓練、推論、HPC、遠端視覺化工作站 |
如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價一文。
成效比較圖表
下表說明 Compute Engine 提供的不同 GPU 型號效能規格。
運算效能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS1 | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS1 | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS1 | 5.5 TFLOPS | 22 TOPS2 | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
1為了讓 FP64 程式碼正常運作,T4、L4 和 P4 GPU 架構中包含少量的 FP64 硬體單元。
2 每秒萬億次運算。
Tensor 核心效能
GPU 模型 | FP64 | TF32 | 混合精確度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS2 | 5,000 TFLOPS1, 2 | 10,000 TFLOPS2 | 20,000 TFLOPS2 | 10,000 TFLOPS2 |
B200 | 40 TFLOPS | 1,100 TFLOPS2 | 4,500 TFLOPS1, 2 | 9,000 TFLOPS2 | 9,000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1, 2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1, 2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1, 2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1如要進行混合精度訓練,NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 也支援 bfloat16
資料型別。
2NVIDIA GB200、B200、H200、H100 和 L4 GPU支援結構化稀疏性。您可以使用結構化稀疏性,將模型效能提升一倍。使用結構化稀疏性時,適用於文件中記錄的值。
如果未使用結構化稀疏性,值會減半。
後續步驟
- 進一步瞭解 Compute Engine GPU。
- 查看 GPU 區域和可用區的可用性。
- 查看網路頻寬和 GPU。
- 查看 GPU 定價詳細資料。