本頁面由 Cloud Translation API 翻譯而成。

GPU 機器類型

本文列出 Compute Engine 提供的 NVIDIA GPU 型號，您可以在虛擬機器 (VM) 執行個體上使用這些 GPU，加快機器學習 (ML)、資料處理和需要大量圖形處理的工作負載。本文也詳細說明哪些 GPU 預先附加至加速器最佳化機器系列 (例如 A4X、A4、A3、A2、G4 和 G2)，以及哪些 GPU 可附加至 N1 一般用途執行個體。

您可以參考這份文件，比較不同 GPU 型號的效能、記憶體和功能。如要進一步瞭解加速器最佳化機器家族，包括 CPU 平台、儲存空間選項和網路功能，以及找出符合工作負載的特定機型，請參閱「加速器最佳化機器家族」。

如要進一步瞭解 Compute Engine 上的 GPU，請參閱「關於 GPU」一文。

如要查看 Compute Engine 中 GPU 的可用區域和可用區，請參閱「GPU 區域和可用區」。

GPU 機器類型

Compute Engine 提供不同機器類型，支援各種工作負載。

部分機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時，Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的價格，請參閱 GPU 定價頁面。

GPU 機器類型
AI 和機器學習工作負載	圖形和視覺化	其他 GPU 工作負載
加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。後續世代的 A 系列非常適合預先訓練和微調基礎模型，這類模型需要大量加速器叢集；A2 系列則可用於訓練較小的模型和單一主機推論。對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。	加速器最佳化 G 系列機型專為工作負載設計，例如 NVIDIA Omniverse 模擬工作負載、含有大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。 G 系列也可用於訓練較小的模型，以及單一主機推論。對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。	對於 N1 一般用途機器類型 (N1 共用核心除外，即 `f1-micro` 和 `g1-small`)，您可以附加一組選定的 GPU 型號。部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。
A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	下列 GPU 型號可附加至 N1 一般用途機器類型： NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

GPU 機器類型

AI 和機器學習工作負載圖形和視覺化其他 GPU 工作負載

加速器最佳化 A 系列機器類型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。

後續世代的 A 系列非常適合預先訓練和微調基礎模型，這類模型需要大量加速器叢集；A2 系列則可用於訓練較小的模型和單一主機推論。

對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。

加速器最佳化 G 系列機型專為工作負載設計，例如 NVIDIA Omniverse 模擬工作負載、含有大量圖案的應用程式、影片轉碼和虛擬桌面。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。

G 系列也可用於訓練較小的模型，以及單一主機推論。

對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。

對於 N1 一般用途機器類型 (N1 共用核心除外，即 f1-micro 和 g1-small)，您可以附加一組選定的 GPU 型號。部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。

A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

下列 GPU 型號可附加至 N1 一般用途機器類型：

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級電腦系統，經過最佳化處理，可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構，並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器，以達到最佳效能。

A4X 系列機器

A4X 加速器最佳化機型使用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200)，非常適合基礎模型訓練和服務。

A4X 是以 NVIDIA GB200 NVL72 為基礎的百京級平台。每部機器都有兩個插槽，搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊，連線至四個 NVIDIA B200 Blackwell GPU。

						已連結 NVIDIA GB200 Grace Blackwell 超級晶片
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	實體 NIC 數量	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12,000	6	2,000	4	720

¹ 在其中一個可用的 CPU 平台中，我們會以單一硬體超執行緒的形式提供 vCPU。
²輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬，請參閱「網路頻寬」。
³GPU 記憶體是 GPU 裝置上的記憶體，可用於暫時儲存資料。這與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。

A4 系列機型

A4 加速器最佳化機型連接 NVIDIA B200 Blackwell GPU (nvidia-b200)，非常適合用於基礎模型訓練和服務。

						已連結的 NVIDIA B200 Blackwell GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	實體 NIC 數量	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM3e)
`a4-highgpu-8g`	224	3,968	12,000	10	3,600	8	1,440

¹ 在其中一個可用的 CPU 平台中，我們會以單一硬體超執行緒的形式提供 vCPU。
²輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬，請參閱網路頻寬。
³GPU 記憶體是 GPU 裝置上的記憶體，可用於暫時儲存資料。這與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。

A3 系列機型

A3 加速器最佳化機型連接的是 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。

A3 Ultra 機型

A3 Ultra 機型連接 NVIDIA H200 SXM GPU (nvidia-h200-141gb)，是 A3 系列中網路效能最高的機型。A3 Ultra 機型非常適合基礎模型訓練和服務。

						附加的 NVIDIA H200 GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	實體 NIC 數量	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM3e)
`a3-ultragpu-8g`	224	2,952	12,000	10	3,600	8	1128

A3 Mega、High 和 Edge 機型

如要使用 NVIDIA H100 SXM GPU，可以選擇下列方式：

A3 Mega：這類機型搭載 H100 SXM GPU (nvidia-h100-mega-80gb)，非常適合大規模訓練和服務工作負載。
A3 High：這類機型搭載 H100 SXM GPU (nvidia-h100-80gb)，非常適合訓練和服務工作。
A3 Edge：這類機型搭載 H100 SXM GPU (nvidia-h100-80gb)，專為服務而設計，且僅在特定區域提供。

A3 Mega

提示：在佈建a3-megagpu-8g機器類型時，建議使用這些執行個體的叢集，並透過 Google Kubernetes Engine (GKE) 或 Slurm 等排程器部署。如需這兩種方式的詳細操作說明，請參閱下列文章：

如要建立 Google Kubernetes Engine 叢集，請參閱「使用 GKE 部署 A3 Mega 叢集」。
如要建立 Slurm 叢集，請參閱「部署 A3 Mega Slurm 叢集」。

						附加的 NVIDIA H100 GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	實體 NIC 數量	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM3)
`a3-megagpu-8g`	208	1,872	6,000	9	1,800	8	640

A3 High

提示：佈建 a3-highgpu-1g、a3-highgpu-2g 或 a3-highgpu-4g 機型時，必須使用 Spot VM 或彈性啟動 VM 建立執行個體。如需這些選項的詳細操作說明，請參閱下列文章：

如要建立 Spot VM，請在建立加速器最佳化 VM 時，將佈建模式設為 SPOT。
如要建立彈性啟動 VM，請使用下列其中一種方法：
- 建立獨立 VM，並在建立加速器最佳化 VM 時，將佈建模式設為 FLEX_START。
- 在代管執行個體群組 (MIG) 中建立規模調整要求。如需操作說明，請參閱建立含 GPU VM 的 MIG。

						附加的 NVIDIA H100 GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	實體 NIC 數量	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1,500	1	50	2	160
`a3-highgpu-4g`	104	936	3,000	1	100	4	320
`a3-highgpu-8g`	208	1,872	6,000	5	1,000	8	640

A3 Edge

						附加的 NVIDIA H100 GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	實體 NIC 數量	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM3)
`a3-edgegpu-8g`	208	1,872	6,000	5	800：適用於 asia-south1 和 northamerica-northeast2 400：適用於所有其他 A3 Edge 區域	8	640

A2 系列機型

A2 加速器最佳化機型連接 NVIDIA A100 GPU，非常適合模型微調、大型模型和符合成本效益的推論。

A2 系列機器分為兩種：

A2 Ultra：這類機型連接 A100 80GB GPU (nvidia-a100-80gb) 和本機 SSD 磁碟。
A2 Standard：這類機型連接 A100 40GB GPU (nvidia-tesla-a100)。建立 A2 Standard 執行個體時，您也可以新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量，請參閱需要選擇本機 SSD 磁碟數量的機器類型。

A2 Ultra

					已連結 NVIDIA A100 80GB GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	已連結的本機 SSD (GiB)	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM2e)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1,500	50	4	320
`a2-ultragpu-8g`	96	1,360	3,000	100	8	640

A2 Standard

					已連結 NVIDIA A100 40GB GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	支援本機 SSD	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB HBM2)
`a2-highgpu-1g`	12	85	是	24	1	40
`a2-highgpu-2g`	24	170	是	32	2	80
`a2-highgpu-4g`	48	340	是	50	4	160
`a2-highgpu-8g`	96	680	是	100	8	320
`a2-megagpu-16g`	96	1,360	是	100	16	640

G4 系列機型

G4 加速器最佳化機型使用 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000)，適合用於 NVIDIA Omniverse 模擬工作負載、需要大量繪圖資源的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比，G4 機型也提供低成本解決方案，可執行單一主機推論和模型微調。

G4 系列的主要功能是支援多 GPU 機型 (g4-standard-96、g4-standard-192、g4-standard-384) 的直接 GPU 對等 (P2P) 通訊。這項功能可讓同一執行個體內的 GPU 透過 PCIe 匯流排直接交換資料，不必經過 CPU 主機。如要進一步瞭解 G4 GPU 對等互連通訊，請參閱「G4 GPU 對等互連通訊」。

						附加的 NVIDIA RTX PRO 6000 GPU
機型	vCPU 數量¹	執行個體記憶體 (GB)	支援的 Titanium SSD 容量上限 (GiB)²	實體 NIC 數量	網路頻寬上限 (Gbps)³	GPU 數量	GPU 記憶體⁴ (GB GDDR7)
`g4-standard-48`	48	180	1,500	1	50	1	96
`g4-standard-96`	96	360	3,000	1	100	2	192
`g4-standard-192`	192	720	6,000	1	200	4	384
`g4-standard-384`	384	1,440	12,000	2	400	8	768

¹ 在其中一個可用的 CPU 平台中，我們會以單一硬體超執行緒的形式提供 vCPU。
²建立 G4 執行個體時，可以新增 Titanium SSD 磁碟。如要瞭解可附加的磁碟數量，請參閱需要選擇本機 SSD 磁碟數量的機器類型。
³輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
⁴GPU 記憶體是 GPU 裝置上的記憶體，可用於暫時儲存資料。這與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。

G2 機器系列

G2 加速器最佳化機型連接的是 NVIDIA L4 GPU，非常適合用於成本最佳化的推論、需要大量圖形處理的作業，以及高效能運算工作負載。

每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量，請參閱需要選擇本機 SSD 磁碟數量的機器類型。

						已附加的 NVIDIA L4 GPU
機型	vCPU 數量¹	預設執行個體記憶體 (GB)	自訂執行個體記憶體範圍 (GB)	支援的最大本機 SSD (GiB)	網路頻寬上限 (Gbps)²	GPU 數量	GPU 記憶體³ (GB GDDR6)
`g2-standard-4`	4	16	16 至 32	375	10	1	24
`g2-standard-8`	8	32	32 至 54	375	16	1	24
`g2-standard-12`	12	48	48 到 54 歲	375	16	1	24
`g2-standard-16`	16	64	54 到 64	375	32	1	24
`g2-standard-24`	24	96	96 至 108	750	32	2	48
`g2-standard-32`	32	128	96 到 128	375	32	1	24
`g2-standard-48`	48	192	192 至 216	1,500	50	4	96
`g2-standard-96`	96	384	384 到 432	3,000	100	8	192

N1 機器系列

您可以將下列 GPU 型號附加至N1 機器類型，但N1 共用核心機器類型除外。

與加速器最佳化機器系列中的機器類型不同，N1 機器類型不會隨附一組已附加的 GPU。而是在建立執行個體時，指定要附加的 GPU 數量。

GPU 數量較少的 N1 執行個體會有 vCPU 數量上限。一般而言，GPU 數量越多，表示您可以建立 vCPU 較多且記憶體較大的執行個體。

N1+T4 GPU

您可以將 NVIDIA T4 GPU 附加至 N1 一般用途執行個體，但須符合下列執行個體設定。

加速器類型	GPU 數量	GPU 記憶體¹ (GB GDDR6)	vCPU 數量	執行個體記憶體 (GB)	支援本機 SSD
`nvidia-tesla-t4`或 `nvidia-tesla-t4-vws`	1	16	1 至 48	1 至 312	是
	2	32	1 至 48	1 至 312	是
	4	64	1 至 96	1 至 624	是

¹GPU 記憶體是 GPU 裝置上的可用記憶體，可用於暫時儲存資料。這與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。

N1+P4 GPU

您可以將 NVIDIA P4 GPU 附加至 N1 一般用途執行個體，但須符合下列執行個體設定。

加速器類型	GPU 數量	GPU 記憶體¹ (GB GDDR5)	vCPU 數量	執行個體記憶體 (GB)	支援本機 SSD²
`nvidia-tesla-p4`或 `nvidia-tesla-p4-vws`	1	8	1 至 24	1 至 156	是
	2	16	1 至 48	1 至 312	是
	4	32	1 至 96	1 至 624	是

¹GPU 記憶體是 GPU 裝置上的可用記憶體，可用於暫時儲存資料。與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。
²對於已連結 NVIDIA P4 GPU 的執行個體，本機 SSD 磁碟僅支援 us-central1-c 和 northamerica-northeast1-b 區域。

N1+V100 GPU

您可以將 NVIDIA V100 GPU 附加至 N1 一般用途執行個體，但須符合下列執行個體設定。

加速器類型	GPU 數量	GPU 記憶體¹ (GB HBM2)	vCPU 數量	執行個體記憶體 (GB)	支援本機 SSD²
`nvidia-tesla-v100`	1	16	1 至 12	1 至 78	是
	2	32	1 至 24	1 至 156	是
	4	64	1 至 48	1 至 312	是
	8	128	1 至 96	1 至 624	是

¹GPU 記憶體是 GPU 裝置上的可用記憶體，可用於暫時儲存資料。這與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。
²對於搭載 NVIDIA V100 GPU 的執行個體，us-east1-c 不支援本機 SSD 磁碟。

N1+P100 GPU

您可以將 NVIDIA P100 GPU 附加至 N1 一般用途執行個體，但須符合下列執行個體設定。

對於部分 NVIDIA P100 GPU，某些設定的可用 CPU 和記憶體上限取決於 GPU 資源執行的區域。

加速器類型	GPU 數量	GPU 記憶體¹ (GB HBM2)	可用區	vCPU 數量	執行個體記憶體 (GB)	支援本機 SSD
`nvidia-tesla-p100`或 `nvidia-tesla-p100-vws`	1	16	所有 P100 區域	1 至 16	1 至 104	是
	2	32	所有 P100 區域	1 至 32	1 至 208	是
	4	64	`us-east1-c`、 `europe-west1-d`、 `europe-west1-b`	1 至 64	1 至 208	是
	4	64	所有其他 P100 區域	1 至 96	1 至 624	是

¹GPU 記憶體是 GPU 裝置上的可用記憶體，可用於暫時儲存資料。這與執行個體的記憶體不同，專門用於處理需要高頻寬的繪圖密集型工作負載。

一般比較圖表

下表說明 Compute Engine 上提供的不同 GPU 型號，在 GPU 記憶體大小、功能可用性，以及理想的工作負載類型等各個要素最適合的選項。

GPU 模型	GPU 記憶體	互連網路	最適用
GB200	180 GB HBM3e @ 8 TBps	NVLink 全網格 @ 1,800 GBps	大規模分散式訓練和推論 LLM、推薦系統、HPC
B200	180 GB HBM3e @ 8 TBps	NVLink 全網格 @ 1,800 GBps	大規模分散式訓練和推論 LLM、推薦系統、HPC
H200	141 GB HBM3e @ 4.8 TBps	NVLink 全網格 @ 900 GBps	大型模型，搭配巨量資料表，適用於機器學習訓練、推論、HPC、BERT、DLRM
H100	80 GB HBM3 @ 3.35 TBps	NVLink 全網格 @ 900 GBps	大型模型，搭配巨量資料表，適用於機器學習訓練、推論、HPC、BERT、DLRM
A100 80GB	80 GB HBM2e @ 1.9 TBps	NVLink 全網格 @ 600 GBps	大型模型，搭配巨量資料表，適用於機器學習訓練、推論、HPC、BERT、DLRM
A100 40GB	40 GB HBM2 @ 1.6 TBps	NVLink 全網格 @ 600 GBps	機器學習訓練、推論、HPC
RTX PRO 6000	96 GB GDDR7 (含 ECC) @ 1597 GBps	不適用	機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC
L4	24 GB GDDR6 @ 300 GBps	不適用	機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC
T4	16 GB GDDR6 @ 320 GBps	不適用	機器學習推論、訓練、遠端視覺化工作站、影片轉碼
V100	16 GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	機器學習訓練、推論、HPC
P4	8 GB GDDR5 @ 192 GBps	不適用	遠端視覺化工作站、機器學習推論與影片轉碼
P100	16 GB HBM2 @ 732 GBps	不適用	機器學習訓練、推論、HPC、遠端視覺化工作站

如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價，請參閱 GPU 定價一文。

成效比較圖表

下表說明 Compute Engine 提供的不同 GPU 型號效能規格。

運算效能

GPU 模型	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200	34 TFLOPS	67 TFLOPS
H100	34 TFLOPS	67 TFLOPS
A100 80GB	9.7 TFLOPS	19.5 TFLOPS
A100 40GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS¹	30.3 TFLOPS
T4	0.25 TFLOPS¹	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS¹	5.5 TFLOPS		22 TOPS²
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS

¹為了讓 FP64 程式碼正常運作，T4、L4 和 P4 GPU 架構中包含少量的 FP64 硬體單元。
² 每秒萬億次運算。

Tensor 核心效能

GPU 模型	FP64	TF32	混合精確度 FP16/FP32	INT8	INT4	FP8
GB200	90 TFLOPS	2,500 TFLOPS²	5,000 TFLOPS^{1, 2}	10,000 TFLOPS²	20,000 TFLOPS²	10,000 TFLOPS²
B200	40 TFLOPS	1,100 TFLOPS²	4,500 TFLOPS^{1, 2}	9,000 TFLOPS²		9,000 TFLOPS²
H200	67 TFLOPS	989 TFLOPS²	1,979 TFLOPS^{1, 2}	3,958 TOPS²		3,958 TFLOPS²
H100	67 TFLOPS	989 TFLOPS²	1,979 TFLOPS^{1, 2}	3,958 TOPS²		3,958 TFLOPS²
A100 80GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
A100 40GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
L4		120 TFLOPS²	242 TFLOPS^{1, 2}	485 TOPS²		485 TFLOPS²
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

¹如要進行混合精度訓練，NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 也支援 bfloat16 資料型別。
²NVIDIA GB200、B200、H200、H100 和 L4 GPU支援結構化稀疏性。您可以使用結構化稀疏性，將模型效能提升一倍。使用結構化稀疏性時，適用於文件中記錄的值。如果未使用結構化稀疏性，值會減半。

GPU 機器類型

GPU 機器類型

A4X 系列機器

A4 系列機型

A3 系列機型

A3 Ultra 機型

A3 Mega、High 和 Edge 機型

A3 Mega

A3 High

A3 Edge

A2 系列機型

A2 Ultra

A2 Standard

G4 系列機型

G2 機器系列

N1 機器系列

N1+T4 GPU

N1+P4 GPU

N1+V100 GPU

N1+P100 GPU

一般比較圖表

成效比較圖表

運算效能

Tensor 核心效能

後續步驟