GPU 机器类型

本文档概述了 Compute Engine 上提供的 NVIDIA GPU 型号，您可以使用这些 GPU 来加速虚拟机实例上的机器学习、数据处理和图形密集型工作负载。本文档还详细介绍了有哪些 GPU 已被预挂接到加速器优化型机器系列（例如 A4X、A4、A3、A2、G4 和 G2），以及有哪些 GPU 可以挂接到 N1 通用型实例。

您可以使用本文档比较不同 GPU 型号的性能、内存和特性。如需详细了解加速器优化型机器家族，包括 CPU 平台、存储选项和网络功能方面的信息，并找到与您的工作负载匹配的特定机器类型，请参阅加速器优化型机器家族。

如需详细了解 Compute Engine 上的 GPU，请参阅 GPU 简介。

如需查看 Compute Engine 上 GPU 的可用区域和可用区，请参阅 GPU 区域和可用区可用性。

GPU 机器类型

Compute Engine 提供不同的机器类型来支持各种工作负载。

部分机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。当您创建使用 NVIDIA RTX 虚拟工作站的实例时，Compute Engine 会自动添加 vWS 许可。如需了解虚拟工作站的价格，请参阅 GPU 价格页面。

GPU 机器类型
AI 和机器学习工作负载	图形和可视化	其他 GPU 工作负载
加速器优化 A 系列机器类型专为高性能计算 (HPC)、人工智能 (AI) 和机器学习 (ML) 工作负载而设计。较新的 A 系列非常适合预训练和微调涉及大量加速器的基础模型，而 A2 系列可用于训练较小的模型和单主机推理。对于这些机器类型，GPU 型号会自动挂接到实例。	加速器优化型 G 系列机器类型专为 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面等工作负载而设计。这些机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。 G 系列还可用于训练较小的模型和进行单主机推理。对于这些机器类型，GPU 型号会自动挂接到实例。	对于 N1 通用机器类型（N1 共享核心机器类型 [`f1-micro` 和 `g1-small`] 除外），您可以挂接一组选定的 GPU 型号。其中一些 GPU 型号还支持 NVIDIA RTX 虚拟工作站 (vWS)。
A4X（NVIDIA GB200 超级芯片） (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	以下 GPU 型号可以挂接到 N1 通用机器类型： NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

GPU 机器类型

AI 和机器学习工作负载图形和可视化其他 GPU 工作负载

加速器优化 A 系列机器类型专为高性能计算 (HPC)、人工智能 (AI) 和机器学习 (ML) 工作负载而设计。

较新的 A 系列非常适合预训练和微调涉及大量加速器的基础模型，而 A2 系列可用于训练较小的模型和单主机推理。

对于这些机器类型，GPU 型号会自动挂接到实例。

加速器优化型 G 系列机器类型专为 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面等工作负载而设计。这些机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。

G 系列还可用于训练较小的模型和进行单主机推理。

对于这些机器类型，GPU 型号会自动挂接到实例。

对于 N1 通用机器类型（N1 共享核心机器类型 [f1-micro 和 g1-small] 除外），您可以挂接一组选定的 GPU 型号。其中一些 GPU 型号还支持 NVIDIA RTX 虚拟工作站 (vWS)。

A4X（NVIDIA GB200 超级芯片）
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

以下 GPU 型号可以挂接到 N1 通用机器类型：

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

您还可以在 AI Hypercomputer 上使用一些 GPU 机器类型。AI Hypercomputer 是一种超级计算系统，经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。建议使用此选项来创建密集分配、性能优化的基础架构，并集成 Google Kubernetes Engine (GKE) 和 Slurm 调度器。

A4X 机器系列

A4X 加速器优化型机器类型使用 NVIDIA GB200 Grace Blackwell 超级芯片 (nvidia-gb200)，非常适合基础模型训练和部署。

A4X 是基于 NVIDIA GB200 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B200 Blackwell GPU。

						挂接了 NVIDIA GB200 Grace Blackwell 超级芯片
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12,000	6	2,000	4	720

¹每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
² 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽，请参阅网络带宽。
³GPU 内存是 GPU 设备上的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。

A4 机器系列

A4 加速器优化型机器类型挂接了 NVIDIA B200 Blackwell GPU (nvidia-b200)，非常适合基础模型训练和部署。

						挂接的 NVIDIA B200 Blackwell GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a4-highgpu-8g`	224	3,968	12,000	10	3600	8	1,440

A3 机器系列

A3 加速器优化型机器类型挂接了 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。

A3 Ultra 机器类型

A3 Ultra 机器类型挂接了 NVIDIA H200 SXM GPU (nvidia-h200-141gb)，是 A3 系列中能够提供最高网络性能的机器类型。A3 Ultra 机器类型非常适合基础模型训练和部署。

						挂接了 NVIDIA H200 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a3-ultragpu-8g`	224	2,952	12,000	10	3600	8	1128

A3 Mega、A3 High 和 A3 Edge 机器类型

如需使用 NVIDIA H100 SXM GPU，您可以选择以下选项：

A3 Mega：这些机器类型配备 H100 SXM GPU (nvidia-h100-mega-80gb)，非常适合大规模的训练和部署工作负载。
A3 High：这些机器类型配备 H100 SXM GPU (nvidia-h100-80gb)，非常适合训练和部署任务。
A3 Edge：这些机器类型配备 H100 SXM GPU (nvidia-h100-80gb)，专为部署而设计，在部分区域提供。

A3 Mega

提示：在预配 a3-megagpu-8g 机器类型时，建议使用这些实例的集群，并使用 Google Kubernetes Engine (GKE) 或 Slurm 等调度器进行部署。如需详细了解任一选项，请查看以下内容：

如需创建 Google Kubernetes Engine 集群，请参阅使用 GKE 部署 A3 Mega 集群。
如需创建 Slurm 集群，请参阅部署 A3 Mega Slurm 集群。

						挂接了 NVIDIA H100 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3)
`a3-megagpu-8g`	208	1,872	6000	9	1800	8	640

A3 High

提示：在预配 a3-highgpu-1g、a3-highgpu-2g 或 a3-highgpu-4g 机器类型时，您必须使用 Spot 虚拟机或灵活启动虚拟机来创建实例。如需详细了解这些选项，请查看以下内容：

如需创建 Spot 虚拟机，请在创建加速器优化虚拟机时将预配模型设置为 SPOT。
如需创建灵活启动虚拟机，您可以使用以下方法之一：
- 创建独立虚拟机，并在创建加速器优化虚拟机时将预配模型设置为 FLEX_START。
- 在托管式实例组 (MIG) 中创建调整大小请求。如需查看相关说明，请参阅创建具有 GPU 虚拟机的 MIG。

						挂接了 NVIDIA H100 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1,500	1	50	2	160
`a3-highgpu-4g`	104	936	3000	1	100	4	320
`a3-highgpu-8g`	208	1,872	6000	5	1000	8	640

A3 Edge

						挂接了 NVIDIA H100 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3)
`a3-edgegpu-8g`	208	1,872	6000	5	800：适用于 asia-south1 和 northamerica-northeast2 400：适用于所有其他 A3 Edge 区域	8	640

A2 机器系列

A2 加速器优化型机器类型挂接了 NVIDIA A100 GPU，非常适合模型微调以及费用经过优化的大规模模型推理。

A2 机器系列有两种类型：

A2 Ultra：这些机器类型挂接了 A100 80GB GPU (nvidia-a100-80gb) 和本地 SSD 磁盘。
A2 Standard：这些机器类型挂接了 A100 40GB GPU (nvidia-tesla-a100)。您还可以在创建 A2 Standard 实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量，请参阅需要您选择本地 SSD 磁盘数量的机器类型。

A2 Ultra

					挂接了 NVIDIA A100 80GB GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM2e)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1500	50	4	320
`a2-ultragpu-8g`	96	1,360	3000	100	8	640

A2 标准

					挂接了 NVIDIA A100 40GB GPU
机器类型	vCPU 数量¹	实例内存 (GB)	支持本地 SSD	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM2)
`a2-highgpu-1g`	12	85	是	24	1	40
`a2-highgpu-2g`	24	170	是	32	2	80
`a2-highgpu-4g`	48	340	是	50	4	160
`a2-highgpu-8g`	96	680	是	100	8	320
`a2-megagpu-16g`	96	1,360	是	100	16	640

G4 机器系列

G4 加速器优化型机器类型使用 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU (nvidia-rtx-pro-6000)，适用于 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面。与 A 系列机器类型相比，G4 机器类型还提供了一种低成本解决方案来执行单主机推理和模型调优。

G4 系列的一项关键功能是支持在多 GPU 机器类型（g4-standard-96、g4-standard-192、g4-standard-384）上进行直接 GPU 点对点 (P2P) 通信。这使同一实例中的 GPU 可以直接通过 PCIe 总线交换数据，而不会涉及 CPU 主机。如需详细了解 G4 GPU 点对点通信，请参阅 G4 GPU 点对点通信。

						挂接了 NVIDIA RTX PRO 6000 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	支持的最大 Titanium SSD (GiB)²	物理 NIC 数量	网络带宽上限 (Gbps)³	GPU 数量	GPU 内存⁴ (GB GDDR7)
`g4-standard-48`	48	180	1,500	1	50	1	96
`g4-standard-96`	96	360	3000	1	100	2	192
`g4-standard-192`	192	720	6000	1	200	4	384
`g4-standard-384`	384	1,440	12,000	2	400	8	768

¹每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
²您可以在创建 G4 实例时添加 Titanium SSD 磁盘。如需了解可挂接的磁盘数量，请参阅需要您选择本地 SSD 磁盘数量的机器类型。
³出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
⁴GPU 内存是 GPU 设备上的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。

G2 机器系列

G2 加速器优化型机器类型挂接了 NVIDIA L4 GPU，非常适合注重成本效益的推理、图形密集型和高性能计算工作负载。

每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的实例内存量。您还可以在创建 G2 实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量，请参阅需要您选择本地 SSD 磁盘数量的机器类型。

						挂接了 NVIDIA L4 GPU
机器类型	vCPU 数量¹	默认实例内存 (GB)	自定义实例内存范围 (GB)	支持的最大本地 SSD (GiB)	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB GDDR6)
`g2-standard-4`	4	16	16 - 32	375	10	1	24
`g2-standard-8`	8	32	32 - 54	375	16	1	24
`g2-standard-12`	12	48	48 - 54	375	16	1	24
`g2-standard-16`	16	64	54 - 64	375	32	1	24
`g2-standard-24`	24	96	96 - 108	750	32	2	48
`g2-standard-32`	32	128	96 - 128	375	32	1	24
`g2-standard-48`	48	192	192 - 216	1500	50	4	96
`g2-standard-96`	96	384	384 - 432	3000	100	8	192

N1 机器系列

您可以将以下 GPU 型号挂接到 N1 机器类型（N1 共享核心机器类型除外）。

与加速器优化型机器系列中的机器类型不同，N1 机器类型没有预设挂接 GPU 的数量；而是需要您在创建实例时指定要挂接的 GPU 数量。

如果 N1 实例挂接的 GPU 数量较少，则其 vCPU 数量上限也会相应受到限制。通常情况下，如果 GPU 数量较多，则您可以创建具有较多 vCPU 和内存的实例。

N1+T4 GPU

您可以将 NVIDIA T4 GPU 挂接到具有以下实例配置的 N1 通用实例。

加速器类型	GPU 数量	GPU 内存¹ (GB GDDR6)	vCPU 数量	实例内存 (GB)	支持本地 SSD
`nvidia-tesla-t4` 或 `nvidia-tesla-t4-vws`	1	16	1 - 48	1 - 312	是
	2	32	1 - 48	1 - 312	是
	4	64	1 - 96	1 - 624	是

¹GPU 内存是 GPU 设备上提供的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。

N1+P4 GPU

您可以将 NVIDIA P4 GPU 挂接到具有以下实例配置的 N1 通用实例。

加速器类型	GPU 数量	GPU 内存¹ (GB GDDR5)	vCPU 数量	实例内存 (GB)	支持本地固态硬盘²
`nvidia-tesla-p4` 或 `nvidia-tesla-p4-vws`	1	8	1 - 24	1 - 156	是
	2	16	1 - 48	1 - 312	是
	4	32	1 - 96	1 - 624	是

¹GPU 内存是 GPU 设备上提供的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。
²对于挂接了 NVIDIA P4 GPU 的实例，只有 us-central1-c 和 northamerica-northeast1-b 这两个可用区支持本地固态硬盘。

N1+V100 GPU

您可以将 NVIDIA V100 GPU 挂接到具有以下实例配置的 N1 通用实例。

加速器类型	GPU 数量	GPU 内存¹ (GB HBM2)	vCPU 数量	实例内存 (GB)	支持本地固态硬盘²
`nvidia-tesla-v100`	1	16	1 - 12	1 - 78	是
	2	32	1 - 24	1 - 156	是
	4	64	1 - 48	1 - 312	是
	8	128	1 - 96	1 - 624	是

¹GPU 内存是 GPU 设备上提供的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。
²对于挂接了 NVIDIA V100 GPU 的实例，us-east1-c 不支持本地 SSD 磁盘。

N1+P100 GPU

您可以将 NVIDIA P100 GPU 挂接到具有以下实例配置的 N1 通用实例。

对于部分 NVIDIA P100 GPU，适用于某些配置的 CPU 和内存上限取决于运行 GPU 资源的可用区。

加速器类型	GPU 数量	GPU 内存¹ (GB HBM2)	可用区	vCPU 数量	实例内存 (GB)	支持本地 SSD
`nvidia-tesla-p100` 或 `nvidia-tesla-p100-vws`	1	16	所有 P100 可用区	1 - 16	1 - 104	是
	2	32	所有 P100 可用区	1 至 32	1 - 208	是
	4	64	`us-east1-c`、 `europe-west1-d`、 `europe-west1-b`	1 - 64	1 - 208	是
	4	64	所有其他 P100 可用区	1 - 96	1 - 624	是

¹GPU 内存是 GPU 设备上提供的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。

常规比较图表

下表列出了 Compute Engine 上提供的各种 GPU 型号的 GPU 内存大小、功能提供情况以及适合处理的工作负载类型。

GPU 模型	GPU 内存	互连	最佳用途
GB200	180 GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	LLM 的大规模分布式训练和推理、Recommender 以及 HPC
B200	180 GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	LLM 的大规模分布式训练和推理、Recommender 以及 HPC
H200	141 GB HBM3e @ 4.8 TBps	NVLink Full Mesh @ 900 GBps	包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型
H100	80 GB HBM3 @ 3.35 TBps	NVLink Full Mesh @ 900 GBps	包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型
A100 80GB	80 GB HBM2e @ 1.9 TBps	NVLink Full Mesh @ 600 GBps	包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型
A100 40GB	40 GB HBM2 @ 1.6 TBps	NVLink Full Mesh @ 600 GBps	机器学习训练、推理、HPC
RTX PRO 6000	96 GB GDDR7（含 ECC）@ 1597 GBps	不适用	机器学习推理、训练、远程可视化工作站、视频转码、HPC
L4	24 GB GDDR6 @ 300 GBps	不适用	机器学习推理、训练、远程可视化工作站、视频转码、HPC
T4	16 GB GDDR6 @ 320 GBps	不适用	机器学习推理、训练、远程可视化工作站、视频转码
V100	16 GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	机器学习训练、推理、HPC
P4	8 GB GDDR5 @ 192 GBps	不适用	远程可视化工作站、机器学习推理和视频转码
P100	16 GB HBM2 @ 732 GBps	不适用	机器学习推理、HPC、远程可视化工作站

如需比较 Compute Engine 上的各种 GPU 型号的价格和适用区域，请参阅 GPU 价格。

性能比较图表

下表介绍了 Compute Engine 上提供的不同 GPU 模型的性能规范。

计算性能

GPU 模型	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200	34 TFLOPS	67 TFLOPS
H100	34 TFLOPS	67 TFLOPS
A100 80GB	9.7 TFLOPS	19.5 TFLOPS
A100 40GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS¹	30.3 TFLOPS
T4	0.25 TFLOPS¹	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS¹	5.5 TFLOPS		22 TOPS²
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS

¹为了让 FP64 代码正常运行，T4、L4 和 P4 GPU 架构中包含少量的 FP64 硬件单元。
²每秒执行的 TeraOperation 数。

Tensor 核心性能

GPU 模型	FP64	TF32	混合精度 FP16/FP32	INT8	INT4	FP8
GB200	90 TFLOPS	2,500 TFLOPS²	5,000 TFLOPS^{1, 2}	10,000 TFLOPS²	20,000 TFLOPS²	10,000 TFLOPS²
B200	40 TFLOPS	1,100 TFLOPS²	4,500 TFLOPS^{1, 2}	9,000 TFLOPS²		9,000 TFLOPS²
H200	67 TFLOPS	989 TFLOPS²	1,979 TFLOPS^{1, 2}	3,958 TOPS²		3,958 TFLOPS²
H100	67 TFLOPS	989 TFLOPS²	1,979 TFLOPS^{1, 2}	3,958 TOPS²		3,958 TFLOPS²
A100 80GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
A100 40GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
L4		120 TFLOPS²	242 TFLOPS^{1, 2}	485 TOPS²		485 TFLOPS²
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

¹对于混合精度训练，NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 还支持 bfloat16 数据类型。
²NVIDIA GB200、B200、H200、H100 和 L4 GPU 支持结构稀疏性。您可以使用结构稀疏性将模型的性能提高一倍。所记录的值适用于使用结构稀疏性的情况。如果您未使用结构稀疏性，则这些值应减半。

GPU 机器类型

GPU 机器类型

A4X 机器系列

A4 机器系列

A3 机器系列

A3 Ultra 机器类型

A3 Mega、A3 High 和 A3 Edge 机器类型

A3 Mega

A3 High

A3 Edge

A2 机器系列

A2 Ultra

A2 标准

G4 机器系列

G2 机器系列

N1 机器系列

N1+T4 GPU

N1+P4 GPU

N1+V100 GPU

N1+P100 GPU

常规比较图表

性能比较图表

计算性能

Tensor 核心性能

后续步骤