GPU 平台

Compute Engine 提供了可添加到虚拟机实例的图形处理单元 (GPU)。您可以使用这些 GPU 加速虚拟机上的特定工作负载，例如机器学习和数据处理。

Compute Engine 以直通模式为您的虚拟机提供 NVIDIA GPU，让您的虚拟机可以直接控制 GPU 及其相关内存。

如果您的工作负载属于图形密集型（例如 3D 可视化、3D 渲染或虚拟应用），则可以使用 NVIDIA RTX 虚拟工作站（以前称为 NVIDIA GRID）。

本文档简要介绍了 Compute Engine 上可用的各种不同的 GPU 模型。

如需查看 Compute Engine 上 GPU 的可用区域和可用区，请参阅 GPU 区域和可用区可用性。

面向计算工作负载的 NVIDIA GPU

对于计算工作负载，可在以下阶段使用 GPU 模型：

NVIDIA H100 80GB：nvidia-h100-80gb（正式版）
NVIDIA L4：nvidia-l4：正式版
NVIDIA A100
- NVIDIA A100 40GB：nvidia-tesla-a100：正式版
- NVIDIA A100 80GB：nvidia-a100-80gb：正式版
NVIDIA T4：nvidia-tesla-t4（正式版）
NVIDIA V100：nvidia-tesla-v100（正式版）
NVIDIA P100：nvidia-tesla-p100（正式版）
NVIDIA P4：nvidia-tesla-p4（正式版）
NVIDIA K80：nvidia-tesla-k80：已正式发布。请参阅 NVIDIA K80 支持终止。

NVIDIA H100 GPU

如需运行 NVIDIA H100 80GB GPU，您必须使用 A3 加速器优化机器类型。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA H100	`a3-highgpu-8g`	8 个 GPU	640 GB HBM3	208 个 vCPU	1872 GB	捆绑包 (6000 GB)

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA L4 GPU

如需运行 NVIDIA L4 GPU，您必须使用 G2 加速器优化机器类型。

每种 G2 机器类型都挂接了固定数量的 NVIDIA L4 GPU 和 vCPU。每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的虚拟机内存量。您可以在虚拟机创建期间指定自定义内存。

GPU 模型	机器类型	GPU	GPU 内存^*	vCPU	默认内存	自定义内存范围	支持的最大本地 SSD
NVIDIA L4	`g2-standard-4`	1 个 GPU	24 GB GDDR6	4 个 vCPU	16 GB	16 - 32 GB	375 GB
	`g2-standard-8`	1 个 GPU	24 GB GDDR6	8 个 vCPU	32 GB	32 - 54 GB	375 GB
	`g2-standard-12`	1 个 GPU	24 GB GDDR6	12 个 vCPU	48 GB	48 - 54 GB	375 GB
	`g2-standard-16`	1 个 GPU	24 GB GDDR6	16 个 vCPU	64 GB	54 - 64 GB	375 GB
	`g2-standard-24`	2 个 GPU	48 GB GDDR6	24 个 vCPU	96 GB	96 - 108 GB	750 GB
	`g2-standard-32`	1 个 GPU	24 GB GDDR6	32 个 vCPU	128 GB	96 - 128 GB	375 GB
	`g2-standard-48`	4 个 GPU	96 GB GDDR6	48 个 vCPU	192 GB	192 - 216 GB	1500 GB
	`g2-standard-96`	8 个 GPU	192 GB GDDR6	96 个 vCPU	384 GB	384 - 432 GB	3000 GB

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA A100 GPU

如需运行 NVIDIA A100 GPU，您必须使用 A2 加速器优化机器类型。

每种 A2 机器类型都有固定的 GPU 数量、vCPU 数量和内存大小。

A100 40GB

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA A100 40GB	`a2-highgpu-1g`	1 个 GPU	40 GB HBM2	12 个 vCPU	85 GB	是
	`a2-highgpu-2g`	2 个 GPU	80 GB HBM2	24 个 vCPU	170 GB	是
	`a2-highgpu-4g`	4 个 GPU	160 GB HBM2	48 个 vCPU	340 GB	是
	`a2-highgpu-8g`	8 个 GPU	320 GB HBM2	96 个 vCPU	680 GB	是
	`a2-megagpu-16g`	16 个 GPU	640 GB HBM2	96 个 vCPU	1360 GB	是

A100 80GB

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA A100 80GB	`a2-ultragpu-1g`	1 个 GPU	80 GB HBM2e	12 个 vCPU	170 GB	捆绑包 (375 GB)
	`a2-ultragpu-2g`	2 个 GPU	160 GB HBM2e	24 个 vCPU	340 GB	捆绑包 (750 GB)
	`a2-ultragpu-4g`	4 个 GPU	320 GB HBM2e	48 个 vCPU	680 GB	捆绑包 (1.5 TB)
	`a2-ultragpu-8g`	8 个 GPU	640 GB HBM2e	96 个 vCPU	1360 GB	捆绑包 (3 TB)

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA T4 GPU

GPU 数量较少的虚拟机会有 vCPU 数量上限的限制。通常情况下，如果 GPU 数量较多，您可以创建具有较多 vCPU 和内存的实例。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA T4	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	16 GB GDDR6	1 - 48 个 vCPU	1 - 312 GB	是
		2 个 GPU	32 GB GDDR6	1 - 48 个 vCPU	1 - 312 GB	是
		4 个 GPU	64 GB GDDR6	1 - 96 个 vCPU	1 - 624 GB	是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA P4 GPU

对于 P4 GPU，本地 SSD 仅在部分区域受支持，请参阅 GPU 区域和可用区的本地 SSD 可用性。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA P4	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	8 GB GDDR5	1 - 24 个 vCPU	1 - 156 GB	是
		2 个 GPU	16 GB GDDR5	1 - 48 个 vCPU	1 - 312 GB	是
		4 个 GPU	32 GB GDDR5	1 - 96 个 vCPU	1 - 624 GB	是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA V100 GPU

对于 V100 GPU，只有特定区域支持本地 SSD，请参阅 GPU 区域和可用区的本地 SSD 可用性。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA V100	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	16 GB HBM2	1 - 12 个 vCPU	1 - 78 GB	是
		2 个 GPU	32 GB HBM2	1 - 24 个 vCPU	1 - 156 GB	是
		4 个 GPU	64 GB HBM2	1 - 48 个 vCPU	1 - 312 GB	是
		8 个 GPU	128 GB HBM2	1 - 96 个 vCPU	1 - 624 GB	是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA P100 GPU

对于部分 P100 GPU，适用于某些配置的 CPU 和内存上限取决于运行 GPU 资源的可用区。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA P100	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	16 GB HBM2	1 - 16 个 vCPU	1 - 104 GB	是
2 个 GPU	32 GB HBM2	1 - 32 个 vCPU	1 - 208 GB	是
4 个 GPU	64 GB HBM2	1 - 64 个 vCPU （us-east1-c、europe-west1-d、europe-west1-b） 1 - 96 个 vCPU （所有 P100 可用区）	1 - 208 GB （us-east1-c、europe-west1-d、europe-west1-b） 1 - 624 GB （所有 P100 可用区）	是

GPU 模型

机器类型

GPU

GPU 内存^*

可用 vCPU 数量

可用内存

支持本地 SSD

NVIDIA P100

N1 机器系列（N1 共享核心机器类型除外）

1 个 GPU

16 GB HBM2

1 - 16 个 vCPU

1 - 104 GB

是

2 个 GPU

32 GB HBM2

1 - 32 个 vCPU

1 - 208 GB

是

4 个 GPU

64 GB HBM2

1 - 64 个 vCPU
（us-east1-c、europe-west1-d、europe-west1-b）

1 - 96 个 vCPU
（所有 P100 可用区）

1 - 208 GB
（us-east1-c、europe-west1-d、europe-west1-b）

1 - 624 GB
（所有 P100 可用区）

是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA K80 GPU

每块 NVIDIA K80 主板包含两个 GPU。K80 GPU 的价格取决于各个 GPU，而不是主板。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA K80	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	12 GB GDDR5	1 - 8 个 vCPU	1 - 52 GB	是
		2 个 GPU	24 GB GDDR5	1 - 16 个 vCPU	1 - 104 GB	是
		4 个 GPU	48 GB GDDR5	1 - 32 个 vCPU	1 - 208 GB	是
		8 个 GPU	96 GB GDDR5	1 - 64 个 vCPU	1 - 416 GB （asia-east1-a 和 us-east1-d） 1 - 208 GB （所有 K80 可用区）	是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

面向图形工作负载的 NVIDIA RTX 虚拟工作站 (vWS)

如果您有图形密集型工作负载（例如 3D 可视化），则可以创建使用 NVIDIA RTX 虚拟工作站 (vWS)（以前称为 NVIDIA GRID）的虚拟工作站。创建虚拟工作站时，系统会自动向您的虚拟机添加 NVIDIA RTX 虚拟工作站 (vWS) 许可。

如需了解虚拟工作站的价格，请参阅 GPU 价格页面。

对于图形工作负载，可于以下阶段使用 NVIDIA RTX 虚拟工作站 (vWS) 模型：

NVIDIA L4 虚拟工作站：nvidia-l4-vws（正式版）
NVIDIA T4 虚拟工作站：nvidia-tesla-t4-vws（正式版）
NVIDIA P100 虚拟工作站：nvidia-tesla-p100-vws（正式版）
NVIDIA P4 虚拟工作站：nvidia-tesla-p4-vws（正式版）

NVIDIA L4 vWS GPU

GPU 模型	机器类型	GPU	GPU 内存	vCPU 数量	默认内存	自定义内存范围	支持的最大本地 SSD
NVIDIA L4 虚拟工作站	`g2-standard-4`	1 个 GPU	24 GB GDDR6	4 个 vCPU	16 GB	16 - 32 GB	375 GB
	`g2-standard-8`	1 个 GPU	24 GB GDDR6	8 个 vCPU	32 GB	32 - 54 GB	375 GB
	`g2-standard-12`	1 个 GPU	24 GB GDDR6	12 个 vCPU	48 GB	48 - 54 GB	375 GB
	`g2-standard-16`	1 个 GPU	24 GB GDDR6	16 个 vCPU	64 GB	54 - 64 GB	375 GB
	`g2-standard-24`	2 个 GPU	48 GB GDDR6	24 个 vCPU	96 GB	96 - 108 GB	750 GB
	`g2-standard-32`	1 个 GPU	24 GB GDDR6	32 个 vCPU	128 GB	96 - 128 GB	375 GB
	`g2-standard-48`	4 个 GPU	96 GB GDDR6	48 个 vCPU	192 GB	192 - 216 GB	1500 GB
	`g2-standard-96`	8 个 GPU	192 GB GDDR6	96 个 vCPU	384 GB	384 - 432 GB	3000 GB

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA T4 vWS GPU

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA T4 虚拟工作站	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	16 GB GDDR6	1 - 48 个 vCPU	1 - 312 GB	是
		2 个 GPU	32 GB GDDR6	1 - 48 个 vCPU	1 - 312 GB	是
		4 个 GPU	64 GB GDDR6	1 - 96 个 vCPU	1 - 624 GB	是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA P4 vWS GPU

对于 P4 GPU，本地 SSD 仅在部分区域受支持，请参阅 GPU 区域和可用区的本地 SSD 可用性。

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA P4 虚拟工作站	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	8 GB GDDR5	1 - 16 个 vCPU	1 - 156 GB	是
		2 个 GPU	16 GB GDDR5	1 - 48 个 vCPU	1 - 312 GB	是
		4 个 GPU	32 GB GDDR5	1 - 96 个 vCPU	1 - 624 GB	是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

NVIDIA P100 vWS GPU

GPU 模型	机器类型	GPU	GPU 内存^*	可用 vCPU 数量	可用内存	支持本地 SSD
NVIDIA P100 虚拟工作站	N1 机器系列（N1 共享核心机器类型除外）	1 个 GPU	16 GB HBM2	1 - 16 个 vCPU	1 - 104 GB	是
2 个 GPU	32 GB HBM2	1 - 32 个 vCPU	1 - 208 GB	是
4 个 GPU	64 GB HBM2	1 - 64 个 vCPU （us-east1-c、europe-west1-d、europe-west1-b） 1 - 96 个 vCPU （所有 P100 可用区）	1 - 208 GB （us-east1-c、europe-west1-d、europe-west1-b） 1 - 624 GB （所有 P100 可用区）	是

GPU 模型

机器类型

GPU

GPU 内存^*

可用 vCPU 数量

可用内存

支持本地 SSD

NVIDIA P100 虚拟工作站

N1 机器系列（N1 共享核心机器类型除外）

1 个 GPU

16 GB HBM2

1 - 16 个 vCPU

1 - 104 GB

是

2 个 GPU

32 GB HBM2

1 - 32 个 vCPU

1 - 208 GB

是

4 个 GPU

64 GB HBM2

1 - 64 个 vCPU
（us-east1-c、europe-west1-d、europe-west1-b）

1 - 96 个 vCPU
（所有 P100 可用区）

1 - 208 GB
（us-east1-c、europe-west1-d、europe-west1-b）

1 - 624 GB
（所有 P100 可用区）

是

^*GPU 内存是 GPU 设备上可用的内存，可用于临时存储数据。它与虚拟机的内存分开，专为处理图形密集型工作负载的较高带宽需求而设计。

常规比较图表

下表介绍了 Compute Engine 上提供的各种 GPU 内存大小、功能可用性以及理想的工作负载类型。

GPU 模型	内存	互连	最佳用途
H100 80GB	80 GB HBM3 @ 3.35 TBps	NVLink Full Mesh @ 900 GBps	包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型
A100 80GB	80 GB HBM2e @ 1.9 TBps	NVLink Full Mesh @ 600 GBps	包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型
A100 40GB	40 GB HBM2 @ 1.6 TBps	NVLink Full Mesh @ 600 GBps	机器学习训练、推理、HPC
L4	24 GB GDDR6 @ 300 GBps	不适用	机器学习推断、训练、远程可视化工作站、视频转码、HPC
T4	16 GB GDDR6 @ 320 GBps	不适用	机器学习推理、训练、远程可视化工作站、视频转码
V100	16 GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	机器学习训练、推理、HPC
P4	8 GB GDDR5 @ 192 GBps	不适用	远程可视化工作站、机器学习推理和视频转码
P100	16 GB HBM2 @ 732 GBps	不适用	机器学习推理、HPC、远程可视化工作站
K80^{服务终止 (EOL)}	12 GB GDDR5 @ 240 GBps	不适用	机器学习推理、训练、HPC

如需比较 Compute Engine 上的各种 GPU 型号的价格和适用区域，请参阅 GPU 价格。

性能比较图表

下表介绍了 Compute Engine 上提供的不同 GPU 模型的性能规范。

计算性能

GPU 模型	FP64	FP32	FP16	INT8
H100 80GB	34 TFLOPS	67 TFLOPS
A100 80GB	9.7 TFLOPS	19.5 TFLOPS
A100 40GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS^*	30.3 TFLOPS
T4	0.25 TFLOPS^*	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS^*	5.5 TFLOPS		22 TOPS^†
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS
K80^{服务终止 (EOL)}	1.46 TFLOPS	4.37 TFLOPS

^*为了让 FP64 代码正常运行，我们向 T4、L4、和 P4 GPU 架构中添加了少量的 FP64 硬件单元。

^†每秒执行的 TeraOperation 数。

Tensor 核心性能

GPU 模型	FP64	TF32	混合精度 FP16/FP32	INT8	INT4	FP8
H100 80GB	67 TFLOPS	989 TFLOPS^†	1,979 TFLOPS^*、†	3,958 TOPS^†		3,958 TFLOPS^†
A100 80GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1248 TOPS
A100 40GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1248 TOPS
L4		120 TFLOPS^†	242 TFLOPS^*、†	485 TOPS^†		485 TFLOPS^†
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100
K80^{服务终止 (EOL)}

^*对于混合精度训练，NVIDIA H100、A100 和 L4 GPU 还支持 bfloat16 数据类型。

^† 对于 H100 和 L4 GPU，支持结构稀疏性，可用于将性能值加倍。显示的值是稀疏值。在没有稀疏性的情况下，规格降低了二分之一。

后续步骤

如需详细了解 Compute Engine 上的 GPU，请参阅 GPU 简介。
查看 GPU 区域和可用区可用性。
了解 GPU 价格。