您可以在 Compute Engine 上使用 GPU 来加速虚拟机上的特定工作负载,例如机器学习 (ML) 和数据处理。如需使用 GPU,您可以部署已挂接 GPU 的加速器优化虚拟机,也可以将 GPU 挂接到 N1 通用虚拟机。
Compute Engine 以直通模式为您的虚拟机提供 GPU,让您的虚拟机可以直接控制 GPU 及其相关内存。
如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
如果您的工作负载属于图形密集型(例如 3D 可视化、3D 渲染或虚拟应用),则可以使用 NVIDIA RTX 虚拟工作站(以前称为 NVIDIA GRID)。
本文档简要介绍了 Compute Engine 上可用的各种不同的 GPU 虚拟机。
如需查看 Compute Engine 上 GPU 的可用区域和可用区,请参阅 GPU 区域和可用区可用性。
面向计算工作负载的 GPU
对于计算工作负载,以下机器类型支持 GPU:
- A3 虚拟机:这些虚拟机会自动挂接 NVIDIA H100 80GB GPU。
- A2 虚拟机:这些虚拟机会自动挂接 NVIDIA A100 80GB 或 NVIDIA A100 40GB GPU。
- G2 虚拟机:这些虚拟机会自动挂接 NVIDIA L4 GPU。
- N1 虚拟机:对于这些虚拟机,您可以挂接以下 GPU 型号:NVIDIA T4、NVIDIA V100、NVIDIA P100 或 NVIDIA P4。
A3 机器系列
如需使用 NVIDIA H100 80GB GPU,您必须使用 A3 加速器优化机器。每种 A3 机器类型都有固定的 GPU 数量、vCPU 数量和内存大小。
A3 机器系列有两种类型:
- A3 High:这些机器类型挂接了 H100 80GB GPU (
nvidia-h100-80gb
) 和本地 SSD 磁盘。 - A3 Mega:这些机器类型挂接了 H100 80GB Mega GPU (
nvidia-h100-mega-80gb
) 和本地 SSD 磁盘。
A3 High
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6000 | 5 | 1000 |
A3 Mega
机器类型 | GPU 数量 | GPU 内存* (GB HBM3) |
vCPU 数量† | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)‡ |
---|---|---|---|---|---|---|---|
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6000 | 9 | 1800 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
† 每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
‡出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
A2 机器系列
如需在 Google Cloud 上使用 NVIDIA A100 GPU,您必须部署 A2 加速器优化机器。每种 A2 机器类型都有固定的 GPU 数量、vCPU 数量和内存大小。
A2 机器系列有两种类型:
- A2 标准:这些机器类型挂接了 A100 40GB GPU (
nvidia-tesla-a100
)。 - A2 Ultra:这些机器类型挂接了 A100 80GB GPU (
nvidia-a100-80gb
) 和本地 SSD 磁盘。
A2 标准
机器类型 | GPU 数量 | GPU 内存* (GB HBM2) | vCPU 数量 | 虚拟机内存 (GB) | 支持本地 SSD | 最大网络带宽 (Gbps) |
---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 40 | 12 | 85 | 是 | 24 |
a2-highgpu-2g |
2 | 80 | 24 | 170 | 是 | 32 |
a2-highgpu-4g |
4 | 160 | 48 | 340 | 是 | 50 |
a2-highgpu-8g |
8 | 320 | 96 | 680 | 是 | 100 |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | 是 | 100 |
A2 Ultra
机器类型 | GPU 数量 | GPU 内存* (GB HBM2e) | vCPU 数量 | 虚拟机内存 (GB) | 已挂接的本地 SSD (GiB) | 最大网络带宽 (Gbps) |
---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 | 24 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | 32 |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1500 | 50 |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3000 | 100 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
G2 机器系列
如需使用 NVIDIA L4 GPU(nvidia-l4
或 nvidia-l4-vws
),您必须部署 G2 加速器优化机器。
每种 G2 机器类型都挂接了固定数量的 NVIDIA L4 GPU 和 vCPU。每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的虚拟机内存量。您可以在虚拟机创建期间指定自定义内存。
机器类型 | GPU 数量 | GPU 内存* (GB GDDR6) | vCPU 数量 | 默认虚拟机内存 (GB) | 自定义虚拟机内存范围 (GB) | 支持的最大本地 SSD (GiB) | 最大网络带宽 (Gbps) |
---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 24 | 4 | 16 | 16 - 32 | 375 | 10 |
g2-standard-8 |
1 | 24 | 8 | 32 | 32 - 54 | 375 | 16 |
g2-standard-12 |
1 | 24 | 12 | 48 | 48 - 54 | 375 | 16 |
g2-standard-16 |
1 | 24 | 16 | 64 | 54 - 64 | 375 | 32 |
g2-standard-24 |
2 | 48 | 24 | 96 | 96 - 108 | 750 | 32 |
g2-standard-32 |
1 | 24 | 32 | 128 | 96 - 128 | 375 | 32 |
g2-standard-48 |
4 | 96 | 48 | 192 | 192 - 216 | 1500 | 50 |
g2-standard-96 |
8 | 192 | 96 | 384 | 384 - 432 | 3000 | 100 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
N1 机器系列
您可以将以下 GPU 型号挂接到 N1 机器类型(N1 共享核心机器类型除外)。
GPU 数量较少的 N1 虚拟机会有 vCPU 数量上限的限制。通常情况下,如果 GPU 数量较多,您可以创建具有较多 vCPU 和内存的虚拟机实例。
N1+T4 GPU
您可以将 NVIDIA T4 GPU 挂接到具有以下虚拟机配置的 N1 通用虚拟机。
加速器类型 | GPU 数量 | GPU 内存* (GB GDDR6) | vCPU 数量 | 虚拟机内存 (GB) | 支持本地 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或 nvidia-tesla-t4-vws
|
1 | 16 | 1 - 48 | 1 - 312 | 是 |
2 | 32 | 1 - 48 | 1 - 312 | 是 | |
4 | 64 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
N1+P4 GPU
您可以将 NVIDIA P4 GPU 挂接到具有以下虚拟机配置的 N1 通用虚拟机。
加速器类型 | GPU 数量 | GPU 内存* (GB GDDR5) | vCPU 数量 | 虚拟机内存 (GB) | 支持本地 SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 或 nvidia-tesla-p4-vws
|
1 | 8 | 1 - 24 | 1 - 156 | 是 |
2 | 16 | 1 - 48 | 1 - 312 | 是 | |
4 | 32 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
†对于已挂接 NVIDIA P4 GPU 的虚拟机,仅 us-central1-c
和 northamerica-northeast1-b
可用区支持本地 SSD 磁盘。
N1+V100 GPU
您可以将 NVIDIA V100 GPU 挂接到具有以下虚拟机配置的 N1 通用虚拟机。
加速器类型 | GPU 数量 | GPU 内存* (GB HBM2) | vCPU 数量 | 虚拟机内存 (GB) | 支持本地 SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 - 12 | 1 - 78 | 是 |
2 | 32 | 1 - 24 | 1 - 156 | 是 | |
4 | 64 | 1 - 48 | 1 - 312 | 是 | |
8 | 128 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
†对于挂接了 NVIDIA V100 GPU 的虚拟机,us-east1-c
不支持本地 SSD 磁盘。
N1+P100 GPU
您可以将 NVIDIA P100 GPU 挂接到具有以下虚拟机配置的 N1 通用虚拟机。
对于部分 NVIDIA P100 GPU,适用于某些配置的 CPU 和内存上限取决于运行 GPU 资源的可用区。
加速器类型 | GPU 数量 | GPU 内存* (GB HBM2) | vCPU 数量 | 虚拟机内存 (GB) | 支持本地 SSD |
---|---|---|---|---|---|
nvidia-tesla-p100 或 nvidia-tesla-p100-vws
|
1 | 16 | 1 - 16 | 1 - 104 | 是 |
2 | 32 | 1 至 32 | 1 - 208 | 是 | |
4 | 64 | 1 - 64 1 - 96 |
1 - 208 1 - 624 |
是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与虚拟机的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
面向图形工作负载的 NVIDIA RTX 虚拟工作站 (vWS)
如果您有图形密集型工作负载(例如 3D 可视化),则可以创建使用 NVIDIA RTX 虚拟工作站 (vWS)(以前称为 NVIDIA GRID)的虚拟工作站。创建虚拟工作站时,系统会自动向您的虚拟机添加 NVIDIA RTX 虚拟工作站 (vWS) 许可。
如需了解虚拟工作站的价格,请参阅 GPU 价格页面。
对于图形工作负载,可使用 NVIDIA RTX 虚拟工作站 (vWS) 型号:
G2 机器系列:对于 G2 机器类型,您可以启用 NVIDIA L4 虚拟工作站 (vWS):
nvidia-l4-vws
N1 机器系列:对于 N1 机器类型,您可以启用以下虚拟工作站:
- NVIDIA T4 虚拟工作站:
nvidia-tesla-t4-vws
- NVIDIA P100 虚拟工作站:
nvidia-tesla-p100-vws
- NVIDIA P4 虚拟工作站:
nvidia-tesla-p4-vws
- NVIDIA T4 虚拟工作站:
常规比较图表
下表介绍了 Compute Engine 上提供的各种 GPU 内存大小、功能可用性以及理想的工作负载类型。
GPU 模型 | GPU 内存 | 互连 | NVIDIA RTX 虚拟工作站 (vWS) 支持 | 最佳用途 |
---|---|---|---|---|
H100 80GB | 80 GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
A100 80GB | 80 GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
A100 40GB | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | 机器学习训练、推理、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | 机器学习训练、推理、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | 不适用 | 远程可视化工作站、机器学习推理和视频转码 | |
P100 | 16 GB HBM2 @ 732 GBps | 不适用 | 机器学习推理、HPC、远程可视化工作站 |
如需比较 Compute Engine 上的各种 GPU 型号的价格和适用区域,请参阅 GPU 价格。
性能比较图表
下表介绍了 Compute Engine 上提供的不同 GPU 模型的性能规范。
计算性能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
H100 80GB | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*为了让 FP64 代码正常运行,我们向 T4、L4、和 P4 GPU 架构中添加了少量的 FP64 硬件单元。
†每秒执行的 TeraOperation 数。
Tensor 核心性能
GPU 模型 | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
H100 80GB | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*、† | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*对于混合精度训练,NVIDIA H100、A100 和 L4 GPU 还支持 bfloat16
数据类型。
†对于 H100 和 L4 GPU,支持结构稀疏性,可用于将性能值加倍。显示的值包含稀疏性。在没有稀疏性的情况下,规格降低了二分之一。
后续步骤
- 如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
- 查看 GPU 区域和可用区可用性。
- 了解 GPU 价格。