GPU 平台

Compute Engine 提供了可添加到虚拟机实例的图形处理单元 (GPU)。您可以使用这些 GPU 加速虚拟机上的特定工作负载,例如机器学习和数据处理。

Compute Engine 以直通模式为您的虚拟机提供 NVIDIA GPU,让您的虚拟机可以直接控制 GPU 及其相关内存。

如果您的工作负载属于图形密集型(例如 3D 可视化、3D 渲染或虚拟应用),则可以使用 NVIDIA RTX 虚拟工作站(以前称为 NVIDIA GRID)。

本文档简要介绍了 Compute Engine 上可用的各种不同的 GPU 模型。

如需查看 Compute Engine 上 GPU 的可用区域和可用区,请参阅 GPU 区域和可用区可用性

面向计算工作负载的 NVIDIA GPU

对于计算工作负载,可在以下阶段使用 GPU 模型:

  • NVIDIA A100:正式版
  • NVIDIA T4:nvidia-tesla-t4正式版
  • NVIDIA V100:nvidia-tesla-v100正式版
  • NVIDIA P100:nvidia-tesla-p100正式版
  • NVIDIA P4:nvidia-tesla-p4正式版
  • NVIDIA K80:nvidia-tesla-k80正式版

NVIDIA A100 GPU

如需运行 NVIDIA A100 GPU,您必须使用加速器优化 (A2) 机器类型。

每种 A2 机器类型都有固定的 GPU 数量、vCPU 数量和内存大小。

GPU 模型 机器类型 GPU GPU 内存 可用 vCPU 数量 可用内存
NVIDIA A100 a2-highgpu-1g 1 个 GPU 40 GB HBM2 12 个 vCPU 85 GB
a2-highgpu-2g 2 个 GPU 80 GB HBM2 24 个 vCPU 170 GB
a2-highgpu-4g 4 个 GPU 160 GB HBM2 48 个 vCPU 340 GB
a2-highgpu-8g 8 个 GPU 320 GB HBM2 96 个 vCPU 680 GB
a2-megagpu-16g 16 个 GPU 640 GB HBM2 96 个 vCPU 1360 GB

NVIDIA T4 GPU

GPU 数量较少的虚拟机会有 vCPU 数量上限的限制。通常情况下,如果 GPU 数量较多,您可以创建具有较多 vCPU 和内存的实例。

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA T4 1 个 GPU 16 GB GDDR6 1 - 48 个 vCPU 1 - 312 GB
2 个 GPU 32 GB GDDR6 1 - 48 个 vCPU 1 - 312 GB
4 个 GPU 64 GB GDDR6 1 - 96 个 vCPU 1 - 624 GB

NVIDIA P4 GPU

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA P4 1 个 GPU 8 GB GDDR5 1 - 24 个 vCPU 1 - 156 GB
2 个 GPU 16 GB GDDR5 1 - 48 个 vCPU 1 - 312 GB
4 个 GPU 32 GB GDDR5 1 - 96 个 vCPU 1 - 624 GB

NVIDIA V100 GPU

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA V100 1 个 GPU 16 GB HBM2 1 - 12 个 vCPU 1 - 78 GB
2 个 GPU 32 GB HBM2 1 - 24 个 vCPU 1 - 156 GB
4 个 GPU 64 GB HBM2 1 - 48 个 vCPU 1 - 312 GB
8 个 GPU 128 GB HBM2 1 - 96 个 vCPU 1 - 624 GB

NVIDIA P100 GPU

对于部分 P100 GPU,适用于某些配置的 CPU 和内存上限取决于运行 GPU 资源的可用区。

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA P100 1 个 GPU 16 GB HBM2 1 - 16 个 vCPU 1 - 104 GB
2 个 GPU 32 GB HBM2 1 - 32 个 vCPU 1 - 208 GB
4 个 GPU 64 GB HBM2

1 - 64 个 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1 - 96 个 vCPU
(所有 P100 可用区)

1 - 208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1 - 624 GB
(所有 P100 可用区)

NVIDIA K80 GPU

每块 NVIDIA K80 主板包含两个 GPU。K80 GPU 的价格取决于各个 GPU,而不是主板。

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA K80 1 个 GPU 12 GB GDDR5 1 - 8 个 vCPU 1 - 52 GB
2 个 GPU 24 GB GDDR5 1 - 16 个 vCPU 1 - 104 GB
4 个 GPU 48 GB GDDR5 1 - 32 个 vCPU 1 - 208 GB
8 个 GPU 96 GB GDDR5 1 - 64 个 vCPU

1 - 416 GB
(asia-east1-a 和 us-east1-d)

1 - 208 GB
(所有 K80 可用区)

面向图形工作负载的 NVIDIA RTX 虚拟工作站

如果您有图形密集型工作负载(例如 3D 可视化),则可以创建使用 NVIDIA RTX 虚拟工作站(以前称为 NVIDIA GRID)的虚拟工作站。创建虚拟工作站时,系统会自动向您的虚拟机添加 NVIDIA RTX 虚拟工作站许可。如需了解虚拟工作站的价格,请参阅 GPU 价格页面

对于图形工作负载,可于以下阶段使用 NVIDIA RTX 虚拟工作站模型:

  • NVIDIA T4 虚拟工作站:nvidia-tesla-t4-vws正式版
  • NVIDIA P100 虚拟工作站:nvidia-tesla-p100-vws正式版
  • NVIDIA P4 虚拟工作站:nvidia-tesla-p4-vws正式版

NVIDIA T4 VWS GPU

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA T4 虚拟工作站 1 个 GPU 16 GB GDDR6 1 - 48 个 vCPU 1 - 312 GB
2 个 GPU 32 GB GDDR6 1 - 48 个 vCPU 1 - 312 GB
4 个 GPU 64 GB GDDR6 1 - 96 个 vCPU 1 - 624 GB

NVIDIA P4 VWS GPU

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA P4 虚拟工作站 1 个 GPU 8 GB GDDR5 1 - 16 个 vCPU 1 - 156 GB
2 个 GPU 16 GB GDDR5 1 - 48 个 vCPU 1 - 312 GB
4 个 GPU 32 GB GDDR5 1 - 96 个 vCPU 1 - 624 GB

NVIDIA P100 VWS GPU

GPU 模型 GPU 数量 GPU 内存 可用 vCPU 数量 可用内存
NVIDIA P100 虚拟工作站 1 个 GPU 16 GB HBM2 1 - 16 个 vCPU 1 - 104 GB
2 个 GPU 32 GB HBM2 1 - 32 个 vCPU 1 - 208 GB
4 个 GPU 64 GB HBM2

1 - 64 个 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1 - 96 个 vCPU
(所有 P100 可用区)

1 - 208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1 - 624 GB
(所有 P100 可用区)

常规比较图表

下表介绍了 Compute Engine 上提供的各种 GPU 内存大小、功能可用性以及理想的工作负载类型。

指标 A100 T4 V100 P4 P100 K80
内存 40 GB HBM2 @ 1.6 TB/s 16 GB GDDR6 @ 320 GB/s 16 GB HBM2 @ 900 GB/s 8 GB GDDR5 @ 192 GB/s 16 GB HBM2 @ 732 GB/s 12 GB GDDR5 @ 240 GB/s
互连 NVLink Full Mesh @ 600 GB/s 不适用 NVLink Ring @ 300 GB/s 不适用 不适用 不适用
NVIDIA RTX 虚拟工作站支持
最佳用途 机器学习训练、推理、HPC 机器学习推理、训练、远程可视化工作站、视频转码 机器学习训练、推理、HPC 远程可视化工作站、机器学习推理和视频转码 机器学习推理、HPC、远程可视化工作站 机器学习推理、训练、HPC
价格 如要比较 Compute Engine 上的各种 GPU 型号的价格和适用区域,请参阅 GPU 价格

性能比较图表

下表介绍了 Compute Engine 上提供的不同 GPU 模型的性能规范。

指标 A100 T4 V100 P4 P100 K80
计算性能
FP64 9.7 TFLOPS 0.25 TFLOPS1 7.8 TFLOPS 0.2 TFLOPS1 4.7 TFLOPS 1.46 TFLOPS
FP32 19.5 TFLOPS 8.1 TFLOPS 15.7 TFLOPS 5.5 TFLOPS 9.3 TFLOPS 4.37 TFLOPS
FP16 18.7 TFLOPS
INT8 22 TOPS2
Tensor 核心性能
FP64 19.5 TFLOPS
TF32 156 TFLOPS
混合精度 FP16/FP32 312 TFLOPS3 65 TFLOPS 125 TFLOPS
INT8 624 TOPS2 180 TOPS2
INT4 1248 TOPS2 260 TOPS2

1为了让 FP64 代码正常运行,T4 和 P4 GPU 架构中包含少量的 FP64 硬件单元。

2每秒太拉次运算。

3 对于混合精度训练,NVIDIA A100 还支持 bfloat16 数据类型。

后续步骤