本文档概述了 Compute Engine 上提供的 NVIDIA GPU 型号,您可以使用这些 GPU 来加速虚拟机实例上的机器学习、数据处理和图形密集型工作负载。本文档还详细介绍了有哪些 GPU 已被预挂接到加速器优化型机器系列(例如 A4X、A4、A3、A2、G4 和 G2),以及有哪些 GPU 可以挂接到 N1 通用型实例。
您可以使用本文档比较不同 GPU 型号的性能、内存和特性。如需详细了解加速器优化型机器家族,包括 CPU 平台、存储选项和网络功能方面的信息,并找到与您的工作负载匹配的特定机器类型,请参阅加速器优化型机器家族。
如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
如需查看 Compute Engine 上 GPU 的可用区域和可用区,请参阅 GPU 区域和可用区可用性。
GPU 机器类型
Compute Engine 提供不同的机器类型来支持各种工作负载。
部分机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。当您创建使用 NVIDIA RTX 虚拟工作站的实例时,Compute Engine 会自动添加 vWS 许可。如需了解虚拟工作站的价格,请参阅 GPU 价格页面。
GPU 机器类型 | |||
---|---|---|---|
AI 和机器学习工作负载 | 图形和可视化 | 其他 GPU 工作负载 | |
加速器优化 A 系列机器类型专为高性能计算 (HPC)、人工智能 (AI) 和机器学习 (ML) 工作负载而设计。
较新的 A 系列非常适合预训练和微调涉及大量加速器的基础模型,而 A2 系列可用于训练较小的模型和单主机推理。 对于这些机器类型,GPU 型号会自动挂接到实例。 |
加速器优化型 G 系列机器类型专为 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面等工作负载而设计。这些机器类型支持 NVIDIA RTX 虚拟工作站 (vWS)。
G 系列还可用于训练较小的模型和进行单主机推理。 对于这些机器类型,GPU 型号会自动挂接到实例。 |
对于 N1 通用机器类型(N1 共享核心机器类型 [ |
|
|
以下 GPU 型号可以挂接到 N1 通用机器类型:
|
您还可以在 AI Hypercomputer 上使用一些 GPU 机器类型。AI Hypercomputer 是一种超级计算系统,经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。建议使用此选项来创建密集分配、性能优化的基础架构,并集成 Google Kubernetes Engine (GKE) 和 Slurm 调度器。
A4X 机器系列
A4X 加速器优化型机器类型使用 NVIDIA GB200 Grace Blackwell 超级芯片 (nvidia-gb200
),非常适合基础模型训练和部署。
A4X 是基于 NVIDIA GB200 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B200 Blackwell GPU。
挂接了 NVIDIA GB200 Grace Blackwell 超级芯片 | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A4 机器系列
A4 加速器优化型机器类型挂接了 NVIDIA B200 Blackwell GPU (nvidia-b200
),非常适合基础模型训练和部署。
挂接的 NVIDIA B200 Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3600 | 8 | 1,440 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 机器系列
A3 加速器优化型机器类型挂接了 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。
A3 Ultra 机器类型
A3 Ultra 机器类型挂接了 NVIDIA H200 SXM GPU (nvidia-h200-141gb
),是 A3 系列中能够提供最高网络性能的机器类型。A3 Ultra 机器类型非常适合基础模型训练和部署。
挂接了 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3600 | 8 | 1128 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 Mega、A3 High 和 A3 Edge 机器类型
如需使用 NVIDIA H100 SXM GPU,您可以选择以下选项:
- A3 Mega:这些机器类型配备 H100 SXM GPU (
nvidia-h100-mega-80gb
),非常适合大规模的训练和部署工作负载。 - A3 High:这些机器类型配备 H100 SXM GPU (
nvidia-h100-80gb
),非常适合训练和部署任务。 - A3 Edge:这些机器类型配备 H100 SXM GPU (
nvidia-h100-80gb
),专为部署而设计,在部分区域提供。
A3 Mega
挂接了 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6000 | 9 | 1800 | 8 | 640 |
A3 High
挂接了 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6000 | 5 | 1000 | 8 | 640 |
A3 Edge
挂接了 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6000 | 5 |
|
8 | 640 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A2 机器系列
A2 加速器优化型机器类型挂接了 NVIDIA A100 GPU,非常适合模型微调以及费用经过优化的大规模模型推理。
A2 机器系列有两种类型:
- A2 Ultra:这些机器类型挂接了 A100 80GB GPU (
nvidia-a100-80gb
) 和本地 SSD 磁盘。 - A2 Standard:这些机器类型挂接了 A100 40GB GPU (
nvidia-tesla-a100
)。您还可以在创建 A2 Standard 实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量,请参阅需要您选择本地 SSD 磁盘数量的机器类型。
A2 Ultra
挂接了 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3000 | 100 | 8 | 640 |
A2 标准
挂接了 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 支持本地 SSD | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 是 | 100 | 16 | 640 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
G4 机器系列
G4 加速器优化型机器类型使用 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU (nvidia-rtx-pro-6000
),适用于 NVIDIA Omniverse 模拟工作负载、图形密集型应用、视频转码和虚拟桌面。与 A 系列机器类型相比,G4 机器类型还提供了一种低成本解决方案来执行单主机推理和模型调优。
G4 系列的一项关键功能是支持在多 GPU 机器类型(g4-standard-96
、g4-standard-192
、g4-standard-384
)上进行直接 GPU 点对点 (P2P) 通信。这使同一实例中的 GPU 可以直接通过 PCIe 总线交换数据,而不会涉及 CPU 主机。如需详细了解 G4 GPU 点对点通信,请参阅 G4 GPU 点对点通信。
挂接了 NVIDIA RTX PRO 6000 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 实例内存 (GB) | 支持的最大 Titanium SSD (GiB)2 | 物理 NIC 数量 | 网络带宽上限 (Gbps)3 | GPU 数量 | GPU 内存4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2您可以在创建 G4 实例时添加 Titanium SSD 磁盘。如需了解可挂接的磁盘数量,请参阅需要您选择本地 SSD 磁盘数量的机器类型。
3出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。请参阅网络带宽。
4GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
G2 机器系列
G2 加速器优化型机器类型挂接了 NVIDIA L4 GPU,非常适合注重成本效益的推理、图形密集型和高性能计算工作负载。
每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的实例内存量。您还可以在创建 G2 实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量,请参阅需要您选择本地 SSD 磁盘数量的机器类型。
挂接了 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量1 | 默认实例内存 (GB) | 自定义实例内存范围 (GB) | 支持的最大本地 SSD (GiB) | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 - 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 - 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 - 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 - 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 - 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 - 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 - 216 | 1500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 - 432 | 3000 | 100 | 8 | 192 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
N1 机器系列
您可以将以下 GPU 型号挂接到 N1 机器类型(N1 共享核心机器类型除外)。
与加速器优化型机器系列中的机器类型不同,N1 机器类型没有预设挂接 GPU 的数量;而是需要您在创建实例时指定要挂接的 GPU 数量。
如果 N1 实例挂接的 GPU 数量较少,则其 vCPU 数量上限也会相应受到限制。通常情况下,如果 GPU 数量较多,则您可以创建具有较多 vCPU 和内存的实例。
N1+T4 GPU
您可以将 NVIDIA T4 GPU 挂接到具有以下实例配置的 N1 通用实例。
加速器类型 | GPU 数量 | GPU 内存1 (GB GDDR6) | vCPU 数量 | 实例内存 (GB) | 支持本地 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或 nvidia-tesla-t4-vws
|
1 | 16 | 1 - 48 | 1 - 312 | 是 |
2 | 32 | 1 - 48 | 1 - 312 | 是 | |
4 | 64 | 1 - 96 | 1 - 624 | 是 |
1GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
N1+P4 GPU
您可以将 NVIDIA P4 GPU 挂接到具有以下实例配置的 N1 通用实例。
加速器类型 | GPU 数量 | GPU 内存1 (GB GDDR5) | vCPU 数量 | 实例内存 (GB) | 支持本地固态硬盘2 |
---|---|---|---|---|---|
nvidia-tesla-p4 或 nvidia-tesla-p4-vws
|
1 | 8 | 1 - 24 | 1 - 156 | 是 |
2 | 16 | 1 - 48 | 1 - 312 | 是 | |
4 | 32 | 1 - 96 | 1 - 624 | 是 |
1GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
2对于挂接了 NVIDIA P4 GPU 的实例,只有 us-central1-c
和 northamerica-northeast1-b
这两个可用区支持本地固态硬盘。
N1+V100 GPU
您可以将 NVIDIA V100 GPU 挂接到具有以下实例配置的 N1 通用实例。
加速器类型 | GPU 数量 | GPU 内存1 (GB HBM2) | vCPU 数量 | 实例内存 (GB) | 支持本地固态硬盘2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 - 12 | 1 - 78 | 是 |
2 | 32 | 1 - 24 | 1 - 156 | 是 | |
4 | 64 | 1 - 48 | 1 - 312 | 是 | |
8 | 128 | 1 - 96 | 1 - 624 | 是 |
1GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
2对于挂接了 NVIDIA V100 GPU 的实例,us-east1-c
不支持本地 SSD 磁盘。
N1+P100 GPU
您可以将 NVIDIA P100 GPU 挂接到具有以下实例配置的 N1 通用实例。
对于部分 NVIDIA P100 GPU,适用于某些配置的 CPU 和内存上限取决于运行 GPU 资源的可用区。
加速器类型 | GPU 数量 | GPU 内存1 (GB HBM2) | 可用区 | vCPU 数量 | 实例内存 (GB) | 支持本地 SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 或 nvidia-tesla-p100-vws
|
1 | 16 | 所有 P100 可用区 | 1 - 16 | 1 - 104 | 是 |
2 | 32 | 所有 P100 可用区 | 1 至 32 | 1 - 208 | 是 | |
4 | 64 | us-east1-c 、europe-west1-d 、europe-west1-b |
1 - 64 | 1 - 208 | 是 | |
所有其他 P100 可用区 | 1 - 96 | 1 - 624 | 是 |
1GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
常规比较图表
下表列出了 Compute Engine 上提供的各种 GPU 型号的 GPU 内存大小、功能提供情况以及适合处理的工作负载类型。
GPU 模型 | GPU 内存 | 互连 | NVIDIA RTX 虚拟工作站 (vWS) 支持 | 最佳用途 |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | LLM 的大规模分布式训练和推理、Recommender 以及 HPC | |
B200 | 180 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | LLM 的大规模分布式训练和推理、Recommender 以及 HPC | |
H200 | 141 GB HBM3e @ 4.8 TBps | NVLink Full Mesh @ 900 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
H100 | 80 GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
A100 80GB | 80 GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
A100 40GB | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | 机器学习训练、推理、HPC | |
RTX PRO 6000 | 96 GB GDDR7(含 ECC)@ 1597 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | 机器学习训练、推理、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | 不适用 | 远程可视化工作站、机器学习推理和视频转码 | |
P100 | 16 GB HBM2 @ 732 GBps | 不适用 | 机器学习推理、HPC、远程可视化工作站 |
如需比较 Compute Engine 上的各种 GPU 型号的价格和适用区域,请参阅 GPU 价格。
性能比较图表
下表介绍了 Compute Engine 上提供的不同 GPU 模型的性能规范。
计算性能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS1 | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS1 | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS1 | 5.5 TFLOPS | 22 TOPS2 | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
1为了让 FP64 代码正常运行,T4、L4 和 P4 GPU 架构中包含少量的 FP64 硬件单元。
2每秒执行的 TeraOperation 数。
Tensor 核心性能
GPU 模型 | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS2 | 5,000 TFLOPS1, 2 | 10,000 TFLOPS2 | 20,000 TFLOPS2 | 10,000 TFLOPS2 |
B200 | 40 TFLOPS | 1,100 TFLOPS2 | 4,500 TFLOPS1, 2 | 9,000 TFLOPS2 | 9,000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1, 2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1,979 TFLOPS1, 2 | 3,958 TOPS2 | 3,958 TFLOPS2 | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1, 2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1对于混合精度训练,NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 还支持 bfloat16
数据类型。
2NVIDIA GB200、B200、H200、H100 和 L4 GPU 支持结构稀疏性。您可以使用结构稀疏性将模型的性能提高一倍。所记录的值适用于使用结构稀疏性的情况。如果您未使用结构稀疏性,则这些值应减半。
后续步骤
- 详细了解 Compute Engine GPU。
- 查看 GPU 区域及可用区可用性。
- 参阅网络带宽和 GPU。
- 查看 GPU 价格详情。