提高網路頻寬可提升 GPU 執行個體的效能,支援在 Compute Engine 上執行的分散式工作負載。
Compute Engine 上附加 GPU 的執行個體可用網路頻寬上限如下:
- 對於 A4 和 A3 加速器最佳化執行個體,您最多可獲得 3,600 Gbps 的網路頻寬,實際頻寬取決於機器類型。
- 對於 A2 和 G2 加速器最佳化執行個體,您可根據機器類型獲得最高 100 Gbps 的網路頻寬。
- 對於附加 P100 和 P4 GPU 的 N1 一般用途執行個體,網路頻寬上限為 32 Gbps。這與未連接 GPU 的 N1 執行個體可用的最高速率類似。如要進一步瞭解網路頻寬,請參閱最大輸出資料速率。
- 對於附加 T4 和 V100 GPU 的 N1 一般用途執行個體,根據 GPU 和 vCPU 數量組合,您可獲得最高 100 Gbps 的網路頻寬。
檢查網路頻寬和 NIC 配置
請參閱下節,瞭解各 GPU 機器類型的網路配置和頻寬速度。
A4 和 A3 Ultra 機型
A4 機型連接的是 NVIDIA B200 GPU,A3 Ultra 機型則連接 NVIDIA H200 GPU。
這些機器類型提供八張 NVIDIA ConnectX-7 (CX7) 網路介面卡 (NIC) 和兩張 Google 虛擬 NIC (gVNIC)。八個 CX7 NIC 可提供總計 3,200 Gbps 的網路頻寬。這些 NIC 專用於高頻寬 GPU 對 GPU 通訊,無法用於其他網路需求,例如存取公開網際網路。如下圖所示,每個 CX7 NIC 都與一個 GPU 對齊,以最佳化非一致性記憶體存取 (NUMA)。八個 GPU 之間可透過 NVLink 橋接器快速通訊。另外兩張 gVNIC 網路介面卡是智慧型 NIC,可額外提供 400 Gbps 的網路頻寬,滿足一般用途的網路需求。這些網路介面卡加總起來,可為這些機器提供 3,600 Gbps 的網路頻寬上限。

如要使用這些多重 NIC,您需要建立 3 個虛擬私有雲網路,如下所示:
- 2 個 VPC 網路:每個 gVNIC NIC 都必須連接至不同的 VPC 網路
- 1 個虛擬私有雲網路,其中包含 RDMA 網路設定檔:所有八個 CX7 NIC 共用同一個虛擬私有雲網路
如要設定這些網路,請參閱 AI Hypercomputer 說明文件中的「建立虛擬私有雲網路」。
A4 VM
已連結的 NVIDIA Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
A3 Ultra VM
附加的 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
A3 Mega、High 和 Edge 機型
這類機型連接 H100 GPU。這些機器類型各有固定的 GPU 數量、vCPU 數量和記憶體大小。
- 單一 NIC A3 VM:如果 A3 VM 附加 1 到 4 個 GPU,則只有單一實體網路介面卡 (NIC) 可用。
- 多 NIC A3 VM:對於附加 8 個 GPU 的 A3 VM,可使用多個實體 NIC。在這些 A3 機型中,NIC 會透過周邊元件互連高速 (PCIe) 匯流排排列,如下所示:
- A3 Mega 機器類型:提供 8+1 的 NIC 配置。 採用這種配置時,8 個 NIC 會共用同一個 PCIe 匯流排,1 個 NIC 則位於不同的 PCIe 匯流排上。
- A3 High 機型:提供 4+1 的 NIC 配置。 這樣一來,4 個 NIC 會共用同一個 PCIe 匯流排,1 個 NIC 則位於另一個 PCIe 匯流排。
- A3 Edge 機型:提供 4+1 的 NIC 配置。 這樣一來,4 個 NIC 會共用同一個 PCIe 匯流排,而 1 個 NIC 則位於另一個 PCIe 匯流排。 這 5 個 NIC 可為每個 VM 提供 400 Gbps 的總網路頻寬。
共用相同 PCIe 匯流排的 NIC,每兩個 NVIDIA H100 GPU 有一個 NIC 的非一致性記憶體存取 (NUMA) 對齊。這些 NIC 非常適合用於 GPU 對 GPU 的專屬高頻寬通訊。位於獨立 PCIe 匯流排上的實體 NIC 非常適合其他網路需求。如要瞭解如何設定 A3 High 和 A3 Edge VM 的網路,請參閱設定巨型封包 MTU 網路。
A3 Mega
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A2 機型
每個 A2 機器類型連接固定數量的 NVIDIA A100 40GB 或 NVIDIA A100 80 GB GPU。每個機型也有固定的 vCPU 數量和記憶體大小。
A2 系列機器分為兩種:
- A2 Ultra:這類機型連接 A100 80GB GPU 和本機 SSD 磁碟。
- A2 Standard:這類機型連接 A100 40GB GPU。
A2 Ultra
已連結 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
已連結 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 支援本機 SSD | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a2-highgpu-1g |
12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 是 | 100 | 16 | 640 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G2 機型
G2 加速器最佳化機型連接 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要大量圖形處理的作業,以及高效能運算工作負載。
每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機型可分配給執行個體的記憶體大小。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
如要為大多數 GPU 執行個體套用較高的網路頻寬速率 (50 Gbps 以上),建議使用 Google 虛擬 NIC (gVNIC)。如要進一步瞭解如何建立使用 gVNIC 的 GPU 執行個體,請參閱建立使用較高頻寬的 GPU 執行個體。
已附加的 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 預設執行個體記憶體 (GB) | 自訂執行個體記憶體範圍 (GB) | 支援的最大本機 SSD (GiB) | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 至 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 至 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 到 54 歲 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 到 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 至 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 到 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 至 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 到 432 | 3,000 | 100 | 8 | 192 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1 + GPU 機器類型
對於附加 T4 和 V100 GPU 的 N1 一般用途執行個體,根據 GPU 和 vCPU 數量的組合,您最多可獲得 100 Gbps 的網路頻寬。如要瞭解其他 N1 GPU 執行個體,請參閱總覽。
請參閱下節,根據 GPU 型號、vCPU 和 GPU 數量,計算 T4 和 V100 執行個體可用的網路頻寬上限。
少於 5 個 vCPU
如果 T4 和 V100 執行個體的 vCPU 數量為 5 個以下,則網路頻寬上限為 10 Gbps。
超過 5 個 vCPU
如果 T4 和 V100 執行個體的 vCPU 數量超過 5 個,系統會根據該 VM 的 vCPU 和 GPU 數量計算網路頻寬上限。
如要為大多數 GPU 執行個體套用較高的網路頻寬速率 (50 Gbps 以上),建議使用 Google 虛擬 NIC (gVNIC)。如要進一步瞭解如何建立使用 gVNIC 的 GPU 執行個體,請參閱建立使用較高頻寬的 GPU 執行個體。
GPU 模型 | GPU 數量 | 計算最大網路頻寬 |
---|---|---|
NVIDIA V100 | 1 | min(vcpu_count * 2, 32) |
2 | min(vcpu_count * 2, 32) |
|
4 | min(vcpu_count * 2, 50) |
|
8 | min(vcpu_count * 2, 100) |
|
NVIDIA T4 | 1 | min(vcpu_count * 2, 32) |
2 | min(vcpu_count * 2, 50) |
|
4 | min(vcpu_count * 2, 100) |
MTU 設定和 GPU 機器類型
如要盡量提高網路頻寬,請為虛擬私有雲網路設定較高的最大傳輸單位 (MTU) 值。MTU 值越高,封包大小就越大,封包標頭的負擔也會減少,進而提高酬載資料的總處理量。
如果是 GPU 機器類型,建議您為虛擬私有雲網路採用下列 MTU 設定。
GPU 機器類型 | 建議的 MTU (以位元組為單位) | |
---|---|---|
虛擬私有雲網路 | 具有 RDMA 設定檔的虛擬私有雲網路 | |
|
8896 | 8896 |
|
8244 | 不適用 |
|
8896 | 不適用 |
設定 MTU 值時,請注意下列事項:
- 8192 是兩個 4 KB 頁面。
- 如果 GPU NIC 已啟用標頭分割功能,建議在 A3 Mega、A3 High 和 A3 Edge VM 中使用 8244。
- 除非表格另有註明,否則請使用 8896 這個值。
建立高頻寬 GPU 機器
如要建立使用較高網路頻寬的 GPU 執行個體,請根據機器類型使用下列其中一種方法:
如要建立使用更高網路頻寬的 A2、G2 和 N1 執行個體,請參閱「為 A2、G2 和 N1 執行個體使用更高網路頻寬」。如要測試或驗證這些機器的頻寬速度,可以使用基準測試。詳情請參閱「檢查網路頻寬」。
如要建立使用較高網路頻寬的 A3 Mega 執行個體,請參閱「部署 A3 Mega Slurm 叢集以進行 ML 訓練」。如要測試或驗證這些機器的頻寬速度,請按照「檢查網路頻寬」一文中的步驟進行基準測試。
如要瞭解如何為使用較高網路頻寬的 A3 High 和 A3 Edge 執行個體啟用 GPUDirect-TCPX,請參閱這篇文章。如要測試或驗證這些機器的頻寬速度,可以使用基準測試。詳情請參閱「檢查網路頻寬」。
如果是其他加速器最佳化機型,您不需要採取任何行動,即可使用較高的網路頻寬;按照文件建立執行個體時,系統會使用高網路頻寬。如要瞭解如何為其他加速器最佳化機型建立執行個體,請參閱建立附加 GPU 的 VM。
後續步驟
- 進一步瞭解 GPU 平台。
- 瞭解如何建立附加 GPU 的執行個體。
- 瞭解如何使用較高的網路頻寬。
- 瞭解 GPU 定價。