Compute Engine 的 HPC 最佳化機器系列


HPC 最佳化執行個體非常適合需要大量運算資源和高效能運算 (HPC) 的工作負載。高效能運算最佳化執行個體可為每個核心提供最高效能,並採用架構,運用非一致性記憶體存取 (NUMA) 等功能,確保效能穩定可靠。

機器 工作負載
H4D 系列機型 (預先發布版)
  • HPC 工作負載和多節點工作負載
  • 製造
  • 天氣預報
  • 電子設計自動化 (EDA)
  • 醫療照護與生命科學
  • 科學運算
H3 系列機型
  • HPC 工作負載
  • 計算流體力學
  • 撞擊安全性
  • 基因體學
  • 金融模型建立
  • 一般科學和工程運算

這個機器家族提供下列機器系列:

  • H4D 執行個體 (預先發布版) 採用 AMD EPYC Turin 處理器,基礎頻率為 2.7 GHz,最高頻率為 4.1 GHz。H4D 執行個體有 192 個核心 (vCPU),最多可搭載 1,488 GB 記憶體。H4D 執行個體可搭配本機 SSD 儲存空間和 Cloud RDMA 網路使用。
  • H3 執行個體搭載兩部第 4 代 Intel Xeon 可擴充處理器 (產品代號為 Sapphire Rapids),全核心頻率為 3.0 GHz。H3 執行個體有 88 個 vCPU 和 352 GB 的 DDR5 記憶體。

H4D 機器系列

H4D 執行個體採用 AMD EPYC Turin 第 5 代處理器和 Titanium 卸載處理器。

H4D 執行個體可為多節點工作負載提供高效能、低成本和擴充性。H4D 執行個體是單一執行緒,且經過最佳化,適用於跨多個節點擴充的緊密耦合應用程式。這些執行個體運用支援 RDMA 的 200 Gbps 網路和叢集導向器等技術,優先考量效能和工作負載專屬最佳化。此外,您還可以使用 Dynamic Workload Scheduler 排定或立即部署叢集,因此 H4D 非常適合 HPC 爆量工作負載需求。

H4D 執行個體會使用整個主機伺服器上的所有 vCPU。H4D 執行個體可使用整個主機網路頻寬,預設網路頻寬速率最高可達 200 Gbps。不過,執行個體連上網際網路的頻寬上限為 1 Gbps。

H4D 執行個體會停用多執行緒並行 (SMT),且無法啟用。此外,系統也不會過度承諾,確保效能穩定。

H4D 執行個體可隨選使用,或享有 1 年和 3 年期承諾使用折扣 (CUD)。如要比較這些方法,請參閱 Compute Engine 執行個體佈建模式

H4D 限制

H4D 系列機器有下列限制:

  • H4D 機器類型只能當做預先定義的機器類型。不提供自訂機器類型。
  • GPU 無法搭配 H4D 執行個體使用。
  • 外送資料傳輸量上限為 1 Gbps。
  • 您無法從 H4D 執行個體建立機器映像檔。
  • H4D 機器映像檔無法用於建立磁碟
  • 您無法在執行個體之間共用磁碟,無論是多重寫入模式唯讀模式都無法共用。
  • Hyperdisk Balanced 的效能上限為 15,000 IOPS 和 240 MBps 處理量。
  • H4D 執行個體不支援即時遷移。

H4D 機型

機器類型 vCPU1 記憶體 (GB) Titanium SSD 預設輸出頻寬 (Gbps)2 NUMA 節點
h4d-highmem-192-lssd 192 1,488 (10 x 375 GiB)
3,750 GiB
最多 200 Gbps 2

1 一個 vCPU 代表一個完整核心,不含多執行緒並行 (SMT)。
2 預設輸出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。

H4D 支援的磁碟類型

H4D 執行個體可使用下列區塊儲存空間類型:

  • Hyperdisk Balanced (hyperdisk-balanced)
  • 本機 Titanium SSD

磁碟和容量限制

相關限制如下:

  • 每個 VM 的 Hyperdisk 磁碟區數量不得超過 64 個。
  • 所有磁碟的總容量上限為 512 TiB。

如要瞭解容量限制的詳細資料,請參閱「每個 VM 的 Hyperdisk 容量限制」。

下表說明 H4D 儲存空間限制:

每個執行個體的磁碟數量上限
機器類型 所有 Hyperdisk
類型
Hyperdisk Balanced Hyperdisk Throughput Hyperdisk Extreme
h4d-highmem-192-lssd 64 8 0 0

H4D 執行個體的網路支援

H4D 執行個體需要 gVNIC 網路介面。H4D 支援標準網路,網路頻寬最高可達 200 Gbps。執行個體到網際網路的輸出頻寬上限為 1 Gbps。

支援 RDMA 的執行個體至少需要兩個網路介面 (vNIC)。一個 vNIC 用於一般網路,並完整連線至 Google 網路和網際網路 (選用)。這個 vNIC 使用 gVNIC 驅動程式。另一個 vNIC 使用 Intel iDPF/iRDMA 驅動程式,用於 RDMA 通訊。RDMA vNIC 不會連上網際網路。

遷移至 H4D 或建立 H4D 執行個體前,請確認您使用的作業系統映像檔完全支援 H4D。完全支援的映像檔包括支援 200 Gbps 網路頻寬。 如果您使用 Cloud RDMA,則 OS 映像檔也必須支援 IRDMA 網路介面類型。如果 H4D 執行個體使用的作業系統不完全支援,或是網路驅動程式版本較舊,執行個體可能無法達到 H4D 執行個體的網路頻寬上限。

H4D 執行個體的維護體驗

Compute Engine 執行個體生命週期中,執行個體所在的主機將經歷多個主機事件。 主機事件可能包括 Compute Engine 基礎架構的定期維護,或極少數情況下的主機錯誤。Compute Engine 也會在背景套用一些輕量級升級,不會中斷虛擬機器監控程式和網路。

H4D 系列機器提供下列主機維護相關功能:

機型 定期維護事件的典型頻率 維護行為 進階通知 隨選維護 模擬維護作業
h4d-highmem-192-lssd 至少 30 天 終止並保留本機 SSD 資料 7 天

上表顯示的維護頻率為概略值,而非保證值。Compute Engine 有時執行維護的頻率可能會更高。

H3 機器系列

H3 執行個體搭載第 4 代 Intel Xeon 可擴充處理器 (代號為 Sapphire Rapids)、DDR5 記憶體,以及 Titanium 卸載處理器。

在 Compute Engine 中,H3 執行個體可為運算密集型高效能運算 (HPC) 工作負載提供最佳成本效益。H3 執行個體為單一執行緒,非常適合用於各種模型建立和模擬工作負載,包括計算流體力學、撞擊安全性、基因體學、金融模型,以及一般科學和工程運算。H3 執行個體支援密集配置模式,可針對跨多個節點擴充的緊密耦合應用程式進行最佳化。

H3 系列只有一種尺寸,包含整個主機伺服器。如要節省授權費用,您可以自訂可見核心數量,但執行個體的費用不會因此減少。H3 執行個體可使用整個主機網路頻寬,預設網路頻寬速率最高可達 200 Gbps。不過,執行個體連上網際網路的頻寬上限為 1 Gbps。

H3 執行個體會停用多執行緒並行 (SMT),且無法啟用。此外,系統也不會過度承諾,確保效能穩定。

H3 執行個體可隨選使用,或享有 1 年和 3 年期承諾使用折扣 (CUD)。H3 執行個體可與 Google Kubernetes Engine 搭配使用。

H3 限制

H3 系列機器有下列限制:

  • H3 機器系列僅提供預先定義的機器類型。無法使用自訂機器形狀。
  • H3 執行個體無法使用 GPU。
  • 外送資料傳輸量上限為 1 Gbps。
  • Persistent Disk 和 Google Cloud Hyperdisk 的效能上限為 15,000 IOPS 和 240 MBps 總處理量。
  • H3 執行個體不支援機器映像檔
  • H3 執行個體僅支援 NVMe 儲存空間介面
  • H3 執行個體映像檔無法用於建立磁碟
  • H3 執行個體不支援在執行個體之間共用磁碟,無論是多重寫入模式唯讀模式皆不支援。

H3 機型

H3 執行個體提供預先定義的設定,搭載 88 個 vCPU 和 352 GB 記憶體。

機器類型 vCPU1 記憶體 (GB) 本機 SSD 預設輸出
頻寬 (Gbps)2
h3-standard-88 88 352 不支援 最多 200 Gbps

1 一個 vCPU 代表一個完整核心,不含多執行緒並行 (SMT)。
2 預設輸出頻寬不得超過指定數字。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。

H3 支援的磁碟類型

H3 執行個體可使用下列區塊儲存空間類型:

  • 已平衡的永久磁碟 (pd-balanced)
  • Hyperdisk Balanced (hyperdisk-balanced)
  • Hyperdisk Throughput (hyperdisk-throughput)

磁碟和容量限制

如果機器類型支援,您可以將 Hyperdisk 和 Persistent Disk 磁碟區混合附加至執行個體,但須遵守下列限制:

  • 每個執行個體的 Hyperdisk 和 Persistent Disk 磁碟區總數不得超過 128 個。
  • 所有磁碟類型的總磁碟容量上限 (以 TiB 為單位) 不得超過:

    • 所有 Hyperdisk 總共 512 TiB
    • 混合使用 Hyperdisk 和 Persistent Disk 時為 512 TiB
    • 所有永久磁碟的總大小為 257 TiB

如要瞭解容量限制的詳細資料,請參閱 Hyperdisk 大小和附加限制永久磁碟最大容量

下表說明 H3 儲存空間限制:

每個執行個體的磁碟數量上限
機器類型 所有磁碟類型 1 所有 Hyperdisk
類型
Hyperdisk Balanced Hyperdisk Throughput Hyperdisk Extreme
h3-standard-88 128 64 8 64 0

1 這項限制適用於 Persistent Disk 和 Hyperdisk,但不包括本機 SSD 磁碟。

H3 執行個體的網路支援

H3 執行個體需要 gVNIC 網路介面。H3 支援標準網路的網路頻寬最高可達 200 Gbps。

遷移至 H3 或建立 H3 執行個體前,請確認您使用的作業系統映像檔支援 gVNIC 驅動程式。如要在 H3 執行個體上獲得最佳效能,請在作業系統詳細資料表的「網路功能」分頁中,選擇同時支援「Tier_1 網路」和「200 Gbps 網路頻寬」的作業系統映像檔。即使客層 OS 顯示的 gve 驅動程式版本為 1.0.0,這些映像檔仍包含更新的 gVNIC 驅動程式。如果 H3 執行個體使用的作業系統搭載舊版 gVNIC 驅動程式,雖然仍可支援,但執行個體可能會出現效能不佳的情況,例如網路頻寬較小或延遲時間較長。

如果您使用 H3 機器系列的自訂 OS 映像檔,可以手動安裝最新的 gVNIC 驅動程式。建議搭配 H3 執行個體使用 gVNIC 驅動程式 1.4.2 以上版本。Google 建議使用最新版 gVNIC 驅動程式,以便享有額外功能和錯誤修正。

H3 執行個體的維護體驗

Compute Engine 執行個體生命週期中,執行個體所在的主機將經歷多個主機事件。 主機事件可能包括 Compute Engine 基礎架構的定期維護,或極少數情況下的主機錯誤。Compute Engine 也會在背景套用一些輕量級升級,不會中斷虛擬機器監控程式和網路。

H3 機器系列提供下列主機維護相關功能:

機型 定期維護事件的典型頻率 維護行為 進階通知 隨選維護 模擬維護作業
h3-standard-88 至少 30 天 即時遷移 7 天

上表顯示的維護頻率為概略值,而非保證值。Compute Engine 有時執行維護的頻率可能會更高。

後續步驟