電腦輔助工程 (CAE) 涵蓋了廣泛的應用,包括結構分析、流體動力學、碰撞安全及熱力分析等等。所有這些使用案例都需要大量運算資源,才能處理所涉及的複雜物理模擬,以及可能的大量輸入和輸出資料。在本技術參考指南中,我們說明了如何利用 Google Cloud 提供高效能運算 (HPC) 資源來加速 CAE 工作流程。
Google Cloud 的 HPC 平台提供功能強大且可擴充的平台,可執行嚴苛的 CAE 工作流程。它結合了傳統 HPC 系統的效能,以及全球規模、彈性且靈活的雲端優勢:
為了簡化讓 Google Cloud 處理 CAE 工作流程的流程,我們組合了合適的雲端元件,以符合會耗用大量運算資源的 CAE 工作負載需求。具體來說,我們的 CAE 解決方案是以最新的 Intel Xeon 平台為基礎,採用 Google Cloud 的 H3 和 C3 VM 系列架構。這些 VM 系列提供高記憶體頻寬,以達到平衡的記憶體/浮點運算比例,最適合用於 CAE。這項解決方案可滿足緊耦合的 MPI 應用程式,以及記憶體需求高達 16GB/核心的工作負載。它包括各種儲存選項,可滿足各種 IO 需求。對於資源管理,這項服務支援 SchedMD 的 Slurm 和 Altair 的 PBS Professional 等排程器。
以下的架構圖說明了這個解決方案:
CAE 解決方案的架構由多個重要元件組成,包括運算、網路、儲存空間和 Google 的開放原始碼 Cloud HPC Toolkit。
CAE 解決方案是以 Google Compute Engine 為基礎建構。Compute Engine 提供多種機器類型,包括搭載 GPU 的機器類型。Compute Engine 是需要高效能和靈活性的 CAE 工作負載首選,因為它具備專門的 VM 類型和高效能網路:
H3 VM:非常適合用於 CAE 工作負載的平衡分區。這個分區是透過 Google HPC VM 建立,採用 Intel 最新 Sapphire Rapids 技術 (4 GB/核心),且多達數千個核心 (透過 MPI)。
C3 VM:非常適合用於會耗用大量記憶體的 CAE 工作負載的高記憶體分區。這個分區是透過 Google 的 C3 VM 所建構,採用 Intel 最新 Sapphire Rapids 世代 (16 GB/核心)。
配置政策:配置政策可確保 VM 的建立距離相近,進而減少 VM 間通訊延遲,並提升整體效能。
HPC VM 映像檔:為獲得最佳效能,我們提供了可設定標準 Linux 作業系統發行版本的 HPC VM 映像檔,讓您在 Google Cloud 上獲得最佳效能。
一般用途 VM:用於登入節點、授權伺服器和其他工作。
遠端桌面 VM:適用於遠端桌面工作階段和遠端視覺化內容。
Google 虛擬私有雲:Google VPC 是專案的實體網路虛擬版本。
Google Cloud 連線能力:Google Cloud 連線能力可讓您連結地端部署網路,並擴展至 Google Cloud,並享有高可用性和低延遲的優勢。
Google Cloud VPN:Google Cloud VPN 可將對等互連網路安全地連線至虛擬私有雲 (VPC) 網路。
gVNIC:Google Virtual NIC 是虛擬網路介面卡 (NIC),可在運算 VM 之間提供高效能和低延遲的優勢。gVNIC 非常適合需要高效能網路的 CAE 工作負載。
Google Filestore:Filestore 是一項全代管 NFS 服務,具備高效能和低延遲的優勢。針對共享資料,或是需要透過網路顯示的資料 (例如應用程式或主目錄),Filestore 是不錯的選擇。
平行檔案系統:Google Cloud 與許多儲存服務供應商合作,為 HPC 工作負載提供各式各樣的平行檔案系統。這些合作夥伴包括 NetApp、DDN EXAScaler、Sycomp Spectrum Scale 和 Weka。
Google Storage 移轉服務:代管的 Storage 移轉服務可以在 Google Cloud、Amazon、Azure 和地端部署等平台的物件和檔案儲存空間之間,快速安全地轉移資料。
Google Cloud Storage:Cloud Storage 是可擴充且耐用的物件儲存服務。Cloud Storage 是儲存大量資料的絕佳選擇,也能用來移轉資料。
Google Cloud HPC Toolkit:Google 的開放原始碼 Cloud HPC Toolkit 可讓客戶和合作夥伴按照 Google Cloud 的 HPC 最佳做法,輕鬆部署可重複立即可用的 HPC 環境。Google 的 CAE 解決方案隨附 HPC Toolkit 藍圖,能讓您在 Google Cloud 中輕鬆將 HPC 環境例項化,並立即執行 CAE 工作負載。
在雲端執行 CAE 工作負載時,請考慮下列幾項因素:
做為 Google Cloud CAE 解決方案的一部分,我們開發了一般用途 CAE 參考架構和藍圖,可與 Google 的 Cloud HPC 工具包搭配使用,以便在 Google Cloud 中佈建 CAE 架構。我們驗證了多個領先業界的 ISV 應用程式的相容性和效能,包括:
請參閱下方的「基準測試」一節,瞭解這些軟體套件的效能。
一般用途 CAE 參考架構藍圖可讓使用者立即啟動與各種 CAE 應用程式及工作流程相容的雲端環境。如果使用者想靈活選擇 CAE 軟體,並想要管理自己的 HPC 環境,這會是不錯的選擇。同時,它也能做為系統整合商的起點,並依據 Google 的最佳做法,在 Google Cloud 中執行 CAE 模擬作業。
Google Cloud 也提供許多熱門 CAE 軟體的應用程式專屬藍圖。這些藍圖經過預先設定,可針對特定 CAE 軟體提供最佳效能。採用特定藍圖的軟體包括:
對於想要快速輕鬆地開始使用 CAE 的使用者而言,應用程式專屬藍圖是不錯的選擇。藍圖提供了針對特定 CAE 軟體經過最佳化的預先設定環境,因此使用者不必擔心自行設定環境。
Google Cloud 與許多 HPC 即服務供應商 (例如 TotalCAE、Rescale、Parallel Works、Eviden Nimbix、Penguin Computing 和 NAG),以及 CAE ISV 供應商 (例如 Altair) 合作。這些供應商提供各種適用於 CAE 的代管 HPC 解決方案,包括預先設定的 CAE 軟體環境、特定 CAE 應用程式的支援,以及專家諮詢服務。這些服務非常適合需要 CAE 代管 HPC 解決方案的使用者。這些供應商提供各式各樣的服務,包括預先設定的 CAE 軟體環境、特定 CAE 應用程式的支援,以及專家諮詢服務。
雖然 CAE 解決方案建構在 Google Compute Engine 上,不過在建構時,您也能選擇以 Google Kubernetes Engine 或 Google Batch 等其他運算架構為基礎。Kubernetes Engine 是一項代管 Kubernetes 服務,可用來在容器化環境中執行 CAE 工作負載。Kubernetes Engine 非常適合需要可擴充性和可移植性的 CAE 工作負載。Google Batch 是用於執行批次工作的代管服務。Batch 適用於未容器化、不需要大幅自訂或微調的 CAE 工作負載。
如要進一步瞭解如何建構 HPC 環境,請參閱 Cluster Toolkit 技術指南,當中涵蓋了基礎架構 (運算、網路、儲存空間)、系統軟體 (排程器、儲存空間) 和架構考量中的廣泛選項。
您可以採行多種最佳做法,讓 CAE 工作負載在 Google Cloud 上發揮最佳效能。舉例來說,您可以使用配置政策來確保工作負載放置在距離相近的運算資源中,進而減少延遲時間並改善效能。您也可以使用 Cloud HPC Toolkit,讓工作負載發揮最佳效能。
「Best practices for running HPC workloads」(執行 HPC 工作負載的最佳做法) 指南說明如何提高 MPI 效能。與 Google Cloud 的 HPC 網路工程師合作之後,Open MPI 和 Intel MPI 已經過調整及最佳化,可以立即發揮 Google Cloud 最佳效能。
一般 CAE 環境藍圖及其 H3 VM 已在其標準基準測試模型上,針對主要 CAE ISV 應用程式進行了基準測試。
下圖顯示相對於 C2 VM (每種情況下的整個 VM) 在 H3 VM 上執行 Altair Radios 2022.3 的單一節點效能。Altair Radios 的兩項常用基準測試 (Neon 5CARS 和 T10M) 速度提升為 2.6 倍。
下圖顯示使用 CAE 解決方案藍圖在 H3 VM 上執行 Ansys Fluent 2022 R2 時相對於 C2 VM 的效能 (每種情況下的整個 VM)。Ansys Fluent 的常用基準測試速度提升 2.8 倍,代表 Google H3 平台非常適合用於運算流體動力學工作負載。
下圖顯示相對於 C2 VM,在 H3 VM (每個案例中的整個 VM)上執行 Ansys LS-DYNA R9.3.1 的單一節點效能。Ansys LS-DYNA 的 car2car crash 基準速度加快 2.7 倍
下圖顯示相對於 C2 VM,在 H3 VM (每個案例中的整個 VM)上執行 Ansys Mechanical 2022 R1 的單一節點效能。Ansys Mechanical 的 V2iter-4 基準速度加快 2.8 倍
下圖顯示相對於 C2 VM,在 H3 VM (每個案例中的整個 VM)上執行 The OpenFOAM Foundation 的 OpenFOAM v7 的單一節點效能。OpenFOAM 的常用基準速度加快 2.4 倍。
下圖顯示相對於 C2 VM,在 H3 VM (每個案例中的整個 VM)上執行 Siemens Simcenter STAR-CCM+ 18.02.008 的單一節點效能。Siemens Simcenter STAR-CCM+ 的常用基準速度加快 2.9 倍。
下圖顯示 Ansys Fluent 2022 R2 使用 H3 VM 在 F1 RaceCar (140m) 基準上的強大資源調度行為。您可以看到從 2 個節點到 16 個節點的良好資源調度,而 16 個節點 (1408 個核心) 的平行處理效率則大於 90%。
Google Cloud 提供多項執行 CAE 工作負載的優勢,包括:
Google Cloud 的 HPC 基礎架構可為 CAE 工作負載提供高效能。具備最新的 CPU 和 GPU,且網路基礎架構專為提供低延遲而設計。
擴充性
Google Cloud 的 HPC 基礎架構具有擴充性。CAE 工作負載可視需求調度資源,輕鬆快速地新增或移除資源。
彈性
Google Cloud 的 HPC 基礎架構採用彈性的設計。CAE 工作負載可透過多種運算選項執行,而且有多種儲存空間選項可用。
易用性
Google Cloud 的 HPC 基礎架構易於使用。Cloud HPC Toolkit 提供一系列工具和程式庫,可用來最佳化 Google Cloud 上的 CAE 工作負載。
符合成本效益
Google Cloud 的 HPC 基礎架構具有成本效益,並提供多種定價選項,而 Spot VM 則可用來降低成本。
Google Cloud 提供多種機器類型,每種機器類型的 CPU、GPU 和記憶體設定都不一樣。為工作負載選擇合適的機器類型可能會對效能和成本產生重大影響。舉例來說,由於 H3 VM 核心比率的高記憶體頻寬,且提供 4 GB/核心,因此可為各種工作負載提供足夠的記憶體,是每核心授權的 CAE 應用程式的理想選擇。對於特別需要記憶體容量的工作負載 (例如結構機制),C3 VM 的記憶體高容量設定提供 16 GB/核心。
Google Cloud 提供多種儲存空間選項,各有不同的效能和成本特性。為工作負載選擇合適的儲存空間選項,可能會對效能和成本產生重大影響。HPC 環境中還有幾種需要考慮的儲存空間類型。
典型的 HPC 環境至少會託管兩種儲存空間,但需求不同:主要儲存空間和暫存儲存空間。為各環境選擇的儲存空間類型取決於 HPC 工作負載的具體需求。舉例來說,如果工作負載會產生大量暫存資料,可能需要高效能的暫存儲存空間解決方案;或當工作負載需要同時跨多個運算節點存取通用資料,可能會需要平行處理檔案系統。因此特定 HPC 工作負載的儲存空間類型,取決於工作負載的特定需求。
除了主要儲存空間和暫存儲存空間外,HPC 環境也可能會使用其他類型的儲存空間,例如封存儲存空間,這種儲存空間用於儲存不常存取的資料。Cloud Storage 可以最具成本效益的方式提供封存儲存空間。
主要儲存空間
主要儲存空間通常用於儲存共用的使用者檔案 (例如設定、指令碼和後續處理資料),主要存放在「/home」目錄中。這個儲存空間會掛接於整個叢集的相同位置,以允許通用存取這個命名空間。主要儲存空間通常為永久儲存空間,而且通常是以 NFS 通訊協定為基礎來建構。
在 Google Cloud HPC 環境中,Google 服務 (例如 Filestore) 或合作夥伴產品 (例如 NetApp) 可提供主要儲存空間。
暫存儲存空間
暫存儲存空間通常用於儲存暫存檔案,例如中繼結果和模擬輸出資料。這些映像檔可在 HPC 環境中的不同節點之間共用,或是不共用。暫存儲存空間通常不是永久儲存空間。暫存儲存空間通常是採用比主要儲存空間更高效能的儲存空間系統建構而成,例如本機快閃儲存空間或平行檔案系統。
在 Google Cloud HPC 環境中,Persistent Disk、本機 SSD、Cloud Filestore 或 Parallelstore 等 Google 服務,或是 NetApp、DDN EXAScaler、Sycomp 和 Weka 等合作夥伴服務,都可以提供暫存儲存空間。
Spot VM
如要執行 CAE 工作負載,可以使用 Spot VM 以符合成本效益的方式執行。Spot VM 是以折扣價提供,但此優惠可能會透過短暫通知期隨時終止。Spot VM 的費用最多可比標準執行個體節省 91%,並支援 HPC 使用者預期的功能,包括 GPU 和本機 SSD。
如果您的工作流程可以容許中斷的機率 (先占),而您的應用程式能在相對短的時間範圍內 (不到 4 小時) 執行,建議您測試 Spot 模型。我們的客戶發現,相較於以量計價,這麼做最多可節省 90% 的成本,因此可以容許輕微中斷。
請注意,某些 VM 類型 (例如 H3) 不支援 Spot。
AirShaper 是線上空氣動力學平台,可讓設計人員和工程師以完全自動化的方式執行氣流模擬,即使使用者沒有空氣動力學專業知識,也能取得可靠的結果並改善設計。
AirShaper 將 HPC 流體力學計算 (CFD) 工作負載從舊版 VM 平台遷移至新的 C2D VM 系列,與先前的雲端環境相比,可以省下所執行每項工作負載的模擬時間和成本,而與地端部署環境相比,更是大幅加快取得結果的時間。
「在 AirShaper,我們以固定費用提供 CFD 模擬。核心數量越多、越快,整體成本就越高,而資源調度問題是造成此現象的部分原因。但有了 H3,我們就能將模擬時間減半,同時還能降低整體成本。」
- Airshaper 執行長 Wouter Remmerie
降低成本將近 50% | 與地端部署執行個體相比,可以減少超過三個係數的模擬時間 | 與前一代的高效能運算執行個體相比,模擬作業時間減少了 30% |
降低成本將近 50%
與地端部署執行個體相比,可以減少超過三個係數的模擬時間
與前一代的高效能運算執行個體相比,模擬作業時間減少了 30%
Altair 是一家全球科技公司,專門在產品開發、高效能運算 (HPC) 和資料分析領域提供軟體和雲端解決方案。工程師、科學家和資料分析師使用 Altair 的軟體,解決汽車、航太、製造和能源等各種產業的複雜問題。
Altair 是 Google Cloud 合作夥伴,可以在 Google Cloud 上使用其軟體。Altair 的軟體已針對 Google Cloud 進行最佳化調整,可用來發揮 Google Cloud 的效能、擴充性和彈性。Altair 致力於協助客戶達成 HPC 目標,並為 HPC 提供各種軟體解決方案。舉例來說,其中一項解決方案 Radioss 是有限元素分析工具。Altair 使用新的 H3 VM,得以在 Radioss 的雲端式執行階段期間展現顯著的改進。
「在 Altair,我們很高興看到初步測試顯示,與 C2 相比,在 H3 上執行的 Radioss 工作負載在模擬執行階段中能減少高達 3 倍之多。這些在 Google Cloud 大幅加快的執行階段,能幫助我們共同客戶提升工程工作效率。」
- Radioss Development and Altair Solver 資深副總裁 Eric Lequiniou
TotalCAE 是工程和科學應用程式的代管 HPC 解決方案領導品牌。TotalCAE 的解決方案易於使用,可協助客戶縮短取得結果的時間、降低成本,以及提升工作效率。在世界各地,許多客戶都運用 TotalCAE 的解決方案解決複雜的工程和科學問題。例如,TotalCAE 的解決方案可用於設計及模擬飛機、汽車和其他車輛;分析建築物和橋樑的效能;以及研發新的藥物和療法。
TotalCAE 是 Google Cloud 合作夥伴,提供可在 Google Cloud 中運作的解決方案。TotalCAE 的解決方案已針對 Google Cloud 進行最佳化,能用於發揮 Google Cloud 的效能、擴充性和彈性。採用 Google Cloud 的 HPC 基礎架構後,TotalCAE 就能以更低的成本為客戶提供更出色的效能。
「採用 Google Cloud H3 執行個體後,我們看到 CAE 工作負載的每個核心效能提升高達 25%,且工作成本比 C2 低 50%。因此,TotalCAE 得以讓客戶的成本效益提升多達 2.5 倍,並為客戶提供 Google Cloud 上的 CAE 工作負載擴充性。」
- TotalCAE 執行長 Rodney Mach
還有更多 Google Cloud 上的 HPC 和 CAE 工作負載相關資訊可供探索。如果您有意與 Google HPC 團隊成員討論,或想要開始使用 Google Cloud,請與我們聯絡。在此之前,歡迎利用我們提供的所有資源繼續學習!