计算机辅助工程 (CAE) 涵盖各种应用,包括结构分析、流体动力学、碰撞安全和热分析等等。所有这些用例都需要大量的计算资源来处理涉及的物理学的复杂模拟,且可能需要大量的输入和输出数据。在本技术参考指南中,我们介绍了如何通过提供高性能计算 (HPC) 资源来利用 Google Cloud 加速 CAE 工作流。
Google Cloud 的 HPC 平台提供了一个强大且可伸缩的平台,适用于要求苛刻的 CAE 工作流。它融合了传统 HPC 系统的性能与全球规模、具有弹性和灵活性的云平台的优势:
为了简化将 Google Cloud 用于 CAE 工作流的流程,我们组合了合适的云组件来满足计算密集型 CAE 工作负载的要求。具体而言,我们的 CAE 解决方案是基于 Google Cloud 的 H3 和 C3 虚拟机系列构建的(基于最新 Intel Xeon 平台)。这些虚拟机系列提供高内存带宽,以实现平衡的内存/FLOP 比率,非常适合 CAE。此解决方案适用于紧密耦合的 MPI 应用以及每核高达 16GB 内存占用量高的工作负载。它包含各种存储选项,可满足各种各样的 IO 要求。在资源管理方面,它支持 SchedMD 的 Slurm 和 Altair 的 PBS Professional 等调度器。
以下架构图说明了该解决方案:
CAE 解决方案的架构由几个关键组件组成,包括计算、网络、存储和 Google 的开源 Cloud HPC Toolkit。
CAE 解决方案基于 Google Compute Engine 构建而成。Compute Engine 提供多种机器类型,包括带有 GPU 的机器类型。Compute Engine 具有专用虚拟机类型和高性能网络,因此非常适合需要高性能和灵活性的 CAE 工作负载:
H3 虚拟机:非常适合 CAE 工作负载的均衡分区,基于 Google 的 HPC 虚拟机构建,采用 Intel 最新的 Sapphire Rapids(4GB/内核),以及多达数千个核心(通过 MPI)。
C3 虚拟机:基于 Google 的 C3 虚拟机构建而成的高内存分区,非常适合内存密集型 CAE 工作负载,采用 Intel 最新一代 Sapphire Rapids,每核心 16 GB。
布置政策:布置政策可确保创建虚拟机时彼此靠近,从而缩短虚拟机间的通信延迟时间并提升整体性能。
HPC 虚拟机映像:为实现最佳性能,我们提供了可配置标准 Linux 操作系统发行版的 HPC 虚拟机映像,以便在 Google Cloud 上实现最佳性能。
通用虚拟机:用于登录节点、许可服务器和其他任务。
远程桌面虚拟机 - 用于远程桌面会话和远程可视化。
Google 虚拟私有云:Google VPC 是项目物理网络的虚拟版本。
Google Cloud Connectivity:借助 Google Cloud Connectivity,您可以连接本地网络,并将其扩展到 Google Cloud,同时实现高可用性和低延迟。
Google Cloud VPN:Google Cloud VPN 可将您的对等网络安全地连接到虚拟私有云 (VPC) 网络。
gVNIC:Google 虚拟 NIC 是一种虚拟网络接口卡 (NIC),在计算虚拟机间实现高性能和低延迟。 gVNIC 非常适合需要高网络性能的 CAE 工作负载。
Google Filestore:Filestore 是一种全托管式 NFS 服务,可提供高性能和低延迟。Filestore 非常适合存储在网络上共享或需要可见的数据(例如应用或主目录)。
并行文件系统:Google Cloud 与多家存储供应商合作,提供各种适用于 HPC 工作负载的并行文件系统。这些合作伙伴包括 NetApp、DDN EXAScaler、Sycomp Spectrum Scale 和 Weka。
Google Storage Transfer Service:托管式 Storage Transfer Service 可在 Google Cloud、Amazon、Azure、本地等平台的对象和文件存储空间之间快速安全地转移数据。
Google Cloud Storage:Cloud Storage 是一项可伸缩且耐用的对象存储服务。Cloud Storage 非常适合存储大量数据,也可以用于数据传输。
Google Cloud HPC Toolkit - Google 的开源 Cloud HPC Toolkit 可让客户和合作伙伴按照 Google Cloud 的 HPC 最佳做法轻松部署可重复的开箱即用 HPC 环境。Google 的 CAE 解决方案附带 HPC Toolkit 蓝图,可让开发者在 Google Cloud 中轻松实例化 HPC 环境,以便随时运行 CAE 工作负载。
在云端运行 CAE 工作负载时,需要考虑多种因素,包括:
作为 Google Cloud CAE 解决方案的一部分,我们开发了通用 CAE 参考架构和蓝图,可以轻松将其与 Google 的 Cloud HPC Toolkit 搭配使用,在 Google Cloud 中预配 CAE 架构。我们已经验证了几款领先的 ISV 应用的兼容性和性能,这些应用包括:
如需了解这些软件包的性能,请参阅下面的基准部分。
通用 CAE 参考架构蓝图使用户能够立即启动与各种 CAE 应用和工作流兼容的云环境。对于想要灵活选择 CAE 软件以及希望管理自己的 HPC 环境的用户来说,这是一个不错的选择。它还可作为系统集成商的起点,利用 Google 的最佳做法在 Google Cloud 上运行 CAE 模拟。
Google Cloud 还为热门 CAE 软件提供了许多应用专用蓝图。这些蓝图已经过预先配置,可为特定 CAE 软件提供最佳性能。具有特定蓝图的软件包括:
对于想要快速轻松地开始使用 CAE 的用户来说,应用专用的蓝图是一个不错的选择。此类蓝图提供针对特定 CAE 软件优化的预配置环境,因此用户无需担心如何自行配置环境。
Google Cloud 与众多 HPC 即服务提供商(如 TotalCAE、Rescale、Parallel Works、Eviden Nimbix、Penguin Computing 和 NAG)以及 CAE ISV 供应商(如 Altair)合作。这些提供商提供各种适用于 CAE 的托管式 HPC 解决方案,包括预配置的 CAE 软件环境、对特定 CAE 应用的支持,以及专家咨询服务。对于需要适用于 CAE 的托管式 HPC 解决方案的用户,这些服务是理想之选。这些提供商提供各种服务,包括预配置的 CAE 软件环境、对特定 CAE 应用的支持,以及专家咨询服务。
虽然 CAE 解决方案是基于 Google Compute Engine 构建的,但同样可以在 Google Kubernetes Engine 或 Google Batch 等其他计算框架的基础上进行构建。Kubernetes Engine 是一种托管式 Kubernetes 服务,可用于在容器化环境中运行 CAE 工作负载。Kubernetes Engine 非常适合需要可伸缩性和可移植性的 CAE 工作负载。Google Batch 是一种用于运行批量作业的托管式服务。Batch 非常适合非容器化且不需要大量自定义或调整的 CAE 工作负载。
如需详细了解如何设计 HPC 环境架构,请参阅我们的 Cluster Toolkit 技术指南,该指南介绍了基础架构(计算、网络、存储)、系统软件(调度器、存储)等方面的众多选项和架构注意事项。
您可以遵循许多最佳做法来优化 Google Cloud 上的 CAE 工作负载性能。例如,您可以使用布置政策来确保将工作负载布置在彼此靠近的计算资源上,从而减少延迟时间并提高性能。您还可以使用 Cloud HPC Toolkit 优化工作负载。
我们的《运行 HPC 工作负载的最佳实践》指南记录了如何提高 MPI 性能。我们与 Google Cloud 的 HPC 网络工程师合作,针对 Google Cloud 开箱即用的性能对 Open MPI 和 Intel MPI 进行了调整和优化。
通用 CAE 环境蓝图及其 H3 虚拟机在标准基准模型方面已通过主要 CAE ISV 应用的基准测试
下图显示了在 H3 虚拟机上运行 Altair Radioss 2022.3 相对于 C2 虚拟机(双方都采用整个虚拟机)的单节点性能。Altair Radioss 在两个常用基准测试(Neon 5CARS 和 T10M)上的速度提升为 2.6 倍。
下图显示了使用 CAE 解决方案蓝图在 H3 虚拟机上运行 Ansys Fluent 2022 R2 相对于 C2 虚拟机(双方都采用整个虚拟机)的性能。Ansys Fluent 比常用基准测试的速度提高了 2.8 倍,这表明 Google H3 平台非常适合计算流体动力学工作负载。
下图显示了在 H3 虚拟机上运行 Ansys LS-DYNA R9.3.1 相对于 C2 虚拟机(双方都采用整个虚拟机)的单节点性能。Ansys LS-DYNA 的 car2car 崩溃基准测试速度为 2.7 倍
下图显示了在 H3 虚拟机上运行 Ansys Mechanical 2022 R1 相对于 C2 虚拟机(双方都采用整个虚拟机)的单节点性能。Ansys Mechanical 的 V2iter-4 基准测试速度提升到 2.8 倍
下图显示了在 H3 虚拟机上运行 OpenFOAM Foundation 的 OpenFOAM v7 相对于 C2 虚拟机(双方都采用整个虚拟机)的单节点性能。OpenFOAM 的速度相当于常用基准测试速度的 2.4 倍。
下图显示了在 H3 虚拟机上运行 Siemens Simcenter STAR-CCM+ 18.02.008 相对于 C2 虚拟机(双方都采用整个虚拟机)的单节点性能。Siemens Simcenter STAR-CCM+ 的速度相当于常用基准测试的 2.9 倍。
下图显示了使用 H3 虚拟机在 F1 RaceCar (140m) 基准上 Ansys Fluent 2022 R2 的强扩缩行为。您可以看到,从 2 个节点扩容到 16 个节点,在 16 个节点(1408 个核心)上并行效率超过 90%。
Google Cloud 在运行 CAE 工作负载方面提供了许多优势,其中包括:
Google Cloud 的 HPC 基础设施旨在为 CAE 工作负载提供高性能。配备最新的 CPU 和 GPU,且网络基础设施旨在提供低延迟。
可伸缩性
Google Cloud 的 HPC 基础设施在设计上具有可扩缩性。可以根据需要扩缩 CAE 工作负载,并且可以快速轻松地添加或移除资源。
灵活性
Google Cloud 的 HPC 基础设施在设计上具有灵活性。CAE 工作负载可以在各种计算方案上运行,并且可以使用多种存储方案。
易用性
Google Cloud 的 HPC 基础设施采用简单易用的设计。Cloud HPC Toolkit 提供了一组工具和库,可用于优化 Google Cloud 上的 CAE 工作负载。
成本效益
Google Cloud 的 HPC 基础设施以经济实惠的方式设计。有多种价格方案可供选择,并且 Spot 虚拟机可用于降低费用。
Google Cloud 提供各种机器类型,每种机器类型都有不同的 CPU、GPU 和内存配置。为工作负载选择合适的机器类型会对性能和费用产生重大影响。例如,H3 虚拟机是按核心许可的 CAE 应用的理想选择,因为它具有较高的内存带宽与核心比率。由于每个核心具有 4 GB 内存,因此 H3 虚拟机能够为各种工作负载提供足够的内存。对于内存要求特别高的工作负载(如结构机制),C3 虚拟机采用高内存配置提供 16 GB/核心。
Google Cloud 提供了多个存储方案,每个方案都具有不同的性能和费用特征。为工作负载选择合适的存储方案可对性能和费用产生重大影响。HPC 环境中也有多种存储类型可供考虑。
典型的 HPC 环境至少会托管两种存储类型,其要求各不相同:主存储和临时存储。为每种工作负载选择存储类型取决于 HPC 工作负载的具体需求。例如,会生成大量临时数据的工作负载可能需要高性能临时存储解决方案,或者会同时跨多个计算节点访问通用数据的工作负载可能需要并行文件系统。为特定 HPC 工作负载选择存储类型取决于工作负载的具体需求。
除了主存储和临时存储之外,HPC 环境可能还会使用其他类型的存储,例如 Archive Storage,用于存储不经常访问的数据。Cloud Storage 能够以最经济高效的方式提供 Archive Storage。
主存储
主存储空间通常用于存储主要位于“/home”目录中的共享用户文件,例如配置、脚本和后处理数据。此存储空间将装载在整个集群的同一位置,以允许对此命名空间进行通用访问。主存储空间通常是永久性的。主存储空间通常基于 NFS 协议构建。
在 Google Cloud HPC 环境中,主存储空间可以由 Filestore 等 Google 服务或 NetApp 等合作伙伴产品提供。
临时存储空间
临时存储空间通常用于存储临时文件,例如中间结果和模拟输出数据。这些数据可以在 HPC 环境中的不同节点之间共享,也可以不共享。临时存储通常不是永久性的。临时存储通常基于性能比主存储系统更高的存储系统构建,例如本地闪存或并行文件系统。
在 Google Cloud HPC 环境中,临时存储可由 Persistent Disk、Local SSD、Cloud Filestore 或 Parallelstore 等 Google 服务提供,也可以由 NetApp、DDN EXAScaler、Sycomp 和 Weka 等合作伙伴产品提供。
Spot 虚拟机
Spot 虚拟机可能是一种运行 CAE 工作负载的经济高效的方式。Spot 虚拟机以折扣价提供,但可能会随时终止,并且通知期很短。Spot 虚拟机比标准实例的费用最多低 91%,并且支持 HPC 用户期望的功能,包括 GPU 和本地 SSD。
如果您的工作流可以容忍中断(抢占),并且应用可以在相对较短的时间段(短于 4 小时)内运行,则测试 Spot 模型是一个好主意。客户发现,节省高达 90% 的费用与按需模式相比,足以容忍轻微中断。
请注意,某些虚拟机类型(例如 H3)不支持 Spot。
AirShaper 是一个在线空气动力学平台,可让设计师和工程师以完全自动化的方式运行气流模拟,从而使没有空气动力学专业知识的用户能够获得可靠的结果并改进他们的设计。
AirShaper 将其 HPC 计算流体动态 (CFD) 工作负载从旧版虚拟机平台迁移到了新的 C2D 虚拟机系列,与以前的云环境相比,节省了每次工作负载运行的模拟时间和成本;与本地环境相比,显著缩短了获得结果的时间。
“AirShaper 提供了固定费用的 CFD 模拟。核心数越多、速度越快通常意味着总费用越高,这在一定程度上是由于扩缩问题造成的。但有了 H3,我们不但能够将模拟时间缩短一半,而且能够降低总体成本。”
- Wouter Remmerie,Airshaper 首席执行官
费用降低近 50% | 与本地实例相比,它们能够将模拟时间缩短到三分之一以下 | 与上一代的高性能计算实例相比,模拟时间缩短了 30% |
费用降低近 50%
与本地实例相比,它们能够将模拟时间缩短到三分之一以下
与上一代的高性能计算实例相比,模拟时间缩短了 30%
Altair 是一家跨国科技公司,提供产品开发、高性能计算 (HPC) 和数据分析领域的软件和云解决方案。工程师、科学家和数据分析师使用 Altair 的软件来解决各行各业的复杂问题,包括汽车、航空航天、制造和能源。
Altair 是 Google Cloud 的合作伙伴,其软件可以在 Google Cloud 上使用。Altair 的软件针对 Google Cloud 进行了优化,可用于充分利用 Google Cloud 的性能、可伸缩性和灵活性。Altair 致力于帮助客户实现他们的 HPC 目标,并提供各式各样面向 HPC 的软件解决方案。其中一个解决方案是 Radioss,一种有限元素分析工具。使用新的 H3 虚拟机,Altair 已经证明了对基于云的 Radioss 运行时的显著改进。
“在 Altair,我们很高兴地了解到,与 C2 相比,H3 上运行的 Radioss 工作负载的模拟运行时间缩短到三分之一。Google Cloud 上这些显著缩短的运行时间将有助于我们共同的客户提升工程效率。”
- Eric Lequiniou,Radioss 开发和 Altair Solver 高级副总裁
TotalCAE 是一家领先的托管式 HPC 解决方案提供商,致力于为工程和科学应用提供解决方案。TotalCAE 的解决方案设计为易于使用,可帮助客户加快获得结果的时间、降低成本并提高工作效率。全世界的客户都在使用 TotalCAE 的解决方案来解决复杂的工程和科学问题。例如,TotalCAE 的解决方案用于设计和模拟飞机、汽车及其他交通工具;分析建筑物和桥梁的性能;以及研发新的药品和疗法。
TotalCAE 是 Google Cloud 合作伙伴,其解决方案支持在 Google Cloud 上运行。TotalCAE 的解决方案针对 Google Cloud 进行了优化,可用于充分利用 Google Cloud 的性能、可伸缩性和灵活性。通过使用 Google Cloud 的 HPC 基础设施,TotalCAE 得以以更低的费用为客户带来更出色的性能。
“采用 Google Cloud H3 实例后,CAE 工作负载的每核心性能提升了高达 25%,而作业费用比 C2 降低了 50%,这让 TotalCAE 能够为客户提供高达 2.5 倍的性价比,并为 Google Cloud 上的 CAE 工作负载提供可伸缩性。”
- Rodney Mach,TotalCAE 首席执行官
关于 Google Cloud 上的 HPC 和 CAE 工作负载,还有很多内容需要了解。如果您有意与 Google HPC 团队成员交流,或想要开始使用 Google Cloud,请与我们联系。在此之前,请利用我们的所有资源继续学习!