H4D VM の一般提供開始: HPC ワークロード向けに卓越したパフォーマンスとスケーリングを実現
Aysha Keen
Product Manager
Felix Schürmann
Senior HPC Technologist
※この投稿は米国時間 2026 年 3 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、第 5 世代 AMD EPYC™ プロセッサを搭載した、最新のハイ パフォーマンス コンピューティング(HPC)向け最適化 VM である H4D VM の一般提供を開始しました。H4D VM は、製造、ヘルスケアとライフ サイエンス、天気予報、電子設計自動化(EDA)などの業界に、優れたパフォーマンス、スケーラビリティ、価値を提供します。H4D は、Slurm を使用した Cluster Toolkit によるオーケストレーションと、Google Kubernetes Engine(GKE)によるオーケストレーションをサポートしています。どちらのアプローチでも、要求の厳しいワークロードをほぼ瞬時にデプロイしてスケールできます。
Google Cloud の CPU ポートフォリオで、Cloud Remote Direct Memory Access(RDMA)を備えた VM ファミリーが登場するのは今回が初めてです。H4D の RDMA は Titanium ネットワーク アダプタ上にあり、シングルノードの H4D パフォーマンスを複数のノードにスケールして、大規模な本番環境ワークロードを高速化できます。
ドメインや規模を問わず、解決までの時間を短縮
第 5 世代 AMD EPYC CPU の高コア密度と、Google の革新的な低レイテンシ Falcon ハードウェア トランスポートを搭載した H4D VM により、これまで以上に迅速なイテレーションと検出が可能になります。
業界標準のベンチマークを複数使用して H4D のパフォーマンスを実証し、さまざまなドメインと問題サイズにおける H4D の能力を示しました。
医療とライフ サイエンス
医療とライフ サイエンス(HCLS)の研究者にとって、H4D VM は科学的発見に不可欠な複雑な分子シミュレーションを加速します。以前の C2D VM と比較して、H4D VM は 96 VM で LAMMPS(LJ ベンチマーク)を実行する際の速度が最大 4.3 倍向上し、18,000 コアで 95% の並列効率を実現します。創薬では、32 台の VM で GROMACS(water_33m)を使用し、6,000 個のコアで 72% の並列効率を実現して、5.8 倍の高速化を実証しました。H4D はスケーラビリティも向上しており、192 台の VM(約 37,000 コア)で LAMMPS LJ ベンチマークを実行し、92% の並列効率を維持することが実証されました(図 3 を参照)。




製造
製造業では、H4D VM はミッション クリティカルなコンピュータ支援エンジニアリング(CAE)ワークフローのパフォーマンスを大幅に向上させることで、エンジニアが設計サイクルを短縮し、より大規模なシミュレーションを実行して、より迅速にイテレーションできるようにします。複雑な数値流体力学(CFD)シミュレーションを実行した際、以前の C2D VM と比較して、H4D VM は 32 個の VM で Ansys Fluent(F1_RaceCar_140m ベンチマーク)を 85% の並列効率で実行し、4.1 倍の高速化を実現しました。オープンソースの OpenFOAM(Motorbike_100m)を実行した際、C2D と比較して、16 個の VM を使用して 5.2 倍の高速化を実現し、122% の超線形並列効率を達成しました。


HPC のコスト パフォーマンスの新たな基準
H4D VM は、優れたパフォーマンスと柔軟な使用量モデルを組み合わせることで、Google Cloud 上の HPC ワークロードに最適なコスト パフォーマンスを提供するように設計されています。H4D は Dynamic Workload Scheduler(DWS)をサポートしており、DWS は、ジャストインタイムの容量に対応する Flex Start モードと、予約を保証する Calendar モードでワークフローに適応します。これにより、長期契約なしで、コア時間あたり 3 セントという低料金でコンピューティングを利用できます。前世代の VM と比較したパフォーマンスと費用効率の結果は、図 6 と図 7 に詳しく示されています。




包括的な HPC 管理
H4D VM の大規模で高密度のクラスタを管理、デプロイするには、Google Cloud の Cluster Director を活用できます。Cluster Director は、高度なメンテナンス機能(プレビュー版にこちらから登録できます)と、ターンキー システム ブループリントによる迅速なクラスタ デプロイのための Cluster Toolkit を提供します。ジョブとワークロードの管理については、H4D VM は Google Cloud のフルマネージド クラウドネイティブ サービスである Batch と統合されており、Batch によってキューイング、スケジューリング、リソース プロビジョニングが処理されます。さらに、DWS もサポートされています。これは、将来の予約のための Calendar モードと、時間制限付きのオンデマンド使用のための Flex Start モードの両方で使用できます。
お客様とパートナー様の声


「Jump Tradingは早期アクセスで H4D プラットフォームをテストしましたが、その結果に非常に感銘を受けました。テストプロセスが成功したことで、H4D が要求の厳しい大量のオペレーションに必要なパフォーマンス、安定性、効率性を備えていることが実証されました。前世代のマシンと比較してコスト パフォーマンスが最大 50% 向上しており、現在、Google Cloud 上の重要なグリッド ワークロードとの統合を加速させています。」- Jump Trading、最高技術責任者 Alex Davies 氏、HPC Linux エンジニアリング部門、Benjamin Stromski 氏


「特に大規模でコンピューティング負荷の高い分野では、最速のシステムはオンプレミスで構築し、ベアメタル ハードウェアで実行するしかないという考え方が根強く残っています。ベアメタルで運用する正当な理由として、「ハイパーバイザ税」といった用語がよく使われます。しかし、私たちが行ったテストでは異なる結果が出ています。Google H4D VM は、当社の財務リスク ベンチマークにおいて、同世代の最上位 AMD CPU のベアメタルよりも優れたパフォーマンスを発揮します。」- HMxLabs、CEO、Hamza Mian 氏


「要求の厳しい CAE および製造分野向けにマネージド HPC ソリューションを提供する大手プロバイダとして、H4D プラットフォームに対する当社の評価は、お客様の最大規模で最も密結合なシミュレーション ワークロードを処理できる能力に重点を置きました。その結果には非常に感銘を受けました。テストでは、基盤となる RDMA ファブリックが、大規模な並列処理に必要な優れた低レイテンシと高帯域幅のパフォーマンスを発揮することが確認されました。このレベルの相互接続効率は、衝突試験や CFD などの重要な製造シミュレーションを高速化するために不可欠です。H4D は、高スループットのエンジニアリング ワークロードの真のアクセラレータであることを自ら証明しました。当社は、エンジニアリング業界における HPC のパフォーマンス上限を再定義する可能性に期待しています。」- TotalCAE、社長、Rodney Mach 氏


「新しい H4D インスタンスは、当社の要求の厳しい次世代の TPU シミュレーション ワークロードにとって大きな前進です。C2D と比較して、さまざまな EDA ベンチマークにわたって 30% のパフォーマンス向上を確認しており、H4D の強力なシングルコア パフォーマンスが証明されました。これは、開発サイクルの高速化に直接つながり、エンジニアリング チームがより迅速にイテレーションできるようになります。」- Google Cloud、チップ設計手法テクニカル リード、Trevor Switkowski
今すぐ H4D を体験
H4D は現在、us-central1-a(アイオワ)、europe-west4-b(オランダ)、asia-southeast1-a(シンガポール)でご利用可能で、追加のリージョンも近日中に提供予定です。リージョンとゾーンのページでリージョン別の提供状況をご確認のうえ、Cloud RDMAを活用して、特に要件の厳しい HPC ワークロードをデプロイしてください。
上述のベンチマークでは、次の構成が実行されました。LAMMPS バージョン 20250722、GROMACS バージョン 2023.1、OpenFOAM バージョン 2312、Ansys Fluent バージョン 2024R1。すべての実行で IntelMPI 2021.17.2 が使用されました。C2D / C3D / C4D は TCP を使用し、H4D は RXM と SAR_LIMIT=2G で RDMA を使用しました。すべての実行で、各プラットフォームで利用可能な最大 ppn(ノードあたりのプロセス数)を使用しました(C2D、C3D、C4D / H4D でそれぞれ 56、180、192)。Ansys Fluent の実行では、H4D で 168 ppn、C4D で可変 ppn が使用されました。SMT はすべてオフ。コスト比較は、DWS Flex Start 料金の H4D-highmem-192 と、オンデマンド料金の c3d-standard-360 および c2d-standard-112 のシングルノード間で行われました。
並列効率と最適なノード数は、入力サイズと通信パターンに依存するため、ワークロードによって異なります。
- プロダクト マネージャー、 Aysha Keen
- シニア HPC テクノロジスト、 Felix Schürmann



