クラウド HPC を簡単に: Google の Cloud HPC Toolkit 向けブループリント カタログ
Google Cloud Japan Team
※この投稿は米国時間 2024 年 1 月 31 日に、Google Cloud blog に投稿されたものの抄訳です。
ハイ パフォーマンス コンピューティング(HPC)は、科学的発見、エンジニアリングの革新、ビジネスの変革にとって不可欠なツールとなっています。ただし、HPC 環境のデプロイと管理は複雑で時間がかかることがあり、多くの場合に専門知識が必要です。
こうした課題に対処するために、Google Cloud は、Google Cloud 上の HPC ワークロードと HPC 環境のデプロイと管理を簡素化するオープンソース ツールキット Cloud HPC Toolkit を開発しました。このツールキットは、コードとしてのインフラストラクチャ(IaC)アプローチを採用しており、人が読める YAML ブループリントで環境が記述されます。また、HPC クラスタの設定と管理に関連するタスクの多くを自動化できるツールも提供されるため、ユーザーは Google Cloud で HPC の利用を簡単に始められるようになります。
Google のお客様と Google チームは Toolkit を使用して、Slurm スケジューラを使った単純な自動スケーリング HPC 環境から、組織全体の多様なワークロードに対応する精巧な HPC クラスタに至るまで、さまざまな HPC 環境をプロビジョニングしてきました。これは、Google Batch や Google Kubernetes Engine(GKE)を活用する HPC 環境から、Google Cloud で利用可能なパートナー テクノロジーを活用する環境まで多岐にわたります。AI / ML ワークロードについては、Cloud HPC Toolkit を使用して、AI / ML モデルのファインチューニングとトレーニングが可能な NVIDIA GPU を備えた、カスタマイズされた GPU ベースの HPC 環境をプロビジョニングしました。
Cloud HPC Toolkit ブループリント カタログ
Cloud HPC Toolkit ブループリント カタログは、幅広い HPC 環境を出発点として誰でも簡単に活用できるようにするために構築されました。ブループリント カタログでは、特定のブループリントで使用される主要な情報とテクノロジーのわかりやすい内訳が提供され、ニーズを満たすブループリントに絞り込むことができます。
Cloud HPC ブループリント カタログは、一般的な HPC ワークロードをデプロイするために必要なすべてのものを提供する、事前構成されたブループリントのコレクションです。これを使用することで、Google Cloud で HPC を簡単に始めることができます。これらのブループリントは、さまざまな HPC シナリオのベスト プラクティスと構成を備えたテンプレートとして機能し、デプロイ プロセスを簡素化します。Cloud HPC Toolkit は、これらのブループリントを入力として受け取り、クラウド内のそれぞれのインフラストラクチャをプロビジョニングします。
Cloud HPC Toolkit ブループリント カタログを使用すると、特定のニーズに合わせた HPC 環境を迅速にデプロイして構成できるため、各コンポーネントをゼロから手動でセットアップして構成する必要がなくなります。また、特定のソフトウェアのインストールなど、ユーザー固有の要件に合わせて拡張することもできます。これにより、時間と労力を節約できるだけでなく、デプロイ プロセスにおけるエラーや不一致のリスクも軽減されます。
多様なユースケースに対応する新しいブループリント
Cloud HPC Toolkit の新しいブループリント カタログには、汎用ブループリントとパートナー指向のブループリントに加えて、特定の業界やアプリケーションに合わせた新しいユースケース ブループリントのセットが含まれるようになりました。これらのブループリントは、特定のドメインに HPC ワークロードをデプロイするための、さらに合理化および最適化された出発点となります。
ブループリント カタログには、Slurm、HTCondor、PBS Pro などの一般的な HPC スケジューラに基づいてクラスタをデプロイするためのブループリントが含まれています。これらのスケジューラは、HPC クラスタ内のリソースの管理と割り当てを行います。カタログには、Filestore、Google Cloud Storage FUSE、DDN EXAScaler などの一般的なストレージ オプションを備えるブループリントも含まれています。これらのブループリントは、一般的な HPC スケジューラとストレージ ソリューションにすぐに使用できるセットアップを提供し、最適なリソースの利用とシンプルで信頼性の高いデプロイを保証します。
ライフ サイエンス向け HPC ソリューションの一部として、GROMACS などのゲノミクスおよび創薬ワークロードを実行するための事前構成されたブループリントを提供しています。コンピュータ支援エンジニアリング ソリューション(上図を参照)は、シミュレーションの実行と設計最適化タスクに合わせて調整されており、Siemens Star-CCM+、OpenFOAM、ANSYS Fluent などの一般的な CAE アプリケーションのブループリントが含まれています。Weather Forecasting ソリューションは、気候モデルと低レイテンシの密結合ワークロード向けに最適化されており、WRFV3 のブループリントが含まれています。これらのブループリントは、必要なソフトウェアの依存関係や最適化された設定など、対象のアプリケーションを実行するための事前構成された環境を提供します。
ML ワークロードについては、最新の GPU マシンタイプをサポートし、Slurm を備えた Compute Engine 上に汎用の ML 対応環境を提供しています。これには、GPU や TPU、Google Kubernetes Engine のサポートも含まれます。QSim を使用した量子コンピューティング シミュレーション ブループリントも提供しています。
Google は、ますます幅広い HPC シナリオを包含するようにブループリント カタログを継続的に拡張し、ユーザーがワークロードに合わせて最新かつ最も効果的な構成にアクセスできるようにしています。この継続的な開発は、HPC のデプロイのための包括的で最新のツールキットをユーザーに提供するという Cloud HPC Toolkit の取り組みを強調するものです。
最近の Cloud HPC Toolkit の改善
新しいユースケース ブループリント カタログと新しいブループリントに加えて、Cloud HPC Toolkit 自体の改善も続けています。最近のリリースでは、次のような新機能と改善点によりツールキットが強化されました。
- H3 および A3 VM のサポート
- Shielded VM のサポート
- Spack のサポート、パブリック ビルド キャッシュ、モジュールの再設計
- エラー メッセージと処理の改善
- Chrome リモート デスクトップのサポートの改善
- 最新の DDN EXAScaler のサポート
- HTCondor のサポートの改善
- 最新の Slurm on Google Cloud のサポート
- GKE 向けのネイティブ Filestore と Google Cloud Storage のサポート
まとめると、Cloud HPC Toolkit は、あらゆる規模の組織が Google Cloud 上で HPC ワークロードをデプロイおよび管理できる優れたツールです。Cloud HPC Toolkit のブループリント カタログと最近の機能強化により、Google Cloud で HPC を簡単に開始できます。
Cloud HPC Toolkit の使用の詳細については、HPC Toolkit ドキュメントをご覧ください。ドキュメントではクイックスタート ガイドもご確認いただけます。GitHub リポジトリをチェックすると、コードの探索を開始できます。Cloud HPC Toolkit の活用に関して、サポートから皆様のご意見をぜひお聞かせください。Google Cloud の HPC ソリューションの詳細については、HPC ソリューション ページをご覧いただくか、お問い合わせください。
ー Google Cloud、HPC ソフトウェア エンジニア Carlos Boneti
ー Google Cloud、HPC および AI インフラストラクチャ担当ソリューション マネージャー Wyatt Gorman