新しい Google Cloud HPC Toolkit でハイ パフォーマンス コンピューティング体験を加速させる
Google Cloud Japan Team
※この投稿は米国時間 2022 年 5 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
Cloud HPC Toolkit のご紹介
クラウドでハイ パフォーマンス コンピューティング(HPC)ワークロードを実行することには多くのメリットがあります。たとえば、数分以内にクラスタ全体の作成と破棄ができるといった柔軟性です。ただし、この柔軟性には複雑さが伴います。適切なマシンの構成をどうやって選べばよいでしょうか。また、好みのスケジューラをインストールするにはどうすればよいでしょうか。ファイルシステムの選択は設定しますか。もちろん、最高のパフォーマンスも実現したいでしょう。そして最終的には、標準化されていて、簡単かつ柔軟性があり、再現可能なプロセスを目指されると思います。
Google Cloud は次のステップとして Google Cloud での HPC を簡易化しています。それが Cloud HPC Toolkit というオープンソースのツールです。これを使えば、ユーザーは実績のあるベスト プラクティスに基づいて、再現可能ですぐに使用できる HPC クラスタを作成できます。Cloud HPC Toolkit では、すぐに使用できる HPC クラスタを数分以内に作成できるので、HPC がより簡単になります。
過去数年間、Google Cloud は HPC ワークロードの最適化と、HPC エコシステム上での互換性の確保に取り組んできました。これは大きな進捗をみせており、ユーザーが好みのジョブ スケジューラを簡単にデプロイできる方法を提供できるようになりました。たとえば、Altair PBS Professional と Altair Grid Engine、SchedMD でサポートされている Slurm、IBM Spectrum LSF などです。そして DDN とともに IO500 で最高スコアを得た Lustre システムを構築しました。
HPC Toolkit の特徴
Google Cloud で HPC 環境を構成、構築、デプロイする
HPC Toolkit は組み立て可能な HPC 環境を実現できるモジュール デザインを備えています。これによって、シンプルかつ高度な HPC 環境を簡単に定義してデプロイできます。HPC のブループリントは HPC 環境のインフラストラクチャとソフトウェア構成を定義する際に、Terraform モジュール、Packer テンプレート、Ansible のハンドブックを構成している高度な YAML 形式のファイルを使います。既存のブループリントでクラスタを作成するか、ニーズに合うようにブループリントを修正することもできます。ブループリントの数テキスト行の構成を簡単に修正することで、必要なインフラストラクチャとジョブに必要な各業界に特化したツールをプロビジョニングすることができます。
HPC Toolkit には小規模な基本クラスタや高速な I/O クラスタなど、構成ブループリントのサンプルがいくつか備わっています。これらのブループリントのサンプルは HPC Toolkit の運用に慣れるために使うことができます。あるいはブループリントを修正することで異なる構成を構築することも可能です。
HPC モジュールは、コンピューティング、スケジューラ、ストレージ、ネットワーキングなどの HPC 環境を組み立てるためにインポートされたコンポーネントです。これらのモジュールはローカルで開発しインポートするか、GitHub から自動でインポートすることができます。現在 Cloud HPC Toolkit がサポートしているのは、次のインフラストラクチャ、ソリューション、モジュールです。
コンピューティング: すべての VM タイプ、GPU、HPC VM イメージ、インスタンス テンプレート、構成可能な SMT
スケジューラ: Slurm
ストレージ: Intel DAOS、DDN EXAScaler(Lustre)、Filestore、ローカル SSD、Persistent Disk
ネットワーク: 100 Gbps(Tier 1)帯域幅、プレースメント グループ
Spack と Dell Omnia、Cloud Monitoring を使用した他の主要な機能
Cloud HPC Toolkit とともにIntel® Select Solutions for Simulation and Modeling のブループリントを使うことで、さらなるメリットを得ましょう。厳密なテスト、現実的なパフォーマンスへの最適化、推測の排除を行ったハードウェアとソフトウェアの構成を自動的に起動できるようになります。Intel® Select Solutions for Simulation and Modeling のブループリントには、Intel® oneAPI HPC Toolkit(HPC キット)などがあります。これはベクトル化、マルチスレッド処理、マルチノードの並列化、メモリ最適化の最新技術を活用して、HPC アプリの構築、分析、最適化、スケーリングを簡易化してくれます。他にも人気の Intel® MPI Library や Intel® Math Kernel Library が含まれます。
また、すでに近日実装予定の機能と統合に取り組んでおり、今後のバージョンでリリース予定です。たとえば Altair PBS Professional や Altair Grid Engine スケジューラなどです。
パートナー様の声
Intel
高性能ストレージの需要は HPC において急速に増加しているニーズの一つです。Distributed Asynchronous Object Storage(DAOS)はオープンソース ソフトウェアで定義されたスケールアウト オブジェクト ストアで、高帯域幅、低レイテンシ、高 IOPS のストレージ コンテナを HPC アプリに提供します。現在は AI と HPDA での使用が増加しています。Google Cloud HPC Toolkit を活用すれば、GCP で DAOS を使うのが容易になります。Google HPC ユーザーは、あらゆる規模のプロジェクトにおいて、数分で DAOS エフェメラル ストレージをプロビジョニングすることができます。オブジェクト ストレージと組み合わせた DAOS のハイブリッド モデルを使えば、パフォーマンスと費用対効果を向上させることができます。DAOS は現在 Google Cloud 環境に完全に統合され、完全に自動化された体験に向けて、Google が新たに発表した HPC Toolkit でホストされています。「DAOS は HPC の未来を担います。一年以上にわたる技術提携の成果が、本日発表された、Google Cloud における DAOS への高速かつ容易なアクセスによって報われたと感じています。」 – Intel、ハイ パフォーマンス ストレージ エンジニアリング部門ディレクター Kelsey Prantis 氏
AMD
クラウド コンピューティングは、お客様の特に要求の厳しいワークロードに対して、スケーラビリティや実装の容易さ、驚くべきコスト パフォーマンスを実現します。Google の新しい Cloud HPC Toolkit では、第 3 世代の AMD EPYC™ プロセッサ上で動作する C2D VM を使った HPC 環境を誰でも作成できるようになるので、デプロイがさらに容易になります。「HPC Toolkit では複雑さが軽減されました。また、クラウドの HPC におけるエラー復旧の自動化が改善されています。すべてのお客様にとってより高いアクセス性を実現するため、Google Cloud と協力して、AMD を搭載した仮想マシンを最適化できることを非常に嬉しく思っています。」 – AMD、クラウド ビジネス開発部門ディレクター Suresh Andani 氏
Altair
「今回の Google との戦略的な技術提携に期待を膨らませています。Altair PBS Professional と Altair Grid Engine を HPC Toolkit と統合することで、Google Cloud へのアクセスを簡易化し、誰もが HPC を利用できるようになります。」 – 戦略関係部門シニア バイス プレジデント Piush Patel 氏
NAG
昨年、NAG と Google は協力して本日発表される Google Cloud HPC Toolkit の主要コンポーネントを開発しました。NAG は Google との密接なパートナーシップを通じて、追加サービスの提供に取り組んでいます。エンドユーザー サポートや、GCP クライアントに対する Cloud HPC Toolkit の最重要事項のコンサルティングなどを NAG® クラウド HPC 移行サービスの一部として行っています。「Cloud HPC Toolkit を使えば、わずか数分のうちに GCP で HPC クラスタを作成できます。」 – NAG、CEO Adrian Tate 氏
Cloud HPC Toolkit を使ってみる
HPC Toolkit を試してみましょう。基本クラスタやより高速な I/O パフォーマンスのクラスタなどの既存のブループリントを使うか、サンプルを修正して自分のブループリントを作成してください。HPC ブループリント サンプルの詳細リストについては、Cloud HPC Toolkit GitHub リポジトリをご覧ください。HPC Toolkit の使用の詳細については、HPC Toolkit ドキュメントをご覧ください。ドキュメントではクイック スタートガイドもご確認いただけます。Cloud HPC toolkit の活用に関して、サポート チャネルから皆様のご意見をぜひお聞かせください。Google Cloud の HPC ソリューションの詳細については、HPC ソリューション ページをご覧いただくか、お問い合わせください。
- Google Cloud HPC プロダクト マネージャー Chelsie Czop(Peterson)
- Google Cloud HPC ソフトウェア エンジニア Carlos Boneti