Slurm on GCP の最新スクリプトのご紹介
Google Cloud Japan Team
※この投稿は米国時間 2021 年 3 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
ハイ パフォーマンス コンピューティング(HPC)のワークロード管理に Slurm ジョブ スケジューラをお使いの方に朗報です。本日、Google は SchedMD とともに、Google Cloud で実行される Slurm の最新機能を発表します。これには、Terraform のサポート、HPC VM イメージ、プレースメント ポリシー、Bulk API、インスタンス テンプレートのほか、Google Cloud Marketplace リスティングなどが含まれます。なお、Slurm による Bulk API のサポートは今回のリリースではベータ版となります。
Slurm は、TOP500 に名を連ねる世界中のスーパー コンピュータで使用されている主要なオープンソース HPC ワークロード マネージャーです。過去 4 年間、Google は進歩し続ける Slurm の最新版を Google Cloud でリリースするため、Slurm を推進する企業である SchedMD と協力してきました。
このたびリリースする新機能の詳細を以下にご紹介します。
Terraform のサポート
今回のリリースで、Terraform のサポートは一般提供となります。最新のスクリプトは、Google Cloud が 2 月に発表した HPC ワークロード用に最適化された CentOS 7 ベースの仮想マシン(VM)イメージである HPC VM イメージをベースに SchedMD が 提供する VM イメージを自動でデプロイします。この新しいイメージベースのデプロイにより、Slurm クラスタのデプロイにかかる時間をわずか数分にまで短縮できます。
プレースメント ポリシー
プレースメント ポリシーで、ジョブごとに必要に応じてノードのセットを作成できるようになりました。Slurm on GCP スクリプトの以前のバージョンでは、クラスタ単位でしかプレースメント ポリシーを有効にできませんでした。今後はパーティションごとにプレースメント ポリシーを設定できるため、密結合ワークロードのレイテンシとパフォーマンスの大幅な改善が可能になります。
Bulk API
Slurm で、Bulk API を使用してインスタンスを作成できるようになりました。1 回の API 呼び出しで最大 1,000 個の VM を収集できるため、これまでになく迅速かつ効率的に VM インスタンスを作成できます。Bulk API は「リージョン容量検出」にも対応しており、必要な容量があるリージョン内のいずれかのゾーンにインスタンスを作成することができます。そのためリクエストされたリソースがより速く、確実に取得できます。
インスタンス テンプレート
Slurm インスタンス作成方法の定義としてインスタンス テンプレートを指定できるようになりました。
Cloud Marketplace リスティング
最後に、Slurm on GCP のスクリプトを Cloud Marketplace からご利用いただけるようになったことをお知らせします。Google Cloud Console で数回クリックするだけで、最新版の Slurm on GCP を見つけて起動できます。Cloud Marketplace リスティングでは、SchedMD の他のマネージド サービスにアクセスする方法に関する詳しい情報も提供されます。Google Cloud で Slurm を使用して HPC ワークロードを拡張し、強化するのに役立ちます。
各種研究機関が Slurm のスクリプトを使用した Google Cloud の能力を活用し、HPC コンピューティング クラスタの需要の増加に応じています。
「高度なコンピューティングを必要とする最先端の研究をサポートするには、オンプレミスのリソースだけでは到底対応できません。広範囲の研究分野への人工知能の応用、COVID-19(新型コロナウイルス感染症)の早急な研究、AI、ML、データ サイエンスに関する教育コースの人気の高まりなどに後押しされ、当校の HPC クラスタのジョブの待ち時間は増加しています。
ジョブの待ち時間の増加に対処するため、そして研究者が最新の CPU と GPU を評価できるようにするため、HPC チームはジョブを Google Cloud にバーストすることの実行可能性を検討していました。
Google Cloud の Slurm の機能がさらに増え、プリエンプティブル仮想マシンのような機能もあることから、オンプレミスのクラスタに送信していたジョブを GCP にバーストすることにしました。その結果、ジョブの待ち時間を短縮して、より早く研究結果を出せるようになりました。」 - NYU 研究技術サービス ディレクター Stratos Efstathiadis 氏
使ってみる
今回リリースされる新機能は、SchedMD の Slurm チームが開発したものです。このリリースは SchedMD の GitHub リポジトリからダウンロードしていただけます。詳細については、ダウンロードに含まれる README ファイルをお読みください。Slurm を使い始めるにあたりサポートが必要な場合は、クイックスタート ガイドをご覧ください。Google Cloud の Slurm 機能に関するサポートについては、Slurm Auto-Scaling Cluster の Codelab や、Slurm クラスタを Google Compute Engine 上にデプロイする方法、Compute Engine で Slurm クラスタにアプリをインストールする方法に関するソリューションガイドをご覧ください。ご不明な点がある場合は、GCP の Slurm に関する Google ヘルプグループ、または SchedMD に直接お問い合わせください。
-パートナー マネージャー Annie Ma-Weaver
-プロダクト マネージャー Andrew Stein