Slurm-GCP v6 と TPU のサポートにより HPC エクスペリエンスを強化
Annie Ma-Weaver
Group Product Manager, Google Cloud
Nick Stroud
Tech Lead, Google Cloud HPC
※この投稿は米国時間 2024 年 6 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud では、AI ハイパーコンピュータをはじめとして、HPC 用に最適化されたインフラストラクチャをユーザーの設定に従って複数の方法でデプロイできます。Slurm ベースの環境を使いたいと考えているお客様には、Cloud HPC Toolkit の使用をおすすめします。Cloud HPC Toolkit は AI / ML と従来の HPC ワークロードに対応する HPC システムの作成と管理を簡単に実施できるようにする Google プロダクトです。このツールキットには、Google Cloud での Slurm のインストール、デプロイ、特定の運用面を自動化するのに役立つ、一連の Slurm スクリプトである Slurm-GCP サービスが含まれています。
このたび、Slurm 23.11 で動作する最新かつ推奨バージョンの Slurm-GCP v6 の一般提供が開始されたことをお知らせします。このリリースは、SchedMD のエンジニアリング専門家との数年に及ぶ協力によって実現しました。
v5 と比較して、Slurm-GCP v6 には次の利点があります。
迅速なデプロイ
シンプルなクラスタ(既存の VPC と Slurm インフラストラクチャで構成され、ファイル システムを並列にデプロイしたり、クラスタの自動スケーリングを使用したりしない)のデプロイが、以前のバージョンよりも 3 倍速くなりました。
堅牢な再構成
再構成は、実行中のクラスタに変更を加えることができるようにする Slurm-GCP のメカニズムです。このプロセスが各インスタンスで実行されるサービスによって管理されるようになっており、より一貫したエクスペリエンスを実現します。また、デフォルトで有効になっているため、実行中のクラスタの再構成が容易になりました。
単一のプロジェクトでより多くのデプロイが可能
単一のプロジェクトでデプロイできるクラスタの数の制限を解除しました。
デプロイ環境における依存関係を削減
再構成とコンピューティング ノードのクリーンアップ機能がデフォルトで有効になり、ユーザーが設定する必要がなくなったため、Slurm クラスタを管理しやすくなりました。
TPU v3 と v4 の完全サポート
TPU v3 と v4 が完全にサポートされるようになったことで、TPU パーティションと GPU パーティションを並行して構成できるようになり、任意のアクセラレータを選択できる柔軟性がこれ以上ないほど高くなりました。
Toolkit ブループリント ライブラリにアクセスして、今すぐ v6 を使い始めましょう。これらのブループリントには、Slurm を使用した TPU での MaxText ML ベンチマークの実行や、Slurm を使用した Apptainer コンテナの実行などが含まれます。なお、以前のバージョンの Slurm-gcp を使用したブループリントは、名前に「v5」が含まれ、2024 年 11 月までサポートされます。