Slurm on Google Cloud のエクスペリエンス向上
Google Cloud Japan Team
※この投稿は米国時間 2023 年 6 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。
Slurm ワークロード マネージャーを使用して Google Cloud で HPC ワークロードを管理されている方に、Slurm on Google Cloud の新しい機能強化をご活用いただけるようになりました。このたび Google Cloud は、SchedMD によって開発された Slurm on Google Cloud オープンソース コードの機能強化をリリースいたしました。これには、サポート対象のリソースタイプとオペレーティングの拡大、デプロイの簡易化、エラーレポートの改善、透明性の向上、セキュリティ機能のサポート拡大が含まれます。この投稿では、Slurm が Google Cloud HPC 環境にとって重要な役割をどのように担っているかをご説明します。
Slurm on Google Cloud


Slurm on Google Cloud はオープンソースのスケジューリング ソリューションで、Cloud HPC Toolkit、Terraform、Google Cloud Marketplace からデプロイできます。Slurm on Google Cloud は、Google と SchedMD の継続的なパートナーシップにより開発され、このたび最新アップデートがリリースされる運びとなりました。
Slurm on Google Cloud には次のようなメリットがあります。
柔軟性: Slurm はさまざまな Google HPC インフラストラクチャをサポートしています。複数の構成が可能なため、複雑なワークロードのニーズに対応できます。
スケーラビリティ: Slurm on Google Cloud はスケーラビリティに優れ、大規模なクラスタやエクサスケールのコンピュータのパフォーマンス要件に対応できます。Slurm は HPC、HTC、AI のワークロードに対応し、その信頼性は実証済みです。
費用対効果: Slurm on Google Cloud を使用すると、経済的に HPC ワークロードを実行できます。
Slurm on Google Cloud を使用する際のエクスペリエンスを向上させるため、最新版のソリューションをリリースいたします。
Slurm on Google Cloud の機能強化
このたびリリースされた最新版には、次のような新機能と機能強化が含まれています。
サポート対象のリソースタイプの拡大: Slurm on Google Cloud は ARM CPU と NVIDIA マルチインスタンス GPU をサポートするようになりました。これにより、幅広いハードウェアでクラスタとワークロードを実行できるようになり、柔軟性と選択肢が広がりました。
Rocky Linux が Slurm 対応イメージをサポート: Rocky Linux 向けの新しい HPC VM イメージをベースとしている Rocky Linux 8 向けの Slurm 対応イメージを使って、Slurm on Rocky Linux の利用をすぐに開始できるようになりました。
効率化されたデプロイの更新: Slurm クラスタを簡単に更新できるようになりました。効率化されたデプロイの更新が新たに可能になり、Slurm の自動再構成機能によって、すばやく簡単にクラスタのパーティションに変更を加えることができます。
ロギングとレポートの改善: Slurm on Google Cloud のロギングとレポートの機能が改善され、クラスタのパフォーマンスのトラッキングと潜在的な問題の特定が簡単に行えるようになりました。
ハイブリッド Slurm の機能強化: ハイブリッド Slurm の機能が強化され、ワークロードを Google Cloud リソースとオンプレミス リソースの両方で実行できるようになりました。これにより、ハイブリッド クラスタを簡単に管理し、ワークロードのパフォーマンスを向上させることができます。
改善された Cloud HPC Toolkit とのインテグレーション: Slurm on Google Cloud と Cloud HPC Toolkit のインテグレーションが強化され、Cloud HPC Toolkit を使用して Slurm クラスタをさらに簡単にデプロイできるようになりました。
Shielded VM のサポート: Slurm on Google Cloud 向けの Shielded VM のサポートを開始しました。Shielded VM により、確認付きブートや整合性モニタリングなど、ワークロードのセキュリティ機能を追加されます。
インスタンスのタグ付け機能の改善: Slurm on Google Cloud のインスタンスのタグ付け機能を改善しました。インスタンスをカスタムラベルで簡単にタグ付けし、クラスタへのアクセス制御とリソースの使用状況のトラッキングに使用できます。
Slurm on Google Cloud オープンソース コードの新機能と機能強化を発表できることを嬉しく思います。これにより、Slurm on Google Cloud はさらにパワフルでスケーラブルな HPC ソリューションとなることを確信しています。
Slurm on Google Cloud のスクリプトをご自身で試されたい場合は、Cloud HPC Toolkit チュートリアルを使用して、Google Cloud でスタンドアロンの Slurm クラスタを起動することをおすすめします。詳細については、SchedMD のウェブサイトをご覧になるか、Google Cloud にお問い合わせください。
- SchedMD、クラウド&ソリューション エンジニアリング ディレクター Nick Ihli 氏