コンテンツに移動
コンピューティング

Slurm on Google Cloud の最新スクリプトのご紹介

2022年5月31日
Google Cloud Japan Team

※この投稿は米国時間 2022 年 5 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud は、ハイ パフォーマンス コンピューティング(HPC)ワークロードに対して最適な場所を提供しています。Google Cloud のあらゆるサービスやプロダクトで顕著なように、Google では、ユーザーの皆さまに複雑なタスクも簡単に取り組めそうだと思ってもらえるよう、日々尽力しております。HPC においては、スケジューラなどの人気ツールをサポートしていることが、使いやすさの面で大きなポイントとなります。

ハイ パフォーマンス コンピューティング(HPC)ワークロードを実行しているのであれば、Slurm ワークロード マネージャーをご存じの人も多いはずです。本日、Google は SchedMD とともに、Google Cloud で実行される Slurm の最新機能を発表します。これには、ワンクリックのハイブリッド構成、Google Cloud Storage のデータ移行サポート、リアルタイムでの構成の更新、Bulk API のサポート、改善されたエラー処理などが含まれます。これらの新機能は、Slurm on Google Cloud の GitHub リポジトリや、Google Cloud Marketplace 上で今すぐご確認いただけます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/slurm.max-900x900.jpg

Slurm は、TOP500 に名を連ねる世界中のスーパー コンピュータで使用されている主要なオープンソース HPC ワークロード マネージャーです。過去 5 年間、Google は進歩し続ける Slurm の最新版を Google Cloud でリリースするため、Slurm を推進する企業である SchedMD と協力してきました。

ここで、新機能について詳しく説明していきます。

すぐに使用できるハイブリッド構成

これからは、シンプルなハイブリッド Slurm 構成設定スクリプトを使用して既存の Slurm コントローラ内で Google Cloud のパーティションを有効化することで、Slurm ユーザーがオンプレミスのクラスタを Google Cloud に迅速かつ簡単に接続できるようになります。

Google Cloud Storage のデータ移行サポート

Slurm には、Google Cloud Storage をサポートするワークフロー スクリプトがあり、ユーザーはジョブの一部としてストレージ バケット間のデータ移行アクションを定義することが可能です。なお、Slurm は、Google Cloud Storage の異なる場所に向けた入力および出力データのジョブを処理できます。

リアルタイムでの構成の更新

Slurm では、パーティションのデプロイ後の再構成をサポートしています。必要に応じて対応するアクションが取られることで、ユーザーは HPC 環境に瞬時に変更を加えることが可能となります。

Bulk API のサポート

この最新のスクリプトは、昨年リリースされた Slurm のスクリプト内で完成した Bulk API のインテグレーション上に構築されており、Bulk API のリージョン エンドポイント呼び出し、Spot VM などをサポートしています。

より明確なエラー処理

最新版の Slurm on Google Cloud では、API のエラーが起こった具体的な場所(ジョブのノード、ノード情報、フィルタ済みログファイルなど)を特定し、直接、ユーザーに Google API に内在するエラーを知らせます。また、スクリプトには、予想よりも長く時間が掛かっている場合のために、インストール プロセス中にエラーチェックを行う方法を説明した、「インストール」のアニメーションやガイダンスが追加されています。

BigQuery や Stackdriver での請求のトラッキング

これからは、BigQuery からデータ使用量にアクセスできるようになり、Google Cloud の請求データと統合して個々のジョブの費用を計算することや、Stackdriver ジョブ向けのカスタム指標の追跡および表示が可能となります。

Terraform とイメージ作成のベスト プラクティスの遵守

Slurm のイメージ作成プロセスは、Packer ベースのソリューションに転換されます。必要なスクリプトはイメージに組み込まれ、Ansible 構成を定義するためにメタデータを介してパラメータが提供されます。また、こうしたすべてが、TerraformImage Creation のベスト プラクティスに沿って実施されます。すべての新しい Terraform リソースは、利用可能な場合は Cloud Foundation Toolkit モジュールを使用しているため、ブートストラップ スクリプトを使用して Terraform モジュールを構成およびデプロイすることが可能です。

認証構成

これからは、oslogin を有効または無効にして、Slurm クラスタ全体で LDAP ライブラリ(OSLogin、LDAP、無効など)をインストールできるようになります。なお、non-oslogin 認証は、管理者がクラスタ全体で手動にて構成する必要がありますのでご注意ください。

インスタンス テンプレートのサポート

昨年の Slurm on Google Cloud のバージョンでサポートを開始したインスタンス テンプレートに続き、今後は数年前に開始した追加のインスタンス テンプレート機能(ハイパー スレッディング、Spot VM など)を使用することができます。

パーティションの強化されたカスタマイズ

Slurm on Google Cloud の最新バージョンには、デプロイしたパーティションのカスタマイズ方法をいくつか追加しています。ここには、カスタマイズしたプロローグ スクリプトやエピローグ スクリプトの追加、起動スクリプトの事前パーティション、コンピューティング ノード上でより優れた Slurm 機能を構築するための能力などが含まれています。

スタートガイド

この最新のリリースを構築したのは、SchedMD の Slurm の専門家です。このリリースは SchedMD の GitHub リポジトリからダウンロードしていただけます。詳細については、ダウンロードに含まれる README ファイルをお読みください。Slurm を使い始めるにあたりサポートが必要な場合は、クイックスタート ガイドをご覧ください。Google Cloud の Slurm 機能に関するサポートについては、Slurm Auto-Scaling Cluster の Codelab や、Slurm クラスタを Google Compute Engine 上にデプロイする方法Compute Engine で Slurm クラスタにアプリをインストールする方法に関するソリューションガイドをご覧ください。ご不明な点がある場合は、Slurm on Google Cloud に関する Google ヘルプグループ、または SchedMD に直接お問い合わせください。


- コンピューティング プロダクト管理ディレクター Nirav Mehta
- HPC パートナー マネージャー Annie Ma-Weaver
投稿先