Cluster Toolkit(旧称 HPC Toolkit)で大規模な AI / ML クラスタや HPC クラスタを構築
Annie Ma-Weaver
Group Product Manager, Google Cloud
Shivani Matta
Software Engineering Manager, Google Cloud
※この投稿は米国時間 2024 年 8 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
Cloud HPC Toolkit、現在の Cluster Toolkit は、Google Cloud でのハイ パフォーマンス コンピューティング環境の構築と管理を簡素化します。当初は科学技術分野のコンピューティング ワークロードに重点を置いていましたが、さまざまな分野で幅広く採用されるようになったことを反映して、AI / ML アプリケーションも扱えるように拡張されました。
Cluster Toolkit を使用すると、クラスタのセットアップとデプロイを効率化し、Google Cloud のベスト プラクティスを活用してさまざまなコンピューティング タスクを柔軟に処理できるため、ユーザーはワークロードに専念できます。主な利点は次のとおりです。
-
クラスタの簡単なデプロイと管理: Toolkit によりクラスタのセットアップと保守のプロセスが簡素化され、ユーザーがインフラストラクチャの管理ではなくワークロードに専念できます。Toolkit は、Slurm、GKE、Batch など、複数のスケジューラをサポートしています。
-
HPC と AI / ML のワークロードのクイックスタート オプション: Toolkit には、事前に構築されたブループリントとモジュールのライブラリが用意されているため、ユーザーはワークロードの実行をすばやく開始して、価値創出までの時間を短縮できます。
-
Google Cloud のベスト プラクティスの統合: 前述のブループリントとモジュールには Google Cloud の推奨構成が組み込まれており、パフォーマンスと効率が最適化されるようにクラスタを設定できます。
-
定期的な更新と新機能: Toolkit は積極的にメンテナンスされ、新機能の追加や改善が行われており、ユーザーに継続的なサポートと機能強化を提供しています。
-
オープンソースのアクセシビリティ: Toolkit はオープンソースなので、ユーザーは特定のニーズに合わせて機能をカスタマイズしたり拡張したりできます。
Cluster Toolkit の新機能
Cluster Toolkit は、名前が変更されただけでなく、HPC と AI / ML のワークロード向けの新機能がいくつか追加されています。
-
A3 Mega Blueprint: このブループリントにより、大規模言語モデル(LLM)のトレーニングやその他の AI / ML ワークロードに使用できる A3 Mega VM のクラスタを簡単にデプロイできます。今年に入ってから、A3 Blueprint もリリースされました。
-
HPC VM イメージ: この VM イメージには、一般的な HPC ツールとライブラリがプリインストールされているため、HPC ワークロードの実行をすばやく開始して確実なパフォーマンスを得ることができます。
-
HPC VM イメージ の CentOS 7 向け最終バージョンがリリースされたことにご注意ください。CentOS は 2024 年 6 月 30 日にサポートが終了し、セキュリティ アップデートが提供されなくなりました。今後に向けて Rocky 8 に移行することを強くおすすめしており、HPC VM イメージの Rocky 8 バージョンを定期的にリリースしていく予定です。
-
HPC VM イメージで自動更新を無効にする機能をリリースします。自動更新は、HPC アプリケーションのパフォーマンスに影響を及ぼす可能性があるため、メタデータを介して自動更新を無効にするオプションを提供します。
-
Slurm-gcp v6: Google Cloud 上で Slurm ワークロードを実行するためのシームレスなエクスペリエンスを提供する、Slurm-gcp ソリューションの最新バージョンが一般提供になりました。
Toolkit の既存のお客様向けのガイドライン
GitHub リポジトリの名前が「Cluster Toolkit」に変更され、また一部のコマンドの名前も変更されました(例: ghpc は gcluster になりました)。既存の Git オペレーションやコマンドは引き続き機能しますが、混乱を避けるためにローカルのクローンやコマンドの名前を更新することを強くおすすめします。
ご利用方法
Cluster Toolkit を使い始めるには、GitHub リポジトリから入手できる使いやすい HPC と AI / ML のブループリントの中からいずれかを選択し、それを使用してクラスタをセットアップします。また、ドキュメント、クイックスタート、動画など、使い始めるのに役立つさまざまなリソースもご用意しています。