新しい Cluster Director 機能: 簡素化された GUI、マネージド Slurm、高度なオブザーバビリティ
Ilias Katsardis
Sr. Product Manager, Cluster Director, Google Cloud
Chelsie Czop
Sr. Product Manager, AI Infrastructure, Google Cloud
※この投稿は米国時間 2025 年 7 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。
今年 4 月、Google Cloud は大規模な AI インフラストラクチャのデプロイと管理をこれまで以上にシンプルかつ直感的に行える統合管理プレーンである Cluster Director をリリースしました。これにより、AI スーパーコンピュータがより身近なものとなりました。このたび、直感的なインターフェース、マネージド Slurm エクスペリエンス、パフォーマンスの異常を検出するオブザーバビリティ ダッシュボードなどの新機能をプレビュー版でリリースしたことをお知らせいたします。
複雑な構成から簡単な作成へ
AI インフラストラクチャのユーザーは、コンピューティング、ネットワーキング、ストレージの複雑な構成に何週間も苦戦することがあります。分散トレーニング ワークロードは、数千のノードにわたって実行される高度に同期されたジョブであり、ネットワーク レイテンシの影響を非常に受けやすいため、パフォーマンスのボトルネックを診断して解決することは困難です。Cluster Director は、AI クラスタと HPC クラスタの複雑なセットアップを自動化する単一の統合インターフェースでこれらの課題を解決します。Google Cloud の最適化されたコンピューティング、ネットワーキング、ストレージを統合して、まとまりのある、パフォーマンスの高い、管理しやすい環境を実現します。
LG AI Research は、Google Cloud を使用して大規模言語モデルをトレーニングしています。直近では、Exaone 3.5 のトレーニングを行いました。当社はコードを実行するクラスタを稼働させるまでの時間を、1 週間以上から 1 日未満に大幅に短縮しています。数百もの GPU 時間が節約され、実際のワークロードに使えるようになりました。
「Cluster Director のおかげで、最小限の人員でも、大規模で高性能な GPU クラスタを柔軟かつ効率的にデプロイ、運用できます。」 - LG AI Research、AI インフラ シニア エンジニア Jiyeon Jung 氏
Biomatter は Google Cloud を使用して、インシリコ設計プロセスをスケールアップしています。Cluster Director により、クラスタのデプロイと管理がスムーズになり、業務の中核となる科学的課題に集中できるようになりました。
「Google Cloud の Cluster Director は、Slurm ベースの AI および HPC クラスタの作成、構成、管理の方法を大幅に簡素化しました。直感的な UI に加え、GPU 搭載インスタンスを簡単に使えるようになったことで、インフラストラクチャに費やす時間と労力が削減されました。」 - Biomatter、最高技術責任者 Irmantas Rokaitis 氏
本稿では、Cluster Director の最新バージョンの新機能を紹介いたします。
コンピューティング、ネットワーク、ストレージにわたるクラスタ管理の簡素化
Google Cloud コンソールの新しい直感的なビューを使用して、クラスタを簡単に作成、更新、削除できます。ゼロから始めるのではなく、検証済みの最適化されたリファレンス アーキテクチャから選択して開始することが可能です。さまざまな VM ファミリー(A3 および A4 の GPU を含む)から 1 つ以上のマシン構成を追加し、マシンタイプ、GPU の数、インスタンスの数を指定します。オンデマンド容量(サポートされている場合)、DWS カレンダーまたは Flex Start モード、費用削減のための Spot VM、容量を確保するための特定の予約のアタッチなど、さまざまなオプションから使用量モデルを選択できます。
また、Cluster Director では、新しい専用の VPC ネットワークまたは既存の VPC ネットワークにクラスタをデプロイできるため、ネットワーキングも簡素化されます。新しいネットワークを作成すると、内部通信と SSH アクセスに必要なファイアウォール ルールが自動的に構成されるため、よくある問題点が解消されます。ストレージについては、新しい Filestore インスタンスまたは Google Cloud Managed Lustre インスタンスを作成してアタッチするか、既存の Cloud Storage バケットに接続できます。これらのインテグレーションにより、高パフォーマンスのファイル システムが正しくマウントされ、クラスタ内のすべてのノードで起動直後から利用できるようになります。


マネージド Slurm による優れたジョブ スケジューリング
Cluster Director は、事前構成されたマネージド Slurm 環境を備えているため、すぐに使用できるフォールト トレラントでスケーラビリティの高いジョブ スケジューリングを提供します。コントローラ ノードは自動的に管理され、ログインノードはマシンタイプ、ソースイメージ、ブートディスク サイズなどを簡単に構成できます。パーティションとノードセットは、コンピューティングの選択に基づいて事前構成されますが、構成はいつでもカスタマイズでき、柔軟性が維持されます。


トポロジを考慮した配置
パフォーマンスを最大化するために、Cluster Director は Google のネットワーク トポロジと深く統合されています。これは、クラスタの作成時に、VM が物理的に近い場所に配置されることから始まります。重要なのは、このインテリジェンスがマネージド Slurm 環境に直接組み込まれていることです。Slurm スケジューラはネイティブにトポロジを認識します。つまり、基盤となる物理ネットワークを理解し、ジョブのタスクをノード間で最もレイテンシの低いパスを持つノードに自動的に配置します。初期配置と継続的なジョブ スケジューリングのこの統合は、パフォーマンスを大幅に向上させる重要な要素であり、大規模な分散トレーニング ジョブ中のネットワーク競合を劇的に削減します。
包括的な可視性と分析情報
Cluster Director の統合オブザーバビリティ ダッシュボードでは、クラスタの健全性、使用状況、パフォーマンスを明確に把握できるため、システムの動作をすばやく理解し、問題を 1 か所で診断できます。ダッシュボードは、数万台の VM に簡単にスケールできるように設計されています。


パフォーマンスの異常を検出する高度な診断
分散 ML トレーニングにおいて、ストラグラーとは、最終的にワークロード全体を遅くする、少数の障害のあるノードまたはタスクの完了が遅いノードを指します。Cluster Director を使用すると、ストラグラーをすばやく見つけて置き換えることができ、パフォーマンスの低下や無駄な支出を避けられます。
Cluster Director を今すぐお試しください
このたび、Cluster Director をいち早くお試しいただける機会をご用意いたしました。詳細を確認して、プレビュー版への参加をお申込みいただくには、Google Cloud アカウント チームにお問い合わせいただくか、こちらからご登録ください。皆様が構築されるサービスを楽しみにしております。
ー Google Cloud、Cluster Director 担当シニア プロダクト マネージャー Ilias Katsardis
ー Google Cloud、AI インフラストラクチャ担当シニア プロダクト マネージャー Chelsie Czop