コンテンツに移動
HPC

A3 VM の NeMo フレームワークでの AI / ML のための Cloud HPC Toolkit ブループリントに関するお知らせ

2024年3月22日
Google Cloud Japan Team

※この投稿は米国時間 2024 年 3 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

大規模言語モデル(LLM)のトレーニングを含む多くの AI / ML ワークロードには、最先端のハイ パフォーマンス コンピューティング(HPC)システムが必要です。LLM 開発とトレーニングを行う多くの方々は従来の HPC システムや Slurm などのスケジューラに習熟していますが、このようなシステムを AI / ML のニーズに応じて最適化するには手助けが必要です。このたび、Cloud HPC Toolkit を使用して Google Cloud で非常に要求の厳しいモデルに対応した HPC システムを簡単に作成できるようになりました。

Cloud HPC Toolkit AI / ML と従来の HPC ワークロードに対応する HPC システムの作成と管理を簡単に実施できるようにする Google プロダクトです。Toolkit には次のようなさまざまな機能が含まれています。

  • HPC クラスタを迅速かつ簡単にプロビジョニングして構成する

  • AI / ML ソフトウェア スタックをインストールし、管理する

  • HPC クラスタを AI / ML ワークロードに合わせて最適化する

  • HPC クラスタをモニタリングする

本日は ML ワークロードのための新しい Cloud HPC Toolkit ブループリントについてお知らせします。NVIDIA H100 Tensor Core GPU 搭載の A3 VM は大規模言語モデル(LLM)のトレーニングやその他の AI / ML ワークロードに対応し、トレーニングのパフォーマンスを高めるための Google Cloud のベスト プラクティスが組み込まれています。このブループリントは、そのような A3 VM で実行される HPC システムをスピンアップするために役立ちます。

特に、NVIDIA GPU での大規模な HPC AI / ML クラスタのデプロイにおいては、ネットワーキング構成などの複数のインフラストラクチャ コンポーネントを慎重に調整する必要があります。Cloud HPC Toolkit は、あらかじめベスト プラクティスが反映された使いやすいブループリントに沿って簡単にこのことを実現できるようにします。ML ブループリントによって次のようなコンポーネントや機能が提供されます。

  • カスタマイズされた Deep Learning VM Image を備えた 5 つの NIC 1 Tbps のネットワーキングを構成して実現

  • フルマネージド FilestoreNFS)を使用する共有ストレージ

  • 人気のオープンソース スケジューラ Slurm

  • ログインノードとコントローラ機能のための管理 VM の作成

  • A3 VM8 X NVIDIA H100 GPU)と VM ごとに 6 TB のローカル SSD を使用する自動スケーリング パーティションの設定

  • CondaTensorFlowNVIDIA ドライバ、NVIDIA CUDANVIDIA Enroot / PyxisNVIDIA TensorRTPyTorch を含む事前構成されたユーザー環境
https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_mAo1O29.max-800x800.png

A3 クラスタのデプロイと NVIDIA NeMo フレームワークの実行 

A3 クラスタはこちらの手順に沿ってデプロイします。そこにある標準の Playbooks NVIDIA NeMo Framework User Guide NVIDIA NeMo Launcher ガイドに沿って作業します。さらに、GPUDirect-TCPX 機能を使用するには、A3 VM 全体でのネットワーキングのパフォーマンスを高めるために、いくつかの変更を加える必要があります。これらの変更を加えて NeMo フレームワークの事前トレーニングの基本的なサンプルを起動する方法の例については、HPC Toolkit リポジトリの README をご覧ください。その一部を以下にコピーします。

読み込んでいます...

実行しようとするクラスタや特定の NeMo Framework のワークロードに合わせて構成ファイルをカスタマイズする作業が、コマンドライン引数を使用する場合と比較して簡単であることがおわかりでしょうか。たとえば、現実のワークロードでは現実のトレーニング データを使用するため、ユースケースに応じてあらゆるチューニングと構成パラメータを試すことが望ましい場合があります。

NVIDIA GTC 2024 の Google Cloud ブース #808 では、AI / ML のニーズに応えるプロダクト、ツール、インフラストラクチャについて詳しくご紹介します。HPC Toolkit については専用のセッションで詳しくご説明します。ブースでは ML ブループリントのデモを実行し、専門家が質問にお答えします。ぜひイベントにお越しください。

-HPC 担当、シニア システム アンド ソリューション アーキテクト Sam Skillman

-Cloud HPC 担当、グループ プロダクト マネージャー Annie Ma-Weaver

投稿先