HPC

A3 VM の NeMo フレームワークでの AI / ML のための Cloud HPC Toolkit ブループリントに関するお知らせ

2024年3月22日

Google Cloud Japan Team

※この投稿は米国時間 2024 年 3 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

大規模言語モデル（LLM）のトレーニングを含む多くの AI / ML ワークロードには、最先端のハイパフォーマンスコンピューティング（HPC）システムが必要です。LLM 開発とトレーニングを行う多くの方々は従来の HPC システムや Slurm などのスケジューラに習熟していますが、このようなシステムを AI / ML のニーズに応じて最適化するには手助けが必要です。このたび、Cloud HPC Toolkit を使用して Google Cloud で非常に要求の厳しいモデルに対応した HPC システムを簡単に作成できるようになりました。

Cloud HPC Toolkit は AI / ML と従来の HPC ワークロードに対応する HPC システムの作成と管理を簡単に実施できるようにする Google プロダクトです。Toolkit には次のようなさまざまな機能が含まれています。

HPC クラスタを迅速かつ簡単にプロビジョニングして構成する
AI / ML ソフトウェアスタックをインストールし、管理する
HPC クラスタを AI / ML ワークロードに合わせて最適化する
HPC クラスタをモニタリングする

本日は ML ワークロードのための新しい Cloud HPC Toolkit ブループリントについてお知らせします。NVIDIA H100 Tensor Core GPU 搭載の A3 VM は大規模言語モデル（LLM）のトレーニングやその他の AI / ML ワークロードに対応し、トレーニングのパフォーマンスを高めるための Google Cloud のベストプラクティスが組み込まれています。このブループリントは、そのような A3 VM で実行される HPC システムをスピンアップするために役立ちます。

特に、NVIDIA GPU での大規模な HPC と AI / ML クラスタのデプロイにおいては、ネットワーキング構成などの複数のインフラストラクチャコンポーネントを慎重に調整する必要があります。Cloud HPC Toolkit は、あらかじめベストプラクティスが反映された使いやすいブループリントに沿って簡単にこのことを実現できるようにします。ML ブループリントによって次のようなコンポーネントや機能が提供されます。

カスタマイズされた Deep Learning VM Image を備えた 5 つの NIC で 1 Tbps のネットワーキングを構成して実現
フルマネージド Filestore（NFS）を使用する共有ストレージ
人気のオープンソーススケジューラ Slurm
ログインノードとコントローラ機能のための管理 VM の作成
A3 VM（8 X NVIDIA H100 GPU）と VM ごとに 6 TB のローカル SSD を使用する自動スケーリングパーティションの設定
Conda、TensorFlow、NVIDIA ドライバ、NVIDIA CUDA、NVIDIA Enroot / Pyxis、NVIDIA TensorRT、PyTorch を含む事前構成されたユーザー環境

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_mAo1O29.max-800x800.png

A3 クラスタのデプロイと NVIDIA NeMo フレームワークの実行

A3 クラスタはこちらの手順に沿ってデプロイします。そこにある標準の Playbooks と NVIDIA NeMo Framework User Guide の NVIDIA NeMo Launcher ガイドに沿って作業します。さらに、GPUDirect-TCPX 機能を使用するには、A3 VM 全体でのネットワーキングのパフォーマンスを高めるために、いくつかの変更を加える必要があります。これらの変更を加えて NeMo フレームワークの事前トレーニングの基本的なサンプルを起動する方法の例については、HPC Toolkit リポジトリの README をご覧ください。その一部を以下にコピーします。

読み込んでいます...

README
======
1. NeMo フレームワーク コンテナをカスタマイズします。nemo:23.11.framework コンテナに対して環境変数の変更をいくつか加え、フレームワーク ランチャー スクリプトとその他のいくつかの補助的なファイルを作業ディレクトリにコピーする Slurm ジョブを発行します。
       sbatch setup_nemo.sh
2. NeMo フレームワーク要件をインストールします。仮想環境を使用することをおすすめします。これにより NeMo フレームワークを使用してジョブを発行するために必要なコンポーネントがインストールされます。
       python3 -m venv env
       source env/bin/activate
       pip install -r requirements.txt
3. NeMo フレームワーク事前トレーニングのサンプルを実行します。これにより、モックデータを入力に使用して 5B パラメータの GPT3 モデルを 10 ステップでトレーニングするサンプルが実行されます。
       cd launcher_scripts
       mkdir data
       python main.py \
               launcher_scripts_path=${PWD} \
               stages=[training] \
               env_vars.TRANSFORMERS_OFFLINE=0 \
               container=../nemofw+tcpx-23.11.sqsh \
               container_mounts='["/var/lib/tcpx/lib64","/run/tcpx-\${SLURM_JOB_ID}:/run/tcpx"]' \
               cluster.srun_args=["--container-writable"] \
               training.model.data.data_impl=mock \
               training.model.data.data_prefix=[] \
               training.trainer.max_steps=10 \
               training.trainer.val_check_interval=10 \
               training.exp_manager.create_checkpoint_callback=False

実行しようとするクラスタや特定の NeMo Framework のワークロードに合わせて構成ファイルをカスタマイズする作業が、コマンドライン引数を使用する場合と比較して簡単であることがおわかりでしょうか。たとえば、現実のワークロードでは現実のトレーニングデータを使用するため、ユースケースに応じてあらゆるチューニングと構成パラメータを試すことが望ましい場合があります。

NVIDIA GTC 2024 の Google Cloud ブース #808 では、AI / ML のニーズに応えるプロダクト、ツール、インフラストラクチャについて詳しくご紹介します。HPC Toolkit については専用のセッションで詳しくご説明します。ブースでは ML ブループリントのデモを実行し、専門家が質問にお答えします。ぜひイベントにお越しください。

-HPC 担当、シニア システム アンド ソリューション アーキテクト Sam Skillman

-Cloud HPC 担当、グループ プロダクト マネージャー Annie Ma-Weaver

投稿先