AI & 機械学習

ML 生産性グッドプットの概要: AI システムの効率性を測定する指標

2024年4月17日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_blank_2-07.max-2500x2500.jpg

Google Cloud Japan Team

※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

現在、コンピューティングは非常に面白い時代を迎えています。大規模生成モデルは、かつては調査研究のためのものでしたが、今では教育、創作、ソフトウェア設計などの分野における基本的なテクノロジーの活用方法と言えるまでに普及しました。利用可能なコンピューティング能力（一般的にモデルのトレーニングに必要な浮動小数点演算数で測られます）がこれまでになく高まるなか、これらの基盤モデルの性能や機能も向上し続けています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_IExfVtc.max-1800x1800.png

有名なモデルのコンピューティング規模の飛躍的な成長。出典: Our world in data

コンピューティングの規模の急拡大は、より大規模で効率性の高いコンピューティングクラスタによってもたらされています。しかし、（ノード数やアクセラレータ数で測られる）コンピューティングクラスタの規模が拡大するにつれ、システム全体としての平均故障間隔（MTBF）は線形的に短縮する一方、故障率は線形的に増加します。さらに、インフラストラクチャのコストも線形的に増加します。そのため、故障に伴う全体的な費用は、コンピューティングクラスタの規模に対して 2 乗のオーダーで増加します。

大規模なトレーニングにおいては、全体的な ML システムの真の効率性がトレーニング実施の肝となります。効率性を高める取り組みなしでは、一定以上の規模を実現できなくなる可能性があります。しかし適切に設計することができれば、より大きな規模で新たな可能性を切り開くことができます。このブログ投稿では、このような効率性を測定するための新たな指標である ML 生産性グッドプットについてご紹介します。また、プロジェクトに統合してグッドプットを測定およびモニタリングできる API、そして ML 生産性グッドプットを最大化するための方法について説明します。

ML 生産性グッドプットの概要

ML 生産性グッドプットは、スケジューリンググッドプット、ランタイムグッドプット、プログラムグッドプットの 3 つのグッドプット指標で構成されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_OqNeMqq.max-2200x2200.jpg

スケジューリング グッドプットは、トレーニングジョブを実行するために必要なすべてのリソースが利用可能な時間の割合を測定したものです。オンデマンドまたはプリエンプティブルな利用モデルにおいては、リソース不足が発生する可能性があるためこの指標は 100% 未満となります。そのため、スケジューリンググッドプットのスコアを最適化できるようリソースを予約することをおすすめします。

ランタイム グッドプットは、すべてのトレーニングリソースが利用可能な場合に、トレーニングを進めることのできた時間の割合を測定したものです。ランタイムグッドプットを最大化するには、設計において入念な検討が必要となります。Google Cloud 上の大規模なトレーニングジョブにおいて、ランタイムグッドプットをどのように測定して最大化することができるかについては次のセクションで説明します。

プログラム グッドプットは、ピークハードウェアパフォーマンスのうち、トレーニングジョブが利用できる割合を測定したものです。プログラムグッドプットは「モデルの FLOP 使用率（モデルの実効 FLOP 使用率）」とも呼ばれます。つまり、システムのピークスループットのうち、モデルのトレーニングのスループットが占める割合を示します。プログラムグッドプットは、効率的なコンピューティングと通信のオーバーラップや、必要なアクセラレータ数に効率的にスケールするための入念な分散戦略などの要素に左右されます。

Google の AI ハイパーコンピュータ

AI ハイパーコンピュータには、AI のトレーニング、チューニング、アプリケーションへのサービス提供といった領域にわたり ML の生産性を高めるためのシステムレベルでの共同設計により構築された、選び抜かれた機能のセットが組み込まれています。以下の図は、ML 生産性グッドプットの各要素が AI ハイパーコンピュータで具体化されている様子を示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_qQ2cmva.max-2200x2200.jpg

上図に示したように、AI ハイパーコンピュータではフレームワーク、ランタイム、オーケストレーションのレイヤにわたりプログラムおよびランタイムグッドプットを最適化できるよう、具体的な機能が盛り込まれています。本投稿の以降のセクションでは、AI ハイパーコンピュータにおいてグッドプットの最大化につながる要素に焦点を当てて説明します。

ランタイムグッドプットについて

ランタイムグッドプットを突き詰めると、特定の時間枠において完了した、有効なトレーニングステップの数ということになります。想定されるチェックポイントの間隔、スライスを再スケジュールするまでの時間、そしてトレーニングを再開するまでの時間に基づき、以下のようにランタイムグッドプットを推定できます

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_WBgFUbd.max-2000x2000.jpg

この分析モデルでは、1）障害が発生したときの最後のチェックポイントからの経過時間（tch）、2）トレーニング再開までの時間（trm）、3）スライスの再スケジュールまでの時間（tre。これも重要な要素ではありますが、スケジューリンググッドプットのセクションで説明します）の 3 つの具体的な要素を使用してスコアが計算されます。ランタイムグッドプットを最大化するためには、これらを最小化する必要があります。

Goodput Measurement API の概要

指標を改善するには、まず測定しなければなりません。Goodput Measurement API を使用すると、Python パッケージを使用して（スケジューリンググッドプット × ランタイムグッドプット）の測定をコードに実装できます。Goodput Measurement API では、Cloud Logging にトレーニングステップの進行状況をレポートし、Cloud Logging からその進行状況を読み取ってランタイムグッドプットを測定し、モニタリングするためのメソッドが用意されています。

スケジューリンググッドプットの最大化

スケジューリンググッドプットは、トレーニングの実行に必要なすべてのリソースの可用性に左右されます。短期的な使用におけるグッドプットを最大化できるよう、トレーニングジョブのためにコンピューティングリソースを予約できる DWS カレンダーモードが導入されました。さらに、中断から再開する際のリソースのスケジュールにかかる時間 tre を最小化するために、「ホットスペア」の使用をおすすめします。リソースの予約とホットスペアにより、スケジューリンググッドプットを最大化できます。

ランタイムグッドプットの最大化

AI ハイパーコンピュータには、ランタイムグッドプットを最大化するための以下の方法が用意されています（これらを使用することをおすすめします）。

自動チェックポイントの有効化
コンテナのプリロードの使用（Google Kubernetes Engine で利用可能）
永続コンパイルキャッシュの使用

自動チェックポイント

自動チェックポイントを使用すると、トレーニングジョブが中断されようとするときに発生する SIGTERM シグナルに基づきチェックポイント作成をトリガーできます。デフラグ関連のプリエンプションやメンテナンスイベントが発生すると、最後のチェックポイント以降に進行した処理が失われますが、自動チェックポイントにより、失われる処理を少なく抑えることができます。

自動チェックポイントの実装例として Orbax や MaxText があります。MaxText は、Google Cloud におけるモデルのトレーニングおよび推論のための高パフォーマンスなリファレンス実装です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_vVJqbKW.max-2200x2200.jpg

自動チェックポイントは、GKE ベースおよび非 GKE ベースの両方のトレーニングオーケストレータで利用でき、Cloud TPU および GPU のいずれにおけるトレーニングでも利用できます。

コンテナのプリロード

最大のグッドプットスコアを実現するためには、障害やその他の中断の発生後、迅速にトレーニングを再開できることが重要です。そのために、Google Kubernetes Engine（GKE）の使用をおすすめします。GKE は、セカンダリブートディスクからのコンテナとモデルのプリロードをサポートしています。現在プレビュー版として提供されている GKE のコンテナとモデルのプリロードを使用すると、ワークロード、特にサイズの大きいコンテナイメージを非常に短時間で起動することができます。そのため、障害やその他の中断が発生しても、トレーニング復旧までの時間のロスを最小限に抑えることができます。ジョブの再開時に大きなコンテナイメージをオブジェクトストレージから pull するには長い時間がかかることがあります。そのため、この時間を短縮することが重要です。プリロードでは、ノードプール作成時や、自動プロビジョニング時に必要となるコンテナイメージを格納したセカンダリブートディスクを指定できます。障害が発生したノードが GKE により起動されるとすぐに必要なコンテナイメージを利用できるため、速やかにトレーニングを再開できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/6_MhZSO9F.max-2000x2000.jpg

コンテナのプリロードを使用した場合、Google の測定では、16 GB のコンテナのイメージ pull オペレーションにかかる時間をベースラインと比較して約 29 倍高速化できました（Container Registry からのイメージの pull）。

永続コンパイルキャッシュ

ジャストインタイムコンパイルやシステムに対応した最適化は、XLA コンパイラベースのコンピューティングスタックにおいて重要な要素です。計算グラフを一度だけコンパイルし、異なる入力データを使用して多数回実行できれば効率が高まるため、ほとんどの高パフォーマンスなトレーニングループではこの方法が使用されています。コンパイルをキャッシュすることにより、グラフの形状が同じであれば再コンパイルする必要がなくなります。しかし、障害や中断が発生した場合はこのキャッシュが失われる可能性があるため、トレーニングの再開プロセスに時間がかかり、ランタイムグッドプットが低下します。永続コンパイルキャッシュでは、コンパイルキャッシュを Cloud Storage に保存し、再起動イベントの前後を通してキャッシュを永続化できるため、この問題が解決されます。

さらに、AI ハイパーコンピュータの推奨オーケストレーションレイヤである GKE では、最近ジョブスケジューリングのスループットが 3 倍向上したため、再開までの時間（trm）の短縮につながります。

プログラムグッドプットの最大化

プログラムグッドプット（モデルの FLOP 使用率）は、トレーニングプログラムが進行する際に、基盤となるコンピューティングリソースを効率的に利用できるかどうかに左右されます。プログラムグッドプットを高めるうえで大切なのは、分散戦略、効率的なコンピューティングと通信のオーバーラップ、最適化されたメモリアクセス、効率的なパイプライン設計です。XLA コンパイラは、プログラムグッドプットを最大化できるように設計された AI ハイパーコンピュータのコアコンポーネントの一つです。すぐに使用できる最適化機能や、GSPMD などのシンプルで高パフォーマンスなスケーリング API を備えており、ユーザーはさまざまな並列処理を簡単に記述して効率的にスケーリングを利用できます。JAX および PyTorch/XLA ユーザー向けに、プログラムグッドプットを最大化するための 3 つの主な機能を最近導入しました。

XLA によるカスタムカーネル

コンパイラによるコンピューティングの最適化においては、ユーザーが基本プリミティブを使用して複雑な計算ブロックのより効率的な実装を記述できる「非常口」とも呼べるものが必要になることがよくあります。これにより、デフォルトのパフォーマンスをさらに高めることを目指します。JAX/Pallas は、Cloud TPU および GPU のためのカスタムカーネルをサポートできるよう構築されたライブラリで、JAX および PyTorch/XLA の両方をサポートしています。Pallas を使用して記述されたカスタムカーネルの例としては、Flash Attention やブロックスパースカーネルがあります。Flash Attention カーネルは、シーケンス長が長い場合にプログラムグッドプット（モデルの FLOP 使用率）改善に役立ちます（4K 以上のシーケンス長の場合に特に顕著な効果が見られます）。

ホストへのオフロード

大規模なモデルのトレーニングではアクセラレータのメモリリソースに制約があるため、活性化や再実体化などで、コンピューティングサイクルとアクセラレータのメモリリソースのトレードオフが生じることがよくあります。ホストへのオフロードも最近 XLA コンパイラに導入された手法で、ホストの DRAM を利用して、フォワードパスで計算される活性化をオフロードし、バックワードパスでの勾配計算で再利用します。これにより、活性化の再計算サイクルを省略できるので、プログラムグッドプットが向上します。

AQT を使用した int8 による混合精度トレーニング

Accurated Quantized Training は、トレーニングステップの行列乗算のサブセットを int8 にマッピングすることにより、収束に悪影響を与えることなくトレーニングの効率性とプログラムグッドプットを向上させる手法です。

以下のベンチマークは、MaxText を使用した 1,280 億個のパラメータによる高密度 LLM 実装について、上記の手法を組み合わせることでプログラムグッドプットが向上する様子を示しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/7_EIChL74.max-1200x1200.png

EMFU が MaxText 128b を使用して測定、コンテキスト長 2048、合成データでトレーニング、Cloud TPU v5e-256 を使用。測定日: 2024 年 4 月

このベンチマークでは、これら 3 つの手法を組み合わせることで、プログラムグッドプットを累計で最大 46% 高めることができました。多くの場合、反復的なプロセスを通してプログラムグッドプットの改善が進められます。具体的なトレーニングジョブにおける実際の改善効果は、トレーニングのハイパーパラメータやモデルのアーキテクチャによって異なります。

まとめ

生成モデルの大規模なトレーニングはビジネス上の価値を高めるためには欠かせませんが、規模が大きくなるにつれて ML トレーニングの生産性の確保が課題となります。この投稿では、大規模なトレーニングジョブにおける全体的な ML の生産性を測定する ML 生産性グッドプットという指標を定義しました。Goodput Measurement API について紹介し、大規模なトレーニングにおいて ML 生産性グッドプットを最大化するのに役立つ AI ハイパーコンピュータの要素について説明しました。AI ハイパーコンピュータを活用して、大規模なトレーニングにおける ML 生産性を最大化するお手伝いができれば幸いです。