コンテンツに移動
システム

電力のバランス: ML インフラストラクチャの電力量と温度の変動に対処するためのフルスタック アプローチ

2025年2月20日
Houle Gan

Technical Lead Manager

Parthasarathy Ranganathan

VP, Engineering Fellow

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 2 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

最近の ML アプリケーションの急増に伴い、これらのアプリケーションの基盤となるデータセンター インフラストラクチャにおいて、かつてない電力供給の需要が生じています。従来のデータセンターのサーバー クラスタでは、何万ものワークロードが相関関係のない電力プロファイルで共存しているのに対し、大規模なバッチ同期 ML トレーニング ワークロードの電力使用パターンは大幅に異なります。これらの新しい電力使用条件により、ML インフラストラクチャの信頼性と可用性を確保しつつ、データセンターのグッドプットやエネルギー効率を向上することがますます難しくなっています。

Google は、数十年にわたってデータセンター インフラストラクチャ設計の最前線に立ち、多数のイノベーションを達成してきました。このブログ投稿では、Google Could ML インフラストラクチャにおいて、かつてない電力量および温度の変動を管理することを可能にした主要なイノベーションの一つをご紹介します。このイノベーションは、ASIC チップからデータセンターまで、ハードウェアとソフトウェアの両方で、スタック全体にわたる設計を連携させることでどれほどのことが成し遂げられるかを実証します。このアプローチの影響についても言及し、業界全体に対して行動を喚起します。

新しい ML ワークロードにより生じる ML の新たな電力問題

昨今の ML ワークロードには、数万のアクセラレータ チップとそのホスト、ストレージ、ネットワーキング システム全体での同期コンピューティングが求められています。これらのワークロードは、しばしば 1 つのデータセンター クラスタ全体を占有し、複数のクラスタにまたがることもあります。これらのワークロードのピーク電力使用量は、基盤となるすべての IT 機器の定格電力に近づくこともあり、電力のオーバースクリプションが非常に困難になります。さらに、少数の大規模 ML ワークロードがクラスタ全体の電力使用量の大部分を占めるため、アイドル状態とピーク使用レベルの間で消費電力が急激に変動します。このような電力使用量の変動は、ワークロードが開始または終了したとき、あるいは停止、再開、再スケジュールされたときに見られます。通常のワークロード実行中にも同様のパターンが観察されることがあります。これは主に、同じトレーニング ステップにおいて、コンピューティング負荷の高いフェーズとネットワーキング負荷の高いフェーズがワークロードで交互に発生することに起因しています。ワークロードの特性によっては、これらのジョブ間やジョブ内の電力量変動が非常に頻繁に発生することがあります。これにより、データセンター インフラストラクチャの機能性、パフォーマンス、信頼性に予期せぬ影響をもたらすことがあります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_f9EbAew.max-1200x1200.png

図 1. 大規模な同期 ML ワークロードにおいて、クラスタレベルで見られる電力量の大きな変動

実際、Google Cloud での最新のバッチ同期 ML ワークロードを専用の ML クラスタで実行したところ、図 1 に示すように、電力量に数十メガワット(MW)の変動が観察されました。従来の負荷変動プロファイルと比較すると、変化速度はほぼ瞬時であり、数秒ごとに繰り返され、数週間あるいは数か月継続する可能性があります。

このような変動は、以下のようなリスクをもたらします。

  • ラックとデータセンター機器の機能性と長期的な信頼性へのリスク。これは、ハードウェアに起因する停止、エネルギー効率の低下、整流器、変圧器、発電機、ケーブル、バスウェイなどの運用 / メンテナンス費用の増加を引き起こします。

  • アップストリームの電力会社における破損、停止、スロットリングのリスク。これには、電力使用プロファイルに関する電力会社との契約条項に対する違反と、それに伴う費用も含まれます。

  • 電力量の大きな変動による意図しない頻繁な無停電電源装置(UPS)システムの作動に対するリスク。これにより、UPS システムの寿命が短縮されます。

電力量の大きな変動は、チップやシステムごとの小さな規模でもハードウェアの信頼性に影響を与えることもあります。最大温度は問題なく制御されますが、電力量の変動は依然として大きな温度変動を頻繁に引き起こし、反り、サーマル インターフェース マテリアルの特性変化、エレクトロマイグレーションなどのさまざまな相互作用が発生する可能性があります。

事前の電力形成に対するフルスタック アプローチ

Google Cloud のデータセンター インフラストラクチャは非常に複雑かつ大規模であるため、ワークロードの電力プロファイルを事前に形成することが、単に電力プロファイルに適応するよりも効率的であると考えました。Google のスタック全体にわたる包括的な連携設計(チップからデータセンター、ハードウェアからソフトウェア、命令セットから実際のワークロードまで)は、ワークロードの電力プロファイルを制御し、弊害をもたらす変動を緩和するために、非常に効率的なエンドツーエンドの電力管理機能を実装するために必要なすべての要素を提供します。

具体的には、TPU コンパイラに計測手法を導入し、同期フラグなど、電力量の変動に関連するワークロードの兆候を確認します。その後、フラグに合わせて TPU の主要なコンピューティング ブロックのアクティビティを動的に分散させ、使用量の変動をよりなだらかにします。これにより、パフォーマンスのオーバーヘッドを最小限に抑え、電力量と温度の変動を緩和することを目指します。今後は、同様のアプローチをワークロードの開始フェーズと終了フェーズにも適用し、電力レベルが急激に変化するのではなく、徐々に変化するようにすることを検討しています。

このコンパイラ ベースのアプローチを実装して電力プロファイルを形成し、現実的なワークロードに適用しました。緩和策を実装した場合としない場合のシステム全体の消費電力を図 2 に、特定のチップのホットスポット温度を測定した結果を図 3 に示します。テストケースでは、ベースライン ケースと緩和策を実装したケースを比較すると、電力量の変動がほぼ 50% 減少しました。温度の変動は、ベースライン ケースの 20°C から、緩和策を実施したケースでは 10°C に減少しました。平均消費電力とトレーニング ステップの長さの増加による緩和策のコストを計測しました。緩和パラメータを適切に調整することで、パフォーマンスへの影響を 1% 未満に抑え、平均電力量のわずかな増加でこの設計のメリットを享受できることが確認できました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_x9eRU4h.max-1200x1200.png

図 2. コンパイラ ベースの緩和策を実装した場合と実装しない場合の電力量の変動

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_lWze6j1.max-1200x1200.jpg

図 3. コンパイラ ベースの緩和策を実装した場合と実装しない場合のチップの温度変動

行動喚起

ML インフラストラクチャは急速に増大しており、総電力需要において、今後数年間で従来のサーバー インフラストラクチャを超えると予想されています。それと同時に、ML インフラストラクチャの電力量と温度の変動は独特であり、ML ワークロードの特性と密接な関係があります。これらの変動を緩和する取り組みは、信頼性の高い高パフォーマンスのインフラストラクチャを確保するための、数多くのイノベーションの一例にすぎません。Google Cloud は、上記の方法に加え、データセンターの水冷、垂直電力供給、電力を考慮したワークロード割り当てなどのさまざまな革新的手法に投資することで、増え続ける電力と温度の課題に対処しています。

ただし、これらの課題は Google に固有のものではありません。ML インフラストラクチャの電力量と温度の変動は、多くのハイパースケーラーやクラウド プロバイダ、インフラストラクチャ プロバイダにとって共通の課題となっています。システムのあらゆるレベルでパートナーが必要です。

電力供給会社が、許容される電力品質の指標に関する標準的な定義を設定する(特に、同じ送電網内に電力量の変動が大きい複数のデータセンターが共存し、相互に影響しあう状況にある場合)

電力装置および冷却装置のサプライヤーが、特に電力量と温度の変動が大きく頻繁に起こる使用状況を想定した電子部品の品質と信頼性の向上を実現する

ハードウェア サプライヤーとデータセンター設計者が、ラックレベルのキャパシタ バンク(RLCB)やオンチップ機能などの標準化されたソリューション スイートを提供し、効率的なサプライヤー基盤とエコシステムの確立を支援する

ML モデル デベロッパーが、モデルのエネルギー消費特性を考慮し、エネルギーの変動に対処するために低レベルのソフトウェア緩和策を追加することを検討する

Google は、データセンター インフラストラクチャ業界全体が恩恵を得られるよう、Open Compute ProjectOCP)などのフォーラムを通じて、これらの問題に関する業界全体での協力を推進し、提唱してきました。今後も知見を共有し、新しい革新的なソリューションを協力して開発することを楽しみにしています。


今回協力してくれた Google Cloud Denis VnukovVictor CaiJianqiao LiuIbrahim AhmedVenkata ChivukulaJianing FanGaurav GandhiVivek SharmaKeith KleinerMudasir AhmadBinz RoyKrishnanjan Gubba RavikumarAshish UpretiChee Chung に感謝します。

-テクニカル リード マネージャー、Houle Gan
-
VP / エンジニアリング フェロー、Parthasarathy Ranganathan
投稿先