Google AI によるエネルギーの使用量を算出

Amin Vahdat
VP/GM, AI & Infrastructure, Google Cloud
Jeff Dean
Chief Scientist, Google DeepMind and Google Research
※この投稿は米国時間 2025 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
AI は科学の躍進、医療と教育の向上を可能にし、世界経済に数兆ドル規模の価値をもたらす可能性があります。AI のフットプリントを理解することは重要ですが、トレーニングされた AI モデルを使用して予測を行ったり、テキストや画像を生成したりする AI 推論のエネルギーと環境への影響に関する詳細なデータは限られたものになっています。AI システムのユーザーが増えるにつれて、推論効率の重要性が高まります。
そこで Google は、Gemini プロンプトのエネルギー、排出量、水への影響を測定するための包括的な手法について詳述した技術論文をリリースすることにしました。この手法を使用すると、Gemini アプリのテキスト プロンプトの中央値として、エネルギーの使用量は 0.24 ワット時(Wh)、二酸化炭素換算の排出量は 0.03 グラム(gCO2e)、水の消費量は 0.26 ミリリットル(約 5 滴)と推定されます1。これらの数値は、多くの公表推定値よりも大幅に低くなっています。プロンプトごとのエネルギー消費量は、9 秒未満のテレビ視聴と同程度です。
それと同時に、研究のイノベーションとソフトウェアおよびハードウェアの効率改善を通じて、Google の AI システムはより効率的になっています。たとえば最近の 12 か月間で、Gemini アプリのテキスト プロンプトでのエネルギーと温室効果ガスの総排出量の中央値はそれぞれ 33 倍と 44 倍下がっている一方で、回答の品質は上がっています。こうした結果は、Google の最新のデータセンターでのエネルギー排出量の削減と、カーボンフリー エネルギーと水資源保護を推進する取り組みによってもたらされています。これまでの効率化の背後にあるイノベーションを誇りに思うとともに、今後も大幅な改善を続けていくことをお約束します。進行中の取り組みについて、詳しくご紹介します。

Google における AI 環境フットプリントの算出
詳細な測定では、さまざまな AI モデルのほか、それらが実行されるハードウェアとエネルギーを比較できるだけでなく、ハードウェアやデータセンターからモデル自体まで、システム全体の効率を最適化できます。Google は、この手法を共有することで、AI のリソース消費と効率の算出における業界全体の整合性を高めたいと考えています。
AI サービング ワークロードのフットプリントを測定するのは簡単ではありません。Google の規模で AI 提供の現実を考慮した包括的なアプローチを開発しました。これには以下が含まれます。
-
システム全体の動的電力: これには、アクティブなコンピューティングでプライマリ AI モデルで使用されるエネルギーと水だけでなく、本番環境規模で実際に達成されたチップ使用率も含まれます。これは、理論上の最大値よりもはるかに低くなる可能性があります。
-
アイドル状態のマシン: 高い可用性と信頼性を確保するには、アイドル状態ではあるものの、トラフィックの急増やフェイルオーバーにいつでも対応できるプロビジョニングされた容量が本番環境システムに必要です。こうしたアイドル状態のチップが消費するエネルギーは、総エネルギー フットプリントに含める必要があります。
-
CPU と RAM: AI モデルは、TPU や GPU などの ML アクセラレータのみで実行されるわけではありません。ホスト CPU と RAM も AI の提供に重要な役割を果たし、エネルギーを使用します。
-
データセンターのオーバーヘッド: AI のワークロードを実行する IT 機器によって消費されるエネルギーは、全体の一部にすぎません。これらのコンピューティングをサポートするインフラストラクチャ(冷却システム、電力配分、その他のデータセンターのオーバーヘッド)もエネルギーを消費します。オーバーヘッドのエネルギー効率は、電力使用効率(PUE)と呼ばれる指標で測定されます。
-
データセンターでの水の消費: 多くの場合、データセンターではエネルギー消費量と関連する排出量を削減するために、冷却に水が使用されます。AI システムを最適化してエネルギー効率を高めることで、全体的な水の使用量も減少します。
現在、AI によるエネルギー消費量の算出の多くは、アクティブなマシンの消費量のみが対象となっており、上記の重要な要素の一部が見落とされています。そのため、大規模な実際の運用効率ではなく、理論上の効率が示されています。こうした、アクティブな TPU と GPU の消費量のみが考慮される包括的でない手法を適用すると、Gemini のテキスト プロンプトの中央値として、エネルギー使用量は 0.10 Wh、温室効果ガスの排出量は 0.02 gCO2e、水の消費量は 0.12 mL と推定されます。これは楽観的なシナリオであり、AI の実際の運用フットプリントが大幅に過小評価されてしまいます。
Google の包括的な手法による推定値(0.24 Wh のエネルギー使用、0.03 の gCO2e、0.26 mL の水の消費)は、AI をグローバルに提供するうえで重要な要素がすべて考慮されています。Google では、これが AI の全体的なフットプリントを最も包括的に把握できる方法だと考えています。
AI と AI の効率性に対する Google のフルスタック アプローチ
Gemini では、カスタム ハードウェアや高効率モデルから、これらのモデルを実現する堅牢なサービング システムまで、AI 開発に向けた Google のフルスタック アプローチが理由で、効率が大幅に向上しています。Google では、以下などの AI のあらゆるレイヤを効率化しています。
-
より効率的なモデル アーキテクチャ: Gemini モデルは、Google の研究者が開発したTransformer モデル アーキテクチャを基盤に構築されています。このアーキテクチャは、言語モデリングの以前の最先端アーキテクチャと比較して、効率が 10~100 倍向上しています。Mixture-of-Experts(MoE)やハイブリッド推論など、本質的に効率的な構造を持つモデルが設計されています。たとえば、MoE モデルでは、クエリへの応答に特に必要な大規模モデルの小さなサブセットを有効にできるため、コンピューティングとデータ転送を 10~100 倍削減できます。
-
効率的なアルゴリズムと量子化: Google は、Accurate Quantized Training(AQT)などの手法を使用して、モデルを強化するアルゴリズムを継続的に改良し、回答の品質を損なうことなく、効率を最大化してサービングのエネルギー消費量を削減しています。
-
推論とサービングの最適化: Google は応答性と効率性を高めるために、AI モデルの配信を常に改善しています。投機的デコーディングなどのテクノロジーを利用すると、より少ないチップでより多くの回答を提供できます。これは、より小さなモデルが予測を行い、それをより大きなモデルが迅速に検証できるようにすることで実現され、大きなモデルが単独で多くの連続した予測を行うよりも効率的です。蒸留などの手法では、より大きくて高性能なモデルを教師として使用する、より小さくて効率的なモデル(Gemini Flash および Flash-Lite)が作成されます。ML ハードウェアとモデルが高速化されたことで、レイテンシの目標を達成しながら、より効率的で大きなバッチサイズをリクエストの処理時に使用できるようになっています。
-
カスタムビルドのハードウェア: Google は、ワットあたりのパフォーマンスを最大化するために、10 年以上にわたって TPU をゼロから設計してきました。また、AI モデルと TPU を協調設計することで、ソフトウェアがハードウェアを最大限に活用し、ハードウェアが将来の AI ソフトウェアを効率的に実行できるようにしています。最新世代の TPU である Ironwood は、Google が最初に一般公開した TPU よりも 30 倍エネルギー効率が高く、推論用の汎用 CPU よりもはるかに電力効率に優れています。
-
最適化されたアイドル状態: Google のサービング スタックは CPU を非常に効率的に使用し、「設定して放置」のアプローチではなく、需要に基づいてモデルをほぼリアルタイムで動的に移動することで、TPU のアイドル状態を最小限に抑えています。
-
ML ソフトウェア スタック: Google の XLA ML コンパイラ、Pallas カーネル、Pathways システムにより、Google の TPU サービング ハードウェア上で JAX などの高レベル システムで表現されたモデル計算を効率的に実行できます。
-
超効率的なデータセンター: Google のデータセンターは業界でも非常に効率的であり、フリート全体の平均 PUE は 1.09 です。
-
責任あるデータセンターの運用: Google は、24 時間 365 日カーボンフリーの目標を追求し、クリーン エネルギーの発電量を増やし続けています。また、オフィスとデータセンター全体で平均で消費する淡水の 120% を還元するという目標も推進しています。また、科学的根拠に基づいた流域の健全性評価を実施して、冷却方式の選択を導き、高いストレスにさらされている場所での水の利用を制限することで、エネルギー、水、排出量の間の地域的なトレードオフのバランスを取りながら、冷却システムを最適化しています。
効率的な AI に向けた Google の取り組み
Gemini の効率化は長年に及ぶ取り組みの成果ですが、これはほんの序章にすぎません。AI に対する需要が高まっていることを認識し、プロンプトごとに必要な電力の費用と水の削減に対して重点的に投資しています。調査結果と手法を共有することで、業界全体でより効率的な AI に向けた進展を促進することを目指しています。これは、責任ある AI 開発に不可欠です。
1. 2025 年 5 月のデータに基づき、Gemini アプリの中央値となるテキスト生成プロンプトごとに消費されるエネルギーを定量化した時点分析。プロンプトあたりの排出量はプロンプトあたりのエネルギーに基づいて推定され、2024 年の Google のフリート全体の平均的なグリッド二酸化炭素排出原単位が適用されています。また、プロンプトあたりの水の消費量はプロンプトあたりのエネルギーに基づいて推定され、2024 年の Google のフリート全体の平均的な水の利用効率が適用されています。これらの調査結果は、Gemini アプリのすべてのテキスト生成プロンプトによる環境への具体的な影響や、将来のパフォーマンスを示すものではありません。2. 2025 年 5 月の上記の分析結果と、2024 年 5 月の Gemini アプリのテキスト生成プロンプトの中央値のベースライン データとの比較。プロンプトの中央値ごとのエネルギー消費量は、新しいモデルの追加、AI モデル アーキテクチャの進化、AI chatbot ユーザーの行動の変化によって変わる可能性があります。データおよび主張は、独立した第三者によって検証されていません。
-Amin Vahdat、Google Cloud、AI およびインフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー
-Jeff Dean、Google DeepMind / Google Research、チーフ サイエンティスト