機敏性のある AI アーキテクチャ: インテリジェントな時代の代替可能なデータセンター
Parthasarathy Ranganathan
VP, Engineering Fellow
Amin Vahdat
VP/GM, AI & Infrastructure, Google Cloud
※この投稿は米国時間 2025 年 10 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。
人間の健康、ソフトウェア エンジニアリング、教育、生産性、創造性、エンターテイメントなど、AI は私たちの生活のあらゆる側面を変革していると言っても過言ではありません。Google のこの 1 年間のいくつかの開発について考えてみましょう。Google Pixel 10 のマジックサジェストは、よりパーソナライズされたプロアクティブでコンテキストに関連性の高いサポートを提供しています。また、Nano Banana Gemini 2.5 Flash の画像生成は、クチコミで広がりました。さらに、Code Assist はデベロッパーの生産性を向上させ、AlphaFold では開発者がノーベル化学賞を受賞しました。AI におけるこの 1 年はまるで 10 年のようだったとよく冗談を言っています。
AI のこうした進歩を支えているのは、AI を強化するコンピューティング インフラストラクチャの驚くほどの同様の進歩です。AI 研究者が新しい世界を発見する宇宙探検家だとすれば、システムとインフラストラクチャの設計者はロケットを建造する人です。しかし、AI サービスの需要に対応するには、さらに多くのことが求められます。Google は今年の Google I/O において、Gemini モデルで処理される月間トークン数が年間で約 50 倍に増加し、月間 480 兆個に達したことを発表しました。その後、さらに 2 倍の成長を遂げ、月間トークン数は 1,000 兆個近くに達しました。他の統計でも同様の傾向が見られ、AI アクセラレータの消費量はこの 24 か月で 15 倍に、Hyperdisk ML のデータは一般提供の開始以来 37 倍にそれぞれ増加しています。また、AI を活用した小売検索クエリも、1 か月あたり 50 億件を超えています。
優れた AI には優れたコンピューティングが必要
このような成長には、新たな課題が伴います。データセンターとシステムを計画する際は、ハードウェアの構築に時間がかかるため、リードタイムも長くなります。しかし今、AI の需要予測は動的かつ劇的に変化しており、需要と供給に大きな乖離が生じています。この不一致については、極端な変動と成長に対応できる新しいアーキテクチャとシステム設計のアプローチが要求されます。
テクノロジーの急速なイノベーションは不可欠ですが、スタック全体で慎重に進める必要があります。たとえば、AI ハードウェア(TPU や GPU など)の世代ごとに新しい機能だけでなく、電力、ラック、ネットワーキング、冷却の要件も導入されています。これらの新世代の導入率も上昇しており、こうした大きな変化に対応できる一貫したエンドツーエンド システムを構築することが困難になっています。また、フォーム ファクタ、ボード密度、ネットワーキング トポロジ、電力アーキテクチャ、液体冷却ソリューションなどの変更はすべて、異種性を徐々に増大させます。そのため、これらを総合すると、システムとデータセンターの設計、デプロイ、保守の複雑さが組み合わさることになります。さらに、複数の地理的リージョンの全体で従来のハイパースケーラーを超えるさまざまなデータセンター施設、「ネオクラウド」でのクラウドに最適化されたサービス、業界標準のコロケーション プロバイダを設計する必要があります。これにより、多様性とダイナミズムがさらに加わり、新しい AI 時代に向けたデータセンター設計がさらに制約されることになります。
動的な成長への対応と異種性の増大という 2 つの課題に対処するには、代替性と機敏性を最優先事項としてデータセンターを設計する必要があります。アーキテクチャは、コンポーネントを個別に設計してデプロイできるモジュール式であり、異なるベンダーや世代間で相互運用可能であることが必要です。同様に重要なのは、施設とシステムを遅延結合して、動的に変化する要件に対応できるようにすることです(たとえば、ある世代向けに設計されたインフラストラクチャを次の世代に再利用するなど)。また、データセンターは合意された標準インターフェースに基づいて構築する必要があるため、データセンターへの投資を複数の顧客セグメントで再利用できます。最後に、これらの原則は、データセンターのすべてのコンポーネント(電力供給、冷却、サーバーホールの設計、コンピューティング、ストレージ、ネットワーキング)の全体に適用する必要があります。
優れたコンピューティングには優れた電力(冷却とシステム)が必要
電力における機敏性と代替性を実現するには、電力の供給と管理を標準化して、ラックの電力レベルでの共通のインターフェースなど、復元力のあるエンドツーエンドの電力エコシステムを構築する必要があります。Google は Open Compute Project(OCP)の他のメンバーとの連携の下、+/-400VDC の設計に関する新しいテクノロジーと、サイドカー電源(別名 Mt. Diablo)を使用してモノリシック ソリューションから分離型ソリューションに移行するアプローチを導入しました。低電圧 DC 電源とソリッドステート変圧器を組み合わせたような新しい有望なテクノロジーにより、これらのシステムを将来の完全統合型データセンター ソリューションに移行できるようになります。
また、バッテリー駆動のストレージやマイクログリッドに関する標準化とともに、データセンターが電力網の消費者だけでなく供給者にもなるためのソリューションを評価しています。Google はこうしたソリューションを AI トレーニング ワークロードの「とげ」に関する課題に対処するためにすでに活用しており、電力効率性と系統電力使用量に関するさらなる節約のために適用しています。
同時に、データセンターの冷却も AI 時代に向けて再考されています。今年、Google は Open Compute コミュニティに提供した最先端の液体冷却ソリューションである Project Deschutes を発表し、仕様と設計資料を公開しています。コミュニティは積極的に対応しており、Boyd、CoolerMaster、Delta、Envicool、Nidec、nVent、Vertiv などの液体冷却サプライヤーは、今年の OCP Global Summit や SuperComputing 2025 などの主要なイベントでデモを披露しています。しかし、業界標準の冷却インターフェース、リアドア熱交換器といった新しいコンポーネント、信頼性など、コラボレーションの機会は他にもあります。特に重要な分野の一つは、コロケーションとサードパーティのデータセンター全体でレイアウトと設備の範囲を標準化することです。これにより、業界としてさらに代替性を実現できます。
最後に、サーバーホールのコンピューティング、ネットワーキング、ストレージを統合する必要があります。これには、ラックの高さ、幅、奥行き(最近では重量も)、通路の幅とレイアウト、ラックやネットワーク インターフェースなど、データセンター設計の物理的属性が含まれます。また、これらの未来のデータセンターを構築、維持するためのテレメトリとメカトロニクスの標準も必要です。Google は OCP パートナーとともに、ベスト プラクティスの確立、共通の命名規則と実装の開発、標準のセキュリティ プロトコルの作成など、サードパーティ データセンターのテレメトリー統合を標準化しています。
Google は、物理インフラストラクチャだけでなく、よりスケーラブルで安全なシステムのためのオープン スタンダードを提供するためにパートナーと連携しています。主な機能は以下のとおりです。
-
レジリエンス: Google は、GPU の管理性、信頼性、保守性に関する長年の取り組みを拡大し、CPU のファームウェア アップデートとデバッグ可能性を対象に追加しました。
-
セキュリティ: オープンソースのハードウェア ルート オブ トラストである Caliptra 2.0 がポスト量子暗号で将来の脅威からの防御を提供し、OCP S.A.F.E. によってセキュリティ監査がルーティン化され、費用対効果が高まります。
-
ストレージ: Caliptra の基盤をベースに構築されている OCP L.O.C.K. が、あらゆるストレージ デバイスに対応するオープンソースの堅牢な鍵管理ソリューションを提供します。
-
ネットワーキング: 輻輳信号(CSIG)が標準化され、ロード バランシングの改善が測定されています。SONiC の継続的な進歩とともに、光回路スイッチングを標準化する新たな取り組みが進行中です。
持続可能性は Google の業務に組み込まれています。そこで、AI による環境への影響に関する分析情報を提供するために、新たな AI ワークロードのエネルギー、排出量、水への影響を測定するための新しい手法を開発しました。これにより、Gemini アプリのテキスト プロンプトの中央値では、水の消費量が 5 滴未満で、エネルギー消費量はテレビを 9 秒未満視聴する程度であることが判明しています。Google は、エンボディド カーボン排出量に関する開示仕様、グリーン コンクリート、クリーンなバックアップ電源、製造時の排出量削減を対象とする他のコラボレーションについても、OCP コミュニティの全体でこの種のデータドリブン アプローチを採用しています。
CTA: コミュニティ主導のイノベーションと AI のための AI
Google は、コミュニティのコラボレーションの複合的な力を実証してきたオープン エコシステムと長年にわたって協力してきました。AI 時代に向けて機敏で代替可能なデータセンターを設計するにあたって、その経験を活かすことができます。代替可能で機敏性のあるデータセンターの共通標準と最適化に関する新しい OCP Open Data Center for AI Strategic Initiative にぜひご参加ください。
AI の次の成長の波と、それがもたらす驚くべき進歩を見据え、生産性とイノベーションを増幅させるために、私たち自身の仕事でこうした AI の進歩を活用する必要があります。初期の例としては、チップ設計を加速させて最適化するために AI を利用している Deepmind の AlphaChip が挙げられます。システムにおける AI の有望な用途は、ハードウェア、ファームウェア、ソフトウェア、テストをまたいで、パフォーマンス、機敏性、信頼性、持続可能性を目的に、設計、デプロイ、保守、セキュリティの全体でますます増えています。こうした AI で強化された最適化とワークフローによって、データセンターに新しい桁違いの改善がもたらされます。今後のイノベーションと、その推進に向けた皆様の継続的なご協力を心待ちにしています。
-バイス プレジデント兼エンジニアリング フェロー Parthasarathy Ranganathan
-Google Cloud、AI およびインフラストラクチャ担当バイス プレジデント兼ゼネラル マネージャー Amin Vahdat