コンテンツに移動
ネットワーキング

AI 時代に向けた Google のグローバルおよびデータセンター ネットワークの進化

2026年6月2日
Bikash Koley

VP, Google Global Infrastructure

Arjun Singh

Engineering Fellow, Google Cloud

Try Gemini Enterprise Business Edition today

The front door to AI in the workplace

Try now

※この投稿は米国時間 2026 年 5 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。

Google のグローバル ネットワークを構築してきた過去 25 年間、私たちはインターネットからストリーミング、そしてクラウドへと、主要なアーキテクチャの時代を歩んできました。現在、私たちは第 4 の時代、すなわち AI 時代の真っ只中にいます。AI 時代のアプリケーションは、これまでの時代の消費者向けアプリケーションや企業向けアプリケーションとは根本的に異なり、コンピューティング リソースはもちろんのこと、ネットワークに対しても、これまでにない厳しい要件を課します。

基本的な物理的課題として、電子(電力)を移動させるのは、光子(ファイバー経由のデータ)を移動させるよりもはるかに難しいという点があります。AI コンピューティングの需要は、個々の施設のスペースや電力容量を上回ることが頻繁にあるため、Google はデータセンターをサステナブルなエネルギー源の近く、あるいは地域の電力網にクリーン エネルギー源を導入する手段が整った場所に戦略的に配置しています。こうして、ネットワークを活用して AI ワークロードをキャンパス全体に分散させることで、単一サイトの電力制限を克服する大規模なプール型ハイパーコンピューティング リソースを構築します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_R90253L.max-1900x1900.jpg

これを実現するために、Google はチップからシステム、プラットフォーム、アプリケーション、エージェント型エコシステムまで、あらゆるものを網羅するエンドツーエンドの垂直統合型 AI 技術スタックを構築しました。このスタックには、事前構築されたエージェントとアプリケーションのポートフォリオ、AI 対応アプリケーションの構築、スケーリング、ガバナンス、最適化を支援する Gemini Enterprise Agent Platform、世界クラスの AI モデル、統合データ プラットフォームが含まれています。これらすべての中核をなすのが、Google の AI Hypercomputer です。これは、専用のハードウェアとオープン ソフトウェアを組み合わせた統合インフラストラクチャであり、柔軟な使用オプションが用意されています。数十年にわたるイノベーションを通じて築き上げられた Google のネットワークは、AI Hypercomputer の不可欠なファブリックです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_bZdv9ks.max-1100x1100.jpg

このスタックを支えるネットワークは、AI ワークロードにおける帯域幅、スケール、パフォーマンスへの厳しいニーズを満たさなければなりません。これは、ネットワークをスケールアップおよびスケールアウトさせる必要があるキャンパス内だけでなく、広帯域な相互接続を含む広域ネットワーク(WAN)全体にも当てはまります。AI トレーニング データをデータソースから AI コンピューティング リソースへと転送する必要があるためです。

これらの課題に対処するため、Google はネットワーク インフラストラクチャの 3 つの主要な柱(AI Hypercomputer 内のファブリック、AI Hypercomputer 間のファブリック、グローバル ネットワーク)を再構築しました。それぞれを詳しく見ていきましょう。

1. AI Hypercomputer 内のファブリック

基盤 AI モデルのパラメータの爆発的な増加を背景に、現在の AI モデルは大規模化しており、AI トレーニングにはコンピューティングとネットワークの両面で極めて高い負荷がかかっています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_eO2Dxet.max-1900x1900.jpg

そのため、必要なネットワーク帯域幅は指数関数的に増加し、遅延(テール レイテンシなど)には厳しい制限が課せられます。これは、パフォーマンスの変動に対する敏感さや同期バースト(ミリ秒レベルで発生する激しく統制されたトラフィック スパイク)といった、AI ワークロード特有のトラフィック パターンに対応するためです。さらに、大規模なトレーニング ジョブは障害やパフォーマンスのストラグラー(停滞)に対して特有の脆弱性があるため、高い信頼性と予測可能なパフォーマンスを維持することが絶対に不可欠です。

最新の AI ワークロードに必要なスケール、低レイテンシ、高い予測可能性、そして極端なバーストからの保護に対応するため、Google は「キャンパスをコンピュータとして」という理念を採用し、ネットワークを 3 つの異なるドメインに分離しました。

  • Pod 内接続用のスケールアップ ドメイン

  • 専用の East-West スケールアウト アクセラレータ ファブリック

  • North-South のコンピューティングおよびストレージ アクセス用の Jupiter フロントエンド ネットワーク

この分離されたアーキテクチャには 3 つの戦略的利点があります。ドメインを個別に進化させてイノベーションを加速できること、大規模なトレーニング帯域幅を備えたノンブロッキングのスケールアウト ネットワークを提供できること、新しい ML アクセラレータと足並みを揃えてネットワークを共同設計し、優れたハードウェア サポートを実現できることです。

Google は最近、最新の AI 向けに特別に設計されたスケールアウト データセンター ファブリックである Virgo Network を発表しました。Virgo は、高基数スイッチとフラットな 2 レイヤのノンブロッキング トポロジを利用して膨大な二分割帯域幅を提供すると同時に、ネットワーク階層を減らすことでレイテンシを最小限に抑えています。各プレーンに独立した制御ドメインを備えたマルチプレーン設計により、ハードウェア レベルの復元力と障害分離を実現しています。さらに、Virgo は複数のデータセンターに拡張できるため、物理的な建物の制限がなくなり、AI コンピューティングの柔軟なスケーリングが可能になります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/virgo_network_architecture_figure.max-2200x2200.jpg

ネットワークとアクセラレータの共同設計の有効性は、最近発表された第 8 世代 TPU で完璧に実証されています。このアーキテクチャでは、Virgo Network は 134,000 個の TPU 8t チップをリンクして、単一のファブリックで最大 47 ペタビット/秒のノンブロッキング二分割帯域幅を実現できます。Virgo Network は、前世代比で TPU 8t アクセラレータあたり最大 4 倍の帯域幅を提供します。また、TPU 8t の無負荷時のファブリック レイテンシは、前世代の TPU ネットワークと比較して 40% 低減されています。この構成では、Virgo Network がアクセラレータの未加工のトラフィックを管理し、Jupiter がグローバル WAN とストレージへの信頼性の高い高速アクセスを提供します。PathwaysJAX を統合すると、この AI Hypercomputer ネットワーキング エンジンにより、単一の論理クラスタで最大 100 万個の TPU 8t チップまでほぼ線形にスケールできます。 

自律的な信頼性: ワークロードのグッドプットを保護する

復元力のあるメガスケールのファブリックを構築することは、課題の一部にすぎません。数十万個のチップからなるクラスタでは、ハードウェア障害は統計的に必ず発生します。インスタンスが 1 つでも停止すると、同期トレーニング ジョブ全体が停止し、貴重なコンピューティング サイクルが無駄になります。そのため、効率的な障害箇所の特定が不可欠となります。

Google は、自律的な信頼性機能を備えた Virgo Network を設計し、大規模環境におけるワークロード効率(いわゆるグッドプット)を最大化しました。既存のストラグラー検出を拡張し、Virgo Network には自動ハング検出機能も新たに搭載されました。障害停止イベントが発生した瞬間に、専門のエージェントが直ちに障害箇所を特定して故障したインスタンスを隔離し、チェックポイントからのトレーニング ジョブの復元を可能にします。これにより、手動による介入を最小限に抑えつつ、トレーニングのタイムラインを迅速に軌道に戻すことができます。詳しくは、こちらのデモをご覧ください。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_aGs9w20.max-1300x1300.jpg

これらの機能を補完するために、高解像度のサブミリ秒単位のテレメトリーも使用して、従来の 30 秒間隔のモニタリングでは通常見逃される、捉えにくいネットワーク マイクロバーストを検知します。高解像度テレメトリーの進歩により、ネットワーク運用がより効率的になり、プロビジョニングが改善され、平均復旧時間が短縮されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-1_rh3wgyf.max-1300x1300.jpg

2. AI Hypercomputer 間のファブリック

最新の AI ワークロードは指数関数的に増加しているため、WAN を介してそれらを複数のキャンパスにスケールして分散する必要があります。同時に、従来のネットワークは AI トラフィックの広帯域や極端なバースト性を想定して設計されておらず、深刻なパフォーマンス低下を招く恐れのあるマイクロバーストを検出できないことがよくあります。Google は、サイトをまたぐ AI デプロイにおける WAN のパフォーマンスを最適化するために、以下のような一連のイノベーションを開発しました。

  • 水平スケーリングを可能にするマルチシャードのグローバル ネットワーク。Google のグローバル ネットワークは、2020 年から 2025 年にかけての 10 倍という WAN トラフィックの増大に対応しました。

  • 可用性、レイテンシ、サービス品質(QoS)といった不可欠な特性に合わせた、ファブリックのチューニング。リアルタイムのマイクロバースト管理により、マルチテナント インフラストラクチャ全体で公平な帯域割り当てとインフラストラクチャの分離が確保されます。

  • 各ネットワーク シャードが独自のコントロール プレーン、データプレーン、管理プレーンで動作するマルチシャード分離構造。

リージョン分離と Protective Reroute を組み合わせることで、このアーキテクチャは障害の影響を最小限に抑え、ユーザーに影響する停止時間を短縮し、AI ワークロードに不可欠な 99.999% を超える信頼性を実現します。

高速で柔軟かつ費用対効果の高い相互接続を提供することも優先事項です。AI トレーニングは、オンプレミスやさまざまなクラウドに分散していることが多く、膨大なデータセットに依存しています。AI コンピューティングの費用は高額であるため、アイドル時間を最小限に抑えることが不可欠です。たとえば、100 Gbps のリンクから 3.2 Tbps の接続にアップグレードすると、1 ペタバイトのデータを転送する時間が 22.2 時間からわずか 0.7 時間に短縮されます。これは、データ待ちによる AI コンピューティングのアイドル時間が 97% 削減されることを意味します。Google の AI ネイティブの Cloud Interconnect は、AI ワークロードの広帯域と低レイテンシのニーズに合わせて専用設計されており、400 Gbps のリンクを備えた最適化されたデータパスが特徴です。このリンクは 3.2 Tbps 単位でスケールアウトし、ペタビット/秒の容量にまで達します。また、トラフィックの差別化に加えて、直接ファイバー ピアリングやコロケーション施設などの柔軟な接続オプションも提供しています。AI ネイティブな Cloud Interconnect は、クロスクラウドでの AI トレーニングやサービングに不可欠な、信頼性の高いプライベート接続により、ペタビット規模のデータ転送をサポートします。

3. 推論の時代を支える、復元力のあるグローバル ネットワーク

世界中のユーザーに AI 推論を提供するアプリケーションや、エージェント型の企業を支えるアプリケーションは、従来のウェブアプリよりもはるかに高い性能が要求されます。遠隔地にある高価な AI コンピューティング リソースを機動的に活用する必要性や、分散されたサービス間の依存関係、そしてトラフィックのバースト性といった要因により、グローバル フットプリントを持つ広帯域ネットワークに加え、SaaS プロバイダや ISP、ハイパースケーラーとのディープ ピアリングが求められます。応答性と「常時オン」の可用性を維持するために、アプリケーションには低レイテンシかつ高復元力のネットワークが求められます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_bogYf7C.max-1300x1300.jpg

Google のグローバル ネットワークは、接続性、スケール、復元力に優れており、AI 推論時代のニーズに応えるための最適な基盤を整えていますGoogle のネットワークは 1,000 万キロメートルを超える陸上および海底の光ファイバー網を網羅し、43 の Cloud リージョンを接続しているほか、200 以上のエッジ ロケーションを備えています。これらは、AI 推論を提供する上で欠かせない広大なフットプリントとなっています。Google のプレミアム ティア ネットワークは、一貫した高品質のグローバル ユーザー エクスペリエンスに必要な低レイテンシと信頼性を提供します。トラフィックの出入り口を最適化することで、ネットワークはアプリケーションのパフォーマンスを大幅に向上させます。この「常時オン」のインフラストラクチャは、復元力をその中核に備えています。

共に築く未来

Google Cloud のお客様は、これらのネットワーク イノベーションを環境に直接組み込むことができます。Google のネットワークは、AI ワークロードに不可欠となる大規模なスケール、キャパシティ、信頼性、そしてパフォーマンスを実現します。

AI 時代には、単なるコンピューティング能力だけでなく、スケーリングのための堅牢なネットワーク ファブリックが必要になります。シリコンからソフトウェア エコシステムまで、垂直統合された Google AI の技術スタックは、AI Hypercomputer を基盤としており、お客様の変革を加速し、AI をすべての人にとって役立つものにします。メガスケールのファブリック、推論を支える復元力の高いグローバル ネットワーク、AI ネイティブな Cloud Interconnect などにより、Google はお客様の AI 活用への道のりを、効率的かつ信頼性の高いものにします。Google は、皆様とともにこの未来を築いていきたいと考えています。

- Google グローバル インフラストラクチャ担当バイス プレジデント、Bikash Koley

- Google Cloud、エンジニアリング フェロー、Arjun Singh

投稿先