コンテンツに移動
ネットワーキング

AI を活用した Google の次世代グローバル ネットワーク: Gemini 時代に向けた構築

2025年4月25日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_AI_powered.max-2500x2500.jpg
Bikash Koley

Vice President, Global Networking and Infrastructure

※この投稿は米国時間 2025 年 4 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

Google は検索クエリへの回答から YouTube 動画のストリーミング、特に要求の厳しいクラウド ワークロードの処理まで、25 年以上にわたり常にネットワーク テクノロジーの限界を押し広げ、世界中の何十億ものユーザーと企業のお客様に向け、Google と Google Cloud を支えるグローバル インフラストラクチャを構築してきました。今、Google は革新をもたらす AI の力によって新たな転換期に立っています。この新たな時代の課題と機会に対応するため、Google のネットワークは再び進化を遂げています。

ウェブ検索を実現した初期の時代から、要求の厳しい AI ワークロードを可能にし個人と企業の両方が AI を活用できるようにしている現在まで、Google のグローバル ネットワークの進化の舞台裏をご紹介します。

Google のネットワークの進化

Google のネットワークには過去 25 年間の中で重要な転換点がいくつかあり、そこを起点としてネットワークは 3 つの時代に分けられます。

インターネット時代: Google はインターネット時代に誕生しました。当時は世界中のユーザーが検索、マップ、Gmail のいずれを使っていたとしても、信頼性とレイテンシの観点で質の高いプロダクトやサービスを継続的に提供することを主に重視していました。この頃の主なイノベーションには、B2 ネットワーク、Bandwidth Enforcer(BwE)、Google 初の完全なソフトウェア定義バックボーンである B4Orion ソフトウェア定義ネットワーク(SDN)コントローラ、ペタビット規模の SDN データセンター ファブリックである Jupiter などがあります。

ストリーミング時代: YouTube などのサービスの登場により、ストリーミング動画は世界のインターネット トラフィックの大きな割合を占めるようになりました。この傾向は現在も続いています。この時代には、低ジッターで高品質の動画を世界中に配信できるように、Google Global CacheEspressoQUICTCP BBR などのテクノロジーを使って、ネットワークを改善しました。

クラウド時代: クラウド コンピューティングの登場により、復元力、マルチテナンシー、セキュリティの強化が求められる時代となり、AndromedagRPCPSPSwift などのイノベーションが生まれました。

この時代は、Google のすべてのユーザーとお客様に高品質のプロダクトやサービスを一貫して届けるために、技術を革新するのと同時に、ネットワーク フットプリントを継続的にスケールする必要がありました。現在、このネットワークは 200 万マイル超の光ファイバーにまで拡張されており、33 本の海底ケーブルへの投資も行っています。また、世界中に 202 か所のネットワーク エッジのロケーションと 3,000 か所を超えるメディア コンテンツ配信ネットワーク(CDN)ロケーションを設置しています。このネットワークは Google Cloud の 42 のリージョンと 127 のゾーンを接続しています。また、Google は世界で最もピアリングを多用しているクラウド サービス プロバイダ ネットワークでもあります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_-_GGN_Eras.max-2200x2200.jpg

AI によるかつてないネットワーク需要の高まり

Sundar が Google I/O 2024 の基調講演で述べたとおり、Google は 10 年以上にわたって AI ファーストのアプローチに基づき、スタックのあらゆるレイヤで投資を行い、イノベーションを実現してきました。研究、プロダクト、インフラストラクチャに至るまで、Google のグローバル ネットワークは、このような AI のイノベーションを後押しし、ユーザーが世界のどこにいても AI を活用できるようにしています。ユーザー数が 5 億人を超える 15 個のサービス(そのうち 20 億人のユーザーを持つサービスは 7 個)すべてに Gemini モデルを搭載しています。これらすべてのサービスで Google のグローバル ネットワークを活用しており、AI をすべての人にとって役立つものにするという最終的な目標の実現に貢献しています。Google は真摯にこの責任を果たしていきたいと考えています。

AI 時代においては、主に 4 つの観点からネットワーク アーキテクチャを根本的に見直す必要があるというこれまでにない課題があります。

  • 広域ネットワーク(WAN)が新たなローカルエリア ネットワーク(LAN)に: AI 時代には、大量の TPU をプールするため、Google は最大規模の基盤モデルを複数のキャンパスさらには複数の都市でトレーニングしています。Gemini と Google Cloud インフラストラクチャ上に基盤モデルを構築しているお客様の両方にとって、スケーラビリティのニーズはこれまでにないほど非常に高まっています。さらに、このような ML の使用には、非常にバースト性の高いエレファント フローなど、独自のトラフィック パターンがあります。このようなフローを理解したうえで管理することが、効率的なネットワーク パフォーマンスを実現するにあたり重要となります。

  • AI ではサービス停止の影響をゼロにする必要がある: AI 基盤モデルのトレーニング、ファインチューニング、推論は、貴重な GPU / TPU リソースを大量に消費するプロセスであり、長期間サービスが停止すると大きな影響を受ける可能性があります。ネットワーク障害は絶対に避ける必要があり、お客様はネットワークが常時接続されていることを期待しています。

  • セキュリティと管理のニーズの高まり: AI モデルとそのトレーニングに使用されるデータは、完全性を確保するために保護する必要があります。さらに、さまざまな地域の AI モデルと転送中のデータに対するコンプライアンス要件も変化し続けています。

  • 効果的な運用: サイト信頼性エンジニアリング(SRE)原則の策定から、運用における AI / ML のイノベーションの活用、ML を使用した障害の根本原因の特定まで、Google は常にネットワークの効果的な運用を実現する新たな方法を模索しています。同時に、線形スケーリングにはコストと複雑性の観点で課題があるため、お客様にとって効率的で持続可能なソリューションを Google が模索することが必要でもあります。

ネットワーク設計の新たな原則とイノベーション

このような課題に対応するため、Google は次世代のネットワークをゼロから再構築し、4 つの新たな設計原則を策定しました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_-_GGN_Design_Principles.max-2200x2200.jpg
  1. 飛躍的なスケーラビリティ: Google のネットワークには膨大な量のデータとトラフィックを処理できる能力とアジリティが求められています。これは特に AI トラフィックを処理する主要リージョンにおいて顕著です。スケーラビリティのニーズはかつてないほど高まっています。AI 時代においては、WAN が新たな LAN となり、大陸がデータセンターとなります。

  2. 9s を超える信頼性: 業界では従来、信頼性を「3-9s(99.9%)」や「4-9s(99.99%)」、「5-9s(99.999%)」の可用性で表してきました。しかし、「x-9s」で表される範囲内で発生するロングテール イベントがネットワークの平均的な信頼性と同様に重要となってきている今、この基準では対応できません。Google のユーザーとお客様は、確定的なパフォーマンス、インシデント時の限定的な影響範囲、事前対応型の非常に迅速な障害の軽減を求めています。そのため、Google は「9s を超えるもの」を目指して取り組んでいます。

  3. インテント主導のプログラマビリティ: 数十億人ものユーザーが Google のネットワークを使用しており、セキュリティ、コンプライアンス、復元力、パフォーマンス、効率性に関する要件はそれぞれのユーザーによって異なります。このような要件すべてに対応するには、完全にインテント主導の高度にプログラム可能なネットワークが必要です。

  4. 自律型ネットワーク: 自動化とゼロタッチは、過去 10 年ほどの間によく聞く言葉になりました。今後 10 年の需要に対応するには、できる限り人手を介さずに 24 時間 365 日大規模に稼働できる自律型ネットワークが必要です。

この 4 つの設計原則に沿って、Google は次のようにネットワークの基盤を進化させ、次世代のグローバル ネットワークを構築しました。

マルチシャード ネットワーク: 従来の垂直方向のスケーリングの限界を超えるために、マルチシャード ネットワーク アーキテクチャによる柔軟な水平方向のスケーラビリティに移行しています。それぞれのネットワーク シャードは独立しており、水平方向のスケーリングが可能です。シャード内のネットワークをスケールできるだけでなく、ネットワーク内のシャード数をスケールすることもできます。これにより、WAN 帯域幅を迅速かつ大幅に増加させて、AI インフラストラクチャの需要に対応できるようになります。実際に 2020 年から 2025 年にかけて、WAN 帯域幅は 7 倍にまで増加しています。

マルチシャードの分離、リージョンの分離、プロテクティブ再ルーティング: 各ネットワーク シャードは独自のコントロール プレーン、データプレーン、管理プレーンを有しており、他のシャードから独立して動作します。マルチシャードを分離することにより、Google 規模のグローバル バックボーンではほとんどない高レベルの復元力を実現しています。実際、通常は複数の独立したグローバル ISP 経由で達成できる復元力のレベルに匹敵しています。一方で、複数のネットワークを管理する煩雑さはありません。また、リージョンの分離により、障害の影響を最小限に抑えて、影響範囲を限定できます。プロテクティブ再ルーティングは、ユーザーが影響を受けるサービス停止期間を短縮するための転送手法です。影響をすべてまとめて、ホストが速やかにネットワーク障害を検出し、数秒以内に迂回できるようにします。ネットワークにプロテクティブ再ルーティングを導入したところ、停止の累計時間が最大 93% 削減されました。

完全にインテント主導型の細部にわたるプログラマビリティ: SDN コントローラ、標準 API、マルチ抽象化レイヤトポロジ表現(MALT)などのユニバーサル ネットワーク モデルを使用して、高度にプログラム可能なネットワークを構築しました。これにより、完全にインテント主導型のネットワーク制御が可能となり、特定の用途におけるニーズに合わせてネットワークを調整し、お客様固有のニーズに対応できるようになります。たとえば、規制コンプライアンスやデータ主権(移動中のデータの管理を含む)などにこのような制御を活用できます。

自律型ネットワーク: Google は過去 10 年間にわたり Google のネットワークを変革してきました。イベント ドリブンからマシンドリブンへと移行し、そして現在は自律型オペレーションへと移行しています。この取り組みは ML によって支えられており、Google は ML から実用的なインテリジェンスを入手しています。Google マップでの正確な到着時刻の予測にグラフ ニューラル ネットワーク(GNN)を使用した Google DeepMind の取り組みを受け、GNN を使用してネットワークのデジタルツインを作成しました。このデジタルツインにより、停止の予測と防止、障害とその根本原因の迅速な特定、ネットワーク容量計画の最適化が可能になりました。その結果、障害を軽減するまでの時間が数時間から数分に短縮され、できる限り人手を介さずにネットワークの効率性と復元力を高められています。

AI の可能性を最大限に引き出すネットワーク

Goolge Cloud のお客様にとっては、Google のグローバル ネットワークは、AI を効果的にデプロイして活用できる容量、弾力性、スケール、信頼性の高いネットワークによる 24 時間 365 日のアプリの復元力、ゼロトラストの原則に基づくセキュリティ、AI / ML の使用におけるニーズを満たすパフォーマンスを実現できるメリットがあります。さらに、AI を活用した効率化により、メンテナンス トイルを削減でき、復旧のスピードアップ、ROI の改善につながります。そして、このたび提供を開始した Cloud WAN を使用すると、Google Cloud のお客様は Google のグローバル ネットワークを使用して、グローバル企業間をつなげるようになります。エンドユーザーにとっては、グローバルなリーチの拡大、復元力の高いミッション クリティカルなアプリケーション、データを保護するゼロトラスト セキュリティ、負荷の高いリアルタイム アプリ向けのパフォーマンスが高いネットワークというメリットがあります。これらすべてが優れたユーザー エクスペリエンスの実現につながります。

Google は今、ネットワーク テクノロジーの限界を押し広げ、AI 時代のお客様に向けて、ネットワーク テクノロジーが持つ変革の力を現実のものに変えています。この時代は Google にとって非常にエキサイティングであると言えます。

詳細については、Google Cloud Next 2025 のセッションにご参加ください。セッションではより詳細な情報と、Google のネットワークがどのように Gemini 時代における Google の使命を支え、お客様の成功を推進しているかについてご紹介します。Google の次世代グローバル ネットワークを支える画期的なイノベーションに関する、今後のブログ投稿にもぜひご注目ください。

-Global Networking and Infrastructure 担当バイス プレジデント、Bikash Koley

投稿先