AI 時代の Google のグローバル ネットワークを支えるテクノロジーを解説
Subhasree Mandal
Distinguished Engineer
※この投稿は米国時間 2025 年 4 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。
AI 利用のかつてない拡大とそれに伴う独自の課題は、Google の次世代グローバル ネットワークに根本的なアーキテクチャの変化をもたらしています。
ネットワーク容量の需要は爆発的に増加し、大規模なモデル トレーニングと推論に特有の新しいトラフィック パターンも現れています。これに伴い、揺るぎない信頼性がいっそう強く求められるようになっています。AI で回る世界では、サービスの停止は受け入れられません。さらに、データ主権に関する考慮事項にも対処した、強固なセキュリティときめ細かい制御の必要性も極めて高くなっています。また、従来のネットワーク アーキテクチャのスケーリングには高い運用コストと複雑さが伴うことから、より革新的なアプローチとして、基本的な自動化を超えた真の自律性の実現が求められています。
こちらのブログ投稿でご紹介しましたが、Google は、(1)飛躍的なスケーラビリティ、(2)限りなく 100% に近い信頼性、(3)インテント主導型のプログラマビリティ、(4)自律型ネットワーキングという 4 つの重要なアーキテクチャ原則に基づいて次世代の Google グローバル ネットワークを構築することにより、これらの課題に正面から取り組んでいます。
このブログ投稿では、この 4 つの原則を実現する基盤テクノロジーについて詳しく見ていきます。
マルチシャード ネットワークによる飛躍的なスケーラビリティ
Google は、グローバル ネットワークの中心的なアーキテクチャ原則として、マルチシャード ネットワークによる柔軟な水平方向のスケーリングを採用しています。これは、1 つのモノリシック ネットワークではなく複数の独立したシャードを構築するものであり、次のようないくつかのメリットがあります。
-
水平方向のスケーリング: 容量を増やす必要がある場合は、シャードを大きくしてスケールアップし、シャードを追加してスケールアウトすることで、垂直方向のスケーリングの限界と複雑さを克服できます。これは、ある 1 つのネットワークをただ大きくしていくのではなく、独立したネットワークを追加していくようなイメージです。
-
独立したプレーン: 各シャード内でコントロール プレーン、データプレーン、管理プレーンが分離されているので、問題が発生した場合の影響範囲を著しく限定できます。1 つのシャードでソフトウェアのバグや運用上のミス(誤った構成が push されるなど)が発生しても他のシャードに影響が及ぶ可能性は非常に低いため、ネットワーク全体の安定性が向上します。


AI 時代においては、WAN が新たな LAN となり、大陸がデータセンターとなります。この水平方向のスケーリングのアプローチは、Google の巨大なデータセンター ファブリックの設計にヒントを得たものであり、これにより Google のグローバル ネットワークは現在の AI ワークロードによるかつてない帯域幅の需要に対応できます。2020 年から 2025 年の間に WAN トラフィックは年平均 7 倍ずつ増加し、さらに重要な点として、同じ期間にピーク トラフィックも ML トラフィックのバースト特性により桁違いに増加しましたが、このマルチシャード ネットワークはそれに対応するための中心的な力となりました。
限りなく 100% に近い信頼性: 復元力を高める設計
常時利用可能なサービスの世界で最も重要なのは、信頼性です。Google のグローバル ネットワークには、限りなく 100% に近い可用性を実現するための重要なイノベーションが複数組み込まれており、スタックのあらゆるレイヤで多様性と独立性を重視することで「運命の共有」(連鎖的な障害)を回避し、障害時の影響を最小限に抑えています。
-
マルチシャードの分離: 各ネットワーク シャードでは、データプレーン、コントロール プレーン、管理プレーンが独立しています。これらのシャードに何が入り、何がクラスタやエッジに出ていくことができるのかは Google が制御しています。そのため、クラスタで発生した問題がすべてのシャードに同時に及ぶのを防ぐことができます。シャーディングを活用したアーキテクチャでは、本質的に一定レベルの分離が提供されます。さらに、Google は、長年かけて開発したオープン API とモデル(後述)により同じネットワーク機能の下で任意のベンダー プラットフォームを運用化できることを活用し、マルチベンダー方式でネットワーク シャードをデプロイしています。このマルチベンダー アプローチにより、ネットワーク シャードはサードパーティのソフトウェアやハードウェアによってもたらされる脆弱性から保護されています。
-
リージョンの分離: このアプローチでは、リージョン コアがトラフィックをドメイン内に保持し、リージョン ゲートウェイが出入りするトラフィックに対してポリシーを適用します。これにより、リージョンで発生したイベントの影響を制限し、ネットワークの残りの部分を効果的に保護できます。


-
Protective ReRoute: Google のグローバル ネットワークには、ユーザーに影響が及ぶサービス停止の期間を短縮するための独自の転送手法が実装されており、これがルーティング修復を補完しています。これにより、ネットワークの信頼性に対する考え方が根本的に変わりました。従来のネットワーク モデルでは、ホストがパケットを送信し、ルーターがそれらを処理します。Protective ReRoute では、ホストはネットワークパス間でトラフィック フローを積極的にシフトして信頼性とパフォーマンスを向上させ、ネットワーク パスの異常をインテリジェントに検出して、トラフィックを健全な代替パスに迅速かつ自動的に再ルーティングします。この代替パスは、同じシャードの場合もあれば別のシャードの場合もあります。ホストは、ハッシュ関数の計算に使用されるパケット ヘッダー内のビットを変更して、利用可能な多数のパスの中から特定のパスを選択することにより、ラウンドトリップ時間スケール、つまり O(RTT)でトラフィックを再ルーティングします。ホストによって開始されるこの再ルーティングは、従来のルーティングやトラフィック エンジニアリングでは実現できないレベルでお客様のトラフィックを保護します。また、ネットワークの種類、ネットワークのスケール、障害の種類に依存しないため、堅牢で決定的な復元とパフォーマンスを実現します。Google のネットワークに Protective ReRoute を導入したところ、サービスの停止の累計時間が最大 93% 短縮されました。


スケーラビリティと復元力のイノベーションの概要については、こちらの動画をご覧ください。

また、こちらのデモで、マルチシャード ネットワークと Protective ReRoute の組み合わせによる効果もご確認ください。ネットワーク シャードの障害のエミュレーションにより、ホストがパスの障害を迅速に検出して別の正常なシャードの代替パスにトラフィックをルーティングし、ほぼ瞬時の復元を実現する様子を見ることができます。

インテントベースのプログラム制御によるきめ細かいネットワーク管理
お客様の進化する多様なニーズに対応するには、ネットワークのアジリティときめ細かいプログラマビリティが不可欠です。Google のグローバル ネットワークでは、規制コンプライアンス、デジタル主権の義務、固有のアプリケーション パフォーマンスのニーズなど、特定のビジネス要件に厳密に合わせて調整されたネットワーク制御を、細部のネットワーク属性にまで適用できます。このプログラマビリティは、次の要素によって実現します。
-
ソフトウェア定義ネットワーキング(SDN)コントローラ: Google のグローバル ネットワークは完全にインテント駆動型であり、あらゆる場所で SDN が使用されています。Google は、SDN コントローラを使用してネットワークの動作を階層的に管理しています。Orion は、Google の連携して動作する階層型 SDN コントロール プレーン プラットフォームであり、最上位レベルのインテントをネットワーク制御アプリケーションのレイヤに伝播します。これにより、内部状態が更新され、各ネットワーク スイッチに中間インテントが生成されます。この階層型の伝播により、ネットワーク スイッチ上のプログラムされたフロー状態が変更されます。
-
ユニバーサル ネットワーク モデル: Google のユニバーサル ネットワーク モデルであるマルチ抽象化レイヤトポロジ(MALT: Multi-Abstraction-Layer Topology)表現により、一般的なインテントとビジネス ポリシーの指定が可能になります。これらの表現を使用して、コントロール プレーンと管理プレーンはネットワーク全体にポリシーを首尾一貫して実装できます。
-
標準化された API: Google は OpenConfig ソフトウェア レイヤを使用しているため、複数のルーティング ベンダーを自由に入れ替えて利用でき、これによりネットワークの堅牢性が向上します。ベンダーの多様性があるため、特定のベンダーのソフトウェアやハードウェアにバグや問題が存在してもそれがネットワーク全体に影響を与えることはなく、ネットワークをスケールする際にも多くの選択肢から選ぶことができます。
このプログラマビリティにより、ビジネス ポリシーをネットワーク ファブリックに直接反映できるため、きめ細かい制御や、重要なアプリケーション向けの帯域幅の分離が可能になります。固有の規制要件を持つお客様は、このプログラマビリティを活用して、転送中のデータに対して必要なネットワーク パス制御を適用することもできます。
AI を支える自律型ネットワーキング
Google のような大規模かつ複雑なグローバル ネットワークでは、従来の自動化から、人間の介入を最小限に抑えた、よりインテリジェントで自律的なアプローチへの移行が必須です。これは、ネットワークの拡大に伴う運用費用の大きな増加を避け、ネットワークの計画、設計、運用の費用曲線を平坦化するために特に重要です。以下に、AI / ML を活用した現在の事例をいくつかご紹介します。今後、さらに多くのユースケースへの拡大が期待されています。
-
Gemini と Vertex AI を使ったエージェント フレームワークによるネットワーク インシデント対応: エージェント AI アプローチを使用して、障害をより迅速に特定および緩和してサービス停止時間を短縮し、より効果的な根本原因分析を実施しています。その結果、ネットワークの問題を検出するまでの平均時間と、問題を解決するまでの平均時間が短縮されています。
-
需要予測とキャパシティ プランニング: 正確な需要予測を行うために AutoML を使用し、ネットワーク キャパシティ プランニングを最適化するためにグラフ最適化を行っています。
-
強化学習によるルート最適化: 強化学習を使用することで、ネットワーク パフォーマンスなどの特定の目標に合わせてルート指標を調整しています。
自律型ネットワーキングにより、障害の緩和にかかる時間が数時間から数分になり、ネットワークの復元力とカスタマー エクスペリエンスが向上しました。自律型ネットワークの実際の例については、こちらのデモをご覧ください。

まとめ
Google の次世代グローバル ネットワークは、マルチシャーディングを通じた水平方向のスケーラビリティ、リージョン分離と Protective ReRoute を使用した各レイヤでの復元性向上、SDN によるきめ細かいプログラマビリティ、AI / ML を活用した自律型ネットワーク運用により、AI 時代を支える設計のネットワーク アーキテクチャのパラダイム シフトを体現しています。これにより、Google のグローバル ネットワークは、最新のミッション クリティカル サービスや AI / ML アプリケーションに求められるスケール、信頼性、パフォーマンス、セキュリティを実現できます。Google のソフトウェア定義のグローバル バックボーンにおけるこの変革は、AI 時代の困難な課題に対応し、この新しい環境でイノベーションを起こして成功を収めることができるようお客様を支援します。Google の次世代ネットワークは、テクノロジーと接続性の未来を推進する、目には見えないけれど欠かせない力となるよう設計されています。
ここで説明した内容はほんの一部にすぎませんが、Google のグローバル ネットワークの基盤となっている革新的なテクノロジーの力を感じていただけたなら幸いです。Google が AI 時代の挑戦しがいのある課題と機会に対処していくなかで、このグローバル ネットワークは、革新的なエクスペリエンスを世界中のユーザーとお客様に提供するための基盤となっています。Google のグローバル ネットワークは今後も進化を続けていきます。最新情報にご注目ください。
-上級エンジニア、Subhasree Mandal