ネットワーキングが Google Cloud での AI ワークロードを強化する 7 つの方法

Ammett Williams
Developer Relations Engineer
※この投稿は米国時間 2025 年 11 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。
人工知能(AI)について話すとき、私たちはモデル、強力な TPU と GPU、膨大なデータセットに焦点を当てることがよくあります。しかし、その裏には、すべてを可能にする縁の下の力持ち、ネットワーキングがあります。ネットワーキングは抽象化されることが多いですが、AI ワークロードが効率的かつ安全に、大規模に機能できるようにする重要な仲介役です。
この投稿では、公開 API へのアクセスから次世代の AI 主導のネットワーク運用まで、Google Cloud 上の AI ワークロードとネットワークが連携する 7 つの重要な方法について説明します。
#1 - AI API への安全なアクセス
現在利用可能な強力な AI モデルの多く(Vertex AI の Gemini など)は、公開 API を介してアクセスされます。*-aiplatform.googleapis.com などのエンドポイントに呼び出しを行う場合、信頼できるネットワーク接続に依存することになります。これらのエンドポイントにアクセスするには、適切な認証が必要です。これにより、承認されたユーザーとアプリケーションのみがこれらの強力なモデルにアクセスできるようになり、データと AI への投資を保護できます。これらのエンドポイントにはプライベートにアクセスすることもできます。これについては、5 番目のポイントで詳しく説明します。
#2 - 推論用のモデルの公開
モデルのトレーニングまたはチューニングが完了したら、推論に利用できるようにする必要があります。Google Cloud のマネージド サービスに加えて、専用の強力な GPU を備えた VM ファミリーを使用して、お客様が管理するインフラストラクチャにモデルを柔軟にデプロイすることもできます。たとえば、モデルを Google Kubernetes Engine(GKE)にデプロイし、GKE Inference Gateway、Cloud Load Balancing、ClusterIP を使用して、プライベートまたはパブリック推論のために公開できます。これらのネットワーキング コンポーネントは、アプリケーションのエントリ ポイントとして機能し、アプリケーションがモデルのデプロイとシームレスかつ確実にやり取りできるようにします。
#3 - 高速 GPU 間通信
AI ワークロード、特にトレーニングでは、GPU 間で大量のデータを移動します。CPU コピー オペレーションに依存する従来のネットワーキングでは、ボトルネックが発生する可能性があります。そこで、リモート ダイレクト メモリ アクセス(RDMA )などのプロトコルが役立ちます。RDMA は CPU をバイパスし、GPU 間でメモリからメモリへの直接通信を可能にします。
これをサポートするには、基盤となるネットワークがロスレスで高パフォーマンスである必要があります。Google は、データセンター アーキテクチャに 非ブロッキングのレール整列型ネットワーク トポロジを構築し、RDMA 通信とノードのスケーリングをサポートしています。複数の高パフォーマンス GPU VM ファミリーが RDMA over Converged Ethernet(RoCEv2)をサポートし、要求の厳しい AI ワークロードに必要な速度と効率性を実現しています。
#4 - データの取り込みとストレージの接続
AI モデルの質は、トレーニングに使用したデータの質に必ず比例します。このデータを効率的に保存、アクセス、取得する必要があります。Google Cloud では、Google Cloud Storage、Hyperdisk ML、Managed Lustre など、さまざまなストレージ オプションが用意されています。ネットワーキングは、コンピューティング リソースをデータに接続するものです。データに直接アクセスする場合でも、ネットワーク経由でアクセスする場合でも、ストレージへの高スループットで低レイテンシの接続は、AI パイプラインをスムーズに実行するために不可欠です。
#5 - AI ワークロードへのプライベート接続
セキュリティは最重要事項であり、AI ワークロードが公共のインターネットに公開されないようにする必要があることがよくあります。Google Cloud では、マネージド Vertex AI サービスと独自の DIY AI デプロイの両方に対して、プライベート通信を実現する方法がいくつか用意されています。たとえば、次のようなものが挙げられます。
-
VPC Service Controls: データ漏洩を防ぐサービス境界を作成します。
-
Private Service Connect: VPC から Google API とマネージド サービスにプライベートにアクセスできます。PSC エンドポイントを使用して、独自のサービスまたは Google サービスに接続できます。
-
Cloud DNS: プライベート DNS ゾーンを使用して、AI サービスの内部 IP アドレスを解決できます。
#6 - ハイブリッド クラウド接続でギャップを埋める
多くの企業はハイブリッド クラウド戦略を採用しており、機密データはオンプレミスに残っています。クロスクラウド ネットワークを使用すると、多対多の接続を提供するようにネットワークを設計できます。分散アプリケーション、グローバル フロントエンド、Cloud WAN をカバーする設計ケースを使用して、オンプレミス、他のクラウド、または他の VPC から AI ワークロードに接続するアーキテクチャを安全に構築できます。このハイブリッド接続により、データを安全に保ちながら、Google Cloud の AI サービスのスケーラビリティを活用できます。
#7 - 未来: AI によるネットワーク運用
AI とネットワーキングの関係は、双方向のものになりつつあります。ネットワーク エンジニアは、Gemini for Google Cloud を使用して、自然言語でネットワーク アーキテクチャを設計、最適化、トラブルシューティングできるようになりました。これは、自律型 AI エージェントがネットワークの問題をプロアクティブに検出、診断、さらには軽減できる「エージェント ネットワーキング」と呼ばれるものに向けた第一歩です。これにより、ネットワーク エンジニアリングが事後対応型から予測型、事前対応型へと変革され、ネットワークが AI ワークロード向けに常に最適化されます。

詳細
Google Cloud のネットワーキングと AI について詳しくは、以下をご覧ください。
-
ドキュメント: AI Hypercomputer
-
Codelabs: Gemini CLI on GCE with a Private Service Connect endpoint
-
ホワイト ペーパー: Leveling up with Autonomous Network Operations.
ご質問やご意見がございましたら、Linkedin 経由で筆者までご連絡ください。
-デベロッパーリレーションズ エンジニア、Ammett Williams



