ネットワーキング

AI ワークロードのネットワーキングサポート

2025年2月14日

https://storage.googleapis.com/gweb-cloudblog-publish/images/0-hero-hpc.max-2500x2500.png

Ammett Williams

Developer Relations Engineer

Join us at Google Cloud Next

April 9-11 in Las Vegas

※この投稿は米国時間 2025 年 2 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud では、インフラストラクチャに AI モデルをデプロイしやすくすることを目指しています。このブログ投稿では、クロスクラウドネットワークソリューションで AI ワークロードをサポートする方法をご紹介します。

マネージドと非マネージドの AI オプション

Google Cloud では、AI ワークロードの実行に、マネージド（Vertex AI）で実行する方法と自分で実行（DIY）する方法を提供しています。

Vertex AI: フルマネージドの ML プラットフォームです。Vertex AI では、Model Garden を通じて、Google の事前トレーニング済みモデルと、サードパーティモデルにアクセスできます。マネージドサービスである Vertex AI がインフラストラクチャの管理を行うため、ユーザーは AI モデルのトレーニング、チューニング、推論に集中することができます。
カスタム インフラストラクチャ デプロイ: ユーザーが実行するワークロードの種類に応じて、さまざまなコンピューティング、ストレージ、ネットワーキングオプションをデプロイに使用します。AI Hypercomputer は、GPU および TPU を必要としない HPC ワークロードと、TPU または GPU を実行する AI ワークロードの両方をデプロイする方法の一つです。

マネージド AI のネットワーキング

Vertex AI を使用する場合、基盤となるインフラストラクチャについて気にする必要はありません。ネットワーク接続としては、サービスへのアクセスにデフォルトで公開 API が使用されます。プライベート接続の使用を希望する企業には、選択肢としてプライベートサービスアクセス、プライベート Google アクセス、Private Service Connect エンドポイント、Google API 用の Private Service Connect があります。選択するオプションは、使用している Vertex AI サービスによって異なります。詳しくは、オンプレミスとマルチクラウドからの Vertex AI へのアクセスに関するドキュメントをご覧ください。

ネットワーキング AI インフラストラクチャのデプロイ

ある組織が、Google Cloud 上の GPU で AI クラスタをデプロイしたいと考えているとします。データは別のクラウドに配置されています。このサンプルケースについて見てみましょう。

このニーズに対応するため、プランニング、データの取り込み、トレーニング、推論に基づいてネットワーキングを分析する必要があります。

プランニング: この重要な初期フェーズでは、クラスタのサイズ（GPU 数）、必要な GPU のタイプ、デプロイに望ましいリージョンとゾーン、ストレージ、転送に予想されるネットワーク帯域幅などの要件を定義します。このプランニングにより、次のステップが決定されます。たとえば、LLaMA のような数十億のパラメータを持つ大規模言語モデルをトレーニングするには、小規模なモデルをファインチューニングするよりもはるかに大きなクラスタが必要となります。
データの取り込み: データが別のクラウドに配置されているため、データに直接アクセスする、または Google Cloud のストレージオプションにデータを転送するための高速接続が必要となります。このプロセスを容易にする方法として、Cross-Cloud Interconnect を使用すると、高帯域幅（リンクあたり 10 Gbps または 100 Gbps）で直接接続できます。データがオンプレミスに配置されている場合は、Cloud Interconnect を使用できます。
トレーニング: トレーニングワークロードには、高帯域幅、低レイテンシ、ロスレスクラスタネットワーキングが必要です。リモートダイレクトメモリアクセス（RDMA）を使用することで、システム OS をバイパスした GPU 間通信を達成できます。Google Cloud ネットワーキングは、RDMA ネットワークプロファイルを使用した特殊なネットワーク VPC の RDMA over Converged Ethernet（RoCE）プロトコルをサポートします。近接性が重要であるため、最高のパフォーマンスを実現するには、ノードとクラスタをできるだけ近くに配置する必要があります。
推論: 推論には、エンドポイントへの低レイテンシの接続が必要です。これらエンドポイントは、Network Connectivity Center（NCC）、Cloud VPN、VPC ネットワークピアリング、Private Services Connect などの接続オプションで公開されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1-neflowrdma.max-2200x2200.png

上記の例では、以下のものを使用します。

Cross-Cloud Interconnect: 高速接続の要件を満たすため、Google Cloud への接続に使用します。
RoCE を介した RDMA ネットワーキング: アクセラレータを最適化するため、およびプランニングされた要件のためにこれを使用します。
Google Kubernetes Engine（GKE）: クラスタをデプロイするコンピューティングオプションとして使用します。

その他のリソース

AI ワークロードのネットワーキングについて詳しくは、以下のリソースをご覧ください。

クロスクラウドネットワーク: クロスクラウドネットワークでエンタープライズ AI への取り組みを促進
コンピューティング: Blackwell の登場 - NVIDIA B200 搭載の新しい A4 VM のプレビュー版公開
ブログ: AI Hypercomputer を新たにアップデート

ご不明な点やご意見がございましたら、Linkedin 経由で筆者までお送りください。

-デベロッパーリレーションズエンジニア Ammett Williams

ネットワーキング

生成 AI アプリケーション向け Google Cloud ネットワーキングの機能強化のご紹介

生成 AI アプリのネットワークトラフィックは他のアプリとは異なるパターンを有しています。Google Cloud のネットワーキングスタック全体で提供されるさまざまな新機能がこれを支援します。

執筆者: Anna Berenberg • 所要時間: 16 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/24_-_Networking_vCB4Wjq.max-900x900.jpg

投稿先

Application Development

Go 1.24 における Wasm のサポートについてのお知らせ

執筆者: Cameron Balahan • 所要時間: 5 分

Containers & Kubernetes

Cilium と GKE Dataplane V2 をお使いですか？オブザーバビリティには、ぜひ Hubble をお試しください

執筆者: Ghadeer Shaaya • 所要時間: 10 分

Networking

ネットワークパフォーマンスの解読: パフォーマンスの制限要因について

執筆者: Sumit Singh • 所要時間: 5 分

Networking

ネットワークセキュリティの強化と、従来の VPC ファイアウォールルールから Cloud NGFW への移行

執筆者: David Tu • 所要時間: 12 分