AI ワークロードのネットワーキング サポート

Ammett Williams
Developer Relations Engineer
※この投稿は米国時間 2025 年 2 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud では、インフラストラクチャに AI モデルをデプロイしやすくすることを目指しています。このブログ投稿では、クロスクラウド ネットワーク ソリューションで AI ワークロードをサポートする方法をご紹介します。
マネージドと非マネージドの AI オプション
Google Cloud では、AI ワークロードの実行に、マネージド(Vertex AI)で実行する方法と自分で実行(DIY)する方法を提供しています。
-
Vertex AI: フルマネージドの ML プラットフォームです。Vertex AI では、Model Garden を通じて、Google の事前トレーニング済みモデルと、サードパーティ モデルにアクセスできます。マネージドサービスである Vertex AI がインフラストラクチャの管理を行うため、ユーザーは AI モデルのトレーニング、チューニング、推論に集中することができます。
-
カスタム インフラストラクチャ デプロイ: ユーザーが実行するワークロードの種類に応じて、さまざまなコンピューティング、ストレージ、ネットワーキング オプションをデプロイに使用します。AI Hypercomputer は、GPU および TPU を必要としない HPC ワークロードと、TPU または GPU を実行する AI ワークロードの両方をデプロイする方法の一つです。
マネージド AI のネットワーキング
Vertex AI を使用する場合、基盤となるインフラストラクチャについて気にする必要はありません。ネットワーク接続としては、サービスへのアクセスにデフォルトで公開 API が使用されます。プライベート接続の使用を希望する企業には、選択肢としてプライベート サービス アクセス、プライベート Google アクセス、Private Service Connect エンドポイント、Google API 用の Private Service Connect があります。選択するオプションは、使用している Vertex AI サービスによって異なります。詳しくは、オンプレミスとマルチクラウドからの Vertex AI へのアクセスに関するドキュメントをご覧ください。
ネットワーキング AI インフラストラクチャのデプロイ
ある組織が、Google Cloud 上の GPU で AI クラスタをデプロイしたいと考えているとします。データは別のクラウドに配置されています。このサンプルケースについて見てみましょう。
このニーズに対応するため、プランニング、データの取り込み、トレーニング、推論に基づいてネットワーキングを分析する必要があります。
-
プランニング: この重要な初期フェーズでは、クラスタのサイズ(GPU 数)、必要な GPU のタイプ、デプロイに望ましいリージョンとゾーン、ストレージ、転送に予想されるネットワーク帯域幅などの要件を定義します。このプランニングにより、次のステップが決定されます。たとえば、LLaMA のような数十億のパラメータを持つ大規模言語モデルをトレーニングするには、小規模なモデルをファインチューニングするよりもはるかに大きなクラスタが必要となります。
-
データの取り込み: データが別のクラウドに配置されているため、データに直接アクセスする、または Google Cloud のストレージ オプションにデータを転送するための高速接続が必要となります。このプロセスを容易にする方法として、Cross-Cloud Interconnect を使用すると、高帯域幅(リンクあたり 10 Gbps または 100 Gbps)で直接接続できます。データがオンプレミスに配置されている場合は、Cloud Interconnect を使用できます。
-
トレーニング: トレーニング ワークロードには、高帯域幅、低レイテンシ、ロスレス クラスタ ネットワーキングが必要です。リモート ダイレクト メモリ アクセス(RDMA)を使用することで、システム OS をバイパスした GPU 間通信を達成できます。Google Cloud ネットワーキングは、RDMA ネットワーク プロファイルを使用した特殊なネットワーク VPC の RDMA over Converged Ethernet(RoCE)プロトコルをサポートします。近接性が重要であるため、最高のパフォーマンスを実現するには、ノードとクラスタをできるだけ近くに配置する必要があります。
-
推論: 推論には、エンドポイントへの低レイテンシの接続が必要です。これらエンドポイントは、Network Connectivity Center(NCC)、Cloud VPN、VPC ネットワーク ピアリング、Private Services Connect などの接続オプションで公開されます。


上記の例では、以下のものを使用します。
-
Cross-Cloud Interconnect: 高速接続の要件を満たすため、Google Cloud への接続に使用します。
-
RoCE を介した RDMA ネットワーキング: アクセラレータを最適化するため、およびプランニングされた要件のためにこれを使用します。
-
Google Kubernetes Engine(GKE): クラスタをデプロイするコンピューティング オプションとして使用します。
その他のリソース
AI ワークロードのネットワーキングについて詳しくは、以下のリソースをご覧ください。
-
クロスクラウド ネットワーク: クロスクラウド ネットワークでエンタープライズ AI への取り組みを促進
-
コンピューティング: Blackwell の登場 - NVIDIA B200 搭載の新しい A4 VM のプレビュー版公開
ご不明な点やご意見がございましたら、Linkedin 経由で筆者までお送りください。