コンテンツに移動
ネットワーキング

AI ワークロードのネットワーキング サポート

2025年2月14日
https://storage.googleapis.com/gweb-cloudblog-publish/images/0-hero-hpc.max-2500x2500.png
Ammett Williams

Developer Relations Engineer

Join us at Google Cloud Next

April 9-11 in Las Vegas

Register

※この投稿は米国時間 2025 年 2 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud では、インフラストラクチャに AI モデルをデプロイしやすくすることを目指しています。このブログ投稿では、クロスクラウド ネットワーク ソリューションで AI ワークロードをサポートする方法をご紹介します。

マネージドと非マネージドの AI オプション

Google Cloud では、AI ワークロードの実行に、マネージド(Vertex AI)で実行する方法と自分で実行(DIY)する方法を提供しています。

  • Vertex AI: フルマネージドの ML プラットフォームです。Vertex AI では、Model Garden を通じて、Google の事前トレーニング済みモデルと、サードパーティ モデルにアクセスできます。マネージドサービスである Vertex AI がインフラストラクチャの管理を行うため、ユーザーは AI モデルのトレーニング、チューニング、推論に集中することができます。

  • カスタム インフラストラクチャ デプロイ: ユーザーが実行するワークロードの種類に応じて、さまざまなコンピューティング、ストレージ、ネットワーキング オプションをデプロイに使用します。AI Hypercomputer は、GPU および TPU を必要としない HPC ワークロードと、TPU または GPU を実行する AI ワークロードの両方をデプロイする方法の一つです。

マネージド AI のネットワーキング

Vertex AI を使用する場合、基盤となるインフラストラクチャについて気にする必要はありません。ネットワーク接続としては、サービスへのアクセスにデフォルトで公開 API が使用されます。プライベート接続の使用を希望する企業には、選択肢としてプライベート サービス アクセス、プライベート Google アクセス、Private Service Connect エンドポイント、Google API 用の Private Service Connect があります。選択するオプションは、使用している Vertex AI サービスによって異なります。詳しくは、オンプレミスとマルチクラウドからの Vertex AI へのアクセスに関するドキュメントをご覧ください。

ネットワーキング AI インフラストラクチャのデプロイ

ある組織が、Google Cloud 上の GPU AI クラスタをデプロイしたいと考えているとします。データは別のクラウドに配置されています。このサンプルケースについて見てみましょう。

このニーズに対応するため、プランニング、データの取り込み、トレーニング、推論に基づいてネットワーキングを分析する必要があります。

  • プランニング: この重要な初期フェーズでは、クラスタのサイズ(GPU 数)、必要な GPU のタイプ、デプロイに望ましいリージョンとゾーン、ストレージ、転送に予想されるネットワーク帯域幅などの要件を定義します。このプランニングにより、次のステップが決定されます。たとえば、LLaMA のような数十億のパラメータを持つ大規模言語モデルをトレーニングするには、小規模なモデルをファインチューニングするよりもはるかに大きなクラスタが必要となります。

  • データの取り込み: データが別のクラウドに配置されているため、データに直接アクセスする、または Google Cloud のストレージ オプションにデータを転送するための高速接続が必要となります。このプロセスを容易にする方法として、Cross-Cloud Interconnect を使用すると、高帯域幅(リンクあたり 10 Gbps または 100 Gbps)で直接接続できます。データがオンプレミスに配置されている場合は、Cloud Interconnect を使用できます。

  • トレーニング: トレーニング ワークロードには、高帯域幅、低レイテンシ、ロスレス クラスタ ネットワーキングが必要です。リモート ダイレクト メモリ アクセス(RDMAを使用することで、システム OS をバイパスした GPU 間通信を達成できます。Google Cloud ネットワーキングは、RDMA ネットワーク プロファイルを使用した特殊なネットワーク VPC RDMA over Converged EthernetRoCE)プロトコルをサポートします。近接性が重要であるため、最高のパフォーマンスを実現するには、ノードとクラスタをできるだけ近くに配置する必要があります。

  • 推論: 推論には、エンドポイントへの低レイテンシの接続が必要です。これらエンドポイントは、Network Connectivity CenterNCC)、Cloud VPNVPC ネットワーク ピアリングPrivate Services Connect などの接続オプションで公開されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1-neflowrdma.max-2200x2200.png

上記の例では、以下のものを使用します。

  • Cross-Cloud Interconnect: 高速接続の要件を満たすため、Google Cloud への接続に使用します。

  • RoCE を介した RDMA ネットワーキング: アクセラレータを最適化するため、およびプランニングされた要件のためにこれを使用します。

  • Google Kubernetes EngineGKE: クラスタをデプロイするコンピューティング オプションとして使用します。

その他のリソース

AI ワークロードのネットワーキングについて詳しくは、以下のリソースをご覧ください。

ご不明な点やご意見がございましたら、Linkedin 経由で筆者までお送りください。

-デベロッパーリレーションズ エンジニア Ammett Williams
投稿先