コンテンツに移動
ネットワーキング

必要な AI パフォーマンスを実現: GKE 上の A4X Max 向けマネージド DRANET のご紹介

2025年10月31日
Rob Enns

GM/VP Engineering, Google Cloud

Shrikant Kelkar

Product Manager, Google Cloud

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 10 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

AI/ML モデルの成長に伴い、インフラストラクチャの需要が従来のネットワーキングの限界に達し、重大なパフォーマンス ボトルネックが生じています。これは、Kubernetes と Google Kubernetes Engine(GKE)で実行されるモデルに特に当てはまります。

Google は、オープンソース コミュニティと協力して、Kubernetes が特化したハードウェア機能を認識できるように取り組んでいます。たとえば、Google は、特化したハードウェア向けの汎用 API である Kubernetes の動的リソース割り当て(DRA)フレームワークの開発に積極的に取り組んでいます。DRA を基盤として、Google はネットワーキングの動的リソース割り当て(DRANET)を提案しました。これは、パフォーマンスに重点を置いた、ネットワーク インターフェースをスケジューリング可能なファーストクラスのリソースとして管理するために DRA API を拡張します。

このたび、Google は Google Kubernetes Engine(GKE)のマネージド DRANET のプレビュー版を発表いたします。まずは、新登場の A4X Max インスタンスでご利用いただけます。今回のリリースにより、Google Cloud はマネージド DRANET を本番環境にデプロイします。まずは A4X Max から開始します。マネージド DRANET は、Kubernetes 上のアクセラレータとともに高性能ネットワーク インターフェースをインテリジェントに割り当てるエンタープライズ グレードの統合ソリューションを提供し、要求の厳しい AI ワークロードのネットワーク パフォーマンスと運用上の複雑さという中核的な課題に対処します。

AI ネットワーキングの隠れたパフォーマンスのボトルネック

GKE 上の DRANET は、特に複数の GPU にわたって実行される AI ワークロード向けに設計されています。新しい A4X Max などの最新のアクセラレータ インスタンスは、複数の高スループット RDMA ネットワーク インターフェースを使用して、これらの強力な GPU にデータを供給します。しかし、従来の Kubernetes ネットワーキング インターフェースには制限があるため、これらのネットワーキング機能を最大限に活用するのが困難です。

  • トポロジの盲点: ピーク パフォーマンスにはネットワーク インターフェースの調整が必要です。レイテンシを短縮するには、GPU とそのネットワーク インターフェースを物理的に「近く」に配置する必要があります。理想的には、同じ不均一メモリアクセス(NUMA)ノード上に配置します。デフォルトの Kubernetes スケジューラは、このハードウェア トポロジを認識していません。そのため、最適なペアリングができず、パフォーマンスが大幅に低下する可能性があります。

  • 運用パフォーマンスの低下: NIC と GPU を同時にスケジュールできないと、リソースの使用率が最適化されません。スケジューラが利用可能なアクセラレータを、必要な特定のネットワーク インターフェースと効果的に一致させることができないため、クラスタ全体のパフォーマンスと効率に影響します。

DRANET を使用した GKE がパフォーマンスを向上

Google のマネージド DRANET 統合を利用すると、GKE のコントロール プレーンは次の方法でパフォーマンスを向上させます。

  1. インテリジェントなアライメントによるスループットの向上: これがパフォーマンスの向上における最大のメリットです。GKE で、割り当てられた GPU と NUMA アラインメントされたネットワーク インターフェースを割り当てられるようになり、レイテンシが短縮され、スループットが向上します。NUMA アライメントは非常に重要です。DRANET に関する調査論文で詳しく説明されているように、一連の内部テストでは、バスの帯域幅が最大 59.6%増加しました。

  2. 動的リソース仕様: DRANET を使用すると、ワークロードのネットワーキング ニーズを Pod 仕様で直接動的に表現できます。GPU リクエストと同時に、具体的なの高パフォーマンス ネットワーク インターフェースをリクエストできます。この場合 GKE は、必要な GPU と具体的なネットワーク インターフェースの両方が利用可能なノードにのみ Pod がスケジュールされるようにします。

これらは高度で複雑なプロセスですが、GKE 上のマネージド DRANET を使用すると、この複雑さを気にする必要がありません。成熟したエンタープライズ グレードのコンテナ オーケストレーション プラットフォームの柔軟性とシンプルさを備えながら、トポロジを認識するクラスタのパフォーマンスを実現します。

DRANET と新しい A4X Max: 完璧な組み合わせ

GKE 向けマネージド DRANET は、NVIDIA GB300 NVL72 ラック スケール システムをベースとする Google の新しいフラッグシップ AI プラットフォームである Google Cloud A4X Max インスタンスのリリースに合わせて登場しました。これらのインスタンスは、超大規模 AI 向けに構築されており、複数の RDMA インターフェースを備えています。

GKE 上のマネージド DRANET は、このハードウェアのパフォーマンスを最大限に引き出し、各 GPU が必要とする専用で、整合性があり、低レイテンシのネットワーク パスを確保します。A4X Max インスタンスの詳細については、リリース時のブログ全文をご覧ください。

GKE で築く AI ネットワーキングの未来

GKE 上のマネージド DRANET のリリースは、Kubernetes がトポロジに依存しないリソース管理からトポロジを認識するリソース管理に移行するマイルストーンです。これが Google Cloud の力です。強力なオープンソースのコンセプトを革新して主導し、シンプルでスケーラブルなマネージド ソリューションとして提供してきました。

DRANET の詳細とご利用開始方法:

A4X Max のリリースブログを読む

GKE で DRANET を使ってみる

オープンソース プロジェクトを確認する

詳しくは、DRANET のオープンソース ブログをご覧ください

DRANET の研究論文で詳細を確認

 

-Google Cloud、エンジニアリング担当ゼネラル マネージャー兼バイス プレジデント Rob Enns 

-Google Cloud、プロダクト マネージャー Shrikant Kelkar 

投稿先