マルチクラスタ GKE Inference Gateway のご紹介: 世界中で AI ワークロードをスケール
Arman Rye
Senior Product Manager
Andres Guedez
Senior Staff Software Engineer
※この投稿は米国時間 2026 年 3 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。
AI の世界は急速に変化しており、モデルのサービングを大規模かつ確実に行う必要性も高まっています。このたび、マルチクラスタ GKE Inference Gateway のプレビュー版がリリースされましたのでお知らせいたします。これにより、複数の Google Kubernetes Engine(GKE)クラスタにわたり(異なる Google Cloud リージョンにまたがる場合も含め)、AI / ML 推論ワークロードのスケーラビリティ、復元力、効率性を強化できます。
GKE Gateway API の拡張機能として構築されたマルチクラスタ Inference Gateway は、マルチクラスタ Gateway の機能を活用して、特に要求の厳しい AI アプリケーション向けに、モデル対応のインテリジェントなロード バランシングを提供します。


AI 推論にマルチクラスタを使用する理由
AI モデルの複雑性が増し、ユーザーのグローバル化が進むにつれて、単一クラスタのデプロイでは次のような課題に直面する可能性があります。
-
可用性のリスク: リージョンの停止やクラスタのメンテナンスがサービスに影響を及ぼす可能性があります。
-
スケーラビリティの上限: 単一のクラスタまたはリージョン内で、ハードウェアの上限(GPU / TPU)に達してしまいます。
-
リソースのサイロ化: あるクラスタで十分に活用されていないアクセラレータ容量を別のクラスタで使用できません。
-
レイテンシ: サービスを提供しているクラスタから離れているユーザーはレイテンシが高くなる可能性があります。
マルチクラスタ GKE Inference Gateway は、これらの課題に正面から取り組み、次のようなさまざまな機能とメリットを提供します。
-
信頼性とフォールト トレランスの強化: 異なるリージョン間を含め、複数の GKE クラスタにわたってトラフィックをインテリジェントにルーティングします。1 つのクラスタまたはリージョンで問題が発生した場合、トラフィックは自動的に再ルーティングされ、ダウンタイムが最小限に抑えられます。
-
スケーラビリティの向上とリソース使用量の最適化: さまざまなクラスタから GPU / TPU リソースをプールして活用できます。単一クラスタの容量を超えてバーストすることで需要の急増に対応し、利用可能なアクセラレータをフリート全体で効率的に活用できます。
-
グローバルに最適化されたモデル対応のルーティング: Inference Gateway は、高度なシグナルを使用してスマートなルーティング判断を下すことができます。
GCPBackendPolicyを使用して、リアルタイムのカスタム指標(モデルサーバーの KV キャッシュ使用率指標など)に基づいてロード バランシングを構成できるので、最適なバックエンド インスタンスにリクエストが送信されるようになります。処理中リクエストの制限など、他のモードもサポートされています。 -
運用の簡素化: モデルを複数の「ターゲット クラスタ」で実行しながら、専用の GKE「構成クラスタ」で 1 つの Inference Gateway 構成を使用して、グローバルに分散された AI サービスへのトラフィックを管理できます。
仕組み
GKE Inference Gateway には、InferencePool と InferenceObjective という 2 つの基本リソースがあります。InferencePool は、同じコンピューティング ハードウェア(GPU や TPU など)とモデル構成を共有する Pod のリソース グループとして機能し、スケーラブルで高可用性のサービングを実現します。InferenceObjective は、特定のモデル名を定義し、サービングの優先順位を割り当てます。これにより、Inference Gateway はトラフィックをインテリジェントにルーティングし、レイテンシの影響を受けやすいタスクと緊急性の低いワークロードを多重化できます。


このリリースでは、Kubernetes カスタム リソースを使用して、分散推論サービスが管理されます。各「ターゲット クラスタ」の InferencePool リソースは、モデルサーバーのバックエンドをグループ化します。これらのバックエンドはエクスポートされ、「構成クラスタ」で GCPInferencePoolImport リソースとして表示されます。構成クラスタ内の標準の Gateway リソースと HTTPRoute リソースは、エントリ ポイントとルーティング ルールを定義し、トラフィックをこれらのインポートされたプールに転送します。CUSTOM_METRICS や IN_FLIGHT リクエストの使用など、きめ細かいロード バランシングの動作は、GCPInferencePoolImport にアタッチされた GCPBackendPolicy リソースを使用して構成されます。
このアーキテクチャにより、グローバルな低レイテンシのサービング、障害復旧、容量のバースト、異種ハードウェアの効率的な使用などのユースケースが可能になります。
GKE Inference Gateway のコアコンセプトについて詳しくは、ガイドをご覧ください。
使ってみる
AI 推論サービング ワークロードをより多くの場所とより多くのユーザーにスケールする際に、マルチクラスタ GKE Inference Gateway をぜひお試しください。詳細と利用方法については、次のドキュメントをご覧ください。
- シニア プロダクト マネージャー、Arman Rye
- シニアスタッフ ソフトウェア エンジニア、Andres Guedez


