GKE での AI/ML モデル推論のロードバランシング戦略を選択する

Autopilot Standard

このページは、Google Kubernetes Engine（GKE）の AI/ML モデル推論ワークロードに適したロードバランシング戦略を選択するのに役立ちます。

このページは、次のような方を対象としています。

AI / ML ワークロードの提供に Kubernetes コンテナオーケストレーション機能を使用することに関心をお持ちの ML エンジニア、プラットフォーム管理者 / オペレーター、データ / AI スペシャリスト。
Kubernetes ネットワーキングを操作するクラウドアーキテクトとネットワークスペシャリスト。

Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

このページを読む前に、次のことを理解しておく必要があります。

Google Kubernetes Engine（GKE）に AI/ML モデル推論ワークロードをデプロイする場合は、適切なロードバランシング戦略を選択して、パフォーマンス、スケーラビリティ、費用対効果を最適化します。 Google Cloud には、次の個別のソリューションが用意されています。

GKE Inference Gateway: 高度な AI/ML ルーティング用に構築されたソリューション。詳細については、GKE Inference Gateway のドキュメントをご覧ください。
カスタム指標を使用する GKE Gateway: アプリケーションロードバランサを使用するソリューション。汎用制御を提供し、アプリケーションロードバランサと組み合わせることができます。

ロードバランシングソリューションを組み合わせる

一部のアーキテクチャでは、GKE Inference Gateway と、カスタム指標を使用する GKE Gateway の両方を組み合わせて使用できます。これらのアーキテクチャでは、アプリケーションロードバランサは、カスタム指標を使用する GKE Gateway とともに使用されます。たとえば、グローバル外部アプリケーションロードバランサは、地理やヘルスチェックなどの要因に基づいて、トラフィックを適切なリージョンに転送します。詳細については、アプリケーションロードバランサをご覧ください。トラフィックが特定のリージョンに到達すると、GKE Inference Gateway はきめ細かい AI 対応のロードバランシングを実行して、リクエストを最適なモデルサーバーに転送します。詳細については、GKE Inference Gateway のドキュメントをご覧ください。

GKE の推論アプリケーションに最適な Google Cloud ロードバランシングソリューションを選択するには、ワークロードの特性、パフォーマンス要件、運用モデルを考慮します。

トラフィックを最も適切で負荷の少ないモデルサーバーレプリカに転送するために、GKE Inference Gateway の Endpoint Picker 拡張機能は AI 固有の重要な指標をモニタリングします。これらの指標には、モデルサーバーの KV キャッシュ使用率、保留中のリクエストキューの長さ、GPU または TPU の全体的な読み込み、LoRA アダプタの可用性、個々のリクエストのコンピューティング費用などがあります。高度なルーティングに加えて、GKE Inference Gateway は、モデルサーバーのリクエストの優先順位付けと最適化された自動スケーリングを提供します。

カスタム指標を使用する GKE Gateway の概要

グローバル外部アプリケーションロードバランサやリージョン外部アプリケーションロードバランサなどのアプリケーションロードバランサは、バックエンドサービスが報告するカスタム指標に基づいてトラフィックを分散する汎用ロードバランサです。この機能により、アプリケーション固有のパフォーマンス指標に基づいて負荷分散をきめ細かく制御できます。

GKE Gateway は、アプリケーションロードバランサのプロビジョニングと管理を行う Kubernetes ネイティブインターフェースとして機能します。基本的に、GKE クラスタで Gateway リソースを定義すると、GKE Gateway Controller は基盤となるアプリケーションロードバランサを自動的に構成します。これにより、 Google Cloudのロードバランシングインフラストラクチャを使用しながら、Kubernetes から GKE サービスへの外部 HTTP/HTTPS トラフィックを直接、簡単に管理できます。

ロードバランシングソリューションの比較

次の表は、GKE Inference Gateway とカスタム指標を使用する GKE Gateway の機能を比較したものです。

機能	推論ゲートウェイ	カスタム指標を使用する GKE Gateway（アプリケーションロードバランサを使用）
主なユースケース	大規模言語モデル（LLM）のサービングなど、Kubernetes 上の生成 AI/ML 推論ワークロードを最適化します。単一のモデルでの複数のユースケースのサービング、モデルリソースへの公平なアクセスの確保、レイテンシの影響を受けやすい GPU/TPU ベースの LLM ワークロードの最適化に効果的です。	カスタムのアプリケーションレポート指標（ロードシグナル）に基づいて正確なトラフィック分配を必要とするワークロード向けに、汎用 HTTP(S) ロードバランシングを提供します。カスタム使用率データをレポートするリアルタイムゲームサーバーや高頻度取引プラットフォームなど、レイテンシの影響を受けやすいサービスに効果的です。
ベースルーティング	ホストとパスによる標準の HTTP(S) ルーティングをサポートし、GKE Gateway API を拡張します。	GKE Gateway API の標準リソースを使用して構成された、ホストとパスによる標準の HTTP(S) ルーティングをサポートします。
高度なルーティングロジック	モデル対応ルーティング（body ベースのモデル名など）、トラフィック分割、ミラーリングを実行し、優先度と重要度レベルを適用します。	Open Request Cost Aggregation（ORCA）標準を使用して、アプリケーションから報告されたカスタム指標に基づいてトラフィックを分散します。これにより、ローカリティ内のエンドポイントの重み付けに `WEIGHTED_ROUND_ROBIN` などのポリシーを適用できます。
サポートされている指標	GPU/TPU 使用率、KV キャッシュヒット、リクエストキューの長さなど、すぐに使用できる AI 固有の組み込みシグナルのスイートを使用します。標準化された HTTP ヘッダーメカニズムを使用して送信されるアプリケーションレポート指標を使用するように構成することもできます。	標準化された HTTP ヘッダーメカニズムを使用して、アプリケーションレポート指標を使用します（このメカニズムは ORCA 負荷レポートと呼ばれます）。この形式では、CPU やメモリなどの標準指標や、アプリケーション固有の制約付きリソースのカスタム名指標をレポートできます。
リクエスト処理	LLM で一般的な、非均一リクエストの費用を削減します。リクエストの [重要度レベル](/kubernetes-engine/docs/concepts/about-gke-inference-gateway#traffic-distribution) をサポートします。	リクエスト費用が比較的均一になるように最適化されています。リクエストの優先順位付けは組み込まれていません。
LoRa アダプタのサポート	適切な LoRa 搭載バックエンドへのネイティブなアフィニティベースのルーティングを提供します。	ネイティブサポートは提供されません。
自動スケーリングの統合	`KV キャッシュヒット` などの AI 固有の指標に基づいて、モデルサーバーのスケーリングを最適化します。	Horizontal Pod Autoscaler（HPA）はカスタム指標を使用できますが、設定はアプリケーションロードバランサ用に報告された指標に基づく汎用的なものです。
セットアップと構成	GKE Gateway API を使用して構成します。AI 対応機能を有効にするための特別な `InferencePool` と `InferenceModel` カスタムリソース定義（CRD）を使用して標準 API を拡張します。	GKE Gateway API の標準リソースを使用して構成します。アプリケーションは、カスタム指標を報告するために HTTP ヘッダーベースのメカニズムを実装する必要があります。
セキュリティ	ゲートウェイで Model Armor を使用して AI コンテンツのフィルタを提供します。TLS、IAM、ロールベースアクセス制御（RBAC）、名前空間などの基本的な GKE セキュリティ機能を活用します。	Model Armor、TLS 終端、IAM などの標準のアプリケーションロードバランサセキュリティスタックを使用します。Model Armor は、サービス拡張機能として統合することでもサポートされます。
オブザーバビリティ	GPU や TPU の使用率、`KV キャッシュヒット`、`リクエストキューの長さ`、モデルレイテンシなどの AI 固有の指標に対する組み込みのオブザーバビリティを提供します。	オブザーバビリティは、アプリケーションが報告するように構成されているカスタム指標を利用します。これらは Cloud Monitoring で確認できます。標準の指標やカスタム名の指標がこれに該当します。
拡張性	ユーザー管理の Endpoint Picker アルゴリズムをサポートする拡張可能なオープンソースの基盤上に構築されています。一般的な AI/ML ユースケースをシンプルにする専用のカスタムリソース定義（`InferencePool`、`InferenceModel`）を使用して、GKE Gateway API を拡張します。	柔軟性を重視して設計されており、アプリケーションが ORCA 標準を使用して報告できるカスタム指標（ロードシグナル）でロードバランシングを拡張できます。
リリースステージ	プレビュー	一般提供

GKE Inference Gateway を使用するタイミング

GKE Inference Gateway を使用して、GKE 上の高度な AI/ML 推論ワークロード（特に LLM）を最適化します。

次のことを行う必要がある場合は、GKE Inference Gateway を選択します。

モデル対応ルーティング: KV キャッシュヒットやリクエストキューの長さなどの LLM 固有の状態に基づいて、または特定の LoRA アダプタにトラフィックを転送します。
コストを意識したロードバランシング: 処理費用が変動する推論リクエストを効率的に処理し、重要度レベル（重大、標準、破棄可能）で優先順位を付けます。
AI 固有の自動スケーリング: 関連する AI 指標に基づいてモデルサーバーを動的にスケーリングし、リソースを最適に使用します。
組み込みの AI の安全性とオブザーバビリティ: ネイティブの Model Armor 統合を使用して AI の安全チェックを行い、GPU/TPU 使用率、KV キャッシュヒット、リクエストキューの長さに関する、すぐに使える分析情報を取得します。
GenAI のデプロイの簡素化: GKE 上の一般的な GenAI デプロイパターンを簡素化し、GKE Gateway API 基盤によるカスタマイズを提供する、専用の拡張可能なソリューションを活用できます。

カスタム指標を使用する GKE Gateway を使用するタイミング

カスタム指標を使用する GKE Gateway を使用して、アプリケーションの固有のパフォーマンス指標（一部の推論シナリオなど）に適応する柔軟な汎用ロードバランシングを実現します。

次のことを行う必要がある場合は、カスタム指標を使用する GKE Gateway を選択します。

リクエスト費用が比較的均一な大量のトラフィックを処理する。
ORCA 負荷レポートを使用して、アプリケーションから報告されたカスタム指標に基づいて負荷を分散する。
GKE Inference Gateway が提供する AI/LLM 固有のルーティングインテリジェンスを回避する。
推論サービスのニーズを満たす既存のアプリケーションロードバランサデプロイとの整合性を優先する。

次のステップ

デプロイと構成の詳細な手順について、GKE Inference Gateway についてを確認する。
アプリケーションロードバランサについて学ぶ。
GKE を活用して AI/ML イニシアチブを加速するための試験運用版のサンプルを GKE AI Labs で確認する。

GKE での AI/ML モデル推論のロード バランシング戦略を選択する

ロード バランシング ソリューションを組み合わせる