Kubernetes で AI を活用: Google Kubernetes Engine が AI イノベーションを推進

Gabe Monroy
VP & GM, Cloud Runtimes
※この投稿は米国時間 2025 年 4 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。
AI の時代はすでに到来しています。現に、世界の AI インフラストラクチャ市場は、2028 年までに 2,000 億ドルを超える規模に成長すると見込まれています。
しかし、膨大なデータや複雑なモデル、絶え間ないイテレーションを扱うのは簡単ではなく、この新しい時代に適応できるか不安を抱える方もいるでしょう。Kubernetes に投資してきたプラットフォーム エンジニアリング チームやインフラストラクチャ チームは、「本番環境のワークロードを大規模に運用するためのコンテナ オーケストレーションの専門知識を長年かけて築いてきたのに、この次世代の AI ワークロードをどのように実現すればよいのだろう」と頭を抱えているかもしれません。
ご安心ください。ゼロから始める必要はありません。Kubernetes のスキルと投資は、単に今後も役に立つだけでなく、AI を活用した頼もしい力となります。
このたびの Google Cloud Next では、プラットフォーム チームの AI を活用した成果を後押しする、Google Kubernetes Engine(GKE)の以下の重要な改善点を発表いたします。
-
Cluster Director for GKE(一般提供開始): コンピューティング、ストレージ、ネットワーキング機能を備えた高速化 VM の大規模クラスタを、単一のユニットとして動作するようにデプロイ、管理できます。
-
GKE Inference Quickstart(公開プレビュー版): インフラストラクチャの選択と AI モデルのデプロイを簡素化しつつ、ベンチマークされたパフォーマンス特性を提供します。
-
GKE Inference Gateway(公開プレビュー版): GKE 上の AI 推論向けのインテリジェント ルーティングとロード バランシングを提供します。
-
新たなコンテナ最適化コンピューティング プラットフォーム: GKE Autopilot で本日ロールアウトされます。第 3 四半期には、Autopilot のコンピューティング プラットフォームが GKE Standard クラスタで利用可能になります。
-
Gemini Cloud Assist Investigations(限定公開プレビュー版): GKE のトラブルシューティングを支援し、根本原因の把握と問題解決を迅速化します。
-
RayTurbo on GKE(年内にリリース予定): Anyscale と提携しその技術を組み込むことで、優れた GPU / TPU パフォーマンス、迅速なクラスタ起動、堅牢な自動スケーリングを実現します。
以下で詳細をご説明します。
Cluster Director for GKE で AI ワークロードをスケーリング
AI モデルのサイズが大きくなり、コンピューティングに必要なマシンが増える中、プラットフォーム チームには、複数のホストにモデルをデプロイし、GPU と TPU の巨大なクラスタを単一のユニットとして運用するための新しいアーキテクチャの提供が求められています。これらの機能がなければ、多くのお客様は、大規模なトレーニング ジョブを完了し、AI に必要なマシン間パフォーマンスを実現することに苦慮します。
このようなスケーリングの課題に対処するために、Google のスーパーコンピューティング サービスである Cluster Director for GKE(旧 Hypercompute Cluster)が一般提供となりました。Cluster Director for GKE を使用すると、コンピューティング、ストレージ、ネットワーキング機能を備えた高速化 VM の大規模クラスタを、単一のユニットとして動作するようにデプロイ、管理できます。健全性評価に基づいて障害のあるクラスタを自動的に修復することで、大規模な分散ワークロードに対して非常に高いパフォーマンスと復元力を発揮します。
Cluster Director for GKE の利点の一つは、これらすべてのオーケストレーションを、標準の Kubernetes API とエコシステム ツールを通じてできることです。新しいプラットフォームを作るのではなく、すでに使い慣れたプラットフォームに新しい機能を追加するだけで済みます。GKE ノードラベルを使用すると、次のことが可能になります。
-
ネットワーク トポロジに基づいて Pod をスケジュールすることで、効率を最大化し、ネットワーク ホップを最小限に抑えます。
-
障害のあるノードを報告して置き換えます。障害のあるノードからワークロードを適切に退避させ、同じゾーン内のスペア容量で自動的に置き換えます。
-
ホスト メンテナンスを管理して、GKE からホスト メンテナンスを手動で開始したり、ワークロードのスケジュール時にメンテナンス情報を使用したりできます。
Cluster Director for GKE の使用を開始するには、Cluster Toolkit の構成可能なブループリントまたは Accelerated Processing Kit(XPK)を使用します。XPK は、Kubernetes の知識がなくても使用できるコマンドライン ツールです。
GKE 上の推論でアプリをスマートに
AI 時代においては、従来のコンピューティングとニューラル ネットワークの相互作用、すなわち「推論」によって驚くべきイノベーションが起こるという明確な傾向が見られます。LiveX や Moloco など、Kubernetes と AI を最先端で活用している企業は、GKE で AI 推論を実行しています。
Kubernetes に AI 推論をデプロイするお客様やプラットフォーム チームが直面する主要な課題は次の 2 つです。
-
パフォーマンスと費用のバランス: オーバープロビジョニングを防ぎつつ適切なパフォーマンス目標を満たすようにアクセラレータをチューニングするには、Kubernetes、AI モデル、GPU / TPU アクセラレータ、特定の推論指標(最初のトークンまでの時間(TTFT)など)に関する幅広い知識が必要です。
-
モデルに応じたロード バランシング: AI モデルでは、回答の長さがリクエストごとに大きく異なることが多いため、回答のレイテンシも大きくばらつきます。つまり、ラウンドロビンのような従来のロード バランシング手法では、レイテンシが悪化し、アクセラレータ リソースが十分に活用されない可能性があります。
こうした課題に対処するため、GKE に新しい AI 推論機能を導入します。
-
新しい GKE Inference Quickstart(公開プレビュー版)では、AI モデルを選択すると、ベンチマークされた一連のプロファイルから最適なものを選択できます。プロファイルには、TTFT のような一連の AI パフォーマンス特性を満たすために必要な、インフラストラクチャ構成、GPU / TPU アクセラレータ構成、Kubernetes リソースが含まれます。
-
GKE Inference Gateway(公開プレビュー版)は、サービング費用を最大 30%、テール レイテンシを最大 60% 削減し、スループットを最大 40% 向上させます。これは、インテリジェント ルーティングとロード バランシングに最適化されたモデル対応型ゲートウェイです。異なるモデル バージョンへのルーティングのための高度な機能も利用できます。
複雑な問題に対する最適なソリューションは、ユーザーの現在の状況を踏まえたうえで、次に取るべき行動を示します。GKE Inference Quickstart と GKE Inference Gateway の組み合わせがまさにそれを実現します。
GKE Autopilot でワークロードを最適化
クラウド使用量の最適化と費用削減は、Google Cloud とクラウド ユーザーの両方にとって常に最優先事項であり、71% が今年の主要な取り組みとして挙げています。ウェブサーバーや API サーバー、キュー プロセッサ、CI / CD エージェント、その他の一般的なワークロードを実行している場合、アプリの応答性を高めようとして一部のリソースをオーバープロビジョニングしていることがよくあります。GKE のお客様は、使用量よりも多くのコンピューティング リソースをリクエストすることが多く、その結果、リソースの使用率が低下し、不要な費用が発生します。
2021 年に、Google はオーバープロビジョニングに対処するために GKE Autopilot をリリースしました。Autopilot は Kubernetes クラスタの運用を大幅に簡素化し、リソース効率を高めます。トヨタや Contextual AI など、重要なワークロードに Autopilot を採用するお客様が増えています。実際、2024 年に作成されたアクティブな GKE クラスタの 30% が Autopilot モードで作成されました。
このたび、GKE Autopilot のパフォーマンスに新たな改善が加えられました。より高速な Pod スケジューリング、スケーリングの反応時間の短縮、容量の適正サイズ設定などが、Google Cloud でのみ利用可能な独自のハードウェア機能によって実現されています。Autopilot を使用すると、クラスタの容量が常に適正なサイズに調整されるため、同じリソースでより多くのトラフィックを処理したり、現状のトラフィックをより少ないリソースで処理したりできます。
Autopilot は現在、おすすめのクラスタ構成と、ワークロードに合わせて容量を自動的に適正サイズに調整するコンテナ最適化コンピューティング プラットフォームで構成されています。しかし、特定のクラスタ構成を使用するのではなく、既存のクラスタで容量を適正サイズ化したいとのご要望も多くいただいています。そのため、第 3 四半期から、Autopilot のコンテナ最適化コンピューティング プラットフォームを GKE Standard クラスタでも利用できるようにする予定です。この場合、特定のクラスタ構成は必要ありません。
Gemini Cloud Assist で時間を節約
アプリケーションの問題を診断してデバッグする作業ほど、イノベーションのペースを遅らせるものはありません。Gemini Cloud Assist は、アプリケーションのライフサイクル全体を AI で支援します。さらに、このたび発表される Gemini Cloud Assist Investigations(限定公開プレビュー版)は、根本原因の把握と問題の迅速な解決に役立ちます。
最大の利点は、すべて GKE コンソールから利用できる点です。これにより、トラブルシューティングに費やす時間を減らし、イノベーションに注力できます。限定公開プレビュー版に登録すると、次の機能を利用できます。
-
GKE コンソールから Pod やクラスタの問題を診断できます。ノード、IAM、ロードバランサなどの他の Google Cloud サービスにまたがる問題も診断できます。
-
複数の GKE サービス、コントローラ、Pod、基盤となるノードにわたるログとエラーからの観測結果を確認できます。
Kubernetes は AI 向けのオープン インフラストラクチャ プラットフォーム
包括的な ML プラットフォームをお探しの組織には Vertex AI をおすすめします。これは、Google Cloud で生成 AI を構築、利用するための統合 AI 開発プラットフォームです。Vertex AI Studio と Agent Builder が利用できるほか、Model Garden の 200 以上のモデルにアクセスでき、GKE から呼び出すこともできるため、使いやすいソリューションをお探しの組織に最適です。
この 10 年間で、Kubernetes はクラウドネイティブ アプリケーションやマイクロサービスをホストするための事実上の標準としての地位を確立しました。現在、インフラストラクチャの詳細な管理を必要とする組織は、AI のトレーニングと推論のプラットフォームを構築するために、再び Kubernetes に目を向けています。実際に、IBM、Meta、NVIDIA、Spotify といった企業が、AI / ML ワークロードに Kubernetes を使用しています。
Kubernetes を AI 向けのより優れたプラットフォームにするために、Google は以下の企業(および Cloud Native Computing Foundation の他のメンバー)と協力して、オープンソースの画期的なイノベーションを創出しています。
-
Intel や NVIDIA などと共同で開発した動的リソース割り当ては、Pod やワークロードへのハードウェアの割り当てとスケジュールを簡素化および自動化します。
-
Apple や Red Hat などと共同で開発した Kueue と JobSet は、優れた AI トレーニング オーケストレーション、効率的なジョブ管理、最適なアクセラレータ使用率を実現します。
-
DaoCloud と提携して開発した LeaderWorkerSet は、Kubernetes ネイティブ API を介して、大規模なマルチホスト AI 推論モデルのデプロイと管理を可能にします。
Ray on GKE でデータ サイエンティストと AI / ML エンジニアを支援
プラットフォーム チームは、マイクロサービスや関連するクラウドネイティブ アプリケーションを構築するソフトウェア エンジニアのニーズを満たすために、これまで Kubernetes と GKE に依存してきました。AI の使用が増えるにつれ、プラットフォーム チームには、データ サイエンティストと AI / ML エンジニアという新しいユーザーベースにも対応する必要が生じています。しかし、ほとんどのデータ サイエンティストや AI / ML エンジニアは Kubernetes に精通しておらず、分散インフラストラクチャを操作するためのシンプルでわかりやすい方法を必要としています。
急激な学習の負担を抑えるために、多くの組織が注目しているのが Ray です。このオープンソースのフレームワークを使うことで、AI / ML エンジニアはノートパソコンで Python コードを開発し、その後に同じコードを Kubernetes クラスタ全体に弾力的にスケーリングできるようになります。
Google は、Kubernetes を Ray を使用するのに最適なプラットフォームにすることを目標に掲げており、Ray の作成者である Anyscale と緊密に連携して、オープンソースの Ray を Kubernetes 向けに最適化してきました。このたび、Anyscale とのパートナーシップにより、オープンソースの Ray を最適化した RayTurbo on GKE を発表します。RayTurbo はデータ処理を 4.5 倍高速化しつつ、サービングに必要なノードを 50% 削減します。RayTurbo を GKE 上で使用することで、GKE の短い起動時間、モデルの重みのための高性能ストレージ、TPU、動的ノードと優れた Pod スケーラビリティによる高いリソース効率といった利点を活用できるようになります。RayTurbo on GKE は年内にリリースされる予定です。
GKE と AI を組み合わせて、もっと便利に
AI はプラットフォーム チームに新たな課題をもたらしますが、すでに使用しているテクノロジーやプロダクト(Kubernetes や GKE)は、そうした課題に取り組むうえで必ず役に立ちます。適切な基盤があれば、プラットフォーム チームは、ソフトウェア エンジニアだけでなく、データ サイエンティストや AI / ML エンジニアにまでサポート範囲を拡大できます。
この自信は、経験に基づいています。Google では、Vertex AI を含む最先端の AI サービスを大規模に運用するために GKE を使用しており、これには本日ご紹介するテクノロジーとベスト プラクティスが活用されています。
次世代の AI ワークロードに向けて、Kubernetes を活用しましょう。GKE での皆様の成果を楽しみにしています。
-Cloud ランタイム担当バイス プレジデント兼ゼネラル マネージャー、Gabe Monroy