GKE AI 適合性について

Standard

このドキュメントでは、Kubernetes AI Conformance プログラムの概要、Google Kubernetes Engine（GKE）上の AI / ML ワークロードでこのプログラムが重要な理由、適合性のある GKE クラスタを設定する方法について説明します。

GKE クラスタでの AI 適合性が重要な理由

Kubernetes AI Conformance プログラムは、Kubernetes クラスタが AI ワークロードと ML ワークロードを確実かつ効率的に実行できるようにするための標準を定義します。AI / ML 向けの Kubernetes クラスタの設定は複雑になる可能性があります。多くの場合、特定のドライバのインストール、API バージョン、予期しないバグに対する回避策など、さまざまな要素を検討する必要があります。

GKE などの適合プラットフォームは、こうした根本的な複雑さを自動で処理し、設定からデプロイまでのパスを提供するように設計されています。適合する GKE バージョンを基盤として構築することで、次の基準に合わせて最適化された環境を確実に実現できます。

拡張性: 需要に基づいて AI / ML ワークロードを効率的にスケールアップ / スケールダウンできます。
パフォーマンス: GPU や TPU などのハードウェアを最大限に活用できます。
ポータビリティ: 最小限の変更を加えるだけで、準拠する任意の Kubernetes クラスタで AI / ML アプリケーションを実行できます。
相互運用性: AI / ML エコシステムの他のツールやフレームワークと統合できます。

AI 適合の GKE クラスタを作成する方法

AI 適合の GKE クラスタを作成するには、次の操作を行う必要があります。

ai-conformance GitHub リポジトリで、適合するバージョンのリストを確認します。
1.34.0-gke.1662000 以降などの適合するバージョンで実行されている Standard モードの GKE クラスタを作成します。
クラスタで Gateway API を有効にします。

これで、Kubernetes AI 適合性の要件を満たすクラスタが作成されます。

GKE が Kubernetes AI 適合プラットフォームである理由

AI 適合の基盤となる要件は GKE が管理するため、ユーザーが管理する必要はありません。次の表は、AI / ML ワークロードの主な機能を示したものです。このような機能の一部はデフォルトで有効になっていますが、ギャングスケジューリング用の Kueue などの機能は、AI / ML ワークロードを強化するためにインストールできるオプションの追加機能です。

Kubernetes AI Conformance プログラムは、AI / ML エコシステムに合わせて進化するように設計されています。要件は、エコシステムの状況に基づいて、Kubernetes のマイナーバージョンがリリースされるたびに更新されます。特定のマイナーバージョンのすべての要件については、ai-conformance GitHub リポジトリの docs/AIConformance-MINOR_VERSION.yaml ファイルをご覧ください。MINOR_VERSION は v1.34 などの特定のバージョンを表します。

要件
動的リソース割り当て（DRA）	回数だけではない、より柔軟できめ細かなリソースリクエストが可能になります。詳細については、リソースの動的割り当てについてをご覧ください。
Kubernetes Gateway API	推論サービスに対して高度なトラフィック管理を提供します。これにより、重み付けに基づくトラフィック分割やヘッダーベースのルーティングなどの機能が有効になります。詳細については、GKE Gateway API についてをご覧ください。
ギャングスケジューリング	分散 AI ワークロードのオールオアナッシングスケジューリングを保証します。GKE では、少なくとも 1 つのギャングスケジューリングソリューションをインストールし、正常に動作させることができます。例については、Kueue を使用してバッチシステムをデプロイするをご覧ください。
アクセラレータのクラスタオートスケーラー	特定のアクセラレータタイプを含むノードグループを、それらのアクセラレータをリクエストしている保留中のポッドに基づいてスケールアップまたはスケールダウンします。詳細については、次をご覧ください。 GKE クラスタの自動スケーリングについてカスタム ComputeClass について
アクセラレータの Horizontal Pod Autoscaler（HPA）	AI / ML ワークロードに関連するカスタム指標に基づいてこれらの Pod をスケーリングする機能を含め、アクセラレータを使用する Pod に対して正しく機能します。詳細については、次をご覧ください。 GPU 上の LLM ワークロードの自動スケーリングを構成する TPU 上の LLM ワークロードの自動スケーリングを構成する
アクセラレータのパフォーマンス指標	標準化された機械で読み取り可能な形式の指標エンドポイントを使用して、きめ細かいパフォーマンス指標を公開します。詳細については、次をご覧ください。 GPU ノードワークロードのパフォーマンスをモニタリングする TPU ワークロードのオブザーバビリティと指標
標準化されたモニタリング	標準形式（Prometheus 表示形式など）で指標を公開するワークロードから指標を検出して収集できるモニタリングシステムを提供します。詳細については、GKE のオブザーバビリティをご覧ください。
AI オペレーターのサポート	カスタムリソース定義（CRD）を持つ複雑な AI オペレーターを少なくとも 1 つプラットフォームにインストールでき、それが確実に機能することを証明する必要があります。詳細については、Google Kubernetes Engine 上の Kubeflow と Ray による ML プラットフォームの構築をご覧ください。

次のステップ

プログラムの詳細について、Kubernetes AI 適合性リポジトリを確認する。
GKE での AI / ML ワークロードの概要を読む。
GKE での AI モデル推論について学習し、推論の例を試す。
GKE Standard モードで GPU を使用してモデルをトレーニングする例を試す。