GKE AI 適合性について

このドキュメントでは、Kubernetes AI Conformance プログラムの概要、Google Kubernetes Engine(GKE)上の AI / ML ワークロードでこのプログラムが重要な理由、適合性のある GKE クラスタを設定する方法について説明します。

GKE クラスタでの AI 適合性が重要な理由

Kubernetes AI Conformance プログラムは、Kubernetes クラスタが AI ワークロードと ML ワークロードを確実かつ効率的に実行できるようにするための標準を定義します。AI / ML 向けの Kubernetes クラスタの設定は複雑になる可能性があります。多くの場合、特定のドライバのインストール、API バージョン、予期しないバグに対する回避策など、さまざまな要素を検討する必要があります。

GKE などの適合プラットフォームは、こうした根本的な複雑さを自動で処理し、設定からデプロイまでのパスを提供するように設計されています。適合する GKE バージョンを基盤として構築することで、次の基準に合わせて最適化された環境を確実に実現できます。

  • 拡張性: 需要に基づいて AI / ML ワークロードを効率的にスケールアップ / スケールダウンできます。
  • パフォーマンス: GPU や TPU などのハードウェアを最大限に活用できます。
  • ポータビリティ: 最小限の変更を加えるだけで、準拠する任意の Kubernetes クラスタで AI / ML アプリケーションを実行できます。
  • 相互運用性: AI / ML エコシステムの他のツールやフレームワークと統合できます。

AI 適合の GKE クラスタを作成する方法

AI 適合の GKE クラスタを作成するには、次の操作を行う必要があります。

  1. ai-conformance GitHub リポジトリで、適合するバージョンのリストを確認します。
  2. 1.34.0-gke.1662000 以降などの適合するバージョンで実行されている Standard モードの GKE クラスタを作成します。
  3. クラスタで Gateway API を有効にします

これで、Kubernetes AI 適合性の要件を満たすクラスタが作成されます。

GKE が Kubernetes AI 適合プラットフォームである理由

AI 適合の基盤となる要件は GKE が管理するため、ユーザーが管理する必要はありません。次の表は、AI / ML ワークロードの主な機能を示したものです。このような機能の一部はデフォルトで有効になっていますが、ギャング スケジューリング用の Kueue などの機能は、AI / ML ワークロードを強化するためにインストールできるオプションの追加機能です。

Kubernetes AI Conformance プログラムは、AI / ML エコシステムに合わせて進化するように設計されています。要件は、エコシステムの状況に基づいて、Kubernetes のマイナー バージョンがリリースされるたびに更新されます。特定のマイナー バージョンのすべての要件については、ai-conformance GitHub リポジトリdocs/AIConformance-MINOR_VERSION.yaml ファイルをご覧ください。MINOR_VERSIONv1.34 などの特定のバージョンを表します。

要件
動的リソース割り当て(DRA) 回数だけではない、より柔軟できめ細かなリソース リクエストが可能になります。詳細については、リソースの動的割り当てについてをご覧ください。
Kubernetes Gateway API 推論サービスに対して高度なトラフィック管理を提供します。これにより、重み付けに基づくトラフィック分割やヘッダーベースのルーティングなどの機能が有効になります。詳細については、GKE Gateway API についてをご覧ください。
ギャング スケジューリング 分散 AI ワークロードのオールオアナッシング スケジューリングを保証します。GKE では、少なくとも 1 つのギャング スケジューリング ソリューションをインストールし、正常に動作させることができます。例については、Kueue を使用してバッチシステムをデプロイするをご覧ください。
アクセラレータのクラスタ オートスケーラー 特定のアクセラレータ タイプを含むノードグループを、それらのアクセラレータをリクエストしている保留中のポッドに基づいてスケールアップまたはスケールダウンします。詳細については、次をご覧ください。
アクセラレータの Horizontal Pod Autoscaler(HPA) AI / ML ワークロードに関連するカスタム指標に基づいてこれらの Pod をスケーリングする機能を含め、アクセラレータを使用する Pod に対して正しく機能します。詳細については、次をご覧ください。
アクセラレータのパフォーマンス指標 標準化された機械で読み取り可能な形式の指標エンドポイントを使用して、きめ細かいパフォーマンス指標を公開します。詳細については、次をご覧ください。
標準化されたモニタリング 標準形式(Prometheus 表示形式など)で指標を公開するワークロードから指標を検出して収集できるモニタリング システムを提供します。詳細については、GKE のオブザーバビリティをご覧ください。
AI オペレーターのサポート カスタム リソース定義(CRD)を持つ複雑な AI オペレーターを少なくとも 1 つプラットフォームにインストールでき、それが確実に機能することを証明する必要があります。詳細については、Google Kubernetes Engine 上の Kubeflow と Ray による ML プラットフォームの構築をご覧ください。

次のステップ