このページは Cloud Translation API によって翻訳されました。

GKE での AI/ML ワークロードの概要

Autopilot Standard

このページでは、AI/ML ワークロード用の Google Kubernetes Engine（GKE）の概要について説明します。GKE は、Google が管理する Kubernetes オープンソースコンテナオーケストレーションプラットフォームです。

Google Kubernetes Engine は、人工知能や ML（AI/ML）アプリケーションなど、すべてのコンテナ化されたワークロードを実行するためのスケーラブルで柔軟かつ費用対効果の高いプラットフォームを提供します。大規模な基盤モデルのトレーニング、大規模な推論リクエストのサービング、包括的な AI プラットフォームの構築など、GKE は必要な制御とパフォーマンスを提供します。

このページは、AI/ML ワークロードを実行するためのスケーラブルで自動化されたマネージド Kubernetes ソリューションをお探しのデータおよび AI スペシャリスト、クラウドアーキテクト、オペレーター、デベロッパーを対象としています。一般的なロールの詳細については、一般的な GKE ユーザーロールとタスクをご覧ください。

GKE で AI/ML ワークロードを始める

GKE の無料枠を使用すると、クラスタ管理に費用をかけずに Kubernetes を開始できるため、GKE を数分で使い始めることができます。

Google Cloud コンソールで使ってみる
次のクイックスタートを試してください。
- GKE での推論: 事前定義されたアーキテクチャを使用して、推論用に AI 大規模言語モデル（LLM）を GKE にデプロイします。
- GKE でのトレーニング: GKE に AI トレーニングモデルをデプロイし、予測を Cloud Storage に保存します。
AI/ML ワークロードのアクセラレータ消費オプションについてで、プラットフォームのアクセラレータ（GPU と TPU）の計画と取得に関するガイダンスとリソースをご確認ください。

一般的なユースケース

GKE は、すべての AI ワークロードをサポートできる統合プラットフォームを提供します。

AI プラットフォームの構築: エンタープライズプラットフォームチーム向けに、GKE はさまざまなニーズに対応する標準化されたマルチテナントプラットフォームを柔軟に構築できます。
低レイテンシのオンラインサービング: 生成 AI アプリケーションを構築するデベロッパー向けに、GKE と Inference Gateway は、費用を管理しながら応答性の高いユーザーエクスペリエンスを実現するために必要な最適化されたルーティングと自動スケーリングを提供します。

AI/ML ワークロードに適したプラットフォームを選択する

Google Cloud には、フルマネージドから完全に構成可能なものまで、ML への移行をサポートするさまざまな AI インフラストラクチャプロダクトが用意されています。適切なプラットフォームを選択するかどうかは、制御、柔軟性、管理レベルに関する特定のニーズによって異なります。

ベストプラクティス:

高度な制御、移植性、カスタマイズされた高性能 AI プラットフォームを構築する必要がある場合は、GKE を選択します。

インフラストラクチャの制御と柔軟性: インフラストラクチャを高度に制御する必要がある、カスタムパイプラインを使用する必要がある、カーネルレベルのカスタマイズが必要である。
大規模なトレーニングと推論: GKE のスケーリングと高パフォーマンスを使用して、非常に大規模なモデルをトレーニングしたり、最小限のレイテンシでモデルをサービングしたりする場合。
大規模な費用対効果: GKE と Spot VM および Flex Start VM の統合を使用して費用を効果的に管理し、費用の最適化を優先します。
ポータビリティとオープンスタンダード: ベンダーのロックインを回避し、Kubernetes を使用してワークロードをどこでも実行したい。また、既存の Kubernetes の専門知識またはマルチクラウド戦略がある。

次の方法も検討できます。

Google Cloud サービス	最適な用途
Vertex AI	開発を加速し、インフラストラクチャ管理をオフロードするフルマネージドのエンドツーエンドプラットフォーム。MLOps と価値創出までの時間の短縮に重点を置くチームに適しています。詳細については、AI モデルをホストするうえでの自己ホスト型 GKE かマネージド Vertex AI かの選択をご覧ください。
Cloud Run	ゼロまでスケーリングできるコンテナ化された推論ワークロード用のサーバーレスプラットフォーム。イベントドリブンアプリケーションや、小規模なモデルの費用対効果の高いサービングに適しています。比較の詳細については、GKE と Cloud Run をご覧ください。

Google Cloud サービス

最適な用途

Vertex AI

開発を加速し、インフラストラクチャ管理をオフロードするフルマネージドのエンドツーエンドプラットフォーム。MLOps と価値創出までの時間の短縮に重点を置くチームに適しています。詳細については、AI モデルをホストするうえでの自己ホスト型 GKE かマネージド Vertex AI かの選択をご覧ください。

Cloud Run

ゼロまでスケーリングできるコンテナ化された推論ワークロード用のサーバーレスプラットフォーム。イベントドリブンアプリケーションや、小規模なモデルの費用対効果の高いサービングに適しています。比較の詳細については、GKE と Cloud Run をご覧ください。

GKE が AI/ML ワークロードを強化する方法

GKE は、大規模なトレーニングから低レイテンシの推論まで、AI/ML ライフサイクルの各段階を簡素化して高速化する一連の特殊なコンポーネントを提供します。

次の図では、GKE は Google Cloud内にあり、さまざまなクラウドストレージオプション（Cloud Storage FUSE や Managed Lustre など）とさまざまなクラウドインフラストラクチャオプション（Cloud TPU や Cloud GPU など）を使用できます。GKE は、ディープラーニング（JAX や TensorFlow など）、ML オーケストレーション（Jupyter や Ray など）、LLM 推論（vLLM や NVIDIA Dynamo など）用のオープンソースソフトウェアやフレームワークとも連携します。 — **図 1**: AI/ML ワークロード用のスケーラブルなマネージドプラットフォームとしての GKE。

次の表に、AI/ML ワークロードまたは運用目標をサポートする GKE の機能の概要を示します。

AI/ML ワークロードまたはオペレーション	GKE がサポートする内容	主な機能
推論とサービング	AI モデルを低レイテンシ、高スループット、費用対効果に優れた方法で弾力的に提供するように最適化されています。	アクセラレータの柔軟性: GKE は、推論用に GPU と TPU の両方をサポートしています。 GKE Inference Gateway: AI 推論ワークロード専用のインテリジェントなルーティングとロードバランシングを提供するモデル対応ゲートウェイ。 GKE Inference Quickstart: 一般的な AI モデルのベンチマークされたプロファイルを提供することで、パフォーマンス分析とデプロイを簡素化するツール。 GKE Autopilot: クラスタ運用と容量のサイズ適正化を自動化し、オーバーヘッドを削減する GKE 運用モード。
トレーニングとファインチューニング	非常に大規模なモデルを効率的にトレーニングし、費用を最小限に抑えるために必要なスケーリング機能とオーケストレーション機能を提供します。	ノードの起動の高速化: GPU ワークロード専用に設計された最適化により、ノードの起動時間を最大 80% 短縮します。 Dynamic Workload Scheduler を活用した Flex Start プロビジョニングモード: 短期間のトレーニングワークロード用に希少な GPU アクセラレータと TPU アクセラレータを確保する機能が向上します。 Kueue: バッチワークロードのリソース割り当て、スケジューリング、割り当て管理、優先順位付けを管理する Kubernetes ネイティブのジョブキューイングシステム。 TPU マルチスライス: 大規模なトレーニングを実現するために、複数の TPU スライスがデータセンターネットワーク（DCN）を介して相互に通信できるようにするハードウェアとネットワーキングのアーキテクチャ。
統合された AI/ML 開発	分散 Python アプリケーションをスケーリングするためのオープンソースフレームワークである Ray のマネージドサポート。	Ray on GKE アドオン: Kubernetes インフラストラクチャを抽象化し、コードの変更を最小限に抑えながら、大規模なデータの前処理、分散トレーニング、オンラインサービングなどのワークロードをスケーリングできます。

次のステップ

GKE で AI/ML ワークロードを実行するための公式ガイド、チュートリアル、その他のリソースの豊富なコレクションについては、GKE での AI/ML のオーケストレーションポータルをご覧ください。
GKE で AI/ML ワークロード用の GPU や TPU などのコンピューティングアクセラレータを取得する手法について学習する。
GKE での AI/ML モデル推論について学習する。
Ray on GKE の詳細を確認する。
GKE を活用して AI / ML イニシアチブを加速するための試験運用版のサンプルを GKE AI Labs で確認する。

GKE での AI/ML ワークロードの概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。