GKE での AI / ML オーケストレーションに関するドキュメント

Google Kubernetes Engine(GKE)のプラットフォーム オーケストレーション機能を使用して、最適化された AI / ML ワークロードを実行します。Google Kubernetes Engine(GKE)を使用すると、マネージド型の Kubernetes と次の機能のメリットをすべて活用し、プロダクション レディかつ堅牢な AI / ML プラットフォームを実装できます。

  • 大規模なワークロードのトレーニングとサービングのために GPU と TPU をサポートするインフラストラクチャ オーケストレーション
  • 分散コンピューティングとデータ処理フレームワークの柔軟な統合
  • リソースを最大限に活用するため、同じインフラストラクチャで複数のチームをサポートする
このページでは、GKE の AI / ML 機能の概要と、GPU、TPU、Hugging Face TGI、vLLM、JetStream などのフレームワークを使用して GKE で最適化された AI / ML ワークロードを実行する方法について説明します。
  • Gemini 2.0 Flash Thinking をご利用いただけます。
  • AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
  • 自動請求は行われず、契約も不要です。
無料のプロダクト オファーをご覧ください。

常に無料で利用可能な 20 以上のプロダクトを確認する

AI API、VM、データ ウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。

ドキュメント リソース

クイックスタートやガイド、主なリファレンス、一般的な問題のヘルプをご覧いただけます。
Google Cloud Skills Boost のセルフペース トレーニング、ユースケース、リファレンス アーキテクチャ、コードサンプル、 Google Cloud サービスの使用方法と接続方法の例をご覧ください。
トレーニング
トレーニングとチュートリアル

Hugging Face の Optimum TPU サービング フレームワークを使い、GKE の Tensor Processing Unit(TPU)を使用して LLM をデプロイする方法について説明します。

チュートリアル AI / ML 推論 TPU

トレーニング
トレーニングとチュートリアル

フルマネージド Parallelstore インスタンスを基盤とするストレージを作成し、Volume としてそのストレージにアクセスする方法について説明します。CSI ドライバは、サイズの小さいファイルとランダム読み取りを伴う AI / ML トレーニング ワークロード用に最適化されています。

チュートリアル AI / ML データの読み込み

トレーニング
トレーニングとチュートリアル

Hyperdisk ML を使用して GKE で AI / ML モデルの重みを簡単に読み込み、高速化する方法について説明します。

チュートリアル AI / ML データの読み込み

トレーニング
トレーニングとチュートリアル

PyTorch を介して JetStream で GKE の Tensor Processing Unit(TPU)を使用して LLM をサービングする方法について説明します。

チュートリアル AI / ML 推論 TPU

トレーニング
トレーニングとチュートリアル

vLLM と Text Generation Inference(TGI)サービング フレームワークを使用して、GKE の GPU で LLM 推論パフォーマンスを最適化する方法について説明します。

チュートリアル AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

NVIDIA GPU Operator を使用するタイミングと、GKE で NVIDIA GPU Operator を有効にする方法について説明します。

チュートリアル GPU

トレーニング
トレーニングとチュートリアル

GKE HorizontalPodAutoscaler(HPA)を使用して、単一ホストの JetStream によって Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法について説明します。

チュートリアル TPU

トレーニング
トレーニングとチュートリアル

Hugging Face Transformers ライブラリを使用して、GKE の GPU で Gemma LLM をファインチューニングする方法について説明します。

チュートリアル AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

TPU、Ray Serve、Ray Operator アドオンを使用して、GKE に Stable Diffusion モデルをデプロイして提供する方法について説明します。

チュートリアル AI / ML 推論 Ray TPU

トレーニング
トレーニングとチュートリアル

GKE HorizontalPodAutoscaler(HPA)を使用して、Hugging Face Text Generation Interface(TGI)サービング フレームワークで Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法を説明します。

チュートリアル GPU

トレーニング
トレーニングとチュートリアル

A3 Mega でコンテナベースの Megatron-LM PyTorch ワークロードを実行する方法について説明します。

チュートリアル AI / ML トレーニング GPU

トレーニング
トレーニングとチュートリアル

GKE Autopilot ワークロードでハードウェア アクセラレータ(GPU)をリクエストする方法について説明します。

チュートリアル GPU

トレーニング
トレーニングとチュートリアル

GKE で複数の NVIDIA L4 GPU を使用して Llama 2 70B または Falcon 40B を提供する方法について説明します。

チュートリアル AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

Ray クラスタでワークロードを実行して、Ray on GKE を簡単に使用する方法について説明します。

チュートリアル Ray

トレーニング
トレーニングとチュートリアル

GKE で Ray フレームワークを使用して Falcon 7b、Llama2 7b、Falcon 40b、Llama2 70b を提供する方法について説明します。

チュートリアル AI / ML 推論 Ray GPU

トレーニング
トレーニングとチュートリアル

JobSet と Kueue を使用して、GKE 上の複数の TPU スライスで Jax ワークロードをオーケストレートする方法について説明します。

チュートリアル TPU

トレーニング
トレーニングとチュートリアル

NVIDIA Data Center GPU Manager(DCGM)を使用して GKE 上の GPU ワークロードをモニタリングする方法について説明します。

チュートリアル AI / ML オブザーバビリティ GPU

トレーニング
トレーニングとチュートリアル

このクイックスタートでは、GKE で GPU を使用するトレーニング モデルをデプロイし、予測を Cloud Storage に保存する方法について説明します。

チュートリアル AI / ML トレーニング GPU

トレーニング
トレーニングとチュートリアル

この動画では、大規模な AI モデルのトレーニングに関する一般的な課題を GKE で解決する方法と、GKE で大規模な ML モデルをトレーニングして提供するためのベスト プラクティスについて説明します。

動画 AI / ML トレーニング AI / ML 推論

トレーニング
トレーニングとチュートリアル

このブログ投稿では、Tensorflow 対応の Jupiter ノートブックを作成、実行、破棄するための手順ガイドを紹介します。

ブログ AI / ML トレーニング AI / ML 推論 GPU

トレーニング
トレーニングとチュートリアル

このチュートリアルでは Kueue を使用して、Job キューイング システムを実装し、GKE 上の異なる Namespace 間でワークロード リソースと割り当て共有を構成する方法を説明します。

チュートリアル AI / ML バッチ

トレーニング
トレーニングとチュートリアル

このチュートリアルでは、検索拡張生成に基づく大規模言語モデル アプリケーションと、Cloud Storage バケットにアップロードされた PDF ファイルを統合する方法について説明します。

チュートリアル AI / ML データの読み込み

トレーニング
トレーニングとチュートリアル

このチュートリアルでは、データの保存と処理に BigQuery、リクエスト処理に Cloud Run、データの分析と予測に Gemma LLM を活用して、GKE で大規模なデータセットを分析する方法について説明します。

チュートリアル AI / ML データの読み込み

ユースケース
ユースケース

GKE と Ray を活用して、ML 用に大規模なデータセットを効率的に前処理する方法について説明します。

MLOps トレーニング Ray

ユースケース
ユースケース

Google Kubernetes Engine で ML アプリケーションのデータ読み込み時間を短縮する方法について説明します。

推論 Hyperdisk ML Cloud Storage FUSE

ユースケース
ユースケース

GKE の HorizontalPodAutoscaler をファインチューニングして効率を最大化し、GPU 推論の費用を最適化する方法について説明します。

推論 GPU HPA

ユースケース
ユースケース

最先端の NVIDIA NIM マイクロサービスを GKE に簡単にデプロイし、AI ワークロードを高速化する方法について説明します。

AI NVIDIA NIM

ユースケース
ユースケース

GKE の Ray 演算子を使用して AI/ML 本番環境のデプロイを簡素化し、パフォーマンスと拡張性を向上させる方法について説明します。

AI TPU Ray

ユースケース
ユースケース

インフラストラクチャの決定やモデルサーバーの最適化など、GKE 上の GPU で大規模言語モデル(LLM)の提供スループットを最大化する方法について説明します。

LLM GPU NVIDIA

ユースケース
ユースケース

Vertex AI Agent Builder、Vertex AI Search、GKE を使用して Google Cloud で検索エンジンを作成する方法。

検索 エージェント Vertex AI

ユースケース
ユースケース

LiveX AI が GKE を使用して、顧客満足度を高め、費用を削減する AI エージェントを構築する方法。

GenAI NVIDIA GPU

ユースケース
ユースケース

GKE、Cloud SQL、Ray、Hugging Face、LangChain を使用して、検索拡張生成(RAG)対応の生成 AI アプリケーションを実行するためのリファレンス アーキテクチャ。

GenAI RAG Ray

ユースケース
ユースケース

IPRally が GKE と Ray を使用して、スケーラブルで効率的な ML プラットフォームを構築し、特許検索の高速化と精度の向上を実現した方法を紹介します。

AI Ray GPU

ユースケース
ユースケース

Cloud GPU と Cloud TPU 上で Gemma を活用し、推論と GKE でのトレーニングの効率を高めます。

AI Gemma パフォーマンス

ユースケース
ユースケース

最高水準の Gemma オープンモデルを使用して、移植およびカスタマイズ可能な AI アプリケーションを構築し、GKE にデプロイします。

AI Gemma パフォーマンス

ユースケース
ユースケース

KubeRay と Kueue を使用して GKE で Ray アプリケーションをオーケストレーションします。

Kueue Ray KubeRay

ユースケース
ユースケース

GKE で Ray を使用して AI / ML ワークロードをトレーニングする際に、セキュリティに関する知見とセキュリティ強化手法を適用します。

AI Ray セキュリティ

ユースケース
ユースケース

Google Cloud の AI / ML ワークロードに最適なストレージ オプションの組み合わせを選択します。

AI ML ストレージ

ユースケース
ユースケース

GKE に Nvidia GPU ドライバを自動的にインストールします。

GPU NVIDIA インストール

ユースケース
ユースケース

GKE と NVIDIA NeMo フレームワークを使用して、生成 AI モデルをトレーニングします。

GenAI NVIDIA NeMo

ユースケース
ユースケース

Ray ワークロードに GKE を使用して、スケーラビリティ、費用対効果、フォールト トレランス、分離、移植性を向上させます。

AI Ray スケール

ユースケース
ユースケース

GKE Autopilot を使用すると、AI / ML ワークロードの GPU サポートとパフォーマンスを向上させ、費用を抑えることができます。

GPU Autopilot パフォーマンス

ユースケース
ユースケース

GKE を使用してパーソナライズされた動画出力をスケーリングしたスタートアップ企業を紹介します。

GPU スケール コンテナ

ユースケース
ユースケース

Ray が Spotify で ML 開発を変革している方法。

ML Ray コンテナ

ユースケース
ユースケース

Ordaōs Bio 社は、生物医学の研究と発見を目的とした主要な AI アクセラレータの一つであり、腫瘍学および慢性炎症性疾患における新しい免疫学的療法の解決策の発見を目指しています。

パフォーマンス TPU コスト最適化

ユースケース
ユースケース

シリコンバレーのスタートアップ企業である Moloco 社が、GKE と Tensor Flow Enterprise を活用して機械学習(ML)インフラストラクチャを強化した方法。

ML スケール コストの最適化

コードサンプル
コードサンプル

GKE プロダクトの公式チュートリアルで使用されているサンプル アプリケーションを表示します。

コードサンプル
コードサンプル

GKE を活用して AI / ML イニシアチブを加速するための試験運用版のサンプルを表示します。

関連動画