GKE での AI / ML オーケストレーションに関するドキュメント

Google DeepMind の新しいオープンモデルのファミリーである Gemma が GKE でご利用いただけるようになりました。

ホーム
ドキュメント
AI/ML orchestration on GKE

コレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。

Google Kubernetes Engine（GKE）のプラットフォームオーケストレーション機能を使用して、最適化された AI / ML ワークロードを実行します。Google Kubernetes Engine（GKE）を使用すると、マネージド型の Kubernetes と次の機能のメリットをすべて活用し、プロダクションレディかつ堅牢な AI / ML プラットフォームを実装できます。

大規模なワークロードのトレーニングとサービングのために GPU と TPU をサポートするインフラストラクチャオーケストレーション
分散コンピューティングとデータ処理フレームワークの柔軟な統合
リソースを最大限に活用するため、同じインフラストラクチャで複数のチームをサポートする

このページでは、GKE の AI / ML 機能の概要と、GPU、TPU、Hugging Face TGI、vLLM、JetStream などのフレームワークを使用して GKE で最適化された AI / ML ワークロードを実行する方法について説明します。

ドキュメントリソース

クイックスタートやガイド、主なリファレンス、一般的な問題のヘルプをご覧いただけます。

info

GKE でオープンモデルを提供する

新規!

Optimum TPU を活用し、GKE 上で TPU を使用してオープンソースモデルをサービングする
チュートリアル

GKE の GPU と Hugging Face TGI を使用して Gemma を提供する
チュートリアル

GKE で GPU と vLLM を使用して Gemma を提供する
チュートリアル

NVIDIA Triton と TensorRT-LLM を備えた GKE で GPU を使用して Gemma を提供する
チュートリアル

GKE で TPU と JetStream を使用して Gemma をサービングする
チュートリアル

クイックスタート: GKE Autopilot の単一の GPU でモデルを提供する

info

TPU と GPU の大規模なオーケストレーション

動画

ML 向けの Cloud TPU の概要
動画

GKE を使用して Cloud TPU で大規模な ML を構築する
動画

TPU で KubeRay を使用して大規模言語モデルを提供する
ブログ

NVIDIA GPU を使用した Kubernetes での JAX による ML
ブログ

GKE で Kubeflow と Ray を使用して機械学習（ML）プラットフォームを構築する

info

費用の最適化とジョブのオーケストレーション

NEW!

GKE 上のバッチ処理プラットフォームのリファレンスアーキテクチャ
ブログ

GKE 上のローカル SSD サポートによる高性能 AI / ML ストレージ
ブログ

Google Kubernetes Engine で Weights & Biases を使用して MLOps を簡素化する
ベストプラクティス

GKE でバッチワークロードを実行するためのベストプラクティス
ベストプラクティス

GKE でコストが最適化された Kubernetes アプリケーションを実行する
ベストプラクティス

GKE での安定型分散モデルの起動時間を 4 倍に向上

関連リソース

トレーニングとチュートリアル

ユースケース

コードサンプル

Google Cloud Skills Boost のセルフペーストレーニング、ユースケース、リファレンスアーキテクチャ、コードサンプル、Google Cloud サービスの使用方法と接続方法の例をご覧ください。

トレーニング

トレーニングとチュートリアル

GKE で Parallelstore インスタンスを基盤とする Volume を作成して使用する

フルマネージド Parallelstore インスタンスを基盤とするストレージを作成し、Volume としてそのストレージにアクセスする方法について説明します。CSI ドライバは、サイズの小さいファイルとランダム読み取りを伴う AI / ML トレーニングワークロード用に最適化されています。

詳細

トレーニング

トレーニングとチュートリアル

Hyperdisk ML で AI / ML データの読み込みを高速化する

Hyperdisk ML を使用して GKE で AI / ML モデルの重みを簡単に読み込み、高速化する方法を学習します。

詳細

トレーニング

トレーニングとチュートリアル

GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする

PyTorch を介して JetStream で GKE の Tensor Processing Unit（TPU）を使用して LLM をサービングする方法について学習します。

詳細

トレーニング

トレーニングとチュートリアル

GKE の GPU を使用して LLM 推論を最適化する際のベストプラクティス

vLLM と Text Generation Inference（TGI）サービングフレームワークを使用して、GKE の GPU で LLM 推論パフォーマンスを最適化する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

GKE で NVIDIA GPU Operator を使用して GPU スタックを管理する

NVIDIA GPU Operator を使用するタイミングと、GKE で NVIDIA GPU Operator を有効にする方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

TPU 上の LLM ワークロードの自動スケーリングを構成する

GKE HorizontalPodAutoscaler（HPA）を使用して、単一ホストの JetStream によって Gemma LLM をデプロイし、自動スケーリングインフラストラクチャを設定する方法について学習します。

詳細

トレーニング

トレーニングとチュートリアル

GKE で複数の GPU を使用して Gemma オープンモデルをファインチューニングする

Hugging Face Transformers ライブラリを使用して、GKE の GPU で Gemma LLM をファインチューニングする方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

GKE 上で TPU を使用して、Stable Diffusion モデルを使用する Ray Serve アプリケーションをデプロイする

TPU、Ray Serve、Ray Operator アドオンを使用して、GKE に Stable Diffusion モデルをデプロイして提供する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

GKE で GPU を使用して LLM ワークロードの自動スケーリングを構成する

GKE HorizontalPodAutoscaler（HPA）を使用して、Hugging Face Text Generation Interface（TGI）サービングフレームワークで Gemma LLM をデプロイし、自動スケーリングインフラストラクチャを設定する方法を説明します。

詳細

トレーニング

トレーニングとチュートリアル

A3 Mega 仮想マシンで Megatron-LM を使用して Llama2 をトレーニングする

A3 Mega でコンテナベースの Megatron-LM PyTorch ワークロードを実行する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

Autopilot に GPU ワークロードをデプロイする

GKE Autopilot ワークロードでハードウェアアクセラレータ（GPU）をリクエストする方法について学習します。

詳細

トレーニング

トレーニングとチュートリアル

GKE で複数の GPU を使用して LLM を提供する

GKE で複数の NVIDIA L4 GPU を使用して Llama 2 70B または Falcon 40B を提供する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

GKE で Saxml を実行してマルチホスト TPU を使用して LLM を提供する

GKE で Ray フレームワークを使用して Falcon 7b、Llama2 7b、Falcon 40b、Llama2 70b を提供する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

Ray on GKE を使ってみる

Ray クラスタでワークロードを実行して、Ray on GKE を簡単に使用する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

Ray を使用して L4 GPU で LLM を提供する

GKE で Ray フレームワークを使用して Falcon 7b、Llama2 7b、Falcon 40b、Llama2 70b を提供する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

JobSet と Kueue を使用して TPU マルチスライスワークロードをオーケストレートする

JobSet と Kueue を使用して、GKE 上の複数の TPU スライスで Jax ワークロードをオーケストレートする方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

NVIDIA Data Center GPU Manager（DCGM）を使用した GKE 上の GPU ワークロードのモニタリング

NVIDIA Data Center GPU Manager（DCGM）を使用して GKE 上の GPU ワークロードをモニタリングする方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

クイックスタート: GKE Standard クラスタで GPU を使用してモデルをトレーニングする

このクイックスタートでは、GKE で GPU を使用するトレーニングモデルをデプロイし、予測を Cloud Storage に保存する方法について説明します。

詳細

トレーニング

トレーニングとチュートリアル

GKE での大規模な ML の実行

この動画では、大規模な AI モデルのトレーニングに関する一般的な課題を GKE で解決する方法と、GKE で大規模な ML モデルをトレーニングして提供するためのベストプラクティスについて説明します。

詳細

トレーニング

トレーニングとチュートリアル

GPU アクセラレーションを備えた GKE Autopilot で TensorFlow を実行する

このブログ投稿では、Tensorflow 対応の Jupiter ノートブックを作成、実行、破棄するための手順ガイドを紹介します。

詳細

トレーニング

トレーニングとチュートリアル

GKE の Namespace 間で割り当てを共有するジョブキューイングシステムを実装する

このチュートリアルでは Kueue を使用して、ジョブキューイングシステムを実装し、GKE 上の異なる Namespace 間でワークロードリソースと割り当て共有を構成する方法を説明します。

詳細

トレーニング

トレーニングとチュートリアル

GKE と Cloud Storage を使用して RAG chatbot を構築する

このチュートリアルでは、検索拡張生成（RAG）に基づく大規模言語モデル（LLM）アプリケーションと、Cloud Storage バケットにアップロードされた PDF ファイルを統合する方法について説明します。

詳細

ユースケース

検索エンジンをシンプルに: GKE と Vertex AI Agent Builder によるローコードアプローチ

Vertex AI Agent Builder、Vertex AI Search、GKE を使用して Google Cloud で検索エンジンを作成する方法。

検索エージェント Vertex AI

詳細

ユースケース

LiveX AI: GKE と NVIDIA AI でトレーニングおよびサービングされる AI エージェントによりカスタマーサポートのコストを削減

LiveX AI が GKE を使用して、顧客満足度を高め、費用を削減する AI エージェントを構築する方法。

GenAI NVIDIA GPU

詳細

ユースケース

GKE を使用した RAG 対応生成 AI アプリケーション用のインフラストラクチャ

GKE、Cloud SQL、Ray、Hugging Face、LangChain を使用して、検索拡張生成（RAG）対応の生成 AI アプリケーションを実行するためのリファレンスアーキテクチャ。

GenAI RAG Ray

詳細

ユースケース

特許検索の革新: IPRally が GKE と Ray を使用して AI を活用

IPRally が GKE と Ray を使用して、スケーラブルで効率的な ML プラットフォームを構築し、特許検索の高速化と精度の向上を実現した方法を紹介します。

AI Ray GPU

詳細

ユースケース

Google Cloud での Gemma のパフォーマンスに関する詳細

Cloud GPU と Cloud TPU 上で Gemma を活用し、推論と GKE でのトレーニングの効率を高めます。

AI Gemma パフォーマンス

詳細

ユースケース

GKE で Gemma を使用するための詳細: 生成 AI オープンモデルのサービングを実現する新たなイノベーション

最高水準の Gemma オープンモデルを使用して、移植およびカスタマイズ可能な AI アプリケーションを構築し、GKE にデプロイします。

AI Gemma パフォーマンス

詳細

ユースケース

Ray と Kueue を使用した AI / ML の高度なスケジューリング

KubeRay と Kueue を使用して GKE で Ray アプリケーションをオーケストレーションします。

Kueue Ray KubeRay

詳細

ユースケース

Google Kubernetes Engine 上で Ray のセキュリティを確保する方法

GKE で Ray を使用して AI / ML ワークロードをトレーニングする際に、セキュリティに関する知見とセキュリティ強化手法を適用します。

AI Ray セキュリティ

詳細

ユースケース

Google Cloud で AI / ML ワークロードのストレージを設計する

Google Cloud の AI / ML ワークロードに最適なストレージオプションの組み合わせを選択します。

AI ML ストレージ

詳細

ユースケース

ドライバの自動インストールにより、GKE での NVIDIA GPU の使用が容易に

GKE に Nvidia GPU ドライバを自動的にインストールします。

GPU NVIDIA インストール

詳細

ユースケース

GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速

GKE と NVIDIA NeMo フレームワークを使用して、生成 AI モデルをトレーニングします。

GenAI NVIDIA NeMo

詳細

ユースケース

Ray AI ワークロードに GKE を使用する理由

Ray ワークロードに GKE を使用して、スケーラビリティ、費用対効果、フォールトトレランス、分離、移植性を向上させます。

AI Ray スケール

詳細

ユースケース

フルマネージド GKE で AI を実行: 新たなコンピューティングオプション、料金、リソース予約

GKE Autopilot を使用すると、AI / ML ワークロードの GPU サポートとパフォーマンスを向上させ、費用を抑えることができます。

GPU Autopilot パフォーマンス

詳細

ユースケース

SEEN が GKE を使用して出力を 89 倍に拡大し GPU の費用を 66% 削減した方法

GKE を使用してパーソナライズされた動画出力をスケーリングしたスタートアップ企業を紹介します。

GPU スケールコンテナ

詳細

ユースケース

Let’s Enhance が NVIDIA AI と GKE を使用して AI ベースの写真編集を強化した仕組み

NVIDIA GPU と GKE を使用して画像を美しくするための革新的な AI。

AI NVIDIA コンテナ

詳細

ユースケース

GKE の GPU 共有によって、科学者がどのようにニュートリノを探索するか

GKE GPU 共有は、科学者がニュートリノを探索するのに役立ちます。

GPU スケールコンテナ

詳細

ユースケース

GKE の時間共有 GPU

複数のコンテナで単一の物理 GPU を共有し、使用率を向上させることができる GKE の GPU 時間共有機能について説明します。

詳細

ユースケース

GKE のマルチインスタンス GPU

GKE のマルチインスタンス GPU を使用して、GPU への投資効率を高める方法について説明します。

詳細

ユースケース

Etsy が GKE を使用して ML プラットフォームを再設計する方法

Etsy は、機械学習（ML）を活用して、世界中の何百万人もの購入者にパーソナライズされたエクスペリエンスを提供しています。

GPU スケールコンテナ

詳細

ユースケース

Spotify が Ray と GKE で ML イノベーションを実現している方法

Ray が Spotify で ML 開発を変革している方法。

ML Ray コンテナ

詳細

ユースケース

Ordaōs Bio 社の GKE で生成 AI を活用する方法

Ordaōs Bio 社は、生物医学の研究と発見を目的とした主要な AI アクセラレータの一つであり、腫瘍学および慢性炎症性疾患における新しい免疫学的療法の解決策の発見を目指しています。

パフォーマンス TPU コスト最適化

詳細

ユースケース

ML を活用した成長中のスタートアップ企業の GKE

シリコンバレーのスタートアップ企業である Moloco 社が、GKE と Tensor Flow Enterprise を活用して機械学習（ML）インフラストラクチャを強化した方法。

ML スケールコストの最適化

詳細

コードサンプル

Ray on GKE

この Terraform テンプレートでは、Ray on GKE を実行します。

GitHub を開く

コードサンプル

TPU を使用して Ray on GKE を設定する

この Terraform サンプルでは、2x2x1 トポロジで GKE クラスタに Ray をデプロイします。

GitHub を開く

コードサンプル

JobSet API を使用した GKE での ML トレーニングワークロード

JobSet API を使用して、GKE で分散 ML トレーニングワークロードを実行します。

GitHub を開く

コードサンプル

GKE での JAX「Hello World」

GKE クラスタで NVIDIA GPU A100～80 GB を使用して、シンプルな JAX プログラムを実行します。

GitHub を開く

Google DeepMind の新しいオープンモデルのファミリーである Gemma が GKE でご利用いただけるようになりました。