GKE での AI / ML オーケストレーションに関するドキュメント
Google Kubernetes Engine(GKE)のプラットフォーム オーケストレーション機能を使用して、最適化された AI / ML ワークロードを実行します。Google Kubernetes Engine(GKE)を使用すると、マネージド型の Kubernetes と次の機能のメリットをすべて活用し、プロダクション レディかつ堅牢な AI / ML プラットフォームを実装できます。
- 大規模なワークロードのトレーニングとサービングのために GPU と TPU をサポートするインフラストラクチャ オーケストレーション
- 分散コンピューティングとデータ処理フレームワークの柔軟な統合
- リソースを最大限に活用するため、同じインフラストラクチャで複数のチームをサポートする
$300 分の無料クレジットを使用して概念実証を始める
- Gemini 2.0 Flash Thinking をご利用いただけます。
- AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
- 自動請求は行われず、契約も不要です。
常に無料で利用可能な 20 以上のプロダクトを確認する
AI API、VM、データ ウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。
ドキュメント リソース
GKE 生成 AI の機能を使用してオープンモデルを提供する
- New!
- New!
- New!
- チュートリアル
- チュートリアル
- チュートリアル
費用の最適化とジョブのオーケストレーション
- New!
- ベスト プラクティス
- ブログ
- ブログ
- ベスト プラクティス
- ベスト プラクティス
- ベスト プラクティス
関連リソース
Optimum TPU を活用し、GKE 上で TPU を使用してオープンソース モデルをサービングする
Hugging Face の Optimum TPU サービング フレームワークを使い、GKE の Tensor Processing Unit(TPU)を使用して LLM をデプロイする方法について説明します。
GKE で Parallelstore インスタンスを基盤とする Volume を作成して使用する
フルマネージド Parallelstore インスタンスを基盤とするストレージを作成し、Volume としてそのストレージにアクセスする方法について説明します。CSI ドライバは、サイズの小さいファイルとランダム読み取りを伴う AI / ML トレーニング ワークロード用に最適化されています。
Hyperdisk ML で AI / ML データの読み込みを高速化する
Hyperdisk ML を使用して GKE で AI / ML モデルの重みを簡単に読み込み、高速化する方法について説明します。
GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする
PyTorch を介して JetStream で GKE の Tensor Processing Unit(TPU)を使用して LLM をサービングする方法について説明します。
GKE の GPU を使用して LLM 推論を最適化する際のベスト プラクティス
vLLM と Text Generation Inference(TGI)サービング フレームワークを使用して、GKE の GPU で LLM 推論パフォーマンスを最適化する方法について説明します。
GKE で NVIDIA GPU Operator を使用して GPU スタックを管理する
NVIDIA GPU Operator を使用するタイミングと、GKE で NVIDIA GPU Operator を有効にする方法について説明します。
TPU 上の LLM ワークロードの自動スケーリングを構成する
GKE HorizontalPodAutoscaler(HPA)を使用して、単一ホストの JetStream によって Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法について説明します。
GKE で複数の GPU を使用して Gemma オープンモデルをファインチューニングする
Hugging Face Transformers ライブラリを使用して、GKE の GPU で Gemma LLM をファインチューニングする方法について説明します。
GKE 上で TPU を使用して、Stable Diffusion モデルを使用する Ray Serve アプリケーションをデプロイする
TPU、Ray Serve、Ray Operator アドオンを使用して、GKE に Stable Diffusion モデルをデプロイして提供する方法について説明します。
GKE で GPU 上の LLM ワークロードの自動スケーリングを構成する
GKE HorizontalPodAutoscaler(HPA)を使用して、Hugging Face Text Generation Interface(TGI)サービング フレームワークで Gemma LLM をデプロイし、自動スケーリング インフラストラクチャを設定する方法を説明します。
A3 Mega 仮想マシンで Megatron-LM を使用して Llama2 をトレーニングする
A3 Mega でコンテナベースの Megatron-LM PyTorch ワークロードを実行する方法について説明します。
Autopilot に GPU ワークロードをデプロイする
GKE Autopilot ワークロードでハードウェア アクセラレータ(GPU)をリクエストする方法について説明します。
GKE で複数の GPU を使用して LLM を提供する
GKE で複数の NVIDIA L4 GPU を使用して Llama 2 70B または Falcon 40B を提供する方法について説明します。
Ray on GKE を使ってみる
Ray クラスタでワークロードを実行して、Ray on GKE を簡単に使用する方法について説明します。
Ray を使用して L4 GPU で LLM を提供する
GKE で Ray フレームワークを使用して Falcon 7b、Llama2 7b、Falcon 40b、Llama2 70b を提供する方法について説明します。
JobSet と Kueue を使用して TPU マルチスライス ワークロードをオーケストレートする
JobSet と Kueue を使用して、GKE 上の複数の TPU スライスで Jax ワークロードをオーケストレートする方法について説明します。
NVIDIA Data Center GPU Manager(DCGM)を使用した GKE 上の GPU ワークロードのモニタリング
NVIDIA Data Center GPU Manager(DCGM)を使用して GKE 上の GPU ワークロードをモニタリングする方法について説明します。
クイックスタート: GKE Standard クラスタで GPU を使用してモデルをトレーニングする
このクイックスタートでは、GKE で GPU を使用するトレーニング モデルをデプロイし、予測を Cloud Storage に保存する方法について説明します。
GKE での大規模な ML の実行
この動画では、大規模な AI モデルのトレーニングに関する一般的な課題を GKE で解決する方法と、GKE で大規模な ML モデルをトレーニングして提供するためのベスト プラクティスについて説明します。
GPU アクセラレーションを備えた GKE Autopilot で TensorFlow を実行する
このブログ投稿では、Tensorflow 対応の Jupiter ノートブックを作成、実行、破棄するための手順ガイドを紹介します。
GKE の Namespace 間で割り当てを共有する Job キューイング システムを実装する
このチュートリアルでは Kueue を使用して、Job キューイング システムを実装し、GKE 上の異なる Namespace 間でワークロード リソースと割り当て共有を構成する方法を説明します。
GKE と Cloud Storage を使用して RAG chatbot を構築する
このチュートリアルでは、検索拡張生成に基づく大規模言語モデル アプリケーションと、Cloud Storage バケットにアップロードされた PDF ファイルを統合する方法について説明します。
BigQuery、Cloud Run、Gemma を使用して GKE のデータを分析する
このチュートリアルでは、データの保存と処理に BigQuery、リクエスト処理に Cloud Run、データの分析と予測に Gemma LLM を活用して、GKE で大規模なデータセットを分析する方法について説明します。
GKE と Ray を使用した分散データの前処理: エンタープライズ向けにスケーリング
GKE と Ray を活用して、ML 用に大規模なデータセットを効率的に前処理する方法について説明します。
GKE での AI / ML 推論向けのデータ読み込みに関するベスト プラクティス
Google Kubernetes Engine で ML アプリケーションのデータ読み込み時間を短縮する方法について説明します。
GPU のコストを削減: GKE の推論ワークロード向けのスマートな自動スケーリング
GKE の HorizontalPodAutoscaler をファインチューニングして効率を最大化し、GPU 推論の費用を最適化する方法について説明します。
GKE での NVIDIA NIM マイクロサービスを使用して、最適化された AI モデルを効率的に提供
最先端の NVIDIA NIM マイクロサービスを GKE に簡単にデプロイし、AI ワークロードを高速化する方法について説明します。
GKE で新しい Ray 演算子を使用して本番環境で Ray を高速化する
GKE の Ray 演算子を使用して AI/ML 本番環境のデプロイを簡素化し、パフォーマンスと拡張性を向上させる方法について説明します。
GKE 上の GPU で LLM の提供スループットを最大化する - 実践ガイド
インフラストラクチャの決定やモデルサーバーの最適化など、GKE 上の GPU で大規模言語モデル(LLM)の提供スループットを最大化する方法について説明します。
検索エンジンをシンプルに: GKE と Vertex AI Agent Builder によるローコード アプローチ
Vertex AI Agent Builder、Vertex AI Search、GKE を使用して Google Cloud で検索エンジンを作成する方法。
LiveX AI: GKE と NVIDIA AI でトレーニングおよびサービングされる AI エージェントによりカスタマー サポートのコストを削減
LiveX AI が GKE を使用して、顧客満足度を高め、費用を削減する AI エージェントを構築する方法。
GKE と Cloud SQL を使用した RAG 対応生成 AI アプリケーション用インフラストラクチャ
GKE、Cloud SQL、Ray、Hugging Face、LangChain を使用して、検索拡張生成(RAG)対応の生成 AI アプリケーションを実行するためのリファレンス アーキテクチャ。
特許検索の革新: IPRally が GKE と Ray を使用して AI を活用
IPRally が GKE と Ray を使用して、スケーラブルで効率的な ML プラットフォームを構築し、特許検索の高速化と精度の向上を実現した方法を紹介します。
Google Cloud での Gemma のパフォーマンスに関する詳細
Cloud GPU と Cloud TPU 上で Gemma を活用し、推論と GKE でのトレーニングの効率を高めます。
GKE で Gemma を使用するための詳細: 生成 AI オープンモデルのサービングを実現する新たなイノベーション
最高水準の Gemma オープンモデルを使用して、移植およびカスタマイズ可能な AI アプリケーションを構築し、GKE にデプロイします。
Ray と Kueue を使用した AI / ML の高度なスケジューリング
KubeRay と Kueue を使用して GKE で Ray アプリケーションをオーケストレーションします。
Google Kubernetes Engine 上で Ray のセキュリティを確保する方法
GKE で Ray を使用して AI / ML ワークロードをトレーニングする際に、セキュリティに関する知見とセキュリティ強化手法を適用します。
Google Cloud で AI / ML ワークロードのストレージを設計する
Google Cloud の AI / ML ワークロードに最適なストレージ オプションの組み合わせを選択します。
ドライバの自動インストールにより、GKE での NVIDIA GPU の使用が容易に
GKE に Nvidia GPU ドライバを自動的にインストールします。
GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速
GKE と NVIDIA NeMo フレームワークを使用して、生成 AI モデルをトレーニングします。
Ray AI ワークロードに GKE を使用する理由
Ray ワークロードに GKE を使用して、スケーラビリティ、費用対効果、フォールト トレランス、分離、移植性を向上させます。
フルマネージド GKE で AI を実行: 新たなコンピューティング オプション、料金、リソース予約
GKE Autopilot を使用すると、AI / ML ワークロードの GPU サポートとパフォーマンスを向上させ、費用を抑えることができます。
SEEN が GKE を使用して出力を 89 倍に拡大し GPU の費用を 66% 削減した方法
GKE を使用してパーソナライズされた動画出力をスケーリングしたスタートアップ企業を紹介します。
Spotify が Ray と GKE で ML イノベーションを実現している方法
Ray が Spotify で ML 開発を変革している方法。
Ordaōs Bio 社の GKE で生成 AI を活用する方法
Ordaōs Bio 社は、生物医学の研究と発見を目的とした主要な AI アクセラレータの一つであり、腫瘍学および慢性炎症性疾患における新しい免疫学的療法の解決策の発見を目指しています。
ML を活用した成長中のスタートアップの GKE
シリコンバレーのスタートアップ企業である Moloco 社が、GKE と Tensor Flow Enterprise を活用して機械学習(ML)インフラストラクチャを強化した方法。
Google Kubernetes Engine(GKE)のサンプル
GKE プロダクトの公式チュートリアルで使用されているサンプル アプリケーションを表示します。
GKE AI Labs のサンプル
GKE を活用して AI / ML イニシアチブを加速するための試験運用版のサンプルを表示します。