Get started with AI model inference using GKE Gen AI capabilities!

このページは Cloud Translation API によって翻訳されました。

GKE での AI / ML オーケストレーションに関するドキュメント

Google Kubernetes Engine（GKE）は、AI/ML ライフサイクル全体をオーケストレートするための単一の統合プラットフォームを提供します。トレーニング、推論、エージェントワークロードを強化する能力と柔軟性が得られるため、インフラストラクチャを合理化して結果を出すことができます。GKE の最先端のオーケストレーション機能は、次の機能を提供します。

ハードウェアアクセラレータ: トレーニングと推論の両方で必要な高性能 GPU と TPU に大規模にアクセスして管理します。
スタックの柔軟性: 既存の信頼できる分散コンピューティング、データ処理、モデルサービングのフレームワークと統合します。
マネージド Kubernetes のシンプルさ: マネージドプラットフォームのメリットをすべて活用して、柔軟性を維持しながら、AI/ML ライフサイクル全体の自動化、スケーリング、セキュリティ強化を実現します。

ブログ、チュートリアル、ベストプラクティスで、GKE が AI/ML ワークロードを最適化する方法を確認する。メリットと利用可能な機能の詳細については、 GKE での AI/ML ワークロードの概要をご覧ください。

無料で開始

$300 分の無料クレジットを使用して概念実証を始める

Gemini 2.0 Flash Thinking をご利用いただけます。
AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
自動請求は行われず、契約も不要です。

無料のプロダクトオファーを見る

常に無料で利用可能な 20 以上のプロダクトを確認する

AI API、VM、データウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。

ドキュメントリソース

クイックスタートやガイド、主なリファレンス、一般的な問題のヘルプをご覧いただけます。

Get started with AI model inference using GKE Gen AI capabilities!

GKE での AI / ML オーケストレーションに関するドキュメント

$300 分の無料クレジットを使用して概念実証を始める

常に無料で利用可能な 20 以上のプロダクトを確認する

AI インフラストラクチャとアクセラレータを管理する

AI モデルを大規模にトレーニングする

推論用に AI モデルを提供する

Agent Development Kit（ADK）とセルフホスト型 LLM を使用してエージェント AI アプリケーションを GKE にデプロイする

Agent Development Kit（ADK）と Vertex AI を使用してエージェント AI アプリケーションを GKE にデプロイする

Optimum TPU を活用し、GKE 上で TPU を使用してオープンソース モデルをサービングする

GKE で Parallelstore インスタンスを基盤とする Volume を作成して使用する

費用を最適化し、高可用性の GPU プロビジョニング戦略を使用して GKE で LLM をサービングする

TPU で KubeRay を使用して大規模言語モデルを提供する

Hyperdisk ML で AI / ML データの読み込みを高速化する

GKE の TPU で JetStream と PyTorch を使用して LLM をサービングする

GKE の GPU を使用して LLM 推論を最適化する際のベスト プラクティス

GKE で NVIDIA GPU Operator を使用して GPU スタックを管理する

TPU 上の LLM ワークロードの自動スケーリングを構成する

GKE で複数の GPU を使用して Gemma オープンモデルをファインチューニングする

GKE 上で TPU を使用して、Stable Diffusion モデルを使用する Ray Serve アプリケーションをデプロイする

GKE で GPU 上の LLM ワークロードの自動スケーリングを構成する

A3 Mega 仮想マシンで Megatron-LM を使用して Llama2 をトレーニングする

Autopilot に GPU ワークロードをデプロイする

GKE で複数の GPU を使用して LLM を提供する

Ray on GKE を使ってみる

Ray を使用して L4 GPU で LLM を提供する

JobSet と Kueue を使用して TPU マルチスライス ワークロードをオーケストレートする

NVIDIA Data Center GPU Manager（DCGM）を使用した GKE 上の GPU ワークロードのモニタリング

クイックスタート: GKE Standard クラスタで GPU を使用してモデルをトレーニングする

GKE での大規模な ML の実行

GPU アクセラレーションを備えた GKE Autopilot で TensorFlow を実行する

GKE の Namespace 間で割り当てを共有する Job キューイング システムを実装する

GKE と Cloud Storage を使用して RAG chatbot を構築する

BigQuery、Cloud Run、Gemma を使用して GKE のデータを分析する

GKE と Ray を使用した分散データの前処理: エンタープライズ向けにスケーリング

GKE での AI / ML 推論向けのデータ読み込みに関するベスト プラクティス

GPU のコストを削減: GKE の推論ワークロード向けのスマートな自動スケーリング

GKE での NVIDIA NIM マイクロサービスを使用して、最適化された AI モデルを効率的に提供

GKE で新しい Ray 演算子を使用して本番環境で Ray を高速化する

GKE 上の GPU で LLM の提供スループットを最大化する - 実践ガイド

GKE でバッチ ワークロードを実行するためのベスト プラクティス

GKE 上のローカル SSD サポートによる高性能 AI/ML ストレージ

NVIDIA GPU を使用した Kubernetes での JAX による ML

検索エンジンをシンプルに: GKE と Vertex AI Agent Builder によるローコード アプローチ

LiveX AI: GKE と NVIDIA AI でトレーニングおよびサービングされる AI エージェントによりカスタマー サポートのコストを削減

GKE と Cloud SQL を使用した RAG 対応生成 AI アプリケーション用インフラストラクチャ

GKE 上のバッチ処理プラットフォームのリファレンス アーキテクチャ

特許検索の革新: IPRally が GKE と Ray を使用して AI を活用

Google Cloud での Gemma のパフォーマンスに関する詳細

GKE で Gemma を使用するための詳細: 生成 AI オープンモデルのサービングを実現する新たなイノベーション

Ray と Kueue を使用した AI / ML の高度なスケジューリング

Google Kubernetes Engine 上で Ray のセキュリティを確保する方法

Google Cloud で AI / ML ワークロードのストレージを設計する

ドライバの自動インストールにより、GKE での NVIDIA GPU の使用が容易に

GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速

Ray AI ワークロードに GKE を使用する理由

Google Kubernetes Engine で Weights & Biases を使用して MLOps を簡素化する

フルマネージド GKE で AI を実行: 新たなコンピューティング オプション、料金、リソース予約

SEEN が GKE を使用して出力を 89 倍に拡大し GPU の費用を 66% 削減した方法

Spotify が Ray と GKE で ML イノベーションを実現している方法

Ordaōs Bio 社の GKE で生成 AI を活用する方法

ML を活用した成長中のスタートアップの GKE

GKE での安定型分散モデルの起動時間を 4 倍に向上

Google Kubernetes Engine（GKE）のサンプル

GKE AI Labs のサンプル

GKE アクセラレーテッド プラットフォーム

関連動画

Optimum TPU を活用し、GKE 上で TPU を使用してオープンソースモデルをサービングする

GKE の GPU を使用して LLM 推論を最適化する際のベストプラクティス

JobSet と Kueue を使用して TPU マルチスライスワークロードをオーケストレートする

GKE の Namespace 間で割り当てを共有する Job キューイングシステムを実装する

GKE での AI / ML 推論向けのデータ読み込みに関するベストプラクティス

GKE でバッチワークロードを実行するためのベストプラクティス

検索エンジンをシンプルに: GKE と Vertex AI Agent Builder によるローコードアプローチ

LiveX AI: GKE と NVIDIA AI でトレーニングおよびサービングされる AI エージェントによりカスタマーサポートのコストを削減

GKE 上のバッチ処理プラットフォームのリファレンスアーキテクチャ

フルマネージド GKE で AI を実行: 新たなコンピューティングオプション、料金、リソース予約

GKE アクセラレーテッドプラットフォーム