Google Cloud は、世界水準の人工知能(AI)インフラストラクチャを提供し、幅広いセグメントで最も要求の厳しい GPU アクセラレーショ ワークロードを強化することに注力しています。Google Cloud の GPU を使用して、AI、機械学習(ML)、科学、分析、エンジニアリング、コンシューマー、エンタープライズ アプリケーションを実行できます。
Google Cloud は NVIDIA とのパートナーシップを通じて、最新の GPU を提供すると同時に、ストレージとネットワーキングの幅広いオプションでソフトウェア スタックを最適化しています。利用可能な GPU の完全なリストについては、GPU プラットフォームをご覧ください。
以降のセクションでは、Google Cloud での GPU のメリットについて説明します。
GPU アクセラレーション VM
Google Cloud では、ニーズに最適な方法で GPU にアクセスしてプロビジョニングできます。専用のアクセラレータ最適化マシン ファミリーが用意されており、パフォーマンスを最大限に高めるために最適な、事前接続された GPU とネットワーク機能を備えています。これらは、A3、A2、G2 のマシンシリーズで使用できます。
複数のプロビジョニング オプション
アクセラレータ最適化マシン ファミリーを使用すると、次のいずれかのオープンソースまたは Google Cloud プロダクトを使用してクラスタをプロビジョニングできます。
Vertex AI
Vertex AI は、ML モデルと AI アプリケーションのトレーニングとデプロイに使用できるフルマネージド型の機械学習(ML)プラットフォームです。Vertex AI アプリケーションでは、GPU アクセラレーション VM を使用して、次の方法でパフォーマンスを向上させることができます。
- カスタム トレーニング用の GKE ワーカープールで GPU 対応 VM を使用する。
- Vertex AI Model Garden にあるオープンソース LLM モデルを使用する。
- 予測のレイテンシを短縮する。
- Vertex AI Workbench ノートブック コードのパフォーマンスを改善する。
- Colab Enterprise ランタイムのパフォーマンスを改善する。
GKE と Slurm
GKE などの大規模なオーケストレーション プラットフォームは、大規模な ML モデルのトレーニングとファインチューニングに使用できる大規模なクラスタをプロビジョニングする場合に最適です。大規模な ML モデルとは、膨大な量のデータを使用するモデルです。
Google Cloud では、次のオーケストレーション プラットフォームを使用できます。
Google Kubernetes Engine(GKE): Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションを大規模にデプロイして運用するために使用できるサービス。
Slurm: オープンソースのクラスタ管理ツールとジョブ スケジューリング ツール。Google Cloud では、Cluster Toolkit を使用して Slurm クラスタをデプロイできます。
大規模なモデルのトレーニングとファインチューニングを実行する
大規模なモデルのトレーニングやファインチューニングを行う場合は、a3-megagpu-8g
マシンのクラスタを使用し、GKE や Slurm などのスケジューラでデプロイすることをおすすめします。
デプロイ方法 |
デプロイガイド |
Slurm |
|
GKE |
メインストリーム モデルのトレーニングとファインチューニングを実行する
メインストリーム モデルのトレーニングとファインチューニングを行う場合は、標準の a3-highgpu-8g
または A2 マシンタイプまたは G2 マシンタイプを使用し、GKE や Slurm などのスケジューラでデプロイすることをおすすめします。
デプロイ方法 |
デプロイガイド |
ワークロード |
GKE |
推論: GKE でモデルを提供する トレーニング: GKE でモデルをトレーニングする |
|
Slurm |
Compute Engine
Compute Engine で、GPU が接続された単一の VM または小さい VM クラスタを作成して管理することもできます。この方法は、グラフィックを多用するワークロードの実行に最適です。
デプロイ方法 |
デプロイガイド |
マネージド インスタンス グループ(MIG)を作成する |
|
VM を一括作成する |
|
単一の VM を作成する |
|
仮想ワークステーションを作成する |
Cloud Run
Cloud Run サービスに GPU を構成できます。GPU は、Cloud Run で大規模言語モデルを使用して AI 推論ワークロードを実行する場合に最適です。
Cloud Run を使用して GPU 上で AI ワークロードを実行する方法については、次のリソースをご覧ください。
- Cloud Run サービスに GPU を構成する
- GPU を使用して Cloud Run に大規模な ML モデルを読み込む
- チュートリアル: Ollama と Cloud Run を使用して GPU 上で LLM 推論を実行する