Google Cloud の GPU について

Google Cloud は、世界水準の人工知能（AI）インフラストラクチャを提供し、幅広いセグメントで最も要求の厳しい GPU アクセラレーショワークロードを強化することに注力しています。Google Cloud の GPU を使用して、AI、機械学習（ML）、科学、分析、エンジニアリング、コンシューマー、エンタープライズアプリケーションを実行できます。

Google Cloud は NVIDIA とのパートナーシップを通じて、最新の GPU を提供すると同時に、ストレージとネットワーキングの幅広いオプションでソフトウェアスタックを最適化しています。利用可能な GPU の完全なリストについては、GPU プラットフォームをご覧ください。

以降のセクションでは、Google Cloud での GPU のメリットについて説明します。

GPU アクセラレーション VM

Google Cloud では、ニーズに最適な方法で GPU にアクセスしてプロビジョニングできます。専用のアクセラレータ最適化マシンファミリーが用意されており、パフォーマンスを最大限に高めるために最適な、事前接続された GPU とネットワーク機能を備えています。これらは、A3、A2、G2 のマシンシリーズで使用できます。

複数のプロビジョニングオプション

アクセラレータ最適化マシンファミリーを使用すると、次のいずれかのオープンソースまたは Google Cloud プロダクトを使用してクラスタをプロビジョニングできます。

Vertex AI

Vertex AI は、ML モデルと AI アプリケーションのトレーニングとデプロイに使用できるフルマネージド型の機械学習（ML）プラットフォームです。Vertex AI アプリケーションでは、GPU アクセラレーション VM を使用して、次の方法でパフォーマンスを向上させることができます。

カスタムトレーニング用の GKE ワーカープールで GPU 対応 VM を使用する。
Vertex AI Model Garden にあるオープンソース LLM モデルを使用する。
予測のレイテンシを短縮する。
Vertex AI Workbench ノートブックコードのパフォーマンスを改善する。
Colab Enterprise ランタイムのパフォーマンスを改善する。

GKE と Slurm

GKE などの大規模なオーケストレーションプラットフォームは、大規模な ML モデルのトレーニングとファインチューニングに使用できる大規模なクラスタをプロビジョニングする場合に最適です。大規模な ML モデルとは、膨大な量のデータを使用するモデルです。

Google Cloud では、次のオーケストレーションプラットフォームを使用できます。

Google Kubernetes Engine（GKE）: Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションを大規模にデプロイして運用するために使用できるサービス。
Slurm: オープンソースのクラスタ管理ツールとジョブスケジューリングツール。Google Cloud では、Cluster Toolkit を使用して Slurm クラスタをデプロイできます。

大規模なモデルのトレーニングとファインチューニングを実行する

大規模なモデルのトレーニングやファインチューニングを行う場合は、a3-megagpu-8g マシンのクラスタを使用し、GKE や Slurm などのスケジューラでデプロイすることをおすすめします。

デプロイ方法	デプロイガイド
Slurm	A3 Mega Slurm クラスタをデプロイする
GKE	GKE を使用して A3 Mega クラスタをデプロイする

メインストリームモデルのトレーニングとファインチューニングを実行する

メインストリームモデルのトレーニングとファインチューニングを行う場合は、標準の a3-highgpu-8g または A2 マシンタイプまたは G2 マシンタイプを使用し、GKE や Slurm などのスケジューラでデプロイすることをおすすめします。

デプロイ方法

デプロイガイド

ワークロード

GKE

Autopilot または Standard ノードプールをデプロイする

推論: GKE でモデルを提供する

トレーニング: GKE でモデルをトレーニングする

Slurm

G2 Slurm クラスタで Llama-2 ファインチューニングを実行する

Compute Engine

Compute Engine で、GPU が接続された単一の VM または小さい VM クラスタを作成して管理することもできます。この方法は、グラフィックを多用するワークロードの実行に最適です。

デプロイ方法	デプロイガイド
マネージドインスタンスグループ（MIG）を作成する	GPU VM を使用する MIG を作成する
VM を一括作成する	GPU VM のグループを一括作成する
単一の VM を作成する	単一の GPU VM を作成する
仮想ワークステーションを作成する	仮想 GPU で高速化されたワークステーションを作成する

Cloud Run

Cloud Run サービスに GPU を構成できます。GPU は、Cloud Run で大規模言語モデルを使用して AI 推論ワークロードを実行する場合に最適です。

Cloud Run を使用して GPU 上で AI ワークロードを実行する方法については、次のリソースをご覧ください。