A3 High VM の小さいマシンタイプの発表
Ishan Sharma
Senior Product Manager, Google Kubernetes Engine
Tanvi Srivastava
Product Manager, Google Compute Engine
※この投稿は米国時間 2025 年 1 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。
現在、AI / ML モデルで推論1 を実行するために GPU を使用する組織が増えています。単一の推論ワークロードを処理するために必要な GPU の数はそれぞれ異なるため、組織はコストを低く抑えながらユーザーの需要に合わせてスケーリングできるよう、VM の GPU 数をきめ細かく制御する必要があります。
NVIDIA H100 80 GB GPU を搭載した A3 High VM は、一般提供されている複数のマシンタイプ(1 GPUNEW、2 GPUNEW、4 GPUNEW、8 GPU)で使用できます。
小さい H100 マシンタイプへのアクセス
A3 マシンタイプはすべて、フルマネージド Vertex AI で利用できるほか、Google Kubernetes Engine(GKE)ではノードとして、Google Compute Engine では VM として利用できます。
1 GPU、2 GPU、4 GPU の A3 High マシンタイプは、Spot VM として、また Dynamic Workload Scheduler(DWS)Flex Start モードで利用できます。
a Model Garden に割り当てられた容量でのみ利用できます。
Google Kubernetes Engine
GKE は 10 年近くにわたり、ウェブ アプリケーションやマイクロサービスの実行に最適なプラットフォームとして選ばれてきました。現在では AI ワークロードのトレーニングとサービングに適した、費用対効果とスケーラビリティに優れたオープン プラットフォームとなりました。GKE Autopilot は運用コストを削減し、ワークロード レベルの SLA を提供する、推論ワークロードに最適な選択肢です。ワークロードを構築したら、あとは Google にお任せください。1 GPU、2 GPU、4 GPU の A3 High マシンタイプは、GKE Standard と GKE Autopilot のどちらの運用モードでも使用できます。
以下に、Spot VM と Dynamic Workload Scheduler Flex Start モードを使用して、GKE クラスタで a3-highgpu-1g マシンタイプのノードプールを作成する 2 つの例を紹介します。
GKE での Spot VM の使用
gcloud API を使用して GKE で a3-highgpu-1g Spot VM をリクエストおよびデプロイする方法は以下のとおりです。
GKE での Dynamic Workload Scheduler Flex Start モードの使用
GKE で Dynamic Workload Scheduler Flex Start モードを使用して a3-highgpu-1g をリクエストする方法は以下のとおりです。
これにより、Dynamic Workload Scheduler が有効で、ノード数がゼロの GKE ノードプールが作成されます。この場合、Dynamic Workload Scheduler でワークロードを実行できます。
Vertex AI
Vertex AI は、予測 AI と生成 AI を構築、使用するための Google Cloud のフルマネージド統合 AI 開発プラットフォームです。新しい 1 GPU、2 GPU、4 GPU の A3 High マシンタイプにより、Model Garden をご利用のお客様は、数百のオープンモデルを費用対効果とパフォーマンスに優れた方法でデプロイできます。
お客様の声
「当社では、AI を活用したソフトウェア開発製品のバックエンドを実行するために Google Kubernetes Engine を使用しています。小さい A3 マシンタイプにより、A2 マシンタイプと比較してリアルタイムのコードアシスト モデルのレイテンシを 36% 削減でき、ユーザー エクスペリエンスが大幅に向上しました。」- Tabnine、研究開発担当バイス プレジデント、Eran Dvey Aharon 氏
使ってみる
Google Cloud の目標は、AI モデルと ML モデルの推論を費用対効果とパフォーマンスに優れた方法で実行するために必要な柔軟性を提供することです。NVIDIA H100 80 GB GPU を使用した A3 High VM を小さいマシンタイプで利用できるようになったことで、コストを抑えながらユーザーの需要に応じてスケーリングするために必要なきめ細かい制御が可能になります。
1. AI 推論や ML 推論とは、トレーニングされた AI モデルがトレーニング データを使用して出力データを計算するか、新しいデータポイントやシナリオについて予測を行うプロセスのことです。
-Google Kubernetes Engine、シニア プロダクト マネージャー Ishan Sharma
-Google Compute Engine、プロダクト マネージャー Tanvi Srivastava