コンテンツに移動
コンピューティング

A3 High VM の小さいマシンタイプの発表

2025年2月13日
Ishan Sharma

Senior Product Manager, Google Kubernetes Engine

Tanvi Srivastava

Product Manager, Google Compute Engine

※この投稿は米国時間 2025 年 1 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。

現在、AI / ML モデルで推論1 を実行するために GPU を使用する組織が増えています。単一の推論ワークロードを処理するために必要な GPU の数はそれぞれ異なるため、組織はコストを低く抑えながらユーザーの需要に合わせてスケーリングできるよう、VM GPU 数をきめ細かく制御する必要があります。

NVIDIA H100 80 GB GPU を搭載した A3 High VM は、一般提供されている複数のマシンタイプ(1 GPUNEW2 GPUNEW4 GPUNEW8 GPU)で使用できます。

小さい H100 マシンタイプへのアクセス

A3 マシンタイプはすべて、フルマネージド Vertex AI で利用できるほか、Google Kubernetes EngineGKE)ではノードとして、Google Compute Engine では VM として利用できます。

1 GPU2 GPU4 GPU A3 High マシンタイプは、Spot VM として、また Dynamic Workload SchedulerDWSFlex Start モードで利用できます。

NVIDIA H100 GPU を搭載した A3 VM のポートフォリオ

マシンタイプ(GPU 数、GPU メモリ)

Vertex AI

Google Kubernetes EngineGoogle Compute Engine

a3-highgpu-1g NEW1 GPU80 GB

  • Vertex AI Model Garden とオンライン予測(Spot

  • Vertex AI TrainingSpotDWS Flex Start モード)

  • Spot

  • DWS Flex Start モード

a3-highgpu-2g NEW2 GPU160 GB

  • Vertex AI Model Garden とオンライン予測(オンデマンドaSpot

  • Vertex AI TrainingSpotDWS Flex Start モード)

a3-highgpu-4g NEW4 GPU320 GB

a3-highgpu-8g8 GPU640 GB

  • Vertex AI オンライン予測(オンデマンド、Spot

  • Vertex AI Training(オンデマンド、SpotDWS Flex Start モード)

  • オンデマンド

  • Spot

  • DWS Flex Start モード

  • DWS カレンダー モード

a3-megagpu-8g8 GPU640 GB

a Model Garden に割り当てられた容量でのみ利用できます。

Google Kubernetes Engine

GKE 10 年近くにわたり、ウェブ アプリケーションやマイクロサービスの実行に最適なプラットフォームとして選ばれてきました。現在では AI ワークロードのトレーニングとサービングに適した、費用対効果とスケーラビリティに優れたオープン プラットフォームとなりました。GKE Autopilot は運用コストを削減し、ワークロード レベルの SLA を提供する、推論ワークロードに最適な選択肢です。ワークロードを構築したら、あとは Google にお任せください。1 GPU2 GPU4 GPU A3 High マシンタイプは、GKE Standard GKE Autopilot のどちらの運用モードでも使用できます。

以下に、Spot VM Dynamic Workload Scheduler Flex Start モードを使用して、GKE クラスタで a3-highgpu-1g マシンタイプのノードプールを作成する 2 つの例を紹介します。

GKE での Spot VM の使用

gcloud API を使用して GKE a3-highgpu-1g Spot VM をリクエストおよびデプロイする方法は以下のとおりです。

読み込んでいます...

GKE での Dynamic Workload Scheduler Flex Start モードの使用

GKE Dynamic Workload Scheduler Flex Start モードを使用して a3-highgpu-1g をリクエストする方法は以下のとおりです。

読み込んでいます...

これにより、Dynamic Workload Scheduler が有効で、ノード数がゼロの GKE ノードプールが作成されます。この場合、Dynamic Workload Scheduler でワークロードを実行できます。

Vertex AI

Vertex AI は、予測 AI と生成 AI を構築、使用するための Google Cloud のフルマネージド統合 AI 開発プラットフォームです。新しい 1 GPU2 GPU4 GPU A3 High マシンタイプにより、Model Garden をご利用のお客様は、数百のオープンモデルを費用対効果とパフォーマンスに優れた方法でデプロイできます。

お客様の声

「当社では、AI を活用したソフトウェア開発製品のバックエンドを実行するために Google Kubernetes Engine を使用しています。小さい A3 マシンタイプにより、A2 マシンタイプと比較してリアルタイムのコードアシスト モデルのレイテンシを 36% 削減でき、ユーザー エクスペリエンスが大幅に向上しました。」- Tabnine、研究開発担当バイス プレジデント、Eran Dvey Aharon

使ってみる

Google Cloud の目標は、AI モデルと ML モデルの推論を費用対効果とパフォーマンスに優れた方法で実行するために必要な柔軟性を提供することです。NVIDIA H100 80 GB GPU を使用した A3 High VM を小さいマシンタイプで利用できるようになったことで、コストを抑えながらユーザーの需要に応じてスケーリングするために必要なきめ細かい制御が可能になります。


1. AI 推論や ML 推論とは、トレーニングされた AI モデルがトレーニング データを使用して出力データを計算するか、新しいデータポイントやシナリオについて予測を行うプロセスのことです。

-Google Kubernetes Engine、シニア プロダクト マネージャー Ishan Sharma
-Google Compute Engine、プロダクト マネージャー Tanvi Srivastava

 

投稿先