GPU プラットフォーム


Compute Engine は、仮想マシン(VM)インスタンスに追加できるグラフィック プロセッシング ユニット(GPU)を備えています。これらの GPU を使用して、VM で実行される ML やデータ処理などの特定のワークロードを高速化できます。

Compute Engine では NVIDIA GPU が VM にパススルー モードで提供されるため、VM で GPU と関連メモリを直接制御できます。

3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。

このドキュメントでは、Compute Engine で使用可能な別の GPU モデルの概要について説明します。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

コンピューティング ワークロード用の NVIDIA GPU

コンピューティング ワークロードの場合、GPU モデルは次の段階で利用できます。

  • NVIDIA L4: 一般提供
  • NVIDIA® A100
    • NVIDIA A100 40 GB: 一般提供
    • NVIDIA A100 80 GB: 一般提供
  • NVIDIA T4: nvidia-tesla-t4: 一般提供
  • NVIDIA V100: nvidia-tesla-v100: 一般提供
  • NVIDIA P100: nvidia-tesla-p100: 一般提供
  • NVIDIA P4: nvidia-tesla-p4: 一般提供
  • NVIDIA K80: nvidia-tesla-k80: 一般提供NVIDIA K80 EOL をご覧ください。

NVIDIA L4 GPU

NVIDIA L4 GPU を実行するには、G2 アクセラレータ最適化マシンタイプを使用する必要があります。

各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。

GPU モデル マシンタイプ GPU GPU メモリ vCPU デフォルトのメモリ カスタムメモリ範囲 サポート対象の最大ローカル SSD
NVIDIA L4 g2-standard-4 1 個の GPU 24 GB GDDR6 4 vCPU 16 GB 16~32 GB 375 GB
g2-standard-8 1 個の GPU 24 GB GDDR6 8 vCPU 32 GB 32~54 GB 375 GB
g2-standard-12 1 個の GPU 24 GB GDDR6 12 vCPU 48 GB 48~54 GB 375 GB
g2-standard-16 1 個の GPU 24 GB GDDR6 16 vCPU 64 GB 54~64 GB 375 GB
g2-standard-24 2 GPU 48 GB GDDR6 24 vCPU 96 GB 96~108 GB 750 GB
g2-standard-32 1 個の GPU 24 GB GDDR6 32 vCPU 128 GB 96~128 GB 375 GB
g2-standard-48 4 GPU 96 GB GDDR6 48 vCPU 192 GB 192~216 GB 1,500 GB
g2-standard-96 8 GPU 192 GB GDDR6 96 vCPU 384 GB 384~432 GB 3,000 GB

NVIDIA A100 GPU

NVIDIA A100 GPU を実行するには、A2 アクセラレータ最適化マシンタイプを使用する必要があります。

各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A100 40 GB

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA A100 40 GB a2-highgpu-1g 1 個の GPU 40 GB HBM2 12 vCPU 85 GB はい
a2-highgpu-2g 2 GPU 80 GB HBM2 24 vCPU 170 GB はい
a2-highgpu-4g 4 GPU 160 GB HBM2 48 vCPU 340 GB はい
a2-highgpu-8g 8 GPU 320 GB HBM2 96 vCPU 680 GB はい
a2-megagpu-16g 16 GPU 640 GB HBM2 96 vCPU 1,360 GB はい

A100 80 GB

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA A100 80 GB a2-ultragpu-1g 1 個の GPU 80 GB HBM2e 12 vCPU 170 GB バンドル(375 GB)
a2-ultragpu-2g 2 GPU 160 GB HBM2e 24 vCPU 340 GB バンドル(750 GB)
a2-ultragpu-4g 4 GPU 320 GB HBM2e 48 vCPU 680 GB バンドル(1.5 TB)
a2-ultragpu-8g 8 GPU 640 GB HBM2e 96 vCPU 1,360 GB バンドル(3 TB)

NVIDIA T4 GPU

GPU 数が少ない VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA T4 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB GDDR6 1~48 vCPU 1~312 GB はい
2 GPU 32 GB GDDR6 1~48 vCPU 1~312 GB はい
4 GPU 64 GB GDDR6 1~96 vCPU 1~624 GB はい

NVIDIA P4 GPU

P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P4 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 8 GB GDDR5 1~24 vCPU 1~156 GB はい
2 GPU 16 GB GDDR5 1~48 vCPU 1~312 GB はい
4 GPU 32 GB GDDR5 1~96 vCPU 1~624 GB はい

NVIDIA V100 GPU

V100 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA V100 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB HBM2 1~12 vCPU 1~78 GB はい
2 GPU 32 GB HBM2 1~24 vCPU 1~156 GB はい
4 GPU 64 GB HBM2 1~48 vCPU 1~312 GB はい
8 GPU 128 GB HBM2 1~96 vCPU 1~624 GB はい

NVIDIA P100 GPU

一部の P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P100 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB HBM2 1~16 vCPU 1~104 GB はい
2 GPU 32 GB HBM2 1~32 vCPU 1~208 GB はい
4 GPU 64 GB HBM2

1~64 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1~96 vCPU
(すべての P100 ゾーン)

1~208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1~624 GB
(すべての P100 ゾーン)

はい

NVIDIA K80 GPU

NVIDIA K80 ボードには、それぞれ 2 個の GPU が搭載されています。K80 GPU の料金は、ボード単位ではなく、GPU 単位で課金されます。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA K80 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 12 GB GDDR5 1~8 vCPU 1~52 GB はい
2 GPU 24 GB GDDR5 1~16 vCPU 1~104 GB はい
4 GPU 48 GB GDDR5 1~32 vCPU 1~208 GB はい
8 GPU 96 GB GDDR5 1~64 vCPU

1~416 GB
(asia-east1-a と us-east1-d)

1~208 GB
(すべての K80 ゾーン)

はい

グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション(vWS)

3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション(vWS)ライセンスが VM に自動的に追加されます。

仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション(vWS)モデルは次のステージで使用できます。

  • NVIDIA L4 仮想ワークステーション: nvidia-l4-vws: 一般提供
  • NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws: 一般提供
  • NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws: 一般提供
  • NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws: 一般提供

NVIDIA L4 vWS GPU

GPU モデル マシンタイプ GPU GPU メモリ vCPU デフォルトのメモリ カスタムメモリ範囲 サポート対象の最大ローカル SSD
NVIDIA L4 仮想ワークステーション g2-standard-4 1 個の GPU 24 GB GDDR6 4 vCPU 16 GB 16~32 GB 375 GB
g2-standard-8 1 個の GPU 24 GB GDDR6 8 vCPU 32 GB 32~54 GB 375 GB
g2-standard-12 1 個の GPU 24 GB GDDR6 12 vCPU 48 GB 48~54 GB 375 GB
g2-standard-16 1 個の GPU 24 GB GDDR6 16 vCPU 64 GB 54~64 GB 375 GB
g2-standard-24 2 GPU 48 GB GDDR6 24 vCPU 96 GB 96~108 GB 750 GB
g2-standard-32 1 個の GPU 24 GB GDDR6 32 vCPU 128 GB 96~128 GB 375 GB
g2-standard-48 4 GPU 96 GB GDDR6 48 vCPU 192 GB 192~216 GB 1,500 GB
g2-standard-96 8 GPU 192 GB GDDR6 96 vCPU 384 GB 384~432 GB 3,000 GB

NVIDIA T4 vWS GPU

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA T4 仮想ワークステーション N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB GDDR6 1~48 vCPU 1~312 GB はい
2 GPU 32 GB GDDR6 1~48 vCPU 1~312 GB はい
4 GPU 64 GB GDDR6 1~96 vCPU 1~624 GB はい

NVIDIA P4 vWS GPU

P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P4 仮想ワークステーション N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 8 GB GDDR5 1~16 vCPU 1~156 GB はい
2 GPU 16 GB GDDR5 1~48 vCPU 1~312 GB はい
4 GPU 32 GB GDDR5 1~96 vCPU 1~624 GB はい

NVIDIA P100 vWS GPU

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P100 仮想ワークステーション N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB HBM2 1~16 vCPU 1~104 GB はい
2 GPU 32 GB HBM2 1~32 vCPU 1~208 GB はい
4 GPU 64 GB HBM2

1~64 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1~96 vCPU
(すべての P100 ゾーン)

1~208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1~624 GB
(すべての P100 ゾーン)

はい

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロード タイプを示します。

GPU モデル メモリ 相互接続 NVIDIA RTX 仮想ワークステーション(vWS)のサポート 最適な用途
A100 80 GB 80 GB HBM2e@ 1.9 TB/秒 NVLink Full Mesh@ 600 GB/秒 ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB 40 GB HBM2@ 1.6 TB/秒 NVLink Full Mesh@ 600 GB/秒 ML のトレーニング、推論、HPC
L4 24 GB GDDR6@ 300 GB/秒 なし ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4 16 GB GDDR6@ 320 GB/秒 なし ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100 16 GB HBM2@ 900 GB/秒 NVLink Ring@ 300 GB/秒 ML のトレーニング、推論、HPC
P4 8 GB GDDR5@ 192 GB/秒 なし リモート可視化のワークステーション、ML における推論、動画のコード変換
P100 16 GB HBM2@ 732 GB/秒 なし ML のトレーニング、推論、HPC、リモート可視化のワークステーション
K80EOL 12 GB GDDR5@ 240 GB/秒 なし ML における推論、トレーニング、HPC

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティング パフォーマンス

GPU モデル FP64 FP32 FP16 INT8
A100 80 GB 9.7 TFLOPS 19.5 TFLOPS
A100 40 GB 9.7 TFLOPS 19.5 TFLOPS
L4 0.5 TFLOPS* 30.3 TFLOPS
T4 0.25 TFLOPS* 8.1 TFLOPS
V100 7.8 TFLOPS 15.7 TFLOPS
P4 0.2 TFLOPS* 5.5 TFLOPS 22 TOPS
P100 4.7 TFLOPS 9.3 TFLOPS 18.7 TFLOPS
K80EOL 1.46 TFLOPS 4.37 TFLOPS

*FP64 コードを正しく動作させるため、T4、L4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。

TeraOperations/秒

Tensor Core のパフォーマンス

GPU モデル FP64 TF32 混合精度 FP16/FP32 INT8 INT4 FP8
A100 80 GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1,248 TOPS
A100 40 GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1,248 TOPS
L4 60.6 TFLOPS 121 TFLOPS 242 TOPS 485 TOPS 242 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100
K80EOL

*混合精度トレーニングでは、NVIDIA A100 は bfloat16 データ型もサポートします。

L4 GPU では構造的スパース性がサポートされており、これを使用して上述の 2 倍のパフォーマンス値を実現できます。

次のステップ