Compute Engine は、仮想マシン(VM)インスタンスに追加できるグラフィック プロセッシング ユニット(GPU)を備えています。これらの GPU を使用して、VM で実行される機械学習やデータ処理などの特定のワークロードを高速化できます。
Compute Engine では NVIDIA GPU が VM にパススルー モードで提供されるため、VM で GPU と関連メモリを直接制御できます。
3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。
このドキュメントでは、Compute Engine で使用可能な別の GPU モデルの概要について説明します。
Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。
コンピューティング ワークロード用の NVIDIA GPU
コンピューティング ワークロードの場合、GPU モデルは次の段階で利用できます。
- NVIDIA A100
- NVIDIA A100 40GB: 一般提供
- NVIDIA A100 80GB: 一般提供
- NVIDIA T4:
nvidia-tesla-t4
: 一般提供 - NVIDIA V100:
nvidia-tesla-v100
: 一般提供 - NVIDIA P100:
nvidia-tesla-p100
: 一般提供 - NVIDIA P100:
nvidia-tesla-p4
: 一般提供 - NVIDIA K80:
nvidia-tesla-k80
: 一般提供
NVIDIA A100 GPU
NVIDIA A100 GPU を実行する場合は、アクセラレータ最適化(A2)マシンタイプを使用する必要があります。
各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。
A100 40GB
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA A100 40GB | a2-highgpu-1g |
1 GPU | 40 GB HBM2 | 12 vCPU | 85 GB | あり |
a2-highgpu-2g |
2 GPU | 80 GB HBM2 | 24 vCPU | 170 GB | あり | |
a2-highgpu-4g |
4 GPU | 160 GB HBM2 | 48 vCPU | 340 GB | あり | |
a2-highgpu-8g |
8 GPU | 320 GB HBM2 | 96 vCPU | 680 GB | あり | |
a2-megagpu-16g |
16 GPU | 640 GB HBM2 | 96 vCPU | 1,360 GB | あり |
A100 80GB
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA A100 80GB | a2-ultragpu-1g |
1 GPU | 80 GB HBM2e | 12 vCPU | 170 GB | バンドル(375 GB) |
a2-ultragpu-2g |
2 GPU | 160 GB HBM2e | 24 vCPU | 340 GB | バンドル(750 GB) | |
a2-ultragpu-4g |
4 GPU | 320 GB HBM2e | 48 vCPU | 680 GB | バンドル(1.5 TB) | |
a2-ultragpu-8g |
8 GPU | 640 GB HBM2e | 96 vCPU | 1,360 GB | バンドル(3 TB) |
NVIDIA T4 GPU
GPU 数が少ない VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA T4 | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 16 GB GDDR6 | 1~48 vCPU | 1~312 GB | あり |
2 GPU | 32 GB GDDR6 | 1~48 vCPU | 1~312 GB | あり | ||
4 GPU | 64 GB GDDR6 | 1~96 vCPU | 1~624 GB | あり |
NVIDIA P4 GPUs
P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA P4 | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 8 GB GDDR5 | 1~24 vCPU | 1~156 GB | あり |
2 GPU | 16 GB GDDR5 | 1~48 vCPU | 1~312 GB | あり | ||
4 GPU | 32 GB GDDR5 | 1~96 vCPU | 1~624 GB | あり |
NVIDIA V100 GPUs
V100 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA V100 | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 16 GB HBM2 | 1~12 vCPU | 1~78 GB | あり |
2 GPU | 32 GB HBM2 | 1~24 vCPU | 1~156 GB | あり | ||
4 GPU | 64 GB HBM2 | 1~48 vCPU | 1~312 GB | あり | ||
8 GPU | 128 GB HBM2 | 1~96 vCPU | 1~624 GB | あり |
NVIDIA P100 GPUs
P100 GPU によっては、一部の構成で使用可能な最大 CPU とメモリが、GPU リソースを使用するゾーンによって異なります。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA P100 | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 16 GB HBM2 | 1~16 vCPU | 1~104 GB | あり |
2 GPU | 32 GB HBM2 | 1~32 vCPU | 1~208 GB | あり | ||
4 GPU | 64 GB HBM2 | 1~64 vCPU 1~96 vCPU |
1~208 GB 1~624 GB |
あり |
NVIDIA K80 GPUs
NVIDIA K80 ボードには、それぞれ 2 個の GPU が搭載されています。K80 GPU の料金は、ボード単位ではなく、GPU 単位で課金されます。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA K80 | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 12 GB GDDR5 | 1~8 vCPU | 1~52 GB | あり |
2 GPU | 24 GB GDDR5 | 1~16 vCPU | 1~104 GB | あり | ||
4 GPU | 48 GB GDDR5 | 1~32 vCPU | 1~208 GB | あり | ||
8 GPU | 96 GB GDDR5 | 1~64 vCPU | 1~416 GB 1~208 GB |
あり |
グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション
3D 表示などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション ライセンスが自動的に VM に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。
グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション モデルは次の段階で利用できます。
- NVIDIA T4 仮想ワークステーション:
nvidia-tesla-t4-vws
: 一般提供 - NVIDIA P100 仮想ワークステーション:
nvidia-tesla-p100-vws
: 一般提供 - NVIDIA P4 仮想ワークステーション:
nvidia-tesla-p4-vws
: 一般提供
NVIDIA T4 VWS GPUs
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA T4 仮想ワークステーション | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 16 GB GDDR6 | 1~48 vCPU | 1~312 GB | あり |
2 GPU | 32 GB GDDR6 | 1~48 vCPU | 1~312 GB | あり | ||
4 GPU | 64 GB GDDR6 | 1~96 vCPU | 1~624 GB | あり |
NVIDIA P4 VWS GPUs
P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA P4 仮想ワークステーション | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 8 GB GDDR5 | 1~16 vCPU | 1~156 GB | あり |
2 GPU | 16 GB GDDR5 | 1~48 vCPU | 1~312 GB | あり | ||
4 GPU | 32 GB GDDR5 | 1~96 vCPU | 1~624 GB | あり |
NVIDIA P100 VWS GPUs
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ | サポート対象のローカル SSD |
---|---|---|---|---|---|---|
NVIDIA P100 仮想ワークステーション | N1 共有コアを除く N1 マシンシリーズ | 1 GPU | 16 GB HBM2 | 1~16 vCPU | 1~104 GB | あり |
2 GPU | 32 GB HBM2 | 1~32 vCPU | 1~208 GB | あり | ||
4 GPU | 64 GB HBM2 | 1~64 vCPU 1~96 vCPU |
1~208 GB 1~624 GB |
あり |
一般的な比較表
次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的な ワークロード タイプを示します。
GPU モデル | メモリ | 相互接続 | NVIDIA RTX 仮想ワークステーションのサポート | 最適な用途 |
---|---|---|---|---|
A100 80GB | 80 GB HBM2e @ 1.9 TB/秒 | NVLink Full Mesh@ 600 GB/秒 | ML トレーニング、推論、HPC、BERT、DLRM 用の膨大なデータテーブルを持つ大規模なモデル | |
A100 40GB | 40 GB HBM2@ 1.6 TB/秒 | NVLink Full Mesh@ 600 GB/秒 | 機械学習のトレーニング、推論、HPC | |
T4 | 16 GB GDDR6@ 320 GB/秒 | 該当なし | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換 | |
V100 | 16 GB HBM2@ 900 GB/秒 | NVLink Ring@ 300 GB/秒 | 機械学習のトレーニング、推論、HPC | |
P4 | 8 GB GDDR5@ 192 GB/秒 | 該当なし | リモート可視化のワークステーション、機械学習における推論、動画のコード変換 | |
P100 | 16 GB HBM2@ 732 GB/秒 | 該当なし | 機械学習のトレーニング、推論、HPC、リモート可視化のワークステーション | |
K80 | 12 GB GDDR5@ 240 GB/秒 | 該当なし | 機械学習における推論、トレーニング、HPC |
Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。
パフォーマンス比較表
次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。
コンピューティング パフォーマンス
GPU モデル | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS | |
K80 | 1.46 TFLOPS | 4.37 TFLOPS |
* FP64 コードを正しく動作させるため、T4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
†TeraOperations per Second.
Tensor Core のパフォーマンス
GPU モデル | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 |
---|---|---|---|---|---|
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS |
T4 | 65 TFLOPS | 180 TOPS | 260 TOPS | ||
V100 | 125 TFLOPS | ||||
P4 | |||||
P100 | |||||
K80 |
* 混合精度トレーニングでは、NVIDIA A100 は bfloat16
データ型もサポートします。
次のステップ
- Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
- GPU のリージョンとゾーンの可用性を確認する。
- GPU の料金について学習する。