Compute Engine は、仮想マシン(VM)インスタンスに追加できるグラフィック プロセッシング ユニット(GPU)を備えています。これらの GPU を使用して、VM で実行される機械学習やデータ処理などの特定のワークロードを高速化できます。
Compute Engine では NVIDIA GPU が VM にパススルー モードで提供されるため、VM で GPU と関連メモリを直接制御できます。
3D 表示、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。
このドキュメントでは、Compute Engine で使用可能な別の GPU モデルの概要について説明します。
Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。
コンピューティング ワークロード用の NVIDIA GPU
コンピューティング ワークロードの場合、GPU モデルは次の段階で利用できます。
- NVIDIA A100: 一般提供
- NVIDIA T4:
nvidia-tesla-t4
: 一般提供 - NVIDIA V100:
nvidia-tesla-v100
: 一般提供 - NVIDIA P100:
nvidia-tesla-p100
: 一般提供 - NVIDIA P100:
nvidia-tesla-p4
: 一般提供 - NVIDIA K80:
nvidia-tesla-k80
: 一般提供
NVIDIA A100 GPU
NVIDIA A100 GPU を実行する場合は、アクセラレータ最適化(A2)マシンタイプを使用する必要があります。
各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。
GPU モデル | マシンタイプ | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|---|
NVIDIA A100 | a2-highgpu-1g |
1 GPU | 40 GB HBM2 | 12 vCPU | 85 GB |
a2-highgpu-2g |
2 GPU | 80 GB HBM2 | 24 vCPU | 170 GB | |
a2-highgpu-4g |
4 GPU | 160 GB HBM2 | 48 vCPU | 340 GB | |
a2-highgpu-8g |
8 GPU | 320 GB HBM2 | 96 vCPU | 680 GB | |
a2-megagpu-16g |
16 GPU | 640 GB HBM2 | 96 vCPU | 1,360 GB |
NVIDIA T4 GPU
GPU 数が少ない VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA T4 | 1 GPU | 16 GB GDDR6 | 1~48 vCPU | 1~312 GB |
2 GPU | 32 GB GDDR6 | 1~48 vCPU | 1~312 GB | |
4 GPU | 64 GB GDDR6 | 1~96 vCPU | 1~624 GB |
NVIDIA P4 GPU
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA P4 | 1 GPU | 8 GB GDDR5 | 1~24 vCPU | 1~156 GB |
2 GPU | 16 GB GDDR5 | 1~48 vCPU | 1~312 GB | |
4 GPU | 32 GB GDDR5 | 1~96 vCPU | 1~624 GB |
NVIDIA V100 GPU
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA V100 | 1 GPU | 16 GB HBM2 | 1~12 vCPU | 1~78 GB |
2 GPU | 32 GB HBM2 | 1~24 vCPU | 1~156 GB | |
4 GPU | 64 GB HBM2 | 1~48 vCPU | 1~312 GB | |
8 GPU | 128 GB HBM2 | 1~96 vCPU | 1~624 GB |
NVIDIA P100 GPU
P100 GPU によっては、一部の構成で使用可能な最大 CPU とメモリが、GPU リソースを使用するゾーンによって異なります。
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA P100 | 1 GPU | 16 GB HBM2 | 1~16 vCPU | 1~104 GB |
2 GPU | 32 GB HBM2 | 1~32 vCPU | 1~208 GB | |
4 GPU | 64 GB HBM2 | 1~64 vCPU 1~96 vCPU |
1~208 GB 1~624 GB |
NVIDIA K80 GPU
NVIDIA K80 ボードには、それぞれ 2 個の GPU が搭載されています。K80 GPU の料金は、ボード単位ではなく、GPU 単位で課金されます。
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA K80 | 1 GPU | 12 GB GDDR5 | 1~8 vCPU | 1~52 GB |
2 GPU | 24 GB GDDR5 | 1~16 vCPU | 1~104 GB | |
4 GPU | 48 GB GDDR5 | 1~32 vCPU | 1~208 GB | |
8 GPU | 96 GB GDDR5 | 1~64 vCPU | 1~416 GB 1~208 GB |
グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション
3D 表示などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション ライセンスが自動的に VM に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。
グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション モデルは次の段階で利用できます。
- NVIDIA T4 仮想ワークステーション:
nvidia-tesla-t4-vws
: 一般提供 - NVIDIA P100 仮想ワークステーション:
nvidia-tesla-p100-vws
: 一般提供 - NVIDIA P4 仮想ワークステーション:
nvidia-tesla-p4-vws
: 一般提供
NVIDIA T4 VWS GPU
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA T4 仮想ワークステーション | 1 GPU | 16 GB GDDR6 | 1~48 vCPU | 1~312 GB |
2 GPU | 32 GB GDDR6 | 1~48 vCPU | 1~312 GB | |
4 GPU | 64 GB GDDR6 | 1~96 vCPU | 1~624 GB |
NVIDIA P4 VWS GPU
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA P4 仮想ワークステーション | 1 GPU | 8 GB GDDR5 | 1~16 vCPU | 1~156 GB |
2 GPU | 16 GB GDDR5 | 1~48 vCPU | 1~312 GB | |
4 GPU | 32 GB GDDR5 | 1~96 vCPU | 1~624 GB |
NVIDIA P100 VWS GPU
GPU モデル | GPU | GPU メモリ | 利用可能な vCPU 数 | 利用可能なメモリ |
---|---|---|---|---|
NVIDIA P100 仮想ワークステーション | 1 GPU | 16 GB HBM2 | 1~16 vCPU | 1~104 GB |
2 GPU | 32 GB HBM2 | 1~32 vCPU | 1~208 GB | |
4 GPU | 64 GB HBM2 | 1~64 vCPU 1~96 vCPU |
1~208 GB 1~624 GB |
一般的な比較表
次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的な ワークロード タイプを示します。
指標 | A100 | T4 | V100 | P4 | P100 | K80 |
---|---|---|---|---|---|---|
メモリ | 40 GB HBM2@ 1.6 TB/秒 | 16 GB GDDR6@ 320 GB/秒 | 16 GB HBM2@ 900 GB/秒 | 8 GB GDDR5@ 192 GB/秒 | 16 GB HBM2@ 732 GB/秒 | 12 GB GDDR5@ 240 GB/秒 |
相互接続 | NVLink Full Mesh@ 600 GB/秒 | 該当なし | NVLink Ring@ 300 GB/秒 | 該当なし | なし | 該当なし |
NVIDIA RTX 仮想ワークステーションのサポート | ||||||
最適な用途 | 機械学習のトレーニング、推論、HPC | 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換 | 機械学習のトレーニング、推論、HPC | リモート可視化のワークステーション、機械学習における推論、動画のコード変換 | 機械学習のトレーニング、推論、HPC、リモート可視化のワークステーション | 機械学習における推論、トレーニング、HPC |
料金 | Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。 |
パフォーマンスの比較表
次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。
指標 | A100 | T4 | V100 | P4 | P100 | K80 |
---|---|---|---|---|---|---|
コンピューティング パフォーマンス | ||||||
FP64 | 9.7 TFLOPS | 0.25 TFLOPS1 | 7.8 TFLOPS | 0.2 TFLOPS1 | 4.7 TFLOPS | 1.46 TFLOPS |
FP32 | 19.5 TFLOPS | 8.1 TFLOPS | 15.7 TFLOPS | 5.5 TFLOPS | 9.3 TFLOPS | 4.37 TFLOPS |
FP16 | 18.7 TFLOPS | |||||
INT8 | 22 TOPS2 | |||||
Tensor Core のパフォーマンス | ||||||
FP64 | 19.5 TFLOPS | |||||
TF32 | 156 TFLOPS | |||||
混合精度 FP16/FP32 | 312 TFLOPS3 | 65 TFLOPS | 125 TFLOPS | |||
INT8 | 624 TOPS2 | 180 TOPS2 | ||||
INT4 | 1,248 TOPS2 | 260 TOPS2 |
1 FP64 コードを正しく動作させるため、T4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
2 TeraOperations/秒
3 混合精度トレーニングでは、NVIDIA A100 は bfloat16
データ型もサポートします。
次のステップ
- Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
- GPU のリージョンとゾーンの可用性を確認する。
- GPU の料金について学習する。