Compute Engine で GPU を使用すると、ML やデータ処理など、VM 上の特定のワークロードを高速化できます。GPU を使用するには、GPU を接続したアクセラレータ最適化 VM をデプロイするか、GPU を N1 汎用 VM に接続します。
Compute Engine では、VM で GPU と関連メモリを直接制御できるように、GPU が VM にパススルー モードで提供されます。
Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。
このドキュメントでは、Compute Engine で使用可能な別の GPU VM の概要について説明します。
Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。
コンピューティング ワークロード用 GPU
コンピューティング ワークロードの場合、GPU は次のマシンタイプでサポートされています。
- A3 VM: これらの VM には NVIDIA H100 80 GB GPU が自動的にアタッチされます。
- A2 VM: これらの VM には、NVIDIA A100 80 GB または NVIDIA A100 40 GB GPU が自動的にアタッチされます。
- G2 VM: これらの VM には NVIDIA L4 GPU が自動的にアタッチされます。
- N1 VM: これらの VM では、NVIDIA T4、NVIDIA V100、NVIDIA P100、NVIDIA P4 の GPU モデルをアタッチできます。
A3 マシンシリーズ
NVIDIA H100 80 GB GPU を実行するには、A3 アクセラレータ最適化マシンを使用する必要があります。各 A3 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。
A3 マシンシリーズは次の 2 つのタイプで用意されています。
a3-highgpu-8g
: これらのマシンタイプには、H100 80 GB GPU(nvidia-h100-80gb
)とローカル SSD ディスクがアタッチされており、最大ネットワーク帯域幅速度は 1,000 Gbps です。a3-megagpu-8g
: これらのマシンタイプには、H100 80 GB Mega GPU(nvidia-h100-mega-80gb
)とローカル SSD ディスクがアタッチされており、最大ネットワーク帯域幅速度は 1,800 Gbps です。
マシンタイプ | GPU 数 | GPU メモリ* (GB HBM3) |
vCPU 数 | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps) | |
---|---|---|---|---|---|---|---|
VM | GPU クラスタ | ||||||
a3-highgpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 200 | 800 |
a3-megagpu-8g |
8 | 640 | 208 | 1,872 | 6,000 | 200 | 1,600 |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
A2 マシンシリーズ
Google Cloud で NVIDIA A100 GPU を使用するには、A2 アクセラレータ最適化マシンをデプロイする必要があります。各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。
A2 マシンシリーズは次の 2 つのタイプで用意されています。
- A2 Standard: これらのマシンタイプには A100 40 GB GPU(
nvidia-tesla-a100
)がアタッチされています。 - A2 Ultra: A100 80 GB GPU(
nvidia-a100-80gb
)とローカル SSD ディスクがアタッチされるマシンタイプです。
A2 標準
マシンタイプ | GPU 数 | GPU メモリ*(GB HBM2) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD | 最大ネットワーク帯域幅(Gbps) |
---|---|---|---|---|---|---|
a2-highgpu-1g |
1 | 40 | 12 | 85 | はい | 24 |
a2-highgpu-2g |
2 | 80 | 24 | 170 | はい | 32 |
a2-highgpu-4g |
4 | 160 | 48 | 340 | はい | 50 |
a2-highgpu-8g |
8 | 320 | 96 | 680 | はい | 100 |
a2-megagpu-16g |
16 | 640 | 96 | 1,360 | はい | 100 |
A2 Ultra
マシンタイプ | GPU 数 | GPU メモリ*(GB HBM2e) | vCPU 数 | VM メモリ(GB) | アタッチされたローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps) |
---|---|---|---|---|---|---|
a2-ultragpu-1g |
1 | 80 | 12 | 170 | 375 | 24 |
a2-ultragpu-2g |
2 | 160 | 24 | 340 | 750 | 32 |
a2-ultragpu-4g |
4 | 320 | 48 | 680 | 1,500 | 50 |
a2-ultragpu-8g |
8 | 640 | 96 | 1,360 | 3,000 | 100 |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
G2 マシンシリーズ
NVIDIA L4 GPU(nvidia-l4
または nvidia-l4-vws
)を使用するには、G2 アクセラレータ最適化マシンをデプロイする必要があります。
各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。
マシンタイプ | GPU 数 | GPU メモリ*(GB GDDR6) | vCPU 数 | デフォルトの VM メモリ(GB) | カスタム VM メモリ範囲(GB) | サポート対象の最大ローカル SSD(GiB) | 最大ネットワーク帯域幅(Gbps) |
---|---|---|---|---|---|---|---|
g2-standard-4 |
1 | 24 | 4 | 16 | 16~32 | 375 | 10 |
g2-standard-8 |
1 | 24 | 8 | 32 | 32~54 | 375 | 16 |
g2-standard-12 |
1 | 24 | 12 | 48 | 48~54 | 375 | 16 |
g2-standard-16 |
1 | 24 | 16 | 64 | 54~64 | 375 | 32 |
g2-standard-24 |
2 | 48 | 24 | 96 | 96~108 | 750 | 32 |
g2-standard-32 |
1 | 24 | 32 | 128 | 96~128 | 375 | 32 |
g2-standard-48 |
4 | 96 | 48 | 192 | 192~216 | 1,500 | 50 |
g2-standard-96 |
8 | 192 | 96 | 384 | 384~432 | 3,000 | 100 |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
N1 マシンシリーズ
N1 共有コア マシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。
GPU 数が少ない N1 VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きい VM インスタンスを作成できます。
N1+T4 GPU
次の VM 構成で、NVIDIA T4 GPU を N1 汎用 VM に接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB GDDR6) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 またはnvidia-tesla-t4-vws |
1 | 16 | 1~48 | 1~312 | はい |
2 | 32 | 1~48 | 1~312 | はい | |
4 | 64 | 1~96 | 1~624 | はい |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
N1+P4 GPU
次の VM 構成で、NVIDIA P4 GPU を N1 汎用 VM に接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB GDDR5) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 またはnvidia-tesla-p4-vws |
1 | 8 | 1~24 | 1~156 | はい |
2 | 16 | 1~48 | 1~312 | はい | |
4 | 32 | 1~96 | 1~624 | はい |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
†NVIDIA P4 GPU が接続されている VM の場合、ローカル SSD ディスクはゾーン us-central1-c
と northamerica-northeast1-b
でのみサポートされます。
N1+V100 GPU
次の VM 構成で、NVIDIA V100 GPU を N1 汎用 VM に接続できます。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB HBM2) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1~12 | 1~78 | はい |
2 | 32 | 1~24 | 1~156 | はい | |
4 | 64 | 1~48 | 1~312 | はい | |
8 | 128 | 1~96 | 1~624 | はい |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
†NVIDIA V100 GPU が接続されている VM の場合、us-east1-c
ではローカル SSD ディスクがサポートされていません。
N1+P100 GPU
次の VM 構成で、NVIDIA P100 GPU を N1 汎用 VM に接続できます。
一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。
アクセラレータ タイプ | GPU 数 | GPU メモリ*(GB HBM2) | vCPU 数 | VM メモリ(GB) | サポート対象のローカル SSD |
---|---|---|---|---|---|
nvidia-tesla-p100 またはnvidia-tesla-p100-vws |
1 | 16 | 1~16 | 1~104 | はい |
2 | 32 | 1~32 | 1~208 | はい | |
4 | 64 | 1~64 1~96 |
1~208 1~624 |
はい |
*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション(vWS)
3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション(vWS)ライセンスが VM に自動的に追加されます。
仮想ワークステーションの料金については、GPU の料金ページをご覧ください。
グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション(vWS)モデルは以下のシリーズで使用できます。
G2 マシンシリーズ: G2 マシンタイプでは、NVIDIA L4 仮想ワークステーション(vWS)を有効にできます。
nvidia-l4-vws
N1 マシンシリーズ: N1 マシンタイプの場合、次の仮想ワークステーションを有効にできます。
- NVIDIA T4 仮想ワークステーション:
nvidia-tesla-t4-vws
- NVIDIA P100 仮想ワークステーション:
nvidia-tesla-p100-vws
- NVIDIA P4 仮想ワークステーション:
nvidia-tesla-p4-vws
- NVIDIA T4 仮想ワークステーション:
一般的な比較表
次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロード タイプを示します。
GPU モデル | GPU メモリ | 相互接続 | NVIDIA RTX 仮想ワークステーション(vWS)のサポート | 最適な用途 |
---|---|---|---|---|
H100 80GB | 80 GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
A100 80 GB | 80 GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル | |
A100 40 GB | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | ML のトレーニング、推論、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | なし | ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | なし | ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | ML のトレーニング、推論、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | なし | リモート可視化のワークステーション、ML における推論、動画のコード変換 | |
P100 | 16 GB HBM2 @ 732 GBps | なし | ML のトレーニング、推論、HPC、リモート可視化のワークステーション |
Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。
パフォーマンスの比較グラフ
次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。
コンピューティング パフォーマンス
GPU モデル | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
H100 80GB | 34 TFLOPS | 67 TFLOPS | ||
A100 80 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*FP64 コードを正しく動作させるため、T4、L4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。
†TeraOperations/秒
Tensor Core のパフォーマンス
GPU モデル | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
H100 80GB | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1,248 TOPS | |
A100 40 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1,248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*、† | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
* 混合精度トレーニングでは、NVIDIA H100、A100、L4 GPU は bfloat16
データ型もサポートします。
† H100 GPU と L4 GPU では、構造的スパース性がサポートされており、これを使用してパフォーマンス値を 2 倍にできます。表示される値にはスパース性があります。スパース性なしでは、仕様は半減します。
次のステップ
- Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
- GPU のリージョンとゾーンの可用性を確認する。
- GPU の料金について学習する。