GPU マシンタイプ

Compute Engine で GPU を使用すると、ML やデータ処理など、VM 上の特定のワークロードを高速化できます。GPU を使用するには、GPU を接続したアクセラレータ最適化 VM をデプロイするか、GPU を N1 汎用 VM に接続します。

Compute Engine では、VM で GPU と関連メモリを直接制御できるように、GPU が VM にパススルーモードで提供されます。

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。

3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション（旧称 NVIDIA GRID）を使用できます。

このドキュメントでは、Compute Engine で使用可能な別の GPU VM の概要について説明します。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

コンピューティングワークロード用 GPU

コンピューティングワークロードの場合、GPU は次のマシンタイプでサポートされています。

A3 VM: これらの VM には NVIDIA H100 80 GB GPU が自動的にアタッチされます。
A2 VM: これらの VM には、NVIDIA A100 80 GB または NVIDIA A100 40 GB GPU が自動的にアタッチされます。
G2 VM: これらの VM には NVIDIA L4 GPU が自動的にアタッチされます。
N1 VM: これらの VM では、NVIDIA T4、NVIDIA V100、NVIDIA P100、NVIDIA P4 の GPU モデルをアタッチできます。

A3 マシンシリーズ

NVIDIA H100 80 GB GPU を使用するには、A3 アクセラレータ最適化マシンを使用する必要があります。各 A3 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A3 マシンシリーズは次の 2 つのタイプで用意されています。

A3 High: これらのマシンタイプには、H100 80 GB GPU（nvidia-h100-80gb）とローカル SSD ディスクがアタッチされています。
A3 Mega: これらのマシンタイプには、H100 80 GB Mega GPU（nvidia-h100-mega-80gb）とローカル SSD ディスクがアタッチされています。

A3 High

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a3-highgpu-8g`	8	640	208	1,872	6,000	5	1,000

A3 Mega

マシンタイプ	GPU 数	GPU メモリ^* （GB HBM3）	vCPU 数^†	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）^‡
`a3-megagpu-8g`	8	640	208	1,872	6,000	9	1,800

^*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
^† vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェアハイパースレッドとして実装されます。
^‡ 最大下り（外向き）帯域幅は許容数を超えることはできません。実際の下り（外向き）帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。

A2 マシンシリーズ

Google Cloud で NVIDIA A100 GPU を使用するには、A2 アクセラレータ最適化マシンをデプロイする必要があります。各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A2 マシンシリーズは次の 2 つのタイプで用意されています。

A2 Standard: これらのマシンタイプには A100 40 GB GPU（nvidia-tesla-a100）がアタッチされています。
A2 Ultra: A100 80 GB GPU（nvidia-a100-80gb）とローカル SSD ディスクがアタッチされるマシンタイプです。

A2 標準

マシンタイプ	GPU 数	GPU メモリ^*（GB HBM2）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD	最大ネットワーク帯域幅（Gbps）
`a2-highgpu-1g`	1	40	12	85	はい	24
`a2-highgpu-2g`	2	80	24	170	はい	32
`a2-highgpu-4g`	4	160	48	340	はい	50
`a2-highgpu-8g`	8	320	96	680	はい	100
`a2-megagpu-16g`	16	640	96	1,360	はい	100

A2 Ultra

マシンタイプ	GPU 数	GPU メモリ^*（GB HBM2e）	vCPU 数	VM メモリ（GB）	アタッチされたローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）
`a2-ultragpu-1g`	1	80	12	170	375	24
`a2-ultragpu-2g`	2	160	24	340	750	32
`a2-ultragpu-4g`	4	320	48	680	1,500	50
`a2-ultragpu-8g`	8	640	96	1,360	3,000	100

^* GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

G2 マシンシリーズ

NVIDIA L4 GPU（nvidia-l4 または nvidia-l4-vws）を使用するには、G2 アクセラレータ最適化マシンをデプロイする必要があります。

各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。

マシンタイプ	GPU 数	GPU メモリ^*（GB GDDR6）	vCPU 数	デフォルトの VM メモリ（GB）	カスタム VM メモリ範囲（GB）	サポート対象の最大ローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）
`g2-standard-4`	1	24	4	16	16～32	375	10
`g2-standard-8`	1	24	8	32	32～54	375	16
`g2-standard-12`	1	24	12	48	48～54	375	16
`g2-standard-16`	1	24	16	64	54～64	375	32
`g2-standard-24`	2	48	24	96	96～108	750	32
`g2-standard-32`	1	24	32	128	96～128	375	32
`g2-standard-48`	4	96	48	192	192～216	1,500	50
`g2-standard-96`	8	192	96	384	384～432	3,000	100

N1 マシンシリーズ

N1 共有コアマシンタイプを除き、次の GPU モデルを N1 マシンタイプに接続できます。

GPU 数が少ない N1 VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きい VM インスタンスを作成できます。

N1+T4 GPU

次の VM 構成で、NVIDIA T4 GPU を N1 汎用 VM に接続できます。

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB GDDR6）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD
`nvidia-tesla-t4` または `nvidia-tesla-t4-vws`	1	16	1～48	1～312	はい
	2	32	1～48	1～312	はい
	4	64	1～96	1～624	はい

N1+P4 GPU

次の VM 構成で、NVIDIA P4 GPU を N1 汎用 VM に接続できます。

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB GDDR5）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD^†
`nvidia-tesla-p4` または `nvidia-tesla-p4-vws`	1	8	1～24	1～156	はい
	2	16	1～48	1～312	はい
	4	32	1～96	1～624	はい

^* GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
^†NVIDIA P4 GPU が接続されている VM の場合、ローカル SSD ディスクはゾーン us-central1-c と northamerica-northeast1-b でのみサポートされます。

N1+V100 GPU

次の VM 構成で、NVIDIA V100 GPU を N1 汎用 VM に接続できます。

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB HBM2）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD^†
`nvidia-tesla-v100`	1	16	1～12	1～78	はい
	2	32	1～24	1～156	はい
	4	64	1～48	1～312	はい
	8	128	1～96	1～624	はい

^* GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。
^† NVIDIA V100 GPU がアタッチされている VM の場合、us-east1-c ではローカル SSD ディスクがサポートされません。

N1+P100 GPU

次の VM 構成で、NVIDIA P100 GPU を N1 汎用 VM に接続できます。

一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

アクセラレータタイプ GPU 数 GPU メモリ^*（GB HBM2） vCPU 数 VM メモリ（GB）サポート対象のローカル SSD

nvidia-tesla-p100 または
nvidia-tesla-p100-vws 1 16 1～16 1～104 はい

2 32 1～32 1～208 はい

アクセラレータタイプ	GPU 数	GPU メモリ^*（GB HBM2）	vCPU 数	VM メモリ（GB）	サポート対象のローカル SSD
`nvidia-tesla-p100` または `nvidia-tesla-p100-vws`	1	16	1～16	1～104	はい
2	32	1～32	1～208	はい
4	64	1～64 （us-east1-c、europe-west1-d、europe-west1-b） 1～96 （すべての P100 ゾーン）	1～208 （us-east1-c、europe-west1-d、europe-west1-b） 1～624 （すべての P100 ゾーン）	はい

1～64
（us-east1-c、europe-west1-d、europe-west1-b）

1～96
（すべての P100 ゾーン）

1～208
（us-east1-c、europe-west1-d、europe-west1-b）

1～624
（すべての P100 ゾーン）

はい

グラフィックワークロード用の NVIDIA RTX 仮想ワークステーション（vWS）

3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション（vWS）（旧称 NVIDIA GRID）を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション（vWS）ライセンスが VM に自動的に追加されます。

仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

グラフィックワークロードの場合、NVIDIA RTX 仮想ワークステーション（vWS）モデルは以下のシリーズで使用できます。

G2 マシンシリーズ: G2 マシンタイプでは、NVIDIA L4 仮想ワークステーション（vWS）を有効にできます。nvidia-l4-vws
N1 マシンシリーズ: N1 マシンタイプの場合、次の仮想ワークステーションを有効にできます。
- NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws
- NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws
- NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロードタイプを示します。

GPU モデル	GPU メモリ	相互接続	最適な用途
H100 80GB	80 GB HBM3 @ 3.35 TBps	NVLink Full Mesh @ 900 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 80 GB	80 GB HBM2e @ 1.9 TBps	NVLink Full Mesh @ 600 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB	40 GB HBM2 @ 1.6 TBps	NVLink Full Mesh @ 600 GBps	ML のトレーニング、推論、HPC
L4	24 GB GDDR6 @ 300 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4	16 GB GDDR6 @ 320 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100	16 GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	ML のトレーニング、推論、HPC
P4	8 GB GDDR5 @ 192 GBps	なし	リモート可視化のワークステーション、ML における推論、動画のコード変換
P100	16 GB HBM2 @ 732 GBps	なし	ML のトレーニング、推論、HPC、リモート可視化のワークステーション

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティングパフォーマンス

GPU モデル	FP64	FP32	FP16	INT8
H100 80GB	34 TFLOPS	67 TFLOPS
A100 80 GB	9.7 TFLOPS	19.5 TFLOPS
A100 40 GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS^*	30.3 TFLOPS
T4	0.25 TFLOPS^*	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS^*	5.5 TFLOPS		22 TOPS^†
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS

^*FP64 コードを正しく動作させるため、T4、L4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェアユニットが組み込まれています。
^†TeraOperations/秒

Tensor Core のパフォーマンス

GPU モデル	FP64	TF32	混合精度 FP16/FP32	INT8	INT4	FP8
H100 80GB	67 TFLOPS	989 TFLOPS^†	1,979 TFLOPS^*、†	3,958 TOPS^†		3,958 TFLOPS^†
A100 80 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1,248 TOPS
A100 40 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1,248 TOPS
L4		120 TFLOPS^†	242 TFLOPS^*、†	485 TOPS^†		485 TFLOPS^†
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

^* 混合精度トレーニングでは、NVIDIA H100、A100、L4 GPU は bfloat16 データ型もサポートします。
^† H100 GPU と L4 GPU では、構造的スパース性がサポートされており、これを使用してパフォーマンス値を 2 倍にできます。表示される値にはスパース性があります。スパース性なしでは、仕様は半減します。

次のステップ

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。
GPU のリージョンとゾーンの可用性を確認する。
GPU の料金について学習する。