GPU プラットフォーム


Compute Engine は、仮想マシン(VM)インスタンスに追加できるグラフィック プロセッシング ユニット(GPU)を備えています。これらの GPU を使用して、VM で実行される ML やデータ処理などの特定のワークロードを高速化できます。

Compute Engine では NVIDIA GPU が VM にパススルー モードで提供されるため、VM で GPU と関連メモリを直接制御できます。

3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。

このドキュメントでは、Compute Engine で使用可能な別の GPU モデルの概要について説明します。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

コンピューティング ワークロード用の NVIDIA GPU

コンピューティング ワークロードの場合、GPU モデルは次の段階で利用できます。

  • NVIDIA H100 80 GB: nvidia-h100-80gb: 一般提供
  • NVIDIA L4: nvidia-l4: 一般提供
  • NVIDIA® A100
    • NVIDIA A100 40GB: nvidia-tesla-a100: 一般提供
    • NVIDIA A100 80GB: nvidia-a100-80gb: 一般提供
  • NVIDIA T4: nvidia-tesla-t4: 一般提供
  • NVIDIA V100: nvidia-tesla-v100: 一般提供
  • NVIDIA P100: nvidia-tesla-p100: 一般提供
  • NVIDIA P4: nvidia-tesla-p4: 一般提供
  • NVIDIA K80: nvidia-tesla-k80: 一般提供NVIDIA K80 のサポート終了をご覧ください。

NVIDIA H100 GPU

NVIDIA H100 80 GB GPU を実行するには、A3 アクセラレータ最適化マシンタイプを使用する必要があります。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA H100 a3-highgpu-8g 8 GPU 640 GB HBM3 208 vCPU 1,872 GB バンドル(6,000 GB)

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA L4 GPU

NVIDIA L4 GPU を実行するには、G2 アクセラレータ最適化マシンタイプを使用する必要があります。

各 G2 マシンタイプには、固定数の NVIDIA L4 GPU と vCPU がアタッチされます。各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとに VM に割り当てることができるメモリの量を定義します。カスタムメモリは VM の作成時に指定できます。

GPU モデル マシンタイプ GPU GPU メモリ* vCPU デフォルトのメモリ カスタムメモリ範囲 サポート対象の最大ローカル SSD
NVIDIA L4 g2-standard-4 1 個の GPU 24 GB GDDR6 4 vCPU 16 GB 16~32 GB 375 GB
g2-standard-8 1 個の GPU 24 GB GDDR6 8 vCPU 32 GB 32~54 GB 375 GB
g2-standard-12 1 個の GPU 24 GB GDDR6 12 vCPU 48 GB 48~54 GB 375 GB
g2-standard-16 1 個の GPU 24 GB GDDR6 16 vCPU 64 GB 54~64 GB 375 GB
g2-standard-24 2 GPU 48 GB GDDR6 24 vCPU 96 GB 96~108 GB 750 GB
g2-standard-32 1 個の GPU 24 GB GDDR6 32 vCPU 128 GB 96~128 GB 375 GB
g2-standard-48 4 GPU 96 GB GDDR6 48 vCPU 192 GB 192~216 GB 1,500 GB
g2-standard-96 8 GPU 192 GB GDDR6 96 vCPU 384 GB 384~432 GB 3,000 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA A100 GPU

NVIDIA A100 GPU を実行するには、A2 アクセラレータ最適化マシンタイプを使用する必要があります。

各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A100 40 GB

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA A100 40 GB a2-highgpu-1g 1 個の GPU 40 GB HBM2 12 vCPU 85 GB
a2-highgpu-2g 2 GPU 80 GB HBM2 24 vCPU 170 GB
a2-highgpu-4g 4 GPU 160 GB HBM2 48 vCPU 340 GB
a2-highgpu-8g 8 GPU 320 GB HBM2 96 vCPU 680 GB
a2-megagpu-16g 16 GPU 640 GB HBM2 96 vCPU 1,360 GB

A100 80 GB

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA A100 80 GB a2-ultragpu-1g 1 個の GPU 80 GB HBM2e 12 vCPU 170 GB バンドル(375 GB)
a2-ultragpu-2g 2 GPU 160 GB HBM2e 24 vCPU 340 GB バンドル(750 GB)
a2-ultragpu-4g 4 GPU 320 GB HBM2e 48 vCPU 680 GB バンドル(1.5 TB)
a2-ultragpu-8g 8 GPU 640 GB HBM2e 96 vCPU 1,360 GB バンドル(3 TB)

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA T4 GPU

GPU 数が少ない VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA T4 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB GDDR6 1~48 vCPU 1~312 GB
2 GPU 32 GB GDDR6 1~48 vCPU 1~312 GB
4 GPU 64 GB GDDR6 1~96 vCPU 1~624 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA P4 GPU

P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P4 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 8 GB GDDR5 1~24 vCPU 1~156 GB
2 GPU 16 GB GDDR5 1~48 vCPU 1~312 GB
4 GPU 32 GB GDDR5 1~96 vCPU 1~624 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA V100 GPU

V100 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA V100 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB HBM2 1~12 vCPU 1~78 GB
2 GPU 32 GB HBM2 1~24 vCPU 1~156 GB
4 GPU 64 GB HBM2 1~48 vCPU 1~312 GB
8 GPU 128 GB HBM2 1~96 vCPU 1~624 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA P100 GPU

一部の P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P100 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB HBM2 1~16 vCPU 1~104 GB
2 GPU 32 GB HBM2 1~32 vCPU 1~208 GB
4 GPU 64 GB HBM2

1~64 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1~96 vCPU
(すべての P100 ゾーン)

1~208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1~624 GB
(すべての P100 ゾーン)

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA K80 GPU

NVIDIA K80 ボードには、それぞれ 2 個の GPU が搭載されています。K80 GPU の料金は、ボード単位ではなく、GPU 単位で課金されます。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA K80 N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 12 GB GDDR5 1~8 vCPU 1~52 GB
2 GPU 24 GB GDDR5 1~16 vCPU 1~104 GB
4 GPU 48 GB GDDR5 1~32 vCPU 1~208 GB
8 GPU 96 GB GDDR5 1~64 vCPU

1~416 GB
(asia-east1-a と us-east1-d)

1~208 GB
(すべての K80 ゾーン)

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション(vWS)

3D 可視化などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(vWS)(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション(vWS)ライセンスが VM に自動的に追加されます。

仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション(vWS)モデルは次のステージで使用できます。

  • NVIDIA L4 仮想ワークステーション: nvidia-l4-vws: 一般提供
  • NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws: 一般提供
  • NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws: 一般提供
  • NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws: 一般提供

NVIDIA L4 vWS GPU

GPU モデル マシンタイプ GPU GPU メモリ vCPU デフォルトのメモリ カスタムメモリ範囲 サポート対象の最大ローカル SSD
NVIDIA L4 仮想ワークステーション g2-standard-4 1 個の GPU 24 GB GDDR6 4 vCPU 16 GB 16~32 GB 375 GB
g2-standard-8 1 個の GPU 24 GB GDDR6 8 vCPU 32 GB 32~54 GB 375 GB
g2-standard-12 1 個の GPU 24 GB GDDR6 12 vCPU 48 GB 48~54 GB 375 GB
g2-standard-16 1 個の GPU 24 GB GDDR6 16 vCPU 64 GB 54~64 GB 375 GB
g2-standard-24 2 GPU 48 GB GDDR6 24 vCPU 96 GB 96~108 GB 750 GB
g2-standard-32 1 個の GPU 24 GB GDDR6 32 vCPU 128 GB 96~128 GB 375 GB
g2-standard-48 4 GPU 96 GB GDDR6 48 vCPU 192 GB 192~216 GB 1,500 GB
g2-standard-96 8 GPU 192 GB GDDR6 96 vCPU 384 GB 384~432 GB 3,000 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA T4 vWS GPU

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA T4 仮想ワークステーション N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB GDDR6 1~48 vCPU 1~312 GB
2 GPU 32 GB GDDR6 1~48 vCPU 1~312 GB
4 GPU 64 GB GDDR6 1~96 vCPU 1~624 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA P4 vWS GPU

P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P4 仮想ワークステーション N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 8 GB GDDR5 1~16 vCPU 1~156 GB
2 GPU 16 GB GDDR5 1~48 vCPU 1~312 GB
4 GPU 32 GB GDDR5 1~96 vCPU 1~624 GB

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

NVIDIA P100 vWS GPU

GPU モデル マシンタイプ GPU GPU メモリ* 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P100 仮想ワークステーション N1 マシンシリーズ(N1 共有コアを除く) 1 個の GPU 16 GB HBM2 1~16 vCPU 1~104 GB
2 GPU 32 GB HBM2 1~32 vCPU 1~208 GB
4 GPU 64 GB HBM2

1~64 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1~96 vCPU
(すべての P100 ゾーン)

1~208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1~624 GB
(すべての P100 ゾーン)

*GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これは VM のメモリとは別に存在し、グラフィックを多用するワークロードの帯域幅の需要に対応するように設計されています。

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロード タイプを示します。

GPU モデル メモリ 相互接続 NVIDIA RTX 仮想ワークステーション(vWS)のサポート 最適な用途
H100 80GB 80 GB HBM3 @ 3.35 TBps NVLink Full Mesh @ 900 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 80 GB 80 GB HBM2e @ 1.9 TBps NVLink Full Mesh @ 600 GBps ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB 40 GB HBM2 @ 1.6 TBps NVLink Full Mesh @ 600 GBps ML のトレーニング、推論、HPC
L4 24 GB GDDR6 @ 300 GBps なし ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4 16 GB GDDR6 @ 320 GBps なし ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100 16 GB HBM2 @ 900 GBps NVLink Ring @ 300 GBps ML のトレーニング、推論、HPC
P4 8 GB GDDR5 @ 192 GBps なし リモート可視化のワークステーション、ML における推論、動画のコード変換
P100 16 GB HBM2 @ 732 GBps なし ML のトレーニング、推論、HPC、リモート可視化のワークステーション
K80EOL 12 GB GDDR5 @ 240 GBps なし ML における推論、トレーニング、HPC

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティング パフォーマンス

GPU モデル FP64 FP32 FP16 INT8
H100 80GB 34 TFLOPS 67 TFLOPS
A100 80 GB 9.7 TFLOPS 19.5 TFLOPS
A100 40 GB 9.7 TFLOPS 19.5 TFLOPS
L4 0.5 TFLOPS* 30.3 TFLOPS
T4 0.25 TFLOPS* 8.1 TFLOPS
V100 7.8 TFLOPS 15.7 TFLOPS
P4 0.2 TFLOPS* 5.5 TFLOPS 22 TOPS
P100 4.7 TFLOPS 9.3 TFLOPS 18.7 TFLOPS
K80EOL 1.46 TFLOPS 4.37 TFLOPS

*FP64 コードを正しく動作させるため、T4、L4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。

TeraOperations/秒

Tensor Core のパフォーマンス

GPU モデル FP64 TF32 混合精度 FP16/FP32 INT8 INT4 FP8
H100 80GB 67 TFLOPS 989 TFLOPS 1,979 TFLOPS*、† 3,958 TOPS 3,958 TFLOPS
A100 80 GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1,248 TOPS
A100 40 GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1,248 TOPS
L4 120 TFLOPS 242 TFLOPS*、† 485 TOPS 485 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100
K80EOL

* 混合精度トレーニングでは、NVIDIA H100、A100、L4 GPU は bfloat16 データ型もサポートします。

H100 GPU と L4 GPU では、構造的スパース性がサポートされており、これを使用してパフォーマンス値を 2 倍にできます。表示される値にはスパース性があります。スパース性なしでは、仕様は半減します。

次のステップ