GPU プラットフォーム

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Compute Engine は、仮想マシン(VM)インスタンスに追加できるグラフィック プロセッシング ユニット(GPU)を備えています。これらの GPU を使用して、VM で実行される機械学習やデータ処理などの特定のワークロードを高速化できます。

Compute Engine では NVIDIA GPU が VM にパススルー モードで提供されるため、VM で GPU と関連メモリを直接制御できます。

3D 可視化、3D レンダリング、仮想アプリケーションなどのグラフィックを多用するワークロードが存在する場合、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用できます。

このドキュメントでは、Compute Engine で使用可能な別の GPU モデルの概要について説明します。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

コンピューティング ワークロード用の NVIDIA GPU

コンピューティング ワークロードの場合、GPU モデルは次の段階で利用できます。

  • NVIDIA A100
    • NVIDIA A100 40GB: 一般提供
    • NVIDIA A100 80GB: 一般提供
  • NVIDIA T4: nvidia-tesla-t4: 一般提供
  • NVIDIA V100: nvidia-tesla-v100: 一般提供
  • NVIDIA P100: nvidia-tesla-p100: 一般提供
  • NVIDIA P100: nvidia-tesla-p4: 一般提供
  • NVIDIA K80: nvidia-tesla-k80: 一般提供

NVIDIA A100 GPU

NVIDIA A100 GPU を実行する場合は、アクセラレータ最適化(A2)マシンタイプを使用する必要があります。

各 A2 マシンタイプには、固定の GPU 数、vCPU 数、メモリサイズが設定されています。

A100 40GB

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA A100 40GB a2-highgpu-1g 1 GPU 40 GB HBM2 12 vCPU 85 GB あり
a2-highgpu-2g 2 GPU 80 GB HBM2 24 vCPU 170 GB あり
a2-highgpu-4g 4 GPU 160 GB HBM2 48 vCPU 340 GB あり
a2-highgpu-8g 8 GPU 320 GB HBM2 96 vCPU 680 GB あり
a2-megagpu-16g 16 GPU 640 GB HBM2 96 vCPU 1,360 GB あり

A100 80GB

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA A100 80GB a2-ultragpu-1g 1 GPU 80 GB HBM2e 12 vCPU 170 GB バンドル(375 GB)
a2-ultragpu-2g 2 GPU 160 GB HBM2e 24 vCPU 340 GB バンドル(750 GB)
a2-ultragpu-4g 4 GPU 320 GB HBM2e 48 vCPU 680 GB バンドル(1.5 TB)
a2-ultragpu-8g 8 GPU 640 GB HBM2e 96 vCPU 1,360 GB バンドル(3 TB)

NVIDIA T4 GPU

GPU 数が少ない VM の場合は、vCPU の最大数に制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA T4 N1 共有コアを除く N1 マシンシリーズ 1 GPU 16 GB GDDR6 1~48 vCPU 1~312 GB あり
2 GPU 32 GB GDDR6 1~48 vCPU 1~312 GB あり
4 GPU 64 GB GDDR6 1~96 vCPU 1~624 GB あり

NVIDIA P4 GPUs

P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P4 N1 共有コアを除く N1 マシンシリーズ 1 GPU 8 GB GDDR5 1~24 vCPU 1~156 GB あり
2 GPU 16 GB GDDR5 1~48 vCPU 1~312 GB あり
4 GPU 32 GB GDDR5 1~96 vCPU 1~624 GB あり

NVIDIA V100 GPUs

V100 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA V100 N1 共有コアを除く N1 マシンシリーズ 1 GPU 16 GB HBM2 1~12 vCPU 1~78 GB あり
2 GPU 32 GB HBM2 1~24 vCPU 1~156 GB あり
4 GPU 64 GB HBM2 1~48 vCPU 1~312 GB あり
8 GPU 128 GB HBM2 1~96 vCPU 1~624 GB あり

NVIDIA P100 GPUs

P100 GPU によっては、一部の構成で使用可能な最大 CPU とメモリが、GPU リソースを使用するゾーンによって異なります。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P100 N1 共有コアを除く N1 マシンシリーズ 1 GPU 16 GB HBM2 1~16 vCPU 1~104 GB あり
2 GPU 32 GB HBM2 1~32 vCPU 1~208 GB あり
4 GPU 64 GB HBM2

1~64 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1~96 vCPU
(すべての P100 ゾーン)

1~208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1~624 GB
(すべての P100 ゾーン)

あり

NVIDIA K80 GPUs

NVIDIA K80 ボードには、それぞれ 2 個の GPU が搭載されています。K80 GPU の料金は、ボード単位ではなく、GPU 単位で課金されます。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA K80 N1 共有コアを除く N1 マシンシリーズ 1 GPU 12 GB GDDR5 1~8 vCPU 1~52 GB あり
2 GPU 24 GB GDDR5 1~16 vCPU 1~104 GB あり
4 GPU 48 GB GDDR5 1~32 vCPU 1~208 GB あり
8 GPU 96 GB GDDR5 1~64 vCPU

1~416 GB
(asia-east1-a と us-east1-d)

1~208 GB
(すべての K80 ゾーン)

あり

グラフィック ワークロード用の NVIDIA RTX 仮想ワークステーション

3D 表示などのグラフィックを多用するワークロードが存在する場合は、NVIDIA RTX 仮想ワークステーション(旧称 NVIDIA GRID)を使用する仮想ワークステーションを作成できます。仮想ワークステーションを作成すると、NVIDIA RTX 仮想ワークステーション ライセンスが自動的に VM に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

グラフィック ワークロードの場合、NVIDIA RTX 仮想ワークステーション モデルは次の段階で利用できます。

  • NVIDIA T4 仮想ワークステーション: nvidia-tesla-t4-vws: 一般提供
  • NVIDIA P100 仮想ワークステーション: nvidia-tesla-p100-vws: 一般提供
  • NVIDIA P4 仮想ワークステーション: nvidia-tesla-p4-vws: 一般提供

NVIDIA T4 VWS GPUs

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA T4 仮想ワークステーション N1 共有コアを除く N1 マシンシリーズ 1 GPU 16 GB GDDR6 1~48 vCPU 1~312 GB あり
2 GPU 32 GB GDDR6 1~48 vCPU 1~312 GB あり
4 GPU 64 GB GDDR6 1~96 vCPU 1~624 GB あり

NVIDIA P4 VWS GPUs

P4 GPU の場合、ローカル SSD は一部のリージョンでのみサポートされます。GPU のリージョンとゾーンごとのローカル SSD の可用性をご覧ください。

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P4 仮想ワークステーション N1 共有コアを除く N1 マシンシリーズ 1 GPU 8 GB GDDR5 1~16 vCPU 1~156 GB あり
2 GPU 16 GB GDDR5 1~48 vCPU 1~312 GB あり
4 GPU 32 GB GDDR5 1~96 vCPU 1~624 GB あり

NVIDIA P100 VWS GPUs

GPU モデル マシンタイプ GPU GPU メモリ 利用可能な vCPU 数 利用可能なメモリ サポート対象のローカル SSD
NVIDIA P100 仮想ワークステーション N1 共有コアを除く N1 マシンシリーズ 1 GPU 16 GB HBM2 1~16 vCPU 1~104 GB あり
2 GPU 32 GB HBM2 1~32 vCPU 1~208 GB あり
4 GPU 64 GB HBM2

1~64 vCPU
(us-east1-c、europe-west1-d、europe-west1-b)

1~96 vCPU
(すべての P100 ゾーン)

1~208 GB
(us-east1-c、europe-west1-d、europe-west1-b)

1~624 GB
(すべての P100 ゾーン)

あり

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的な ワークロード タイプを示します。

GPU モデル メモリ 相互接続 NVIDIA RTX 仮想ワークステーションのサポート 最適な用途
A100 80GB 80 GB HBM2e @ 1.9 TB/秒 NVLink Full Mesh@ 600 GB/秒 ML トレーニング、推論、HPC、BERT、DLRM 用の膨大なデータテーブルを持つ大規模なモデル
A100 40GB 40 GB HBM2@ 1.6 TB/秒 NVLink Full Mesh@ 600 GB/秒 機械学習のトレーニング、推論、HPC
T4 16 GB GDDR6@ 320 GB/秒 該当なし 機械学習における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100 16 GB HBM2@ 900 GB/秒 NVLink Ring@ 300 GB/秒 機械学習のトレーニング、推論、HPC
P4 8 GB GDDR5@ 192 GB/秒 該当なし リモート可視化のワークステーション、機械学習における推論、動画のコード変換
P100 16 GB HBM2@ 732 GB/秒 該当なし 機械学習のトレーニング、推論、HPC、リモート可視化のワークステーション
K80 12 GB GDDR5@ 240 GB/秒 該当なし 機械学習における推論、トレーニング、HPC

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンス比較表

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティング パフォーマンス

GPU モデル FP64 FP32 FP16 INT8
A100 80GB 9.7 TFLOPS 19.5 TFLOPS
A100 40GB 9.7 TFLOPS 19.5 TFLOPS
T4 0.25 TFLOPS* 8.1 TFLOPS
V100 7.8 TFLOPS 15.7 TFLOPS
P4 0.2 TFLOPS* 5.5 TFLOPS 22 TOPS
P100 4.7 TFLOPS 9.3 TFLOPS 18.7 TFLOPS
K80 1.46 TFLOPS 4.37 TFLOPS

* FP64 コードを正しく動作させるため、T4 および P4 GPU アーキテクチャには、少数の FP64 ハードウェア ユニットが組み込まれています。

TeraOperations per Second.

Tensor Core のパフォーマンス

GPU モデル FP64 TF32 混合精度 FP16/FP32 INT8 INT4
A100 80GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
A100 40GB 19.5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
T4 65 TFLOPS 180 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100
K80

* 混合精度トレーニングでは、NVIDIA A100 は bfloat16 データ型もサポートします。

次のステップ