GPU マシンタイプ

このドキュメントでは、Compute Engine で使用可能な NVIDIA GPU モデルの概要について説明します。これらのモデルを使用すると、仮想マシン（VM）インスタンスで ML、データ処理、グラフィック処理を多用するワークロードを高速化できます。このドキュメントでは、A4X、A4、A3、A2、G4、G2 などのアクセラレータ最適化マシンシリーズに事前アタッチされている GPU と、N1 汎用インスタンスにアタッチできる GPU についても詳しく説明します。

このドキュメントでは、さまざまな GPU モデルのパフォーマンス、メモリ、機能を比較します。CPU プラットフォーム、ストレージオプション、ネットワーキング機能などのアクセラレータ最適化マシンファミリーの詳細な概要と、ワークロードに一致する特定のマシンタイプについては、アクセラレータ最適化マシンファミリーをご覧ください。

Compute Engine 上の GPU の詳細については、GPU についてをご覧ください。

Compute Engine の GPU で使用可能なリージョンとゾーンを確認するには、GPU のリージョンとゾーンの可用性をご覧ください。

GPU マシンタイプ

Compute Engine には、さまざまなワークロードをサポートするさまざまなマシンタイプが用意されています。

一部のマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。NVIDIA RTX 仮想ワークステーションを使用するインスタンスを作成すると、Compute Engine によって vWS ライセンスが自動的に追加されます。仮想ワークステーションの料金については、GPU の料金ページをご覧ください。

GPU マシンタイプ
AI と ML のワークロード	グラフィックと可視化	その他の GPU ワークロード
アクセラレータ最適化 A シリーズマシンタイプは、ハイパフォーマンスコンピューティング（HPC）、AI、ML のワークロード向けに設計されています。後世代の A シリーズは、アクセラレータの大規模なクラスタを必要とする基盤モデルの事前トレーニングとファインチューニングに最適です。一方、A2 シリーズは、小規模なモデルのトレーニングと単一ホストの推論に使用できます。これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。	アクセラレータ最適化 G シリーズマシンタイプは、NVIDIA Omniverse シミュレーションワークロード、グラフィック処理を多用するアプリケーション、動画のコード変換、仮想デスクトップなどのワークロード向けに設計されています。これらのマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。 G シリーズは、小規模なモデルのトレーニングや単一ホストの推論にも使用できます。これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。	N1 共有コア（`f1-micro` と `g1-small`）を除く N1 汎用マシンタイプには、選択した GPU モデルのセットをアタッチできます。これらの GPU モデルの一部は、NVIDIA RTX 仮想ワークステーション（vWS）もサポートしています。
A4X （NVIDIA GB200 Superchip）（`nvidia-gb200`） A4 （NVIDIA B200）（`nvidia-b200`） A3 Ultra （NVIDIA H200）（`nvidia-h200-141gb`） A3 Mega （NVIDIA H100）（`nvidia-h100-mega-80gb`） A3 High （NVIDIA H100）（`nvidia-h100-80gb`） A3 Edge （NVIDIA H100）（`nvidia-h100-80gb`） A2 Ultra （NVIDIA A100 80 GB）（`nvidia-a100-80gb`） A2 Standard （NVIDIA A100）（`nvidia-a100-40gb`）	G4（NVIDIA RTX PRO 6000）（`nvidia-rtx-pro-6000`）（`nvidia-rtx-pro-6000-vws`） G2（NVIDIA L4）（`nvidia-l4`）（`nvidia-l4-vws`）	次の GPU モデルを N1 汎用マシンタイプにアタッチできます。 NVIDIA T4 （`nvidia-tesla-t4`）（`nvidia-tesla-t4-vws`） NVIDIA P4 （`nvidia-tesla-p4`）（`nvidia-tesla-p4-vws`） NVIDIA V100 （`nvidia-tesla-v100`） NVIDIA P100 （`nvidia-tesla-p100`）（`nvidia-tesla-p100-vws`）

GPU マシンタイプ

AI と ML のワークロードグラフィックと可視化その他の GPU ワークロード

アクセラレータ最適化 A シリーズマシンタイプは、ハイパフォーマンスコンピューティング（HPC）、AI、ML のワークロード向けに設計されています。

後世代の A シリーズは、アクセラレータの大規模なクラスタを必要とする基盤モデルの事前トレーニングとファインチューニングに最適です。一方、A2 シリーズは、小規模なモデルのトレーニングと単一ホストの推論に使用できます。

これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。

アクセラレータ最適化 G シリーズマシンタイプは、NVIDIA Omniverse シミュレーションワークロード、グラフィック処理を多用するアプリケーション、動画のコード変換、仮想デスクトップなどのワークロード向けに設計されています。これらのマシンタイプは、NVIDIA RTX 仮想ワークステーション（vWS）をサポートしています。

G シリーズは、小規模なモデルのトレーニングや単一ホストの推論にも使用できます。

これらのマシンタイプの場合、GPU モデルはインスタンスに自動的にアタッチされます。

N1 共有コア（f1-micro と g1-small）を除く N1 汎用マシンタイプには、選択した GPU モデルのセットをアタッチできます。これらの GPU モデルの一部は、NVIDIA RTX 仮想ワークステーション（vWS）もサポートしています。

A4X （NVIDIA GB200 Superchip）
（nvidia-gb200）
A4 （NVIDIA B200）
（nvidia-b200）
A3 Ultra （NVIDIA H200）
（nvidia-h200-141gb）
A3 Mega （NVIDIA H100）
（nvidia-h100-mega-80gb）
A3 High （NVIDIA H100）
（nvidia-h100-80gb）
A3 Edge （NVIDIA H100）
（nvidia-h100-80gb）
A2 Ultra （NVIDIA A100 80 GB）
（nvidia-a100-80gb）
A2 Standard （NVIDIA A100）
（nvidia-a100-40gb）

G4（NVIDIA RTX PRO 6000）
（nvidia-rtx-pro-6000）
（nvidia-rtx-pro-6000-vws）
G2（NVIDIA L4）
（nvidia-l4）
（nvidia-l4-vws）

次の GPU モデルを N1 汎用マシンタイプにアタッチできます。

NVIDIA T4
（nvidia-tesla-t4）
（nvidia-tesla-t4-vws）
NVIDIA P4
（nvidia-tesla-p4）
（nvidia-tesla-p4-vws）
NVIDIA V100
（nvidia-tesla-v100）
NVIDIA P100
（nvidia-tesla-p100）
（nvidia-tesla-p100-vws）

一部の GPU マシンタイプは AI Hypercomputer でも使用できます。AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティングシステムです。このオプションは、Google Kubernetes Engine（GKE）スケジューラや Slurm スケジューラの統合を含む、パフォーマンスが最適化された密な割り当てのインフラストラクチャを作成する場合に推奨されます。

A4X マシンシリーズ

A4X アクセラレータ最適化マシンタイプは、NVIDIA GB200 Grace Blackwell Superchip（nvidia-gb200）を使用しており、基盤モデルのトレーニングとサービングに最適です。

A4X は、NVIDIA GB200 NVL72 に基づくエクサスケールプラットフォームです。各マシンには、Arm Neoverse V2 コアの NVIDIA Grace CPU を搭載した 2 つのソケットがあります。これらの CPU は、高速チップ間（NVLink-C2C）通信対応の 4 つの NVIDIA B200 Blackwell GPU に接続されています。

						アタッチされた NVIDIA GB200 Grace Blackwell Superchip
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM3e）
`a4x-highgpu-4g`	140	884	12,000	6	2,000	4	720

¹ vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェアハイパースレッドとして実装されます。
² 最大下り（外向き）帯域幅は許容数を超えることはできません。実際の下り（外向き）帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅の詳細については、ネットワーク帯域幅をご覧ください。
³ GPU メモリは GPU デバイスのメモリであり、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

A4 マシンシリーズ

A4 アクセラレータ最適化マシンタイプには、NVIDIA B200 Blackwell GPU（nvidia-b200）がアタッチされており、基盤モデルのトレーニングとサービングに最適です。

						アタッチされた NVIDIA B200 Blackwell GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM3e）
`a4-highgpu-8g`	224	3,968	12,000	10	3,600	8	1,440

A3 マシンシリーズ

A3 アクセラレータ最適化マシンタイプには、NVIDIA H100 SXM または NVIDIA H200 SXM GPU がアタッチされています。

A3 Ultra マシンタイプ

A3 Ultra マシンタイプには NVIDIA H200 SXM GPU（nvidia-h200-141gb）がアタッチされており、A3 シリーズで最も高いネットワークパフォーマンスを提供します。A3 Ultra マシンタイプは、基盤モデルのトレーニングとサービングに最適です。

						アタッチされた NVIDIA H200 GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM3e）
`a3-ultragpu-8g`	224	2,952	12,000	10	3,600	8	1128

A3 Mega、High、Edge マシンタイプ

NVIDIA H100 SXM GPU を使用するには、次のオプションがあります。

A3 Mega: これらのマシンタイプには H100 SXM GPU（nvidia-h100-mega-80gb）がアタッチされており、大規模なトレーニングとサービングワークロードに最適です。
A3 High: これらのマシンタイプには H100 SXM GPU（nvidia-h100-80gb）がアタッチされており、トレーニングとサービングタスクの両方に適しています。
A3 Edge: これらのマシンタイプには H100 SXM GPU（nvidia-h100-80gb）がアタッチされており、サービング専用に設計されています。限定されたリージョンセットで使用できます。

A3 Mega

ヒント: a3-megagpu-8g マシンタイプをプロビジョニングする場合は、これらのインスタンスのクラスタを使用し、Google Kubernetes Engine（GKE）や Slurm などのスケジューラでデプロイすることをおすすめします。これらのオプションの詳しい使用方法については以下をご覧ください。

Google Kubernetes Engine クラスタを作成するには、GKE を使用して A3 Mega クラスタをデプロイするをご覧ください。
Slurm クラスタを作成するには、A3 Mega Slurm クラスタをデプロイするをご覧ください。

						アタッチされた NVIDIA H100 GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM3）
`a3-megagpu-8g`	208	1,872	6,000	9	1,800	8	640

A3 High

ヒント: a3-highgpu-1g、a3-highgpu-2g、または a3-highgpu-4g マシンタイプをプロビジョニングする場合は、Spot VM または Flex-start VM を使用してインスタンスを作成する必要があります。これらのオプションの詳細な手順については、以下をご覧ください。

Spot VM を作成するには、アクセラレータ最適化 VM を作成するときにプロビジョニングモデルを SPOT に設定します。
Flex Start VM を作成するには、次のいずれかの方法を使用します。
- スタンドアロン VM を作成し、アクセラレータ最適化 VM を作成するときにプロビジョニングモデルを FLEX_START に設定します。
- マネージドインスタンスグループ（MIG）でサイズ変更リクエストを作成します。手順については、GPU VM を使用して MIG を作成するをご覧ください。

						アタッチされた NVIDIA H100 GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM3）
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1,500	1	50	2	160
`a3-highgpu-4g`	104	936	3,000	1	100	4	320
`a3-highgpu-8g`	208	1,872	6,000	5	1,000	8	640

A3 Edge

						アタッチされた NVIDIA H100 GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	物理 NIC の数	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM3）
`a3-edgegpu-8g`	208	1,872	6,000	5	800: asia-south1 と northamerica-northeast2 の場合 400: その他のすべての A3 Edge リージョン	8	640

A2 マシンシリーズ

A2 アクセラレータ最適化マシンタイプには NVIDIA A100 GPU がアタッチされており、モデルのファインチューニング、大規模モデル、費用最適化された推論に最適です。

A2 マシンシリーズは次の 2 つのタイプで用意されています。

A2 Ultra: A100 80 GB GPU（nvidia-a100-80gb）とローカル SSD ディスクがアタッチされるマシンタイプです。
A2 Standard: A100 40 GB GPU（nvidia-tesla-a100）がアタッチされているマシンタイプです。A2 標準インスタンスの作成時にローカル SSD ディスクを追加することもできます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。

A2 Ultra

					アタッチされた NVIDIA A100 80 GB GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	アタッチされたローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM2e）
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1,500	50	4	320
`a2-ultragpu-8g`	96	1,360	3,000	100	8	640

A2 標準

					アタッチされた NVIDIA A100 40 GB GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	サポート対象のローカル SSD	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³ （GB HBM2）
`a2-highgpu-1g`	12	85	はい	24	1	40
`a2-highgpu-2g`	24	170	はい	32	2	80
`a2-highgpu-4g`	48	340	はい	50	4	160
`a2-highgpu-8g`	96	680	はい	100	8	320
`a2-megagpu-16g`	96	1,360	はい	100	16	640

G4 マシンシリーズ

G4 アクセラレータ最適化マシンタイプは、NVIDIA RTX PRO 6000 Blackwell Server Edition GPU（nvidia-rtx-pro-6000）を使用し、NVIDIA Omniverse シミュレーションワークロード、グラフィックを多用するアプリケーション、動画のコード変換、仮想デスクトップに適しています。また、G4 マシンタイプは、A シリーズのマシンタイプと比較して、単一ホストの推論とモデルチューニングを実行するための低コストのソリューションを実現します。

G4 シリーズの主な機能は、マルチ GPU マシンタイプ（g4-standard-96、g4-standard-192、g4-standard-384）での GPU 間の直接 P2P 通信のサポートです。これにより、同じインスタンス内の GPU が CPU ホストを介さずに PCIe バス経由で直接データを交換できます。G4 GPU ピアツーピア通信の詳細については、G4 GPU ピアツーピア通信をご覧ください。

						アタッチされた NVIDIA RTX PRO 6000 GPU
マシンタイプ	vCPU 数¹	インスタンスのメモリ（GB）	サポートされている Titanium SSD の最大容量（GiB）²	物理 NIC の数	最大ネットワーク帯域幅（Gbps）³	GPU 数	GPU メモリ⁴ （GB GDDR7）
`g4-standard-48`	48	180	1,500	1	50	1	96
`g4-standard-96`	96	360	3,000	1	100	2	192
`g4-standard-192`	192	720	6,000	1	200	4	384
`g4-standard-384`	384	1,440	12,000	2	400	8	768

¹ vCPU は、利用可能な CPU プラットフォームのいずれかで単一のハードウェアハイパースレッドとして実装されます。
² G4 インスタンスの作成時に Titanium SSD ディスクを追加できます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。
³ 最大下り（外向き）帯域幅は許容数を超えることはできません。実際の下り（外向き）帯域幅は、宛先 IP アドレスやその他の要因によって異なります。ネットワーク帯域幅をご覧ください。
⁴ GPU メモリは GPU デバイスのメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

G2 マシンシリーズ

G2 アクセラレータ最適化マシンタイプには NVIDIA L4 GPU がアタッチされており、費用対効果に優れた推論、グラフィック処理を多用するワークロード、ハイパフォーマンスコンピューティングワークロードに最適です。

各 G2 マシンタイプにはデフォルトのメモリとカスタムメモリ範囲もあります。カスタムメモリ範囲はマシンタイプごとにインスタンスに割り当てることができるメモリの量を定義します。G2 インスタンスの作成時にローカル SSD ディスクを追加することもできます。アタッチできるディスクの数については、複数のローカル SSD ディスクを選択する必要があるマシンタイプをご覧ください。

						アタッチされた NVIDIA L4 GPU
マシンタイプ	vCPU 数¹	デフォルトのインスタンスメモリ（GB）	カスタムインスタンスメモリ範囲（GB）	サポート対象の最大ローカル SSD（GiB）	最大ネットワーク帯域幅（Gbps）²	GPU 数	GPU メモリ³（GB GDDR6）
`g2-standard-4`	4	16	16～32	375	10	1	24
`g2-standard-8`	8	32	32～54	375	16	1	24
`g2-standard-12`	12	48	48～54	375	16	1	24
`g2-standard-16`	16	64	54～64	375	32	1	24
`g2-standard-24`	24	96	96～108	750	32	2	48
`g2-standard-32`	32	128	96～128	375	32	1	24
`g2-standard-48`	48	192	192～216	1,500	50	4	96
`g2-standard-96`	96	384	384～432	3,000	100	8	192

N1 マシンシリーズ

N1 共有コアマシンタイプを除き、次の GPU モデルを N1 マシンタイプにアタッチできます。

アクセラレータ最適化マシンシリーズのマシンタイプとは異なり、N1 マシンタイプにはアタッチされた GPU の数が設定されていません。代わりに、インスタンスの作成時にアタッチする GPU の数を指定します。

GPU 数が少ない N1 インスタンスでは、vCPU の最大数が制限されます。一般的に、GPU の数が多いほど、vCPU 数が多くメモリサイズが大きいインスタンスを作成できます。

N1+T4 GPU

次のインスタンス構成で、NVIDIA T4 GPU を N1 汎用インスタンスにアタッチできます。

アクセラレータタイプ	GPU 数	GPU メモリ¹（GB GDDR6）	vCPU 数	インスタンスのメモリ（GB）	サポート対象のローカル SSD
`nvidia-tesla-t4` または `nvidia-tesla-t4-vws`	1	16	1～48	1～312	はい
	2	32	1～48	1～312	はい
	4	64	1～96	1～624	はい

¹ GPU メモリは GPU デバイスで利用可能なメモリであり、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。

N1+P4 GPU

次のインスタンス構成で、NVIDIA P4 GPU を N1 汎用インスタンスにアタッチできます。

アクセラレータタイプ	GPU 数	GPU メモリ¹（GB GDDR5）	vCPU 数	インスタンスのメモリ（GB）	サポート対象のローカル SSD²
`nvidia-tesla-p4` または `nvidia-tesla-p4-vws`	1	8	1～24	1～156	はい
	2	16	1～48	1～312	はい
	4	32	1～96	1～624	はい

¹ GPU メモリは GPU デバイスで利用可能なメモリで、データの一時的な保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
² NVIDIA P4 GPU がアタッチされているインスタンスの場合、ローカル SSD ディスクはゾーン us-central1-c と northamerica-northeast1-b でのみサポートされます。

N1+V100 GPU

次のインスタンス構成で、NVIDIA V100 GPU を N1 汎用インスタンスにアタッチできます。

アクセラレータタイプ	GPU 数	GPU メモリ¹（GB HBM2）	vCPU 数	インスタンスのメモリ（GB）	サポート対象のローカル SSD²
`nvidia-tesla-v100`	1	16	1～12	1～78	はい
	2	32	1～24	1～156	はい
	4	64	1～48	1～312	はい
	8	128	1～96	1～624	はい

¹ GPU メモリは GPU デバイスで利用可能なメモリであり、一時的なデータ保存に使用できます。これはインスタンスのメモリとは別のものであり、グラフィックを多用するワークロードの高帯域幅の需要に対応するように設計されています。
² NVIDIA V100 GPU がアタッチされているインスタンスの場合、us-east1-c ではローカル SSD ディスクがサポートされません。

N1+P100 GPU

次のインスタンス構成で、NVIDIA P100 GPU を N1 汎用インスタンスにアタッチできます。

一部の NVIDIA P100 GPU では、一部の構成で使用できる CPU とメモリの最大値が、GPU リソースが実行されているゾーンによって異なります。

アクセラレータタイプ	GPU 数	GPU メモリ¹（GB HBM2）	ゾーン	vCPU 数	インスタンスのメモリ（GB）	サポート対象のローカル SSD
`nvidia-tesla-p100` または `nvidia-tesla-p100-vws`	1	16	すべての P100 ゾーン	1～16	1～104	はい
	2	32	すべての P100 ゾーン	1～32	1～208	はい
	4	64	`us-east1-c`、 `europe-west1-d`、 `europe-west1-b`	1～64	1～208	はい
	4	64	その他のすべての P100 ゾーン	1～96	1～624	はい

一般的な比較表

次の表に、Compute Engine で利用可能な GPU モデルのメモリサイズ、機能の可用性、理想的なワークロードタイプを示します。

GPU モデル	GPU メモリ	相互接続	最適な用途
GB200	180 GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	LLM、Recommender、HPC の大規模な分散トレーニングと推論
B200	180 GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	LLM、Recommender、HPC の大規模な分散トレーニングと推論
H200	141 GB HBM3e @ 4.8 TBps	NVLink Full Mesh @ 900 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
H100	80 GB HBM3 @ 3.35 TBps	NVLink Full Mesh @ 900 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 80 GB	80 GB HBM2e @ 1.9 TBps	NVLink Full Mesh @ 600 GBps	ML のトレーニング、推論、HPC、BERT、DLRM 用の大量のデータテーブルを使用する大規模モデル
A100 40 GB	40 GB HBM2 @ 1.6 TBps	NVLink Full Mesh @ 600 GBps	ML のトレーニング、推論、HPC
RTX PRO 6000	96 GB GDDR7（ECC を使用）@ 1,597 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
L4	24 GB GDDR6 @ 300 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換、HPC
T4	16 GB GDDR6 @ 320 GBps	なし	ML における推論、トレーニング、リモート可視化のワークステーション、動画のコード変換
V100	16 GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	ML のトレーニング、推論、HPC
P4	8 GB GDDR5 @ 192 GBps	なし	リモート可視化のワークステーション、ML における推論、動画のコード変換
P100	16 GB HBM2 @ 732 GBps	なし	ML のトレーニング、推論、HPC、リモート可視化のワークステーション

Compute Engine で利用可能な GPU モデルとリージョンごとの料金については、GPU の料金をご覧ください。

パフォーマンスの比較グラフ

次の表に、Compute Engine で使用可能な別の GPU モデルのパフォーマンス仕様を示します。

コンピューティングパフォーマンス

GPU モデル	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200	34 TFLOPS	67 TFLOPS
H100	34 TFLOPS	67 TFLOPS
A100 80 GB	9.7 TFLOPS	19.5 TFLOPS
A100 40 GB	9.7 TFLOPS	19.5 TFLOPS
L4	0.5 TFLOPS¹	30.3 TFLOPS
T4	0.25 TFLOPS¹	8.1 TFLOPS
V100	7.8 TFLOPS	15.7 TFLOPS
P4	0.2 TFLOPS¹	5.5 TFLOPS		22 TOPS²
P100	4.7 TFLOPS	9.3 TFLOPS	18.7 TFLOPS

¹ FP64 コードを正しく動作させるため、T4、L4、P4 GPU アーキテクチャには、少数の FP64 ハードウェアユニットが組み込まれています。
² TeraOperations/秒

Tensor Core のパフォーマンス

GPU モデル	FP64	TF32	混合精度 FP16/FP32	INT8	INT4	FP8
GB200	90 TFLOPS	2,500 TFLOPS²	5,000 TFLOPS^1,2	10,000 TFLOPS²	20,000 TFLOPS²	10,000 TFLOPS²
B200	40 TFLOPS	1,100 TFLOPS²	4,500 TFLOPS^1,2	9,000 TFLOPS²		9,000 TFLOPS²
H200	67 TFLOPS	989 TFLOPS²	1,979 TFLOPS^1,2	3,958 TOPS²		3,958 TFLOPS²
H100	67 TFLOPS	989 TFLOPS²	1,979 TFLOPS^1,2	3,958 TOPS²		3,958 TFLOPS²
A100 80GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1,248 TOPS
A100 40 GB	19.5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1,248 TOPS
L4		120 TFLOPS²	242 TFLOPS^1,2	485 TOPS²		485 TFLOPS²
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

¹ 混合適合率トレーニングでは、NVIDIA GB200、B200、H200、H100、A100、L4 GPU は bfloat16 データタイプもサポートします。
² NVIDIA GB200、B200、H200、H100、L4 GPU は構造的スパース性をサポートしています。構造的スパース性を使用すると、モデルのパフォーマンスを 2 倍にできます。記載されている値は、構造化スパース性を使用する場合に適用されます。構造化スパース性を使用していない場合、値は半分になります。

次のステップ

Compute Engine の GPU の詳細を確認する。
GPU のリージョンとゾーンの可用性を確認する。
ネットワーク帯域幅と GPU を確認する。
GPU の料金の詳細を確認する。

GPU マシンタイプ

GPU マシンタイプ

A4X マシンシリーズ

A4 マシンシリーズ

A3 マシンシリーズ

A3 Ultra マシンタイプ

A3 Mega、High、Edge マシンタイプ

A3 Mega

A3 High

A3 Edge

A2 マシンシリーズ

A2 Ultra

A2 標準

G4 マシンシリーズ

G2 マシンシリーズ

N1 マシンシリーズ

N1+T4 GPU

N1+P4 GPU

N1+V100 GPU

N1+P100 GPU

一般的な比較表

パフォーマンスの比較グラフ

コンピューティング パフォーマンス

Tensor Core のパフォーマンス

次のステップ

コンピューティングパフォーマンス